LinuxKubernetes监控教程_Prometheus监控集群实战_运维开发

Prometheus 是 Kubernetes 生产环境主流监控方案，通过服务发现自动适配动态架构，推荐用 prometheus-operator 快速部署，支持业务指标接入、告警规则与 Alertmanager 通知。

Prometheus 是 Kubernetes 生产环境中最主流的监控方案，它原生支持容器指标采集、多维数据模型和强大查询能力，部署和集成也相对直接。

Kubernetes 动态性强，Pod 和 Service 频繁创建销毁，传统静态配置无法应对。Prometheus 通过 服务发现（Service Discovery） 自动识别目标：

使用 kubernetes_sd_configs 配置项，对接 kube-apiserver，自动发现 Node、Pod、Service、Endpoints、Ingress 等资源
配合 Relabel 规则过滤无关目标（如跳过 kube-system 中非监控用途的 Pod）、重写标签（如将 Pod 的 namespace 和 pod_name 提取为 Prometheus 标签）
典型采集目标包括：kubelet（/metrics/cadvisor 获取容器 CPU/内存/磁盘/网络）、kube-state-metrics（集群对象状态，如 Deployment 副本数、Pod 相位）、coredns、etcd、apiserver

推荐使用 prometheus-operator（由 CoreOS 开发，现属 CNCF），它把 Prometheus、Alertmanager、ServiceMonitor 等封装为 Kubernetes 原生 CRD：

用 Helm 安装：执行 helm repo add prometheus-community https://prometheus-community.github.io/helm-charts，再 helm install kube-prometheus prometheus-community/kube-prometheus-stack
安装后自动创建：Prometheus 实例、Alertmanager、Grafana（含预置 Kubernetes 仪表盘）、kube-state-metrics、node-exporter（采集节点级指标）
访问 Grafana：kubectl port-forward svc/grafana 3000:80 -n monitoring，浏览器打开 http://localhost:3000，默认账号 admin/admin

你的应用需要暴露符合 Prometheus 格式的指标端点（如 /metrics），并确保 Service 和 ServiceMonitor 正确关联：

在 Go 应用中引入 prometheus/client_golang，注册 Counter/Gauge/Histogram，并启动 HTTP handler 暴露指标
为应用创建 Service（类型 ClusterIP），并添加标签如 app: my-app
编写 ServiceMonitor YAML，指定命名空间、选择器匹配该 Service，并设置 endpoints.port 和 interval
验证：进入 Prometheus UI → “Status” → “Targets”，确认对应 target 状态为 UP，且有指标数据返回

告警不是简单阈值触发，而是结合语义和运维经验设计：

在 Prometheus 中定义 groups，每个 rule 包含 expr（PromQL 表达式）、for（持续时间）、alert（名称）、labels（如 severity: warning/critical）和 annotations（可读提示）
示例规则：sum by (namespace) (rate(container_cpu_usage_seconds_total{image!="",job="kubelet"}[5m])) > 0.8，表示某命名空间内容器 CPU 使用率超 80% 持续 5 分钟
Alertmanager 负责去重、分组、静默和路由，需配置 email、企业微信或钉钉 Webhook；注意设置 global.resolve_timeout 和 inhibit_rules 避免告警风暴