企业级 Kubernetes 监控体系设计与实践-369IT编程

admin管理员组
文章数量:1033459

企业级 Kubernetes 监控体系设计与实践

一、系统架构全景解析

1.1 K8s 分层架构

架构层级	核心组件
控制平面层	etcd、API Server、Scheduler、Controller Manager
工作节点层	Kubelet、Kube-proxy、CRI（容器运行时接口）、CNI（网络插件）、CSI（存储插件）
资源对象层	Pod、Deployment、StatefulSet、Horizontal Pod Autoscaler
扩展插件层	CoreDNS、Ingress Controller、KEDA（事件驱动自动扩缩）、Argo Rollouts

1.2 监控体系架构

核心设计要点：

• 高可用架构：Prometheus 双副本部署，通过 Remote Write 统一写入 VictoriaMetrics 集群
• 告警中枢：外置 AlertManager 集群实现告警收敛，通过 Webhook 对接告警系统
• 数据持久化：alertsnitch 组件实现告警事件存储，VictoriaMetrics 作为统一时序数据库
• 可视化层：Grafana 统一对接 VictoriaMetrics 数据源，实现监控数据可视化

二、告警管理体系建设

2.1 告警分组策略

代码语言：javascript代码运行次数：0运行复制

route:
  group_by: [appid, alertname]
  group_wait: 30s
  group_interval: 5m
  repeat_interval: 3h
  receiver: 'default-receiver'

关键实践：

1. 业务维度治理：通过 AppID 标签实现应用级告警归并，自动路由至对应研发团队
2. 基础架构告警：系统组件告警统一配置 SRE 专属 AppID，保障基础设施稳定性
3. 标签规范：所有资源对象（Pod/Deployment 等）强制携带 AppID 标签
4. 告警溯源：通过 PromQL 实现告警事件与业务指标的关联分析

三、监控系统部署实践

3.1 Prometheus 高可用部署

代码语言：javascript代码运行次数：0运行复制

# 添加 Helm 仓库
helm repo add prometheus-community 

# 下载 Chart 包（注意 k8s 和 Prometheus-Operator 的对应关系）
helm pull prometheus-community/kube-prometheus-stack --version 69.8.2
tar -xvf kube-prometheus-stack-69.8.2.tgz
cd kube-prometheus-stack/

# 镜像加速
chmod +x update_registry.sh
./update_registry.sh
# 安装
helm -n monitoring install kube-prometheus-stack ./ --create-namespace

镜像加速方案：

完整脚本见附录

代码语言：javascript代码运行次数：0运行复制

#!/bin/bash
# 自动化镜像地址替换脚本 demo
find ./ -type f -name "*.yaml" -exec sed -i \
    -e 's|registry.k8s.io|m.daocloud.io/registry.k8s.io|g' \
    -e 's|quay.io|m.daocloud.io/quay.io|g' \
    -e 's|docker.io|m.daocloud.io/docker.io|g' {} \;

3.2 指标采集体系

采集架构：

代码语言：javascript代码运行次数：0运行复制

PrometheusServiceMonitorServiceEndpointPod

故障排查路径：

1. 验证 ServiceMonitor 选择器标签匹配
2. 检查对应 Service 的 Endpoints 状态
3. 确认组件 Metric 端口可达性
4. 验证网络策略（NetworkPolicy）配置

3.3 资源对象层 AppID 标签暴露

主要都是 kube-state-metrics 收集的， K8s 内置的资源对象，只需要添加启动参数即可

- --metric-labels-allowlist=nodes=[env],deployments=[appid],pods=[appid],services=[appid]

3.4 自定义crd 标签暴露

Argo Rollouts 指标采集配置：

代码语言：javascript代码运行次数：0运行复制

# customresourcestate-argo.yaml
resources:
  - groupVersionKind:
      group: argoproj.io
      version: v1alpha1
      kind: Rollout
    metrics:
      - name: argo_rollout_appid
        help: "Argo Rollout application identifier"
        each:
          type: Info
          info:
            labelsFromPath:
              exported_namespace: [metadata, namespace]
            metricLabels:
              appid: .metadata.labels.appid

实施步骤：

1. 创建 ConfigMap 存储采集配置

代码语言：javascript代码运行次数：0运行复制

kubectl -n monitoring create configmap customresourcestate-config --from-file=customresourcestate-argo.yaml

2. 扩展 Kube-State-Metrics RBAC 权限

代码语言：javascript代码运行次数：0运行复制

apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRole
metadata:
  name: kube-state-metrics-argo
rules:
- apiGroups: ["apiextensions.k8s.io"]
  resources: ["customresourcedefinitions"]
  verbs: ["list", "watch"]
- apiGroups: ["argoproj.io"]
  resources: ["rollouts"]
  verbs: ["list", "watch"]

3. 挂载配置文件到 KSM Pod，添加启动参数 --custom-resource-state-config-file

代码语言：javascript代码运行次数：0运行复制

containers:
- args:
  - --custom-resource-state-config-file=/etc/config/customresourcestate-argo.yaml
  volumeMounts:
  - name: config-volume
    mountPath: /etc/config
volumes:
- name: config-volume
  configMap:
    name: customresourcestate-config

关联查询示例：

代码语言：javascript代码运行次数：0运行复制

# 获取带有 AppID 的 Rollout 副本可用率
kube_argo_rollouts_status_replicas_available 
* on(namespace, rollout_name) group_left(appid)
kube_customresource_argo_rollout_appid

四、监控可视化体系

4.1 全局概览看板

核心功能模块：

• 全局筛选器：集群（前端、后端、AI、大数据、中间件、流水线等）、区域（IDC-上海、IDC-北京、阿里云、腾讯云、华为云等）、环境（产线、UT、泳道等）
• 资源水位：节点数量、CPU/Memory 总量、Pod 配额使用率
• 集群健康度：Etcd 选举状态、API Server 可用性、资源请求率、K8s 架构图（Flow Charting）：按照上面的K8s架构分层图进行绘制，分为 K8s 资源对象块、控制平面块、工作节点块（kubelet、kube-proxy、CNI、CSI、CRI）、插件块（每个小图标都是一个超链，显示组件目前的状态(通过是否有告警判断)，超链可以自动跳转到各自组建的监控大盘中）
• 异常监控：Node 负载水位线、Pod Crash 事件流

关键 PromQL 集锦：

使用的关键 promql 函数 count、unless、sum、 group_left、sum、max、label_replace、rate、avg、min_over_time

4.2 应用级监控看板

监控维度：

• 资源维度：CPU/Memory 限流分析、存储 IOPS、网络吞吐量
• 运行时指标：FD 使用率、线程数统计、TCP 连接状态
• 业务指标：QPS/TPS、错误率、健康检查成功率
• 事件中心：Kubernetes 事件流、应用日志聚合

可视化设计原则：

1. 采用分层展示结构：集群级 -> 节点级 -> 应用级
2. 使用热力图展示资源分布密度
3. 异常指标使用动态阈值告警
4. 关键性能指标展示同比/环比数据

五、最佳实践总结

1. 标签治理：严格执行 AppID 标签规范，确保监控-日志-追踪三位一体
2. 采集优化：按需配置采集间隔，重要指标 15s 粒度，业务指标 1m 粒度
3. 容量规划：预估存储用量 每日数据量 = 指标数量 × 采集频率 × 24h × 保留天数
4. 告警收敛：配置分级告警策略，关键告警立即通知，预警类告警延迟处理
5. 版本管理：Chart 版本与 Kubernetes 版本严格对应，定期验证兼容性

通过以上架构设计和实践方案，可构建覆盖基础设施、Kubernetes 核心组件、业务应用的立体化监控体系，为容器化业务提供全方位可观测性保障。

附录：

镜像加速脚本

代码语言：javascript代码运行次数：0运行复制

#!/bin/bash

# 检测操作系统类型
if [[ "$(uname)" == "Darwin" ]]; then
  # macOS
  SED_CMD="sed -i ''"
else
  # Linux 和其他
  SED_CMD="sed -i"
fi

# 查找当前目录及子目录下的所有 YAML 文件
find . -type f -name "values.yaml" -o -name "values.yml" | while read yaml_file; do
  echo "处理文件: $yaml_file"

  # 使用 awk 处理整个文件，以处理隔行的 registry 和 repository
  awk -v file="$yaml_file" -v sed_cmd="$SED_CMD" '
  BEGIN { registry = ""; in_block = 0; }

  /registry:/ {
    # 提取 registry 值
    for (i=1; i<=NF; i++) {
      if ($i == "registry:") {
        registry = $(i+1);
        gsub(/[",]/, "", registry);  # 移除可能的引号和逗号
        in_block = 1;
        print "找到 registry:", registry, "在文件", file;
      }
    }
  }

  /repository:/ {
    if (in_block && registry != "") {
      # 提取 repository 值
      for (i=1; i<=NF; i++) {
        if ($i == "repository:") {
          repo = $(i+1);
          gsub(/[",]/, "", repo);  # 移除可能的引号和逗号
          print "找到匹配的 repository:", repo, "在文件", file;

          # 构建并执行 sed 命令
          cmd = sed_cmd " '\''s|repository: " repo "|repository: " registry "/" repo "|g'\'' " file;
          system(cmd);

          # 重置状态
          in_block = 0;
          registry = "";
        }
      }
    }
  }

  # 如果遇到新的块开始，重置状态
  /^[^ ]/ {
    if ($1 != "registry:" && $1 != "repository:") {
      in_block = 0;
      registry = "";
    }
  }
  ' "$yaml_file"

  # 然后替换所有 registry 地址
  $SED_CMD 's|registry: docker.io|registry: m.daocloud.io|g' "$yaml_file"
  $SED_CMD 's|registry: registry.k8s.io|registry: m.daocloud.io|g' "$yaml_file"
  $SED_CMD 's|registry: quay.io|registry: m.daocloud.io|g' "$yaml_file"
  $SED_CMD 's|registry: ghcr.io|registry: m.daocloud.io|g' "$yaml_file"

  echo "完成处理: $yaml_file"
done

echo "所有 YAML 文件处理完成！"

我是 Clay, 下期见~

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。原始发表：2025-03-31，如有侵权请联系 cloudcommunity@tencent 删除配置设计实践kubernetes监控

企业级 Kubernetes 监控体系设计与实践

一、系统架构全景解析

1.1 K8s 分层架构

架构层级	核心组件
控制平面层	etcd、API Server、Scheduler、Controller Manager
工作节点层	Kubelet、Kube-proxy、CRI（容器运行时接口）、CNI（网络插件）、CSI（存储插件）
资源对象层	Pod、Deployment、StatefulSet、Horizontal Pod Autoscaler
扩展插件层	CoreDNS、Ingress Controller、KEDA（事件驱动自动扩缩）、Argo Rollouts

1.2 监控体系架构

核心设计要点：

• 高可用架构：Prometheus 双副本部署，通过 Remote Write 统一写入 VictoriaMetrics 集群
• 告警中枢：外置 AlertManager 集群实现告警收敛，通过 Webhook 对接告警系统
• 数据持久化：alertsnitch 组件实现告警事件存储，VictoriaMetrics 作为统一时序数据库
• 可视化层：Grafana 统一对接 VictoriaMetrics 数据源，实现监控数据可视化

二、告警管理体系建设

2.1 告警分组策略

代码语言：javascript代码运行次数：0运行复制

route:
  group_by: [appid, alertname]
  group_wait: 30s
  group_interval: 5m
  repeat_interval: 3h
  receiver: 'default-receiver'

关键实践：

1. 业务维度治理：通过 AppID 标签实现应用级告警归并，自动路由至对应研发团队
2. 基础架构告警：系统组件告警统一配置 SRE 专属 AppID，保障基础设施稳定性
3. 标签规范：所有资源对象（Pod/Deployment 等）强制携带 AppID 标签
4. 告警溯源：通过 PromQL 实现告警事件与业务指标的关联分析

三、监控系统部署实践

3.1 Prometheus 高可用部署

代码语言：javascript代码运行次数：0运行复制

# 添加 Helm 仓库
helm repo add prometheus-community 

# 下载 Chart 包（注意 k8s 和 Prometheus-Operator 的对应关系）
helm pull prometheus-community/kube-prometheus-stack --version 69.8.2
tar -xvf kube-prometheus-stack-69.8.2.tgz
cd kube-prometheus-stack/

# 镜像加速
chmod +x update_registry.sh
./update_registry.sh
# 安装
helm -n monitoring install kube-prometheus-stack ./ --create-namespace

镜像加速方案：

完整脚本见附录

代码语言：javascript代码运行次数：0运行复制

#!/bin/bash
# 自动化镜像地址替换脚本 demo
find ./ -type f -name "*.yaml" -exec sed -i \
    -e 's|registry.k8s.io|m.daocloud.io/registry.k8s.io|g' \
    -e 's|quay.io|m.daocloud.io/quay.io|g' \
    -e 's|docker.io|m.daocloud.io/docker.io|g' {} \;

3.2 指标采集体系

采集架构：

代码语言：javascript代码运行次数：0运行复制

PrometheusServiceMonitorServiceEndpointPod

故障排查路径：

1. 验证 ServiceMonitor 选择器标签匹配
2. 检查对应 Service 的 Endpoints 状态
3. 确认组件 Metric 端口可达性
4. 验证网络策略（NetworkPolicy）配置

3.3 资源对象层 AppID 标签暴露

主要都是 kube-state-metrics 收集的， K8s 内置的资源对象，只需要添加启动参数即可

- --metric-labels-allowlist=nodes=[env],deployments=[appid],pods=[appid],services=[appid]

3.4 自定义crd 标签暴露

Argo Rollouts 指标采集配置：

代码语言：javascript代码运行次数：0运行复制

# customresourcestate-argo.yaml
resources:
  - groupVersionKind:
      group: argoproj.io
      version: v1alpha1
      kind: Rollout
    metrics:
      - name: argo_rollout_appid
        help: "Argo Rollout application identifier"
        each:
          type: Info
          info:
            labelsFromPath:
              exported_namespace: [metadata, namespace]
            metricLabels:
              appid: .metadata.labels.appid

实施步骤：

1. 创建 ConfigMap 存储采集配置

代码语言：javascript代码运行次数：0运行复制

kubectl -n monitoring create configmap customresourcestate-config --from-file=customresourcestate-argo.yaml

2. 扩展 Kube-State-Metrics RBAC 权限

代码语言：javascript代码运行次数：0运行复制

apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRole
metadata:
  name: kube-state-metrics-argo
rules:
- apiGroups: ["apiextensions.k8s.io"]
  resources: ["customresourcedefinitions"]
  verbs: ["list", "watch"]
- apiGroups: ["argoproj.io"]
  resources: ["rollouts"]
  verbs: ["list", "watch"]

3. 挂载配置文件到 KSM Pod，添加启动参数 --custom-resource-state-config-file

代码语言：javascript代码运行次数：0运行复制

containers:
- args:
  - --custom-resource-state-config-file=/etc/config/customresourcestate-argo.yaml
  volumeMounts:
  - name: config-volume
    mountPath: /etc/config
volumes:
- name: config-volume
  configMap:
    name: customresourcestate-config

关联查询示例：

代码语言：javascript代码运行次数：0运行复制

# 获取带有 AppID 的 Rollout 副本可用率
kube_argo_rollouts_status_replicas_available 
* on(namespace, rollout_name) group_left(appid)
kube_customresource_argo_rollout_appid

四、监控可视化体系

4.1 全局概览看板

核心功能模块：

• 全局筛选器：集群（前端、后端、AI、大数据、中间件、流水线等）、区域（IDC-上海、IDC-北京、阿里云、腾讯云、华为云等）、环境（产线、UT、泳道等）
• 资源水位：节点数量、CPU/Memory 总量、Pod 配额使用率
• 集群健康度：Etcd 选举状态、API Server 可用性、资源请求率、K8s 架构图（Flow Charting）：按照上面的K8s架构分层图进行绘制，分为 K8s 资源对象块、控制平面块、工作节点块（kubelet、kube-proxy、CNI、CSI、CRI）、插件块（每个小图标都是一个超链，显示组件目前的状态(通过是否有告警判断)，超链可以自动跳转到各自组建的监控大盘中）
• 异常监控：Node 负载水位线、Pod Crash 事件流

关键 PromQL 集锦：

使用的关键 promql 函数 count、unless、sum、 group_left、sum、max、label_replace、rate、avg、min_over_time

4.2 应用级监控看板

监控维度：

• 资源维度：CPU/Memory 限流分析、存储 IOPS、网络吞吐量
• 运行时指标：FD 使用率、线程数统计、TCP 连接状态
• 业务指标：QPS/TPS、错误率、健康检查成功率
• 事件中心：Kubernetes 事件流、应用日志聚合

可视化设计原则：

1. 采用分层展示结构：集群级 -> 节点级 -> 应用级
2. 使用热力图展示资源分布密度
3. 异常指标使用动态阈值告警
4. 关键性能指标展示同比/环比数据

五、最佳实践总结

1. 标签治理：严格执行 AppID 标签规范，确保监控-日志-追踪三位一体
2. 采集优化：按需配置采集间隔，重要指标 15s 粒度，业务指标 1m 粒度
3. 容量规划：预估存储用量 每日数据量 = 指标数量 × 采集频率 × 24h × 保留天数
4. 告警收敛：配置分级告警策略，关键告警立即通知，预警类告警延迟处理
5. 版本管理：Chart 版本与 Kubernetes 版本严格对应，定期验证兼容性

通过以上架构设计和实践方案，可构建覆盖基础设施、Kubernetes 核心组件、业务应用的立体化监控体系，为容器化业务提供全方位可观测性保障。

附录：

镜像加速脚本

代码语言：javascript代码运行次数：0运行复制

#!/bin/bash

# 检测操作系统类型
if [[ "$(uname)" == "Darwin" ]]; then
  # macOS
  SED_CMD="sed -i ''"
else
  # Linux 和其他
  SED_CMD="sed -i"
fi

# 查找当前目录及子目录下的所有 YAML 文件
find . -type f -name "values.yaml" -o -name "values.yml" | while read yaml_file; do
  echo "处理文件: $yaml_file"

  # 使用 awk 处理整个文件，以处理隔行的 registry 和 repository
  awk -v file="$yaml_file" -v sed_cmd="$SED_CMD" '
  BEGIN { registry = ""; in_block = 0; }

  /registry:/ {
    # 提取 registry 值
    for (i=1; i<=NF; i++) {
      if ($i == "registry:") {
        registry = $(i+1);
        gsub(/[",]/, "", registry);  # 移除可能的引号和逗号
        in_block = 1;
        print "找到 registry:", registry, "在文件", file;
      }
    }
  }

  /repository:/ {
    if (in_block && registry != "") {
      # 提取 repository 值
      for (i=1; i<=NF; i++) {
        if ($i == "repository:") {
          repo = $(i+1);
          gsub(/[",]/, "", repo);  # 移除可能的引号和逗号
          print "找到匹配的 repository:", repo, "在文件", file;

          # 构建并执行 sed 命令
          cmd = sed_cmd " '\''s|repository: " repo "|repository: " registry "/" repo "|g'\'' " file;
          system(cmd);

          # 重置状态
          in_block = 0;
          registry = "";
        }
      }
    }
  }

  # 如果遇到新的块开始，重置状态
  /^[^ ]/ {
    if ($1 != "registry:" && $1 != "repository:") {
      in_block = 0;
      registry = "";
    }
  }
  ' "$yaml_file"

  # 然后替换所有 registry 地址
  $SED_CMD 's|registry: docker.io|registry: m.daocloud.io|g' "$yaml_file"
  $SED_CMD 's|registry: registry.k8s.io|registry: m.daocloud.io|g' "$yaml_file"
  $SED_CMD 's|registry: quay.io|registry: m.daocloud.io|g' "$yaml_file"
  $SED_CMD 's|registry: ghcr.io|registry: m.daocloud.io|g' "$yaml_file"

  echo "完成处理: $yaml_file"
done

echo "所有 YAML 文件处理完成！"

我是 Clay, 下期见~

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。原始发表：2025-03-31，如有侵权请联系 cloudcommunity@tencent 删除配置设计实践kubernetes监控

本文标签：企业级 Kubernetes 监控体系设计与实践

版权声明：本文标题：企业级 Kubernetes 监控体系设计与实践内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://it.en369.cn/jiaocheng/1748044083a2245954.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

369IT编程

企业级 Kubernetes 监控体系设计与实践

企业级 Kubernetes 监控体系设计与实践

一、系统架构全景解析

1.1 K8s 分层架构

1.2 监控体系架构

二、告警管理体系建设

2.1 告警分组策略

三、监控系统部署实践

3.1 Prometheus 高可用部署

3.2 指标采集体系

3.3 资源对象层 AppID 标签暴露

3.4 自定义crd 标签暴露

四、监控可视化体系

4.1 全局概览看板

4.2 应用级监控看板

五、最佳实践总结

企业级 Kubernetes 监控体系设计与实践

一、系统架构全景解析

1.1 K8s 分层架构

1.2 监控体系架构

二、告警管理体系建设

2.1 告警分组策略

三、监控系统部署实践

3.1 Prometheus 高可用部署

3.2 指标采集体系

3.3 资源对象层 AppID 标签暴露

3.4 自定义crd 标签暴露

四、监控可视化体系

4.1 全局概览看板

4.2 应用级监控看板

五、最佳实践总结

更多相关文章

企业级 Kubernetes 监控体系设计与实践

发表评论

推荐文章

CoreDNS 支持解析宿主机的 hosts 文件

TAPD × MCP ：AI 助手写代码的“革命性工具”，效率和质量双倍飙升！

现在都在用AI辅助面试，当年我求职的时候也好想有。

人工智能、机器学习、统计学和数据挖掘有什么区别

常用的排序算法之冒泡排序（Bubble Sort）

热门文章

如何使用python查询Prometheus监控数据

UMIT：统一多模态多任务视觉

刚刚，AI破解50年未解数学难题！南大校友用OpenAI模型完成首个非平凡数学证明

用GPT

智谱AI深夜上线全新Agent GLM

AI席卷校园：百万条对话揭秘，Claude是代码救星还是作弊工具？

机器学习模型的损失和准确性解释

分布技术杂谈

活动目录（Active Directory）域故障解决实例

JavaWeb后端入门4

最新文章

抖音滑动卡顿终极解决方案：从源码逆向推导ViewCacheExtension的3个致命误区

从 VFP 的角度看 .NET 中的依赖注入和接口(1)

MySQL：MyISAM锁表致千万损失！穿越工程师如何逆天改命

MySQL MyISAM引擎是什么？有什么致命缺陷？为何现在都不使用了？

性能爆表：SpringBoot利用ThreadPoolTaskExecutor批量插入百万级数据实测！

程序员刚毕业，先去大厂镀金还是先去小厂攒经验？

万象2008清空boss账户密码

【Tools】GitBook简明教程

oracle exadata celldisk 闪存盘受损导致性能下降

SDUT 2138 图结构练习——BFSDFS——判断可达性

javascript - Type &#39;undefined&#39; is not assignable to type &#39;menuItemProps[]&#39; - Stack Overflow

javascript - VS 2015 Angular 2 import modules cannot be resolved - Stack Overflow

javascript - Get the JSON objects that are not present in another array - Stack Overflow

javascript - How to dismiss a phonegap notification programmatically - Stack Overflow

c - Solaris 10 make Error code 1 Fatal Error when trying to build python 2.7.16 - Stack Overflow

javascript - Type 'undefined' is not assignable to type 'menuItemProps[]' - Stack Overflow