K8s日志管理，EFK Stack 从入门到生产部署

Kubernetes日志管理实战：EFK Stack 从入门到生产部署

在容器化环境中，日志管理如同大海捞针。本文将手把手教你搭建高可靠的EFK日志系统，并分享经过万人集群验证的调优秘籍。

一、EFK架构全景解析

Fluentd：节点级日志"搬运工"，实时采集容器日志
Elasticsearch：日志的"超级仓库"，支持PB级存储与毫秒检索
Kibana：日志的"可视化驾驶舱"，打造专属观测面板

二、三步搭建生产级EFK

1. 弹性Elasticsearch集群部署（Helm版）

helm install elasticsearch elastic/elasticsearch \
  --set replicas=3 \
  --set persistence.storageClass=ebs-gp3 \
  --set resources.requests.memory=8Gi \
  --set volumeClaimTemplate.accessModes[0]=ReadWriteOnce

关键参数调优：

# values.yaml
esJavaOpts: "-Xmx8g -Xms8g"  # 堆内存设为物理内存50%
readinessProbe:
  failureThreshold: 10       # 延长健康检查时间

2. Fluentd日志收集器配置（DaemonSet增强版）

# fluentd-configmap.yaml
apiVersion: v1
kind: ConfigMap
metadata:
  name: fluentd-config
data:
  fluent.conf: |
    <source>
      @type tail
      path /var/log/containers/*.log
      pos_file /var/log/fluentd-containers.log.pos
      tag kube.*
      <parse>
        @type json
        time_format %Y-%m-%dT%H:%M:%S.%NZ
      </parse>
    </source>
    <filter **>
      @type record_transformer
      enable_ruby true
      <record>
        hostname "#{Socket.gethostname}"
        pod_name ${record.dig("kubernetes", "pod_name")}
      </record>
    </filter>
    <match **>
      @type elasticsearch
      host elasticsearch-master
      port 9200
      logstash_format true
      reload_connections false
      buffer_chunk_limit 2M   # 缓冲区优化
      buffer_queue_limit 32
      flush_interval 5s
    </match>

生产经验：

每个节点分配2核4G资源
启用磁盘缓冲防止网络波动丢数据
日志分级处理（DEV/TEST/PROD）

3. Kibana可视化控制台

kubectl port-forward svc/kibana 5601:5601

访问 http://localhost:5601 创建首张仪表盘：

三、五大生产级调优技巧

1. 日志生命周期管理

PUT _ilm/policy/log_policy
{
  "policy": {
    "phases": {
      "hot": {
        "actions": {
          "rollover": {
            "max_size": "50GB",
            "max_age": "7d"
          }
        }
      },
      "delete": {
        "min_age": "30d",
        "actions": {
          "delete": {}
        }
      }
    }
  }
}

2. 敏感信息过滤

# Fluentd过滤器示例
<filter payment-service>
  @type grep
  <exclude>
    key log
    pattern /password=\w+/i
  </exclude>
</filter>

3. 多租户日志隔离

# 按命名空间划分索引
<match kube.prod.**>
  @type elasticsearch
  index_name prod-logs-%Y.%m.%d
</match>

<match kube.test.**>
  @type elasticsearch
  index_name test-logs-%Y.%m.%d
</match>

4. 性能压测指标

场景	单节点吞吐量	资源消耗
纯文本日志(100字节)	10万条/秒	CPU 1核
JSON日志(1KB)	2万条/秒	CPU 2核

5. 灾难恢复方案

# 使用Elasticdump备份
elasticdump \
  --input=http://es-master:9200/logs-2023.08 \
  --output=/backup/logs-2023.08.json \
  --type=data

四、故障排查工具箱

1. 日志流水线检测

# 检查Fluentd队列状态
kubectl exec fluentd-abc -- fluentd --dry-run

# 查看Elasticsearch索引状态
curl http://es-master:9200/_cat/indices?v

2. 实时日志追踪

# 跟踪特定Pod日志
kubectl logs -f app-pod | tee debug.log

# 在Kibana中快速过滤
kubernetes.pod_name: "frontend-*" AND level: "ERROR"

3. 性能瓶颈定位

# Elasticsearch热点分片查询
GET _cat/shards?v&s=store:desc

五、成本控制秘籍

冷热数据分离
- 热数据：SSD存储，保留7天
- 温数据：HDD存储，保留30天
- 冷数据：对象存储归档，保留1年

动态压缩策略

PUT _settings
{
  "index.codec": "best_compression",
  "number_of_replicas": 1
}

智能采样配置

# 生产环境日志采样率50%
<filter **>
  @type sample
  rate 50
</filter>

六、安全加固方案

传输加密

# Fluentd TLS配置
<match **>
  @type elasticsearch
  scheme https
  ssl_verify false
  ca_file /etc/ssl/certs/ca.crt
</match>

权限管控

# 创建只读账号
POST _security/role/log_viewer
{
  "indices": [
    {
      "names": ["*-logs-*"],
      "privileges": ["read"]
    }
  ]
}

审计日志

# Elasticsearch审计配置
xpack.security.audit.enabled: true
xpack.security.audit.logfile.events.include: authentication_failed,access_denied

通过本文方案，某金融平台成功将日志查询效率提升10倍，存储成本降低60%。建议为日志系统建立独立的监控体系，并定期进行日志消防演练，确保在关键时刻能快速定位问题根源。记住：好的日志系统不是建出来的，而是持续优化出来的！

posted on 2025-02-23 21:55 Leo_Yide 阅读(400) 评论(0) 收藏举报