K8s服务发布

Kubernetes服务发布实战指南：从入门到生产级配置

在Kubernetes集群中发布服务，远不止于简单的端口暴露。本文将从生产视角拆解服务发布的完整链路，揭秘流量从外部用户到Pod的全流程。

一、服务发布核心原理（电话总机模型）

想象Kubernetes的Service是一个智能电话总机系统：

总机号码注册（ClusterIP）：系统自动分配内部虚拟IP（如10.96.123.45）
分机簿管理（Endpoints Controller）：实时记录可用Pod的IP和端口
呼叫转接规则（kube-proxy）：通过iptables/IPVS实现流量转发

二、四大服务类型生产选型指南

类型	适用场景	典型配置示例	注意事项
ClusterIP	内部服务通信	默认类型，无需特殊配置	禁止外部访问
NodePort	临时测试环境	`type: NodePort`	需开放节点防火墙端口
LoadBalancer	云厂商生产环境	配合云厂商注解使用	注意LB费用成本
Ingress	HTTP/HTTPS流量管理	需搭配Ingress Controller	支持L7路由、SSL终止等特性

生产经验：

80%的内部服务使用ClusterIP
对外Web服务采用Ingress+LoadBalancer组合
NodePort仅用于POC环境（避免端口冲突风险）

三、生产级Service配置模板

apiVersion: v1
kind: Service
metadata:
  name: payment-service
  annotations:
    # AWS特定配置（ALB空闲超时）
    service.beta.kubernetes.io/aws-load-balancer-connection-idle-timeout: "60"
spec:
  selector:
    app: payment-gateway
    tier: backend
  type: LoadBalancer
  ports:
  - name: https
    protocol: TCP
    port: 443
    targetPort: 8443
  sessionAffinity: ClientIP  # 会话保持
  healthCheckNodePort: 31001 # 自定义健康检查端口

关键参数解析：

sessionAffinity: 确保同一客户端IP请求固定到同一Pod（需配合Pod反亲和性使用）
healthCheckNodePort: 避免与业务端口冲突
云厂商注解实现高级LB配置（超时时间、SSL策略等）

四、Ingress高级配置实战

场景需求：
需实现基于域名的灰度发布，新版本v2接收10%流量

apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: canary-ingress
  annotations:
    nginx.ingress.kubernetes.io/canary: "true"
    nginx.ingress.kubernetes.io/canary-weight: "10"
spec:
  rules:
  - host: api.example.com
    http:
      paths:
      - pathType: Prefix
        path: "/"
        backend:
          service:
            name: app-v2
            port: 
              number: 80
  ingressClassName: nginx

配套Service配置：

# 主服务
apiVersion: v1
kind: Service
metadata:
  name: app-v1
spec:
  selector:
    app: myapp
    version: v1.5.2

# 灰度服务
apiVersion: v1
kind: Service
metadata:
  name: app-v2 
spec:
  selector:
    app: myapp
    version: v1.6.0-rc1

五、生产环境必知的三项核心机制

EndpointSlice优化（K8s 1.21+）
- 替代传统Endpoints对象
- 单个Service支持最多100个EndpointSlice
- 提升大规模集群的服务发现性能
拓扑感知路由（Topology Aware Hints）
```
spec:
  internalTrafficPolicy: Local
```
- 优先将流量路由到同一可用区的Pod
- 降低跨区流量成本
Headless Service模式
```
spec:
  clusterIP: None
```
- 适用场景：
  - 有状态服务（如数据库集群）
  - 需要直接访问Pod的场景（如gRPC长连接）

六、故障排查手册（生产血泪经验）

症状1：服务间歇性不可达

检查Endpoint状态：
```
kubectl get endpoints <service-name>
```

验证kube-proxy日志：

journalctl -u kube-proxy -f | grep "Failed to connect"

症状2：NodePort无法访问

排查节点防火墙规则：

iptables -L -n -t nat | grep <node-port>

检查CNI插件状态（Calico/Flannel等）

症状3：LoadBalancer长期Pending

验证云厂商配额限制
检查IAM权限：
```
kubectl describe service <service-name>
```
查看事件日志中的权限错误提示

七、性能优化黄金法则

IPVS模式配置（万级连接必备）

# kube-proxy启动参数
--proxy-mode=ipvs
--ipvs-scheduler=rr # 轮询调度算法

对比iptables模式性能提升40%+

会话保持优化

spec:
  sessionAffinityConfig:
    clientIP:
      timeoutSeconds: 3600

根据业务特点调整超时时间

连接池预热策略
- 使用initContainer预先建立连接
- 配置就绪探针(Readiness Probe)延迟启动

八、安全加固方案

网络策略隔离

kind: NetworkPolicy
apiVersion: networking.k8s.io/v1
metadata:
  name: api-allow
spec:
  podSelector:
    matchLabels:
      app: payment-gateway
  ingress:
  - from:
    - namespaceSelector:
        matchLabels:
          project: fintech
    ports:
    - protocol: TCP
      port: 443

TLS终止最佳实践
- 在Ingress层统一管理证书
- 使用cert-manager自动续期Let's Encrypt证书

九、监控指标体系搭建

Prometheus监控示例：

- alert: ServiceHighErrorRate
  expr: |
    sum(rate(apiserver_request_total{job="kubernetes-services", code=~"5.."}[5m])) by (service)
    /
    sum(rate(apiserver_request_total{job="kubernetes-services"}[5m])) by (service)
    > 0.1
  for: 10m
  labels:
    severity: critical
  annotations:
    summary: "服务 {{ $labels.service }} 错误率过高"

关键监控指标：

请求成功率（2xx/5xx比例）
端到端延迟（P99值）
连接数突增检测

十、服务发布演进路线

基础阶段
- ClusterIP + NodePort
- 手动管理证书
进阶阶段
- Ingress Controller（Nginx/HAProxy）
- 自动证书管理（cert-manager）
云原生阶段
- 服务网格（Istio/Linkerd）
- 全链路灰度发布
- 基于指标的自动扩缩容

结语

Kubernetes服务发布看似简单，实则需要深入理解网络模型、云平台集成、安全策略等多个领域。建议生产环境中：

建立服务发布Checklist（包括安全审查、监控接入等）
定期进行Service拓扑审计
采用渐进式发布策略（蓝绿部署+金丝雀发布）

只有将服务发布作为系统工程来对待，才能真正构建出高可用、易维护的云原生架构。

posted on 2025-03-01 10:03 Leo_Yide 阅读(90) 评论(0) 收藏举报