pod进阶(资源管理和探针)
Pod 进阶
一: Pod的资源限制
1.1 概念
1.1.1 什么是pod的计算资源显稚嫩
在配置Pod时,我们可以为其中的每个容器指定需要使用的计算资源(CPU和内存)。计算资源的配置项分为两种:Requests和Limits。
- Requests表示容器希望被分配到的、可完全保证的资源量(资源请求量);
- Limits是容器最多能使用的资源量的上限(资源限制量)。
当为Pod中的容器指定了request资源时,调度器就使用该信息来决定将Pod调度到哪个节点上。当还为容器指定了limit资源时, kubelet就会确保运行的容器不会使用超出所设的limit资源量。kubelet还会为容器预留所设的request资源量, 供该容器使用。
如果Pod运行所在的节点具有足够的可用资源,容器可以使用超出所设置的request资源量。不过,容器不可以使用超出所设置的limit资源量
资源请求量能够保证Pod有足够的资源来运行,资源限制量则是防止某个Pod无限制地使用资源,导致其他Pod崩溃。
我们创建一个pod时,可以指定容器对CPU和内存的资源请求量及资源限制量,它们并不在pod里定义,而是针对每个容器单独指定。
pod对资源的请求量和限制量是它所包含的所有容器的请求量和限制量之和。
CPU和内存的Requests和Limits的特点
CPU和内存的Requests和Limits有如下特点:
- Requests和Limits都是可选的。在Pod创建和更新时,如果未设置Requests和Limits,则使用系统提供的默认值,该默认值取决于集群配置。
- 如果Requests没有配置,默认被设置等于Limits。
- requests 是创建容器时需要预留的资源量。如果无法满足,则pod 无法调度。但是,这不是容器运行实际使用的资源,容器实际运行使用的资源可能比这个大,也可能比这个小。
- Limit 是限制pod容器可以使用资源的上限。容器使用的资源无法高于这个限制
- 任何情况下Limits都应该设置为大于或等于Requests。
1.2 pod 之间,和容器之间的通信
- 同一个pod 里的容器之间通信使用IPC进行通信(进程间通信),通过localhost找到彼此
- 同一个node节点上的pod的通信使用虚拟网桥docker0进行通信
- 不同node节点上的pod 通信可以借助CNI(Container Network Interface)插件进行通信。如Flannel,calico等
1.3 官网中的示例
官网示例:https://kubernetes.io/zh/docs/concepts/configuration/manage-resources-containers/
Pod和容器的资源请求和限制:
复制spec.containers[].resources.limits.cpu #定义cpu的资源上限
spec.containers[].resources.limits.memory #定义内存的资源上限
spec.containers[].resources.limits.hugepages-<size> #定义hugepages的资源上限
spec.containers[].resources.requests.cpu #定义创建容器时预分配的CPU资源
spec.containers[].resources.requests.memory #定义创建容器时预分配的内存资源
spec.containers[].resources.requests.hugepages-<size> #定义创建容器时预分配的巨页
1.4 CPU 资源单位
CPU资源的request和limit以cpu为单位。Kubernetes中的一个cpu相当于1个VCPU (1个超线程)
Kubernetes也支持带小数CPU的请求。spec.containers [].resources.requests.cpu为0.5的容器能够获得一个cpu的一半CPU资源(类似于cgroup对CPU资源的时间分片)。表达式0.1等价于表达式100m (毫核) ,表示每1000毫秒内容器可以使用的CPU时间总量为0.1*1000毫秒。
1.5 内存资源单位
内存的request和limit以字节为单位。可以以整数表示,或者以10为底数的指数的单位(E、P,T,G,M,K)来表示,或者以2为底数的指数的单位(Ei, Pi,Ti,Gi、Mi, Ki)来表示。
如: 1KB-10^3-1000, 1MB-10^6-1000000-1000KB, 1GB=10^9-1000000000-1000MB
1KiB-2^10-1024, 1MiB-2 20-1048576-1024KiB
PS:在买硬盘的时候,操作系统报的数量要比产品标出或商家号称的小一些,主要原因是标出的是以MB, GB为单位的, 1GB
就是1,000,000, 000Bte ,而操作系统是以2进制为处理单位的,因此检查硬盘容量时是以MiB, GiB为单位, 1GB-2^30-1,073, 741, 824,相比较而言,1GiB要比1GB多出1,073, 741, 824-1, 000, 000, 000-73, 741, 824Byte,所以检测实际结果要比标出的少一些。
1.6 示例
复制#先在每个节点上清空内存
echo 1 > /proc/sys/vm/drop_caches
echo 2 > /proc/sys/vm/drop_caches
echo 3 > /proc/sys/vm/drop_caches
free -m
复制[root@master ~]# vim demo1.yaml
apiVersion: v1
kind: Pod
metadata:
name: frontend
spec:
containers:
- name: web
image: nginx
env:
- name: WEB_ROOT_PASSWORD
value: "password"
resources:
#此容器预分配资源:内存为 64Mi ; 每个cpu 分配250m
requests:
memory: "64Mi"
cpu: "250m"
#此容器限制使用资源(最大): 内存最大使用128Mi,每个cpu最大分配500m
limits:
memory: "128Mi"
cpu: "500m"
- name: db
image: mysql
env:
- name: MYSQL_ROOT_PASSWORD
value: "abc123"
resources:
#此容器的预分配资源:内存预分配为512Mi;cpu预分配为每个cpu的50%,即1000*50%=500m
requests:
memory: "512Mi"
cpu: "0.5"
#此容器的限制使用资源配额为:内存最大使用1Gi;cpu最大使用1000m
limits:
memory: "1Gi"
cpu: "1"
#pod有两个容器,web 和db。所以,总的请求资源和限制资源为 web 和db 请求,限制资源总和。
#其中,cpu 的资源请求和限制,是以单个cpu 资源进行计算的。如果有多个cpu,则最终的结果是数值*N
复制[root@master ~]# kubectl get pod
[root@master ~]# kubectl describe pod frontend
复制# 查看pod的详细信息,查看pod被调度到了哪个node节点
[root@master ~]# kubectl get pod -o wide
#查看node01 节点的信息
[root@master ~]# kubectl describe nodes node01
二:健康检查(探针Probe)
2.1 探针的三种规则
健康检查,又名 探针(Probe):探针是由kubelet对容器执行定期诊断。
探针有三种规则:
- livenessProbe: 判断容器是否正在运行。如果探测失败,则kubelet会杀死容器,并且容器将根据 restartPolicy 来设置Pod状态。如果容器不提供存活探针,则默认状态为Success
- readinessProbe: 判断容器是否准备好接受请求。如果探测失败,端点控制器将从Pod匹配的所有service endpoints中剔除该Pod的IP地址。初始延迟之前的就绪状态默认我为Failure.如果容器不提供就绪探针,则默认状态为success。
- startupProbe(1.17版本新增):判断容器内的应用程序是否已经启动,主要针对于不能确定具体启动时间应用。如果配置了startupProbe探测,则在startuProbe状态为success 之前,其他所有探针都处于无效状态,知道它成功后其他探针才起作用。如果startupProbe失败,kubelet将杀死容器你,容器将根据restartPolicy来重启。如果容器没有配置startupProbe,则默认状态为Success。、
注:以上规则可以同时定义。在readinessProbe检测成功之前,Pod的running状态是不会变成ready状态。
2.2 Probe支持的三种检查方法
- exec: 在容器内执行命令。如果命令退出时返回码为0 ,则认为诊断成功
- tcpSocket: 对指定端口上的容器IP 地址进行TCP 检查(三次握手)。 如果端口打开,则诊断被认为是成功的
- httpGet: 对指定端口和路径上的容器的IP地址执行HTTPGET请求。如果响应的状态码大于等于200,且小于400,则诊断被认为是成功的。
2.3 探测获得的三种结果
每次探测,都将会获得以下三种结果之一:
- 成功: 容器通过了诊断
- 失败: 容器未通过诊断
- 未知:诊断失败,因此不会采取任何行动
三: 示例
3.1 示例1 exec方式
3.1.1 exec 官网示例
复制apiVersion: v1
kind: Pod
metadata:
labels:
test: liveness
name: liveness-exec
spec:
containers:
- name: liveness
image: k8s.gcr.io/busybox
args:
- /bin/sh
- -c
- touch /tmp/healthy; sleep 30; rm -rf /tmp/healthy; sleep 600
livenessProbe:
exec:
command:
- cat
- /tmp/healthy
initialDelaySeconds: 5
periodSeconds: 5
探针可选的参数:
- initialDelayseconds:容器启动多少秒后开始执行探测。最小值为0
- periodSeconds:探测的周期频率,每多少秒执行一次探测默认是10秒,最小值为1
- failureThreshold:探测失败后,允许再试几次。
- timeoutSeconds :探测等待超时的时间。默认为1 秒,最小值为1 秒
在这个配置文件中,可以看到 Pod 中只有一个容器。
periodSeconds
字段指定了 kubelet 应该每 5 秒执行一次存活探测。
initialDelaySeconds
字段告诉 kubelet 在执行第一次探测前应该等待 5 秒。
kubelet 在容器内执行命令 cat /tmp/healthy
来进行探测。 如果命令执行成功并且返回值为 0,kubelet 就会认为这个容器是健康存活的。 如果这个命令返回非 0 值,kubelet 会杀死这个容器并重新启动它。
3.1.2 编写示例,查看
复制[root@master ~]#vim exec.yaml
apiVersion: v1
kind: Pod
metadata:
name: liveness-exec
namespace: default
spec:
containers:
- name: liveness-exec-container
image: busybox
imagePullPolicy: IfNotPresent
command: ["/bin/sh","-c","touch /tmp/live ; sleep 30; rm -rf /tmp/live; sleep 3600"]
#存活检查探针,使用exec的方式,进入容器内部,检测是否有文件或目录/tmp/live
livenessProbe:
exec:
command: ["test","-e","/tmp/live"]
initialDelaySeconds: 1
periodSeconds: 3
复制#创建pod
[root@master ~]# kubectl create -f exec.yaml
#跟踪查看pod 信息
[root@master ~]# kubectl get pod -o wide -w
#新开一个终端,查看pod 的消息信息
[root@master ~]# kubectl describe pod liveness-exec
3.2 示例2 httpGet方式
3.2.1 官方示例
复制apiVersion: v1
kind: Pod
metadata:
labels:
test: liveness
name: liveness-http
spec:
containers:
- name: liveness
image: k8s.gcr.io/liveness
args:
- /server
livenessProbe:
httpGet:
path: /healthz
port: 8080
httpHeaders:
- name: Custom-Header
value: Awesome
initialDelaySeconds: 3
periodSeconds: 3
在这个配置文件中,可以看到 Pod 也只有一个容器。 periodSeconds
字段指定了 kubelet 每隔 3 秒执行一次存活探测。 initialDelaySeconds
字段告诉 kubelet 在执行第一次探测前应该等待 3 秒。 kubelet 会向容器内运行的服务(服务会监听 8080 端口)发送一个 HTTP GET 请求来执行探测。 如果服务器上 /healthz
路径下的处理程序返回成功代码,则 kubelet 认为容器是健康存活的。 如果处理程序返回失败代码,则 kubelet 会杀死这个容器并且重新启动它。
任何大于或等于 200 并且小于 400 的返回代码标示成功,其它返回代码都标示失败。
<br》
3.2.2 编写httpGet 示例
复制[root@master ~]# vim httpget.yaml
apiVersion: v1
kind: Pod
metadata:
name: liveness-httpget
namespace: default
spec:
containers:
- name: liveness-httpget-container
image: soscscs/myapp:v1
imagePullPolicy: IfNotPresent
ports:
- name: http
containerPort: 80
livenessProbe:
httpGet:
port: http
path: /index.html
initialDelaySeconds: 1
periodSeconds: 3
timeoutSeconds: 10
复制#创建pod
[root@master ~]# kubectl create -f httpget.yaml
#删除pod里容器的文件
[root@master ~]# kubectl exec -it liveness-httpget -- rm -rf /usr/share/nginx/html/index.html
#查看pod 状态和 详细信息
[root@master ~]# kubectl get pods
[root@master ~]# kubectl describe pod liveness-httpge
3.3 示例3 ,tcpSocket 方式
3.3.1 官方示例
复制apiVersion: v1
kind: Pod
metadata:
name: goproxy
labels:
app: goproxy
spec:
containers:
- name: goproxy
image: k8s.gcr.io/goproxy:0.1
ports:
- containerPort: 8080
readinessProbe:
tcpSocket:
port: 8080
initialDelaySeconds: 5
periodSeconds: 10
livenessProbe:
tcpSocket:
port: 8080
initialDelaySeconds: 15
periodSeconds: 20
如你所见,TCP 检测的配置和 HTTP 检测非常相似。 下面这个例子同时使用就绪(readinessProbe)和存活(livenessProbe)探测器。
kubelet 会在容器启动 5 秒后发送第一个就绪探测。 这会尝试连接 goproxy
容器的 8080 端口。 如果探测成功,这个 Pod 会被标记为就绪状态,kubelet 将继续每隔 10 秒运行一次检测。
除了就绪探测,这个配置包括了一个存活探测。 kubelet 会在容器启动 15 秒后进行第一次存活探测。 与就绪探测类似,会尝试连接 goproxy
容器的 8080 端口。 如果存活探测失败,这个容器会被重新启动
3.3.2 编写tcpSocket 方式示例
复制[root@master ~]# tcpsocket.yaml
apiVersion: v1
kind: Pod
metadata:
name: probe-tcp
spec:
containers:
- name: nginx
image: soscscs/myapp:v1
livenessProbe:
initialDelaySeconds: 5
timeoutSeconds: 1
tcpSocket:
port: 8080
periodSeconds: 3
复制[root@master ~]# kubectl create -f tcpsocket.yaml
#查看容器里的端口(查看有无8080端口)
[root@master ~]# kubectl exec -it probe-tcp -- netstat -natp
#查看pod的状态和详细信息
[root@master ~]# kubectl get pods
[root@master ~]# kubectl describe pod probe-tcp
3.4 示例4 配置就绪探测 httpGet的方式
复制[root@master ~]# vim readiness-httpget.yaml
apiVersion: v1
kind: Pod
metadata:
name: readiness-httpget
namespace: default
spec:
containers:
- name: readiness-httpget-container
image: soscscs/myapp:v1
imagePullPolicy: IfNotPresent
ports:
- name: http
containerPort: 80
readinessProbe:
httpGet:
port: 80
path: /index1.html
initialDelaySeconds: 1
periodSeconds: 3
livenessProbe:
httpGet:
port: http
path: /index.html
initialDelaySeconds: 1
periodSeconds: 3
timeoutSeconds: 10
复制# 创建pod
[root@master ~]# kubectl create -f readiness-httpget.yaml
#查看pod的详细信息
[root@master ~]# kubectl get pod -w
[root@master ~]# kubectl describe pod readiness-httpget
#此时,因为容器里没有 index1.html文件,所以,httpGet的就绪探测失败
[root@master ~]# kubectl exec -it readiness-httpget -- ls /usr/share/nginx/html
复制#进入容器,创建index1.html,让就绪探测成功
[root@master ~]# kubectl exec -it readiness-httpget sh
/ # cd /usr/share/nginx/html/
/usr/share/nginx/html # ls
50x.html index.html
/usr/share/nginx/html # echo abc > index1.html
/usr/share/nginx/html # exit
[root@master ~]# kubectl get pods
3.5 就绪探测示例2
复制[root@master ~]# vim readiness-myapp.yaml
apiVersion: v1
kind: Pod
metadata:
name: myapp1
labels:
app: myapp
spec:
containers:
- name: myapp
image: soscscs/myapp:v1
ports:
- name: http
containerPort: 80
readinessProbe:
httpGet:
port: 80
path: /index.html
initialDelaySeconds: 5
periodSeconds: 5
timeoutSeconds: 10
---
apiVersion: v1
kind: Pod
metadata:
name: myapp2
labels:
app: myapp
spec:
containers:
- name: myapp
image: soscscs/myapp:v1
ports:
- name: http
containerPort: 80
readinessProbe:
httpGet:
port: 80
path: /index.html
initialDelaySeconds: 5
periodSeconds: 5
timeoutSeconds: 10
---
apiVersion: v1
kind: Pod
metadata:
name: myapp3
labels:
app: myapp
spec:
containers:
- name: myapp
image: soscscs/myapp:v1
ports:
- name: http
containerPort: 80
readinessProbe:
httpGet:
port: 80
path: /index.html
initialDelaySeconds: 5
periodSeconds: 5
timeoutSeconds: 10
---
apiVersion: v1
kind: Service
metadata:
name: myapp
spec:
selector:
app: myapp
type: ClusterIP
ports:
- name: http
port: 80
targetPort: 80
所有的自主式Pod,name不可以相同。但是使用同一个标签myapp。 service通过标签选择器和对应标签的pod关联
复制[root@master ~]# kubectl create -f readiness-myapp.yaml
#查看这些资源的详细信息。
[root@master ~]# kubectl get pods,svc,endpoints -o wide
#删除myapp1的 index.html文件,让就绪探测 失败
[root@master ~]# kubectl exec -it myapp1 -- rm -rf /usr/share/nginx/html/index.html
# 查看发现,就绪探测失败的pod被从关联的service中移除ip
[root@master ~]# kubectl get pods,svc,endpoints -o wide
总结
探针有3种:
-
livenessProbe:(存活探针)
-
- 判断容器是否正常运行,如果失败,则杀掉容器(注意,不是杀掉pod),再根据重启策略是否重启容器
-
readinessProbe(就绪探针)
-
- 判断容器是否能够进入ready状态。探针失败则进入noready状态,并从service的endpoints中剔除此容器
-
startupProbe
-
- 判断容器内的应用是否启动成功。再success状态前,其他探针都处于无效状态
检查方式3种
-
exec:
-
- 使用command 字段设置命令,在容器中执行次命令,如果命令返回状态码为0,则认为探测成功。
-
httpget
-
- 通过访问指定端口和url 路径,执行http get 访问。如果返回的 http 状态码 为 大于 等于200 且小于400 ,则认为探测成功
-
tcpsock
-
- 通过tcp连接pod(podIP) 和指定端口,如果端口无误,且tcp连接成功,则认为探测成功。
探针可选的参数
-
initialDelaySeconds
-
- 容器启动多少秒后开始执行探测
-
periodSeconds
-
- 探测的频率。每多少秒执行一次探测
-
failureThreshold
-
- 探测失败后,允许再试几次
-
timeoutSeconds
-
- 探测等待超时时间
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列:基于图像分类模型对图像进行分类
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 25岁的心里话
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现