kubernetes_tb宝满
master:kubectl操作api-server 增删改查,scheduler调度 ,controller manager控制应用副本,etcd存储应用状态 node:pod,kube-proxy Master:集群控制节点,负责整个集群的管理和控制。 API Server: 提供接口,资源增删改查入口。 Controller Manager: 所有资源对象的自动化控制中心。 Scheduler: 负责资源调度。 Etcd:master的持续状态都存在etcd。 Node:工作节点,听从master的工作分配。 Kubelet: Pod容器创建、启停,集群管理等任务。 kube-proxy: 实现service 的通信与负载均衡组件。 Docker: Docker引擎,负责本机容器创建和管理工作。 Pod: 是在K8s集群中运行部署应用或服务的最小单元,它是可以支持多容器的。Pod的设计理念是支持多个容器在一个Pod中共享网络地址和文件系统,可以通过进程间通信和文件共享这种简单高效的方式组合完成服务。 RC: replication controller是K8s集群中最早的保证Pod高可用的API对象。通过监控运行中的Pod来保证集群中运行指定数目的Pod副本。指定的数目可以是多个也可以是1个;少于指定数目,RC就会启动运行新的Pod副本;多于指定数目,RC就会杀死多余的Pod副本。即使在指定数目为1的情况下,通过RC运行Pod也比直接运行Pod更明智,因为RC也可以发挥它高可用的能力,保证永远有1个Pod在运行。 service: 一个Pod只是一个运行服务的实例,随时可能在一个节点上停止,在另一个节点以一个新的IP启动一个新的Pod,因此不能以确定的IP和端口号提供服务。要稳定地提供服务需要服务发现和负载均衡能力。 在K8s集群中,客户端需要访问的服务就是Service对象。每个Service会对应一个集群内部有效的虚拟IP,集群内部通过虚拟IP访问一个服务。 deployment: 部署表示用户对K8s集群的一次更新操作。可以是创建一个新的服务,更新一个新的服务,也可以是滚动升级一个服务。滚动升级一个服务,实际是创建一个新的RS,然后逐渐将新RS中副本数增加到理想状态,将旧RS中的副本数减小到0的复合操作;这样一个复合操作用一个RS是不太好描述的,所以用一个更通用的Deployment来描述。以K8s的发展方向,未来对所有长期伺服型的的业务的管理,都会通过Deployment来管理。 replica set: RS是新一代RC,提供同样的高可用能力,区别主要在于RS后来居上,能支持更多种类的匹配模式。副本集对象一般不单独使用,而是作为Deployment的理想状态参数使用。 daemon set: 长期伺服型和批处理型服务的核心在业务应用,可能有些节点运行多个同类业务的Pod,有些节点上又没有这类Pod运行;而后台支撑型服务的核心关注点在K8s集群中的节点(物理机或虚拟机),要保证每个节点上都有一个此类Pod运行。节点可能是所有集群节点也可能是通过nodeSelector选定的一些特定节点。典型的后台支撑型服务包括,存储,日志和监控等在每个节点上支持K8s集群运行的服务。 job: Job是K8s用来控制批处理型任务的API对象。批处理业务与长期伺服业务的主要区别是批处理业务的运行有头有尾,而长期伺服业务在用户不停止的情况下永远运行。Job管理的Pod根据用户的设置把任务成功完成就自动退出了。成功完成的标志根据不同的spec.completions策略而不同:单Pod型任务有一个Pod成功就标志完成;定数成功型任务保证有N个任务全部成功;工作队列型任务根据应用确认的全局成功而标志成功。 软件环境: master node1 node2 ubuntu 1904添加网卡: ip link 查看网卡 vim /etc/netplan/50-cloud-init.daml 写入网卡 root@master:~# cat /etc/netplan/50-cloud-init.yaml # This file is generated from information provided by # the datasource. Changes to it will not persist across an instance. # To disable cloud-init's network configuration capabilities, write a file # /etc/cloud/cloud.cfg.d/99-disable-network-config.cfg with the following: # network: {config: disabled} network: ethernets: ens33: dhcp4: true ens38: #dhcp4: true addresses: [192.168.134.130/24] nameservers: addresses: [114.114.114.114]
gateway4: 192.168.134.2 version: 2 netplan apply 重启网络 -------------------centos环境安装 #停止firewalld服务 systemctl stop firewalld && systemctl disable firewalld #关闭selinux sed -i 's/^SELINUX=enforcing$/SELINUX=disabled/' /etc/selinux/config && setenforce 0 #关闭swap设置 swapoff -a yes | cp /etc/fstab /etc/fstab_bak cat /etc/fstab_bak |grep -v swap > /etc/fstab #解决流量路由不正确问题 cat <<EOF > /etc/sysctl.d/k8s.conf vm.swappiness = 0 net.bridge.bridge-nf-call-ip6tables = 1 net.bridge.bridge-nf-call-iptables = 1 net.ipv4.ip_forward = 1 EOF # 使配置生效 modprobe br_netfilter sysctl -p /etc/sysctl.d/k8s.conf #更改hosts文件 cat >> /etc/hosts << EOF 192.168.0.20 master.example.com 192.168.0.49 node1.example.com 192.168.0.50 node2.example.com EOF #安装docker yum -y install docker systemctl enable docker && systemctl start docker #配置阿里k8s源 cat >> /etc/yum.repos.d/k8s.repo << EOF [kubernetes] name=kuberbetes repo baseurl=https://mirrors.aliyun.com/kubernetes/yum/repos/kubernetes-el7-x86_64/ gpgcheck=0 EOF #安装kubelet/kubeadm/kubectl yum -y install kubelet kubeadm kubectl systemctl enable kubelet && systemctl start kubelet -------------------centos环境安装结束 ----------------ubuntu环境安装 swapoff -a yes | cp /etc/fstab /etc/fstab_bak cat /etc/fstab_bak |grep -v swap > /etc/fstab #解决流量路由不正确问题 cat <<EOF > /etc/sysctl.d/k8s.conf vm.swappiness = 0 net.bridge.bridge-nf-call-ip6tables = 1 net.bridge.bridge-nf-call-iptables = 1 net.ipv4.ip_forward = 1 EOF # 使配置生效 modprobe br_netfilter sysctl -p /etc/sysctl.d/k8s.conf #更改hosts文件 cat >> /etc/hosts << EOF 192.168.2.150 master.example.com 192.168.2.151 node1.example.com 192.168.2.152 node2.example.com EOF apt-get -y install docker.io systemctl enable docker && systemctl start docker apt-get update && apt-get install -y apt-transport-https curl cat <<EOF >/etc/apt/sources.list.d/kubernetes.list deb https://mirrors.aliyun.com/kubernetes/apt/ kubernetes-xenial main EOF curl https://mirrors.aliyun.com/kubernetes/apt/doc/apt-key.gpg | apt-key add - apt-get update apt-get -y install kubelet=1.13.1-00 kubeadm=1.13.1-00 kubectl=1.13.1-00 kubernetes-cni=0.6.0-00 systemctl enable kubelet && systemctl start kubelet ubuntu列举软件版本: apt-cache madison kubelet ----------------ubuntu环境安装结束 -------------------------------python3 自动拉取image的脚本: import os S_registry = 'registry.cn-beijing.aliyuncs.com/kubernetesdevops/' D_registry = 'k8s.gcr.io/' master_image = ['kube-apiserver:v1.13.1','kube-controller-manager:v1.13.1', 'kube-scheduler:v1.13.1','kube-proxy:v1.13.1','pause:3.1', 'etcd:3.2.24','coredns:1.2.6','flannel:v0.10.0-amd64','kubernetes-dashboard-amd64:v1.10.0'] def PullImage(registry,images): index = 1 for image in images: cmd = "docker pull " + registry + image os.system(cmd) print("done!") index +=1 def TagImage(sregistry,dregistry,images): index = 1 for image in images: cmd = "docker tag " + sregistry+image + " " + dregistry + image os.system(cmd) print("done!") index +=1 if __name__ == '__main__': PullImage(S_registry,master_image) #TagImage(S_registry,D_registry,master_image) -----------------------------python3 自动拉取images脚本结束 删除重复的tag: for i in `docker images |grep beijing|awk '{print $1":"$2}'`;do docker rmi $i;done 拉取上面8个镜像,node1,2也都需要 -------------master初始化 kubeadm init --kubernetes-version=v1.13.1 --apiserver-advertise-address 192.168.134.130 --pod-network-cidr=10.244.0.0/16 kubeadm init --kubernetes-version=v1.13.1 --apiserver-advertise-address 192.168.134.130 --pod-network-cidr=10.244.0.0/16 --ignore-preflight-errors=SystemVerification 输出: Your Kubernetes master has initialized successfully! To start using your cluster, you need to run the following as a regular user: mkdir -p $HOME/.kube sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config sudo chown $(id -u):$(id -g) $HOME/.kube/config You should now deploy a pod network to the cluster. Run "kubectl apply -f [podnetwork].yaml" with one of the options listed at: https://kubernetes.io/docs/concepts/cluster-administration/addons/ You can now join any number of machines by running the following on each node as root: kubeadm join 192.168.134.130:6443 --token dyfl39.tsd8zqpfaehj8l9b --discovery-token-ca-cert-hash sha256:7e1358ca2c2c2edce1e548e0690ed1327fb41eb8150bb543794e8b7f48c654cd -----输出结束 -----声明一下kubeconfig echo "export KUBECONFIG=/etc/kubernetes/admin.conf" >> /etc/profile source /etc/profile kubectl get nodes 发现notReady 安装flannel curl https://raw.githubusercontent.com/coreos/flannel/62e44c867a2846fefb68bd5f178daf4da3095ccb/Documentation/kube-flannel.yml -O 一定要改镜像!打tag docker tag k8s.gcr.io/flannel:v0.10.0-amd64 quay.io/coreos/flannel:v0.10.0-amd64 kubectl apply -f kube-flannel.yml 查看pods是否在运行 root@master:~# kubectl get pods --all-namespaces NAMESPACE NAME READY STATUS RESTARTS AGE kube-system coredns-86c58d9df4-9h9sw 1/1 Running 0 50m kube-system coredns-86c58d9df4-t9s9d 1/1 Running 0 50m kube-system etcd-master 1/1 Running 0 49m kube-system kube-apiserver-master 1/1 Running 0 49m kube-system kube-controller-manager-master 1/1 Running 0 49m kube-system kube-flannel-ds-amd64-m89kt 1/1 Running 0 2m24s kube-system kube-proxy-ln4qs 1/1 Running 0 50m kube-system kube-scheduler-master 1/1 Running 0 49m root@master:~# kubectl get nodes NAME STATUS ROLES AGE VERSION master Ready master 52m v1.13.1 --------------master初始化结束 用kubeadm部署node1 注意node也要打flannel的tag ----------------------kubeadm安装dashboard 在master安装dashboard 先拉取镜像 docker pull registry.cn-beijing.aliyuncs.com/kubernetesdevops/kubernetes-dashboard-amd64:v1.10.0 或者用这个: docker pull registry.cn-shanghai.aliyuncs.com/coolyeah/kubernetes-dashboard-amd64:v1.10.1 再tag一下 docker tag registry.cn-beijing.aliyuncs.com/kubernetesdevops/kubernetes-dashboard-amd64:v1.10.0 k8s.gcr.io/kubernetes-dashboard-amd64:v1.10.0 去github找yaml文件: https://github.com/kubernetes/dashboard/tree/v1.10.0 把yaml下载下来 curl -O https://raw.githubusercontent.com/kubernetes/dashboard/v1.10.0/src/deploy/recommended/kubernetes-dashboard.yaml apply一下 kubectl apply -f kubernetes-dashboard.yaml 查看一下: kubectl get pods --all-namespaces 发现起不来,再看一下详细情况: kubectl describe pods kubernetes-dashboard-79ff88449c-w55xl -n kube-system 发现Error:ErrImagePull Failed to pull image "k8s.gcr.io/kubernetes-dashboard-amd64:v1.10.0": rpc error: code = Unknown desc = Error response from daemon: Get https://k8s.gcr.io/v2/: net/http: request canceled while waiting for connection (Client.Timeout exceeded while awaiting headers) 原来这个在node1上,所以node1,也要这个dashboard的image 可以delete掉: kubectl delete -f kubernetes-dashboard.yaml 重新apply: kubectl apply -f kubernetes-dashboard.yaml 查看一下: kubectl get pods --all-namespaces kubectl describe pods kubernetes-dashboard-79ff88449c-554h9 -n kube-system 查看一下dashboard暴露的端口: kubectl get service --namespace=kube-system 准备访问master的443端口: http://192.168.134.130:443 发现访问不了 可以在161行新增nodePort:31234 164行新增type: NodePort ,用nodePort方式启动 -------比如: kind: Service apiVersion: v1 metadata: labels: k8s-app: kubernetes-dashboard name: kubernetes-dashboard namespace: kube-system spec: ports: - port: 443 targetPort: 8443 nodePort:31234 selector: k8s-app: kubernetes-dashboard type: NodePort -----比如结束 删除dashboard: kubectl delete -f kubernetes-dashboard.yaml 重建: kubectl apply -f kubernetes-dashboard.yaml 查看svc: root@master:~# kubectl get svc --namespace=kube-system NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE kube-dns ClusterIP 10.96.0.10 <none> 53/UDP,53/TCP 26h kubernetes-dashboard NodePort 10.109.246.38 <none> 443:31234/TCP 3s 访问master机器的31234端口: https://192.168.2.150:31234 令牌,先要获取令牌: kubectl get secret -n kube-system 发现kubernetes-dashboard-token-p9kvp kubectl describe secret kubernetes-dashboard-token-p9kvp -n kube-system 把很长的token输入到web界面里 登陆进去发现有黄色告警信息 vim kube-user.yml apiVersion: v1 kind: ServiceAccount metadata: name: admin namespace: kube-system labels: kubernetes.io/cluster-service: "true" addonmanager.kubernetes.io/mode: Reconcile --- kind: ClusterRoleBinding apiVersion: rbac.authorization.k8s.io/v1beta1 metadata: name: admin annotations: rbac.authorization.kubernetes.io/autoupdate: "true" subjects: - kind: ServiceAccount name: admin namespace: kube-system roleRef: kind: ClusterRole name: cluster-admin apiGroup: rbac.authorization.k8s.io kubectl apply -f kube-user.yml 这次grep admin: kubectl get secret -n kube-system | grep admin 最后获取令牌: kubectl describe secret admin-token-q42p6 -n kube-system 登出web,重新用令牌登陆 小技巧: 拉取别人的镜像,放到自己的来云上面。 先pull 如: docker pull registry.cn-beijing.aliyuncs.com/kubernetesdevops/kubernetes-dashboard-amd64:v1.10.0 再tag: docker tag registry.cn-beijing.aliyuncs.com/kubernetes-alex/kubernetes-dashboard-amd64:v1.10.0 登陆仓库: docker login registry.cn-beijing.aliyuncs.com 最后push上去 docker push registry.cn-beijing.aliyuncs.com/kubernetes-alex/kubernetes-dashboard-amd64:v1.10.0 ============================= kubectl命令行工具常用命令运营 # kubectl命令 ## 命令行语法 kubectl [command ] [TYPE] [NAME] [flags] command: create/delete/get/describe/apply type: 资源对象类型,严格区分大小写。 name: 资源对象的名称,严格区分大小写。 flags: 可选参数 -n 指定namespaces ## 资源对象类型 daemonsets ds deployments events ev 事件 endpoints ep horizontalpodautoscalers hpa 水平扩展 ingresses ing jobs nodes no namespaces ns pods po persistentvolumes pv 物理卷 persistentvolumesclaims pvc 物理卷组 resourcequotas quota replicationcontrollers rc secerts service svc serviceaccounts sa ## 练习 同时查看多种资源对象 ``` kubectl get pod/etcd-master.example.com svc/kubernetes-dashboard -n kube-system ``` ## kubectl 子命令 annotate 添加或者更新资源对象的信息 apply kubectl apply -f filename 从配置文件更新资源对象 attach kubectl attach pod -c container 链接正在运行的pod cluster-info kubectl cluster-info 显示集群信息 completion kubectl completion bash 输出shell命令执行后的返回码 config kubectl config get-clusters 修改kubeconfig配置文件 create kubectl create -f kube-user.yml 从配置文件创建资源对象 delete kubectl delete -f kube-user.yml 从配置文件删除资源对象 describe kubectl describe sa 查看资源对象的详细信息 edit kubectl edit sa 编辑资源对象的属性 exec kubectl exec coredns-86c58d9df4-d8x49 ls -n kube-system 执行一个容器中的命令 label kubectl label node node1.example.com a=b 为资源对象创建label标记 ------------------------------------------ 通过yaml创建pod对象 小技巧: 查看其他pod的情况并用yaml方式显示出来 kubectl edit pod coredns-86c58d9df4-9h9sw -n kube-system 学习怎么写yaml可以查看github kubernetes的handbook https://github.com/feiskyer/kubernetes-handbook https://github.com/kubernetes/examples https://github.com/kubernetes/examples/tree/master/guestbook 小技巧: 改名所有下下来的tag: for i in `docker images|grep gcr|awk '{print $1":"$2}'|cut -d"/" -f2`;do docker tag k8s.gcr.io/$i registry.cn-shanghai.aliyuncs.com/alexhjl/$i;done 上传到阿里云的镜像仓库: for i in `docker images |grep shanghai`;do docker push $i;done 创建一个nginx.yaml apiVersion: v1 kind: Pod metadata: name: nginx labels: app: nginx spec: containers: - name: nginx image: registry.xxx.com/nginx:latest imagePullPolicy: IfNotPresent ports: - containerPort: 80 IfNotPresent,当本地镜像不存在时会pull kubectl create -f nginx.yaml 如果不指定namespace 会在当前的namespace中创建pod kubectl get pod 查看pod在哪个node运行: kubectl describe pod nginx 删除pod: kubectl delete pod nginx 或者 kubectl delete -f nginx.yaml master节点为什么不运行pod? 因为master节点有个标记,kubectl get node --show-labels 可以显示所有标记 pod的生命周期: Pending: 记录状态 下载镜像 Running:调度完成 Successed: 程序终止 Failed: 有未终止容器 Unknown: kubectl先根据yaml定义来创建pod,pod的相关信息存入到etcd上。apiserver返回确认的信息给客户端。apiserver开始查询etcd中的状态变化,调度器就会查看资源对象是否绑定到哪个节点,没有绑定节点就会为pod挑选一个节点,调度到这个节点上来。如果已经定义了绑定到存在的节点中,则调度器调度到节点中,调度成功后把状态结果反馈到etcd。 kubernetes设计理念 pdf 第49页 kubernetes核心技术概念和api对象 pdf第51页 k8s核心组件与通信端口 pdf58页 kube-apiserver原理分析: kubectl api-versions //查询api支持的版本 root@master:~# kubectl api-versions admissionregistration.k8s.io/v1beta1 apiextensions.k8s.io/v1beta1 apiregistration.k8s.io/v1 apiregistration.k8s.io/v1beta1 apps/v1 apps/v1beta1 apps/v1beta2 authentication.k8s.io/v1 authentication.k8s.io/v1beta1 authorization.k8s.io/v1 authorization.k8s.io/v1beta1 autoscaling/v1 autoscaling/v2beta1 autoscaling/v2beta2 batch/v1 batch/v1beta1 certificates.k8s.io/v1beta1 coordination.k8s.io/v1beta1 events.k8s.io/v1beta1 extensions/v1beta1 networking.k8s.io/v1 policy/v1beta1 rbac.authorization.k8s.io/v1 rbac.authorization.k8s.io/v1beta1 scheduling.k8s.io/v1beta1 storage.k8s.io/v1 storage.k8s.io/v1beta1 v1 kubectl api-resources --api-group=apps/v1 //查询资源对象 kubectl get --raw /api/v1/namespaces kubectl proxy --port=8080 & //开启本地代理网关,也可以不加--port=8080 ---------------------------- kubernetes scheduler 负责pod的生命周期中的后半部分。 通过apiserver查询未分配node的pod,根据调度策略调度pod。 通常通过RC/Deployment/Daemonset/Job完成pod的调度。 scheduler工作原理: 1.API创建新的pod 2.Controller Manager 补充pod的副本 3.Scheduler 按照特定的调度算法绑定到集群中匹配的node上 4.绑定成功,将绑定信息写入etcd scheduler节点调度: nodeSelector(定向调度): 调度到label匹配的node节点中 nodeAffinity(亲和性调度): 调度到label匹配的node节点中(可以设置优选,匹配更丰富) requiredDuringSchedulingRequiredDuringExecution(类似于selector) requiredDuringSchedulingIgnoredDuringExecution (满足条件) preferredDuringSchedulingIgnoredDuringExecution(优选条件) podAffinity: 调度到匹配的pod运行的node节点中。 nodeAffinity requiredDuringSchedulingRequiredDuringExecution: 当pod不满足条件时,系统将从该node上移除之前调度的pod。 requiredDuringSchedulingIgnoredDuringExecution:与上面类似,区别: 当node条件不满足时,系统不一定要从该node上移除之前调度的pod。 preferredDuringSchedulingIgnoredDuringExecution: 指定在满足调度条件的node中,那些node应该更优先的进行调度。 同时当node不满足条件时,系统不一定从移除之前调度的pod。 给node节点创建label标记 kubectl label nodes node01.example.com cpucounts=four 查看node的标记 kubectl get nodes --show-labels 在资源对象中添加调度设置 spec: nodeSelector: cpucounts: four 实验步骤: 1.创建一个pod,添加调度信息。 2.查看pod的运行状态 3.给node节点创建匹配的label 4.验证pod运行正常 如果没有匹配的node,Pod状态将会一直处于pending状态。 cat nodeselector_nginx.yaml 上面给node01带了个标签cpucounts=four,这里就会匹配到 apiVersion: v1 kind: Pod metadata: name: nginx labels: app: nginx spec: nodeSelector: cpucounts: four containers: - name: nginx image: docker.io/library/nginx imagePullPolicy: IfNotPresent ports: - containerPort: 80 kubectl apply -f nodeselector_nginx.yaml 如果不启动,describe一下看详细情况 kubectl describe pod nginx cat nodeAffinity-R.yaml 当前pod调度到拥有标签area=test1/test2的节点上 apiVersion: v1 kind: Pod metadata: name: testschduler spec: affinity: nodeAffinity: requiredDuringSchedulingIgnoredDuringExecution: nodeSelectorTerms: - matchExpressions: - key: area operator: In values: - test1 - test2 containers: - name: myapp image: nginx requiredDuringSchedulingIgnoredDuringExecution: 1.值为一个对象列表,由一个到多个nodeSelectorTerm定义的对象组成。 2.多个nodeSelectorTerm之间只要满足其中一个即可。 nodeSelectorTerm: 1.用于定义节点选择器条目,由一个或多个matchExpressions对象定义的匹配规则组成。 2.规则之间 逻辑与关系,必须满足一个nodeSelectorTerm下的所有matchExpressions。 matchExpressions: 由一个或多个标签选择器组成 operator: 标签选择器表达式中的操作符 常用: In NotIn Exists DoesNotExist Lt Gt cat nodeAffinity-P.yaml apiVersion: v1 kind: Pod metadata: name: testschduler spec: affinity: nodeAffinity: preferredDuringSchedulingIgnoredDuringExecution: - wight: 90 preference: matchExpressions: - key: area operator: In values: - test1 - test2 - wight: 80 preference: matchWxpressions: - key: vm operator: Exists values: [] containers: - name: myapp image: nginx 当前pod调度到拥有标签 area=test1/test2 或者存在vm标签的节点上。 wight=170 area=test1 vm=true wight=90 area=test1 wight=80 vm=true cat podAffinity-R.yaml apiVersion: v1 kind: Pod metadata: name: testschduler spec: affinity: podAffinity: requiredDuringSchedulingIgnoredDuringExecution: - labelSelector: matchExpressions: - key: area operator: In values: - test1 - test2 topologyKey: kubernetes.io/hostname 通过labelSelector选择pod,根据pod对象所在 -------------------------------------------- Controller manager 由kube-controller-manager 和cloud-controller-manager组成。 controller manager是 kubernetes的大脑。 通过apiserver监控整个集群的状态,确保符合预期状态。 Metrics 度量: (性能参数) controller manager metrics 提供了控制器内部逻辑的性能度量。 默认监听 10252端口(prometheus) Go语言运行时度量 etcd请求延时 云服务提供商API请求延时 访问: http://localhost:10252/metrics ------------------------------------------------ kubelet 每个节点都运行一个kubelet进程,默认端口10250。 接受并执行master发来的指令,管理pod和其中的容器。 每个kubelet都会向apiserver注册自身信息。 定期向master节点汇报当前节点的情况。 通过cAdvisor监控节点和容器的资源。 kubelet监听10250端口 容器健康检查: LivenessProbe探针 用于判断容器是否健康。如果探测不健康则通过kubelet删除该容器。 如果一个容器不包含探针kubelet会认为值为success。 ReadinessProbe 用于判断容器是否启动完成且准备接收请求。如果探测到失败,则pod的状态被修改。 来诊断容器的健康状态。kubelet定期调用容器中的livenessprobe探针 实现方式 ExecAction: 在容器内部执行一条命令,如果退出状态码为0,则表明容器健康。 TCPSocketAction: 通过容器的IP地址和端口号执行TCP检查,如果端口能够被访问则表明容器健康。 HTTPGetAction: 通过容器的IP地址和端口及路径调用HTTP GET方法,如果状态码大于等于200且小于400,则认为容器健康。 cAdvisor资源监控: 一个开源的分析容器资源使用率和性能特性的代理工具。 自动查找所有在其所在的节点上的容器,自动采集CPU、内存、文件系统和网络使用的统计信息。 cAdvisor通过其所在的节点机的4194端口暴露一个UI。 cr容器运行时:container runtime 容器运行时是Kubernetes最重要的组件之一。 负责真正管理镜像和容器的生命周期。 kubelet通过CRI与容器运行时交互,以管理镜像和容器。 获取node的性能指标 看看各node上面有没有10255端口,如果没启动的话。 可以修改 vim /var/lib/kubelet/kubeadm-flags.env 加入 --read-only-port=10255 完整行: KUBELET_KUBEADM_ARGS=--read-only-port=10255 --cgroup-driver=cgroupfs --network-plugin=cni --pod-infra-container-image=k8s.gcr.io/pause:3.1 --resolv-conf=/run/systemd/resolve/resolv.conf systemctl restart kubelet 或者: vim /etc/systemd/system/kubelet.service.d/10-kubeadm.conf 添加一行 Environment="KUBELET_API=--read-only-port=10255" 修改一行 ExecStart=/usr/bin/kubelet $KUBELET_API $KUBELET_KUBECONFIG_ARGS $KUBELET_CONFIG_ARGS $KUBELET_KUBEADM_ARGS $KUBELET_EXTRA_ARGS 完整文件:-------------完整文件开始 # Note: This dropin only works with kubeadm and kubelet v1.11+ [Service] Environment="KUBELET_KUBECONFIG_ARGS=--bootstrap-kubeconfig=/etc/kubernetes/bootstrap-kubelet.conf --kubeconfig=/etc/kubernetes/kubelet.conf" Environment="KUBELET_CONFIG_ARGS=--config=/var/lib/kubelet/config.yaml" # This is a file that "kubeadm init" and "kubeadm join" generates at runtime, populating the KUBELET_KUBEADM_ARGS variable dynamically EnvironmentFile=-/var/lib/kubelet/kubeadm-flags.env Environment="KUBELET_API=--read-only-port=10255" # This is a file that the user can use for overrides of the kubelet args as a last resort. Preferably, the user should use # the .NodeRegistration.KubeletExtraArgs object in the configuration files instead. KUBELET_EXTRA_ARGS should be sourced from this file. EnvironmentFile=-/etc/default/kubelet ExecStart= ExecStart=/usr/bin/kubelet $KUBELET_API $KUBELET_KUBECONFIG_ARGS $KUBELET_CONFIG_ARGS $KUBELET_KUBEADM_ARGS $KUBELET_EXTRA_ARGS ------------------------完整文件结束 systemctl daemon-reload systemctl restart kubelet 最后就能通过链接获取该主机的所有状态性能 curl 192.168.2.151:10255/stats/summary -------------------------------------------------------------------------------- docker视频教程 ------------------------------- Prometheus视频 https://github.com/aaron111com/Jenkinsdocs/blob/master/chapter/Prometheus%E5%AE%89%E8%A3%85%E9%83%A8%E7%BD%B2+%E7%9B%91%E6%8E%A7+%E7%BB%98%E5%9B%BE+%E5%91%8A%E8%AD%A6.md 1.安装node_export在/usr/local tar zxvf node_exporter-0.18.1.linux-amd64.tar.gz -C /usr/local/ vim /etc/systemd/system/node_exporter.service [Unit] Description=node_exporter After=network.target [Service] Restart=on-failure ExecStart=/usr/local/node_exporter-0.18.1.linux-amd64/node_exporter [Install] WantedBy=multi-user.target systemctl start node_export systemctl status node_exporter systemctl enable node_exporter netstat -ntulp| grep 9100 #node_exporter 监听9100端口 浏览器可以访问http://192.168.2.150:9100/metrics 2.安装prometheus tar zxvf prometheus-2.12.0.linux-amd64.tar.gz -C /usr/local/ vim /etc/systemd/system/prometheus.service [Unit] Description=Prometheus Server Documentation=https://prometheus.io/docs/introduction/overview/ After=network-online.target [Service] Restart=on-failure ExecStart=/usr/local/prometheus-2.12.0.linux-amd64/prometheus --config.file=/usr/local/prometheus-2.12.0.linux-amd64/prometheus.yml --storage.tsdb.path=/var/lib/prometheus --web.external-url=http://0.0.0.0:9090 [Install] WantedBy=multi-user.target systemctl start prometheus netstat -ntulp| grep 9090 systemctl enable prometheus 静态配置添加一台主机: vim /usr/local/prometheus-2.12.0.linux-amd64/prometheus.yml # my global config global: scrape_interval: 15s # Set the scrape interval to every 15 seconds. Default is every 1 minute. evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute. # scrape_timeout is set to the global default (10s). # Alertmanager configuration alerting: alertmanagers: - static_configs: - targets: # - alertmanager:9093 # Load rules once and periodically evaluate them according to the global 'evaluation_interval'. rule_files: # - "first_rules.yml" # - "second_rules.yml" # A scrape configuration containing exactly one endpoint to scrape: # Here it's Prometheus itself. scrape_configs: # The job name is added as a label `job=<job_name>` to any timeseries scraped from this config. - job_name: 'prometheus' # metrics_path defaults to '/metrics' # scheme defaults to 'http'. static_configs: - targets: ['localhost:9090'] # add custom monitor job,monitor node_exporter 通过静态方式添加一台主机,监控node_expoter - job_name: "my target" static_configs: - targets: ['localhost:9100'] 添加完,重启prometheus systemctl restart prometheus 打开浏览器页面 http://192.168.2.150:9090 访问status->targets 服务发现: 动态发现,事业云环境,动态伸缩,迅速配置。 kubernetes为例: 需要配置api的地址和认证凭据。 prometheus一直监听集群的变化 获取新增/删除集群中机器的信息,并更新采集对象列表。 prometheus数据存储: 本地存储:通过自带的时序数据库将数据保存到本地的磁盘。 远端存储:适用于存储大量的监控数据,支持opentsdb,influxdb,elasticsearch等后端存储。通过适配器实现存储的远程读写接口,便可以监控。 安装grafana https://mirrors.tuna.tsinghua.edu.cn/help/grafana/ Debian / Ubuntu 用户 首先信任 https://packages.grafana.com/ 的 GPG 公钥: curl https://packages.grafana.com/gpg.key | sudo apt-key add - 确保你的 apt 支持 HTTPS: sudo apt-get install -y apt-transport-https 选择你希望安装的 Grafana 版本(与你的 Debian/Ubuntu 系统版本无关),文本框中内容写进 /etc/apt/sources.list.d/grafana.list 你的 Grafana 版本: deb https://mirrors.tuna.tsinghua.edu.cn/grafana/apt/ stable main 安装 Grafana sudo apt-get update sudo apt-get install grafana 启动: systemctl start grafana-server 访问3000端口 192.168.2.150:3000 添加数据源 Prometheus,黏贴地址,dashboard里导入3个 访问这个装主机监控插件,监控cpu,内存,磁盘,网络 https://grafana.com/dashboards/9276 导入grafana: 选择dashboard import,然后导入json。 数据告警: alertmanager tar zxvf alertmanager-0.19.0.linux-amd64.tar.gz -C /usr/local/ cat /etc/systemd/system/alertmanager.service [Unit] Description=Alertmanager After=network-online.target [Service] Restart=on-failure ExecStart=/usr/local/alertmanager-0.19.0.linux-amd64/alertmanager --config.file=/usr/local/alertmanager-0.19.0.linux-amd64/alertmanager.yml [Install] WantedBy=multi-user.target systemctl start alertmanager systemctl enable alertmanager netstat -ntulp| grep 9093 浏览器访问http://192.168.2.150:9093 修改Prometheus的配置文件: root@master:/usr/local/prometheus-2.12.0.linux-amd64# cat prometheus.yml # my global config global: scrape_interval: 15s # Set the scrape interval to every 15 seconds. Default is every 1 minute. evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute. # scrape_timeout is set to the global default (10s). # Alertmanager configuration alerting: alertmanagers: - static_configs: - targets: - localhost:9093 #修改成alertmanager的地址 # Load rules once and periodically evaluate them according to the global 'evaluation_interval'. rule_files: - "rules/host_rules.yml" #新建文件夹rules和下面yml # - "first_rules.yml" # - "second_rules.yml" # A scrape configuration containing exactly one endpoint to scrape: # Here it's Prometheus itself. scrape_configs: # The job name is added as a label `job=<job_name>` to any timeseries scraped from this config. - job_name: 'prometheus' # metrics_path defaults to '/metrics' # scheme defaults to 'http'. static_configs: - targets: ['localhost:9090'] # add custom monitor job,monitor node_exporter - job_name: "my target" static_configs: - targets: ['localhost:9100'] mkdir rules vim rules/host_rules.yml groups: - name: 'Linux Instances' rules: - alert: InstanceDown expr: up == 0 for: 5s labels: severity: page # Prometheus templates apply here in the annotation and label fields of the alert. annotations: description: 'has been down for more than 5 s.' 重启Prometheus systemctl restart prometheus 这时候把node_exporter关掉 systemctl stop node_exporter prometheus的界面就会报警 如果要配置邮件报警: alertmanager需要配置一下, global: resolve_timeout: 5m smtp_smarthost: 'smtp.qq.com:465' smtp_from: 'xxxxx@qq.com' smtp_auth_username: 'xxxx@qq.com' smtp_auth_password: 'xxxkbpfmygbecg' smtp_require_tls: false route: group_by: ['alertname'] group_wait: 10s group_interval: 10s repeat_interval: 1h receiver: 'toemail' receivers: - name: 'toemail' email_configs: - to: 'xxxxx@qq.com' send_resolved: true - name: 'web.hook' webhook_configs: - url: 'http://127.0.0.1:5001/' inhibit_rules: - source_match: severity: 'critical' target_match: severity: 'warning' equal: ['alertname', 'dev', 'instance'] systemctl restart alertmanager