Kubernetes(K8S)概念
一、Kubernetes 介绍
1. 什么是 Kubernetes
Kubernetes(通常称为K8s,K8s是将8个字母“ubernete”替换为“8”的缩写)是一个以容器为中心的基础架构,可以实现在物理集群或虚拟机集群上调度和运行容器,提供容器自动部署、扩展和管理的开源平台。满足了应用程序在生产环境中的一些通用需求:应用实例副本、水平自动扩展、命名与发现、负载均衡、滚动升级、资源监控等。
Kubernetes 是一个可移植、可扩展的开源平台,用于管理容器化工作负载和服务,有助于声明式配置和自动化。它拥有庞大且快速发展的生态系统。
- Kubernetes 是Google在2014年开源的一个容器集群管理系统,Kubernetes简称K8S。
- K8S用于容器化应用程序的部署,扩展和管理。
- K8S提供了容器编排,资源调度,弹性伸缩,部署管理,服务发现等-一系列功能。
- Kubernetes目标是让部署容器化应用简单高效。
作用:
- 用于自动部署、扩展和管理“容器化( containerized) 应用程序"的开源系统。
- 可以理解成K8S是负责自动化运维管理多个容器化程序(比如Docker)的集群,是一个生态极其丰富的容器编排框架工具。
2. 部署方式的演变
在部署应用程序的方式上,主要经历了三个时代:
传统部署:
互联网早期,会直接将应用程序部署在物理机上
优点:简单,不需要其它技术的参与
缺点:不能为应用程序定义资源使用边界,很难合理地分配计算资源,而且程序之间容易产生影响
虚拟化部署:
可以在一台物理机上运行多个虚拟机,每个虚拟机都是独立的一个环境
优点:程序环境不会相互产生影响,提供了一定程度的安全性
缺点:增加了操作系统,浪费了部分资源
容器化部署:
与虚拟化类似,但是共享了操作系统
优点:
- 可以保证每个容器拥有自己的文件系统、CPU、内存、进程空间等
- 运行应用程序所需要的资源都被容器包装,并和底层基础架构解耦
- 容器化的应用程序可以跨云服务商、跨Linux操作系统发行版进行部署
容器化部署方式给带来很多的便利,但是也会出现一些问题,比如说:
一个容器故障停机了,怎么样让另外一个容器立刻启动去替补停机的容器
当并发访问量变大的时候,怎么样做到横向扩展容器数量
这些容器管理的问题统称为容器编排问题,为了解决这些容器编排问题,就产生了一些容器编排的软件:
- Swarm:Docker自己的容器编排工具
- Mesos:Apache的一个资源统一管控的工具,需要和Marathon结合使用
- Kubernetes:Google开源的容器编排工具
3. 为什么要用K8S
试想下传统的后端部署办法:把程序包(包括可执行二进制文件、配置文件等)放到服务器上,接着运行启动脚本把程序跑起来,同时启动守护脚本定期检查程序运行状态、必要的话重新拉起程序
设想一下,如果服务的请求量上来,已部署的服务响应不过来怎么办?传统的做法往往是,如果请求量、内存、CPU超过阈值做了告警,运维人员马上再加几台服务器,部署好服务之后,接入负载均衡来分担已有服务的压力
这样问题就出现了:从监控告警到部署服务,中间需要人力介入! 那么,有没有办法自动完成服务的部署、更新、卸载和扩容、缩容呢?
而这就是K8S要做的事情: 自动化运维管理容器(Docker) 程序。K8S的目标是让部署容器化应用简单高效
K8S解决了裸跑Docker的若干痛点:
- 单机使用,无法有效集群
- 随着容器数量的.上升,管理成本攀升
- 没有有效的容灾、自愈机制
- 没有预设编排模板,无法实现快速、大规模容器调度
- 没有统一 的配置管理中心工具
- 没有容器生命周期的管理工具
- 没有图形化运维管理工具
k8s提供了容器编排,资源调度,弹性伸缩,部署管理,服务发现等一系列功能
众所周知kubernetes是一个容器编排工具,可以高效、批量的去管理容器;那么有人就要问了,docker有自带的docker-compose(单机编排)和docker-Swarm(多机编排),为什么还要用k8s,Docker-Compose的运用可
以充分地把单物理服务器的性能充分利用起来,并且可以快速地进行持续交付,那如何高效地进行监控各个容器的健康运行情况以及崩溃后如何迁移服务呢?也就是常见的集群管理问题,此时的docker Swarm技术解决了这个问题,但是如何更加高效、智能的管理容器集群呢?这时谷歌公司内部使用很久k8S横空出世,抢占了近80%的市场份额,成为行业领头羊,为什么k8s能击败docker Swarm呢?那是因为kubernetes的这些优点:
- 快速部署功能:定义对应的charts,可以方便把大型的应用部署上去。
- 智能的缩扩容机制:部署时候会自动去考虑容器应该部署在哪个服务器上,以及副本的数量可以自定义。
- 自愈功能:某个节点的服务崩溃了,可以自动迁移到另外一个服务器节点来恢复来实现高可用。
- 智能的负载均衡:利用Ingress,可以实现流量通过域名访问进来时候,进行流量的分流到不同服务器上。
- 智能的滚动升降级:升级或者降级时候,会逐个替换,当自定义数量的服务升级OK后,才会进行其他的升级以及真正销毁旧的服务。
技术 | 应用场景 | 资源占用比 |
---|---|---|
docker | 单机部署简单应用 | 低 |
Docker-Compose | 单机/少数机器部署应用 | 低 |
kubernetes | 集群部署高可用应用 | 低 |
4. K8S 的特性
弹性伸缩
使用命令、UI或者基于CPU使用情况自动快速扩容和缩容应用程序实例,保证应用业务高峰并发时的高可用性 ==> 业务低峰时回收资源,以最小成本运行服务
自我修复
在节点故障时重新启动失败的容器,替换和重新部署,保证预期的副本数量 ==> 杀死健康检查失败的容器,并且在未准备好之前不会处理客户端请求,确保线上服务不中断
服务发现和负载均衡
K8S为多个容器提供一个统一访问入口(内部IP地址和一个DNS名称),并且负载均衡关联的所有容器,使得用户无需考虑容器IP问题
自动发布(默认滚动发布模式)和回滚
K8S采用滚动更新策略更新应用,一次更新一个Pod,而不是同时删除所有Pod,如果更新过程中出现问题,将回滚更改,确保升级不受影响业务
集中化配置管理和密钥管理
管理机密数据和应用程序配置,而不需要把敏感数据暴露在镜像里,提高敏感数据安全性。并可以将一些常用的配置存储在K8S中,方便应用程序使用
存储编排,支持外挂存储并对外挂存储资源进行编排
挂载外部存储系统,无论是来自本地存储,公有云( 如AWS),还是网络存储( 如NFS、Glusterfs、Ceph) 都作为集群资源的一部分使用, 极大提高存储使用灵活性
任务批处理运行
提供一次性任务,定时任务 ==> 满足批量数据处理和分析的场景
二、Kubernetes 集群架构与组件
K8S是属于主从设备模型(Master-Slave 架构),即有Master 节点负责集群的调度、管理和运维,Slave 节点是集群中的运算工作负载节点
在K8S中,主节点一般被称为Master 节点,而从节点则被称为Worker Node 节点,每个Node 都会被Master 分配一些工作负载
Master组件可以在群集中的任何计算机上运行,但建议Master节点占据一个独立的服务器
因为Master是整个集群的大脑,如果Master所在节点宕机或不可用,那么所有的控制命令都将失效
除了Master, 在K8S集群中的其他机器被称为Worker Node节点,当某个Node宕机时,其上的工作负载会被Master自动转移到其他节点上去
1. Master 组件
Master:集群控制管理节点,所有的命令都经由master处理
(1)Kube-apiserver
用于暴露Kubernetes API,任何资源请求或调用操作都是通过kube-apiserver提供的接口进行。以HTTP Restful API
提供接口服务,所有对象资源的增删改查和监听操作都交给API Server处理后再提交给Etcd存储
可以理解成API Server 是K8S的请求入口服务。API Server 负责接收K8S所有请求(来自UI界面或者CLI命令行工具),
然后根据用户的具体请求,去通知其他组件干活。可以说API Server 是K8S集群架构的大脑
(2)Kube-controller-manager
运行管理控制器,是K8S 集群中处理常规任务的后台线程,是K8S集群里所有资源对象的自动化控制中心。
在K8S集群中,一个资源对应一个控制器,而Controller manager就是负责管理这些控制器的
由一系列控制器组成,通过APIServer监控整个集群的状态,并确保集群处于预期的工作状态,比如当某个Node意外宕机时,Controller Manager会及时发现并执行自动化修复流程,确保集群始终处于预期的工作状态
(3)Kube-controller-manager 五大控制器
控制器有五大类:节点控制器、副本控制器、端点控制器、服务账户和令牌控制器、资源配额控制器、命令空间控制器、服务控制器
Node Controller(节点控制器)
Node Controller(节点控制器)是Kubernetes中一个重要的控制器组件,它负责监控管理节点(Node)的状态,并在节点出现故障时发现和响应。
Node Controller会定期检查Kubernetes集群中所有节点的状态信息,包括节点的健康状况、资源使用情况、网络连接等。如果某个节点的状态发生异常变化,例如节点由于硬件故障或其他原因导致失联或无法正常运行,Node Controller就会立即发现并触发一系列的后续操作,以保证整个集群的可用性和稳定性。
在发现节点状态异常时,Node Controller会执行以下操作:
- 标记节点不可用:将该节点的状态标记为不可用(unhealthy),并通知其他组件停止对该节点上的Pod进行调度和部署。
- 将Pod重新分配:将该节点上运行的Pod重新调度到其他可用的节点上,以确保应用程序的持续运行。
- 删除失联Pod:如果一个节点长时间无法恢复,或者节点上运行的Pod已经无法正常工作,则Node Controller会删除这些失联的Pod并释放资源,防止资源浪费和进一步影响整个集群的稳定性。
通过Node Controller的健康检查和故障响应机制,Kubernetes可以自动维护和管理集群中的节点,提高应用程序的可靠性和稳定性。
Replication Controller(副本控制器)
负责保证集群中一个RC (资源对 象Replication Controller) 所关联的Pod副本数始终保持预设值。可以理解成确保集群中有且仅有N个Pod实例,N是RC中定义的Pod副本数量
Replication Controller(副本控制器)是Kubernetes中的一个核心控制器组件,负责确保集群中指定数量的Pod副本持续运行。
通过创建和管理一组Pod副本,Replication Controller可以实现应用程序的高可用性和扩展性。它会根据用户定义的副本数量(replicas)创建并维护指定数量的Pod副本,以确保在任何时候都有足够的Pod来处理应用程序的工作负载。
当使用Replication Controller时,用户需要定义以下几个关键属性:
- Labels(标签):用于标识由Replication Controller控制的Pod副本。
- Replicas(副本数量):指定用户期望的Pod副本数量。
Replication Controller会监控Pod副本的状态,并根据需要采取适当的措施来维持所需的副本数量。如果副本数量少于预设值,Replication Controller会创建新的Pod副本来填充空缺;如果副本数量多于预设值,Replication Controller会删除多余的Pod副本,以保持副本数量在预设范围内。
通过Replication Controller的管理,Kubernetes可以自动进行水平扩展或收缩,以适应应用程序的需求变化。同时,如果某个Pod副本发生故障或处于不健康状态,Replication Controller也会自动替换它,确保应用程序的可用性和稳定性。
需要注意的是,Kubernetes已经推出了ReplicaSet作为Replication Controller的替代品,并逐渐取代了Replication Controller的使用。不过,Replication Controller仍然兼容并支持旧版应用。
Endpoints Controller(端点控制器)
填充端点对象 (即连接Services 和Pods) ,负责监听 Service 和对应的Pod副本的变化,可以理解端点是一个服务暴露出来的访问点,如果需要访问一个服务,则必须知道它的endpoint
Service Account & Token Controllers(服务帐户和令牌控制器)
为新的命名空间创建默认帐户和API访问令牌
ResourceQuota Controller(资源配额控制器)
确保指定的资源对象在任何时候都不会超量占用系统物理资源
Namespace Controller(命名空间控制器)
管理namespace的生命周期
Service Controller (服务控制器)
属于K8S集群与外部的云平台之间的一个接口控制器
Kube-scheduler
是负责资源调度的进程,根据调度算法为新创建的Pod选择一个合适的Node节点,可以理解成K8S所有Node节点的调度器。当用户要部署服务时,Scheduler 会根据调度算法选择最合适的Node 节点来部署Pod
Kube-scheduler是Kubernetes中负责资源调度的组件,它根据一系列的调度算法为新创建的Pod选择合适的Node节点来运行。它可以被理解为整个Kubernetes集群中的调度器。
在进行资源调度时,Kube-scheduler会依次执行两个主要的策略,即预算策略(predicate)和优选策略(priorities)。
预算策略(predicate)是用于过滤不符合条件的Node节点的策略。当Scheduler接收到一个新的Pod的创建请求时,预算策略会根据一些前置条件对所有的Node节点进行筛选。这些条件可能包括节点的资源限制、Pod亲和性、数据本地性等。通过预算策略,可以排除掉那些无法满足Pod需求或不符合预定规则的Node节点,从而缩小调度范围。
优选策略(priorities)是用于评估和排序剩余可用Node节点的策略。在经过预算策略的筛选后,如果还有多个满足要求的Node节点,优选策略将根据一系列的条件和权重对这些节点进行评分和排序。这些条件包括资源利用率、节点负载、亲和性规则等。通过优选策略,可以选择出最适合的Node节点来部署Pod。
Kube-scheduler会根据预算策略和优选策略的结果,选择一个最适合的Node节点来部署新的Pod。这样可以确保资源的合理利用、负载的均衡以及满足特定的调度需求。
需要注意的是,Kube-scheduler的调度算法是可插拔的,可以根据用户的需求和场景进行自定义和扩展,以满足不同的调度策略和目标。
2. 配置存储中心 etcd
K8S的存储服务 etcd是Kubernetes的默认存储后端,它是一个高可用的分布式键值存储系统,用于存储Kubernetes的关键配置和用户配置。etcd作为Kubernetes的“大脑”,保存着整个集群的状态信息,包括节点、Pod、Service等对象的元数据。API Server是唯一具备读写权限的组件,其他组件通过API Server接口与etcd进行交互。
3. Worker Node 组件
(1)Kubelet
Node节点的监视器,以及与Master节点的通讯器。Kubelet 是Master节点安插在Node节点上的“眼线”,它会定时向API Server汇报自己 Node节点上运行的服务的状态,并接受来自Master节点的指示采取调整措施
从Master节点获取自己节点上Pod的期望状态(比如运行什么容器、运行的副本数量、网络或者存储如何配置等),直接跟容器引擎交互实现容器的生命周期管理,如果自己节点上Pod的状态与期望状态不一致,则调用对应的容器平台接口(即docker的接口)达到这个状态
管理镜像和容器的清理工作,保证节点上镜像不会占满磁盘空间,退出的容器不会占用太多资源
(2)Kube-Proxy
在每个Node节点上实现pod网络代理,是Kubernetes Service 资源的载体,负责维护网络规则和四层负载均衡工作。负责写入规则至iptables、ipvs实现服务映射访问的
Kube-Proxy本身不是直接给Pod 提供网络,Pod的网络是由Kubelet 提供的,Kube-Proxy 实际上维护的是虚拟的Pod集群网络
Kube-apiserver通过监控Kube-Proxy 进行对Kubernetes Service 的更新和端点的维护
在K8S集群中微服务的负载均衡是由Kube-proxy实现的。Kube-proxy是K8S集群内部的负载均衡器。它是一个分布式代理服务器,在K8S的每个节点上都会运行一个Kube-proxy 组件
(3)docker engine(docker或rocket)
容器引擎,运行容器,负责本机的容器创建和管理工作
首先,运维人员使用kubectl命令行工具向API Server发送请求,API Server接收到请求后会写入到etcd中,API Server会让Controller-manager按照预设的模板去创建pod,Controller-manager通过API Server读取etcd中用户的预设信息,再通过API Server去找Scheduler可以为新创建的pod选择最合适的node节点。scheduler会通过API Server在etcd存储中心根据存储的node节点元信息、剩余资源等,用预选和优选策略选最优的node节点。
scheduler确定node节点后通过API Server交给这个node节点上的kubele进行pod资源的创建,kubele调用容器引擎交互创建pod,同时将pod监控信息通过API Server存储到etcd中。
用户访问时,通过kube-proxy负载、转发,访问相应的pod,决定创建pod清单的是Controller-manager控制器,而kubelet、容器引擎都是干活的
(4)Node节点的工作流程
Node节点可动态增加到kubernetes集群中,前提是这个节点已经正确安装、配置和启动了上述的关键进程,默认情况下,kubelet会向Master注册自己,这也kubernetes推荐的Node管理方式。
一旦Node被纳入集群管理范围,kubelet会定时向Master汇报自身的情况,以及之前有哪些Pod在运行等,这样Master可以获知每个Node的资源使用情况,并实现高效均衡的资源调度策略。
如果Node没有按时上报信息,则会被Master判断为失联,Node状态会被标记为Not Ready,随后Master会触发工作负载转移流程。
三、k8S 核心概念
Kubernetes 包含多种类型的资源对象:Pod、 Label、 Service、 Replication Controller 等
所有的资源对象都可以通过Kubernetes 提供的 kubectl工具进行增、删、改、查等操作,并将其保存在etcd中持久化存储
Kubernets其实是一个高度自动化的资源控制系统,通过跟踪对比etcd存储里保存的资源期望状态与当前环境中的实际资源状态的差异,来实现自动控制和自动纠错等高级功能
1. Pod
Pod是Kubernetes 创建或部署的最小/最简单的基本单位,一个Pod 代表集群上正在运行的一个进程
可以把Pod理解成豌豆荚,而同一Pod内的每个容器是一颗颗豌豆
一个Pod由一个或多个容器组成,Pod中容器共享网络、存储和计算资源,在同一台Docker主机上运行
一个Pod里可以运行多个容器,又叫边车模式(sideCara) 模式。而在生产环境中一般都是单个容器或者具有强关联互补的多个容器组成一个Pod
同一个Pod之间的容器可以通过localhost 互相访问,并且可以挂载Pod内所有的数据卷,但是不同的Pod之间的容器不能用localhost访问,也不能挂载其他Pod的数据卷
2. Pod 控制器
Pod控制器是Pod启动的一种模版,用来保证在K8S里启动的Pod,应始终按照用户的预期运行(副本数、生命周期、健康状态检查等)
K8S内提供了众多的Pod 控制器,常用的有以下几种:
Deployment:无状态应用部署。Deployment 的作用是管理和控制Pod和Replicaset, 管控它们运行在用户期望的状态中
ReplicaSet:确保预期的Pod副本数量。Replicaset 的作用就是管理和控制Pod,管控他们好好干活。 但是,Replicaset 受控于Deployment
可以理解成Deployment 就是总包工头,主要负责监督底下的工人Pod干活,确保每时每刻有用户要求数量的Pod在工作。
如果一旦发现某个工人Pod不行了,就赶紧新拉一个Pod过来替换它。而ReplicaSet 就是总包工头手下的小包工头
从K8S使用者角度来看,用户会直接操作Deployment 部署服务,而当Deployment 被部署的时候,K8S 会自动生成要求的ReplicaSet 和Pod。
用户只需要关心Deployment 而不操心ReplicaSet
资源对象Replication Controller是ReplicaSet 的前身,官方推荐用Deployment 取代Replication Controller来部署服务
Daemonset:确保所有节点运行同一类Pod,保证每个节点上都有一个此类Pod运行,通常用于实现系统级后台任务
Statefulset:有状态应用部署
Job: 一次性任务。根据用户的设置,Job管理的Pod把任务成功完成就自动退出了
Cronjob:周期性计划性任务
3. Label
标签,是K8S特色的管理方式,便于分类管理资源对象
Label可以附加到各种资源对象上,例如Node、Pod、Service、 RC等,用于关联对象、查询和筛选。
一个Label是一个key-value 的键值对,其中key 与value 由用户自己指定
一个资源对象可以定义任意数量的Label,同一个Label也可以被添加到任意数量的资源对象中,也可以在对象创建后动态添加或者删除
可以通过给指定的资源对象捆绑一个或多个不同的Label,来实现多维度的资源分组管理功能,与Label 类似的,还有Annotation (注释),区别在于有效的标签值必须为63个字符或更少,并且必须为空或以字母数字字符([a-z0-9A-Z]) 开头和结尾,中间可以包含横杠(-)、下划线(_)、点(.)和字母或数字。注释值则没有字符长度限制
4. Label选择器(Label selector )
给某个资源对象定义一个Label, 就相当于给它打了一个标签;随后可以通过标签选择器(Label selector) 查询和筛选拥有某些Label的资源对象
标签选择器目前有两种:基于等值关系(等于、不等于)和基于集合关系(属于、不属于、存在)
5. Service
在K8S的集群里,虽然每个Pod会被分配一个单独的IP地址,但由于Pod是有生命周期的(它们可以被创建,而且销毁之后不会再启动),随时可能会因为业务的变更,导致这个IP地址也会随着Pod 的销毁而消失,Service就是用来解决这个问题的核心概念。
K8S中的Service 并不是我们常说的“服务”的含义,而更像是网关层,可以看作一组提供相同服务的Pod的对外访问接口、流量均衡器,Service作用于哪些Pod 是通过标签选择器来定义的。
在K8S集群中,Service 可以看作一组提供相同服务的Pod 的对外访问接口。客户端需要访问的服务就是Service 对象。
每个Service都有一个固定的虚拟ip (这个ip也被称为Cluster IP) ,自动并且动态地绑定后端的Pod, 所有的网络请求直接访问Service 的虚拟ip,Service会自动向后端做转发
Service除了提供稳定的对外访问方式之外,还能起到负载均衡(Load Balance) 的功能,自动把请求流量分布到后端所有的服务上,service可以做到对客户透明地进行水平扩展(scale),而实现service 这一功能的关键, 就是kube-proxy。 kube-proxy运行在每个节点上,监听API Server中服务对象的变化,可通过以下三种流量调度模式:userspace (废弃)、iptables (濒临废弃)、ipvs (推荐,性能最好)来实现网络的转发。
Service是K8S服务的核心,屏蔽了服务细节,统一对外暴露服务接口, 真正做到了“微服务”。比如我们的一个服务A,部署了3个副本,也就是3个Pod;对于用户来说,只需要关注一个Service 的入口就可以,而不需要操心究竞应该请求哪一个Pod。
优势非常明显:一方面外部用户不需要感知因为Pod上服务的意外崩溃、 K8S 重新拉起Pod 而造成的IP变更,外部用户也不需要感知因升级、变更服务带来的Pod替换而造成的IP变化。
endpoint 自动发现这些pod IP service再把IP地址加入到配置当中进行动态转发
总结:
service 是通过标签选择器关联具有对有label的pod。再把相关pod的IP加入到自己的endpoints当中,service再根据endpoints里的Ie进行转发
6. Ingress
Service主要负责K8S 集群内部的网络拓扑,那么集群外部怎么访问集群内部呢?这个时候就需要Ingress了。
Ingress是整个K8S集群的接入层,负责集群内外通讯
Ingress是K8S 集群里工作在OSI网络参考模型下,第7层的应用,对外暴露的接口,典型的访问方式是http/https
Service只能进行第四层的流量调度,表现形式是ip+port。Ingress则可以调度不同业务域、不同URL访问路径的业务流量。
比如:客户端请求http://www.test.com:port ---> Ingress ---> Service ---> Pod
7. Name
由于K8S内部,使用“资源”来定义每一种逻辑概念(功能),所以每种“资源”,都应该有自己的“名称”
资源有哪些:api、版本(apiversion) 、类别(kind)、元数据(metadata) 、定义清单(spec)、状态(status) 等配置信息
“名称”通常定义在“资源”的“元数据”信息里。在同一个namespace 空间中必须是唯一的
8. Namespace
随着项目增多、人员增加、集群规模的扩大,需要一种能够逻辑上隔离K8S 内各种“资源"的方法,这就是Namespace
Namespace是为了把一个K8S集群划分为若千个资源不可共享的虚拟集群组而诞生的
不同Namespace 内的“资源”名称可以相同,相同Namespace 内的同种“资源”, “名称”不能相同
合理的使用K8S的Namespace,可以使得集群管理员能够更好的对交付到K8S里的服务进行分类管理和浏览
K8S里默认存在的Namespace 有: default、 kube-system、 kube-public 等
查询K8S 里特定“资源”要带上相应的Namespace
四、k8S的架构以及工作流程
运维人员通过 kubectl 向 kube-APIServer 发送请求,中间需要进行 AUTH 身份认证之后才可以访问 Kube-APIServer
通过Kuber-APIServer 将请求信息存储到 ETCD 存储中心后,再次通过Kube-APIServer 向 Kube-controller-manager 请求创建 Pod
Kube-controller-manager 通过 Kube-APIServer 向 ETCD 存储中心获取用户预设模板信息,再向 Scheduler 获取创建 Pod 的节点
Scheduler 通过 Kube-AIPServer 向 ETCD 获取所有 node 节点信息,再进行预选和优选策略选出最优的 node 节点,让 Kube-controller-manager 通过 Kube-APIServer 去最优 node 节点让 Kubelet 创建 Pod
Pod 创建完成后 Kube-proxy 会对 Pod 分配网络
最后 Kubelet调度容器引擎 将 Pod 的监控信息通过 Kube-APIServer 存储到ETCD 存储中心
用户访问时,通过kube-proxy负载、转发,访问相应的pod,决定创建pod清单的是Controller-manager控制器,而kubelet、容器引擎都是干活的
master节点:API server shceduler controller-manager
worker node 节点:kubelet kube-proxy docker engine
工作流程或者各个组件的功能:
用户通过客户端先经过Auth认证发送请求给API server,API Server 接收请求创建一批Pod,会存储pod数据到etcd
Controller-manager 通过API Server 到etcd中读取按照预设的模板去创建Pod,Controller-manager 又会通过API Server让Scheduler为新创建的Pod 根据预算策略以及优选策略,选择最适合的Node 节点把pod调度过来
比如运行这个Pod需要2C 4G 的资源,Scheduler 会通过预算策略在所有Node’节点中挑选最优的。Node 节点中还剩多少资源是通过汇报给API Server 存储在etcd 里,API Server 会调用一个方法找到etcd里所有node节点的剩余资源,再对比pod所需要的资源,在所有node节点中查找哪些node节点符合要求
如果都符合,预算策略就交给优选策略处理,优选策略再通过CPU 的负载、内存的剩余量等因素选择最合适的Node节点,并把Pod调度到这个Node’节点上运行
scheduler通过Api server来让Kubelet根据调度结果执行Pod创建操作,并且对node节点进行监视,会定时向api server汇报自己node节点运行的服务状态,并且存储到etcd中
在这期间,Controller Manager同时会根据K8S的mainfiles文件执行RC Pod的数量来保证指定的Pod副本数
在每个node上都会有一个kube-proxy,来实现pod的网络代理,它是Kubernetes Service 资源的载体。在任何一个节点上访问一个service的虚拟ip,都可以访问到pod,提供cluster ip的访问入口
所有Node上运行的Proxy进程通过APIServer查询并监听service对象与其对应的Endponts信息,建立一个软件方式的负载均衡器来实现Service访问到后端Pod的流量转发功能
kubectl 创建一个Pod(在提交时,转化为json格式)
- 首先经过auth认证(鉴权),然后传递给api-server进行处理
- api-server 将请求信息提交给etcd
- scheduler和controller-manager 会watch(监听) api-server ,监听请求
- 在scheduler 和controller-manager监听到请求后,scheduler 会提交给api-server一个list清单——》包含的是获取node节点信息
- 此时api-server就会向etcd获取后端node节点信息,获取到后,被scheduler watch到,然后进行预选优选进行打分,最后将结果给与api-server
- 此时api-server也会被controller-manager watch(监听) controller-manager会根据请求创建Pod的配置信息(需求什么控制器)将控制器资源给与api-server
- 此时api-server 会提交list清单给与对应节点的kubelet(代理)
- kubelet代理通过K8S与容器的接口(例如containerd)进行交互,假设是docker容器,那么此时kubelet就会通过dockershim 以及runc接口与docker的守护进程docker-server进行交互,来创建对应的容器,再生成对应的Pod
- kubelet 同时会借助于metrics server 收集本节点的所有状态信息,然后再提交给api-server
- 最后api-server会提交list清单给与etcd来存储(最后api-server会将数据维护在etcd中)
Pod终止过程:
- 用户向apiServer发送删除pod对象的命令
- apiServer中的pod对象信息随着时间的退役而更新,在宽限期内(默认30秒),pod被视为dead
- 将pod标记为terminating状态
- kubelet在监控到pod对象转为terminating状态的同时启动pod关闭过程
- 端点控制器监控到pod对象的关闭行为时将其从所有匹配到此端点的service资源的端点列表中移除
- 如果当前pod对象定义了preStop钩子处理器,则在其标记为terminating后即会以同步的方式启动执行
- pod对象的容器进程收到停止信号
- 宽限期结束后,若pod中还存在仍在运行的进程,那么pod对象会收到吉利终止的信号
- kubelet请求apiServer将此pod资源的款限制设置为0从而完成删除操作,此时pod对于用户已不可见