K8S-调度器-亲和性与反亲和性

简介

Scheduler 是 kubernetes 的调度器，主要的任务是把定义的 pod 分配到集群的节点上。听起来非常简单，但有很多要考虑的问题：

- 公平：如何保证每个节点都能被分配资源
- 资源高效利用：集群所有资源最大化被使用
- 效率：调度的性能要好，能够尽快地对大批量的 pod 完成调度工作
- 灵活：允许用户根据自己的需求控制调度的逻辑

Sheduler 是作为单独的程序运行的，启动之后会一直监听 API Server，获取 `PodSpec.NodeName` 为空的 pod，对每个 pod 都会创建一个 binding，表明该 pod 应该放到哪个节点上

调度过程

调度分为几个部分：首先是过滤掉不满足条件的节点，这个过程称为 `预选`；然后对通过的节点按照优先级排序，这个是 `优选`；最后从中选择优先级最高的节点。如果中间任何一步骤有错误，就直接返回错误

预选

有一系列的算法可以使用：

- `PodFitsResources`：节点上剩余的资源是否大于 pod 请求的资源
- `PodFitsHost`：如果 pod 指定了 NodeName，检查节点名称是否和 NodeName 匹配
- `PodFitsHostPorts`：节点上已经使用的 port 是否和 pod 申请的 port 冲突
- `PodSelectorMatches`：过滤掉和 pod 指定的 label 不匹配的节点
- `NoDiskConflict`：已经 mount 的 volume 和 pod 指定的 volume 不冲突，除非它们都是只读

如果在 `预选` 过程中没有合适的节点，pod 会一直在 `pending` 状态，不断重试调度，直到有节点满足条件。经过这个步骤，如果有多个节点满足条件，就继续 `优选` 过程：按照优先级大小对节点排序

优选

优先级由一系列键值对组成，键是该优先级项的名称，值是它的权重（该项的重要性）。这些优先级选项包括：

- `LeastRequestedPriority`：通过计算 CPU 和 Memory 的使用率来决定权重，使用率越低权重越高。换句话说，这个优先级指标倾向于资源使用比例更低的节点
- `BalancedResourceAllocation`：节点上 CPU 和 Memory 使用率越接近，权重越高。这个应该和上面的一起使用，不应该单独使用
- `ImageLocalityPriority`：倾向于已经有要使用镜像的节点，镜像总大小值越大，权重越高

通过算法对所有的优先级项目和权重进行计算，得出最终的结果

自定义调度器

除了 kubernetes 自带的调度器，你也可以编写自己的调度器。通过 `spec:schedulername` 参数指定调度器的名字，可以为 pod 选择某个调度器进行调度。比如下面的 pod 选择 `my-scheduler` 进行调度，而不是默认的 `default-scheduler`：

apiVersion: v1
kind: Pod
metadata:
  name: test-scheduler
  labels:
    name: test-scheduler
spec:
  schedulername: test-scheduler
  containers:
  - name: pod-with-second-annotation-container
    image: wangyanglinux/myapp:v2

亲和性

亲和性/反亲和性调度策略比较如下：

键值运算关系

- In： label 的值在某个列表中
- NotIn：label 的值不在某个列表中
- Gt： label 的值大于某个值
- Lt： label 的值小于某个值
- Exists：某个 label 存在
- DoesNotExist：某个 label 不存在

Node节点亲和性

- preferredDuringSchedulingIgnoredDuringExecution：软策略
- requiredDuringSchedulingIgnoredDuringExecution：硬策略

requiredDuringSchedulingIgnoredDuringExecution 资源清单

apiVersion: v1
kind: Pod
metadata:
  name: affinity
  labels:
    app: node-affinity-pod
spec:
  containers:
  - name: with-node-affinity
    image: wangyanglinux/myapp:v1
  affinity:    //亲和性
    nodeAffinity:   //节点亲和
      requiredDuringSchedulingIgnoredDuringExecution:  //硬限制
        nodeSelectorTerms:
        - matchExpressions:
          - key: kubernetes.io/hostname   //节点的label
            operator: NotIn  //取反
            values:
            - k8s-node02   //节点lable的value，pod将不会运行在node02上

preferredDuringSchedulingIgnoredDuringExecution 资源清单

apiVersion: v1
kind: Pod
metadata:
  name: affinity
  labels:
    app: node-affinity-pod
spec:
  containers:
  - name: with-node-affinity
    image: wangyanglinux/myapp:v1
  affinity:
    nodeAffinity:
      preferredDuringSchedulingIgnoredDuringExecution:   //软限制，尽可能优先匹配，如果未匹配到，也会调度到其他节点
      - weight: 1  //权重，尽可能匹配以下标签
        preference:
          matchExpressions:
          - key: source
            operator: In   //运算符
            values:
            - qikqiak

软限制与硬限制合起来

apiVersion: v1
kind: Pod
metadata:
  name: affinity
  labels:
    app: node-affinity-pod
spec:
  containers:
  - name: with-node-affinity
    image: wangyanglinux/myapp:v1
  affinity:
    nodeAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:   # 先匹配硬限制
        nodeSelectorTerms:
        - matchExpressions:
          - key: disktypeoperator: NotIn
            values:
            - hdd
      preferredDuringSchedulingIgnoredDuringExecution:  # 匹配完硬限制后，尽量部署到node01节点，也可以匹配lable
      - weight: 1
        preference:
          matchExpressions:
          - key: kubernetes.io/hostname
            operator: In
            values:
            - k8s-node01

Pod 亲和性

pod.spec.affinity.podAffinity/podAntiAffinity

- preferredDuringSchedulingIgnoredDuringExecution：软策略
- requiredDuringSchedulingIgnoredDuringExecution：硬策略

apiVersion: v1
kind: Pod
metadata:
  name: pod-3
  labels:
    app: pod-3
  namespace: nginx
spec:
  containers:
  - name: pod-3
    image: wangyanglinux/myapp:v1
  affinity:      //亲和性
    podAffinity:    //pod亲和性，pod与指定pod在同一拓扑域，可以理解同一组应用依赖关系
      requiredDuringSchedulingIgnoredDuringExecution:
      - labelSelector:
          matchExpressions:
          - key: app   //pod label 标签的key
            operator: In
            values:
            - pod-1    //pod标签指定value，pod-3将会调度到同一个拓扑域的与指定标签相同的node
        namespaces: linux     #  把nginx和linux名称空间下的符合特定条件的pod部署在同一个拓扑域。
        topologyKey: kubernetes.io/hostname       //拓扑域
    podAntiAffinity:     //反亲和，pod与指定pod不在同一个拓扑域
      preferredDuringSchedulingIgnoredDuringExecution:
      - weight: 1
        podAffinityTerm:
          labelSelector:
            matchExpressions:
            - key: app
              operator: In
              values:
              - pod-2
          topologyKey: kubernetes.io/hostname   //查看拓扑域的key的value后，调度到非value的节点，取反

namespaces：

写了但是没有赋值，表示是匹配所有名称空间下符合条件的的pod

如果namespaces指定了value，那么匹配指定namespaces下的pod。

如果不写namespaces这一项，默认匹配当前namespace。

拓扑域概念：可以实现pod容灾调度

topologyKey: kubernetes.io/hostname

kubernetes.io/hostname 是系统默认给集群内不同的node打的标签，而且value为当前主机的hostname。不同的key和value属于不同的拓扑域。

比如有两座城市的机房，每个城市又有多个不同的机房，每个机房又有不同的机柜。可以根据这些条件划分不同的拓扑域，然后根据pod亲和或反亲和使pod部署在同一个机柜或不同城市的不同机柜。

使用lable划分拓扑域模拟多机房部署

划分拓扑域

补充：

- maxSkew: 1 用于指定pod在各个zone调度时能忍受的最大不均衡数，值越大，表示能接受的不均衡调度越大，值越小，表示各个zone调度的pod越均衡。

posted @ 2022-04-26 12:03 不会跳舞的胖子阅读(400) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

不会跳舞的胖子