Kubernetes全栈架构师（Kubeadm高可用安装k8s集群）--学习笔记

Etcd Cluster：键值数据库，存放k8s的数据，比如我们创建的资源，所做的变更
Master：控制节点，控制整个集群
Node：主要用来跑pod和容器
Kube-APIServer：它是整个k8s的控制大脑，所有的流量都会经过APIServer
ControllerManager：集群的控制器
Scheduler：集群的调度器，控制pod调度到哪一个node节点
Load Balancer：负载均衡，一般使用nginx + keepalived，或者keepalived + haproxy，如果有硬件资源如f5，就不需要Load Balancer，通过虚拟IP连接

Kubeadm基本环境配置

Kubeadm 是官方推荐的安装方式，但是生产环境推荐使用二进制的方式安装

Kubeadm 证书的有效期是一年，因为官方建议运行一年的过程中必须要升级一次

高可用Kubernetes集群规划

主机名	IP地址	说明
k8s-master01 ~ 03	192.168.232.128 ~ 130	master节点 * 3
k8s-master-lb	192.168.232.236	keepalived虚拟IP
k8s-node01 ~ 02	192.168.232.131 ~ 132	worker节点 * 2

配置信息	备注
Pod网段	172.168.0.0/12
Service网段	10.96.0.0/12

VIP（虚拟IP）不要和公司内网IP重复，首先去ping一下，不通才可用。VIP需要和主机在同一个局域网内

[root@localhost ~]# ping 192.168.232.236
PING 192.168.232.236 (192.168.232.236) 56(84) bytes of data.
From 192.168.232.128 icmp_seq=1 Destination Host Unreachable
From 192.168.232.128 icmp_seq=2 Destination Host Unreachable
From 192.168.232.128 icmp_seq=3 Destination Host Unreachable

公有云上搭建VIP是公有云的负载均衡的IP，比如阿里云的内网SLB的地址，腾讯云内网ELB的地址

基本环境配置

环境搭建
静态ip设置
节点配置

环境搭建

不要使用带中文的服务器和克隆的虚拟机

安装虚拟机：https://www.cnblogs.com/mr-xiong/p/12468280.html

下载centos-7镜像：https://zhuanlan.zhihu.com/p/104118123

三台master节点，两台node节点，每台虚拟机分配2核2G，存储使用20G硬盘

安装完成后启动并通过Xshell 7连接五台虚拟机

Xshell 7下载地址：https://downloadly.net/2020/15/4832/03/xmanager/01/?#/4832-netsaran-122140071106.html

使用Xshell 7可以同时发送命令到所有会话，菜单栏--工具--发送键输入到所有会话

通过 VMware 菜单栏编辑，虚拟网络编辑器查看子网地址，192.168.232.0

静态ip设置

打开目录

cd /etc/sysconfig/network-scripts

修改文件 ifcfg-ens33

vi ifcfg-ens33

#修改BOOTPROTO为static
#BOOTPROTO=dhcp
BOOTPROTO=static

#修改ONBOOT为yes
ONBOOT=yes

IPADDR=192.168.232.128
GATEWAY=192.168.232.2
NETMASK=255.255.255.0
DNS1=114.114.114.114
DNS2=8.8.8.8

重启网络服务

service network restart

查看当前IP地址

ip a

根据集群规划分别设置五台虚拟机静态ip，设置完成后使用 Xshell 7 连接到五台虚拟机

Xshell 7 切换tab快捷键：ctrl + tab

节点配置

所有节点配置hosts，修改/etc/hosts如下：

vi /etc/hosts

127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.232.128 k8s-master01
192.168.232.129 k8s-master02
192.168.232.130 k8s-master03
192.168.232.236 k8s-master-lb # 如果不是高可用集群，该IP为Master01的IP
192.168.232.131 k8s-node01
192.168.232.132 k8s-node02

CentOS 7安装yum源如下：

curl -o /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun.com/repo/Centos-7.repo
yum install -y yum-utils device-mapper-persistent-data lvm2
yum-config-manager --add-repo https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo
cat <<EOF > /etc/yum.repos.d/kubernetes.repo
[kubernetes]
name=Kubernetes
baseurl=https://mirrors.aliyun.com/kubernetes/yum/repos/kubernetes-el7-x86_64/
enabled=1
gpgcheck=1
repo_gpgcheck=1
gpgkey=https://mirrors.aliyun.com/kubernetes/yum/doc/yum-key.gpg https://mirrors.aliyun.com/kubernetes/yum/doc/rpm-package-key.gpg
EOF
sed -i -e '/mirrors.cloud.aliyuncs.com/d' -e '/mirrors.aliyuncs.com/d' /etc/yum.repos.d/CentOS-Base.repo

必备工具安装

yum install wget jq psmisc vim net-tools telnet yum-utils device-mapper-persistent-data lvm2 git -y

所有节点关闭防火墙、selinux、dnsmasq、swap。服务器配置如下：

systemctl disable --now firewalld 
systemctl disable --now dnsmasq
systemctl disable --now NetworkManager

setenforce 0

sed -i 's#SELINUX=enforcing#SELINUX=disabled#g' /etc/sysconfig/selinux
sed -i 's#SELINUX=enforcing#SELINUX=disabled#g' /etc/selinux/config

查看config文件，SELINUX被设为disabled

[root@localhost ~]# cat /etc/selinux/config 

# This file controls the state of SELinux on the system.
# SELINUX= can take one of these three values:
#     enforcing - SELinux security policy is enforced.
#     permissive - SELinux prints warnings instead of enforcing.
#     disabled - No SELinux policy is loaded.
SELINUX=disabled
# SELINUXTYPE= can take one of three values:
#     targeted - Targeted processes are protected,
#     minimum - Modification of targeted policy. Only selected processes are protected. 
#     mls - Multi Level Security protection.
SELINUXTYPE=targeted

关闭swap分区

swapoff -a && sysctl -w vm.swappiness=0

注释后重启服务器，swap分区就不会再打开

sed -ri '/^[^#]*swap/s@^@#@' /etc/fstab

安装ntpdate，保证五台服务器时间一致，云服务器不需要

rpm -ivh http://mirrors.wlnmp.com/centos/wlnmp-release-centos.noarch.rpm
yum install ntpdate -y

所有节点同步时间。时间同步配置如下：

ln -sf /usr/share/zoneinfo/Asia/Shanghai /etc/localtime
echo 'Asia/Shanghai' >/etc/timezone
ntpdate time2.aliyun.com

# 查看一下时间
date

# 加入到crontab
crontab -e

*/5 * * * * /usr/sbin/ntpdate time2.aliyun.com

所有节点配置limit：

ulimit -SHn 65535

设置limit永久生效

vim /etc/security/limits.conf
# 末尾添加如下内容
* soft nofile 655360
* hard nofile 131072
* soft nproc 655350
* hard nproc 655350
* soft memlock unlimited
* hard memlock unlimited

取消发送键输入到所有会话

Master01节点免密钥登录其他节点，安装过程中生成配置文件和证书均在Master01上操作，集群管理也在Master01上操作，阿里云或者AWS上需要单独一台kubectl服务器。密钥配置如下：

ssh-keygen -t rsa

# 把文件传送到五个节点
for i in k8s-master01 k8s-master02 k8s-master03 k8s-node01 k8s-node02;do ssh-copy-id -i .ssh/id_rsa.pub $i;done

下载安装所有的源码文件：

cd /root/ ; git clone https://github.com/dotbalo/k8s-ha-install.git

无法下载的可以通过本地拉取压缩再上传到服务器

yum安装zip

yum install -y unzip zip

解压文件

unzip k8s-ha-install.zip

所有节点（发送键输入到所有会话）升级系统并重启，此处升级没有升级内核，下节会单独升级内核：

yum update -y --exclude=kernel* && reboot #CentOS7需要升级，CentOS8可以按需升级系统

推荐centos7，因为CentOS8在2021年停止维护，而centos7到2024年才停止维护

重启完成之后，查看版本（CentOS Linux release 7.9.2009 (Core)）

cat /etc/redhat-release

Kubeadm系统及内核升级

查看内核版本

uname -a

内核3.10版本使用docker会有一些bug，需要升级

CentOS7 需要升级内核至4.18+，本地升级的版本为4.19

在master01节点（取消发送键输入到所有会话）下载内核：

cd /root
wget http://193.49.22.109/elrepo/kernel/el7/x86_64/RPMS/kernel-ml-devel-4.19.12-1.el7.elrepo.x86_64.rpm
wget http://193.49.22.109/elrepo/kernel/el7/x86_64/RPMS/kernel-ml-4.19.12-1.el7.elrepo.x86_64.rpm

从master01节点传到其他节点：

for i in k8s-master02 k8s-master03 k8s-node01 k8s-node02;do scp kernel-ml-4.19.12-1.el7.elrepo.x86_64.rpm kernel-ml-devel-4.19.12-1.el7.elrepo.x86_64.rpm $i:/root/ ; done

所有节点（发送键输入到所有会话）安装内核

cd /root && yum localinstall -y kernel-ml*

所有节点更改内核启动顺序，因为默认是3.10的

grub2-set-default  0 && grub2-mkconfig -o /etc/grub2.cfg

grubby --args="user_namespace.enable=1" --update-kernel="$(grubby --default-kernel)"

检查默认内核是不是4.19

grubby --default-kernel

所有节点重启，然后检查内核是不是4.19

reboot

uname -a

所有节点安装ipvsadm：

yum install ipvsadm ipset sysstat conntrack libseccomp -y

所有节点配置ipvs模块，在内核4.19+版本nf_conntrack_ipv4已经改为nf_conntrack， 4.18以下使用nf_conntrack_ipv4即可：

vim /etc/modules-load.d/ipvs.conf

# 加入以下内容
ip_vs
ip_vs_lc
ip_vs_wlc
ip_vs_rr
ip_vs_wrr
ip_vs_lblc
ip_vs_lblcr
ip_vs_dh
ip_vs_sh
ip_vs_fo
ip_vs_nq
ip_vs_sed
ip_vs_ftp
ip_vs_sh
nf_conntrack
ip_tables
ip_set
xt_set
ipt_set
ipt_rpfilter
ipt_REJECT
ipip

加载配置

systemctl enable --now systemd-modules-load.service

开启一些k8s集群中必须的内核参数，所有节点配置k8s内核：

cat <<EOF > /etc/sysctl.d/k8s.conf
net.ipv4.ip_forward = 1
net.bridge.bridge-nf-call-iptables = 1
net.bridge.bridge-nf-call-ip6tables = 1
fs.may_detach_mounts = 1
vm.overcommit_memory=1
vm.panic_on_oom=0
fs.inotify.max_user_watches=89100
fs.file-max=52706963
fs.nr_open=52706963
net.netfilter.nf_conntrack_max=2310720

net.ipv4.tcp_keepalive_time = 600
net.ipv4.tcp_keepalive_probes = 3
net.ipv4.tcp_keepalive_intvl =15
net.ipv4.tcp_max_tw_buckets = 36000
net.ipv4.tcp_tw_reuse = 1
net.ipv4.tcp_max_orphans = 327680
net.ipv4.tcp_orphan_retries = 3
net.ipv4.tcp_syncookies = 1
net.ipv4.tcp_max_syn_backlog = 16384
net.ipv4.ip_conntrack_max = 65536
net.ipv4.tcp_max_syn_backlog = 16384
net.ipv4.tcp_timestamps = 0
net.core.somaxconn = 16384
EOF
sysctl --system

所有节点配置完内核后，重启服务器，保证重启后内核依旧加载

reboot

检查是否加载

lsmod | grep --color=auto -e ip_vs -e nf_conntrack

Kubeadm基本组件安装

所有节点安装Docker-ce 19.03，不需要太新，这是官方已经经过验证的版本

yum install docker-ce-19.03.* docker-cli-19.03.* -y

由于新版kubelet建议使用systemd，所以可以把docker的CgroupDriver改成systemd

mkdir /etc/docker
cat > /etc/docker/daemon.json <<EOF
{
  "exec-opts": ["native.cgroupdriver=systemd"]
}
EOF

所有节点设置开机自启动Docker：

systemctl daemon-reload && systemctl enable --now docker

查看docker版本（Server Version: 19.03.15，Cgroup Driver: systemd）

docker info

查看k8s最新版本（取消发送键输入到所有会话）：

yum list kubeadm.x86_64 --showduplicates | sort -r

最新版本是1.21.2-0，但是推荐小版本大于5才使用，所以安装1.20版本

所有节点（发送键输入到所有会话）安装最新版本kubeadm：

yum install kubeadm-1.20* kubelet-1.20* kubectl-1.20* -y

默认配置的pause镜像使用gcr.io仓库，国内可能无法访问，所以这里配置Kubelet使用阿里云的pause镜像：

cat >/etc/sysconfig/kubelet<<EOF
KUBELET_EXTRA_ARGS="--cgroup-driver=systemd --pod-infra-container-image=registry.cn-hangzhou.aliyuncs.com/google_containers/pause-amd64:3.2"
EOF

设置Kubelet开机自启动：

systemctl daemon-reload
systemctl enable --now kubelet

Kubeadm高可用组件安装

如果不是高可用集群，haproxy和keepalived无需安装

公有云要用公有云自带的负载均衡，比如阿里云的SLB，腾讯云的ELB，用来替代haproxy和keepalived，因为公有云大部分都是不支持keepalived的

如果用阿里云的话，kubectl控制端不能放在master节点，因为阿里云的slb有回环的问题，也就是slb代理的服务器不能反向访问SLB，推荐使用腾讯云，腾讯云修复了这个问题。

所有Master节点（node节点取消发送键输入到所有会话）通过yum安装HAProxy和KeepAlived：

yum install keepalived haproxy -y

所有Master节点配置HAProxy（详细配置参考HAProxy文档，所有Master节点的HAProxy配置相同）：

vim /etc/haproxy/haproxy.cfg

删除所有内容

ggdG

添加以下内容，注意首行global是否复制完整

global
  maxconn  2000
  ulimit-n  16384
  log  127.0.0.1 local0 err
  stats timeout 30s

defaults
  log global
  mode  http
  option  httplog
  timeout connect 5000
  timeout client  50000
  timeout server  50000
  timeout http-request 15s
  timeout http-keep-alive 15s

frontend monitor-in
  bind *:33305
  mode http
  option httplog
  monitor-uri /monitor

frontend k8s-master
  bind 0.0.0.0:16443
  bind 127.0.0.1:16443
  mode tcp
  option tcplog
  tcp-request inspect-delay 5s
  default_backend k8s-master

backend k8s-master
  mode tcp
  option tcplog
  option tcp-check
  balance roundrobin
  default-server inter 10s downinter 5s rise 2 fall 2 slowstart 60s maxconn 250 maxqueue 256 weight 100
  server k8s-master01	192.168.232.128:6443  check
  server k8s-master02	192.168.232.129:6443  check
  server k8s-master03	192.168.232.130:6443  check

所有Master节点配置KeepAlived，配置不一样，注意每个节点的IP和网卡（interface参数）

查看网卡名称（ens33）

ip a

如果网卡名称不是ens33，不要把配置文件中的网卡配置替换

Master01节点的配置：

mkdir /etc/keepalived

vim /etc/keepalived/keepalived.conf

删除所有内容

ggdG

取消发送键输入到所有会话

添加以下内容，注意首行是否复制完整

! Configuration File for keepalived
global_defs {
    router_id LVS_DEVEL
script_user root
    enable_script_security
}
vrrp_script chk_apiserver {
    script "/etc/keepalived/check_apiserver.sh"
    interval 5
    weight -5
    fall 2  
rise 1
}
vrrp_instance VI_1 {
    state MASTER
    interface ens33
    mcast_src_ip 192.168.232.128
    virtual_router_id 51
    priority 101
    advert_int 2
    authentication {
        auth_type PASS
        auth_pass K8SHA_KA_AUTH
    }
    virtual_ipaddress {
        192.168.232.236
    }
    track_script {
       chk_apiserver
    }
}

Master02节点的配置：

添加以下内容，注意首行是否复制完整

! Configuration File for keepalived
global_defs {
    router_id LVS_DEVEL
script_user root
    enable_script_security
}
vrrp_script chk_apiserver {
    script "/etc/keepalived/check_apiserver.sh"
   interval 5
    weight -5
    fall 2  
rise 1
}
vrrp_instance VI_1 {
    state BACKUP
    interface ens33
    mcast_src_ip 192.168.232.129
    virtual_router_id 51
    priority 100
    advert_int 2
    authentication {
        auth_type PASS
        auth_pass K8SHA_KA_AUTH
    }
    virtual_ipaddress {
        192.168.232.236
    }
    track_script {
       chk_apiserver
    }
}

Master03节点的配置：

添加以下内容，注意首行是否复制完整

! Configuration File for keepalived
global_defs {
    router_id LVS_DEVEL
script_user root
    enable_script_security
}
vrrp_script chk_apiserver {
    script "/etc/keepalived/check_apiserver.sh"
 interval 5
    weight -5
    fall 2  
rise 1
}
vrrp_instance VI_1 {
    state BACKUP
    interface ens33
    mcast_src_ip 192.168.232.130
    virtual_router_id 51
    priority 100
    advert_int 2
    authentication {
        auth_type PASS
        auth_pass K8SHA_KA_AUTH
    }
    virtual_ipaddress {
        192.168.232.236
    }
    track_script {
       chk_apiserver
    }
}

所有master节点（发送键输入到所有会话，取消node节点）配置KeepAlived健康检查文件：

vim /etc/keepalived/check_apiserver.sh

添加以下内容，注意首行是否复制完整

#!/bin/bash

err=0
for k in $(seq 1 3)
do
    check_code=$(pgrep haproxy)
    if [[ $check_code == "" ]]; then
        err=$(expr $err + 1)
        sleep 1
        continue
    else
        err=0
        break
    fi
done

if [[ $err != "0" ]]; then
    echo "systemctl stop keepalived"
    /usr/bin/systemctl stop keepalived
    exit 1
else
    exit 0
fi

我们通过KeepAlived虚拟出来一个VIP，VIP会配置到一个master节点上面，它会通过haproxy暴露的16443的端口反向代理到我们的三个master节点上面，所以我们可以通过VIP的地址加上16443访问到我们的API server

健康检查会检查haproxy的状态，三次失败就会将KeepAlived停掉，停掉之后KeepAlived会跳到其他的节点

添加权限

chmod +x /etc/keepalived/check_apiserver.sh

启动haproxy

systemctl daemon-reload
systemctl enable --now haproxy

查看端口（16443）

netstat -lntp

启动keepalived

systemctl enable --now keepalived

查看系统日志（Sending gratuitous ARP on ens33 for 192.168.232.236）

tail -f /var/log/messages

cat /var/log/messages | grep 'ens33' -5

查看ip

ip a

可以看到192.168.232.236绑定到了master01，其他两个节点是没有的

测试VIP

ping 192.168.232.236 -c 4

telnet 192.168.232.236 16443

如果ping不通且telnet没有出现 ] ，则认为VIP不可以，不可在继续往下执行，需要排查keepalived的问题

比如防火墙和selinux，haproxy和keepalived的状态，监听端口等
所有节点查看防火墙状态必须为disable和inactive：systemctl status firewalld
所有节点查看selinux状态，必须为disable：getenforce
master节点查看haproxy和keepalived状态：systemctl status keepalived haproxy
master节点查看监听端口：netstat -lntp

Kubeadm集群初始化

官方初始化文档：https://kubernetes.io/docs/setup/production-environment/tools/kubeadm/high-availability/

在生产环境中有些配置需要修改，因为使用默认的配置可能会导致网段冲突，所以我们使用配置文件的形式初始化

发送键输入到所有会话

Master01节点创建 kubeadm-config.yaml 配置文件如下：

vim kubeadm-config.yaml

Master01：（# 注意，如果不是高可用集群，192.168.232.236:16443改为master01的地址，16443改为apiserver的端口，默认是6443，注意更改v1.18.5自己服务器kubeadm的版本：kubeadm version）

以下文件内容，宿主机网段、podSubnet网段、serviceSubnet网段不能重复，具体看前面的高可用Kubernetes集群规划

apiVersion: kubeadm.k8s.io/v1beta2
bootstrapTokens:
- groups:
  - system:bootstrappers:kubeadm:default-node-token
  token: 7t2weq.bjbawausm0jaxury
  ttl: 24h0m0s
  usages:
  - signing
  - authentication
kind: InitConfiguration
localAPIEndpoint:
  advertiseAddress: 192.168.232.128
  bindPort: 6443
nodeRegistration:
  criSocket: /var/run/dockershim.sock
  name: k8s-master01
  taints:
  - effect: NoSchedule
    key: node-role.kubernetes.io/master
---
apiServer:
  certSANs:
  - 192.168.232.236
  timeoutForControlPlane: 4m0s
apiVersion: kubeadm.k8s.io/v1beta2
certificatesDir: /etc/kubernetes/pki
clusterName: kubernetes
controlPlaneEndpoint: 192.168.232.236:16443
controllerManager: {}
dns:
  type: CoreDNS
etcd:
  local:
    dataDir: /var/lib/etcd
imageRepository: registry.cn-hangzhou.aliyuncs.com/google_containers
kind: ClusterConfiguration
kubernetesVersion: v1.20.0
networking:
  dnsDomain: cluster.local
  podSubnet: 172.168.0.0/12
  serviceSubnet: 10.96.0.0/12
scheduler: {}

更新kubeadm文件

kubeadm config migrate --old-config kubeadm-config.yaml --new-config new.yaml

查看kubeadm版本（GitVersion:"v1.20.8"）

kubeadm version

将配置文件中的 kubernetesVersion: v1.20.0 改为一致的 kubernetesVersion: v1.20.8

node节点取消发送键输入到所有会话

将new.yaml文件复制到其他master节点，之后所有Master节点提前下载镜像，可以节省初始化时间：

kubeadm config images pull --config /root/new.yaml

因为配置了阿里云镜像（imageRepository: registry.cn-hangzhou.aliyuncs.com/google_containers），所以下载速度比默认使用的gcr镜像快，国内访问不了gcr镜像

因为配置了token过期时间（ttl: 24h0m0s），所以可能出现今天生成token，明天加入不了集群的问题

同时master节点为我们配置了一个污点（taints），这个污点可以让我们的mater不部署容器

criSocket就是通过哪一个socket连接我们的docker，dockershim在k8s 1.20版本废弃，官方不维护，后期可能有人会维护，也可以改成其他cri的runtime

Master01节点（取消发送键输入到所有会话）初始化，初始化以后会在/etc/kubernetes目录下生成对应的证书和配置文件，之后其他Master节点加入Master01即可：

kubeadm init --config /root/new.yaml  --upload-certs

kubeadm 的配置管理是通过 pod 管理的，所有的组件都是通过容器启动的，通过 /etc/kubernetes/manifests 目录下面的 yaml 文件启动，这就是 kubelet 生命周期管理的目录，在这里面配置一个 pod 的 yaml 文件，它就会为你管理 pod 的生命周期

进入到该目录中

cd /etc/kubernetes/manifests

可以看到以下文件

etcd.yaml  kube-apiserver.yaml  kube-controller-manager.yaml  kube-scheduler.yaml

kubeadm 与二进制安装不一样的地方在于它的配置管理都在 yaml 文件中，可以编辑文件查看，二进制是一个单独的server文件，如果更改了配置，千万不要手动让它生效，kubelet 会自动帮我们加载配置，重启容器

如果初始化失败，重置后再次初始化，命令如下：

kubeadm reset -f ; ipvsadm --clear  ; rm -rf ~/.kube

初始化成功以后，会产生Token值，用于其他节点加入时使用，因此要记录下初始化成功生成的token值（令牌值）：

Your Kubernetes control-plane has initialized successfully!

To start using your cluster, you need to run the following as a regular user:

  mkdir -p $HOME/.kube
  sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config
  sudo chown $(id -u):$(id -g) $HOME/.kube/config

Alternatively, if you are the root user, you can run:

  export KUBECONFIG=/etc/kubernetes/admin.conf

You should now deploy a pod network to the cluster.
Run "kubectl apply -f [podnetwork].yaml" with one of the options listed at:
  https://kubernetes.io/docs/concepts/cluster-administration/addons/

You can now join any number of the control-plane node running the following command on each as root:

  kubeadm join 192.168.232.236:16443 --token 7t2weq.bjbawausm0jaxury \
    --discovery-token-ca-cert-hash sha256:3b304187585d91d18d33d171592d4d37ec237d68af4837efebbb5c9ec86072d8 \
    --control-plane --certificate-key 7fc2e6005c32476d189b5b4763e2131404df187f7601b01d33370c7485ed2c53

Please note that the certificate-key gives access to cluster sensitive data, keep it secret!
As a safeguard, uploaded-certs will be deleted in two hours; If necessary, you can use
"kubeadm init phase upload-certs --upload-certs" to reload certs afterward.

Then you can join any number of worker nodes by running the following on each as root:

kubeadm join 192.168.232.236:16443 --token 7t2weq.bjbawausm0jaxury \
    --discovery-token-ca-cert-hash sha256:3b304187585d91d18d33d171592d4d37ec237d68af4837efebbb5c9ec86072d8

Master01节点配置环境变量，用于访问Kubernetes集群：

cat <<EOF >> /root/.bashrc
export KUBECONFIG=/etc/kubernetes/admin.conf
EOF
source /root/.bashrc

管理集群的命令 kubectl 只需要在一个节点上面有就可以，这个节点可以是 k8s 节点，也可以不是，它就是通过 admin.conf 文件和 k8s 通讯的，文件中定义了一个变量 KUBECONFIG，指定了文件的地址，然后我们就可以操作我们的集群了

查看节点状态：

kubectl get nodes

可以看到它添加了一个规则 control-plane

NAME           STATUS     ROLES                  AGE     VERSION
k8s-master01   NotReady   control-plane,master   3m54s   v1.20.8

查看server:

kubectl get svc

可以看到以下的server

NAME         TYPE        CLUSTER-IP   EXTERNAL-IP   PORT(S)   AGE
kubernetes   ClusterIP   10.96.0.1    <none>        443/TCP   5m32s

采用初始化安装方式，所有的系统组件均以容器的方式运行并且在kube-system命名空间内，生产环境建议创建一个namespaces

此时可以查看Pod状态：

kubectl get pods -n kube-system -o wide

可以看到以下的pod

NAME                                   READY   STATUS    RESTARTS   AGE     IP                NODE           NOMINATED NODE   READINESS GATES
coredns-54d67798b7-lrvm8               0/1     Pending   0          6m40s   <none>            <none>         <none>           <none>
coredns-54d67798b7-tkfrx               0/1     Pending   0          6m40s   <none>            <none>         <none>           <none>
etcd-k8s-master01                      1/1     Running   0          6m34s   192.168.232.128   k8s-master01   <none>           <none>
kube-apiserver-k8s-master01            1/1     Running   0          6m34s   192.168.232.128   k8s-master01   <none>           <none>
kube-controller-manager-k8s-master01   1/1     Running   0          6m34s   192.168.232.128   k8s-master01   <none>           <none>
kube-proxy-4gwlb                       1/1     Running   0          6m40s   192.168.232.128   k8s-master01   <none>           <none>
kube-scheduler-k8s-master01            1/1     Running   0          6m34s   192.168.232.128   k8s-master01   <none>           <none>

高可用Master及Token过期处理

注意：以下步骤是上述init命令产生的Token过期了才需要执行以下步骤，如果没有过期不需要执行

Token过期后生成新的token：

kubeadm token create --print-join-command

Master需要生成--certificate-key

kubeadm init phase upload-certs  --upload-certs

Token没有过期直接执行Join

初始化master02加入集群

kubeadm join 192.168.232.236:16443 --token 7t2weq.bjbawausm0jaxury \
--discovery-token-ca-cert-hash sha256:3b304187585d91d18d33d171592d4d37ec237d68af4837efebbb5c9ec86072d8 \
--control-plane --certificate-key 7fc2e6005c32476d189b5b4763e2131404df187f7601b01d33370c7485ed2c53

在master01查看其他节点

kubectl get node

可以看到master02节点

NAME           STATUS     ROLES                  AGE   VERSION
k8s-master01   NotReady   control-plane,master   25m   v1.20.8
k8s-master02   NotReady   control-plane,master   91s   v1.20.8

尝试重新生成token

kubeadm token create --print-join-command
kubeadm init phase upload-certs  --upload-certs

替换参数，初始化master03加入集群

kubeadm join 192.168.232.236:16443 --token rff9me.bhgzm7d3j2uoq5fv     --discovery-token-ca-cert-hash sha256:3b304187585d91d18d33d171592d4d37ec237d68af4837efebbb5c9ec86072d8 \
--control-plane --certificate-key d3fb9602f75f4f879d4eea083129bd110734824ef8721c956be95ae481022992

可以在master01查看新生成的token

kubectl get secret -n kube-system

这就是新生成的token

NAME                                             TYPE                                  DATA   AGE
bootstrap-token-rff9me                           bootstrap.kubernetes.io/token         6      3m31s

查看token内容：

kubectl get secret -n kube-system bootstrap-token-rff9me -oyaml

可以看到过期时间（这是通过base64加密的）：

expiration: MjAyMS0wNy0wOFQxNzo0MjoyMiswODowMA==

解密一下：

echo "MjAyMS0wNy0wOFQxNzo0MjoyMiswODowMA==" | base64 -d

可以看到解密后的时间

2021-07-08T22:42:22+08:00

Kubeadm Node及Calico节点配置

Kubeadm Node

Node节点上主要部署公司的一些业务应用，生产环境中不建议Master节点部署系统组件之外的其他Pod，测试环境可以允许Master节点部署Pod以节省系统资源。

初始化node01，node02加入集群（与master相比，不需要control-plane）

kubeadm join 192.168.232.236:16443 --token 7t2weq.bjbawausm0jaxury \
    --discovery-token-ca-cert-hash sha256:3b304187585d91d18d33d171592d4d37ec237d68af4837efebbb5c9ec86072d8

所有节点初始化完成后，查看集群状态

kubectl  get node

可以看到所有节点

NAME           STATUS     ROLES                  AGE     VERSION
k8s-master01   NotReady   control-plane,master   39m     v1.20.8
k8s-master02   NotReady   control-plane,master   16m     v1.20.8
k8s-master03   NotReady   control-plane,master   9m38s   v1.20.8
k8s-node01     NotReady   <none>                 22s     v1.20.8
k8s-node02     NotReady   <none>                 11s     v1.20.8

Calico节点配置

以下步骤只在master01执行

cd /root/k8s-ha-install && git checkout manual-installation-v1.20.x && cd calico/

如果是本地下载上传的话需要现在本地切换分支再上传

unzip k8s-ha-install.zip

cd k8s-ha-install/calico/

修改calico-etcd.yaml的以下位置：

修改etcd的节点

sed -i 's#etcd_endpoints: "http://<ETCD_IP>:<ETCD_PORT>"#etcd_endpoints: "https://192.168.232.128:2379,https://192.168.232.129:2379,https://192.168.232.130:2379"#g' calico-etcd.yaml

使用默认配置

ETCD_CA=`cat /etc/kubernetes/pki/etcd/ca.crt | base64 | tr -d '\n'`
ETCD_CERT=`cat /etc/kubernetes/pki/etcd/server.crt | base64 | tr -d '\n'`
ETCD_KEY=`cat /etc/kubernetes/pki/etcd/server.key | base64 | tr -d '\n'`
sed -i "s@# etcd-key: null@etcd-key: ${ETCD_KEY}@g; s@# etcd-cert: null@etcd-cert: ${ETCD_CERT}@g; s@# etcd-ca: null@etcd-ca: ${ETCD_CA}@g" calico-etcd.yaml

把 etcd_key 放到 secret 里面，secret 会挂载到 calico 容器的 pod 里面，挂载的名称就是 ETCD_CA，这样 calico 就能找到证书，就可以连接到 etcd，就可以把 pod 信息存储到 etcd 里面

sed -i 's#etcd_ca: ""#etcd_ca: "/calico-secrets/etcd-ca"#g; s#etcd_cert: ""#etcd_cert: "/calico-secrets/etcd-cert"#g; s#etcd_key: "" #etcd_key: "/calico-secrets/etcd-key" #g' calico-etcd.yaml

修改 pod 网段

POD_SUBNET=`cat /etc/kubernetes/manifests/kube-controller-manager.yaml | grep cluster-cidr= | awk -F= '{print $NF}'`

注意下面的这个步骤是把calico-etcd.yaml文件里面的CALICO_IPV4POOL_CIDR下的网段改成自己的Pod网段，也就是把192.168.x.x/16改成自己的集群网段，并打开注释，所以更改的时候请确保这个步骤的这个网段没有被统一替换掉，如果被替换掉了，还请改回来：

sed -i 's@# - name: CALICO_IPV4POOL_CIDR@- name: CALICO_IPV4POOL_CIDR@g; s@#   value: "192.168.0.0/16"@  value: '"${POD_SUBNET}"'@g' calico-etcd.yaml

检查文件：

vim calico-etcd.yaml

可以看到 etcd-key 已经导入进来，它就是把证书 /etc/kubernetes/pki/etcd/ca.crt 读取出来，再经过 base64 加密，再填到这个位置

安装 calico

kubectl apply -f calico-etcd.yaml

查看容器状态

kubectl  get po -n kube-system

成功运行

NAME                                       READY   STATUS    RESTARTS   AGE
calico-kube-controllers-5f6d4b864b-f2ssh   1/1     Running   0          2m54s
calico-node-78wg7                          1/1     Running   0          2m54s
calico-node-8hxxj                          1/1     Running   0          2m54s
calico-node-8t4c9                          1/1     Running   0          2m54s
calico-node-fgwdv                          1/1     Running   0          2m54s
calico-node-jzh8w                          1/1     Running   0          2m54s

目前用的是阿里云的镜像，生产环境需要推荐使用自己的镜像仓库，这样速度更快

Dashboard&Metrics Server安装

Metrics Server

在新版的Kubernetes中系统资源的采集均使用Metrics-server，可以通过Metrics采集节点和Pod的内存、磁盘、CPU和网络的使用率。

github 地址：https://github.com/kubernetes-sigs/metrics-server

查看yaml文件配置

cd metrics-server-0.4.x-kubeadm/

vim comp.yaml

添加了证书，不然可能导致获取不到度量指标

- --requestheader-client-ca-file=/etc/kubernetes/pki/front-proxy-ca.crt # change to front-proxy-ca.crt for kubeadm

镜像地址也修改为阿里云

image: registry.cn-beijing.aliyuncs.com/dotbalo/metrics-server:v0.4.1

将Master01节点的front-proxy-ca.crt复制到所有Node节点

scp /etc/kubernetes/pki/front-proxy-ca.crt k8s-node01:/etc/kubernetes/pki/front-proxy-ca.crt
scp /etc/kubernetes/pki/front-proxy-ca.crt k8s-node02:/etc/kubernetes/pki/front-proxy-ca.crt

安装metrics server

cd /root/k8s-ha-install/metrics-server-0.4.x-kubeadm/

kubectl  create -f comp.yaml

查看状态

kubectl  top node

显示CPU状态，内存使用量

NAME           CPU(cores)   CPU%   MEMORY(bytes)   MEMORY%   
k8s-master01   204m         10%    1114Mi          59%       
k8s-master02   128m         6%     1133Mi          60%       
k8s-master03   113m         5%     1056Mi          56%       
k8s-node01     54m          2%     809Mi           43%       
k8s-node02     71m          3%     834Mi           44%

Dashboard部署

Dashboard用于展示集群中的各类资源，同时也可以通过Dashboard实时查看Pod的日志和在容器中执行一些命令等。

github 地址：https://github.com/kubernetes/dashboard

安装指定版本dashboard

查看yaml文件配置

cd /root/k8s-ha-install/dashboard/

grep "image" dashboard.yaml

可以看到只修改了镜像地址

image: registry.cn-beijing.aliyuncs.com/dotbalo/dashboard:v2.0.4
imagePullPolicy: Always
image: registry.cn-beijing.aliyuncs.com/dotbalo/metrics-scraper:v1.0.4

注意：所有的镜像包括caclico, coredns, etcd等等都要放到自己公司内部的镜像仓库，这样发布、更新、故障恢复的速度更快

安装

kubectl  create -f .

安装最新版

如果需要访问最新版本可以访问官方github获取连接，但是没必要安装最新

kubectl apply -f https://raw.githubusercontent.com/kubernetes/dashboard/v2.0.3/aio/deploy/recommended.yaml

创建管理员用户vim admin.yaml

apiVersion: v1
kind: ServiceAccount
metadata:
  name: admin-user
  namespace: kube-system
---
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRoleBinding 
metadata: 
  name: admin-user
  annotations:
    rbac.authorization.kubernetes.io/autoupdate: "true"
roleRef:
  apiGroup: rbac.authorization.k8s.io
  kind: ClusterRole
  name: cluster-admin
subjects:
- kind: ServiceAccount
  name: admin-user
  namespace: kube-system

应用

kubectl apply -f admin.yaml -n kube-system

登录dashboard

在谷歌浏览器（Chrome）启动文件中加入启动参数，用于解决无法访问Dashboard的问题

--test-type --ignore-certificate-errors

右键--属性--快捷方式--目标

"C:\Program Files\Google\Chrome\Application\chrome.exe" --test-type --ignore-certificate-errors

更改dashboard的svc为NodePort：

kubectl edit svc kubernetes-dashboard -n kubernetes-dashboard

将ClusterIP更改为NodePort（如果已经为NodePort忽略此步骤）

查看端口号：

kubectl get svc kubernetes-dashboard -n kubernetes-dashboard

端口号为10.99.156.65

NAME                   TYPE       CLUSTER-IP     EXTERNAL-IP   PORT(S)         AGE
kubernetes-dashboard   NodePort   10.99.156.65   <none>        443:32272/TCP   9m58s

查看容器是否启动完成

kubectl get po -A

根据自己的实例端口号，通过任意安装了kube-proxy的宿主机或者VIP的IP+端口即可访问到dashboard：

访问Dashboard：https://192.168.232.236:32272（请更改32272为自己的端口），选择登录方式为令牌（即token方式）

也可以通过宿主机的ip访问：https://192.168.232.128:32272

查看端口占用

netstat -lntp

占用情况

Active Internet connections (only servers)
Proto Recv-Q Send-Q Local Address           Foreign Address         State       PID/Program name          
tcp        0      0 0.0.0.0:32272           0.0.0.0:*               LISTEN      31552/kube-proxy

可以看到 NodePort 所做的事情就是在宿主机上启动一个端口号 32272，这个端口号会对应到 dashboard，每一台服务器都会启动这个端口，都可以访问到 dashboard

https://192.168.232.129:32272

https://192.168.232.130:32272

https://192.168.232.131:32272

https://192.168.232.132:32272

查看token值：

kubectl -n kube-system describe secret $(kubectl -n kube-system get secret | grep admin-user | awk '{print $1}')

得到token值：

token:      eyJhbGciOiJSUzI1NiIsImtpZCI6IkxReUpVOGk4b0FrUUlLVDgyb1hTb0U1Uzg4cHZYRzBMRXJqOERHRDJMQ0EifQ.eyJpc3MiOiJrdWJlcm5ldGVzL3NlcnZpY2VhY2NvdW50Iiwia3ViZXJuZXRlcy5pby9zZXJ2aWNlYWNjb3VudC9uYW1lc3BhY2UiOiJrdWJlLXN5c3RlbSIsImt1YmVybmV0ZXMuaW8vc2VydmljZWFjY291bnQvc2VjcmV0Lm5hbWUiOiJhZG1pbi11c2VyLXRva2VuLXJ2bW1oIiwia3ViZXJuZXRlcy5pby9zZXJ2aWNlYWNjb3VudC9zZXJ2aWNlLWFjY291bnQubmFtZSI6ImFkbWluLXVzZXIiLCJrdWJlcm5ldGVzLmlvL3NlcnZpY2VhY2NvdW50L3NlcnZpY2UtYWNjb3VudC51aWQiOiIxMDkwNTc5MS1mMmJmLTRlMmQtYjJiNy1hYTRlNjU5YTM1MjQiLCJzdWIiOiJzeXN0ZW06c2VydmljZWFjY291bnQ6a3ViZS1zeXN0ZW06YWRtaW4tdXNlciJ9.UEayfCEyeAx-wrguqqyZIKTr1O9OzFyksowng6J54BhdonBhF3JEcbJlykjRfP4DZzpniorWdwE6AhuE-VQ8xiyKcMEl8mnnovHM3T65v1DsD3KSdfFnbdFXLyEnA7zeS7-7oh7-fQkEHcPvEWJGO7OJq3aVVxxVqgvecuxkC0v43Bp3yVlZZ94bmRpy3VeEtAJ1KYgDH33oSOzBqRJ5GOWqCicepQFlwsrERu8slwa1yazu7upcR7mn2H-bXZxZY09HPG3gM0xypfULhdV8xd7ZI1wovm29na_PjcPB8w3b3tMbqF8ee5BKQdZGORZWYdAZhActT33rYqhZs_1ieg

将token值输入到令牌后，单击登录即可访问Dashboard

切换 namespace 到 kube-system

一些必须的配置更改

将Kube-proxy改为ipvs模式，因为在初始化集群的时候注释了ipvs配置，所以需要自行修改一下：

在master01节点执行

kubectl edit cm kube-proxy -n kube-system

搜索定位到mode

/mode 回车

修改为 ipvs

mode: “ipvs”

保存退出：shift + z + z

更新 Kube-Proxy 的 Pod：

kubectl patch daemonset kube-proxy -p "{\"spec\":{\"template\":{\"metadata\":{\"annotations\":{\"date\":\"`date +'%s'`\"}}}}}" -n kube-system

查看 pod 滚动更新

kubectl get po -n kube-system -owide

可以看到新起的是在 master03

NAME                                       READY   STATUS    RESTARTS   AGE     IP                NODE           NOMINATED NODE   READINESS GATES
kube-proxy-47pww                           1/1     Running   0          2m33s   192.168.232.129   k8s-master02   <none>           <none>
kube-proxy-4mlnm                           1/1     Running   0          2m21s   192.168.232.128   k8s-master01   <none>           <none>
kube-proxy-6h8mx                           1/1     Running   0          2m8s    192.168.232.132   k8s-node02     <none>           <none>
kube-proxy-6p7hg                           1/1     Running   0          2m12s   192.168.232.131   k8s-node01     <none>           <none>
kube-proxy-fzgws                           1/1     Running   0          118s    192.168.232.130   k8s-master03   <none>           <none>

在 master03 验证 Kube-Proxy 模式，接着可以在所有服务器验证一下

curl 127.0.0.1:10249/proxyMode

注意事项

kubeadm安装的集群，证书有效期默认是一年。master节点的kube-apiserver、kube-scheduler、kube-controller-manager、etcd都是以容器运行的。可以通过kubectl get po -n kube-system查看。

启动和二进制的区别：

kubelet的配置文件在/etc/sysconfig/kubelet和/var/lib/kubelet/config.yaml，修改后需要重启kubelet进程

其他组件的配置文件在/etc/kubernetes/manifests目录下，比如kube-apiserver.yaml，该yaml文件更改后，kubelet会自动刷新配置，也就是会重启pod。不能再次创建该文件

kube-proxy的配置在kube-system命名空间下的configmap中，可以通过

kubectl edit cm kube-proxy -n kube-system

进行更改，更改完成后，可以通过patch重启kube-proxy

kubectl patch daemonset kube-proxy -p "{\"spec\":{\"template\":{\"metadata\":{\"annotations\":{\"date\":\"`date +'%s'`\"}}}}}" -n kube-system

Kubeadm安装后，master节点默认不允许部署pod，会占用资源，在学习过程中可以通过以下方式打开：

查看Taints：

kubectl  describe node -l node-role.kubernetes.io/master=  | grep Taints

可以看到三个污点

Taints:             node-role.kubernetes.io/master:NoSchedule
Taints:             node-role.kubernetes.io/master:NoSchedule
Taints:             node-role.kubernetes.io/master:NoSchedule

删除Taint：

kubectl  taint node  -l node-role.kubernetes.io/master node-role.kubernetes.io/master:NoSchedule-

查看Taints：

kubectl  describe node -l node-role.kubernetes.io/master=  | grep Taints

可以看到三个污点

Taints:             <none>
Taints:             <none>
Taints:             <none>

课程链接（私信我领取专属福利）

http://www.kubeasy.com/

本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。

欢迎转载、使用、重新发布，但务必保留文章署名郑子铭（包含链接： http://www.cnblogs.com/MingsonZheng/ ），不得用于商业目的，基于本文修改后的作品务必以相同的许可发布。

posted @ 2021-07-10 09:26 郑子铭阅读(1664) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

历史上的今天：
2020-07-10 《ASP.ENT Core 与 RESTful API 开发实战》-- （第6章）-- 读书笔记（上）

公告

姓名：郑子铭
现居：广东省-广州市
兴趣：.NET、k8s、Go、微服务、云原生
爱好：跑步、阅读、价值投资
座右铭：先做人，再做事；先成长，再成功；
吃亏在前，福报在后
特质：主动自律，乐于分享
GitBook：
.NET 云原生架构师训练营
.NET Core 开发实战
ASP.NET Core 项目实战
ASP.NET Core 快速入门
Kubernetes全栈架构师

DotNet NB：.NET Core 技术学习分享，社区热点分享，专注为 .NET 社区做贡献，愿我们互相交流学习，共同推动社区发展

CloudNative NB：云原生技术学习分享，社区热点分享，专注为云原生社区做贡献，愿我们互相交流学习，共同推动社区发展

昵称：郑子铭
园龄： 6年9个月
粉丝： 377
关注： 65

2025年3月

日

一

二

三

四

五

六

MingsonZheng

Kubernetes全栈架构师（Kubeadm高可用安装k8s集群）--学习笔记

目录

k8s高可用架构解析

Kubeadm基本环境配置

高可用Kubernetes集群规划

基本环境配置

环境搭建

静态ip设置

节点配置

Kubeadm系统及内核升级

Kubeadm基本组件安装

Kubeadm高可用组件安装

Kubeadm集群初始化

高可用Master及Token过期处理

Kubeadm Node及Calico节点配置

Kubeadm Node

Calico节点配置

Dashboard&Metrics Server安装

Metrics Server

Dashboard部署

安装指定版本dashboard

安装最新版

登录dashboard

一些必须的配置更改

注意事项

启动和二进制的区别：

课程链接（私信我领取专属福利）

公告

搜索

常用链接

最新随笔

积分与排名

随笔分类 (304)

随笔档案 (292)

相册 (10)

阅读排行榜

评论排行榜

推荐排行榜

最新评论