【爬坑系列1】之kubernetes环境搭建

【爬坑系列】之kubernetes环境搭建：二进制安装与镜像安装

准备:
网上教如何编译与安装kubernetes的教程很多，需要提前准备的也很多，比如关闭selinux，防火墙啦....但有一点一定要注意，编译kubernetes源码时要求有2G内存，这个可是实打实的2G内存！所以要求你的机器至少是3G，4G最好了。

如果你手头不是那么宽裕比如我只买得起2G内存的计算云，那么只好利用交换分区了...

增加1GB大小的交换分区，则命令写法如下，其中的count等于想要的块的数量（bs*count=文件大小）
dd if=/dev/zero of=/root/swapfile bs=1M count=2048
mkswap /root/swapfile
swapon /root/swapfile

使系统开机时自启用，在文件/etc/fstab中添加一行
vi /etc/fstab
添加/root/swapfile swap swap defaults 0 0

扩大或修改 swap 大小其实和增加一样的，只是必须先停止交换分区
swapoff /root/swapfile
然后按上面的增加方法即可

一，源码编译

KUBE_BUILD_PLATFORMS=linux/amd64 make all GOFLAGS=-v GOGCFLAGS="-N -l"

注：这个过程如果编译出错，基本是内存不够了，那就一个一个模块的编，比较耗内存的有kubelet， kube-controller-manager...,单独一个木块的编译命令例如

   #KUBE_BUILD_PLATFORMS=linux/amd64 make all WHAT=cmd/kubelet GOFLAGS=-v GOGCFLAGS="-N -l"

二，生成镜像：
推荐参考此博客：https://www.kubernetes.org.cn/5033.html

三，node/minion节点的安装（直接yum安装方式）
节点vip： 106.y.y.3

node节点需要安装的组件有：kubelet，kube-proxy，flannel，etcd（可选）

【安装】：现如今，yum源中已经支持安装k8s了，所以一个kubernetes-node选项，就可以将当前节点作为node角色进行必要的安装。

              #yum install kubernetes-node etcd flannel -y

 说明：其实和其他centos系统下的二进制安装是一样的：

二进制可执行文件放到/usr/bin中
统一的系统配置文件：/usr/lib/systemd/system/kubelet.service.
专属配置文件：例如/etc/kubernetes/*， /etc/etcd/etcd.conf
专属配置文件如/etc/kubernetes/目录下的配置文件为系统配置文件xx.service文件提供参数，所以要改参数需要两个文件结合修改，这里需要改的无非两点：集群master节点地址，etcd的地址

【配置etcd】

vi /etc/etcd/etcd.conf

ETCD_LISTEN_CLIENT_URLS="http://0.0.0.0:2379" ---表示开启的本地监听：用来提供服务的接口
ETCD_LISTEN_PEER_URLS="http://0.0.0.0:2380" ---表示开启的本地监听：用来和perr交流的接口

--以下是用来广播出去给peer们，告诉大家怎么能找到我，包括：我与peer通信的接口和我服务的接口
ETCD_INITIAL_ADVERTISE_PEER_URLS="http://188.x.x.113:2380"
ETCD_ADVERTISE_CLIENT_URLS="http://188.x.x.113:2379"
ETCD_INITIAL_CLUSTER="etcd0=http://188.x.x.113:2380,etcd1=http://106.y.y.3:2380"
ETCD_INITIAL_CLUSTER_STATE="new"

vi /usr/lib/systemd/system/etcd.service

--advertise-client-urls="\({ETCD_ADVERTISE_CLIENT_URLS}\" --initial-cluster=\"\){ETCD_INITIAL_CLUSTER}" --initial-advertise-peer-urls="\({ETCD_INITIAL_ADVERTISE_PEER_URLS}\" --initial-cluster-state=\"\){ETCD_INITIAL_CLUSTER_STATE}" --listen-peer-urls="\({ETCD_LISTEN_PEER_URLS}\" --listen-client-urls=\"\){ETCD_LISTEN_CLIENT_URLS}""
最后：
systemctl daemon-reload
systemctl restart etcd.service
systemctl enable etcd.service

验证：
etcdctl member list
etcdctl cluster-health

【坑1】

场景1：报错:rafthttp: request sent was ignored (cluster ID mismatch: peer[b6568aca930d28d4]=cdf818194e3a8c32, local=9c8b920197d88342)
场景2：当某个peer挂了，或者减少etcd集群的成员等，你变更了配置之后，发现重启失败等等之类的错误，都可以尝试如下的解决办法

解决：
cd /var/lib/etcd/
rm ./* -rf //清缓存

【配置flannel】

0，为什么需要etcd
etcd是一个key-value形式的存储系统，所以关于网络方面的数据，要首先为其指定一个key，那么这个key下的数据都属于网络方面的。

1，配置flannel，包括 1)etcd的地址; 2)存储数据到etcd中使用的key

vi /etc/sysconfig/flanneld

FLANNEL_ETCD_ENDPOINTS="http://106.13.146.3:2379,http://188.131.210.113:2379"
FLANNEL_ETCD_PREFIX="/k8s/network" //这个key是 "/k8s/network"
FLANNEL_OPTIONS="--log_dir=/var/log/k8s/flannel/ --public-ip=188.x.x.113" //这个public-ip一定是网络可达的，比如我的环境中，必须配置成host的vip
2,在etcd中为flannel添加初始配置，表示之后为k8s集群分配ip的时候，取如下地址空间

在master上etcd执行

etcdctl mk /k8s/network/config '{"Network": "10.0.0.0/16"}'

若要重新建，先删除

etcdctl rm /k8s/network/ --recursive

3，重启flannel

systemctl daemon-reload
systemctl restart flanneld.service
systemctl enable flanneld.service
4，重启docker

说明：flannel之所以能够掌控pod的流向转发，其实是和docker配合着来做的，flannel的安装会偷偷修改docker的启动参数或环境变量，所以要重启下docker以生效。详见深入解读docker网络与kubernetes网络

四，master节点的安装(镜像 + 二进制）
节点Vip:188.x.x.113

0，之前我们已经编译好了三大镜像,加载之

[root@master _output]# find ./release-stage/ -name "*.tar"
./release-stage/server/linux-amd64/kubernetes/server/bin/kube-controller-manager.tar
./release-stage/server/linux-amd64/kubernetes/server/bin/kube-apiserver.tar
./release-stage/server/linux-amd64/kubernetes/server/bin/kube-scheduler.tar

docker load < kube-scheduler.tar
...

k8s.gcr.io/kube-scheduler v1.13.6-beta.0.39_ddd2add0dd3dbc 0ee023810183 22 minutes ago 79.5MB
k8s.gcr.io/kube-apiserver v1.13.6-beta.0.39_ddd2add0dd3dbc 7666a559eee8 22 minutes ago 181MB
k8s.gcr.io/kube-controller-manager v1.13.6-beta.0.39_ddd2add0dd3dbc ac910ff4cca1 22 minutes ago 146MB

1，安装etcd

步骤同node节点，需要注意的是，要先安装etcd，再安装k8s的组件

2，安装flanel

步骤同node节点

3，三大组件的最基本安装：
//wxy：注意，对于绑定vip的云上机器， insecure-bind-address的地址不能是vip，而应该是自己本地的ip，这里就用了0.0.0.0代替
docker run -d --name=apiserver --net=host k8s.gcr.io/kube-apiserver:v1.13.6-beta.0.39_ddd2add0dd3dbc kube-apiserver --insecure-bind-address=0.0.0.0 --service-cluster-ip-range=11.0.0.0/16 --etcd-servers=http://188.x.x.113:2379

docker run -d --name=controllermanager --net=host k8s.gcr.io/kube-controller-manager:v1.13.6-beta.0.39_ddd2add0dd3dbc kube-controller-manager --master=188.x.x.113:8080

docker run -d --name=scheduler --net=host k8s.gcr.io/kube-scheduler:v1.13.6-beta.0.39_ddd2add0dd3dbc kube-scheduler --master=188.x.x.113:8080

至此，k8s的集群已经起来了，验证下：
[root@master ~]# kubectl get ns
NAME STATUS AGE
default Active 12h
kube-public Active 12h
kube-system Active 12h

但是，创建pod的时候会出现如下错误：
[root@master ~]# kubectl create -f ./centos.yaml
Error from server (ServerTimeout): error when creating "./centos.yaml": No API token found for service account "default", retry after the token is automatically created and added to the service account
那是认证的问题，下一步就展示了如何配置认证

3，升级安装：带证书配置

说明：与k8s集群的交流是通过调用api-server组件提供的各种api，比如创建pod，service等，这种访问可能是来自人类例如某人执行kuectl命令，也可能是pod中的某进程想要访问api，都需要认证，api-server可不是随随便便就能被任何人访问的，那么就需要有一套认证机制，详细的见【爬坑系列】之解读kubernetes的认证原理&实践，否则只需要做如下操作即可：

0)生成需要的证书

使用CFSSL工具或者openssl都可以，网上也有很多教程，详细的也可以看这里，反正这里我就需要一个根证书，以下的是已经生成好的一些证书

[root@master ~]# ll /etc/kubernetes/apiserver/
total 36
-rw-rw-rw- 1 root root 997 May 22 10:46 ca.csr
-rw-rw-rw- 1 root root 1679 May 22 10:46 ca-key.pem
-rw-rw-rw- 1 root root 1350 May 22 10:46 ca.pem ---我所需要的
-rw-rw-rw- 1 root root 1338 May 22 11:59 server.csr
-rw-rw-rw- 1 root root 1679 May 22 11:59 server-key.pem
-rw-rw-rw- 1 root root 1704 May 22 11:59 server.pem

1）重新安装controller manage，只配置service-account-private-key-file这一个认证相关的参数

[root@master ~]# docker run -d --name=cm --net=host
-v /etc/kubernetes/apiserver:/run/ssl
k8s.gcr.io/kube-controller-manager:v1.13.6-beta.0.39_ddd2add0dd3dbc
kube-controller-manager
--master=0.0.0.0:8080
--service-account-private-key-file=/run/ssl/ca-key.pem

2），重启所有节点的kublete （重要）

[root@master ~]# systemctl restart kubelet.service
k8s会做两件事
1)自动给生成一个secret：属于服务账号的，用来给pod提供一个缺省的身份(名字和 token)，让他得以访问apiserver，具体怎么给pod用的，看这里
2)在/var/run/kubernetes/目录下生成一对证书,由配置的CA证书签发的 ---干什么用的?目前没时间研究，在说....

3)，此时创建pod，可以成功

[root@master ~]# kubectl create -f centos.yaml
pod/myapp-centos created
[root@master ~]# kubectl get pods
NAME READY STATUS RESTARTS AGE
myapp-centos 1/1 Running 0 6s

【坑2】
配置了证书启动kube-controller-manager后还是报同样的错误，secret也没生成，为什么？

定位过程：

kube-controller-manager的日志显示文件不存在，命名在的啊：
　#docker logs -f cm
　　...
　　F0529 10:18:21.535516 1 controllermanager.go:213] error starting controllers: error reading key for service account token controller: open /etc/kubernetes/apiserver/ca-key.pem: no such file or directory

看了源码，根据源码我还本地写了个小程序，发现是可以顺利读取的，那说明文件是没问题，为什么到了容器里就有问题了。突然，我意识到这可是容器啊，代码读取的可是容器内的路径，而我的配置是host上的路径。于是
于是增加了卷挂载，即把host中的证书挂载到容器中，结果：OK

docker run -d --name=cm --net=host
-v /etc/kubernetes/apiserver:/run/ssl
k8s.gcr.io/kube-controller-manager:v1.13.6-beta.0.39_ddd2add0dd3dbc
kube-controller-manager
--master=0.0.0.0:8080
--root-ca-file=/run/ssl/ca.pem
--service-account-private-key-file=/run/ssl/ca-key.pem

Kubernetes 中配置集群 ETCD 碰到的一些问题的解决！

开发小头目 2018-06-08 14:44:37 18022 收藏
分类专栏： kubernetes知识
版权
前提：
配置2个节点:
cat /etc/hosts
192.168.200.80 vmnote0
192.168.200.81 vmnote1

（我这里出现问题是在我安装kubernetes过程中，有CSRFF 公私密钥的加入）

我碰到的问题

etcd 服务一直启动失败（主从2台机子上面都是）

分析：1. 启动失败是不是因为 etcd.service 文件异常
2. 是不是因为 /var -data 的历史文件影响了启动
3. 会不会端口被占用

开始检查问题

检查etcd.service 配置文件（使用这种方式整合的比较紧密）

一顿修改之后，问题变了（错误太低级，不好意思展示，下面是我的配置文件）

[root@vmnode0 system]# cat /usr/lib/systemd/system/etcd.service
[Unit]
Description=Etcd Server
After=network.target
After=network-online.target
Wants=network-online.target
Documentation=https://github.com/coreos

[Service]
Type=notify
WorkingDirectory=/var/lib/etcd/
ExecStart=/usr/local/bin/etcd
--name vmnode0
--cert-file=/etc/kubernetes/ssl/kubernetes.pem
--key-file=/etc/kubernetes/ssl/kubernetes-key.pem
--peer-cert-file=/etc/kubernetes/ssl/kubernetes.pem
--peer-key-file=/etc/kubernetes/ssl/kubernetes-key.pem
--trusted-ca-file=/etc/kubernetes/ssl/ca.pem
--peer-trusted-ca-file=/etc/kubernetes/ssl/ca.pem
--initial-advertise-peer-urls https://192.168.200.80:2380
--listen-peer-urls https://192.168.200.80:2380
--listen-client-urls https://192.168.200.80:2379,http://127.0.0.1:2379
--advertise-client-urls https://192.168.200.80:2379
--initial-cluster-token etcd-cluster-1
--initial-cluster vmnode0=https://192.168.200.80:2380,vmnode1=https://192.168.200.81:2380
--initial-cluster-state new
--data-dir=/var/lib/etcd
Restart=on-failure
RestartSec=5
LimitNOFILE=65536

[Install]
WantedBy=multi-user.target
[root@vmnode1 system]# cat /usr/lib/systemd/system/etcd.service
[Unit]
Description=Etcd Server
After=network.target
After=network-online.target
Wants=network-online.target
Documentation=https://github.com/coreos

[Service]
Type=notify
WorkingDirectory=/var/lib/etcd/
ExecStart=/usr/local/bin/etcd
--name vmnode1
--cert-file=/etc/kubernetes/ssl/kubernetes.pem
--key-file=/etc/kubernetes/ssl/kubernetes-key.pem
--peer-cert-file=/etc/kubernetes/ssl/kubernetes.pem
--peer-key-file=/etc/kubernetes/ssl/kubernetes-key.pem
--trusted-ca-file=/etc/kubernetes/ssl/ca.pem
--peer-trusted-ca-file=/etc/kubernetes/ssl/ca.pem
--initial-advertise-peer-urls https://192.168.200.81:2380
--listen-peer-urls https://192.168.200.81:2380
--listen-client-urls https://192.168.200.81:2379,http://127.0.0.1:2379
--advertise-client-urls https://192.168.200.81:2379
--initial-cluster-token etcd-cluster-1
--initial-cluster vmnode0=https://192.168.200.80:2380,vmnode1=https://192.168.200.81:2380
--initial-cluster-state new
--data-dir=/var/lib/etcd
Restart=on-failure
RestartSec=5
LimitNOFILE=65536

[Install]
WantedBy=multi-user.target
2. 还是启动不了，查看日志
journalctl -xe -u etcd //查看日志细节
netstat -nal //查看接口

ZERO：
6月 08 03:46:26 vmnode1 etcd[46641]: publish error: etcdserver: request timed out
FIRST:
6月 08 11:09:36 vmnode0 etcd[11820]: rejected connection from "192.168.200.81:48552" (error "remote error: tls: bad certificate", ServerName "")
6月 08 11:09:36 vmnode0 etcd[11820]: rejected connection from "192.168.200.81:48554" (error "remote error: tls: bad certificate", ServerName "")
6月 08 11:09:36 vmnode0 etcd[11820]: request sent was ignored (cluster ID mismatch: peer[39a8adcf41828c16]=bf653702878aa654, local=aff16232db8b0940)
6月 08 11:09:36 vmnode0 etcd[11820]: request sent was ignored (cluster ID mismatch: peer[39a8adcf41828c16]=bf653702878aa654, local=aff16232db8b0940)
SECOND:

6月 08 04:01:46 vmnode1 etcd[46706]: request cluster ID mismatch (got aff16232db8b0940 want bf653702878aa654)
6月 08 04:01:46 vmnode1 etcd[46706]: request cluster ID mismatch (got aff16232db8b0940 want bf653702878aa654)
6月 08 04:01:46 vmnode1 etcd[46706]: request cluster ID mismatch (got aff16232db8b0940 want bf653702878aa654)

先查看防火墙是否开启，firewalld
在查看 data-dir=/var/lib/etcd 的缓存情况，清除一下

我暂时就碰到这几个问题，不要相信自己的眼睛，有些配置可以复制不要手打，错了不好找

posted @ 2020-07-08 16:14 seaskyccl 阅读(398) 评论(0) 编辑收藏举报

刷新页面返回顶部

seaskyccl

【爬坑系列1】之kubernetes环境搭建

KUBE_BUILD_PLATFORMS=linux/amd64 make all GOFLAGS=-v GOGCFLAGS="-N -l"

vi /etc/sysconfig/flanneld

在master上etcd执行

若要重新建，先删除

公告