【爬坑系列1】之kubernetes环境搭建

【爬坑系列】之kubernetes环境搭建:二进制安装与镜像安装

准备:
网上教如何编译与安装kubernetes的教程很多,需要提前准备的也很多,比如关闭selinux,防火墙啦....但有一点一定要注意,编译kubernetes源码时要求有2G内存,这个可是实打实的2G内存!所以要求你的机器至少是3G,4G最好了。

如果你手头不是那么宽裕比如我只买得起2G内存的计算云,那么只好利用交换分区了...

增加1GB大小的交换分区,则命令写法如下,其中的count等于想要的块的数量(bs*count=文件大小)
dd if=/dev/zero of=/root/swapfile bs=1M count=2048
mkswap /root/swapfile
swapon /root/swapfile

使系统开机时自启用,在文件/etc/fstab中添加一行
vi /etc/fstab
添加/root/swapfile swap swap defaults 0 0

扩大或修改 swap 大小 其实和增加一样的,只是必须先停止交换分区
swapoff /root/swapfile
然后按上面的增加方法即可

一,源码编译

KUBE_BUILD_PLATFORMS=linux/amd64 make all GOFLAGS=-v GOGCFLAGS="-N -l"

注:这个过程如果编译出错,基本是内存不够了,那就一个一个模块的编,比较耗内存的有kubelet, kube-controller-manager...,单独一个木块的编译命令例如

   #KUBE_BUILD_PLATFORMS=linux/amd64 make all WHAT=cmd/kubelet GOFLAGS=-v GOGCFLAGS="-N -l"  

二,生成镜像:
推荐参考此博客:https://www.kubernetes.org.cn/5033.html

三,node/minion节点的安装(直接yum安装方式)
节点vip: 106.y.y.3

node节点需要安装的组件有:kubelet,kube-proxy,flannel,etcd(可选)

【安装】:现如今,yum源中已经支持安装k8s了,所以一个kubernetes-node选项,就可以将当前节点作为node角色进行必要的安装。

              #yum install kubernetes-node etcd flannel -y

 说明:其实和其他centos系统下的二进制安装是一样的:

二进制可执行文件放到/usr/bin中
统一的系统配置文件:/usr/lib/systemd/system/kubelet.service.
专属配置文件:例如/etc/kubernetes/*, /etc/etcd/etcd.conf
专属配置文件如/etc/kubernetes/目录下的配置文件为系统配置文件xx.service文件提供参数 ,所以要改参数需要两个文件结合修改,这里需要改的无非两点:集群master节点地址,etcd的地址

【配置etcd】

vi /etc/etcd/etcd.conf

ETCD_LISTEN_CLIENT_URLS="http://0.0.0.0:2379" ---表示开启的本地监听:用来提供服务的接口
ETCD_LISTEN_PEER_URLS="http://0.0.0.0:2380" ---表示开启的本地监听:用来和perr交流的接口

--以下是用来广播出去给peer们,告诉大家怎么能找到我,包括:我与peer通信的接口和我服务的接口
ETCD_INITIAL_ADVERTISE_PEER_URLS="http://188.x.x.113:2380"
ETCD_ADVERTISE_CLIENT_URLS="http://188.x.x.113:2379"
ETCD_INITIAL_CLUSTER="etcd0=http://188.x.x.113:2380,etcd1=http://106.y.y.3:2380"
ETCD_INITIAL_CLUSTER_STATE="new"

vi /usr/lib/systemd/system/etcd.service

--advertise-client-urls="\({ETCD_ADVERTISE_CLIENT_URLS}\" --initial-cluster=\"\){ETCD_INITIAL_CLUSTER}" --initial-advertise-peer-urls="\({ETCD_INITIAL_ADVERTISE_PEER_URLS}\" --initial-cluster-state=\"\){ETCD_INITIAL_CLUSTER_STATE}" --listen-peer-urls="\({ETCD_LISTEN_PEER_URLS}\" --listen-client-urls=\"\){ETCD_LISTEN_CLIENT_URLS}""
最后:
systemctl daemon-reload
systemctl restart etcd.service
systemctl enable etcd.service

验证:
etcdctl member list
etcdctl cluster-health

【坑1】

场景1:报错:rafthttp: request sent was ignored (cluster ID mismatch: peer[b6568aca930d28d4]=cdf818194e3a8c32, local=9c8b920197d88342)
场景2:当某个peer挂了,或者减少etcd集群的成员等,你变更了配置之后,发现重启失败等等之类的错误,都可以尝试如下的解决办法

解决:
cd /var/lib/etcd/
rm ./* -rf //清缓存

【配置flannel】

0,为什么需要etcd
etcd是一个key-value形式的存储系统,所以关于网络方面的数据,要首先为其指定一个key,那么这个key下的数据都属于网络方面的。

1,配置flannel,包括 1)etcd的地址; 2)存储数据到etcd中使用的key

vi /etc/sysconfig/flanneld

FLANNEL_ETCD_ENDPOINTS="http://106.13.146.3:2379,http://188.131.210.113:2379"
FLANNEL_ETCD_PREFIX="/k8s/network" //这个key是 "/k8s/network"
FLANNEL_OPTIONS="--log_dir=/var/log/k8s/flannel/ --public-ip=188.x.x.113" //这个public-ip一定是网络可达的,比如我的环境中,必须配置成host的vip
2,在etcd中为flannel添加初始配置,表示之后为k8s集群分配ip的时候,取如下地址空间

在master上etcd执行

etcdctl mk /k8s/network/config '{"Network": "10.0.0.0/16"}'

若要重新建,先删除

etcdctl rm /k8s/network/ --recursive

3,重启flannel

systemctl daemon-reload
systemctl restart flanneld.service
systemctl enable flanneld.service
4,重启docker

说明:flannel之所以能够掌控pod的流向转发,其实是和docker配合着来做的,flannel的安装会偷偷修改docker的启动参数或环境变量,所以要重启下docker以生效。详见深入解读docker网络与kubernetes网络

四,master节点的安装(镜像 + 二进制)
节点Vip:188.x.x.113

0,之前我们已经编译好了三大镜像,加载之

[root@master _output]# find ./release-stage/ -name "*.tar"
./release-stage/server/linux-amd64/kubernetes/server/bin/kube-controller-manager.tar
./release-stage/server/linux-amd64/kubernetes/server/bin/kube-apiserver.tar
./release-stage/server/linux-amd64/kubernetes/server/bin/kube-scheduler.tar

docker load < kube-scheduler.tar
...

k8s.gcr.io/kube-scheduler v1.13.6-beta.0.39_ddd2add0dd3dbc 0ee023810183 22 minutes ago 79.5MB
k8s.gcr.io/kube-apiserver v1.13.6-beta.0.39_ddd2add0dd3dbc 7666a559eee8 22 minutes ago 181MB
k8s.gcr.io/kube-controller-manager v1.13.6-beta.0.39_ddd2add0dd3dbc ac910ff4cca1 22 minutes ago 146MB

1,安装etcd

步骤同node节点,需要注意的是,要先安装etcd,再安装k8s的组件

2,安装flanel

步骤同node节点

3,三大组件的最基本安装:
//wxy:注意,对于绑定vip的云上机器, insecure-bind-address的地址不能是vip,而应该是自己本地的ip,这里就用了0.0.0.0代替
docker run -d --name=apiserver --net=host k8s.gcr.io/kube-apiserver:v1.13.6-beta.0.39_ddd2add0dd3dbc kube-apiserver --insecure-bind-address=0.0.0.0 --service-cluster-ip-range=11.0.0.0/16 --etcd-servers=http://188.x.x.113:2379

docker run -d --name=controllermanager --net=host k8s.gcr.io/kube-controller-manager:v1.13.6-beta.0.39_ddd2add0dd3dbc kube-controller-manager --master=188.x.x.113:8080

docker run -d --name=scheduler --net=host k8s.gcr.io/kube-scheduler:v1.13.6-beta.0.39_ddd2add0dd3dbc kube-scheduler --master=188.x.x.113:8080

至此,k8s的集群已经起来了,验证下:
[root@master ~]# kubectl get ns
NAME STATUS AGE
default Active 12h
kube-public Active 12h
kube-system Active 12h

但是,创建pod的时候会出现如下错误:
[root@master ~]# kubectl create -f ./centos.yaml
Error from server (ServerTimeout): error when creating "./centos.yaml": No API token found for service account "default", retry after the token is automatically created and added to the service account
那是认证的问题,下一步就展示了如何配置认证

3,升级安装:带证书配置

说明:与k8s集群的交流是通过调用api-server组件提供的各种api,比如创建pod,service等,这种访问可能是来自人类例如某人执行kuectl命令,也可能是pod中的某进程想要访问api,都需要认证,api-server可不是随随便便就能被任何人访问的,那么就需要有一套认证机制,详细的见 【爬坑系列】之解读kubernetes的认证原理&实践,否则只需要做如下操作即可:

0)生成需要的证书

使用CFSSL工具或者openssl都可以,网上也有很多教程,详细的也可以看这里,反正这里我就需要一个根证书,以下的是已经生成好的一些证书

[root@master ~]# ll /etc/kubernetes/apiserver/
total 36
-rw-rw-rw- 1 root root 997 May 22 10:46 ca.csr
-rw-rw-rw- 1 root root 1679 May 22 10:46 ca-key.pem
-rw-rw-rw- 1 root root 1350 May 22 10:46 ca.pem ---我所需要的
-rw-rw-rw- 1 root root 1338 May 22 11:59 server.csr
-rw-rw-rw- 1 root root 1679 May 22 11:59 server-key.pem
-rw-rw-rw- 1 root root 1704 May 22 11:59 server.pem

1)重新安装controller manage,只配置service-account-private-key-file这一个认证相关的参数

[root@master ~]# docker run -d --name=cm --net=host
-v /etc/kubernetes/apiserver:/run/ssl
k8s.gcr.io/kube-controller-manager:v1.13.6-beta.0.39_ddd2add0dd3dbc
kube-controller-manager
--master=0.0.0.0:8080
--service-account-private-key-file=/run/ssl/ca-key.pem

2),重启所有节点的kublete (重要)

[root@master ~]# systemctl restart kubelet.service
k8s会做两件事
1)自动给生成一个secret:属于服务账号的,用来给pod提供一个缺省的身份(名字 和 token),让他得以访问apiserver,具体怎么给pod用的,看这里
2)在/var/run/kubernetes/目录下生成一对证书,由配置的CA证书签发的 ---干什么用的?目前没时间研究,在说....

3),此时创建pod,可以成功

[root@master ~]# kubectl create -f centos.yaml
pod/myapp-centos created
[root@master ~]# kubectl get pods
NAME READY STATUS RESTARTS AGE
myapp-centos 1/1 Running 0 6s

【坑2】
配置了证书启动kube-controller-manager后还是报同样的错误,secret也没生成,为什么?

定位过程:

kube-controller-manager的日志显示文件不存在,命名在的啊:
 #docker logs -f cm
  ...
  F0529 10:18:21.535516 1 controllermanager.go:213] error starting controllers: error reading key for service account token controller: open /etc/kubernetes/apiserver/ca-key.pem: no such file or directory

看了源码,根据源码我还本地写了个小程序,发现是可以顺利读取的,那说明文件是没问题,为什么到了容器里就有问题了。突然,我意识到这可是容器啊,代码读取的可是容器内的路径,而我的配置是host上的路径。于是
于是增加了卷挂载,即把host中的证书挂载到容器中,结果:OK

docker run -d --name=cm --net=host
-v /etc/kubernetes/apiserver:/run/ssl
k8s.gcr.io/kube-controller-manager:v1.13.6-beta.0.39_ddd2add0dd3dbc
kube-controller-manager
--master=0.0.0.0:8080
--root-ca-file=/run/ssl/ca.pem
--service-account-private-key-file=/run/ssl/ca-key.pem

Kubernetes 中配置集群 ETCD 碰到的一些问题的解决!

开发小头目 2018-06-08 14:44:37 18022 收藏
分类专栏: kubernetes知识
版权
前提:
  配置2个节点:
   cat /etc/hosts
   192.168.200.80 vmnote0
   192.168.200.81 vmnote1

(我这里出现问题是在我安装kubernetes过程中,有CSRFF 公私密钥的加入 )

我碰到的问题

  1. etcd 服务一直启动失败(主从2台机子上面都是)

分析:1. 启动失败是不是因为 etcd.service 文件异常
   2. 是不是因为 /var -data 的历史文件影响了启动
   3. 会不会端口被占用

开始检查问题

  1. 检查etcd.service 配置文件(使用这种方式整合的比较紧密)

一顿修改之后,问题变了(错误太低级,不好意思展示,下面是我的配置文件)

[root@vmnode0 system]# cat /usr/lib/systemd/system/etcd.service
[Unit]
Description=Etcd Server
After=network.target
After=network-online.target
Wants=network-online.target
Documentation=https://github.com/coreos

[Service]
Type=notify
WorkingDirectory=/var/lib/etcd/
ExecStart=/usr/local/bin/etcd
--name vmnode0
--cert-file=/etc/kubernetes/ssl/kubernetes.pem
--key-file=/etc/kubernetes/ssl/kubernetes-key.pem
--peer-cert-file=/etc/kubernetes/ssl/kubernetes.pem
--peer-key-file=/etc/kubernetes/ssl/kubernetes-key.pem
--trusted-ca-file=/etc/kubernetes/ssl/ca.pem
--peer-trusted-ca-file=/etc/kubernetes/ssl/ca.pem
--initial-advertise-peer-urls https://192.168.200.80:2380
--listen-peer-urls https://192.168.200.80:2380
--listen-client-urls https://192.168.200.80:2379,http://127.0.0.1:2379
--advertise-client-urls https://192.168.200.80:2379
--initial-cluster-token etcd-cluster-1
--initial-cluster vmnode0=https://192.168.200.80:2380,vmnode1=https://192.168.200.81:2380
--initial-cluster-state new
--data-dir=/var/lib/etcd
Restart=on-failure
RestartSec=5
LimitNOFILE=65536

[Install]
WantedBy=multi-user.target
[root@vmnode1 system]# cat /usr/lib/systemd/system/etcd.service
[Unit]
Description=Etcd Server
After=network.target
After=network-online.target
Wants=network-online.target
Documentation=https://github.com/coreos

[Service]
Type=notify
WorkingDirectory=/var/lib/etcd/
ExecStart=/usr/local/bin/etcd
--name vmnode1
--cert-file=/etc/kubernetes/ssl/kubernetes.pem
--key-file=/etc/kubernetes/ssl/kubernetes-key.pem
--peer-cert-file=/etc/kubernetes/ssl/kubernetes.pem
--peer-key-file=/etc/kubernetes/ssl/kubernetes-key.pem
--trusted-ca-file=/etc/kubernetes/ssl/ca.pem
--peer-trusted-ca-file=/etc/kubernetes/ssl/ca.pem
--initial-advertise-peer-urls https://192.168.200.81:2380
--listen-peer-urls https://192.168.200.81:2380
--listen-client-urls https://192.168.200.81:2379,http://127.0.0.1:2379
--advertise-client-urls https://192.168.200.81:2379
--initial-cluster-token etcd-cluster-1
--initial-cluster vmnode0=https://192.168.200.80:2380,vmnode1=https://192.168.200.81:2380
--initial-cluster-state new
--data-dir=/var/lib/etcd
Restart=on-failure
RestartSec=5
LimitNOFILE=65536

[Install]
WantedBy=multi-user.target
2. 还是启动不了,查看日志
journalctl -xe -u etcd   //查看日志细节
netstat -nal       //查看接口

ZERO:
6月 08 03:46:26 vmnode1 etcd[46641]: publish error: etcdserver: request timed out
FIRST:
6月 08 11:09:36 vmnode0 etcd[11820]: rejected connection from "192.168.200.81:48552" (error "remote error: tls: bad certificate", ServerName "")
6月 08 11:09:36 vmnode0 etcd[11820]: rejected connection from "192.168.200.81:48554" (error "remote error: tls: bad certificate", ServerName "")
6月 08 11:09:36 vmnode0 etcd[11820]: request sent was ignored (cluster ID mismatch: peer[39a8adcf41828c16]=bf653702878aa654, local=aff16232db8b0940)
6月 08 11:09:36 vmnode0 etcd[11820]: request sent was ignored (cluster ID mismatch: peer[39a8adcf41828c16]=bf653702878aa654, local=aff16232db8b0940)
SECOND:

6月 08 04:01:46 vmnode1 etcd[46706]: request cluster ID mismatch (got aff16232db8b0940 want bf653702878aa654)
6月 08 04:01:46 vmnode1 etcd[46706]: request cluster ID mismatch (got aff16232db8b0940 want bf653702878aa654)
6月 08 04:01:46 vmnode1 etcd[46706]: request cluster ID mismatch (got aff16232db8b0940 want bf653702878aa654)

先查看防火墙是否开启,firewalld
在查看 data-dir=/var/lib/etcd 的缓存情况,清除一下

我暂时就碰到这几个问题,不要相信自己的眼睛,有些配置可以复制不要手打,错了不好找

posted @ 2020-07-08 16:14  seaskyccl  阅读(387)  评论(0编辑  收藏  举报