【爬坑系列1】之kubernetes环境搭建
【爬坑系列】之kubernetes环境搭建:二进制安装与镜像安装
准备:
网上教如何编译与安装kubernetes的教程很多,需要提前准备的也很多,比如关闭selinux,防火墙啦....但有一点一定要注意,编译kubernetes源码时要求有2G内存,这个可是实打实的2G内存!所以要求你的机器至少是3G,4G最好了。
如果你手头不是那么宽裕比如我只买得起2G内存的计算云,那么只好利用交换分区了...
增加1GB大小的交换分区,则命令写法如下,其中的count等于想要的块的数量(bs*count=文件大小)
dd if=/dev/zero of=/root/swapfile bs=1M count=2048
mkswap /root/swapfile
swapon /root/swapfile
使系统开机时自启用,在文件/etc/fstab中添加一行
vi /etc/fstab
添加/root/swapfile swap swap defaults 0 0
扩大或修改 swap 大小 其实和增加一样的,只是必须先停止交换分区
swapoff /root/swapfile
然后按上面的增加方法即可
一,源码编译
KUBE_BUILD_PLATFORMS=linux/amd64 make all GOFLAGS=-v GOGCFLAGS="-N -l"
注:这个过程如果编译出错,基本是内存不够了,那就一个一个模块的编,比较耗内存的有kubelet, kube-controller-manager...,单独一个木块的编译命令例如
#KUBE_BUILD_PLATFORMS=linux/amd64 make all WHAT=cmd/kubelet GOFLAGS=-v GOGCFLAGS="-N -l"
二,生成镜像:
推荐参考此博客:https://www.kubernetes.org.cn/5033.html
三,node/minion节点的安装(直接yum安装方式)
节点vip: 106.y.y.3
node节点需要安装的组件有:kubelet,kube-proxy,flannel,etcd(可选)
【安装】:现如今,yum源中已经支持安装k8s了,所以一个kubernetes-node选项,就可以将当前节点作为node角色进行必要的安装。
#yum install kubernetes-node etcd flannel -y
说明:其实和其他centos系统下的二进制安装是一样的:
二进制可执行文件放到/usr/bin中
统一的系统配置文件:/usr/lib/systemd/system/kubelet.service.
专属配置文件:例如/etc/kubernetes/*, /etc/etcd/etcd.conf
专属配置文件如/etc/kubernetes/目录下的配置文件为系统配置文件xx.service文件提供参数 ,所以要改参数需要两个文件结合修改,这里需要改的无非两点:集群master节点地址,etcd的地址
【配置etcd】
vi /etc/etcd/etcd.conf
ETCD_LISTEN_CLIENT_URLS="http://0.0.0.0:2379" ---表示开启的本地监听:用来提供服务的接口
ETCD_LISTEN_PEER_URLS="http://0.0.0.0:2380" ---表示开启的本地监听:用来和perr交流的接口
--以下是用来广播出去给peer们,告诉大家怎么能找到我,包括:我与peer通信的接口和我服务的接口
ETCD_INITIAL_ADVERTISE_PEER_URLS="http://188.x.x.113:2380"
ETCD_ADVERTISE_CLIENT_URLS="http://188.x.x.113:2379"
ETCD_INITIAL_CLUSTER="etcd0=http://188.x.x.113:2380,etcd1=http://106.y.y.3:2380"
ETCD_INITIAL_CLUSTER_STATE="new"
vi /usr/lib/systemd/system/etcd.service
--advertise-client-urls="\({ETCD_ADVERTISE_CLIENT_URLS}\" --initial-cluster=\"\){ETCD_INITIAL_CLUSTER}" --initial-advertise-peer-urls="\({ETCD_INITIAL_ADVERTISE_PEER_URLS}\" --initial-cluster-state=\"\){ETCD_INITIAL_CLUSTER_STATE}" --listen-peer-urls="\({ETCD_LISTEN_PEER_URLS}\" --listen-client-urls=\"\){ETCD_LISTEN_CLIENT_URLS}""
最后:
systemctl daemon-reload
systemctl restart etcd.service
systemctl enable etcd.service
验证:
etcdctl member list
etcdctl cluster-health
【坑1】
场景1:报错:rafthttp: request sent was ignored (cluster ID mismatch: peer[b6568aca930d28d4]=cdf818194e3a8c32, local=9c8b920197d88342)
场景2:当某个peer挂了,或者减少etcd集群的成员等,你变更了配置之后,发现重启失败等等之类的错误,都可以尝试如下的解决办法
解决:
cd /var/lib/etcd/
rm ./* -rf //清缓存
【配置flannel】
0,为什么需要etcd
etcd是一个key-value形式的存储系统,所以关于网络方面的数据,要首先为其指定一个key,那么这个key下的数据都属于网络方面的。
1,配置flannel,包括 1)etcd的地址; 2)存储数据到etcd中使用的key
vi /etc/sysconfig/flanneld
FLANNEL_ETCD_ENDPOINTS="http://106.13.146.3:2379,http://188.131.210.113:2379"
FLANNEL_ETCD_PREFIX="/k8s/network" //这个key是 "/k8s/network"
FLANNEL_OPTIONS="--log_dir=/var/log/k8s/flannel/ --public-ip=188.x.x.113" //这个public-ip一定是网络可达的,比如我的环境中,必须配置成host的vip
2,在etcd中为flannel添加初始配置,表示之后为k8s集群分配ip的时候,取如下地址空间
在master上etcd执行
etcdctl mk /k8s/network/config '{"Network": "10.0.0.0/16"}'
若要重新建,先删除
etcdctl rm /k8s/network/ --recursive
3,重启flannel
systemctl daemon-reload
systemctl restart flanneld.service
systemctl enable flanneld.service
4,重启docker
说明:flannel之所以能够掌控pod的流向转发,其实是和docker配合着来做的,flannel的安装会偷偷修改docker的启动参数或环境变量,所以要重启下docker以生效。详见深入解读docker网络与kubernetes网络
四,master节点的安装(镜像 + 二进制)
节点Vip:188.x.x.113
0,之前我们已经编译好了三大镜像,加载之
[root@master _output]# find ./release-stage/ -name "*.tar"
./release-stage/server/linux-amd64/kubernetes/server/bin/kube-controller-manager.tar
./release-stage/server/linux-amd64/kubernetes/server/bin/kube-apiserver.tar
./release-stage/server/linux-amd64/kubernetes/server/bin/kube-scheduler.tar
docker load < kube-scheduler.tar
...
k8s.gcr.io/kube-scheduler v1.13.6-beta.0.39_ddd2add0dd3dbc 0ee023810183 22 minutes ago 79.5MB
k8s.gcr.io/kube-apiserver v1.13.6-beta.0.39_ddd2add0dd3dbc 7666a559eee8 22 minutes ago 181MB
k8s.gcr.io/kube-controller-manager v1.13.6-beta.0.39_ddd2add0dd3dbc ac910ff4cca1 22 minutes ago 146MB
1,安装etcd
步骤同node节点,需要注意的是,要先安装etcd,再安装k8s的组件
2,安装flanel
步骤同node节点
3,三大组件的最基本安装:
//wxy:注意,对于绑定vip的云上机器, insecure-bind-address的地址不能是vip,而应该是自己本地的ip,这里就用了0.0.0.0代替
docker run -d --name=apiserver --net=host k8s.gcr.io/kube-apiserver:v1.13.6-beta.0.39_ddd2add0dd3dbc kube-apiserver --insecure-bind-address=0.0.0.0 --service-cluster-ip-range=11.0.0.0/16 --etcd-servers=http://188.x.x.113:2379
docker run -d --name=controllermanager --net=host k8s.gcr.io/kube-controller-manager:v1.13.6-beta.0.39_ddd2add0dd3dbc kube-controller-manager --master=188.x.x.113:8080
docker run -d --name=scheduler --net=host k8s.gcr.io/kube-scheduler:v1.13.6-beta.0.39_ddd2add0dd3dbc kube-scheduler --master=188.x.x.113:8080
至此,k8s的集群已经起来了,验证下:
[root@master ~]# kubectl get ns
NAME STATUS AGE
default Active 12h
kube-public Active 12h
kube-system Active 12h
但是,创建pod的时候会出现如下错误:
[root@master ~]# kubectl create -f ./centos.yaml
Error from server (ServerTimeout): error when creating "./centos.yaml": No API token found for service account "default", retry after the token is automatically created and added to the service account
那是认证的问题,下一步就展示了如何配置认证
3,升级安装:带证书配置
说明:与k8s集群的交流是通过调用api-server组件提供的各种api,比如创建pod,service等,这种访问可能是来自人类例如某人执行kuectl命令,也可能是pod中的某进程想要访问api,都需要认证,api-server可不是随随便便就能被任何人访问的,那么就需要有一套认证机制,详细的见 【爬坑系列】之解读kubernetes的认证原理&实践,否则只需要做如下操作即可:
0)生成需要的证书
使用CFSSL工具或者openssl都可以,网上也有很多教程,详细的也可以看这里,反正这里我就需要一个根证书,以下的是已经生成好的一些证书
[root@master ~]# ll /etc/kubernetes/apiserver/
total 36
-rw-rw-rw- 1 root root 997 May 22 10:46 ca.csr
-rw-rw-rw- 1 root root 1679 May 22 10:46 ca-key.pem
-rw-rw-rw- 1 root root 1350 May 22 10:46 ca.pem ---我所需要的
-rw-rw-rw- 1 root root 1338 May 22 11:59 server.csr
-rw-rw-rw- 1 root root 1679 May 22 11:59 server-key.pem
-rw-rw-rw- 1 root root 1704 May 22 11:59 server.pem
1)重新安装controller manage,只配置service-account-private-key-file这一个认证相关的参数
[root@master ~]# docker run -d --name=cm --net=host
-v /etc/kubernetes/apiserver:/run/ssl
k8s.gcr.io/kube-controller-manager:v1.13.6-beta.0.39_ddd2add0dd3dbc
kube-controller-manager
--master=0.0.0.0:8080
--service-account-private-key-file=/run/ssl/ca-key.pem
2),重启所有节点的kublete (重要)
[root@master ~]# systemctl restart kubelet.service
k8s会做两件事
1)自动给生成一个secret:属于服务账号的,用来给pod提供一个缺省的身份(名字 和 token),让他得以访问apiserver,具体怎么给pod用的,看这里
2)在/var/run/kubernetes/目录下生成一对证书,由配置的CA证书签发的 ---干什么用的?目前没时间研究,在说....
3),此时创建pod,可以成功
[root@master ~]# kubectl create -f centos.yaml
pod/myapp-centos created
[root@master ~]# kubectl get pods
NAME READY STATUS RESTARTS AGE
myapp-centos 1/1 Running 0 6s
【坑2】
配置了证书启动kube-controller-manager后还是报同样的错误,secret也没生成,为什么?
定位过程:
kube-controller-manager的日志显示文件不存在,命名在的啊:
#docker logs -f cm
...
F0529 10:18:21.535516 1 controllermanager.go:213] error starting controllers: error reading key for service account token controller: open /etc/kubernetes/apiserver/ca-key.pem: no such file or directory
看了源码,根据源码我还本地写了个小程序,发现是可以顺利读取的,那说明文件是没问题,为什么到了容器里就有问题了。突然,我意识到这可是容器啊,代码读取的可是容器内的路径,而我的配置是host上的路径。于是
于是增加了卷挂载,即把host中的证书挂载到容器中,结果:OK
docker run -d --name=cm --net=host
-v /etc/kubernetes/apiserver:/run/ssl
k8s.gcr.io/kube-controller-manager:v1.13.6-beta.0.39_ddd2add0dd3dbc
kube-controller-manager
--master=0.0.0.0:8080
--root-ca-file=/run/ssl/ca.pem
--service-account-private-key-file=/run/ssl/ca-key.pem
Kubernetes 中配置集群 ETCD 碰到的一些问题的解决!
开发小头目 2018-06-08 14:44:37 18022 收藏
分类专栏: kubernetes知识
版权
前提:
配置2个节点:
cat /etc/hosts
192.168.200.80 vmnote0
192.168.200.81 vmnote1
(我这里出现问题是在我安装kubernetes过程中,有CSRFF 公私密钥的加入 )
我碰到的问题
- etcd 服务一直启动失败(主从2台机子上面都是)
分析:1. 启动失败是不是因为 etcd.service 文件异常
2. 是不是因为 /var -data 的历史文件影响了启动
3. 会不会端口被占用
开始检查问题
- 检查etcd.service 配置文件(使用这种方式整合的比较紧密)
一顿修改之后,问题变了(错误太低级,不好意思展示,下面是我的配置文件)
[root@vmnode0 system]# cat /usr/lib/systemd/system/etcd.service
[Unit]
Description=Etcd Server
After=network.target
After=network-online.target
Wants=network-online.target
Documentation=https://github.com/coreos
[Service]
Type=notify
WorkingDirectory=/var/lib/etcd/
ExecStart=/usr/local/bin/etcd
--name vmnode0
--cert-file=/etc/kubernetes/ssl/kubernetes.pem
--key-file=/etc/kubernetes/ssl/kubernetes-key.pem
--peer-cert-file=/etc/kubernetes/ssl/kubernetes.pem
--peer-key-file=/etc/kubernetes/ssl/kubernetes-key.pem
--trusted-ca-file=/etc/kubernetes/ssl/ca.pem
--peer-trusted-ca-file=/etc/kubernetes/ssl/ca.pem
--initial-advertise-peer-urls https://192.168.200.80:2380
--listen-peer-urls https://192.168.200.80:2380
--listen-client-urls https://192.168.200.80:2379,http://127.0.0.1:2379
--advertise-client-urls https://192.168.200.80:2379
--initial-cluster-token etcd-cluster-1
--initial-cluster vmnode0=https://192.168.200.80:2380,vmnode1=https://192.168.200.81:2380
--initial-cluster-state new
--data-dir=/var/lib/etcd
Restart=on-failure
RestartSec=5
LimitNOFILE=65536
[Install]
WantedBy=multi-user.target
[root@vmnode1 system]# cat /usr/lib/systemd/system/etcd.service
[Unit]
Description=Etcd Server
After=network.target
After=network-online.target
Wants=network-online.target
Documentation=https://github.com/coreos
[Service]
Type=notify
WorkingDirectory=/var/lib/etcd/
ExecStart=/usr/local/bin/etcd
--name vmnode1
--cert-file=/etc/kubernetes/ssl/kubernetes.pem
--key-file=/etc/kubernetes/ssl/kubernetes-key.pem
--peer-cert-file=/etc/kubernetes/ssl/kubernetes.pem
--peer-key-file=/etc/kubernetes/ssl/kubernetes-key.pem
--trusted-ca-file=/etc/kubernetes/ssl/ca.pem
--peer-trusted-ca-file=/etc/kubernetes/ssl/ca.pem
--initial-advertise-peer-urls https://192.168.200.81:2380
--listen-peer-urls https://192.168.200.81:2380
--listen-client-urls https://192.168.200.81:2379,http://127.0.0.1:2379
--advertise-client-urls https://192.168.200.81:2379
--initial-cluster-token etcd-cluster-1
--initial-cluster vmnode0=https://192.168.200.80:2380,vmnode1=https://192.168.200.81:2380
--initial-cluster-state new
--data-dir=/var/lib/etcd
Restart=on-failure
RestartSec=5
LimitNOFILE=65536
[Install]
WantedBy=multi-user.target
2. 还是启动不了,查看日志
journalctl -xe -u etcd //查看日志细节
netstat -nal //查看接口
ZERO:
6月 08 03:46:26 vmnode1 etcd[46641]: publish error: etcdserver: request timed out
FIRST:
6月 08 11:09:36 vmnode0 etcd[11820]: rejected connection from "192.168.200.81:48552" (error "remote error: tls: bad certificate", ServerName "")
6月 08 11:09:36 vmnode0 etcd[11820]: rejected connection from "192.168.200.81:48554" (error "remote error: tls: bad certificate", ServerName "")
6月 08 11:09:36 vmnode0 etcd[11820]: request sent was ignored (cluster ID mismatch: peer[39a8adcf41828c16]=bf653702878aa654, local=aff16232db8b0940)
6月 08 11:09:36 vmnode0 etcd[11820]: request sent was ignored (cluster ID mismatch: peer[39a8adcf41828c16]=bf653702878aa654, local=aff16232db8b0940)
SECOND:
6月 08 04:01:46 vmnode1 etcd[46706]: request cluster ID mismatch (got aff16232db8b0940 want bf653702878aa654)
6月 08 04:01:46 vmnode1 etcd[46706]: request cluster ID mismatch (got aff16232db8b0940 want bf653702878aa654)
6月 08 04:01:46 vmnode1 etcd[46706]: request cluster ID mismatch (got aff16232db8b0940 want bf653702878aa654)
先查看防火墙是否开启,firewalld
在查看 data-dir=/var/lib/etcd 的缓存情况,清除一下
我暂时就碰到这几个问题,不要相信自己的眼睛,有些配置可以复制不要手打,错了不好找