蓝鲸6.0前置准备

准备工作:

在配置install.config 之前,我们可以做以下操作可以降低机器内存的使用:

修改es的jvm的堆内存值

在中控机上修改脚本:/data/install/bin/install_es.sh
JVM_MEM=$(awk '/MemAvailable/{print int($2/1024/1024/2)}' /proc/meminfo) 给定一个较小值
如:JVM_MEM=2 建议

修改saas模板的线程数
在中控机上修改模板文件:/data/src/paas_agent/paas_agent/etc/templates/docker/uwsgi.ini
将"workers = 16" 改成"workers = 8"

永久修改saas超时时间
在中控机上修改模板文件:
/data/src/open_paas/support-files/templates/paas#conf#settings_production.py.tp
任意位置添加: EVENT_STATE_EXPIRE_SECONDS = 3600
/data/src/paas_agent/support-files/templates/#etc#paas_agent_config.yaml.tpl
EXECUTE_TIME_LIMIT: 300 改为 EXECUTE_TIME_LIMIT: 30000(考虑到咱们机器慢,可以加大这个时间)

配置install.config

安装基础平台
install.config文件直接拷贝官网文档上”1.5 生成并配置 install.config”模板

10.0.0.1 iam,ssm,usermgr,gse,license,redis,consul,mysql
10.0.0.2 nginx,consul,mongodb,rabbitmq,appo
10.0.0.3 paas,cmdb,job,zk(config),appt,consul,nodeman(nodeman)

安装监控平台

deply_iplist地方的填写的ip如下:

deply_iplist:10.0.0.3,10.0.0.2,10.0.0.1
注:请按照上面ip的填写顺序填写。

配置文件如下:

10.0.0.1 iam,ssm,usermgr,gse,license,redis,consul,mysql
10.0.0.2 nginx,consul,mongodb,rabbitmq,appo
10.0.0.3 paas,cmdb,job,zk(config),appt,consul,nodeman(nodeman)
[bkmonitorv3]
10.0.0.3 kafka(config),monitorv3(transfer)
10.0.0.2 influxdb(bkmonitorv3),monitorv3(influxdb-proxy),monitorv3(grafana)
10.0.0.1 es7,monitorv3(monitor)

安装日志平台

deply_iplist填写的ip如下:

deply_iplist: 10.0.0.2

安装故障自愈

deply_iplist填写的ip如下:
deply_iplist: 10.0.0.2

最终生成install.config如下:
10.0.0.1 iam,ssm,usermgr,gse,license,redis,consul,mysql
10.0.0.2 nginx,consul,mongodb,rabbitmq,appo
10.0.0.3 paas,cmdb,job,zk(config),appt,consul,nodeman(nodeman)
[bkmonitorv3]
10.0.0.3 kafka(config),monitorv3(transfer)
10.0.0.2 influxdb(bkmonitorv3),monitorv3(influxdb-proxy),monitorv3(grafana)
10.0.0.1 es7,monitorv3(monitor)
[bklog]
10.0.0.2 log(api),log(grafana)
[fta]
10.0.0.2 fta,beanstalk

####################################################
故障解决方法
1.【社区版 6.0】 监控平台数据未上报排查思路
https://bk.tencent.com/s-mart/community/question/1672
2.glibc和glibc-common版本冲突解决
https://blog.csdn.net/qq_38695182/article/details/85295105
3.nginx配置访问密码,输入用户名和密码才能访问
https://feiutech.blog.csdn.net/article/details/82817874?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.control
4.配置消息通知:邮件
https://bk.tencent.com/docs/document/6.0/148/8700
5.标准运维远程加载 https://gitee.com/rustylee/doc/blob/master/标准运维/标准插件远程加载.md
(仓库链接 https://gitee.com/rustylee/plugins_example.git
文件托管仓库链接 https://gitee.com/rustylee/plugins_example/-/raw/
分支名 master
根模块 版本 导入模块
custom_plugins 1.0.0
custom_plugins.components.collections.test1)

邮箱配置 https://gitee.com/rustylee/doc/blob/master/PaaS平台/配置邮箱通知.md
###########################################################################
1 系统limits配置不当,无法正常安装SaaS应用
安装官方文档正常配置limits即可
cat >> /etc/security/limits.conf << EOF
root soft nofile 102400
root hard nofile 102400
EOF
2 DNS配置文件首行非nameserver 127.0.0.1,导致无法正常解析
6.0不会自动在系统/etc/resolv.conf中添加consul服务器地址,需要手动添加
sed -i '1inameserver 127.0.0.1' /etc/resolv.conf
3 安装paas多处报错
检查3台主机名是否相同,若相同需要修改
4 CLUSTER_IP_LIST(-j) 不能为空,部署paas失败,提示Exited woth error code 1
检查每台机器 cat /etc/blueking/env/local.env 配置是否有对应的ip
检查 cat /data/install/bin/01-generate/dbadmin.env该文件中是否有 BK_CONSUL_KEYSTR_32BYTES 值
若是没有dbadmin.env这个文件需要重新生成,请参考以下步骤
chattr -i ~/.tag/
rm -rf ~/.tag/
rm -rf /data/install/bin/01-generate/
rm -rf /data/install/bin/02-dynamic/
rm -rf /data/install/bin/04-final/*
echo "" > /data/install/.bk_install.step
./bk_install common
机器上执行命令看是否能获取到正确的ip

ip route get "10.0.0.1" | awk '{print $NF}'
若是无法获取到,请自行修改 /data/install/bin/update_bk_env.sh 脚本第61行,只要能获取到ip即可
若是以上均正常,请查看
pcmd -m all "echo $BK_CONSUL_KEYSTR_32BYTES"
若是为空,说明 ./bk_install common 没生成dbadmin相关配置。需要重新生成
5 安装paas的时候报错,Stderr: Command “python setup.py egg_info” failed with error code 1 in /tmp/pip-build-1vs9US/virtualenvwrapper/ Python工程安装virtualenvwrapper=4.8.4 报错
source /data/install/utils.fc
ssh $BK_PAAS_IP
/opt/py27_e/bin/pip install --no-index --find-links=/data/install/pip stevedore1.32.0
/opt/py27_e/bin/pip install --no-index --find-links=/data/install/pip virtualenvwrapper
4.8.4"
6.部署job报错
all_iam_api fail,method: http_post path: /api/v1/model/systems/bk_job/actions error: bad request: action id [accessbusiness] related resource type [biz] not exists
execute operation [ upsert action] bad request : action id [ access business ] related resource type [ biz ] not exists fail,error message : id = access busmigrate [ / data / src / job / support-files / bkiam / 0001 bk job 20200808-1000 iam ison ] failIta / src / job / Support-files / bkiam / 0001 bk job _ 20200808-1000_iam.json import err, Abort.
解决思路
(1)、检查iam服务是否正常
systemctl status bk-iam.service
若是iam服务一次请查看日志处理,启动iam服务
若是iam正常,请检查是否可以正确获取业务id

/data/install/health_check/check_cmdb_blueking_id

若是获取失败请初始化下cmdb

./bkcli stop cmdb
./bkcli start cmdb
pcmd -m cmdb "/data/install/bin/bks.sh cmdb" //服务均running则可以初始化cmdb
./bkcli initdata cmdb //若是initdata 失败请查看cmdb日志
7.部署fta报错 登录到fta机器执行

/opt/py27/bin/pip install --no-index --find-links=/data/install/pip stevedore1.32.0
/opt/py27/bin/pip install --no-index --find-links=/data/install/pip virtualenvwrapper
4.8.4
8.安装pass平台报错CLUSTER_IP_LIST(-j)不能为空
检查每台机器 cat /etc/blueking/env/local.env 配置是否有对应的ip
检查 cat /data/install/bin/01-generate/dbadmin.env该文件中是否有 BK_CONSUL_KEYSTR_32BYTES 值
若是没有dbadmin.env这个文件需要重新生成,请参考以下步骤
chattr -i ~/.tag/
rm -rf ~/.tag/
rm -rf /data/install/bin/01-generate/
rm -rf /data/install/bin/02-dynamic/
rm -rf /data/install/bin/04-final/*
echo "" > /data/install/.bk_install.step
./bk_install common

8.部署job报错找不到bkid
检查iam服务是否正常
systemctl status bk-iam.service
若是iam服务一次请查看日志处理,启动iam服务
若是iam正常,请检查是否可以正确获取业务id
/data/install/health_check/check_cmdb_blueking_id
./bkcli stop cmdb
./bkcli start cmdb
pcmd -m cmdb "/data/install/bin/bks.sh cmdb" //服务均running则可以初始化cmdb
./bkcli initdata cmdb //若是initdata 失败./bkcli restart bkiam
9.部署 bknodeman(节点管理)超时
(1)、更改paas所在的主机
/data/bkce/open_paas/paas/conf/settings_production.py
EVENT_STATE_EXPIRE_SECONDS = 3600
HISTORY_EVENT_STATE_EXPIRE_SECONDS = 9000
(2)、更改appo所在的主机
/data/bkce/paas_agent/paas_agent/etc/paas_agent_config.yaml
EXECUTE_TIME_LIMIT: 3000
./bkcli restart appo
./bkcli restart paas

10.请求系统'metadata_v3'错误,返回错误码: 400,返回消息: 400: {"results":[{"error":"get cluster failed"}]},请求URL: /get_ts_data/
cd /data/install/
./bkcli start bkmonitorv3 influxdb-proxy
或者

systemctl start bk-influxdb-proxy.service
11.安装job报错
/etc/host手动添加地址

12.安装组件时出现“SaaS App应用当前状态:正在上线,不能进行部署操作!”
域名+/admin/app/app/ 选择相应saas进去修改应用开发状态为(测试中),可在终端重新部署。
13.蓝鲸监控主机无上报数据
(1). 手动启动basereport、processbeat进程
/usr/local/gse/plugins/bin/start.sh basereport -c /usr/local/gse/plugins/etc/basereport.conf
/usr/local/gse/plugins/bin/start.sh processbeat -c /usr/local/gse/plugins/etc/processbeat.conf
(2). 检查monitor状态是否有异常
./bkcli check monitorv3
./bkcli status monitor3
(3). 重启
./bkcli restart monitor3

14../bk_install common 报错
检查yum源及epel源,更换为腾讯
wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.cloud.tencent.com/repo/centos7_base.repo
wget -O /etc/yum.repos.d/epel.repo http://mirrors.cloud.tencent.com/repo/epel-7.repo
15.安装到bk_install paas时consul 报错
(1)、检查selinux 防火墙等是否关闭,或者策略是否开放
(2)、检查consul 服务是否启动
./bkcli status consul
(3)、consul 未组成集群
install.config 中的ip必须有唯一对应的主机名
时间需要同步
consul members 查看集群状态
(4)、可以查看consul日志

/var/log/consul/consul.log
15.安装itsm报错
/data/bkce/logs/paasagent/agent.log appo机器看下部署日志
查看各个状态是否正常,如果出现异常可重启后,都正常后再次安装
./bkcli status bkiam
./bkcli check bkiam
./bkcli status cmdb
./bkcli check cmdb
16.JOB安装agent报错:get agent status error, [3800003] {'message': 'Fail to connect GSE service. Please check if GSE service is normal
(1)、./bkcli restart gse
再尝试部署agent
(2)、agent机器查看是否能连接上gse的48533端口

netstat -ptn | grep 48533
17.社区版 6.0 基础包快速部署,执行./bk_install common 提示pssh不存在
(1). 更新yum源
wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.cloud.tencent.com/repo/centos7_base.repo
wget -O /etc/yum.repos.d/epel.repo http://mirrors.cloud.tencent.com/repo/epel-7.repo
yum clean all
yum makecache
(2). 更新后执行
cd /data/install/
./bk_install common
18.JOB安装:do migrate [/data/src/job/support-files/bkiam/0001_bk_job_20200808-1000_iam.json] fail
/data/src/job/support-files/bkiam/0001_bk_job_20200808-1000_iam.json import err, Abort.
解决方法:./bkcli restart bkiam
./bkcli initdata cmdb
19.监控平台check错误信息:请求系统'metadata_v3'错误,返回错误码: 500,返回消息: b'{"results":[{"error":"no backend available now"}]}',请求URL: /get_ts_data/
解决方法:cd /data/install/
./bkcli start bkmonitorv3 influxdb-proxy
或者
systemctl start bk-influxdb-proxy.service
登录influxdb主机
source /data/install/utils.fc
ssh $BK_ZK_IP
systemctl restart influxdb
20.部署 蓝鲸SaaS(bk_fta_solutions) 1 分钟后报超时错误 ,日志显示APIError: rewrite request failed, oops, there is no topo can be used
按顺序执行以下
./bkcli stop cmdb && ./bkcli start cmdb && ./bkcli initdata cmdb && ./bkcli restart cmdb
21.安装saas时报错, "Can't connect to MySQL server on 'mysql-default.service.consul'
cd /data/install && ./bkcli check consul
有问题重启即可

##################################################################
配置邮件通知参数
(开发者中心-蓝鲸消息通知-发送邮件)
smtp_host :smtp.qq.combr/>smtp_port:465
smtp_user:275374785@qq.com
smtp_pwd :kfumorvzmryqbjiabr/>smtp_usessl:True
smtp_usetls:False
mail_sender:275374785@qq.com
#################################br/>admin常用邮箱:wujiatong@esharex.com
登录密码:Nuonuo1314
##################################
Postman测试:
(示例:http://paas.bktencent.com:80/api/c/compapi/cmsi/send_mail/?bk_app_code=bk_sops&sender=275374785@qq.com&title=<吴佳桐>; 考试邮件测试&content=<吴佳桐> 考试邮件测试&bk_app_secret=2cba76bc-b10f-437f-b40f-0bcfdb2cb69e&bk_token=WI8TO_mdtWeEgo_skrb0_d2EXhduCTCtgUXTM7pRT8E&receiver=wujiatong@esharex.com)
GET http://paas.bktencent.com:80/api/c/compapi/cmsi/send_mail/br/>bk_app_code:bk_sops
sender:275374785@qq.com
title:<吴佳桐> 考试邮件测试
content:<吴佳桐> 考试邮件测试
bk_app_secret:开发者中心-S-mart应用-应用TOKEN
bk_token:web页面-f12-f5-network-console-Cookies-bk_token
receiver:wujiatong@esharex.com

posted @ 2021-05-23 18:39  金元  阅读(1297)  评论(0编辑  收藏  举报