07 2021 档案
摘要:Calico 维护的网络在默认是(Node-to-Node Mesh)全互联模式,Calico集群中的节点之间都会相互建立连接,用于路由交换。但是随着集群规模的扩大,mesh模式将形成一个巨大服务网格,连接数成倍增加。 这时就需要使用 Route Reflector(路由器反射)模式解决这个问题。
阅读全文
摘要:一、service mesh概述 Service Mesh 的中文译为 “服务网格” ,是一个用于处理服务和服务之间通信的基础设施层,它负责为构建复杂的云原生应用传递可靠的网络请求,并为服务通信实现了微服务所需的基本组件功能,例如服务发现、负载均衡、监控、流量管理、访问控制等。在实践中,服务网格通常
阅读全文
摘要:一、启用harbor的Chart仓库服务 # ./install.sh --with-chartmuseum 启用后,默认创建的项目就带有helm charts功能了。 二、安装push插件 插件地址: https://github.com/chartmuseum/helm-push 安装命令: h
阅读全文
摘要:现在helm基本已经是k8s应用发布的标配了,下面整理了一些小知识 一、v2和v3有什么区别? 1、移除tiller v2版本: helm通过tiller组件与apiserver去交互的,tiller是需要部署在k8s中的 v3版本: helm直接通过kubeconfig去和apiserver通信了
阅读全文
摘要:k8s-mon是滴滴夜莺监控k8s的组件,原理上和prometheus类似把,都是基于ksm和k8s内置的指标接口来抓取数据的,根据我实际部署情况和github官方文档进行了整理 指标类型 采集源 应用举例 部署方式 容器基础指标 kubelet内置cadvisor 查看容器cpu,mem等 dea
阅读全文
摘要:# 全局配置 global: # 默认抓取周期,可用单位ms、smhdwy #设置每15s采集数据一次,默认1分钟 [ scrape_interval: <duration> | default = 1m ] # 默认抓取超时 [ scrape_timeout: <duration> | defau
阅读全文
摘要:consul命令汇总 命令 kv - Key/Value存储 agent - Agent控制 catalog - 管理nodes和services health - 管理健康监测 session - Session操作 acl - ACL创建和管理 event - 用户Events status -
阅读全文
摘要:角色 系统 ip master centos7 10.221.253.139 slave centos7 10.221.253.140 vip 无 10.221.253.141 一.服务器环境准备 1、在 Master 和 Slave 上创建共享目录: mkdir /data0/volumes_te
阅读全文
摘要:调整hash表大小 echo "options ip_vs conn_tab_bits=20" > /etc/modprobe.conf 关闭gro和lro ethtool -K em1 gro off ethtool -K em1 lro off 开机后生效 cat /sbin/ifup-loca
阅读全文
摘要:一、下载解压 wget https://artifacts.elastic.co/downloads/kibana/kibana-6.2.4-darwin-x86_64.tar.gz tar -zxvf kibana-6.2.4-darwin-x86_64.tar.gz mv kibana-6.2.
阅读全文
摘要:Logstash 提供三大功能 INPUT 进入 FILTER 过滤功能 OUTPUT 出去 一 、下载解压 wget https://artifacts.elastic.co/downloads/logstash/logstash-6.2.4.tar.gz tar -zxvf logstash-6
阅读全文
摘要:五、部署graylog集群 1、安装启动 导入 rpm 包 rpm -Uvh https://packages.graylog2.org/repo/packages/graylog-4.0-repository_latest.rpm 安装 yum install graylog-server -y
阅读全文
摘要:四、部署filebeat 我这里用的是filebeat-7.3.2 1、下载rpm包 wget https://mirrors.huaweicloud.com/filebeat/7.3.2/filebeat-7.3.2-x86_64.rpm yum -y install filebeat-7.3.2
阅读全文
摘要:三、部署kafka+zookeeper集群 kafka需要jdk环境,参考第二章的elasticsearch集群的jdk安装,也可以自行安装,我这边都在相同的3台机器,所以就不用在安装jdk了 1、下载安装包并解压 kafka用的是2.3.0,zookeeper用的是3.6.0 wget https
阅读全文
摘要:二、elasticsearch集群部署(单机版也可以) 本次部署的elasticsearch版本是7.11.2 1、配置环境 系统优化,内核优化 # vim /etc/sysctl.conf fs.file-max=655360 vm.max_map_count=655360 vm.swappine
阅读全文
摘要:此次搭建graylog日志平台,使用到的组件有mongo、elasticsearch、kafka、zookeeper、graylog、filebeat,下面总结一下搭建过程: 一、部署mongo集群(单机版也可以) 1、时间同步 安装ntpdate,添加定时任务同步时间 最好所有机器都配置时间同步
阅读全文
摘要:分片分布是把索引分片分布到节点的过程。这个操作会在初次启动集群,副本分配,负载均衡,或增加删除节点时进行。 下面是一些与分片分布相关的设置: cluster.routing.allocation.allow_rebalance 设置根据集群中机器的状态来重新分配分片,可以设置为always, ind
阅读全文
摘要:1.server.properties配置 在创建topic时候设置参数,会覆盖server.properties的相同属性的配置 log.retention.bytes=xxx topic每个分区的最大文件大小,一个topic的大小限制 = 分区数*log.retention.bytes。-1没有
阅读全文
摘要:一、prometheus安装 1、下载二进制包 cd /opt wget https://github.com/prometheus/prometheus/releases/download/v2.5.0/prometheus-2.5.0.linux-amd64.tar.gz tar zxf pro
阅读全文
摘要:#!/usr/bin/python3.6 # -*- encoding: UTF-8 -*- import json import requests import time now_time=time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.
阅读全文
摘要:脚本通过rabbitmq的15672端口的api获取的监控信息上报至open-falcon,某些队列触发了报警信息,然后直接被管理员在rabbitmq删除了队列,导致open-falcon的报警无法自动恢复,写个脚本可以自动判断下没有上报数据的队列,然后补一个值让告警自动恢复 # -*- codin
阅读全文
摘要:案例描述 说明 模版机新克隆机器,或者现有生产服务器重启,agent报警无法恢复 案例分析 事故过程 说明 模版机新克隆机器,或者现有生产服务器重启,endpoint报警无法恢复 问题影响 说明 无法监控目标主机,服务端transfer的debug日志会有相同endpoint相同时间刷冲突日志 技术
阅读全文
摘要:案例描述 说明 一个机器的alive如果不加入hostgroup,就是正常的,都是1,一旦加入hostgroup后就变成-1了, 其他的监控项都正常 案例分析 事故过程 说明 添加一台机器到hostgroup,结果触发告警,取值为-1 问题影响 说明 异常数值的机器无法正常监控agent存活 技术分
阅读全文
摘要:案例描述 说明 openfalcon的alarm运行一段时间不告警 案例分析 事故过程 说明 alarm组件运行一段时间不告警,日志显示都是ok状态 问题影响 说明 影响正常的故障报警,导致告警系统失效 技术分析 说明 经过排查,judge可以正常写入到redis中,key为event_cases,
阅读全文
摘要:案例描述 问题描述 open-falcon添加host后,个别主机名报警不生效 案例分析 技术分析 根据排查日志,发现nodata组件里面主机名后面带了多个空格,前端添加host发现,默认自动添加了空格,经过排查数据库主机表,发现主机表里默认已经存在主机名,且后面有空格,但是open-falcon主
阅读全文
摘要:一、网络分区的判定 网络分区的发生多与网络问题有关,RabbitMQ中net_ticktime这个参数用来判定网络分区,默认为60s。在集群中的每个节点会每隔 net_ticktime的1/4 (也就是默认15秒)来计一次tick,如果有任何数据被写入此节点中,那么此节点被ticked,一个节点连续
阅读全文
浙公网安备 33010602011771号