摘要:
原文:https://kubernetes.io/docs/tasks/administer-cluster/out-of-resource/ 一 问题现象服务器的磁盘空间爆满(90%以上),触发某种机制,导致大量pod处于被驱逐状态(Evicted),大部分镜像被删除,所有服务均不可用。 二 问题 阅读全文
摘要:
Helm小技巧之数字操作 数字迭代方法,通过replicas迭代时,可以通过until来支持迭代数字 #定义replicaCount {{- $replicaCount := int .Values.replicaCount}} {{- range $i, $e := until $replicaC 阅读全文
摘要:
k8s 调度 GPU 最近公司有项目想在 k8s 集群中运行 GPU 任务,于是研究了一下。下面是部署的步骤。 1. 首先得有一个可以运行的 k8s 集群. 集群部署参考 kubeadm安装k8s 2. 准备 GPU 节点 2.1 安装驱动 1 2 3 4 5 curl -fsSL https:// 阅读全文
摘要:
在docker容器中使用显卡 一 docker19.03以前的事情 1.1 指定显卡硬件名 最初的容器中使用显卡,需要指定硬件名。经历了两种方式1. 使用lxc驱动程序运行docker守护进程,以便能够修改配置并让容器访问显卡设备(非常麻烦,参考链接中最久远的回答)2. Docker 0.9中放弃了 阅读全文
摘要:
bypass bypass,就是可以通过特定的触发状态(断电或死机)让两个网络不通过网络安全设备的系统,而直接物理上导通,所以有了Bypass后,当网络安全设备故障以后,还可以让连接在这台设备上的网络相互导通,当然这个时候这台网络设备也就不会再对网络中的封包做处理了。 ByPass Mode(略过模 阅读全文
摘要:
场景:使用structured streaming消费kafka中数据写入hdfs中说明:集群有两个namenode,分别为node1,node2。起初node1状态为active,在程序中涉及hdfs路径的地方,写的是hdfs://node1:8020/your path。后来集群中node1为s 阅读全文
摘要:
HDFS Namenode 高可用在 Hadoop 2.0.0 之前,一个集群只有一个Namenode,这将面临单点故障问题。如果 Namenode 机器挂掉了,整个集群就用不了了。只有重启 Namenode ,才能恢复集群。另外正常计划维护集群的时候,还必须先停用整个集群,这样没办法达到 7 * 阅读全文
摘要:
服务注册到节点后,其他节点为什么没有同步? Client是干什么的?(Client有什么作用?) 能不能直接注册到Server?(是否只有Server节点就够了?) 服务信息是保存在哪里的? 如果节点挂了健康检查能不能转移到别的节点? 关于服务注册和发现还没有概念,consul与zookeeper, 阅读全文
摘要:
# 配置透明代理,支持http与https node1 eth0 内网10.37.129.5 node2 eth1 内网10.37.129.3 eth0 外网10.211.55.19 # 1、在node1 route add default gw 10.37.129.3 dev eth0 # 2、在 阅读全文
摘要:
一、Linux包过滤防火墙1、Linux防火墙概述信息包过滤系统,它实际上由两个组件netfilter和iptables组成主要工作在网络层,针对IP数据包。体现在对包内的IP地址、端口等信息的处理上 2、netfilter属于“内核态”(Kernel Space, 又称为内核空间)的防火墙功能体系 阅读全文