上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 37 下一页
摘要: 相关软件 1、kubeadm 安装步骤 1、禁用所有交换分区 /etc/fstab 可以用free命令查看禁用情况 2、关闭防火墙 3、禁用SELinux 安装网络插件flannel 报错 把自定义pki密钥拷到对应目录下。 在/etc/hosts文件中加上主机名映射。 添加node节点 新加的节点 阅读全文
posted @ 2019-09-10 10:49 happyyoung 阅读(3147) 评论(0) 推荐(0) 编辑
摘要: 1、下载ksonnet和kubeflow,并解压归档 2、安装ksonnet 3、 阅读全文
posted @ 2019-09-08 20:19 happyyoung 阅读(1822) 评论(0) 推荐(0) 编辑
摘要: SELinux(Security-Enhanced Linux),是Linux的的安全子系统。 阅读全文
posted @ 2019-09-08 10:53 happyyoung 阅读(137) 评论(0) 推荐(0) 编辑
摘要: Horovod是一个支持TensorFlow、Keras、PyTorch和Apache MXNet的分布式训练框架。Horovod的目标是让分布式深度学习更快更易用。 为啥不用原生的TensorFlow分布式训练? 1、代码改动多少? 2、比原生的分布式训练快多少? Horovod用的MPI比分布式 阅读全文
posted @ 2019-09-06 19:00 happyyoung 阅读(2673) 评论(0) 推荐(0) 编辑
摘要: 参考链接 https://github.com/kubeflow/kubeflow https://www.kubeflow.org/docs/started/getting-started/ 阅读全文
posted @ 2019-09-06 16:58 happyyoung 阅读(287) 评论(0) 推荐(0) 编辑
摘要: 自定义资源(Custom Resource)是k8s API的扩展。资源是k8s API中的一个端点,存储某种类型的API对象的集合。例如,内置的pods资源包含pod对象的集合。(注:API这个词用的不是很易读) 阅读全文
posted @ 2019-09-05 20:18 happyyoung 阅读(659) 评论(0) 推荐(0) 编辑
摘要: Service是一个Pod集合的抽象,提供网络服务。 ClusterIP:默认的服务类型,基于集群内部IP提供服务,服务只能在集群内部访问。 NodePort:基于机器的网卡IP提供服务,可以从集群外部访问服务。从NodePort到ClusterIP的路由会自动创建。 用户空间代理模式(user s 阅读全文
posted @ 2019-09-05 18:46 happyyoung 阅读(177) 评论(0) 推荐(0) 编辑
摘要: 部署(Deployment)控制器为Pod和ReplicaSet提供声明性更新。 阅读全文
posted @ 2019-09-05 11:02 happyyoung 阅读(141) 评论(0) 推荐(0) 编辑
摘要: 副本集合(ReplicaSet)的作用是,在任何时刻,都维护一个Pod对象数目固定的副本集合,这些Pod对象都相同,通常用于保证可用性。 不过,k8s官方推荐使用更高层级的概念Deployment,而不是直接用ReplicaSet。 在旧版本中,叫ReplicationController Repl 阅读全文
posted @ 2019-09-04 20:31 happyyoung 阅读(469) 评论(0) 推荐(0) 编辑
摘要: Python通过ctypes函数库调用C/C++。 节点之间的通信格式是key-value。 一个节点中,只有0号进程才参与网络通信。 scheduler和server都是直接用MXNet代码,没用BytePS。 worker之间没有通信,server之间也没有通信。(注:李沐论文中说的Parame 阅读全文
posted @ 2019-09-04 15:07 happyyoung 阅读(1198) 评论(0) 推荐(0) 编辑
上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 37 下一页