09 2019 档案

摘要:论文:https://i.cs.hku.hk/~cwu/papers/yhpeng-sosp19.pdf 译文:一个用于分布式DNN训练加速的通用通信调度器 摘要 我们提出ByteScheduler,一个用于分布式DNN训练加速的通用通信调度器。ByteScheduler基于我们最基本的分析:通过张 阅读全文
posted @ 2019-09-29 10:33 happyyoung 阅读(923) 评论(0) 推荐(0) 编辑
摘要:相关软件 1、kubeadm 安装步骤 1、禁用所有交换分区 /etc/fstab 可以用free命令查看禁用情况 2、关闭防火墙 3、禁用SELinux 安装网络插件flannel 报错 把自定义pki密钥拷到对应目录下。 在/etc/hosts文件中加上主机名映射。 添加node节点 新加的节点 阅读全文
posted @ 2019-09-10 10:49 happyyoung 阅读(3152) 评论(0) 推荐(0) 编辑
摘要:1、下载ksonnet和kubeflow,并解压归档 2、安装ksonnet 3、 阅读全文
posted @ 2019-09-08 20:19 happyyoung 阅读(1824) 评论(0) 推荐(0) 编辑
摘要:SELinux(Security-Enhanced Linux),是Linux的的安全子系统。 阅读全文
posted @ 2019-09-08 10:53 happyyoung 阅读(137) 评论(0) 推荐(0) 编辑
摘要:Horovod是一个支持TensorFlow、Keras、PyTorch和Apache MXNet的分布式训练框架。Horovod的目标是让分布式深度学习更快更易用。 为啥不用原生的TensorFlow分布式训练? 1、代码改动多少? 2、比原生的分布式训练快多少? Horovod用的MPI比分布式 阅读全文
posted @ 2019-09-06 19:00 happyyoung 阅读(2680) 评论(0) 推荐(0) 编辑
摘要:参考链接 https://github.com/kubeflow/kubeflow https://www.kubeflow.org/docs/started/getting-started/ 阅读全文
posted @ 2019-09-06 16:58 happyyoung 阅读(289) 评论(0) 推荐(0) 编辑
摘要:自定义资源(Custom Resource)是k8s API的扩展。资源是k8s API中的一个端点,存储某种类型的API对象的集合。例如,内置的pods资源包含pod对象的集合。(注:API这个词用的不是很易读) 阅读全文
posted @ 2019-09-05 20:18 happyyoung 阅读(659) 评论(0) 推荐(0) 编辑
摘要:Service是一个Pod集合的抽象,提供网络服务。 ClusterIP:默认的服务类型,基于集群内部IP提供服务,服务只能在集群内部访问。 NodePort:基于机器的网卡IP提供服务,可以从集群外部访问服务。从NodePort到ClusterIP的路由会自动创建。 用户空间代理模式(user s 阅读全文
posted @ 2019-09-05 18:46 happyyoung 阅读(177) 评论(0) 推荐(0) 编辑
摘要:部署(Deployment)控制器为Pod和ReplicaSet提供声明性更新。 阅读全文
posted @ 2019-09-05 11:02 happyyoung 阅读(141) 评论(0) 推荐(0) 编辑
摘要:副本集合(ReplicaSet)的作用是,在任何时刻,都维护一个Pod对象数目固定的副本集合,这些Pod对象都相同,通常用于保证可用性。 不过,k8s官方推荐使用更高层级的概念Deployment,而不是直接用ReplicaSet。 在旧版本中,叫ReplicationController Repl 阅读全文
posted @ 2019-09-04 20:31 happyyoung 阅读(470) 评论(0) 推荐(0) 编辑
摘要:Python通过ctypes函数库调用C/C++。 节点之间的通信格式是key-value。 一个节点中,只有0号进程才参与网络通信。 scheduler和server都是直接用MXNet代码,没用BytePS。 worker之间没有通信,server之间也没有通信。(注:李沐论文中说的Parame 阅读全文
posted @ 2019-09-04 15:07 happyyoung 阅读(1213) 评论(0) 推荐(0) 编辑
摘要:1、k8s是什么 1)k8s(全称Kubernetes),是一个可移植、可扩展、自动化的开源平台。 2、k8s的作用 1)部署技术演化:物理机 -> 虚拟机 -> 容器。 2)物理机: 3)k8s用于管理容器化工作负载和服务。 阅读全文
posted @ 2019-09-03 16:57 happyyoung 阅读(152) 评论(0) 推荐(0) 编辑
摘要:kubernetes,简称k8s,是一个开源系统,用于管理跨多台机器的容器化应用,并且提供基础机制,用于部署、维护和扩展应用。 基本对象 Pod service volume namespace k8s的golang客户端:https://github.com/kubernetes/client-g 阅读全文
posted @ 2019-09-03 16:44 happyyoung 阅读(151) 评论(0) 推荐(0) 编辑
摘要:CUDA 参考链接 https://devblogs.nvidia.com/how-optimize-data-transfers-cuda-cc/ https://docs.nvidia.com/cuda/pdf/CUDA_C_Best_Practices_Guide.pdf 阅读全文
posted @ 2019-09-02 14:47 happyyoung 阅读(494) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示