摘要: 单机多卡并行 这里图片是4张980,但是因为GPU靠的太近了,一个月后就烧了一块GPU。这是沐神第一次装多GPU犯的错误。 一般都是进行数据并行。 什么使用使用模型并行呢?就batch_size=1的时候,一个GPU都不能计算的话,那么就会考虑进行模型并行,将模型分割到多个GPU来做,比如trans 阅读全文
posted @ 2021-10-03 15:00 RowryCho 阅读(292) 评论(0) 推荐(0) 编辑
摘要: 更多的芯片 上面是一个高通的手机芯片结构图。 ASIC是Application-Specific Integrated Circuit( 应用型专用集成电路)。 AI ASIC AI的专用芯片。 这里最为代表的就是Google的TPU。 做ASIC芯片门槛会比通用芯片低很多,因为不用再去考虑那么多的 阅读全文
posted @ 2021-10-03 11:44 RowryCho 阅读(143) 评论(0) 推荐(0) 编辑
摘要: CPU和GPU 我们讲讲GPU和CPU是什么,而且为什么深度学习使用GPU会快。 上图最直观的就是CPU的浮点运算能力比显卡差很多,但是显卡的显存不会很大,32G其实也就封顶了,但是CPU的内存可以一直叠加。 物理核只有一个,但是可以有2个超线程。就是市面上很多说的4核8线程。 超线程对于有IO等待 阅读全文
posted @ 2021-10-03 11:05 RowryCho 阅读(760) 评论(0) 推荐(0) 编辑
摘要: ResNet的梯度计算 最最核心的思想就是乘法变加法。 如果是这种情况,加入g()这一层已经学的很好了,那么梯度就会变小,这样就对f()的梯度也会越来越小(相当于小数字的累乘) 但是如果是残差结构的话,直接使用加法,那么即使g()学的很好,其梯度很小,也不会影响f()的梯度。 正常的深度结构只能是从 阅读全文
posted @ 2021-10-03 08:59 RowryCho 阅读(129) 评论(0) 推荐(0) 编辑