移动端和边缘端的深度学习概述

某些应用场景要求低延时，高安全性及考虑长期成本效益，此时将模型托管在云端就不再是最好的解决方案。

边缘计算相比云计算的优势

显然调用云端服务会有一个信息往返的时间花费。
比如自动驾驶，大的延时可能会引发事故，因为一个突然出现的目标可能仅仅在几帧的时间内。
因此英伟达提供定制化的板载计算设备来进行边缘端的推理。

当多个设备连接在同一个网络中时，由于天然的信道竞争导致有效带宽降低。边缘计算则可显著减少此问题。

eg:

云服务器易受黑客攻击，且数据上传云端有安全性问题。
多个边缘设备的部署相比云服务，拥有去中心化的优势，更难被攻击。

如工业场景需要多个不同模型的情况，如果采用云计算则需要托管多个模型，会带来费用的明显增加。

多边缘端的数据可以在线学习并行训练

边缘部署保证了功能的健壮性。一个节点（边缘设备）故障不影响其他设备

边缘端更小，尤其可批量定制的边缘设备。

内存及算力不足

DL网络的显著特点：大模型，高算力需求

推理方面

训练后的模型中有大部分没用的神经元（接近0），通过对这类节点的剪枝可以节省内存。谷歌的Learn2Compress发现可以在保持97%准确率的前提下，将模型压缩一倍。
大部分框架采用32位精度训练，边缘端进行精度截取比如采用8位就可以压缩4倍空间。
通常，精度截断如果是完全随机的，误差很有可能互相抵消。但是，零广泛用于填充、辍学和 ReLU。在低精度浮点格式中无法精确表示零，因此可能会在性能中引入整体偏差。

本质上就是用训练出的大模型（真值）去训练出小模型（预测模型）
Learn2Compress也用到了这个手段做模型压缩，结合迁移学习，可以在不损失太多精度的情况下压缩模型

Vision Processing Units (VPUs)：例如google的kits及intel的Neural Compute Stick，号称低功耗高性能
FPGA: 比GPU功耗低，可接受<32位的精度，但是性能比GPU差
ASIC：对于大规模部署来说，最好的解决方案---特定场景定制的专用芯片（CPU是通用计算芯片）一般是AI芯片，如阿里的含光800，地平线征程系列。设计类似Nvidia V100微处理器架构来加速矩阵乘法。----高研发时间成本