05 2021 档案

摘要:智能驾驶操作系统OS 自动驾驶操作系统是一个流程化、复杂的综合系统,设计到众多流程和领域。首先,分为不同的层,包括:感知层、认知层、决策规划层、控制层和执行层几个层面。 自动驾驶操作系统是一个流程化、复杂的综合系统,设计到众多流程和领域。首先,分为不同的层,包括:感知层、认知层、决策规划层、控制层和 阅读全文
posted @ 2021-05-31 06:21 吴建明wujianming 阅读(1309) 评论(0) 推荐(0) 编辑
摘要:自动驾驶QNX,Linux,Autosar概述 QNX是一个分布式、嵌入式、可规模扩展的实时操作系统。遵循POSIX.1 (程序接口)和POSIX.2 (Shell和工具)、部分遵循POSIX.1b(实时扩展)。 LynxOS是一个分布式、嵌入式、可规模扩展的实时操作系统,遵循POSIX.1a、PO 阅读全文
posted @ 2021-05-31 06:05 吴建明wujianming 阅读(5611) 评论(0) 推荐(0) 编辑
摘要:自动驾驶算力效率 特斯拉 Hardware 3.0 的效率之谜 特斯拉在其推出的 Hardware 3.0 自动驾驶平台中,采用自研芯片替代了Nvidia Drive PX2,其理论算力直线提升了 12 倍,而以 MAPS 方式来评估,其真实 AI 性能更是惊人的提升了 21 倍。具体而言,Hard 阅读全文
posted @ 2021-05-30 12:57 吴建明wujianming 阅读(584) 评论(0) 推荐(0) 编辑
摘要:昇腾AI 软硬件全栈平台 阅读全文
posted @ 2021-05-30 11:12 吴建明wujianming 阅读(137) 评论(0) 推荐(0) 编辑
摘要:TVM性能评估分析(七) Figure 1. Performance Improvement Figure 2. Depthwise convolution Figure 3. Data Fusion Figure 4. Data Fusion(2) Figure 5. Shared memory 阅读全文
posted @ 2021-05-30 08:52 吴建明wujianming 阅读(152) 评论(0) 推荐(0) 编辑
摘要:TVM性能评估分析(六) Figure 1. The workflow of development PC, compile, deploy to the device, test, then modify the codes again to see whether it accelerates. 阅读全文
posted @ 2021-05-30 07:55 吴建明wujianming 阅读(97) 评论(0) 推荐(0) 编辑
摘要:TVM性能评估分析(五) Figure 3. A futher speed up with operator fusion Table 1. Performance issue of cuBLAS’ batch matmul Table 2. Finding the best combination 阅读全文
posted @ 2021-05-30 07:29 吴建明wujianming 阅读(164) 评论(0) 推荐(0) 编辑
摘要:TVM性能评估分析(四) Figure 1. Efficient Privacy-Preserving ML Using TVM Figure 2. Motivation: Privacy-Preserving ML Figure 3. Backend Figure 4. Differential 阅读全文
posted @ 2021-05-30 07:05 吴建明wujianming 阅读(108) 评论(0) 推荐(0) 编辑
摘要:TVM性能评估分析(三) Figure 1. TVM’s WebGPU backend close to native GPU performance when deploying models to the web. Figure 2. WebGPU is to write shaders for 阅读全文
posted @ 2021-05-30 06:27 吴建明wujianming 阅读(92) 评论(0) 推荐(0) 编辑
摘要:TVM性能评估分析(二) Figure 1. A bird’s eye view of the µTVM + AutoTVM infrastructure Figure 2. A standard µTVM setup, where the host communicates with the de 阅读全文
posted @ 2021-05-30 06:00 吴建明wujianming 阅读(120) 评论(0) 推荐(0) 编辑
摘要:TVM性能评估分析(一) System Overview AutoTVM vs Auto-scheduler Table 1. Workflow Comparision Figure 1. Search Process Overview Figure 2. Code Performance Comp 阅读全文
posted @ 2021-05-30 05:41 吴建明wujianming 阅读(115) 评论(0) 推荐(0) 编辑
摘要:飞腾上实体名单? 与华为麒麟一样,没有类似高通之光的基因 申威和飞腾两家CPU设计公司,与众多国家超算中心,同时上了实体名单。所谓实体名单大概已成为国产设计制造的一个光荣榜,上榜企业都应该是我们硬核力量的担当所在。 与申威不同的是,飞腾一直深耕商业应用领域,主攻桌面级、服务器和工业嵌入式CPU。 基 阅读全文
posted @ 2021-05-29 06:09 吴建明wujianming 阅读(1507) 评论(0) 推荐(0) 编辑
摘要:华为不造车,广汽合作智能驾驶 2021年5月21日,华为再度发布声明重申华为不造车。华为公司表示,这一长期战略在2018年就已明确,没有任何改变。”华为表示,至今为止并未投资任何车企。未来也不会投资任何车企,更不会控股、参股。以后,凡是议论上说华为造车、或者参股汽车制造行业,均为谣言,勿轻信。 关于 阅读全文
posted @ 2021-05-29 05:36 吴建明wujianming 阅读(121) 评论(0) 推荐(0) 编辑
摘要:异构计算编程 异构计算系统通常由通用处理器和许多特定于域的处理器组成:通用处理器作为控制设备(称为主机),用于复杂的控制和调度;特定于域的处理器作为子设备(称为MLU),用于大规模并行计算和特定于域的计算任务。主机和MLU合作完成计算任务。对于异构计算系统,原始的同构并行编程模型不再适用。因此,异构 阅读全文
posted @ 2021-05-28 17:49 吴建明wujianming 阅读(468) 评论(0) 推荐(0) 编辑
摘要:服务器硬件层次架构 MLU服务器层次结构 MLU服务器通过PCIe与主机交换数据。具有多个卡的MLU服务器层次结构系统包括五个级别:服务器级别,卡级别,芯片级别,群集级别和核心级别,如图。 级别0是服务器级别,由几个CPU控制单元,本地DDR存储单元和几个通过PCIe总线互连的MLU卡作为服务器级别 阅读全文
posted @ 2021-05-28 16:49 吴建明wujianming 阅读(816) 评论(0) 推荐(0) 编辑
摘要:FPGA多功能应用处理器 编解码加速卡 概述: 对于H.265/HEVC/VP9编解码处理,FPGA编解码加速卡方案有着完善的功能和preset配置,支持最多的有利于提高画质和降低bitrate的功能,适合各个场景下编解码配置。同时具有灵活部署,易于升级的特点,可根据需求,随时更换成其他协议的编解码 阅读全文
posted @ 2021-05-28 06:12 吴建明wujianming 阅读(329) 评论(0) 推荐(0) 编辑
摘要:AI推理单元 推理服务供了一套面向 MLU(Machine Learning Unit,机器学习单元)设备的类似服务器的推理接口(C++11标准),以及模型加载与管理,推理任务调度等功能,极大地简化了面向MLU平台高性能深度学习应用的开发和部署工作。 概述 推理服务在软件栈中的位置,如下图所示: 推 阅读全文
posted @ 2021-05-28 05:50 吴建明wujianming 阅读(310) 评论(0) 推荐(0) 编辑
摘要:视频结构化编程模型 概述 简介 CNStream是面向寒武纪开发平台的数据流处理SDK。用户可以根据CNStream提供的接口,开发实现自己的组件。还可以通过组件之间的互连,灵活地实现自己的业务需求。CNStream能够大大简化寒武纪深度学习平台提供的推理和其他处理,如视频解码、神经网络图像前处理的 阅读全文
posted @ 2021-05-27 14:33 吴建明wujianming 阅读(446) 评论(0) 推荐(0) 编辑
摘要:AI算子列表 概述 目前只有部分算子可在一个库中同时运行在MLU220和MLU270平台。也就是用户使用 ./build_cnplugin.sh --mlu270 命令编译生成的 libcnplugin.so 文件可同时在MLU220和MLU270上运行,其余算子只能在MLU270上运行。支持MLU 阅读全文
posted @ 2021-05-27 13:46 吴建明wujianming 阅读(1329) 评论(0) 推荐(0) 编辑
摘要:虚拟化概述 本文重点介绍了SR-IOV技术以及MLU270对SR-IOV的支持。 SR-IOV简介 SR-IOV(Single Root I/O Virtualization)技术是一种基于硬件的虚拟化解决方案,可提供高性能和可伸缩性的虚拟解决方案。SR-IOV制定了标准化机制来实现多个虚拟机共享一 阅读全文
posted @ 2021-05-27 13:25 吴建明wujianming 阅读(1370) 评论(0) 推荐(0) 编辑
摘要:芯片流程该要 一、主要工具软件 说到设计工具,就不能不提到三大EDA厂商——cadence,synopsys,mentor。这三家公司的软件涵盖了芯片设计流程的几乎所有所能用到的工具。首先是cadence公司,这家公司最重要的IC设计工具主要有candence IC系列,包含了IC 5141(目前最 阅读全文
posted @ 2021-05-27 06:15 吴建明wujianming 阅读(1093) 评论(0) 推荐(0) 编辑
摘要:AI 芯片的分类及技术 人工智能芯片有两种发展路径:一种是延续传统计算架构,加速硬件计算能力,主要以 3 种类型的芯片为代表,即 GPU、 FPGA、 ASIC,但 CPU依旧发挥着不可替代的作用;另一种是颠覆经典的冯·诺依曼计算架构,采用类脑神经结构来提升计算能力,以 IBM TrueNorth 阅读全文
posted @ 2021-05-27 05:49 吴建明wujianming 阅读(1692) 评论(0) 推荐(0) 编辑
摘要:CUDA上深度学习模型量化的自动化优化 深度学习已成功应用于各种任务。在诸如自动驾驶汽车推理之类的实时场景中,模型的推理速度至关重要。网络量化是加速深度学习模型的有效方法。在量化模型中,数据和模型参数都用诸如int8和float16低精度数据类型表示。降低的数据带宽减少了推理时间和存储器/存储要求, 阅读全文
posted @ 2021-05-26 05:57 吴建明wujianming 阅读(553) 评论(0) 推荐(0) 编辑
摘要:将TVM集成到PyTorch 随着TVM不断展示出对深度学习执行效率的改进,很明显PyTorch将从直接利用编译器堆栈中受益。PyTorch的主要宗旨是提供无缝且强大的集成,而这不会妨碍用户。PyTorch现在具有基于TVM的官方后端torch_tvm。 用法很简单: import torch_tv 阅读全文
posted @ 2021-05-26 05:33 吴建明wujianming 阅读(235) 评论(0) 推荐(0) 编辑
摘要:使用Apache TVM将机器学习编译为WASM和WebGPU TLDR 在Apache TVM深度学习编译器中引入了对WASM和WebGPU的支持。实验表明,在将模型部署到Web时,TVM的WebGPU后端可以接近本机 GPU的性能。 概述 计算是现代机器学习应用程序的支柱之一。GPU的引入加快了 阅读全文
posted @ 2021-05-26 05:15 吴建明wujianming 阅读(470) 评论(0) 推荐(1) 编辑
摘要:华为+长安研发芯片?长安蔚来更名“阿维塔科技” 5月20日长安、华为和宁德时代合作造车的重要进展,阿维塔科技公司正式披露。而在整车制造之外,合作方(长安、华为)其实还瞄准了汽车用半导体的设计和开发。 路透社报道,知情人士透露,华为正在扩大与重庆长安汽车的智能汽车合作伙伴关系,包括汽车用半导体的设计和 阅读全文
posted @ 2021-05-25 06:20 吴建明wujianming 阅读(1122) 评论(0) 推荐(0) 编辑
摘要:华为托起小康股份、北汽蓝谷、长安汽车股价 2021年5月24日上午,华为一再重申的"华为不造车"言论,再度"重创"相关上市车企。 受此消息影响,北汽蓝谷、长安汽车先后跌停,小康股份跌幅逾6%,而广汽、东风则下滑接近5%,瞬间"蒸发"掉不少市值。 事实上,去年11月在华为内部发布的一则《关于智能汽车部 阅读全文
posted @ 2021-05-25 05:58 吴建明wujianming 阅读(218) 评论(0) 推荐(0) 编辑
摘要:TVM如何训练TinyML 机器学习研究人员和从业人员对“裸机”(低功耗,通常没有操作系统)设备产生了广泛的兴趣。尽管专家已经有可能在某些裸机设备上运行某些模型,但是为各种设备优化模型的挑战非常艰巨,通常需要手动优化设备特定的库。对于那些没有Linux支持的平台,不存在用于部署模型的可扩展解决方案。 阅读全文
posted @ 2021-05-24 06:19 吴建明wujianming 阅读(704) 评论(0) 推荐(0) 编辑
摘要:TVM代码生成codegen 硬件后端提供程序(例如Intel,NVIDIA,ARM等),提供诸如cuBLAS或cuDNN之类的内核库以及许多常用的深度学习内核,或者提供框架例,如带有图形引擎的DNNL或TensorRT,使用户以某种方式描述模型,实现高性能。此外,新兴的深度学习加速器还具有自己的编 阅读全文
posted @ 2021-05-24 05:50 吴建明wujianming 阅读(1032) 评论(0) 推荐(0) 编辑
摘要:TVM量化小结手册 文章目录 Offical References TVM quantization roadmap INT8 quantization proposal Quantization Story - 2019-09 Quantization Development Quantizati 阅读全文
posted @ 2021-05-23 20:11 吴建明wujianming 阅读(791) 评论(0) 推荐(0) 编辑
摘要:TVM图优化与算子融合 计算图的定义 Computational graphs: a common way to represent programs in deep learning frameworks 对于图优化来说,有很多种图优化手段: Operator Fusion Constant Pa 阅读全文
posted @ 2021-05-23 15:08 吴建明wujianming 阅读(1041) 评论(0) 推荐(0) 编辑
摘要:桥接PyTorch和TVM 人工智能最引人入胜的一些应用是自然语言处理。像BERT或GPT-2之类的模型及其变体,可以获住足够多的文本信息。 这些模型属于称为Transformers的神经网络类体系结构。 HuggingFace transformers library是实现最受欢迎的库之一。 与已 阅读全文
posted @ 2021-05-23 09:51 吴建明wujianming 阅读(712) 评论(0) 推荐(0) 编辑
摘要:cmodel模拟器开发 对于一个公司来说,产品的设计周期就是生命线,一般来说都会在设计功能级仿真的c-model后直接转向RTL设计。 在目前的技术下,做cycle-by-cycle的设计和直接RTL设计的时间,感觉是差不太多的。nVidia同时维护functional and timing 的si 阅读全文
posted @ 2021-05-22 06:18 吴建明wujianming 阅读(3994) 评论(0) 推荐(0) 编辑
摘要:MXNet 图优化与算子融合Graph Optimization and Quantization based on subgraph and MKL-DNN Purpose MKL-DNN引入了两个高级特性:融合计算和降精度核。这些特性可以显著地提高各种深度学习拓扑在CPU上的推理性能。 然而,M 阅读全文
posted @ 2021-05-21 06:35 吴建明wujianming 阅读(650) 评论(0) 推荐(0) 编辑
摘要:ALD技术,相机去噪,图像传感器 1. 作为镜片的防反射涂层技术被关注的ALD(atomic layer deposition)的引入趋势。 (a)为什么需要一种新的防止反射的涂层技术? ALD被认为是最有前途的防止反射的涂层技术吗? 原子层沉积(ALD)是将物质以单原子膜形式一层一层镀在基底表面的 阅读全文
posted @ 2021-05-20 06:16 吴建明wujianming 阅读(1529) 评论(0) 推荐(0) 编辑
摘要:FinFET与2nm晶圆工艺壁垒 谈到半导体工艺尺寸的时候,通常对于下面的一串数字耳熟能详:3um、2um、1.5um、1um、0.8um、0.5um、0.35um、0.25um、0.18um、0.13um、90nm、65nm、45nm、32nm、22nm、14nm、10nm...有人说5nm是半导 阅读全文
posted @ 2021-05-19 06:18 吴建明wujianming 阅读(1716) 评论(0) 推荐(0) 编辑
摘要:ALD对照CVD淀积技术的优势 ALD 适合制备很薄的高K金属氧化物层,对腔室的真空度要求比较高,对反应气体源及比例的要求也较高。 目前沉积速率还是比较慢,大大限制了其在工业上的推广应用,不过随着设备技术的不断进步,包括ALD系统,前景还是很值得期待的。 ALD 除了常规的半导体高K 材料,太阳能等 阅读全文
posted @ 2021-05-18 06:30 吴建明wujianming 阅读(1260) 评论(0) 推荐(0) 编辑
摘要:PVD与CVD性能比较 CVD定义: 通过气态物质的化学反应在衬底上淀积一层薄膜材料的过程。 CVD技术特点: 具有淀积温度低、薄膜成分和厚度易于控制、均匀性和重复性好、台阶覆盖优良、适用范围广、设备简单等一系列优点。 CVD方法几乎可以淀积集成电路工艺中所需要的各种薄膜,例如掺杂或不掺杂的SiO2 阅读全文
posted @ 2021-05-18 06:05 吴建明wujianming 阅读(5064) 评论(0) 推荐(0) 编辑
摘要:摄像头PVD和CVD薄膜 在FDP 的生产中,在制作无机薄膜时,可以采用的方法有两种:PVD 和CVD (将VE 和VS 归于PVD ,而ALD 归于CVD)。 Physical Vapor Deposition (PVD) Physical Vapor Deposition (PVD)称为物理气象 阅读全文
posted @ 2021-05-18 05:49 吴建明wujianming 阅读(2464) 评论(0) 推荐(0) 编辑
摘要:CVD和ALD薄膜沉积技术应用领域 显示 用于OLED、QD-OLED、甚至未来QLED的薄膜封装,通过有机/无机叠层结构的保护,水汽渗透率WVTR可降至10-5g/m2/day,保证OLED或者量子点发光材料的稳定。另外量子点光学膜QDEF也需要WVTR小于0.1的阻隔膜,保护量子点不受水氧破坏。 阅读全文
posted @ 2021-05-17 06:22 吴建明wujianming 阅读(1905) 评论(0) 推荐(0) 编辑
摘要:薄膜封装,等离子体技术,原子层沉积,化学气相沉积 薄膜封装 薄膜封装概念 薄膜真空沉积的一个很重要的技术应用就是薄膜封装。人们对薄膜封装最简单的认识就是日常生活中最常见的保鲜膜,水氧渗透率大约是1-10 g/m2/day。先进薄膜封装,通过真空沉积一层或多层厚度在纳米或微米尺度的薄膜,大幅减少本体与 阅读全文
posted @ 2021-05-17 05:59 吴建明wujianming 阅读(2645) 评论(0) 推荐(0) 编辑
摘要:ALD和CVD晶体管薄膜技术 现代微处理器内的晶体管非常微小,晶体管中的一些关键薄膜层甚至只有几个原子的厚度,光是英文句点的大小就够容纳一百万个晶体管还绰绰有余。ALD 是使这些极细微结构越来越普遍的一种技术。 ALD 工艺直接在芯片表面堆积材料,一次沉积单层薄膜几分之一的厚度,以尽可能生成最薄、最 阅读全文
posted @ 2021-05-16 08:29 吴建明wujianming 阅读(2008) 评论(0) 推荐(0) 编辑
摘要:i.MX6UL: i.MX 6UltraLite处理器 - 低功耗,安全,Arm® Cortex®-A7内核 概述 MX6UltraLite作为i.MX6系列的扩展,一系列高性能、超高效的处理器,采用先进的Arm® Cortex®-A7内核,运行速度高达696 MHz。i.MX6UltraLite应 阅读全文
posted @ 2021-05-16 07:59 吴建明wujianming 阅读(798) 评论(0) 推荐(0) 编辑
摘要:温控产品解决方案 NetCol8000-C房间级冷冻水智能温控产品 产品描述:华为NetCol8000-C系列是针对中低密度、中大型数据中心制冷需求设计的制冷末端产品,其通常与冷水机组、水泵、冷却塔等组成机房环境精密控制系统,保证IT设备拥有可靠安全的运行环境。采用模块化设计,多模块机组可简易拆分成 阅读全文
posted @ 2021-05-16 06:16 吴建明wujianming 阅读(427) 评论(0) 推荐(0) 编辑
摘要:原子层沉积(ALD)和化学气相沉积(CVD)微电子制造铜金属化的研究进展 Atomic Layer Deposition (ALD) and Chemical Vapor Deposition (CVD) of Copper-based Metallization for Microelectron 阅读全文
posted @ 2021-05-15 06:22 吴建明wujianming 阅读(1195) 评论(0) 推荐(0) 编辑
摘要:camera数字降噪(DNR) 闭路电视摄像机 无论多么出色和弱光,在黑暗中拍摄视频监控录像时都会不可避免地产生一些噪音。噪声是任何电子通信中不可避免的部分,无论是视频还是音频。本质上是静态的–视频信号中的干扰,在图像帧中表现为白色和黑色斑点,使其呈现颗粒状外观。 昏暗的光线不足会导致相机难以区分颜 阅读全文
posted @ 2021-05-15 05:55 吴建明wujianming 阅读(1883) 评论(0) 推荐(0) 编辑
摘要:晶圆代工解决方案 中芯国际是一家纯晶圆代工厂,向全球客户提供0.35微米到14纳米8寸和12寸芯片代工与技术服务。中芯国际除高端的制造能力之外,还为客户提供全方位的晶圆代工解决方案,包括光罩制造、IP研发及后段辅助设计服务等一站式服务(包含凸块加工服务、晶圆探测,以及最终的封装、测试等)。全面一体的 阅读全文
posted @ 2021-05-13 06:05 吴建明wujianming 阅读(663) 评论(0) 推荐(0) 编辑
摘要:Camera噪声问题 Camera RGB 域的噪声 以上部分属于sensor processing,接下来的部分属于color、luminance processing。 gamma gamma是在RGB域设置一个gamma table去对应给每一个像素值增加一个适当的增益提高暗区的亮度水平。ga 阅读全文
posted @ 2021-05-12 06:27 吴建明wujianming 阅读(916) 评论(0) 推荐(0) 编辑
摘要:camera中LENS和SENSOR的CRA是如何搭配的? camera中,lens和sensor的搭配是非常关键的问题。但这两者是如何搭配的呢? 一般在Sensor data sheet中会附有全视场CRA参考值,不同sensor厂家有不同的要求,可以按照这个来做设计参考。有的Sensor厂家在公 阅读全文
posted @ 2021-05-12 06:18 吴建明wujianming 阅读(1983) 评论(0) 推荐(0) 编辑
摘要:Camera Lens Coating Coating Progress 转换镜头,根据要求进行OEM和设计。 光学元件:望远镜、显微镜、相机和数码相机镜头、放大镜头和远摄镜头、定心镜头、投影镜头、投影镜头、照明镜头、球面和非球面镜头、扫描镜头等。 不同透镜的应用 土建:大型运动广场、大型会议室、城 阅读全文
posted @ 2021-05-12 05:57 吴建明wujianming 阅读(141) 评论(0) 推荐(0) 编辑
摘要:原子层沉积技术 原子层沉积技术 原子层沉积,ALD 是一种适合于研制最新的和前沿性的产品的薄膜制备技术。原子层沉积 ALD 也是一种用于纳米技术研究的有效方法。典型的原子层沉积应用是在各种尺寸和形状的基底上沉积高精度、无针孔、高保形的纳米薄膜。针对目前的市场需要,Beneq 通过提供具有创新性应用和 阅读全文
posted @ 2021-05-11 06:13 吴建明wujianming 阅读(2581) 评论(0) 推荐(0) 编辑
摘要:CVD-ALD前驱体材料 ALD前驱体源瓶特点是什么 ALD前驱体源瓶(起泡器)用于固态、液态及气态超纯物料类的封装,涉及微正压、常压、中低压的危险化学品,对源瓶的安全性和洁净度提出严苛的要求。 ALD前驱体源瓶特点: 所有管件采用316L不锈钢,内部经400目机械抛光和电化学抛光,Ra≦0.25微 阅读全文
posted @ 2021-05-11 06:04 吴建明wujianming 阅读(3449) 评论(0) 推荐(0) 编辑
摘要:CPU/GPU/TPU/NPU...XPU都是什么意思? 现在这年代,技术日新月异,物联网、人工智能、深度学习等概念遍地开花,各类芯片名词GPU, TPU, NPU,DPU层出不穷......都是什么鬼?与CPU又是什么关系? HW发布了新款Mate 手机,里面有个叫什么NPU的,听起来很厉害,这是 阅读全文
posted @ 2021-05-10 06:12 吴建明wujianming 阅读(2669) 评论(0) 推荐(0) 编辑
摘要:PaddlePaddle推理部署 飞桨推理产品简介 作为飞桨生态重要的一部分,飞桨提供了多个推理产品,完整承接深度学习模型应用的最后一公里。 整体上分,推理产品主要包括如下子产品 各产品在推理生态中的关系如下 用户使用飞桨推理产品的工作流 如下 获取一个飞桨的推理模型,其中有两种方法 利用飞桨训练得 阅读全文
posted @ 2021-05-10 05:27 吴建明wujianming 阅读(216) 评论(0) 推荐(0) 编辑
摘要:硬件软件蓝图灵活的深度学习专业化 抽象的专业深度学习(DL)加速堆栈,专为一组特定的框架、模型架构、算子, 和数据类型,提供了高性能的吸引力,同时牺牲了灵活性。算法、模型、运算符或数值系统的变化威胁专用硬件加速器的生存能力。 提出了VTA,一个可编程的深度学习架构模板,可以在不断变化的工作负载下进行 阅读全文
posted @ 2021-05-09 18:09 吴建明wujianming 阅读(550) 评论(0) 推荐(0) 编辑
摘要:TVMNN编译Compiler栈 内容纲要 前言 调研目标 TVM介绍 TVM源码架构 FrontEnd Relay BackEnd VTA实现原理及设计思想提炼 整体结构 VTA Hardware 指令集 数据流 控制流 VTA Config Pyng HLS 硬件设计思想提炼 Chisel Sc 阅读全文
posted @ 2021-05-09 13:09 吴建明wujianming 阅读(533) 评论(0) 推荐(0) 编辑
摘要:TVM适配NN编译Compiler缺陷 内容纲要 前言 TVM针对VTA的编译流程 自定义VTA架构:TVM的缺陷与性能瓶颈 TVM缺陷与瓶颈 缺陷一:SRAM配置灵活性差 缺陷二:计算阵列配置僵硬 缺陷三:网络支持少 TVM源码修改之静态调度搜索算法 前言 前文NN编译栈之TVM研究报告深度分析T 阅读全文
posted @ 2021-05-09 12:28 吴建明wujianming 阅读(622) 评论(0) 推荐(0) 编辑
摘要:自动微分基本理论 神经网络核心是自动微分,本文主要介绍如何使用自动微分,以及自动微分机制,帮助更好的使用自动微分进行训练。 一、背景 神经网络是由节点和节点间的相互连接组成的。网络中每层的每个节点代表一种特定的函数,对输入进行计算。每个函数都是由不同参数(权重w和偏置b)组成。神经网络训练的过程,就 阅读全文
posted @ 2021-05-09 09:22 吴建明wujianming 阅读(251) 评论(0) 推荐(0) 编辑
摘要:Tensor基本理论 深度学习框架使用Tensor来表示数据,在神经网络中传递的数据均为Tensor。 Tensor可以将其理解为多维数组,其可以具有任意多的维度,不同Tensor可以有不同的数据类型 (dtype) 和形状 (shape)。 同一Tensor的中所有元素的dtype均相同。如果对  阅读全文
posted @ 2021-05-09 08:57 吴建明wujianming 阅读(457) 评论(0) 推荐(0) 编辑
摘要:车辆在线标定 车辆标定系统会自动生成用于不同车型的标定表。它包括三个部分:前端数据采集监视系统,一个数据上传/下载工具用于上传采集的数据和下载生成的标定表以及用于性能评估的可视化工具。 一. 前端 在DreamView中,提供了一个数据采集监视器,用于监视数据标定过程。在车辆标定模式下,收集的数据帧 阅读全文
posted @ 2021-05-09 08:15 吴建明wujianming 阅读(726) 评论(0) 推荐(0) 编辑
摘要:Apollo 自动驾驶开发套件(D-KIT) 阅读全文
posted @ 2021-05-09 07:43 吴建明wujianming 阅读(1028) 评论(0) 推荐(0) 编辑
摘要:TVM优化GPU机器翻译 背景 神经机器翻译(NMT)是一种自动化的端到端方法,具有克服传统基于短语的翻译系统中的弱点的潜力。最近,阿里巴巴集团正在为全球电子商务部署NMT服务。 将Transformer用作NMT系统的关键技术,相对于基于经典RNN / LSTM的模型具有同等(甚至更高)的精度,对 阅读全文
posted @ 2021-05-09 06:42 吴建明wujianming 阅读(374) 评论(0) 推荐(0) 编辑
摘要:TVM 优化 ARM GPU 上的移动深度学习 随着深度学习的巨大成功,将深度神经网络部署到移动设备的需求正在迅速增长。与桌面平台上所做的类似,在移动设备中使用 GPU 既有利于推理速度,也有利于能源效率。但是,大多数现有的深度学习框架并不很好地支持移动 GPU。难点在于移动 GPU 架构和桌面 G 阅读全文
posted @ 2021-05-08 14:24 吴建明wujianming 阅读(977) 评论(0) 推荐(0) 编辑
摘要:通过 DLPack 构建跨框架深度学习编译器 深度学习框架,如Tensorflow, PyTorch, and ApacheMxNet,快速原型化和部署深度学习模型提供了强大的工具箱。不幸的是,易用性往往以碎片化为代价:孤立地使用每个框架是很容易的。纵向集成使开发简化为常用案例,但冒险走出困境可能比 阅读全文
posted @ 2021-05-08 13:26 吴建明wujianming 阅读(221) 评论(0) 推荐(0) 编辑
摘要:TVM 高效保护隐私 ML 这篇文章描述了Myelin,一个在值得信赖的硬件飞地中保护隐私的机器学习框架,以及TVM如何使Myelin快速。关键的想法是,TVM,不像其它流行的ML框架,将模型编译成轻量级,优化,免费依赖库,可以适应资源有限利用。 尝试创建保护隐私的ML模型!查看 TVM可用的rep 阅读全文
posted @ 2021-05-08 12:01 吴建明wujianming 阅读(244) 评论(0) 推荐(0) 编辑
摘要:TVM编译机器学习到 WASM 和 WebGPU TLDR TVM 深度学习编译器对 WASM 和 WebGPU 的支持。实验表明,TVM 的 WebGPU 后端在将模型部署到 Web 时可以接近原生 GPU 性能。 引论 计算是现代机器学习应用的支柱之一。引入 GPU 以加快深度学习工作量,大大提 阅读全文
posted @ 2021-05-08 11:34 吴建明wujianming 阅读(859) 评论(0) 推荐(0) 编辑
摘要:用TVM在硬件平台上部署深度学习工作负载的端到端 IR 堆栈 深度学习已变得无处不在,不可或缺。这场革命的一部分是由可扩展的深度学习系统推动的,如滕索弗洛、MXNet、咖啡和皮托奇。大多数现有系统针对范围狭窄的服务器级 GPU 进行了优化,需要在其它平台,如移动电话、物联网设备和专用加速器(FPGA 阅读全文
posted @ 2021-05-08 10:17 吴建明wujianming 阅读(549) 评论(0) 推荐(0) 编辑
摘要:TVM优化Deep Learning GPU算子 高效的深度学习算子是深度学习系统的核心。通常,这些算子很难优化,需要HPC专家付出巨大的努力。 端到端张量IR / DSL堆栈TVM使这一过程变得更加容易。 如何在TVM的帮助下编写高性能GPU运算符内核。本文以深度卷积(即topi.nn.depth 阅读全文
posted @ 2021-05-08 06:15 吴建明wujianming 阅读(396) 评论(0) 推荐(0) 编辑
摘要:国内外企业竞争AR HUD 华为X红旗合作车型首曝:搭载华为AR HUD、智能座舱方案 2021年4月18日,上海国际车展正式开放,华为也成了此次车展上的重要亮点之一。 据相关报道显示,华为除了联手北汽刚刚推出了极狐阿尔法S之外,还有一款联合红旗打造的新车在上海车展亮相,有消息称这辆车是基于红旗EH 阅读全文
posted @ 2021-05-07 05:42 吴建明wujianming 阅读(396) 评论(0) 推荐(0) 编辑
摘要:部署TVM Runtime本文主要介绍如何在开发板上部署TVM Runtime, 在本地机器安装完整的TVM(包含了TVM Runtime以及编译功能), 并且使用一个简单的远程调用例子测试是否部署成功。本地机器使用的是Linux操作系统,开发板使用的是预装的Fedora系统。开发板与TVM的概述开 阅读全文
posted @ 2021-05-06 05:34 吴建明wujianming 阅读(646) 评论(0) 推荐(1) 编辑
摘要:端到端TVM编译器(下) 4.3 Tensorization DL工作负载具有很高的运算强度,通常可以分解为张量运算符,如矩阵乘法或一维卷积。这些自然分解导致了最近的添加张量计算原语。这些新的原语带来了机遇和挑战调度;为了 提高性能,编译框架必须无缝集成。称之为张量化:类似于SIMD体系结构的矢量化 阅读全文
posted @ 2021-05-05 09:32 吴建明wujianming 阅读(1030) 评论(0) 推荐(0) 编辑
摘要:端到端TVM编译器(上) 摘要 将机器学习引入到各种各样的硬件设备中。AI框架依赖于特定于供应商的算子库,针对窄范围的服务器级gpu进行优化。将工作负载部署到新平台,例如手机、嵌入式设备和加速器(例如,FPGA、ASIC)–需要大量手动操作。TVM,一个开源图形级的编译器和算子级优化,提供可移植到不 阅读全文
posted @ 2021-05-04 23:04 吴建明wujianming 阅读(995) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示