平头哥芯片技术参数
平头哥芯片技术参数
800不露,光而不耀,高性能人工智能推理芯片
整体介绍架构特征特色技术软硬件协同行业应用
含光800
含光800是平头哥发布的首颗数据中心芯片。含光800是一颗高性能人工智能推理芯片,基于12nm工艺, 集成170亿晶体管,性能峰值算力达820 TOPS。 在业界标准的ResNet-50测试中,推理性能达到78563 IPS,能效比达500 IPS/W。
含光800采用平头哥自研架构,通过软硬件协同设计实现性能突破。平头哥自主研发的人工智能芯片软件开发包,让含光800芯片在开发深度学习应用时可以获得高吞吐量和低延迟的高性能体验。含光800已成功应用在数据中心、边缘服务器等场景
架构特征
加速卷积和矩阵乘操作,支持反卷积、孔洞卷积、3D卷积、 插值、ROI等
针对ResNet-50、SSD/DSSD、Faster-RCNN、Mask-RCNN、DeepLab 等模型优化
高密度的计算,极大提升处理效率
软硬协同支持权重的稀疏压缩,计算的量化压缩
除INT8/INT16量化加速外,也覆盖FP16/BF16的向量计算
加速各种ReLu、Sigmoid、Tanh等函数,未来也可支持未来新型激活函数
每一块芯片内含四核,视部署场景之算力需求灵活配置,可以从单卡单核,到多卡全四核
软硬件协同
为了让用户便捷地使用含光800加速芯片,平头哥提供了HGAI (HanGuang Artificial
Intelligence) 软件开发包,让用户在含光800芯片上部署深度学习应用时可以获得高吞吐量和低延迟的高性能体验。
HGAI 主要包括模型的前端Graph IR(intermediate representation) 转换、量化、编译和运行时等几部分。经过HGAI 转换、编译完成的模型可以很方便地集成到当前主流的深度学习推理框架中,让用户非常便捷地利用含光800芯片的强大算力加速推理运算。
目前HGAI 支持的主流深度学习框架主要有:TensorFlow、MXNet 、 Caffe、ONNX,后续将会支持更多主流深度学习框架。同时用户也可以通过NPUSMI来在线监控含光800运行状态,包括主频、内存利用率、算力利用率等。
行业应用
镇岳510
镇岳510是一颗高性能企业级SSD主控芯片,IO处理能力达到3400K IOPS,数据带宽达到14GByte/s,能效比达到420K IOPS/Watt。
镇岳510采用平头哥自研芯片与固件架构,通过良好的软硬件协同设计在实现性能突破的同时达到最佳能效。镇岳510芯片采用平头哥自研的低密度奇偶校验数据纠错算法,编码效率逼近香农极限,纠错性能也大幅提升,数据误码率低至10^-18。同时,镇岳510采用了软硬件一体的介质应用算法,能够准确预测介质的电平漂移,大幅改善长尾时延,给应用以高度一致性的性能体验。
镇岳510 SSD主控芯片 Datasheet
【产品简介&应用场景】 【架构特性】 镇岳510是平头哥自研的一款高性能PCIE Gen5 企业级SSD主控芯片,提供PCIe Gen5 x 4接 口,支持1xxL/2xxL TLC/QLC NAND Flash;支持NVME1.4b规范,支持ZNS接口协议;支持 多流、原子写、IO虚拟化等多种企业特性;全路径支持E2E Data Protection;支持热插拔; 满足云上各种业务应用场景;同时提供高可靠性。 适用于高性能分布式存储、高性能数据库、OLTP/OLAP、高性能AI应用、大数据分析等业务 场景。 镇岳510采用平头哥自研芯片架构,内置玄铁R910RISC-V多核CPU系统,最高频率达到 1.6GHz,支持DDR4-3200MT/s、DDR5-5200MT/s,关键数据通路与命令通路大量采用定制 硬件模块加速,借助自研的高速NAND接口、LDPC算法及软硬一体的介质应用算法,QoS及 UBER领先业界。 www.t-head.cn 02 ©【平头哥(上海)半导体技术有限公司】版权所有 丰富的接口特性: 良好适配云业务场景: 全面的介质支持: 支持PCIe Gen5 x 4 Lane,单端口 支持DDR4、DDR5,支持DDR ECC,最大容量支持32GB 支持NVMe 1.4b协议 支持 NVME-MI 支持 MCTP over SMBus/I2C 支持 MCTP over PCIe VDM 支持 HOST 同时使用 SMBus/I2C 和 PCIe VDM 支持JTAG接口,UART接口,和IIC接口 支持SPI接口 支持ZNS 支持CMB 支持Multi-Namespce,最大支持128个Namespace 支持SR-IOV,支持1个PF,32个VF 支持128KB原子写 支持4个NVM Set 支持T10 DIF/DIX Sequential Read带宽14000MB/s Sequential Write带宽10000MB/s Random Read性能 3400K IOPS Random Write性能2500K IOPS(WA=1) QD1 Read Latency
架构特征
灵活的硬件辅助表项管理加速模块,极大提升FTL处理速度
可编程的Nand接口模块,良好适配多代次NandFlash
高效的功耗管控单元,可灵活分配读、写功耗配额
16个高速Nand Channel,可提供大容量和高带宽
支持SR-IOV,适用于云上多租户环境
基于PCIe Function的IO带宽管理,有效改善多租户环境下的性能隔离
特色技术
PCIe Gen5高速接口
业内超低的写入时延
硬件辅助的表项管理模块
高效的LDPC纠错算法
准确的介质电平偏移预测算法
基于PCIe Function的IO带宽管理
行业应用
在线交易应用
大数据
软件定义存储
虚拟化
边缘计算
在线交易应用
大数据
软件定义存储
计算技术加速革新,引领数据中心架构持续演进
技术风险与效能部承担阿里集团内部业务的基础技术平台及研发基础设施建设,致力于通过容器技术管理调度CPU、存储、大数据等计算资源,满足业务发展、研发设计所需安全稳定高效的算力需求。张瓅玶将从“计算需求驱动数据中心的三次变革“、“围绕数据中心阿里在做什么”、“异构时代倚天710扮演关键角色”、“未来变革还在继续-AI加速重塑软硬件格局“等几个篇章分享其真知灼见。
数据中心算力的演变与驱动力
在过去的十年中,数据中心的算力发展经历了显著的演变,这一变化主要受到两大因素的推动:移动互联网兴起带来的用户数据爆炸,以及AI技术的引入和大规模应用。这一时期,我们见证了从传统的计算需求到以数据为中心的计算需求的转变。
随着移动互联网的迅速发展,类似于淘宝这样的头部应用的用户数量开始从百万级迅速增长到亿级,这种规模的增长对数据中心的算力提出了前所未有的挑战。紧随用户增长而来的是海量的用户数据的出现。通过这些数据,企业可以为消费者提供更加精准和个性化的服务,比如个性化推荐。伴随着大数据时代的来临,也意味着对数据存储、处理和分析的需求急剧增加。数据的增长速度远远超过了用户数量的增长,从而导致数据中心对算力的需求呈现指数级增长。
AI的引入和大规模应用成为了过去十年数据中心发展的又一重要里程碑。随着移动互联网应用对个性化服务的需求越来越高,比如基于AI技术的内容定制、个性化广告推送等,又增加了新的计算资源需求。AI模型的训练和推理需要巨大的算力支持,特别是近年来大型语言模型和深度学习模型的兴起,对计算资源的需求更是达到了前所未有的水平。这种需求的增长速度远远超过了传统计算任务的需求,可能是过去的十倍甚至百倍。
在这两大因素推动下,数据中心的发展不仅仅是硬件规模的扩张,更重要的是计算技术的革新。云计算的兴起、大数据技术的发展、AI的广泛应用,这些都深刻地改变了数据中心的运行方式和计算模式。数据中心从仅仅是存储和计算的设施,变成了智能处理和分析数据的强大引擎。在这种背景下,大型互联网公司如阿里巴巴在数据中心的建设和管理上做出了重大调整。阿里巴巴从最初的几万台服务器迅速扩展到几十万台。这种规模的扩张不仅仅是数量上的增加,更体现在计算技术的进步。
计算架构的变革和挑战
随着数据中心的不断发展,计算架构也开始不断演进。最初,服务器架构以CPU为核心,主要依靠其处理能力来支撑应用需求。这种以单一设备为中心的架构并非始于互联网时代,而是继承自早期计算时代,当时计算资源主要依靠单个设备(如小型机和大型机)的强大能力,采用scale-up架构。
但随着互联网的兴起和应用需求的爆炸性增长,这种以单一强大设备为中心的架构逐渐显得不够灵活和高效。互联网的发展推动了分布式计算架构的兴起。这种架构通过将大量廉价、可复制的商用CPU服务器组合起来,形成庞大的集群,以处理海量数据和复杂计算任务。这代表了基础系统技术领域的一次重大突破,从而使得能够通过大规模集群以较低成本处理日益增长的数据和计算需求成为可能。
然而,大数据的出现对传统的横向扩展服务器架构又提出了新的挑战。大数据的特点在于涉及的数据量巨大且计算密度高。为了处理这些数据,需要大量的存储空间和更高的计算能力。这种需求催生了计算存储分离的架构模式,其中大型存储集群用于处理海量数据,而灵活且可扩展的计算资源用于执行复杂的数据处理任务。
这种架构的出现,标志着从集中式计算向分布式计算的转变。在大数据时代,数据中心内部的CPU利用率通常很低。为了提高效率,很多公司开始采用混合部署技术,将在线计算和大数据处理结合起来,以提高CPU的使用效率。据阿里巴巴技术风险与效能部负责人张瓅玶介绍,目前阿里巴巴CPU利用率已达业界领先水平,相比过去实现大幅提升,从而降低了成本,提高了经济效益。
由于摩尔定律的失效,CPU的计算能力增长已经放缓,需要采用专用的计算设备来处理这些高密度的计算任务,包括并行计算以及其他类型的专用硬件,如TPU等,都在特定的场景下展现出优异的性能。这些新型硬件的出现,进一步推动了计算架构向更加多样化和专用化的方向发展,反过来计算架构的发展也反映了技术领域的不断创新和进步。
倚天710成为一种选择
除了上面提到的定制化架构的兴起,张瓅玶也提到,随着大数据时代的到来,面对特定工作负载需求的增长,计算架构中的CPU从传统的x86处理器向基于Arm的处理器的转变已经越来越明显。
Arm架构以其低功耗和高效设计著称,与基于复杂指令集计算(CISC)架构的x86 CPU不同,Arm CPU能更快、更有效地执行计算任务。近年来,AI大模型的快速发展在科技产业中引起重视,面临着内存带宽等技术挑战,也要求采用新的系统架构和提升内存一致性。灵活的系统架构和强大的生态系统对于支持AI大模型的演进至关重要。
在此背景下,Arm架构的处理器,因其低功耗优势,已成为数据中心和高性能计算(HPC)领域的节能解决方案。领先的云服务提供商如微软Azure、亚马逊AWS、谷歌和阿里巴巴已开始在其云计算中采用基于Arm的处理器。不管是为了降低成本还是为了满足特殊需求,各大云计算巨头都开始定制芯片,以应对不断增长的数据处理需求。
平头哥自研芯片倚天710是专为云设计的第一款CPU芯片,采用Armv9架构,拥有128核心、2.75GHz主频。倚天710在性能和能效比上实现了双重突破,性能超出行业标杆20%,能效比提高50%以上。在2022年云栖大会上,阿里云宣布其自研 CPU 倚天 710云实例已大规模应用,这也是中国首个云上大规模应用的自研 CPU。
倚天710云实例针对云场景研发,同时兼顾了性能与易用性。经过业务验证,以云的形式服务阿里巴巴核心业务和多家知名互联网科技公司,并覆盖电商、生命科学、交通物流及游戏等领域。
张瓅玶介绍,倚天710在性能、应用情况、服务器运行稳定性和可靠性方面表现出色,在高CPU利用率场景下表现格外优越,尤其是在128个物理核的特性下,能够减少核间干扰,提高性能。搭载倚天710的服务器已在阿里巴巴在线规模应用中运行两年多,广泛应用于各种业务场景,如数据库存储、在线电商计算和离线大数据处理等。
张瓅玶对倚天710在软件生态、成本优势、单核性能等方面的未来发展持乐观态度,充分肯定其在性价比和性能方面相较于其他竞品的竞争力。2023年,阿里巴巴技术风险与效能部管理的新增服务器中超过一半采用Arm架构也是对倚天710优异性能表现的一种肯定。
从计算需求出发,聚焦解决未来技术瓶颈
未来,AI的发展将导致数据中心架构变得更加复杂,随着个人化AI模型的需求增加,对算力的需求将达到前所未有的水平,这将推动数据中心架构的持续演进和定制化。
除了计算架构越来越复杂,我们看到连接方案也开始定制化设计。例如,NVLink的出现就是为了解决PCIe和以太网无法满足连接速度需求的问题。随着算力需求的进一步增加,可能会出现更多此类定制连接方案。与此同时,传统架构也不能满足对内存访问速度的需求,促使了新型技术演进,以满足更高性能需求。CXL(Compute Express Link)架构的出现就是对传统内存访问模式的一种挑战。随着特定领域架构(DSA)的出现,对内存访问速度的需求进一步提升。这导致了传统的内存和存储方案无法满足新的性能要求,促使了更复杂的技术,如3D堆叠技术的发展。这些技术的发展意味着可以将内存直接集成到CPU或者其他处理单元中,这一举措突破了多年来沿用的设计模式。
同时,越来越复杂的计算架构,也带来了几个不同的关键影响:
首先,随着越来越多特定功能计算芯片的涌现,软件开发者需要为这些芯片编写专门的程序,这比以往仅为CPU编写软件要复杂得多。在AI时代,除了传统的CPU,开发者还需要为并行计算等多种处理器编写程序,以实现复杂的计算任务。
此外,对于云计算和集群管理而言,这种变化带来了极大的挑战。云计算基于将数据中心视为单一计算机的理念,这要求集群具有均匀、可调度和可管理的特性。然而,随着更多垂直化、紧耦合的架构的出现,弹性和水平扩展能力作为云计算的生命线,正在面临前所未有的挑战。
最后,硬件和软件架构的变化不仅会影响传统的计算模式,还可能对现有的硬件制造商产生冲击。这种变化不仅影响了像Intel和AMD这样的传统制造商,且整个以CPU水平扩展为基础的计算架构相关的通信、存储等硬件制造商都会受此冲击。
一言以蔽之,未来的计算架构将变得更加复杂,带动硬件和软件技术都将出现一轮动态变化,从而出现更多样化的设备和芯片,以及针对不同领域的垂直整合方案。在张瓅玶看来,这种走向更复杂架构的趋势虽然有出于为满足日益增长的计算需求的无奈,但也代表了行业在向着更高效、更专业的方向发展。
羽阵611
平头哥羽阵611是一款低功耗、高性能、通用型RFID超高频电子标签芯片,该芯片满足EPCglobal G2 V2和ISO/IEC 18000-6C协议。超低功耗电路设计,配合全自动阻抗调谐,使得该芯片特别适用鞋服、快消品零售、智慧物流、供应链管理、动态资产管理等多种复杂场景的应用领域。
技术特征
符合EPC Global G2 V2协议和ISO/IEC 18000-6C协议
单端口读取灵敏度达-23dBm
支持偶极子天线
支持天线射频阻抗自动调谐,强环境适应性
支持Wide-PAD封装,高Bonding可靠性
数据保持时间超过10年
行业应用
资产管理
智慧物流
商超零售
供应链
航空包裹跟踪
资产管理
智慧物流
商超零售
供应链
https://www.t-head.cn/?spm=a2ouz.23251504.0.0.81c76ff43dSxIZ
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
2023-05-12 n卡和a卡的主要区别
2022-05-12 AMD与Intel,挑战英伟达GPU
2021-05-12 Camera噪声问题
2021-05-12 camera中LENS和SENSOR的CRA是如何搭配的?
2021-05-12 Camera Lens Coating
2020-05-12 YOLOvi(i=1,2,3,4)系列
2020-05-12 Mask-RCNN技术解析