英特尔正式揭晓Lunar Lake客户端处理器的架构细节,如果用一句话来概括那就是——变化巨大,包括模块化结构、封装工艺、全新性能核与能效核、线程调度、GPU、NPU以及连接等等。
这一系列的变化也带来了性能、能效、特性的全面提升。
根据英特尔公布的内容显示,Lunar Lake整体功耗相比上代下降40%;核显的游戏和图形性能提高1.5倍;全新NPUAI性能最高可达前代4倍,平台AI算力高达120TOPS。
接下来就为大家详细解读一下英特尔旨在进一步发力AI PC的Lunar Lake究竟有哪些不凡之处。
全新的模块化设计以及封装级内存
Lunar Lake延续了Meteor Lake的分离式模块设计,但从后者的“计算模块、SoC模块、图形模块、IO模块”四大模块简化为——计算模块(Compute tile)、平台控制器模块(Platform Controller tile)两部分(在角落还有填料模块,但不具备电路和功能,只是为了保证结构整体强度),采用3D Foveros封装工艺。
另一个重要变化在于英特尔首次将内存集成到封装内,称为“封装级内存(Memory on package,MOP)”,2颗内存容量最高32GB,支持LPDDR5x,每个芯片最高8.5GT/s(8500MHz),支持4个16bit通道。
封装到SoC内部缩短了内存走线,能够将物理功耗降低40%,并节省250平方毫米主板面积,对于内部空间紧凑的轻薄本而言,则留出了更多的设计空间。
只不过这也意味着搭载Lunar Lake的笔记本无法完成扩展和升级,在购买时建议有较大内存需求的用户“一步到位”,毕竟无论是影像创作、本地化AI或者多任务处理,对于内存的需求正快速提升。
再来看Lunar Lake的两大全新模块。
计算模块:混合架构最多具备4个性能核、4个能效核,还包括GPU核显、NPU、媒体引擎、显示引擎、IPU图像处理单元、NOC、MSC(内存侧缓存)。MSC最大容量8MB,独立于二三级缓存,主要用于IO引擎的缓存配合,可以减少对系统内存的依赖,提升延迟与带宽。
计算模块相比上代还有一个重要变化在于采用了全新低功耗岛(Low Power Island),将所有节能模块统一管理,提升能效。
平台控制模块:包含PCIe 5.0/4.0控制器、雷电4控制器、USB控制器、Wi-Fi与蓝牙控制器、安全引擎等。
Lunar Lake提供最多4条PCIe 5.0、4条PCIe 4.0总线通道;支持Wi-Fi 7(5G Gig),最高速率达5.8Gbps,支持蓝牙5.4;这一次还是没有雷电5,支持的雷电4带宽40Gbps,最多三个连接,而且支持新的雷电共享技术,实现不同PC之间快捷分享、传输与控制。
计算模块与平台控制模块通过可扩展第二代交叉总线以及D2D界面互联。另外Lunar Lake还集成4个电源控制器,可实现增强遥测,可动态调节电压。
同时为了优化能效,Lunar Lake的电源管理架构也有了变化,在独立PMIC、增强的英特尔线程控制器、内存侧缓存与改进的处理器核心,共同实现了功耗节省。
至于Lunar Lake采用的制程工艺,英特尔尚未公布。
Lion Cove性能核——P核
Lunar Lake的性能核代号Lion Cove,采用了全新微架构,相比前代大幅提升了IPC并增强了可扩展性;优化了单线程每瓦性能以及单位面积性能。
Lion Cove的每个核心一级数据缓存48KB,一级指令缓存192KB,二级缓存最多2.5MB,所有核心共享最多12MB三级缓存。
另外,该性能核拥有18个执行端口,预测宽度提升8倍;支持更精准的频率控制,间隔缩小到16.67MHz,更灵活把控能效。
根据英特尔公布的数据,Lunar Lake对比Meteor Lake性能核IPC平均提升约14%,而且Lunar Lake在越低功耗下的表现优势越明显。
Skymont能效核——E核
Lunar Lake全新能效核代号Skymont,英特尔表示希望能效核可以覆盖更多日常算力要求,因此Lunar Lake的能效核Skymont设计是按照Raptor Lake性能核匹配的,并且保持能效核在节能方面的优势。
基于此,Skymont能够支持更多应用场景、提升了多线程性能以及扩展性,同时拥有2倍的矢量和AI吞吐量以更好地支持VNNI功能。
Skymont能效核拥有26个调度端口,更深的队列提升并行处理能力,还具备更宽的分配和回退。
Lunar Lake能效核每个核心拥有32KB一级数据缓存,所有核心共享4MB的二级缓存(L2缓存带宽翻倍),没有三级缓存。
性能方面,英特尔表示4个能效核组成一个集群,相比Meteor Lake同等性能功耗仅为三分之一,同功耗下性能提升可达到2.9倍,最高性能达到了后者的4倍。
因此,全新架构的性能核、能效核,为英特尔新一代x86处理器带来了更强的性能以及更高能效。
其中性能核的峰值性能对比能效核提升50%,二能效核的每瓦性能优势在20%到80%。由此,Lunar Lake能够针对复杂多样化场景,实现灵活调度,保障续航。
持续增强的英特尔硬件线程调度器
英特尔硬件线程调度器在Lunar Lake中也有提升,带来了动态调度策略、增强算法、更精细的控制,让OEM也有更大的定制范围。同时配合上操作系统隔离区、加强电源管理等设计,也可以保证能效,英特尔表示在Teams应用中,启用这些功能后,功耗可以降低35%。
而且在性能核与能效核的调度方面,英特尔硬件线程调度器也会充分考虑能效,如工作负载合适将优先分配给单能效核,多线程时进行能效核扩展,后根据需求引导至性能核。
升级Xe2微架构的GPU
上代Meteor Lake引入锐炫GPU后,翻倍的核显性能让人印象深刻,这一次Lunar Lake的GOU也升级到第二代Xe2微架构,性能约为前代的1.5倍。
具体来看,Xe2 GPU算力可达67TOPS——拥有8个第二代Xe核心,采用全新XMX引擎(INT 8整数操作每秒4096和FP 16浮点操作每秒2048)、可配备8个更强的光追单元、增强的XeSS内核、Xe2矢量引擎(优化能效和AI性能)、英特尔ARC软件堆栈,拥有8MB二级缓存。
Lunar Lake还拥有全新媒体引擎,支持AV1硬件编解码、H.266/VVC视频硬解码。VVC的优势在于降低比特率并保持同等画质,从而减少文件大小和传输压力,可自适应分辨率码率,更加灵活,还支持屏幕内容编码流(SCC)、360度全景码流。
全新显示引擎可支持HDMI 2.1、DP 2.1、eDP 1.5,可拓展最多三个屏幕,其中eDP 1.5能够让笔记本屏幕提升自适应刷新、结合Panel replay技术实现显示自适应同步等功能。
全新NPU:4倍峰值性能
作为AI PC的“核芯”怎么会少得了NPU?去年的Meteor Lake首次集成NPU,作为新一代NPU却并非“2.0”,按照英特尔技术迭代已经是“4.0”。
NPU 4的架构增加了NPU大小,更好地执行下一代AI工作负载;提升了时钟频率、能效,从而满足性能需求的同时延长续航;针对现代AI进行了优化,可以高效运行大语言模型以及Transformer。
英特尔表示Lunar Lake的NPU 4是面向AI PC“最大的集成和专用AI加速器”,拥有12个增强的SHAVE DSP、6个神经计算引擎、能效优化的MAC阵列、2倍带宽、支持原生激活功能和数据转换、用于大语言模型的嵌入标记化,以及48TOPS的算力。
对比Meteor Lake的NPU 3,NPU 4拥有其4倍的峰值性能。
当然,Lunar Lake的AI性能仍旧是CPU、GPU、NPU聚合的多元算力,匹配复杂多样的AI负载,可兼顾能效。而且得益于每个计算单元性能大幅升级,Lunar Lake的平台算力达到了120TOPS,无论是游戏、创作中的AI需求,还是专用的AI助手,又或是轻量型AI负载,都能够更灵活高效应对。
写在最后
英特尔表示,Lunar Lake已经量产,将在第三季度正式发布上市,为超过20家OEM的80多款AI PC提供动力。
另外,截至目前,英特尔已交付800万片酷睿Ultra处理器,且英特尔预计在今年交付超过4000万片英特尔酷睿Ultra处理器。
需要指出的是Lunar Lake还只是第二代酷睿Ultra的成员之一,重点面向低功耗移动平台,在今年晚些时候还将有更高性能的Arrow Lake。
据悉,Arrow Lake同样基于Lion Cove、Skymont混合架构,并首次采用Intel 20A制程工艺。
相比前两年,今年的COMPUTEX在AI PC的引导下明显热闹很多,英特尔、AMD、高通等巨头之间的火药味也浓厚了几分(还有苹果虽然要晚几天,但WWDC应该也少不了AI的身影)。
当然了,各家计算平台还只是角逐AI PC头把交椅的筹码之一,生态合作、软件及工具支持、人才投入培养等方面同样关键。
特别是在AI PC发展早期,谁能在市场中站稳脚跟,真正实现AI PC的规模化应用,那么也将在未来的竞争中占据先手。
所以,今年下半年和明年陆续上市的AI PC产品,或许会呈现一种“百家争鸣”的局面,这既是芯片厂商的较量,也是OEM之间的角逐,甚至是x86与ARM两大核心阵营又一轮正面硬碰。
PC市场终于又变得有趣起来了,谁能成为AI PC时代的引领者,就让我们拭目以待吧。
Austin Liu 刘恒辉
Project Manager and Software Designer E-Mail:lzhdim@163.com Blog:https://lzhdim.cnblogs.com 欢迎收藏和转载此博客中的博文,但是请注明出处,给笔者一个与大家交流的空间。谢谢大家。 |