充分考虑兼容需求的自主指令系统——龙架构(LoongArch™)

充分考虑兼容需求的自主指令系统——龙架构(LoongArch™)
 
先进性:吸收近年来指令集发展的先进技术成果,提高代码效率
兼容性:融合X86、ARM等的主要特点,高效支持二进制翻译
模块化:基础部分、二进制翻译、虚拟化、向量化
扩展性:指令槽留有余地,利于今后的持续演进
2020年,龙芯中科基于二十年的CPU研制和生态建设积累推出了龙架构(LoongArch™),包括基础架构部分和向量指令、虚拟化、二进制翻译等扩展部分,近2000条指令。
龙架构具有较好的自主性、先进性与兼容性。
龙架构从整个架构的顶层规划,到各部分的功能定义,再到细节上每条指令的编码、名称、含义,在架构上进行自主重新设计,具有充分的自主性。
龙架构摒弃了传统指令系统中部分不适应当前软硬件设计技术发展趋势的陈旧内容,吸纳了近年来指令系统设计领域诸多先进的技术发展成果。同原有兼容指令系统相比,不仅在硬件方面更易于高性能低功耗设计,而且在软件方面更易于编译优化和操作系统、虚拟机的开发。
龙架构在设计时充分考虑兼容生态需求,融合了各国际主流指令系统的主要功能特性,同时依托龙芯团队在二进制翻译方面十余年的技术积累创新,能够实现多种国际主流指令系统的高效二进制翻译。龙芯中科从 2020 年起新研的 CPU 均支持LoongArch™。
龙架构已得到国际开源软件界广泛认可与支持,正成为与X86/ARM并列的顶层开源生态系统。已向GNU组织申请到ELF Machine编号(258号),并获得Linux、Binutils、GDB、.NET、GCC、LLVM、Go、Chromium/V8、Mozilla / SpiderMonkey、FFmpeg、libyuv、libvpx、OpenH264、SRS等音视频类软件社区、UEFI(UEFI规范、ACPI规范)以及国内龙蜥开源社区、欧拉openEuler开源社区的支持。
指令系统是软件生态的起点,只有从指令系统的根源上实现自主,才能打破软件生态发展受制于人的锁链。龙架构的推出,是龙芯中科长期坚持自主研发理念的重要成果体现,是全面转向生态建设历史关头的重大技术跨越。
坚持自主创新,掌握处理器核及相关IP核设计的核心技术

CPU

LA664, LA464, LA364, LA264, LA132;

GPU

LG100;

高速接口

HT3、HT1, PCIE3.0、PCIE4.0;

片内互联总线

AXI, AHB, APB; XBAR、RING、BUS;

内存控制器

DDR4, DDR3, DDR2, SDRAM, SRAM;

 

打通各类接口

存储接口:SPI, SDIO, NAND Flash, NOR Flash;

音视频接口:HDA, AC97, I2S, CAMERA, LCD, HDMI;

网络接口:TSN;

工业接口:UART, I2C, PWM, CAN, LIO, LPC, TSensor, VPWM, RTC, ACPI, ADC; PPC, PCM, OC; JBIG, LSU;

已掌握2D/3DGPU技术

片内互联总线

全国产桥片方案

7A1000、7A2000;

多种定制模块

各种规格寄存器堆, PLL, DDR2/3/4-PHY, HT-PHY, PCIE-PHY……

中国龙芯能赶上西方设计吗?可能不是。
https://chipsandcheese.com/2024/04/29/can-chinas-loongson-catch-western-designs-probably-not/
之前看过龙芯的 3A5000 和 3A6000。这些芯片中的LA464和LA664内核是迄今为止看到的最有前途的中国国产设计。两者都能够实现合理的每时钟性能,尽管由于时钟速度低,绝对性能仍然落后于当前的英特尔和AMD CPU几代。看到一些评论说,中国正在与AMD和英特尔等西方公司相媲美。预测未来总是困难的,但历史经常重演。考虑到这一点,认为看看龙芯的历史是件好事。
龙芯起源于中国政府资助的国产CPU开发项目。中国“十五”规划通过863和973项目资助CPU发展4.CPU的开发发生在中国科学院计算技术研究所(ICT)。由此产生的 Godson-1 CPU 是一个 32 位、2 宽的无序内核和 16 KB 的 L1D/L1i 缓存。它在130 nm CMOS工艺上以266 MHz运行。找不到关于该 CPU 的论文,所以将继续讨论 Godson 2。
Godson-2:设定基线
ICT在2003年左右开发了Godson-2。Godson-2 是一个 64 位、4 宽的无序内核,运行频率为 434 MHz,占用空间为 41.54 mm2采用中芯国际 180 nm 工艺。这是对 Godson-1 的大规模升级,时钟速度大幅提高,每个时钟性能更高。
   由 Clam 绘制,使用来自 [1] 的信息
2003 年,AMD 通过其 K8 架构为移动、台式机和服务器应用程序提供服务。K8 是一个使用 x86-64 指令集的 3 宽无序架构。在 130 nm SOI 工艺上,K8 运行频率略高于 2 GHz,并占用193 毫米2.例如,Athlon 64 FX-51 的运行频率为 2.2 GHz。
 L2 缓存容量因 K8 实现而异
Godson-2 的管道更宽,但 K8 的无序执行引擎要大得多,并且在吸收延迟方面会更好。K8 可能具有每时钟性能优势,但怀疑它并不是一个巨大的优势。但是,即使 Godson-2 在每个时钟上具有竞争性能,K8 时钟也高得多,以至于 Godson-2 无法指望提供具有竞争力的性能。
 
参考文献链接
https://chipsandcheese.com/2024/04/29/can-chinas-loongson-catch-western-designs-probably-not/
posted @ 2024-08-06 14:05  吴建明wujianming  阅读(10)  评论(0编辑  收藏  举报