人工智能芯片投资可能玄
度目智能视频分析盒G1搭载英伟达芯片,算力高达14TOPS;[link] 疑似公版电脑:智能视频分析盒_瑞铭安普 (rymap.com)
NVIDIA Jetson AGX Xavier Benchmarks - Incredible Performance On The Edge Review - Phoronix
Tegra Xavier - Nvidia - WikiChip Engineering:Nvidia Jetson - HandWiki World’s Smallest AI Supercomputer: Jetson Xavier NX | NVIDIA
窃以为这个14TOPS有水分。因为GPU的每个"核"功能很单一,可以全部用电路实现,来上它1000个,再乘上3G主频,才3T? 好吧很nb,反正我用不着买。
Tegra X1 (2015) and X2 (2016) With eight 64-bit CPU cores and 256 graphics cores (CUDA cores), the X1 was the hardware in Nintendo's Switch console.
Tegra Xavier is A high-performance system-on-chip (SoC) from NVIDIA. Introduced in 2018, the Xavier SoC was designed for robotics, drones and autonomous driving. The Xavier die, which is based on 12 nm process technology, contains nine billion transistors that includes an eight-core ARM CPU, two NVIDIA deep learning accelerators (DLAs), a custom GPU, programmable vision accelerator (PVA) and multimedia accelerators.
这这这…… 3年前还掌上游戏机呢…… 任家的卖点可不是CPU快啊。
It has eight Volta stream multiprocessors ... the GPU here is optimized for inference. The most obvious change is that each Volta multiprocessor contains eight tensor cores, each of which can perform 64x FP16 MACs or 128x INT8 MACs per cycle. All of this yields a maximum 22.6 tera-operations (int8) per second. 8*8*128=8192, 主频2.7G?
Artificial intelligence (AI) algorithms require significant computing power for running successive matrix calculations. Multiply accumulate (MAC) is the most critical operation in AI computation at the chip level. [nature]
2020年,寒武纪终端智能处理器IP授权业务收入同比下滑82.96%,主要就是因为华为海思选择自研终端智能芯片,未与寒武纪继续合作。[链接]
最强六大开源轻量级人脸检测项目分析 | 附打包下载 - 知乎
以人脸识别为例。它分为offline的训练模型和online的使用模型两部分,简称训练和使用。使用又被叫做推X(inference/induction),我觉得就是矩阵运算,乘来加去。训练费算力,比如百度用了4张nVidia的显卡训练模型,可以从一张大合照中挑出7~800张人脸。使用部分我怀疑相对地相当地不耗CPU——如果降低一点精度,使用小模型的话。所以:
1. 也许某为发现用Arm CPU的NEON指令,效果就足够好
2. 也许某度想:就算买4096张nVidia的显卡,4000万人民币够了吧,自研芯片这么多钱够吗?
在商言商,我一点评价的资格都没有。别像某想一会觉得自己是国企,采购该向自己倾斜,一会又觉得自己是国际公司,就不错了。捐款建计算中心约等于进口一堆Intel Xeon CPU芯片。国产超算_360搜索
瞎吹下:risc-v指令集 + 扩展(自定义)SIMD指令 + 龙芯的技术 + 国产大容量高速SSD + 航空铝材机箱 + 高档键鼠 + UOS = 相当好用的国产电脑 [以上排名不分先后:-)]
有些人可能把公家给配电脑看作一种福利,给配个便宜点的不乐意,又不好意思直说,就乱挑毛病。
如何自定义SIMD指令?
// a.cpp float dot_product(int n, float* a, float* b) { ... } // b.cpp extern float a[100], b[100]; dot_product(100, a, b); // c.cpp float a[100], b[100];
好像优化dot_product()时并不需要考虑重定位的问题。也许可以:dot_product()手写汇编,用略加修改的nasm之类编译。jmp fedcba00表示自定义指令开始,jmp fedcba01表示结束。夹在它们之间的指令,每条的机器码都是合法的risc-v基本/标准指令机器码,但CPU执行时按照不同的意思来处理。OpenSSL, ffmpeg等里,汇编代码只占总量的很少一部分。OpenSSL就算不用AES指令,也相当快,桌面办公数百MB/秒还不够吗?risc-v有两条标准的escape, unescape指令就好了,或者标志寄存器里多一位就够了嘛,或者用标志寄存器等于某个特殊的数时表示执行用户自定义指令。哦,好像忘了考虑中断了,关中断算点积?:-) 反正是瞎说。
公司名字中有个三:首先三就长得像八卦,可以做logo,其次三大战役、韦编三绝、三羊开泰、三鲜饺子,三只松鼠…… 三是最小的多,三角形是边最少的多边形。delta(三角洲)是希腊字母表的第4个字母,第3个是gamma Γ γ,三叉戟,三木为森,三金为鑫,三牛为犇,最后,计算、存储、通信 三大件。
GPU/TPU可以做成卡,也可以和CPU捏在一起,如Tegra Xavier,它的优点是低功耗。比如它50W, 国产的CPU+卡,100W,性能也低一点,也完全可以接受啊。灭霸才有一个响指就超过Intel, nVidia,AMD/ATI的本事。CPU+GPU异构计算,多了来回copy的开销,但大公司不是在玩4096张显卡吗?要看算力的具体应用,不是为算力而算力,刷榜比数字。80年代人们就PC机插块TI的TMS卡做语音识别了。无论risc-v, sparc, mips,我觉得不支持SIMD,高主频+大Cache,办公就够用了。关键要linux和gcc支持。GPU/TPU一个周期加128个int8,好像堆料就行了啊,128个加法器呗。分离式的CPU+GPU/TPU,随着总线和内存带宽的提高,性能和功耗不是最优,但够用了。
GPU/TPU上程序的开发,汇编够了。国人用汇编写不了比如DCT,可以花钱请俄罗斯人写,写好后长期不用改。
AMD好像也在搞机器学习框架,直接抄nv的CUDA,把代码的cuda_a_func_name都换成r啥啥_a_func_name,nv好像没意见/脾气。这个方法可以借鉴。
以上全部瞎说,请勿嘲笑,再说我早机智地关闭了评论。:-)
Secure Browser-based Video with WebAssembly (mainconcept.com) With the MainConcept HEVC Decoder, you can build powerful applications with optimized performance for multi-threaded H.265 video decoding on any device with an Internet browser supporting WebASM. 放视频软解未必不能凑合,起码手机上VLC软解低码率H264没问题(开硬件加速后个别文件播放不了)。以前有VCD硬解卡,用color key和其它内容叠加显示。板卡其实也是台电脑,不知能否显卡带嵌入式linux:-),risc-v+cuda的二合一精简版,好处是刷firmware即可支持未来的H.269。卡上的linux和主机的linux同时启动,用户感觉不到卡上linux的启动时间。
国产显卡不知能否仅2D不支持OpenGL + 基本兼容CUDA的TPU或SIMD之类,要给nv和ati留条活路嘛。:-)
两条相邻的jmp指令可形成死循环,正常程序绝不会这么干,所以可用来作为escape的标志。关中断100 ns应该没事吧,大矩阵可以分块算,每算一块开中断透口气。切换线程上下文不保存和恢复SSE寄存器,对linux透明。透气时保存在内存/cache中。
龙芯的南桥用的是FPGA. What if 国产显卡为2D显卡+FPGA?第三方厂商可"刷入"兼容其它厂商的东东。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· 三行代码完成国际化适配,妙~啊~
· .NET Core 中如何实现缓存的预热?
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?