摘要:
本文地址:https://wanger-sjtu.github.io/fp16-err/ 最近在项目中需要实现fp16的数据类型做FFN的计算,算子实现的同学反馈误差与x86上得到的golden数据有比较大误差。开始以为是x86侧做数值模拟仿真的问题。后面也实现了对比了一下,发现误差累计确实挺大。 阅读全文
摘要:
本文地址:https://wanger-sjtu.github.io/fast-dequant/ 主要记录了论文Who Says Elephants Can't Run: Bringing Large Scale MoE Models into Cloud Scale Production中关于反量 阅读全文
摘要:
本文地址:https://wanger-sjtu.github.io/TurboSparse/ 关于llama稀疏性的观察 llama原始模型的FFN计算过程为: \[f(x) = \text{silu}(xW_{Gate}) \odot xW_{UP} \times W_{Down} \]clas 阅读全文
摘要:
本文连接:https://wanger-sjtu.github.io/CARGA/ CAGRA 是 N社在RAFT项目中 最新的 ANN 向量索引。这是一种高性能的、 GPU 加速的、基于图的方法,尤其是针对小批量情况进行了优化,其中每次查找只包含一个或几个查询向量。 与其他像HNSW、SONG等这 阅读全文
摘要:
本文永久地址:https://wanger-sjtu.github.io/encoder-cross-bi/ Bi-encoder和Cross-encoder是在自然语言理解任务模型的两种不同方法,在信息检索和相似性搜索二者的使用更为广泛。在LLM大火的今天,RAG的pipe line中这两个模块作 阅读全文
摘要:
本文地址: https://www.cnblogs.com/wanger-sjtu/p/17561896.html 首先假设我的文件全称:/home/luna/Desktop/Software/softHLA/HLAreporter.v103/HLAreporter.sh. ## 获取文件名 ### 阅读全文
摘要:
本文地址:https://www.cnblogs.com/wanger-sjtu/p/17573212.html TVM在编译过程中,经历了 ```mermaid graph LR A[3rd IR] --> B[Relay IR] B --> C[TIR] C --> D[LLVM IR] C - 阅读全文
摘要:
本文地址:https://www.cnblogs.com/wanger-sjtu/p/SVE_learn_0.html SVE对比NEON有几个新增的地方。 1. 变长的向量 2. 支持Gather-load && Scatter-store ![](https://img2023.cnblogs. 阅读全文
摘要:
本文地址:https://www.cnblogs.com/wanger-sjtu/p/17501119.html blog: https://wanger-sjtu.github.io/VectorizeLoop/ VectorizeLoop这个PASS就是对标记为ForKind::kVectori 阅读全文
摘要:
本文地址:https://wanger-sjtu.github.io/mlc-llm/ LLM 等GPT大模型大火以后,TVM社区推出了自己的部署方案,支持Llama,Vicuna,Dolly等模型在iOS、Android、GPU、浏览器等平台上部署运行。 https://github.com/ml 阅读全文