摘要: Turbo Sparse:关于LLM稀疏性的探索 本文地址:https://wanger-sjtu.github.io/TurboSparse/ 关于llama稀疏性的观察 llama原始模型的FFN计算过程为: \[f(x) = \text{silu}(xW_{Gate}) \odot xW_{UP} \times W_{Down} \]clas 阅读全文
posted @ 2024-08-10 22:52 青铜时代的猪 阅读(162) 评论(0) 推荐(0) 编辑