DeepSeek 相关知识学习和整理ing...

 


【硬件相关】

HBM3e:HBM3e是HBM(高带宽内存)技术的迭代升级版本,属于HBM3的扩展。它采用3D堆叠封装技术,将多个DRAM芯片垂直堆叠,通过硅互连通道传输数据,大幅提升带宽和容量,同时降低功耗。

迭代背景:HBM系列从第一代(HBM)到第五代(HBM3e)持续升级,每一代都提高了处理速度和性能。HBM3e于2022年后逐步进入市场,成为当前最先进的内存技术

 

参考资料:什么是HBM3E内存?Rambus HBM3E/3内存控制器内核

 

 

【模型相关】

111

 

【使用相关】

使用建议

我们建议在使用 DeepSeek-R1 系列模型(包括基准测试)时遵循以下配置,以实现预期性能:

  1. 将温度设置在 0.5-0.7 范围内(建议为 0.6),以防止无休止的重复或不连贯的输出。
  2. 避免添加系统提示;所有说明都应包含在用户提示中。
  3. 对于数学问题,建议在提示中包含一个指令,例如:“请逐步推理,并将您的最终答案放在 \boxed{} 内。”
  4. 在评估模型性能时,建议进行多次测试并取平均值。

此外,我们观察到 DeepSeek-R1 系列模型在响应某些查询时倾向于绕过思维模式(即输出“<think>\n\n</think>”),这可能会对模型的性能产生不利影响。 为了确保模型进行彻底的推理,我们建议强制模型在每次输出开始时以“<think>\n”作为响应。

参考资料:HuggingFace

 

posted @   Cong0ks  阅读(14)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· 单线程的Redis速度为什么快?
· 展开说说关于C#中ORM框架的用法!
· Pantheons:用 TypeScript 打造主流大模型对话的一站式集成库
历史上的今天:
2019-02-13 English trip V1 - B 3. I'd Like a Room,Please 请给我一间房? Teacher:Julia Key:
点击右上角即可分享
微信分享提示