DeepSeek 相关知识学习和整理ing...
【硬件相关】
HBM3e:HBM3e是HBM(高带宽内存)技术的迭代升级版本,属于HBM3的扩展。它采用3D堆叠封装技术,将多个DRAM芯片垂直堆叠,通过硅互连通道传输数据,大幅提升带宽和容量,同时降低功耗。
迭代背景:HBM系列从第一代(HBM)到第五代(HBM3e)持续升级,每一代都提高了处理速度和性能。HBM3e于2022年后逐步进入市场,成为当前最先进的内存技术
参考资料:什么是HBM3E内存?Rambus HBM3E/3内存控制器内核
【模型相关】
111
【使用相关】
使用建议
我们建议在使用 DeepSeek-R1 系列模型(包括基准测试)时遵循以下配置,以实现预期性能:
- 将温度设置在 0.5-0.7 范围内(建议为 0.6),以防止无休止的重复或不连贯的输出。
- 避免添加系统提示;所有说明都应包含在用户提示中。
- 对于数学问题,建议在提示中包含一个指令,例如:“请逐步推理,并将您的最终答案放在 \boxed{} 内。”
- 在评估模型性能时,建议进行多次测试并取平均值。
此外,我们观察到 DeepSeek-R1 系列模型在响应某些查询时倾向于绕过思维模式(即输出“<think>\n\n</think>”),这可能会对模型的性能产生不利影响。 为了确保模型进行彻底的推理,我们建议强制模型在每次输出开始时以“<think>\n”作为响应。
参考资料:HuggingFace
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· 单线程的Redis速度为什么快?
· 展开说说关于C#中ORM框架的用法!
· Pantheons:用 TypeScript 打造主流大模型对话的一站式集成库
2019-02-13 English trip V1 - B 3. I'd Like a Room,Please 请给我一间房? Teacher:Julia Key: