上一页 1 2 3 4 5 6 ··· 47 下一页
摘要: https://blog.csdn.net/Kelly_Ai_Bai/article/details/135081885 05. 为什么transformer块使用LayerNorm而不是BatchNormBatch Normalization 是对这批样本的同一维度特征做归一化, Layer No 阅读全文
posted @ 2024-07-06 17:41 小丑_jk 阅读(27) 评论(0) 推荐(0) 编辑
摘要: 现代大型语言模型,如GPT-3、GPT-J、和GPT-Neo等,主要采用Decoder-only结构,这是由于几个关键原因: 并行计算:Decoder-only模型在训练时可以采用单向注意力机制,这意味着每个token只关注它之前的token。这种单向性使得模型可以在训练时更容易地并行处理数据,从而 阅读全文
posted @ 2024-07-05 18:22 小丑_jk 阅读(87) 评论(0) 推荐(0) 编辑
摘要: 可行: https://zhuanlan.zhihu.com/p/702060624 https://zhuanlan.zhihu.com/p/692417348 https://blog.csdn.net/weixin_43564783/article/details/131869748 阅读全文
posted @ 2024-07-05 11:54 小丑_jk 阅读(3) 评论(0) 推荐(0) 编辑
摘要: https://blog.csdn.net/Scenery0519/article/details/128081062 nccl-test的测试:https://blog.csdn.net/MrKingloveyou/article/details/136074767 nccl2的调用案例:http 阅读全文
posted @ 2024-07-03 14:13 小丑_jk 阅读(49) 评论(0) 推荐(0) 编辑
摘要: Layer Normalization(层归一化)和 Batch Normalization(批量归一化)都是深度学习中常用的归一化技术,用于加速训练过程和改善模型性能。它们的主要区别在于归一化的方式和应用的场景。 Batch Normalization(批量归一化): 归一化方式:Batch No 阅读全文
posted @ 2024-07-01 17:55 小丑_jk 阅读(139) 评论(0) 推荐(0) 编辑
摘要: llm的接入: https://blog.csdn.net/orientharp/article/details/139884688 embedding模型的接入: https://inference.readthedocs.io/zh-cn/latest/models/builtin/embedd 阅读全文
posted @ 2024-06-28 18:09 小丑_jk 阅读(66) 评论(0) 推荐(0) 编辑
摘要: https://inference.readthedocs.io/zh-cn/latest/models/builtin/llm/glm4-chat.html#model-spec-1-pytorch-9-billion 阅读全文
posted @ 2024-06-28 10:45 小丑_jk 阅读(41) 评论(0) 推荐(0) 编辑
摘要: https://zhuanlan.zhihu.com/p/692383624 阅读全文
posted @ 2024-06-28 00:40 小丑_jk 阅读(15) 评论(0) 推荐(0) 编辑
摘要: https://blog.csdn.net/sinat_37574187/article/details/137842571 阅读全文
posted @ 2024-06-26 13:46 小丑_jk 阅读(83) 评论(0) 推荐(0) 编辑
摘要: import numpy as np def softmax(x, axis=-1): """Softmax函数,用于计算注意力权重""" e_x = np.exp(x - np.max(x, axis=axis, keepdims=True)) return e_x / e_x.sum(axis= 阅读全文
posted @ 2024-06-23 16:49 小丑_jk 阅读(781) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 47 下一页