07 2024 档案

摘要:https://blog.csdn.net/bicart/article/details/140530512 如果找不到库,那么如下: pyinstaller --onefile app.py --add-data "../module;./module" 由于打包之后找到的路径都是C盘tmp下面的 阅读全文
posted @ 2024-07-24 18:32 小丑_jk 阅读(9) 评论(0) 推荐(0) 编辑
摘要:https://zhuanlan.zhihu.com/p/35391826 阅读全文
posted @ 2024-07-17 16:10 小丑_jk 阅读(3) 评论(0) 推荐(0) 编辑
摘要:https://zhuanlan.zhihu.com/p/436621498 4x、8x、16x分别代表下采样的倍率,即patch的大小; https://blog.csdn.net/aixiaomi123/article/details/128724267 阅读全文
posted @ 2024-07-16 11:12 小丑_jk 阅读(1) 评论(0) 推荐(0) 编辑
摘要:在Vision Transformer (ViT) 中,自注意力机制的范围是指模型在处理图像块时,每个图像块能够与其他哪些图像块进行交互。ViT的自注意力机制具有全局范围,这意味着在自注意力层中,每个图像块都可以与其他所有图像块进行交互,而不管它们在原始图像中的空间位置如何。以下是ViT自注意力机制 阅读全文
posted @ 2024-07-16 10:27 小丑_jk 阅读(42) 评论(0) 推荐(0) 编辑
摘要:https://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247617834&idx=1&sn=2b8f0f56b8b5b25e5ba1240e5705a6a8&chksm=e9e004a1de978db79be4b5d01829959efb839 阅读全文
posted @ 2024-07-11 11:40 小丑_jk 阅读(15) 评论(0) 推荐(0) 编辑
摘要:多头注意力机制是一种用于处理序列数据的神经网络结构,在自然语言处理领域中得到广泛应用。它可以帮助模型更好地理解和学习输入序列中的信息,提高模型在各种任务上的性能。 多头注意力机制是基于注意力机制的改进版本,它引入了多个注意力头,每个头都可以关注输入序列中不同位置的信息。通过汇总多个头的输出,模型可以 阅读全文
posted @ 2024-07-09 18:19 小丑_jk 阅读(134) 评论(0) 推荐(0) 编辑
摘要:https://zhuanlan.zhihu.com/p/688993851 阅读全文
posted @ 2024-07-08 15:39 小丑_jk 阅读(41) 评论(0) 推荐(0) 编辑
摘要:https://blog.csdn.net/Kelly_Ai_Bai/article/details/135081885 05. 为什么transformer块使用LayerNorm而不是BatchNormBatch Normalization 是对这批样本的同一维度特征做归一化, Layer No 阅读全文
posted @ 2024-07-06 17:41 小丑_jk 阅读(56) 评论(0) 推荐(0) 编辑
摘要:现代大型语言模型,如GPT-3、GPT-J、和GPT-Neo等,主要采用Decoder-only结构,这是由于几个关键原因: 并行计算:Decoder-only模型在训练时可以采用单向注意力机制,这意味着每个token只关注它之前的token。这种单向性使得模型可以在训练时更容易地并行处理数据,从而 阅读全文
posted @ 2024-07-05 18:22 小丑_jk 阅读(407) 评论(0) 推荐(0) 编辑
摘要:可行: https://zhuanlan.zhihu.com/p/702060624 https://zhuanlan.zhihu.com/p/692417348 https://blog.csdn.net/weixin_43564783/article/details/131869748 阅读全文
posted @ 2024-07-05 11:54 小丑_jk 阅读(7) 评论(0) 推荐(0) 编辑
摘要:https://blog.csdn.net/Scenery0519/article/details/128081062 nccl-test的测试:https://blog.csdn.net/MrKingloveyou/article/details/136074767 nccl2的调用案例:http 阅读全文
posted @ 2024-07-03 14:13 小丑_jk 阅读(84) 评论(0) 推荐(0) 编辑
摘要:Layer Normalization(层归一化)和 Batch Normalization(批量归一化)都是深度学习中常用的归一化技术,用于加速训练过程和改善模型性能。它们的主要区别在于归一化的方式和应用的场景。 Batch Normalization(批量归一化): 归一化方式:Batch No 阅读全文
posted @ 2024-07-01 17:55 小丑_jk 阅读(449) 评论(0) 推荐(0) 编辑