摘要: https://blog.csdn.net/bicart/article/details/140530512 如果找不到库,那么如下: pyinstaller --onefile app.py --add-data "../module;./module" 由于打包之后找到的路径都是C盘tmp下面的 阅读全文
posted @ 2024-07-24 18:32 小丑_jk 阅读(1) 评论(0) 推荐(0) 编辑
摘要: https://zhuanlan.zhihu.com/p/35391826 阅读全文
posted @ 2024-07-17 16:10 小丑_jk 阅读(1) 评论(0) 推荐(0) 编辑
摘要: https://zhuanlan.zhihu.com/p/436621498 阅读全文
posted @ 2024-07-16 11:12 小丑_jk 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 在Vision Transformer (ViT) 中,自注意力机制的范围是指模型在处理图像块时,每个图像块能够与其他哪些图像块进行交互。ViT的自注意力机制具有全局范围,这意味着在自注意力层中,每个图像块都可以与其他所有图像块进行交互,而不管它们在原始图像中的空间位置如何。以下是ViT自注意力机制 阅读全文
posted @ 2024-07-16 10:27 小丑_jk 阅读(4) 评论(0) 推荐(0) 编辑
摘要: https://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247617834&idx=1&sn=2b8f0f56b8b5b25e5ba1240e5705a6a8&chksm=e9e004a1de978db79be4b5d01829959efb839 阅读全文
posted @ 2024-07-11 11:40 小丑_jk 阅读(9) 评论(0) 推荐(0) 编辑
摘要: 多头注意力机制是一种用于处理序列数据的神经网络结构,在自然语言处理领域中得到广泛应用。它可以帮助模型更好地理解和学习输入序列中的信息,提高模型在各种任务上的性能。 多头注意力机制是基于注意力机制的改进版本,它引入了多个注意力头,每个头都可以关注输入序列中不同位置的信息。通过汇总多个头的输出,模型可以 阅读全文
posted @ 2024-07-09 18:19 小丑_jk 阅读(28) 评论(0) 推荐(0) 编辑
摘要: https://zhuanlan.zhihu.com/p/688993851 阅读全文
posted @ 2024-07-08 15:39 小丑_jk 阅读(5) 评论(0) 推荐(0) 编辑
摘要: https://blog.csdn.net/Kelly_Ai_Bai/article/details/135081885 05. 为什么transformer块使用LayerNorm而不是BatchNormBatch Normalization 是对这批样本的同一维度特征做归一化, Layer No 阅读全文
posted @ 2024-07-06 17:41 小丑_jk 阅读(8) 评论(0) 推荐(0) 编辑
摘要: 现代大型语言模型,如GPT-3、GPT-J、和GPT-Neo等,主要采用Decoder-only结构,这是由于几个关键原因: 并行计算:Decoder-only模型在训练时可以采用单向注意力机制,这意味着每个token只关注它之前的token。这种单向性使得模型可以在训练时更容易地并行处理数据,从而 阅读全文
posted @ 2024-07-05 18:22 小丑_jk 阅读(37) 评论(0) 推荐(0) 编辑
摘要: 可行: https://zhuanlan.zhihu.com/p/702060624 https://zhuanlan.zhihu.com/p/692417348 https://blog.csdn.net/weixin_43564783/article/details/131869748 阅读全文
posted @ 2024-07-05 11:54 小丑_jk 阅读(2) 评论(0) 推荐(0) 编辑