摘要:
目录1. 参考2. 如果是使用conda管理环境3. 使用virtualenv 1. 参考 https://blog.csdn.net/m0_61122217/article/details/133282467 2. 如果是使用conda管理环境 conda create -n myenv pyth 阅读全文
摘要:
目录1. 参考2. AgiBot World 数据集1. Arm(手臂)2. Waist(腰部)3. Chassis(底盘)4. Head(头部)5. End-Effector(末端执行器)6. Computing Platform(计算平台)7. Emergency Stop Button(紧急停 阅读全文
摘要:
目录1. 参考2. 概述重复惩罚(Repetition Penalty) 1. 参考 https://mp.weixin.qq.com/s/mBZA6PaMotJw7WeVdA359g 2. 概述 大型语言模型(LLMs)通过“根据上下文预测下一个 token 的概率分布”来生成文本。最简单的采样方 阅读全文
摘要:
目录1. 参考Batch Normalization理论作用 1. 参考 详解归一化、标准化、正则化以及batch normalization 论文 Batch Normalization BatchNorm层通常在激活函数之前应用。 它会自动计算每个特征的均值和方差,并根据小批量数据的统计信息进行 阅读全文
摘要:
目录1. 参考2. 神经网络LogisticTanh函数Hard-Logistic函数和Hard-Tanh函数ReLU函数优点缺点带泄露的ReLU带参数的ReLUELU函数Softplus函数Swish函数MISHGELU 激活函数 1. 参考 邱锡鹏老师的《神经网络与深度学习》 2. 神经网络 � 阅读全文
摘要:
目录1 参考2. 基础np.dotnp.outer 1 参考 “死亡”ReLUs 邱锡鹏老师的《神经网络与深度学习》 2. 基础 Sigmoid型函数的两端饱和, ReLU函数为左饱和函数,且在x > 0时导数为1,在一定程度上缓解了神经网络的梯度消失问题,加速梯度下降的收敛速度。 ReLU也是非线 阅读全文
摘要:
1. 参考 https://blog.csdn.net/voiiid/article/details/114825246 https://blog.csdn.net/shizheng_Li/article/details/144140912 2. 半精度浮点fp16 这两种数据类型编程是经常遇见 双 阅读全文
摘要:
目录1. 参考2. 回顾 FlashAttention V1V2Efficient Memory Attentionxformers 1. 参考 https://zhuanlan.zhihu.com/p/642962397 2. 回顾 FlashAttention V1 softmax稳定版 Fla 阅读全文
摘要:
目录1. 参考2. OBS -- Optimal Brain Surgeon and General Network Pruning3. Optimal Brain Compression: A Framework for Accurate Post-Training Quantization an 阅读全文
摘要:
目录1. 参考2. 介绍3. 权重的切分3.1 按行切分权重3.2 按列切分权重4. MLP层5. Self-Attention层6. Embedding层7. Cross-entropy层8. 张量模型并行 + 数据并行 1. 参考 https://zhuanlan.zhihu.com/p/622 阅读全文