随笔分类 -  AI / LLM/LMM

摘要:反向传播是用来计算损失函数(Loss Function, \(L\))关于网络中各个参数的梯度的过程。这些梯度用于更新参数,从而降低损失函数的值,使网络性能更好。 \(\nabla_y L\): 这是损失函数 \(L\) 关于 \(y\) 的梯度。\(y\) 是前向传播中激活函数的输出。 \(\fr 阅读全文
posted @ 2025-02-26 11:34 阅读(6) 评论(0) 推荐(0) 编辑
摘要:我觉得最重要的有两点: 处理变长序列的稳定性:BN是在不同样本的同一维度做归一化,因为在seq2seq的场景中,样本数量不是固定的/输入序列是变长的,使用BN会导致不稳定。LN是在同一样本的不同维度做归一化,这样会更稳定。 小批量下的鲁棒性:Batch Norm的性能受批量大小影响显著,小批量可能导 阅读全文
posted @ 2025-01-30 13:10 阅读(32) 评论(0) 推荐(0) 编辑
摘要:社区/模型下载 ModelScope 魔搭社区 Hugging Face 微调 https://github.com/modelscope/swift https://github.com/hiyouga/LLaMA-Factory https://huggingface.co/docs/peft/ 阅读全文
posted @ 2024-03-24 22:06 阅读(106) 评论(0) 推荐(0) 编辑
摘要:modelscope的swift微调框架命令行参数 阅读全文
posted @ 2024-03-14 15:21 阅读(4587) 评论(0) 推荐(0) 编辑
摘要:modelscope大模型下载 阅读全文
posted @ 2024-02-29 13:57 阅读(194) 评论(0) 推荐(0) 编辑
摘要:用于图片内容识别 https://www.kaggle.com/datasets/williamscott701/memotion-dataset-7k https://huggingface.co/datasets/sizhkhy/passports https://huggingface.co/ 阅读全文
posted @ 2024-02-28 13:52 阅读(83) 评论(0) 推荐(0) 编辑
摘要:大语言模型,多模态大模型微调,qwen-vl,yi-vl-34b,qwen1.5,Swift框架 阅读全文
posted @ 2024-02-27 11:29 阅读(4235) 评论(1) 推荐(1) 编辑
摘要:Gemini、QWEN-VL、Yi-VL等模型都是多模态大模型,其中Gemini是闭源的,Pro 和 Max 版本需要微调;QWEN-VL是开源的,Pro 和 Max 版本需要微调,下一步测试效果;ChatGLM有Vision版本,但GLM4已经闭源;GPT4-Vision-Preview版本图片理解能力较强,测试了少量样本,基本满足业务需求。Yi-VL-34B开源并支持Swift微调。 阅读全文
posted @ 2024-02-23 18:40 阅读(2779) 评论(1) 推荐(0) 编辑