随笔分类 - AI / LLM/LMM
摘要:反向传播是用来计算损失函数(Loss Function, \(L\))关于网络中各个参数的梯度的过程。这些梯度用于更新参数,从而降低损失函数的值,使网络性能更好。 \(\nabla_y L\): 这是损失函数 \(L\) 关于 \(y\) 的梯度。\(y\) 是前向传播中激活函数的输出。 \(\fr
阅读全文
摘要:我觉得最重要的有两点: 处理变长序列的稳定性:BN是在不同样本的同一维度做归一化,因为在seq2seq的场景中,样本数量不是固定的/输入序列是变长的,使用BN会导致不稳定。LN是在同一样本的不同维度做归一化,这样会更稳定。 小批量下的鲁棒性:Batch Norm的性能受批量大小影响显著,小批量可能导
阅读全文
摘要:社区/模型下载 ModelScope 魔搭社区 Hugging Face 微调 https://github.com/modelscope/swift https://github.com/hiyouga/LLaMA-Factory https://huggingface.co/docs/peft/
阅读全文
摘要:用于图片内容识别 https://www.kaggle.com/datasets/williamscott701/memotion-dataset-7k https://huggingface.co/datasets/sizhkhy/passports https://huggingface.co/
阅读全文
摘要:大语言模型,多模态大模型微调,qwen-vl,yi-vl-34b,qwen1.5,Swift框架
阅读全文
摘要:Gemini、QWEN-VL、Yi-VL等模型都是多模态大模型,其中Gemini是闭源的,Pro 和 Max 版本需要微调;QWEN-VL是开源的,Pro 和 Max 版本需要微调,下一步测试效果;ChatGLM有Vision版本,但GLM4已经闭源;GPT4-Vision-Preview版本图片理解能力较强,测试了少量样本,基本满足业务需求。Yi-VL-34B开源并支持Swift微调。
阅读全文