摘要: 我觉得最重要的有两点: 处理变长序列的稳定性:BN是在不同样本的同一维度做归一化,因为在seq2seq的场景中,样本数量不是固定的/输入序列是变长的,使用BN会导致不稳定。LN是在同一样本的不同维度做归一化,这样会更稳定。 小批量下的鲁棒性:Batch Norm的性能受批量大小影响显著,小批量可能导 阅读全文
posted @ 2025-01-30 13:10 岁 阅读(25) 评论(0) 推荐(0) 编辑
摘要: 对于AlphaStar 中间的LSTM部分有不解的地方,这里对一些问题和细节做出了解释 阅读全文
posted @ 2024-12-18 18:02 岁 阅读(53) 评论(0) 推荐(0) 编辑
摘要: 在docker或linux中一劳永逸解决matplotlib中文显示问题 安装 mplfonts的安装方法是pip: pipinstallUmplfonts使mplfonts mplfonts init即可。 测试 import 阅读全文
posted @ 2024-05-16 09:37 岁 阅读(389) 评论(0) 推荐(0) 编辑
摘要: 自动历史管理 前面的示例将消息显式地传递给链。这是一种完全可接受的方法,但确实需要外部管理新消息。LangChain还包括一个名为RunnableWithMessageHistory的包裹器,能够自动处理这个过程。 为了展示其工作原理,我们稍微修改上面的提示,增加一个最终输入变量,该变量在聊天历史记 阅读全文
posted @ 2024-05-15 17:55 岁 阅读(1274) 评论(0) 推荐(0) 编辑
摘要: from langchain_core.output_parsers import StrOutputParser from langchain_core.runnables import RunnableParallel from langchain_openai import ChatOpenA 阅读全文
posted @ 2024-05-15 17:51 岁 阅读(492) 评论(0) 推荐(0) 编辑
摘要: xinference+Qwen1.5MoE+LangChain,如何让国内开源大模型输出我们想要的知识 阅读全文
posted @ 2024-04-18 18:25 岁 阅读(1662) 评论(0) 推荐(0) 编辑
摘要: LangChain SQL 该模块可以让我们向LLM提问时从数据库中查询数据并做出回答。 架构 SQL chain和agent的高层抽象架构: 问题转查询SQL:使用LLM将用户输入转成SQL查询 执行SQL查询:执行SQL语句 回答问题:LLM根据数据库查询结果返回回答内容 环境安装 安装必要环境 阅读全文
posted @ 2024-03-29 18:11 岁 阅读(1674) 评论(0) 推荐(0) 编辑
摘要: 社区/模型下载 ModelScope 魔搭社区 Hugging Face 微调 https://github.com/modelscope/swift https://github.com/hiyouga/LLaMA-Factory https://huggingface.co/docs/peft/ 阅读全文
posted @ 2024-03-24 22:06 岁 阅读(103) 评论(0) 推荐(0) 编辑
摘要: XShell -- xshell7破解版下载链接: https://www.123pan.com/s/yYD5Vv-0g7Vv.html -- xftp7绿色免安装版下载地址: https://www.123pan.com/s/yYD5Vv-cm7Vv.html -- xmanager7破解版: h 阅读全文
posted @ 2024-03-20 09:50 岁 阅读(145) 评论(0) 推荐(0) 编辑
摘要: linux、win 资源监控工具,可以监控显存和占用率 阅读全文
posted @ 2024-03-15 09:59 岁 阅读(555) 评论(0) 推荐(0) 编辑
点击右上角即可分享
微信分享提示