摘要: ReAct论文解读:LLM ReAct范式,在大语言模型中结合推理和动作 最近在研究如何让GPT正确做动作,比如搜索内容,发现了《SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS》这篇论文。作者提出了ReAct范式,通过将推理和动作相结合来克服L 阅读全文
posted @ 2024-04-23 17:45 bonelee 阅读(266) 评论(0) 推荐(0) 编辑
摘要: Reflexion: Language Agents withVerbal Reinforcement Learning 该文章的要点和关键技术,算法流程 该文章提出了一种名为"Reflexion"的新型框架,用于通过语言反馈来强化语言智能体的学习。主要包含以下几个关键点: 框架组成: Actor模 阅读全文
posted @ 2024-04-23 17:23 bonelee 阅读(205) 评论(0) 推荐(0) 编辑
摘要: ROUGE(Recall-Oriented Understudy for Gisting Evaluation)指标是用于评估文本摘要质量的一种常用指标。它通过比较生成的摘要与参考摘要之间的重叠词语或短语来衡量它们之间的相似度。ROUGE指标通常包括多个子指标,如ROUGE-N(考虑n-gram重叠 阅读全文
posted @ 2024-04-23 11:37 bonelee 阅读(1592) 评论(0) 推荐(0) 编辑
摘要: 大模型评估指标 1.基础评估指标 参考klu.ai和Microsoft.com的评估指标列表如下:https://klu.ai/glossary/llm-evaluation 类别 度量 描述 用户参与度和效用指标 访问 访问LLM应用程序功能的用户数 提交 提交提示词的用户数 响应 LLM应用程序 阅读全文
posted @ 2024-04-23 10:57 bonelee 阅读(3528) 评论(2) 推荐(1) 编辑
摘要: 大语言模型(LLM)评价指标小汇总(也许会更新) from:https://zhuanlan.zhihu.com/p/641416694 ​ 目录 总之就是接了个小项目,这些天统计了一些LLM评价指标,不算很全面,很多方法的具体操作都不是很熟悉,参考论文也没找全,大家就凑合着看: 1. 榜单、论文统 阅读全文
posted @ 2024-04-23 09:46 bonelee 阅读(656) 评论(0) 推荐(0) 编辑