2024年6月上半月30篇大语言模型的论文推荐
大语言模型(LLMs)在近年来取得了快速发展。本文总结了2024年6月上半月发布的一些最重要的LLM论文,可以让你及时了解最新进展。
LLM进展与基准测试
1、WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild
WildBench是一个自动评估框架,使用具有挑战性的、现实世界中的用户查询来基准测试大语言模型(LLMs)。WildBench包含1,024个任务和精心挑选超过一百万个人机对话日志。
为了使用WildBench进行自动评估,论文开发了两个指标,WB-Reward和WB-Score,这些指标可以使用高级LLMs如GPT-4-turbo计算。
https://avoid.overfit.cn/post/ee1689e382f54777b72dbb4a4610a64a
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
2023-06-25 MaskFormer:将语义分割和实例分割作为同一任务进行训练
2022-06-25 使用“BERT”作为编码器和解码器(BERT2BERT)来改进Seq2Seq文本摘要模型