随笔- 52 文章- 0 评论- 9 阅读- 87303

大模型评测-微软亚洲研究院：A Survey on Evaluation of Large Language Models论文分享

合集 - 大模型测试(1)

1.大模型评测-微软亚洲研究院：A Survey on Evaluation of Large Language Models论文分享2024-01-02

《A Survey on Evaluation of Large Language Models》

一、论文介绍：微软亚洲研究院公开了介绍大模型评测领域的论文《A Survey on Evaluation of Large Language Models》。该论文一共调研了219篇文献，以评测内容 (what to evaluate)、评测领域 (where to evaluate)、评测方法 (How to evaluate)和目前的评测挑战话题展开的研究。

二、评测过程

三、感谢的朋友可以留言，无条件分享论文！！！

posted @ 2024-01-02 15:49 岁月如歌_九阅读(242) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· 大模型评测探索

· 中文大模型基准测试报告--SuperCLUE评测报告分享

· 2024年6月上半月30篇大语言模型的论文推荐

· 【论文阅读】多模态大模型系列【尚未填坑】

· 大模型评测工具&评测基准

阅读排行：
· 25岁的心里话
· 闲置电脑爆改个人服务器（超详细） #公网映射 #Vmware虚拟网络编辑器
· 零经验选手，Compose 一天开发一款小游戏！
· 因为Apifox不支持离线，我果断选择了Apipost！
· 通过 API 将Deepseek响应流式内容输出到前端

公告

昵称：岁月如歌_九
园龄： 6年7个月
粉丝： 17
关注： 0

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

合集

大模型测试(1)

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:大模型评测探索
"六、感兴趣的可以留言，一起探索大模型应用测试的项目实践"

楼主方便加个好友吗？一起聊聊
--胖喵~
2. Re:ChatGPT高质量prompt技巧指南-《向 ChatGPT 提问获取高质量答案的艺术：Prompt 工程技术完全指南》图书分享
@jerrynorman 你给我一个邮箱吧，给发给你~...
--岁月如歌_九
3. Re:ChatGPT高质量prompt技巧指南-《向 ChatGPT 提问获取高质量答案的艺术：Prompt 工程技术完全指南》图书分享
怎么下载，感谢
--jerrynorman
4. Re:【AI测试】借助自动化框架实现-短文本相似度模型测试（基于LCQMC语料）
博主，请发我一份LCQMC数据集，非常感谢！！！！邮箱：1690250450@qq.com
--仟仟果实
5. Re:【AI测试】借助自动化框架实现-短文本相似度模型测试（基于LCQMC语料）
@岁月如歌_九已收到～谢谢博主！！...
--稀里呼噜