随笔- 121 文章- 0 评论- 29 阅读- 10万

OpenCompass使用LawBench数据测评本地Qwen大模型

合集 - 人工智能(1)

1.OpenCompass使用LawBench数据测评本地Qwen大模型2024-11-19

阅读目录

一、思维导图展示
二、OpenCompass简介
三、OpenCompass安装
四、OpenCompass在线测评(可选)
五、加载本地测试数据集
六、配置本地Qwen模型
七、编写本地测评脚本
八、启动本地测评
九、测评参数解释
十、测评结果

一、思维导图展示

二、OpenCompass简介

　　OpenCompass是一个大模型测评体系，开源、高效。同时集成CompassKit测评工具、CompassHub测评集社区，CompassRank测评榜单。

　　官网地址：https://opencompass.org.cn/home

三、OpenCompass安装

　　3.1 创建虚拟环境

conda create --name opencompass python=3.10 -y
conda activate opencompass

　　3.2 通过pip安装OpenCompass

# 支持绝大多数数据集及模型
pip install -U opencompass

# 完整安装（支持更多数据集）
# pip install "opencompass[full]"

# 模型推理后端，由于这些推理后端通常存在依赖冲突，建议使用不同的虚拟环境来管理它们。
# pip install "opencompass[lmdeploy]"
# pip install "opencompass[vllm]"

# API 测试（例如 OpenAI、Qwen）
# pip install "opencompass[api]"

　　3.3 基于源码安装OpenCompass

git clone https://github.com/open-compass/opencompass opencompass
cd opencompass
pip install -e .
# pip install -e ".[full]"
# pip install -e ".[vllm]"

　　3.4 下载系统数据集(可选)

　　　　因为我们使用自己下载的数据集，所以系统的数据集，不是必要的，但是为了原始程序的健壮性，还是推荐下载，因为我没有验证不下载的情况。

# 下载数据集到 data/ 处
wget https://github.com/open-compass/opencompass/releases/download/0.2.2.rc1/OpenCompassData-core-20240207.zip

# 解压之后是个文件夹叫data(后面会告诉这个dataf放在那里，先记住这个data文件夹)
unzip OpenCompassData-core-20240207.zip

　　3.5 使用ModelScope自动下载模型和数据(可选)

　　　　因为我们也是使用本地的模型，不需要程序中自己下载，如果做在线测试的，可以配置一下

pip install modelscope
export DATASET_SOURCE=ModelScope

　　3.6 在线测评(可选)

　　　　至此如果，你具备FQ的条件的话，就可以直接进行在线测试了。

四、OpenCompass在线测评(可选)

　　因为在线测评很多模型是从huggingface上直接下载，然后测评的，需要FQ，我这里就不演示了，直接把官网上的测试过程拿过来展示，如果不需要在线测试的可以直接跳过。

　　4.1 首次测评

　　　　OpenCompass 支持通过命令行界面 (CLI) 或 Python 脚本来设置配置。对于简单的评估设置，我们推荐使用 CLI；而对于更复杂的评估，则建议使用脚本方式。你可以在configs文件夹下找到更多脚本示例。

# 命令行界面 (CLI)
opencompass --models hf_internlm2_5_1_8b_chat --datasets demo_gsm8k_chat_gen

# Python 脚本
opencompass ./configs/eval_chat_demo.py

　　　　可以在 configs 文件夹下找到更多的脚本示例。

　　4.2 API测评

　　　　OpenCompass 在设计上并不区分开源模型与 API 模型。您可以以相同的方式或甚至在同一设置中评估这两种类型的模型。

export OPENAI_API_KEY="YOUR_OPEN_API_KEY"
# 命令行界面 (CLI)
opencompass --models gpt_4o_2024_05_13 --datasets demo_gsm8k_chat_gen

# Python 脚本
opencompass  ./configs/eval_api_demo.py

# 现已支持 o1_mini_2024_09_12/o1_preview_2024_09_12  模型, 默认情况下 max_completion_tokens=8192.

　　4.3 后端推理

　　　　如果您想使用除 HuggingFace 之外的推理后端来进行加速评估，比如 LMDeploy 或 vLLM，可以通过以下命令进行。

opencompass --models hf_internlm2_5_1_8b_chat --datasets demo_gsm8k_chat_gen -a lmdeploy

五、加载本地测试数据集

　　5.1 通过 git 下载我们要使用的LawBench数据集到本地

git clone https://gitee.com/ljn20001229/LawBench.git

　　说明：1处 OpenCompassData-core-20231110.zip是通过git下载的数据集压缩包，需要将其解压到同级的标记2处的 data 中。

　　说明：3处 LawBench 是 OpenCompassData-core-20231110.zip 解压后的文件。

　　至此我们自定义本地数据就就下载并放好了。

六、配置本地Qwen模型

　　6.1 模型下载。直接在modelscope上下载即可。

　　6.2 将下载好的模型，加入到项目目录中

七、编写本地测评脚本

　　7.1 在根目录的configs文件夹中创建 eval_local_qwen_1_8b_chat.py 用作我们的Qwen1.8B模型的测评启动脚本，代码如下：

 1 # eval_local_qwen_1_8b_chat.py
 2 
 3 from mmengine.config import read_base
 4 
 5 with read_base():
 6     # 导入数据集
 7     from .datasets.lawbench.lawbench_zero_shot_gen_002588 import lawbench_datasets as zero
 8     from .datasets.lawbench.lawbench_one_shot_gen_002588  import lawbench_datasets as one
 9     # 导入模型
10     from  opencompass.configs.models.qwen.local_qwen_1_8b_chat import models
11 datasets = [*zero, *one]

　　7.2 修改 from .datasets.lawbench.lawbench_zero_shot_gen_002588 import lawbench_datasets as zero 中的 lawbench_zero_shot_gen_002588 文件：

　　7.3 同样修改 from .datasets.lawbench.lawbench_one_shot_gen_002588 import lawbench_datasets as one 中的 lawbench_one_shot_gen_002588 文件

　　7.4 创建 from opencompass.configs.models.qwen.local_qwen_1_8b_chat import models 中的 qwen.local_qwen_1_8b_chat 文件

八、启动本地测评

　　本地测评直接使用python run.py 执行我们创建的 configs/eval_local_qwen_1_8b_chat.py 文件，在加上参数即可

 python run.py configs/eval_local_qwen_1_8b_chat.py  --debug

九、测评参数解释

--debug：调试模式，会有日志信息在控制台输出
--dry-run：该次测试只加载数据集，但是不会再测评中使用。
--accelerator vllm：vllm加速，适用于本地部署大模型
--reuse：是否重用历史结果
--work-dir：结果储存路径，默认是再outputs/default中
--max-num-worker：用于数据并行

十、测评结果

　　至此使用OpenCompass通过本地数据集LawBench测评本地模型Qwen1.8B_chat模型记录完毕，谢谢各位看官姥爷，看了这么久！笔芯！！！

posted @ 2024-11-19 17:34 Se7eN_HOU 阅读(544) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· python及第三方库交叉编译

· SQLAlchemy详解

· 书生开源大模型训练营-第6讲-作业

· 第6次InternLM实训营笔记

· 【基础岛·第6关】OpenCompass 评测 InternLM-1.8B 实践

阅读排行：
· DeepSeek “源神”启动！「GitHub 热点速览」
· 我与微信审核的“相爱相杀”看个人小程序副业
· 微软正式发布.NET 10 Preview 1：开启下一代开发框架新篇章
· C# 集成 DeepSeek 模型实现 AI 私有化（本地部署与 API 调用教程）
· spring官宣接入deepseek，真的太香了~

历史上的今天：
2021-11-19 Centos8上安装Redis5.X
2021-11-19 Centos8上安装MongoDB4.X

公告

昵称： Se7eN_HOU
园龄： 9年9个月
粉丝： 131
关注： 3

+加关注

2025年2月

日

一

二

三

四

五

六

侯哥的Python分享

OpenCompass使用LawBench数据测评本地Qwen大模型

一、思维导图展示

二、OpenCompass简介

三、OpenCompass安装

四、OpenCompass在线测评(可选)

五、加载本地测试数据集

六、配置本地Qwen模型

七、编写本地测评脚本

八、启动本地测评

九、测评参数解释

十、测评结果

公告

积分与排名

合集

随笔分类

阅读排行榜

评论排行榜

推荐排行榜

最新评论