目录
- 前言
- 快速开始
-
- 环境安装
- 数据准备
- 查看支持的数据集和模型
- 启动评测
- 基础作业
- 进阶作业
前言
- 模型层:大模型评测所涉及的主要模型种类,OpenCompass以基座模型和对话模型作为重点评测对象。
- 能力层:OpenCompass从本方案从通用能力和特色能力两个方面来进行评测维度设计。在模型通用能力方面,从语言、知识、理解、推理、安全等多个能力维度进行评测。在特色能力方面,从长文本、代码、工具、知识增强等维度进行评测。
- 方法层:OpenCompass采用客观评测与主观评测两种评测方式。客观评测能便捷地评估模型在具有确定答案(如选择,填空,封闭式问答等)的任务上的能力,主观评测能评估用户对模型回复的真实满意度,OpenCompass采用基于模型辅助的主观评测和基于人类反馈的主观评测两种方式。
- 工具层:OpenCompass提供丰富的功能支持自动化地开展大语言模型的高效评测。包括分布式评测技术,提示词工程,对接评测数据库,评测榜单发布,评测报告生成等诸多功能。
快速开始
环境安装
conda create --name opencompass --clone=/root/share/conda_envs/internlm-base source activate opencompass git clone https://github.com/open-compass/opencompass cd opencompass pip install -e .
有部分第三方功能,如代码能力基准测试 Humaneval 以及 Llama格式的模型评测,可能需要额外步骤才能正常运行,如需评测,详细步骤请参考安装指南。
数据准备
# 解压评测数据集到 data/ 处 cp /share/temp/datasets/OpenCompassData-core-20231110.zip /root/opencompass/ unzip OpenCompassData-core-20231110.zip # 将会在opencompass下看到data文件夹
查看支持的数据集和模型
# 列出所有跟 internlm 及 ceval 相关的配置 python tools/list_configs.py internlm ceval
启动评测
确保按照上述步骤正确安装 OpenCompass 并准备好数据集后,可以通过以下命令评测 InternLM-Chat-7B 模型在 C-Eval 数据集上的性能。由于 OpenCompass 默认并行启动评估过程,我们可以在第一次运行时以 --debug 模式启动评估,并检查是否存在问题。在 --debug 模式下,任务将按顺序执行,并实时打印输出。
python run.py --datasets ceval_gen --hf-path /share/temp/model_repos/internlm-chat-7b/ --tokenizer-path /share/temp/model_repos/internlm-chat-7b/ --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True --model-kwargs trust_remote_code=True device_map='auto' --max-seq-len 2048 --max-out-len 16 --batch-size 4 --num-gpus 1 --debug
命令解析
--datasets ceval_gen # 数据集 --hf-path /share/temp/model_repos/internlm-chat-7b/ # HuggingFace 模型路径 --tokenizer-path /share/temp/model_repos/internlm-chat-7b/ # HuggingFace tokenizer 路径(如果与模型路径相同,可以省略) --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True # 构建 tokenizer 的参数 --model-kwargs device_map='auto' trust_remote_code=True # 构建模型的参数 --max-seq-len 2048 # 模型可以接受的最大序列长度 --max-out-len 16 # 生成的最大 token 数 --batch-size 4 # 批量大小 --num-gpus 1 # 运行模型所需的 GPU 数量 --debug
有关 run.py 支持的所有与 HuggingFace 相关的参数,请阅读 评测任务发起
除了通过命令行配置实验外,OpenCompass 还允许用户在配置文件中编写实验的完整配置,并通过
示例测试配置在 configs/eval_demo.py 中。此配置通过 继承机制 引入所需的数据集和模型配置,并以所需格式组合 datasets 和 models 字段。
from mmengine.config import read_base with read_base(): from .datasets.siqa.siqa_gen import siqa_datasets from .datasets.winograd.winograd_ppl import winograd_datasets from .models.opt.hf_opt_125m import opt125m from .models.opt.hf_opt_350m import opt350m datasets = [*siqa_datasets, *winograd_datasets] models = [opt125m, opt350m]
运行任务时,我们只需将配置文件的路径传递给 run.py:
python run.py configs/eval_demo.py
OpenCompass 提供了一系列预定义的模型配置,位于 configs/models 下。以下是与 opt-350m(configs/models/opt/hf_opt_350m.py)相关的配置片段:
# 使用 `HuggingFaceCausalLM` 评估由 HuggingFace 的 `AutoModelForCausalLM` 支持的模型 from opencompass.models import HuggingFaceCausalLM # OPT-350M opt350m = dict( type=HuggingFaceCausalLM, # `HuggingFaceCausalLM` 的初始化参数 path='facebook/opt-350m', tokenizer_path='facebook/opt-350m', tokenizer_kwargs=dict( padding_side='left', truncation_side='left', proxies=None, trust_remote_code=True), model_kwargs=dict(device_map='auto'), # 下面是所有模型的共同参数,不特定于 HuggingFaceCausalLM abbr='opt350m', # 结果显示的模型缩写 max_seq_len=2048, # 整个序列的最大长度 max_out_len=100, # 生成的最大 token 数 batch_size=64, # 批量大小 run_cfg=dict(num_gpus=1), # 该模型所需的 GPU 数量 )
基础作业
- 使用 OpenCompass 评测 InternLM2-Chat-7B 模型在 C-Eval 数据集上的性能
进阶作业
- 使用 OpenCompass 评测 InternLM2-Chat-7B 模型使用 LMDeploy 0.2.0 部署后在 C-Eval 数据集上的性能
cd ~/data/opencompass conda activate opencompass python run.py --datasets ceval_gen --hf-path /share/model_repos/internlm2-chat-7b/ --tokenizer-path /share/model_repos/internlm2-chat-7b/ --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True --model-kwargs device_map='auto' trust_remote_code=True --max-seq-len 2048 --max-out-len 16 --batch-size 4 --num-gpus 1 --debug