基于数据集对模型进行多维度评测有助于您全面了解其表现,从而确保模型在未来实际应用中能够提供有效的结果。
为什么做模型评测
找出最适合业务应用的模型:从众多可用模型中作出最佳选择并非易事。模型评测能够帮助您快速对比不同模型的表现,确定最适合您的特定业务需求的模型。
检验模型调优的效果:随着您对模型进行调优和迭代,模型的能力会随之变化。模型评测能够帮助您检验这些变化,并依据评测结果调整后续的调优策略。
预防模型带来的潜在风险:通过模型评测,您可以预先发现模型可能带来的政治敏感、违法犯罪、歧视偏见等方面的风险,并采取针对性措施(如过滤、屏蔽关键词等)加以应对和规避。
支持的模型
模型评测支持下列预置模型(包括基于它们调优后的自定义模型):
通义千问-Max/Plus/Turbo
通义千问开源版(Qwen2、Qwen1.5、Qwen)
通义法睿
第三方文本生成模型(ChatGLM3、LLaMa3、Yi-Medium等)
上述列表并不完整且可能随时发生变化,请以创建评测任务页面中选择模型下拉框显示的列表为准。列表中灰色字体且无申请按钮的模型目前暂不支持评测。
评测方式
百炼支持以下三种评测方式:人工评测、自动评测和基线评测。
人工评测:由您本人或您邀请的业务专家参与,基于选定的评测维度,对待测模型的输出效果进行人工评价。这种方式的优势在于业务专家能够通过实际操作产品等方式,来验证输出内容中的每个细节及步骤的正确性。但局限性也很明显,即评测成本较高、效率低,并且多人评测时可能会受到主观因素的干扰。
自动评测:全过程无需人工参与,百炼将基于内置的深度学习指标和AI评测器,自动对模型的输出效果进行评分。这种方式的优势在于高效率以及评测的公正性。局限性在于AI评测器的评测效果高度依赖于人为初始设定的评分维度、步骤和标准,并且它无法像人工评测那样验证输出内容中每个细节和步骤的正确性。
基线评测:基于预置基线评测集(包括C-Eval/CMMLU等主流榜单评测集)对待测模型的各项基础通用能力进行自动评测,适用于对已微调模型的基本效果进行回归评测(虽然微调有可能提升模型在特定任务上的效果,但有时也会降低模型的通用能力),避免模型通用能力的下降和丢失。
通常最佳实践是将上述三种评测方式结合起来。一个可能的场景是:先通过初始的人工评测确定一套评测维度,并形成配套可自动化执行的评分步骤和标准。再将这一整套评分体系应用于自动评测中,让百炼按照设定进行自动评测,快速从多个候选模型中选出最优者。最后通过人工评测仔细对比模型输出在结构组织、伦理合规等方面的细微差异。如果针对特定领域进行了模型微调,同时希望确保模型的通用能力没有明显下降,则可以进行基线评测。
模型评测流程
下图展示了人工评测、自动评测和基线评测各自的完整评测流程。
阶段 | 说明 |
创建模型评测任务 |
|
执行模型评测任务 |
|
查看模型评测结果 | 模型评测结果将为您接下来数据驱动决策和潜在模型优化提供方向。 |