自定义模型评测或应用评测维度

在进行模型评测(人工评测)或应用评测时,您需要将评测集中指定的结果与模型/应用生成的结果进行对比,并按评测维度进行评价。这将有助于生成评测报告,以便评测人员了解模型或应用的优劣,从而进行相应的调整。

评测维度简介

评测维度分为系统内置评测维度和自定义评测维度。

对比项

系统内置评测维度

自定义评测维度

评测维度及其量级

由阿里云百炼平台预置,仅有一个评测维度“综合评价”,包括3个量级。

image

用户根据业务自定义设计多个评测维度。例如,评测维度为“流畅性”,包括5个量级。

image

适用场景

适用于通用业务的评测。

适用于特定行业的复杂场景,例如金融风险评估、医疗诊断等。

在多维度交叉分析时,能够提供更精准的结果支持。

是否需要提前创建

否。

在模型评测和应用评测时直接选择即可。

是。

创建方法请参见创建自定义评测维度模板

是否支持修改

不支持。

支持。

创建后可随时调整评分权重或逻辑,确保评测结果更贴近实际需求。

局限性

评测维度及量级的划分粒度较为粗糙,可能无法完全适配某些特殊业务场景。

需要明确业务目标,并合理设计评测维度,避免因维度模糊导致结果偏差。

同时,还需要对历史数据进行充分验证,以确保新创建的维度具有稳定性和可靠性。

创建自定义评测维度模板

  1. 前往评测维度页面,单击创建维度模板,配置以下各项参数,其他参数保持默认配置。

    参数名称

    参数说明

    配置样例

    模板名称

    评测维度模板的名称,自定义设置。

    建议使用具有实际意义的名称,以便准确识别模板的用途。

    完整配置:

    image

    模型评测为例,人工评测选择自定义评测维度模板,标注评测结果时,评测人员看到的效果:

    image

    维度名称

    评测维度的名称,自定义设置。

    建议使用具有实际意义的名称,例如准确性、流畅性、相关性。

    量级

    评测维度分为几个等级,自定义设置。

    维度说明

    该说明将以Tips格式展示在维度名称旁边,方便评测人员了解维度具体含义。自定义设置。

    添加描述

    对每个量级的描述。

    例如:“量级”选择“5”时:

    • 数字型描述可以设置为“0%-100%”、“1分-5分”等。

      image

    • 文本型描述可以设置为“非常差、较差、一般、较好、好”等。

      image

    对应获得分值

    每个量级对应的分值,与量级描述一一对应,用于评测结果的分值计算和生成,为后台计算逻辑。在标注模型评测或应用评测结果时,界面上仅显示描述。

    分值默认从1开始,自左向右递增。可在分值注释中阐述分值逻辑。

    image

    分值注释

    从左到右的评分描述,例如最左边代表“效果差”,最右边代表“效果好”。

  2. 单击增加维度新增维度,参考上述操作配置相关参数。一个模板中最多支持增加10个维度。

  3. 单击完成,完成模板创建。

管理评测维度模板

评测维度页面的模板列表中,您可以对已成功创建的评测维度模板进行以下管理操作:

  • 查看及修改

    在已创建的评测维度模板操作列单击查看

  • 删除

    在已创建的评测维度模板操作列单击删除

后续步骤

模型评测(人工评测)手动评测时,您可以按照自定义评测维度对生成结果进行打分或排序,得到评测结果。