在进行模型评测(人工评测)或应用评测时,您需要将评测集中指定的结果与模型/应用生成的结果进行对比,并按评测维度进行评价。这将有助于生成评测报告,以便评测人员了解模型或应用的优劣,从而进行相应的调整。
评测维度简介
评测维度分为系统内置评测维度和自定义评测维度。
对比项 | 系统内置评测维度 | 自定义评测维度 |
评测维度及其量级 | 由阿里云百炼平台预置,仅有一个评测维度“综合评价”,包括3个量级。 | 用户根据业务自定义设计多个评测维度。例如,评测维度为“流畅性”,包括5个量级。 |
适用场景 | 适用于通用业务的评测。 | 适用于特定行业的复杂场景,例如金融风险评估、医疗诊断等。 在多维度交叉分析时,能够提供更精准的结果支持。 |
是否需要提前创建 | 否。 在模型评测和应用评测时直接选择即可。 | 是。 创建方法请参见创建自定义评测维度模板。 |
是否支持修改 | 不支持。 | 支持。 创建后可随时调整评分权重或逻辑,确保评测结果更贴近实际需求。 |
局限性 | 评测维度及量级的划分粒度较为粗糙,可能无法完全适配某些特殊业务场景。 | 需要明确业务目标,并合理设计评测维度,避免因维度模糊导致结果偏差。 同时,还需要对历史数据进行充分验证,以确保新创建的维度具有稳定性和可靠性。 |
创建自定义评测维度模板
前往评测维度页面,单击创建维度模板,配置以下各项参数,其他参数保持默认配置。
参数名称
参数说明
配置样例
模板名称
评测维度模板的名称,自定义设置。
建议使用具有实际意义的名称,以便准确识别模板的用途。
完整配置:
以模型评测为例,人工评测选择自定义评测维度模板,标注评测结果时,评测人员看到的效果:
维度名称
评测维度的名称,自定义设置。
建议使用具有实际意义的名称,例如准确性、流畅性、相关性。
量级
评测维度分为几个等级,自定义设置。
维度说明
该说明将以Tips格式展示在维度名称旁边,方便评测人员了解维度具体含义。自定义设置。
添加描述
对每个量级的描述。
例如:“量级”选择“5”时:
数字型描述可以设置为“0%-100%”、“1分-5分”等。
文本型描述可以设置为“非常差、较差、一般、较好、好”等。
对应获得分值
每个量级对应的分值,与量级描述一一对应,用于评测结果的分值计算和生成,为后台计算逻辑。在标注模型评测或应用评测结果时,界面上仅显示描述。
分值默认从1开始,自左向右递增。可在分值注释中阐述分值逻辑。
分值注释
从左到右的评分描述,例如最左边代表“效果差”,最右边代表“效果好”。
单击增加维度新增维度,参考上述操作配置相关参数。一个模板中最多支持增加10个维度。
单击完成,完成模板创建。
管理评测维度模板
在评测维度页面的模板列表中,您可以对已成功创建的评测维度模板进行以下管理操作:
查看及修改
在已创建的评测维度模板操作列单击查看。
删除
在已创建的评测维度模板操作列单击删除。
后续步骤
在模型评测(人工评测)或手动评测时,您可以按照自定义评测维度对生成结果进行打分或排序,得到评测结果。