多模态RLHF标注模板_人工智能平台 PAI(PAI)-阿里云帮助中心

多模态RLHF标注模板提供多模态RLHF标注的功能，在对话改写的基础上，可以接入输入机器人进行自动问答，也可以在手动问答模式输入图片等多模态类型的内容。

背景信息

OpenAI近期公布的文档中，揭示了ChatGPT在对话场景中超越Bert等自然语言处理（NLP）模型的成就，其核心优化机制是采用人类反馈强化学习（Reinforcement Learning from Human Feedback, RLHF）技术。本文从模型的训练产物和目标进行详细分析，帮助您深入理解RLHF技术在ChatGPT中的应用，以及“标注”过程的重要性。

RLHF训练机制包含三个主要阶段：

基于GPT-3.5的微调产生Fine-Tuned Model（SFT），期间高质量的提示（prompt）及其对应答案是很重要，这些数据来源于多模型预测或人工提供，因此对标注人员的素质有高要求。
构建奖励模型（Reward Model）以评估和筛选步骤1的预测结果，ChatGPT目前主要采用的是排序（Ranking）方法，并通过监督式学习优化（Supervised Learning with Ordered or Rankings，SLO）技术进行，此阶段所需的人工标注形式为排序标注，侧重于排序标注的精准度与规模。
运用近端策略优化（PPO）进行强化学习，依据奖励模型输出，此环节几乎不涉及人工标注。

这三个阶段构成ChatGPT的完整训练循环，并持续迭代优化。人工标注在初始的微调和奖励模型构建阶段发挥了重要作用，虽需求量较预训练阶段的小规模监督数据为少，但其质量和数量对模型性能影响显著。

数据格式示例

说明

CSV及XLSX格式中每一列数据；Manifest格式中data字段的下一级字段均对应一个数据集字段，字段名可自定义，在配置数据集字段名时选择对应的字段名即可。图片文件支持常见的JPG、PNG等格式。

手动输入模式下，不需要第二列首轮问题数据，仅需要topic数据。

CSV及XLSX格式

topic	first-question
水果01	苹果好吃吗？
水果02	橘子好吃吗？

Demo:

RLHF数据demo.csv

Manifest格式（JSONL格式）

{"data":{"topic":"水果01","first-question":"苹果好吃吗？"}}
{"data":{"topic":"水果02","first-question":"橘子好吃吗？"}}

Demo:

RLHF数据demo.manifest

配置说明

题目区（必选）

题目区用于配置话题字段。

单击选中当前话题，并选择相应的数据集后，在右侧配置区域配置具体参数。参数说明如下：

参数	说明
标题	默认标题区域无需修改。
数据集字段	在数据集字段中选择题目展示字段。（字段名可自定义）
提示	默认提示区域无需修改。
点击链接跳转	无需配置，不生效。
文本高亮	无需配置，不生效。
卡片样式配置	无需配置，不生效。

问题区（自动问答模式下，首轮问题必选）

问题区可以在自动问答模式配置首轮问题和问题区域题目，手动输入模式配置无效。

说明

自动问答机器人包含首轮问题组件，需要进行配置；手动提问不包含此组件。配置首轮问题后，还需要配置提问机器人的UDF信息。

单击选中首轮问题后，在右侧配置区域配置具体参数。参数说明如下：

参数	说明
标题	默认标题区域无需修改。
数据集字段	配置首轮问题对应的数据集字段。（字段名可自定义）
提示	默认提示区域无需修改。
点击链接跳转	无需配置，不生效。
文本高亮	无需配置，不生效。
卡片样式配置	无需配置，不生效。

答题区（可选）

答题区用于配置回答机器人回复文本相关问题。

单击选中答题区后，在右侧配置区域配置具体参数。参数说明如下：

参数	说明
标题	可根据需要配置问题标题。
选项说明当答题类型为单选、多选或树选择时，需要配置此参数。	当答题类型为单选或多选时，可以通过手工录入或数据集导入配置，词典搜索暂时无法使用。当答题类型为树选择时，仅支持手工录入配置。
占位文本说明当答题类型为单行输入框或输入框-Markdown预览时，需要配置此参数。	填空题占位文字，用于引导用户输入内容。
提示	配置悬停在题目标题上时出现的提示文字。
是否必填	配置题目是否为必填项，若为必填则答题时会进行必填校验。
支持搜索选项说明当答题类型为单选或多选时，需要配置此参数。	配置后可以进行选项的搜索。
生效阶段	题目的生效阶段，不选时默认全流程生效。

全局题目（可选）

全局题目用于根据需要针对整个主题提出问题。

单击选中题目后，在右侧配置区域配置具体参数。参数说明如下：

参数	说明
标题	可根据需要配置问题标题。
占位文本说明当答题类型为输入框-Markdown预览或单行输入框时需要配置此参数。	填空题占位文字，用于引导用户输入内容。
选项说明当答题类型为单选、多选、树选择或多选树选择时，需要配置此参数。	当答题类型为单选或多选时，可以通过手工录入或数据集导入配置，词典搜索暂时无法使用。当答题类型为树选择或多选树选择时，仅支持手工录入配置。
提示	配置悬停在题目标题上时出现的提示文字。
是否必填	配置题目是否为必填项，若为必填则答题时会进行必填校验。
支持搜索选项说明当答题类型为单选或多选时，需要配置此参数。	配置后可以进行选项的搜索。
生效阶段	题目的生效阶段，不选时默认全流程生效。

全局配置

全局配置用于配置模板中会使用到的UDF。

单击，在右侧配置问答机器人，回答机器人最多可以配置3个。选择机器人的UDF之后添加配置参数即可。

说明

在自动问答模式下，配置了首轮问题后需要配置提问机器人的UDF信息。提问机器人的UDF使用pai-qw-基于上下文生成问题，其余参数与回答机器人相同，input_data及MarkResult用于让UDF正确接收输入参数，不可随意更改；return_nums为返回个数，可自行修改，最多不超过5。

操作演示

多模态RLHF标注-自动问答

单击发起问答后，机器人会自动发起问答。
用户可对发起的问题进行改写，同时也可对机器人的回答进行改写，并完成配置好的答题。

多模态RLHF标注-输入问答

用户可在对话框内输入文字，或上传图片、视频、音频等。
用户可根据机器人的回答，对其进行改写并进行答题；单击历史发送输入框，可对已经发送的post进行修改，使机器人重新回答。