文档

多模态RLHF标注

更新时间:

多模态RLHF标注模板提供多模态RLHF标注的功能,在对话改写的基础上,可以接入输入机器人进行自动问答,也可以在手动问答模式输入图片等多模态类型的内容。

背景信息

OpenAI近期公布的文档中,揭示了ChatGPT在对话场景中超越Bert等自然语言处理(NLP)模型的成就,其核心优化机制是采用人类反馈强化学习(Reinforcement Learning from Human Feedback, RLHF)技术。本文从模型的训练产物和目标进行详细分析,帮助您深入理解RLHF技术在ChatGPT中的应用,以及“标注”过程的重要性。

RLHF训练机制包含三个主要阶段:

  1. 基于GPT-3.5的微调产生Fine-Tuned Model(SFT),期间高质量的提示(prompt)及其对应答案是很重要,这些数据来源于多模型预测或人工提供,因此对标注人员的素质有高要求。

  2. 构建奖励模型(Reward Model)以评估和筛选步骤1的预测结果,ChatGPT目前主要采用的是排序(Ranking)方法,并通过监督式学习优化(Supervised Learning with Ordered or Rankings,SLO)技术进行,此阶段所需的人工标注形式为排序标注,侧重于排序标注的精准度与规模。

  3. 运用近端策略优化(PPO)进行强化学习,依据奖励模型输出,此环节几乎不涉及人工标注。

这三个阶段构成ChatGPT的完整训练循环,并持续迭代优化。人工标注在初始的微调和奖励模型构建阶段发挥了重要作用,虽需求量较预训练阶段的小规模监督数据为少,但其质量和数量对模型性能影响显著。

数据格式示例

说明

CSVXLSX格式中每一列数据;Manifest格式中data字段的下一级字段均对应一个数据集字段,字段名可自定义,在配置数据集字段名时选择对应的字段名即可。图片文件支持常见的JPG、PNG等格式。

手动输入模式下,不需要第二列首轮问题数据,仅需要topic数据。

CSVXLSX格式

topic

first-question

水果01

苹果好吃吗?

水果02

橘子好吃吗?

Demo:

RLHF数据demo.csv

Manifest格式(JSONL格式)

{"data":{"topic":"水果01","first-question":"苹果好吃吗?"}}
{"data":{"topic":"水果02","first-question":"橘子好吃吗?"}}

Demo:

RLHF数据demo.manifest

配置说明

题目区(必选)

题目区用于配置话题字段。

image

单击选中当前话题,并选择相应的数据集后,在右侧配置区域配置具体参数。参数说明如下:

参数

说明

标题

默认标题区域无需修改。

数据集字段

在数据集字段中选择题目展示字段。(字段名可自定义)

提示

默认提示区域无需修改。

点击链接跳转

无需配置,不生效。

文本高亮

无需配置,不生效。

卡片样式配置

无需配置,不生效。

问题区(自动问答模式下,首轮问题必选)

问题区可以在自动问答模式配置首轮问题和问题区域题目,手动输入模式配置无效。

说明

自动问答机器人包含首轮问题组件,需要进行配置;手动提问不包含此组件。配置首轮问题后,还需要配置提问机器人的UDF信息。

image

单击选中首轮问题后,在右侧配置区域配置具体参数。参数说明如下:

参数

说明

标题

默认标题区域无需修改。

数据集字段

配置首轮问题对应的数据集字段。(字段名可自定义)

提示

默认提示区域无需修改。

点击链接跳转

无需配置,不生效。

文本高亮

无需配置,不生效。

卡片样式配置

无需配置,不生效。

答题区(可选)

答题区用于配置回答机器人回复文本相关问题。

image

单击选中答题区后,在右侧配置区域配置具体参数。参数说明如下:

参数

说明

标题

可根据需要配置问题标题。

选项

说明

当答题类型为单选多选树选择时,需要配置此参数。

  • 当答题类型为单选多选时,可以通过手工录入数据集导入配置,词典搜索暂时无法使用。

  • 当答题类型为树选择时,仅支持手工录入配置。

占位文本

说明

当答题类型为单行输入框输入框-Markdown预览时,需要配置此参数。

填空题占位文字,用于引导用户输入内容。

提示

配置悬停在题目标题上时出现的提示文字。

是否必填

配置题目是否为必填项,若为必填则答题时会进行必填校验。

支持搜索选项

说明

当答题类型为单选多选时,需要配置此参数。

配置后可以进行选项的搜索。

生效阶段

题目的生效阶段,不选时默认全流程生效。

全局题目(可选)

全局题目用于根据需要针对整个主题提出问题。

image

单击选中题目后,在右侧配置区域配置具体参数。参数说明如下:

参数

说明

标题

可根据需要配置问题标题。

占位文本

说明

当答题类型为输入框-Markdown预览单行输入框时需要配置此参数。

填空题占位文字,用于引导用户输入内容。

选项

说明

当答题类型为单选多选树选择多选树选择时,需要配置此参数。

  • 当答题类型为单选多选时,可以通过手工录入数据集导入配置,词典搜索暂时无法使用。

  • 当答题类型为树选择多选树选择时,仅支持手工录入配置。

提示

配置悬停在题目标题上时出现的提示文字。

是否必填

配置题目是否为必填项,若为必填则答题时会进行必填校验。

支持搜索选项

说明

当答题类型为单选多选时,需要配置此参数。

配置后可以进行选项的搜索。

生效阶段

题目的生效阶段,不选时默认全流程生效。

全局配置

全局配置用于配置模板中会使用到的UDF。

image

单击image,在右侧配置问答机器人,回答机器人最多可以配置3个。选择机器人的UDF之后添加配置参数即可。

说明

在自动问答模式下,配置了首轮问题后需要配置提问机器人的UDF信息。提问机器人的UDF使用pai-qw-基于上下文生成问题,其余参数与回答机器人相同,input_dataMarkResult用于让UDF正确接收输入参数,不可随意更改;return_nums为返回个数,可自行修改,最多不超过5。

操作演示

多模态RLHF标注-自动问答

  1. 单击发起问答后,机器人会自动发起问答。

  2. 用户可对发起的问题进行改写,同时也可对机器人的回答进行改写,并完成配置好的答题。

image

多模态RLHF标注-输入问答

  1. 用户可在对话框内输入文字,或上传图片、视频、音频等。

  2. 用户可根据机器人的回答,对其进行改写并进行答题;单击历史发送输入框,可对已经发送的post进行修改,使机器人重新回答。

image