多模态RLHF标注

多模态RLHF(Reinforcement Learning from Human Feedback)标注模板提供多模态标注的功能,在对话改写的基础上,可以接入输入机器人进行自动问答,也可以在手动问答模式输入文字、图片等多模态类型的内容。

背景信息

OpenAI近期公布的文档中,揭示了ChatGPT在对话场景中超越BERT等自然语言处理模型的成就,其核心优化机制是采用人类反馈强化学习(RLHF)技术。本文将从训练过程和目标出发,深入解析RLHF技术在ChatGPT中的应用及标注的重要性。

RLHF训练机制包含三个主要阶段:

  1. 微调生成SFT模型

    基于GPT-3.5进行微调,高质量的提示及其答案至关重要。这些数据通过多模型预测或人工提供,要求标注人员具备较高素质。

  2. 构建奖励模型(Reward Model)

    ChatGPT目前主要采用的是排序(Ranking)方法评估并筛选SFT模型的输出结果,采用监督式学习优化技术(Supervised Learning with Ordered or Rankings,SLO),此阶段所需的人工标注形式为排序标注,依赖精确且大规模的排序标注。

  3. 强化学习优化

    使用近端策略优化(PPO),根据奖励模型输出调整模型行为,这一环节几乎不需要人工标注。

这三个阶段构成了ChatGPT的完整训练循环,并持续迭代优化。尽管与预训练相比,人工标注的需求量较小,但其质量和数量对最终模型性能的影响显著。

数据格式示例

说明

CSVXLSX格式中每一列数据;Manifest格式中data字段的下一级字段均对应一个数据集字段,字段名可自定义,在配置数据集字段名时选择对应的字段名即可。图片文件支持常见的JPG、PNG等格式。

手动输入模式下,不需要第二列首轮问题数据,仅需要topic数据。

CSVXLSX格式

topic

first-question

水果01

苹果好吃吗?

水果02

橘子好吃吗?

Demo:

RLHF数据demo.csv

Manifest格式(JSONL格式)

{"data":{"topic":"水果01","first-question":"苹果好吃吗?"}}
{"data":{"topic":"水果02","first-question":"橘子好吃吗?"}}

Demo:

RLHF数据demo.manifest

配置说明

题目区(必选)

题目区用于配置话题字段。

image

单击选中当前话题,并选择相应的数据集后,在右侧配置区域配置具体参数。参数说明如下:

参数

说明

标题

默认标题区域无需修改。

数据集字段

在数据集字段中选择题目展示字段。(字段名可自定义)

提示

默认提示区域无需修改。

点击链接跳转

无需配置,不生效。

文本高亮

无需配置,不生效。

卡片样式配置

无需配置,不生效。

问题区(自动问答模式下,首轮问题必选)

问题区可以在自动问答模式配置首轮问题和问题区域题目,手动输入模式配置无效。

说明

自动问答机器人包含首轮问题组件,需要进行配置;手动提问不包含此组件。配置首轮问题后,还需要配置提问机器人的UDF信息。

image

单击选中首轮问题后,在右侧配置区域配置具体参数。参数说明如下:

参数

说明

标题

默认标题区域无需修改。

数据集字段

配置首轮问题对应的数据集字段。(字段名可自定义)

提示

默认提示区域无需修改。

点击链接跳转

无需配置,不生效。

文本高亮

无需配置,不生效。

卡片样式配置

无需配置,不生效。

答题区(可选)

答题区用于配置回答机器人回复文本相关问题。

image

单击选中答题区后,在右侧配置区域配置具体参数。参数说明如下:

参数

说明

标题

可根据需要配置问题标题。

选项

说明

当答题类型为单选多选树选择时,需要配置此参数。

  • 当答题类型为单选多选时,可以通过手工录入数据集导入配置,词典搜索暂时无法使用。

  • 当答题类型为树选择时,仅支持手工录入配置。

占位文本

说明

当答题类型为单行输入框输入框-Markdown预览时,需要配置此参数。

填空题占位文字,用于引导用户输入内容。

提示

配置悬停在题目标题上时出现的提示文字。

是否必填

配置题目是否为必填项,若为必填则答题时会进行必填校验。

支持搜索选项

说明

当答题类型为单选多选时,需要配置此参数。

配置后可以进行选项的搜索。

生效阶段

题目的生效阶段,不选时默认全流程生效。

全局题目(可选)

全局题目用于根据需要针对整个主题提出问题。

image

单击选中题目后,在右侧配置区域配置具体参数。参数说明如下:

参数

说明

标题

可根据需要配置问题标题。

占位文本

说明

当答题类型为输入框-Markdown预览单行输入框时需要配置此参数。

填空题占位文字,用于引导用户输入内容。

选项

说明

当答题类型为单选多选树选择多选树选择时,需要配置此参数。

  • 当答题类型为单选多选时,可以通过手工录入数据集导入配置,词典搜索暂时无法使用。

  • 当答题类型为树选择多选树选择时,仅支持手工录入配置。

提示

配置悬停在题目标题上时出现的提示文字。

是否必填

配置题目是否为必填项,若为必填则答题时会进行必填校验。

支持搜索选项

说明

当答题类型为单选多选时,需要配置此参数。

配置后可以进行选项的搜索。

生效阶段

题目的生效阶段,不选时默认全流程生效。

全局配置

全局配置用于配置模板中会使用到的UDF。

image

单击image,在右侧配置问答机器人,回答机器人最多可以配置3个。选择机器人的UDF之后添加配置参数即可。

说明

在自动问答模式下,配置了首轮问题后需要配置提问机器人的UDF信息。提问机器人的UDF使用pai-qw-基于上下文生成问题,其余参数与回答机器人相同,input_dataMarkResult用于让UDF正确接收输入参数,不可随意更改;return_nums为返回个数,可自行修改,最多不超过5。

操作演示

多模态RLHF标注-自动问答

  1. 单击发起问答后,机器人自动发起问答。

  2. 用户可改写发起的问题和机器人的回答,并完成配置好的答题。

image

多模态RLHF标注-输入问答

  1. 用户可在对话框内输入文字,或上传图片、视频、音频等。

  2. 用户可改写机器人的回答并进行答题;单击历史发送输入框,可对已经发送的post进行修改,使机器人重新回答。

image