多模态RLHF(Reinforcement Learning from Human Feedback)标注模板提供多模态标注的功能,在对话改写的基础上,可以接入输入机器人进行自动问答,也可以在手动问答模式输入文字、图片等多模态类型的内容。
背景信息
OpenAI近期公布的文档中,揭示了ChatGPT在对话场景中超越BERT等自然语言处理模型的成就,其核心优化机制是采用人类反馈强化学习(RLHF)技术。本文将从训练过程和目标出发,深入解析RLHF技术在ChatGPT中的应用及标注的重要性。
RLHF训练机制包含三个主要阶段:
微调生成SFT模型
基于GPT-3.5进行微调,高质量的提示及其答案至关重要。这些数据通过多模型预测或人工提供,要求标注人员具备较高素质。
构建奖励模型(Reward Model)
ChatGPT目前主要采用的是排序(Ranking)方法评估并筛选SFT模型的输出结果,采用监督式学习优化技术(Supervised Learning with Ordered or Rankings,SLO),此阶段所需的人工标注形式为排序标注,依赖精确且大规模的排序标注。
强化学习优化
使用近端策略优化(PPO),根据奖励模型输出调整模型行为,这一环节几乎不需要人工标注。
这三个阶段构成了ChatGPT的完整训练循环,并持续迭代优化。尽管与预训练相比,人工标注的需求量较小,但其质量和数量对最终模型性能的影响显著。
数据格式示例
CSV及XLSX格式中每一列数据;Manifest格式中data字段的下一级字段均对应一个数据集字段,字段名可自定义,在配置数据集字段名时选择对应的字段名即可。图片文件支持常见的JPG、PNG等格式。
手动输入模式下,不需要第二列首轮问题数据,仅需要topic数据。
CSV及XLSX格式
topic | first-question |
水果01 | 苹果好吃吗? |
水果02 | 橘子好吃吗? |
Demo:
Manifest格式(JSONL格式)
{"data":{"topic":"水果01","first-question":"苹果好吃吗?"}}
{"data":{"topic":"水果02","first-question":"橘子好吃吗?"}}
Demo:
配置说明
题目区(必选)
题目区用于配置话题字段。
单击选中当前话题,并选择相应的数据集后,在右侧配置区域配置具体参数。参数说明如下:
参数 | 说明 |
标题 | 默认标题区域无需修改。 |
数据集字段 | 在数据集字段中选择题目展示字段。(字段名可自定义) |
提示 | 默认提示区域无需修改。 |
点击链接跳转 | 无需配置,不生效。 |
文本高亮 | 无需配置,不生效。 |
卡片样式配置 | 无需配置,不生效。 |
问题区(自动问答模式下,首轮问题必选)
问题区可以在自动问答模式配置首轮问题和问题区域题目,手动输入模式配置无效。
自动问答机器人包含首轮问题组件,需要进行配置;手动提问不包含此组件。配置首轮问题后,还需要配置提问机器人的UDF信息。
单击选中首轮问题后,在右侧配置区域配置具体参数。参数说明如下:
参数 | 说明 |
标题 | 默认标题区域无需修改。 |
数据集字段 | 配置首轮问题对应的数据集字段。(字段名可自定义) |
提示 | 默认提示区域无需修改。 |
点击链接跳转 | 无需配置,不生效。 |
文本高亮 | 无需配置,不生效。 |
卡片样式配置 | 无需配置,不生效。 |
答题区(可选)
答题区用于配置回答机器人回复文本相关问题。
单击选中答题区后,在右侧配置区域配置具体参数。参数说明如下:
参数 | 说明 |
标题 | 可根据需要配置问题标题。 |
选项 说明 当答题类型为单选、多选或树选择时,需要配置此参数。 |
|
占位文本 说明 当答题类型为单行输入框或输入框-Markdown预览时,需要配置此参数。 | 填空题占位文字,用于引导用户输入内容。 |
提示 | 配置悬停在题目标题上时出现的提示文字。 |
是否必填 | 配置题目是否为必填项,若为必填则答题时会进行必填校验。 |
支持搜索选项 说明 当答题类型为单选或多选时,需要配置此参数。 | 配置后可以进行选项的搜索。 |
生效阶段 | 题目的生效阶段,不选时默认全流程生效。 |
全局题目(可选)
全局题目用于根据需要针对整个主题提出问题。
单击选中题目后,在右侧配置区域配置具体参数。参数说明如下:
参数 | 说明 |
标题 | 可根据需要配置问题标题。 |
占位文本 说明 当答题类型为输入框-Markdown预览或单行输入框时需要配置此参数。 | 填空题占位文字,用于引导用户输入内容。 |
选项 说明 当答题类型为单选、多选、树选择或多选树选择时,需要配置此参数。 |
|
提示 | 配置悬停在题目标题上时出现的提示文字。 |
是否必填 | 配置题目是否为必填项,若为必填则答题时会进行必填校验。 |
支持搜索选项 说明 当答题类型为单选或多选时,需要配置此参数。 | 配置后可以进行选项的搜索。 |
生效阶段 | 题目的生效阶段,不选时默认全流程生效。 |
全局配置
全局配置用于配置模板中会使用到的UDF。
单击,在右侧配置问答机器人,回答机器人最多可以配置3个。选择机器人的UDF之后添加配置参数即可。
在自动问答模式下,配置了首轮问题后需要配置提问机器人的UDF信息。提问机器人的UDF使用pai-qw-基于上下文生成问题,其余参数与回答机器人相同,input_data及MarkResult用于让UDF正确接收输入参数,不可随意更改;return_nums为返回个数,可自行修改,最多不超过5。
操作演示
多模态RLHF标注-自动问答
单击发起问答后,机器人自动发起问答。
用户可改写发起的问题和机器人的回答,并完成配置好的答题。
多模态RLHF标注-输入问答
用户可在对话框内输入文字,或上传图片、视频、音频等。
用户可改写机器人的回答并进行答题;单击历史发送输入框,可对已经发送的post进行修改,使机器人重新回答。