iTAG官方模板提供了多种RLHF模板,如多模态RLHF标注、对话排序、对话改写、图生文模板,您可以基于系统提供的这些模板修改为符合自己业务需求的模板,然后再创建对应的标注任务并进行处理,从而提高您的模型训练效果。
进入智能标注iTAG-官方模板
多模态RLHF标注
背景信息
在OpenAI最近公布的文档中,他们分析了聊天机器人ChatGPT的成功,尤其是在对话类型场景中相比于Bert等其他自然语言处理(NLP)模型的优势。ChatGPT的核心优化机制是采用了基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)技术。
为了深入理解RLHF技术在ChatGPT中的应用,我们将从模型的训练产物和目标进行详细的分析。这将帮助我们明白“标注”过程在其中如何发挥关键作用。
RLHF训练机制包含三个主要阶段:
训练产物为基于GPT-3.5的Fine-Tuned Model(SFT)。在此阶段,高质量的提示(prompt)问题和答案至关重要。答案的来源可能是多个模型的预测结果,也可能直接由人工提供。在此过程中,问题和答案构成了模型训练的主要数据源,其重要性不言而喻。对于参与标注的人员而言,这要求他们具备高素质,因为他们的工作直接影响到prompt问答的质量。
训练产物为奖励模型(Reward Model),其目的是对步骤1中的预测结果进行评审和筛选。简而言之,这一步引入了奖励机制,为后续阶段做准备。ChatGPT目前主要采用的是排序(Ranking)方法,具体技术为监督式学习优化(Supervised Learning with Ordered or Rankings,SLO)。此阶段所需的人工标注形式为排序标注,这里的人工标注质量要求与步骤1有所不同,同时标注的数量也有差异。
基于步骤2中奖励模型(Reward Model)的结果,进行强化学习。ChatGPT采用的方法是近端策略优化(Proximal Policy Optimization,PPO)。在这个阶段,强化学习过程基本上不会涉及人工标注。
以上三个阶段合在一起才组成了一个ChatGPT完整的训练过程,且会持续迭代;
在整个训练过程中,人工标注的能力尤其在步骤1和步骤2中发挥了核心作用。尽管在这两个步骤中,标注数据的量理论上是越多越好,但它们与预训练阶段所依赖的大规模无监督数据源相比较,相对数量仍然较少。
创建模板
在官方模板页选择多模态RLHF标注-自动问答或多模态RLHF标注-输入问答模板,单击右下角编辑,进入创建模板页面。各区域说明如下:
题目区
问题区
问题区:自动问答模式配置区域用于配置首轮问题和问题区域题目,手动输入模式配置无效。
自动问答机器人包含首轮问题组件,需要进行配置;手动提问不包含此组件。
答题区
答题区:通过新增、编辑、删除单个题目完成题目配置。
全局题目区
全局题目区:通过新增、编辑、删除单个题目完成题目配置。
全局配置
全局配置:通过点击标题,在右侧可以进行问答机器人的配置。提问机器人可以选择不配置,回答机器人最多可以配置3个。选择机器人的UDF之后添加配置参数即可。
创建标注任务
使用自定义模板创建标注任务。具体操作,请参见创建标注任务。
处理标注任务
处理图多模态RLHF标注任务。具体操作,请参见处理标注任务。
多模态RLHF标注-自动问答
多模态RLHF标注-输入问答
对话排序
对话排序(rank)模板,提供将对话内容进行分类排序的功能。
创建模板
在官方模板页选择对话排序模板,单击右下角编辑,进入创建对话排序模板页面。各区域说明如下:
题目区
题目区目前不允许删除和拖拽,与数据集题目字段相对应。
待排序内容区
排序文本目前不允许删除,支持关联多个数据集文本作为待排序的文本。
答题区支持自定义配置所需题目,支持删除、新增操作。
排序区
排序区 :设置文本排序的分类。
全局题目区
全局题目区:支持自定义配置。
创建标注任务
使用自定义模板创建标注任务。具体操作,请参见创建标注任务。
处理标注任务
处理对话排序标注任务。具体操作,请参见处理标注任务。
界面详情:
操作演示:
对话改写
对话改写模板,在给定的主题下,对该主题进行提问,用户可选择最合适的机器人回答,并对其进行改写。
创建模板
在官方模板页选择对话改写模板,单击右下角编辑,进入创建对话改写模板页面。各区域说明如下:
题目区
题目区:通过增加、编辑文本来控制题目区信息配置,标题也可进行编辑。
对话区
对话区:通过新增、编辑、删除单个题目完成题目配置。
全局题目区
全局题目区:通过新增、编辑、删除单个题目完成题目配置。
全局配置
全局配置:通过点击标题,对全局功能配置。
创建标注任务
使用自定义模板创建标注任务。具体操作,请参见创建标注任务。
处理标注任务
处理对话改写标注任务。具体操作,请参见处理标注任务。
界面详情:
改写题目区也可以进行自定义题目配置:
图生文
背景信息
随着LLM的浪潮,Vision-LLM迅速发展,成为了新的风口。Vision-LLM主要用于处理与语言和视觉相关的任务,如图像描述生成、视觉问答和视觉推理等。与传统的NLP模型只关注文本特征不同,Vision-LLM能够同时捕捉到图像和文本之间的联系,从而在视觉理解和语言理解方面有更好的表现。Vision-LLM有着广阔的前景和潜力,尤其在视觉与语言融合的领域,如图像搜索引擎、智能助理、智能家居等。然而,目前Vision-LLM还存在一些挑战和限制:
训练数据和计算资源:Vision-LLM的训练需要大量的图像和文本数据以及高性能计算资源。获取大规模的多模态数据集和训练模型所需的计算资源仍然是一个挑战。
模型泛化能力:Vision-LLM在特定任务上的表现可能受到训练数据的限制,对于在新领域或不同环境下的应用,其泛化能力可能需要进一步改进。大量的高质量图文数据成为了目前Vision-LLM模型的瓶颈。
创建模板
在官方模板页选择图生文模板,单击右下角编辑,进入创建图生文模板页面。各区域说明如下:
标注区
情景描述
全局配置
全局配置:通过点击标题,对全局功能进行配置。如果不配置,将使用官方提供的细节描述和生成文本的UDF。
参数 | 描述 |
细节描述 | 用于生成情景描述及标注后生成细节描述的接口服务。 |
生成文本 | 用于生成全局文本,基于情景描述及细节描述生成最终文本。 |
添加参数映射 | 参数映射为固定值,可按照图例输入。 |
创建标注任务
使用自定义模板创建标注任务。具体操作,请参见创建标注任务。
处理标注任务
处理图生文标注任务。具体操作,请参见处理标注任务。
关键参数说明
情景描述:情景描述是基于图片生成的描述文案,支持自定义修改和重新生成(每次的标注颜色唯一)。
细节描述:标注图片局部区域后点击弹窗确认按钮即可生成细节描述。(支持标注多处后生成细节描述)。
情景描述,细节描述,生成文本支持编辑,编辑后失去焦点会自动保存。
功能说明
仅创建功能,可以选择抠图后仅创建,不自动生成细节描述。
交互式命令行不用时可折叠。
- 本页导读 (1)