文本推理（LLM）-智能数据建设与治理 Dataphin(Dataphin)-阿里云帮助中心

文本推理（LLM）算子用于调用大语言模型对输入数据集中的文本数据进行推理处理。本文介绍文本推理（LLM）算子的配置方法。

前提条件

当前实例购买非结构化数据功能后，方可使用工作流功能。
已完成工作流的创建，详细创建步骤请参见创建工作流。

背景信息

文本推理（LLM）算子支持处理以下格式的文件：仅解析元数据表中的字段值。
文本推理（LLM）算子默认分配0.5Core、1GB资源。

权限说明

Basic项目的项目管理员、开发者、分析师以及拥有数据集-使用权限的自定义项目角色，可在算子的输入和输出数据集中使用该项目下的所有数据集。

操作步骤

在Dataphin首页的顶部菜单栏中，选择研发 > 数据研发。
在开发页面的顶部菜单栏选择项目。

在左侧导航栏中选择数据处理 > 工作流，在左侧工作流列表中单击目标工作流，打开工作流画布，在左侧算子库中拖动文本推理（LLM）算子至画布中，并在右侧文本推理（LLM）面板中配置以下参数。

参数		描述
步骤名称		输入当前算子名称，支持任意字符，不超过256个字符。
输入配置	数据集	选择需处理的数据集，可选择混合数据集和表数据集。数据集选择完成后还需选择其版本，默认为该数据集正序的第一个版本。当前算子作为其他算子的下游时，此处所选数据集通常与上游算子的输出数据集一致。
	输入字段	待处理的文本，暂不支持读取文件。需选择输入数据集中来源字段，可选择输入数据集中元数据表的所有字段。
	过滤条件（非必填）	使用SQL语法，仅需输入where语句后的过滤条件，支持使用系统全局变量，例如业务日期${bizdate}。
模型配置	模型	需指定当前算子使用的模型，仅可选择智能应用管理 > 模型配置中模型类型包含文本且已启用的模型。说明仅支持向兼容OpenAI协议的模型发起调用。
	提示词（Prompt）	输入提示词，提示词作为用户与大模型交互的指令输入。可用于明确任务目标、设定回答角色及规范输出格式，从而引导模型生成精准、符合预期的结果。可拖动文本框右下角调整文本框大小。
	多列输出（非必选）	默认关闭。开启后，系统将在提示词末尾自动追加输出格式约束，以确保模型始终生成符合指定JSON格式的响应。输入的提示词中请勿包含输出格式相关的内容，避免与系统约束冲突。开启后将同时显示多列输出字段列表，您可以通过以下方式管理字段：添加字段：单击后在弹出的添加字段对话框中手动配置字段名称、类型、说明和示例，单击确定后将在列表中新增一行字段。导入JSON：单击后弹出导入JSON对话框，可直接输入JSON内容。列表中已存在的字段将自动填充至JSON中，您可在此基础上进行编辑。确认无误后单击确定。删除字段：单击删除图标删除对应行字段。
	最大Token数（非必填）	限制模型输出的最大Token数量，生成内容超过该值时将提前停止。默认值为4096（个），支持为空。
	联网搜索、深度思考（非必选）	默认关闭，可手动开启。其中深度思考仅当所选模型支持时可开启，即智能应用 > 模型调用配置中思考模式选择支持的模型。
输出配置	数据集	支持选择来源数据集或其他数据集。若来源数据集的元数据表不存在主键，则输出数据集默认选择其他数据集。当选择其他数据集时，还需指定一个混合数据集或表数据集及其版本作为输出数据集，默认为该数据集正序的第一个版本；同时，支持选择来源数据集的其他版本。选择来源数据集时，算子产出的元数据将写入来源数据集同版本对应的元数据表中。
	加载策略	若所选输出数据集的元数据表中存在主键，则默认选择主键冲突时更新；若不存在主键，则默认选择追加数据。追加数据：直接向目标表新增追加数据，当主键/约束冲突时，会提示错误。主键冲突时更新：当主键/约束冲突时，会先删除整行主键重复的旧数据，再插入新数据。覆盖：先删除目标表的数据，再写入数据。说明输出数据集选择来源数据集时，加载策略仅支持主键冲突时更新。
	字段映射	若未开启多列输出，则仅输出`answer`字段；开启多列输出后，则输出多列输出列表中配置的字段。算子输出字段默认映射至输出数据集的同名字段，您也可以手动选择目标字段进行自定义映射。此外，支持将来源数据集的透传字段映射至目标数据集。您可以通过以下方式管理字段映射：新增输出字段：单击后新增一行空白字段映射关系。仅输出数据集选择其他数据集时支持此功能。批量映射：单击后可选择批量手动映射、同名映射或同行映射。仅输出数据集选择其他数据集时支持此功能。删除映射：answer字段和多列输出列表中的字段映射不支持在此处删除。多列输出列表中的字段在列表中删除后，此处的对应字段映射将同步删除。此处手动新增的输出字段，可单击删除图标可删除对应行的字段映射。

配置完成后，单击画布顶部菜单栏中的保存，保存此次配置。
单个算子配置完成后，可继续为其选择上游或下游算子来完成完整工作流的配置。