大模型节点

在传统的数据工作流中,处理像用户评论、产品描述、客服日志等非结构化文本数据一直是一项挑战。您现在可以直接在DataWorks的工作流中,利用强大的大语言模型(LLM)能力,通过自然语言指令,轻松完成文本摘要、情感分析、内容分类、信息提取等复杂的AI任务。这极大地简化数据处理流程,让数据工程师和分析师无需编写复杂的算法,即可将AI能力无缝集成到现有的ETL(数据抽取、转换、加载)链路中。

准备工作

DataWorks中部署大模型服务,详情请参见部署模型

重要

不同模型和资源规格的选择,将直接影响大模型服务的表现效果和响应速度。另外,大模型服务将产生资源组费用

大模型节点配置

只需简单配置即可实现大模型节点运行。

配置项

说明

模型服务

在准备工作中部署的大模型服务。

模型名称

默认选择大模型服务中的模型。

系统Prompt

定义大模型的系统行为,包含角色、能力和行为准则等。

支持通过${param}格式获取参数。

用户Prompt

输入具体问题或需求。DataWorks默认提供4种模板,可快速选择。

支持通过${param}格式获取参数。

例如,Prompt写成:请挑选出符合${catalog}的项。其中,catalog为节点或工作流参数。

image

简单示例

通过一个简单例子,演示大模型在工作流中的使用以及上下游参数传递。

  1. 登录DataWorks大模型服务,创建一个基于Qwen3-1.7B的大模型服务。资源组,选择已绑定到当前工作空间的资源组。

  2. 进入新版数据开发,创建如下工作流和相应节点。

    image

  3. 配置赋值节点的语言模式为Shell(右下角工具栏),并编写如下代码。

    若找不到,可参见赋值节点的详细说明。
    echo 'DataWorks';
  4. 配置大模型节点

    1. 选择上述配置好的大模型服务以及模型名称。

    2. 配置用户Prompt如下:

      写一篇关于${title}的介绍,字数限制为${length}。
    3. 在右侧配置面板的调试配置 > 资源组,修改资源组为创建大模型服务时选中的资源组。

    4. 在右侧配置面板的调度配置 > 调度参数,添加参数title上游节点的输出length为固定值300

      在参数值输入框右侧点击image进行上游参数的绑定。

      image

  5. 配置MaxCompute SQL节点,输出大模型结果。

    重要

    配置MaxCompute SQL节点需要绑定MaxCompute计算资源。若无,可选择Shell节点代替,仅演示输出结果。

    1. 配置代码如下:

      select '${content}';
    2. 在右侧配置面板的调试配置 > 资源组,修改资源组为创建大模型服务时选中的资源组。

    3. 在右侧调度配置 > 调度参数,添加参数content上游节点的输出

      在参数值输入框右侧点击image进行上游参数的绑定。

      image

  6. 回到工作流,点击上方运行按钮,在弹窗中填写本次运行参数。

  7. 运行成功后,最终MaxCompute SQL节点输出类似如下大语言模型结果。

    image