AI 数据推理方案:AI 赋能数据处理能力

更新时间:
复制为 MD 格式

手动部署

25

方案概览

EventBridge 可以与 AI 服务深度结合,对流经事件总线的实时数据进行智能推理,从而增强现有数据处理能力,催生出更多创新的应用场景。

利用 EventBridge 作为数据中枢,将来自不同数据源的实时数据流,分发给不同的 AI 模型进行推理,并将推理结果再次通过 EventBridge 路由到下游的业务系统或数据存储。通过在 ETL 的 Transform 环节引入 AI 推理能力,可以提高数据转换的智能化水平,增强数据处理的效率和准确性,为企业提供更强大的数据集成和分析能力。

方案架构

方案提供的默认设置完成部署后在阿里云上搭建的系统如下图所示。实际部署时您可以根据资源规划修改部分设置,但最终形成的运行环境与下图相似。

image

本文将以敏感信息过滤为例,为下游数据进行数据清洗和脱敏处理。通过 AI 自动识别业务敏感关键词,为下游业务及数据合规提供保障。

实现效果如下:输入包含敏感信息的数据类似["客户张三(13812345678)反馈了一个问题..."],输出脱敏后的数据类似["客户***(138*****5678)反馈了一个问题..."](由于大模型生成结果存在随机性,测试时输出结果的格式可能存在差异,生产环境中可以通过提示词工程获得相对稳定的输出结果)。

本方案的技术架构包括以下基础设施和云服务:

基础设施和云服务

说明

1个事件流

用于构建数据管道。

2个轻量消息队列

分别作为数据源和目标。

阿里云百炼大模型服务平台

通过调用大模型服务,实现智能化处理数据。

部署准备

开始部署前,请按以下指引完成账号申请、账号充值等准备工作。

准备账号

  1. 如果您还没有阿里云账号,请访问阿里云账号注册页面,根据页面提示完成注册。阿里云账号是您使用云资源的付费实体,因此是部署方案的必要前提。

  2. 为阿里云账号充值。本方案的云资源支持按量付费,且默认设置均采用按量付费引导操作。如果确定任何一个云资源采用按量付费方式部署,账户余额都必须大于等于100元。

资源开通

  1. 登录阿里云百炼大模型服务平台,阅读并同意协议后,将自动开通阿里云百炼,如果未弹出服务协议,则表示您已经开通。

    • 当您首次开通阿里云百炼时,平台会自动为您发放各模型的新人专属免费额度。详情请参见新人免费额度

      说明

      仅中国大陆版(北京)模型有免费额度,国际版(新加坡)模型无免费额度。

    • 如果开通服务时提示“您尚未进行实名认证”,请先进行个人实名认证

  2. 如果您是首次访问轻量消息队列(原MNS),请按照以下步骤进行开通。

    1. 登录轻量消息队列(原 MNS)控制台

    2. 概览页,点击免费开通。根据页面提示完成开通。

  3. 如果您是首次访问事件总线 EventBridge,请按照以下步骤进行开通。

    1. 登录EventBridge控制台

    2. 概览页的开通事件总线向导页,点击免费开通。根据页面提示完成开通。

    3. EventBridge 需进行授权才能正常收取事件。在概览页的访问授权向导页,点击一键授权,完成阿里云服务授权。

获取API-KEY

获取百炼 API-KEY

  1. 前往阿里云百炼的密钥管理页面。

  2. API-Key 页签下,创建或查看 API Key

    重要
    1. 子账号需要通过主账号完成授权后再去创建 API Key

    2. 请不要将 API Key 以任何方式公开,避免因未经授权的使用造成安全风险或资金损失。

  3. 单击 API Key 列中的image,复制 API Key

创建Source(源)和Sink(目标)

10

本文创建2个轻量消息队列,分别作为事件流的Source(源)和Sink(目标)。

创建2个轻量消息队列

  1. 登录轻量消息队列(原 MNS)控制台

  2. 在左侧导航栏单击队列列表地域选择华南1(深圳)

  3. 单击创建队列名称填写eventbridge-dev,其余配置项保持默认值。

  4. 点击确定,等待队列创建成功。

  5. 重复上述步骤,再创建1个名称为eventbridge-online的队列。

重要

如果消息队列产生重复消费,建议将消息可见性超时时间修改为60秒~ 300秒。

构建数据处理管道

10

创建并配置EventBridge事件流作为数据处理管道。

创建事件流并配置Source(源)

  1. 登录EventBridge控制台

  2. 在左侧导航栏单击事件流地域选择华南1(深圳)

  3. 单击创建事件流

    1. 自定义任务名称

    2. 计费模式选择按事件量计费

  4. 任务创建页签的Source (源)区域,配置以下信息:

    1. 数据提供方选择轻量消息队列(原MNS)。

    2. 队列名称选择已创建的队列eventbridge-dev。其余配置项保持默认。

      image

  5. 点击下一步

配置Filtering(过滤)

  1. Filtering(过滤)区域,配置以下信息:

    1. 模式内容选择匹配全部事件。实际业务场景中,也可选择其他过滤规则,或选择自定义匹配来灵活定义过滤规则。

      image

  2. 点击下一步

配置Transform(转换)

  1. Transform(转换)区域,配置以下信息:

    1. 选择阿里云服务模型/智能体调用(阿里云百炼),本文以选择模型调用为例。

    2. 模型名称填写qwen-max

    3. 模型上下文配置如下表:

      SYSTEM

      固定值

      你是一名数据合规官,需要确保所有进入分析系统的数据都符合 GDPR/CCPA 规范,不能包含用户的个人身份信息(PII)。希望在 ETL 过程中自动识别并脱敏处理文本中的姓名、电话和身份证号。同时对敏感的宗教,性以及政治相关内容进行屏蔽。

      USER

      部分事件

      $.data.messageBody

      image

    4. 结构化输出选择开启,点击添加字段,参考下表添加字段:

      data

      string

      脱敏后的数据内容

      必填

      cause

      string

      数据被过滤的原因,使用英文返回

      非必填

      image

    5. API Key填写之前获取的百炼API-KEY。

  2. 点击下一步

配置Sink(目标)

  1. Sink(目标)区域,配置以下信息:

    1. 服务类型选择轻量消息队列(原MNS)

    2. 队列名称选择已创建的队列eventbridge-online

    3. 消息体(body)选择部分事件,并填写$.transform0.structuredoutput

      image

  2. 点击保存。等待事件流创建成功,状态应显示运行中

方案验证

3

Source(源)队列发送带有敏感信息的数据,在Sink(目标)队列接收事件流处理后的数据,来验证通过大模型实现的数据脱敏效果。

发送消息

  1. 登录轻量消息队列(原 MNS)控制台在左侧导航栏单击队列列表

  2. 找到已创建的队列eventbridge-dev,点击操作列的收发消息

  3. 发送消息区域,配置以下信息:

    1. 消息内容填写客户张三(13812345678)反馈了一个问题

    2. 消息延时时间设置为0

  4. 点击发送消息

接收消息

  1. 登录轻量消息队列(原 MNS)控制台在左侧导航栏单击队列列表

  2. 找到已创建的队列eventbridge-online,点击操作列的收发消息

  3. 接收消息区域,点击接收消息

  4. 列表中显示接收到的消息,点击操作列的详情,查看Base64解码后的消息内容。获取的结果类似下图,表明数据处理成功。

    image

清理资源

2

在本方案中,您创建了1EventBridge事件流,2个轻量消息队列。测试完方案后,您可以参考以下步骤删除对应产品的实例,避免继续产生费用:

  1. 删除EventBridge事件流:登录EventBridge控制台,在左侧导航栏点击事件流找到已创建的事件流,点击操作列的删除,然后根据页面提示操作。

  2. 删除轻量消息队列:登录轻量消息队列(原 MNS)控制台在左侧导航栏单击队列列表,找到已创建的全部队列,点击操作列最右侧的图标,点击删除,然后根据页面提示操作。

一键部署【免费试用】

方案概览

EventBridge 可以与 AI 服务深度结合,对流经事件总线的实时数据进行智能推理,从而增强现有数据处理能力,催生出更多创新的应用场景。

利用 EventBridge 作为数据中枢,将来自不同数据源的实时数据流,分发给不同的 AI 模型进行推理,并将推理结果再次通过 EventBridge 路由到下游的业务系统或数据存储。通过在 ETL 的 Transform 环节引入 AI 推理能力,可以提高数据转换的智能化水平,增强数据处理的效率和准确性,为企业提供更强大的数据集成和分析能力。

方案架构

方案提供的默认设置完成部署后在阿里云上搭建的系统如下图所示。实际部署时您可以根据资源规划修改部分设置,但最终形成的运行环境与下图相似。

image

本文将以敏感信息过滤为例,为下游数据进行数据清洗和脱敏处理。通过 AI 自动识别业务敏感关键词,为下游业务及数据合规提供保障。

实现效果如下:输入包含敏感信息的数据类似["客户张三(13812345678)反馈了一个问题..."],输出脱敏后的数据类似["客户***(138*****5678)反馈了一个问题..."](由于大模型生成结果存在随机性,测试时输出结果的格式可能存在差异,生产环境中可以通过提示词工程获得相对稳定的输出结果)。

本方案的技术架构包括以下基础设施和云服务:

基础设施和云服务

说明

1个事件流

用于构建数据管道。

2个轻量消息队列

分别作为数据源和目标。

阿里云百炼大模型服务平台

通过调用大模型服务,实现智能化处理数据。

一键部署

  1. 单击页面右侧的立即试用按钮,即可开始创建资源。等待几分钟后,即可完成部署。

    说明

    若页面显示您的账户余额小于预估试用点,则需先获取足够的试用点后再进行本方案的试用。获取更多试用点可前往解决方案免费试用

  2. 部署完成后,在当前页面右侧浏览器的RAM 用户登录页面中,单击下一步

  3. 在当前页面左侧的云产品资源 > 试用账号下,复制登录密码,并将其粘贴到右侧浏览器页面的用户密码输入框中,然后单击登录

  4. 登录成功后,在选择绑定的 MFA 类型页面中,单击右上方的跳过绑定

重要
  • 部署完成后,点击当前页面左侧的云产品资源菜单,即可查看所有已创建的云资源信息。

  • 在试用过程中,如果您的试用时长接近本方案的最大限制(可在页面右上角查看剩余时长),系统会提示您进行续期。您也可以单击页面右上角的续期来延长试用时间。当剩余时长为零时,系统将自动释放所有创建的资源。

  • 在接下来的操作中,如需访问某个云资源,请从左侧的云产品资源中复制相应地址,然后将其粘贴到右侧的浏览器中进行访问。

资源开通

  1. 登录阿里云百炼大模型服务平台,阅读并同意协议后,将自动开通阿里云百炼,如果未弹出服务协议,则表示您已经开通。

    • 当您首次开通阿里云百炼时,平台会自动为您发放各模型的新人专属免费额度。详情请参见新人免费额度

      说明

      仅中国大陆版(北京)模型有免费额度,国际版(新加坡)模型无免费额度。

    • 如果开通服务时提示“您尚未进行实名认证”,请先进行个人实名认证

  2. 如果您是首次访问轻量消息队列(原MNS),请按照以下步骤进行开通。

    1. 登录轻量消息队列(原 MNS)控制台

    2. 概览页,点击免费开通。根据页面提示完成开通。

  3. 如果您是首次访问事件总线 EventBridge,请按照以下步骤进行开通。

    1. 登录EventBridge控制台

    2. 概览页的开通事件总线向导页,点击免费开通。根据页面提示完成开通。

    3. EventBridge 需进行授权才能正常收取事件。在概览页的访问授权向导页,点击一键授权,完成阿里云服务授权。

获取API-KEY

获取百炼 API-KEY

  1. 前往阿里云百炼的密钥管理页面。

  2. API-Key 页签下,创建或查看 API Key

    重要
    1. 子账号需要通过主账号完成授权后再去创建 API Key

    2. 请不要将 API Key 以任何方式公开,避免因未经授权的使用造成安全风险或资金损失。

  3. 单击 API Key 列中的image,复制 API Key

创建Source(源)和Sink(目标)

10

本文创建2个轻量消息队列,分别作为事件流的Source(源)和Sink(目标)。

创建2个轻量消息队列

  1. 登录轻量消息队列(原 MNS)控制台

  2. 在左侧导航栏单击队列列表地域选择华南1(深圳)

  3. 单击创建队列名称填写eventbridge-dev,其余配置项保持默认值。

  4. 点击确定,等待队列创建成功。

  5. 重复上述步骤,再创建1个名称为eventbridge-online的队列。

重要

如果消息队列产生重复消费,建议将消息可见性超时时间修改为60秒~ 300秒。

构建数据处理管道

10

创建并配置EventBridge事件流作为数据处理管道。

创建事件流并配置Source(源)

  1. 登录EventBridge控制台

  2. 在左侧导航栏单击事件流地域选择华南1(深圳)

  3. 单击创建事件流

    1. 自定义任务名称

    2. 计费模式选择按事件量计费

  4. 任务创建页签的Source (源)区域,配置以下信息:

    1. 数据提供方选择轻量消息队列(原MNS)。

    2. 队列名称选择已创建的队列eventbridge-dev。其余配置项保持默认。

      image

  5. 点击下一步

配置Filtering(过滤)

  1. Filtering(过滤)区域,配置以下信息:

    1. 模式内容选择匹配全部事件。实际业务场景中,也可选择其他过滤规则,或选择自定义匹配来灵活定义过滤规则。

      image

  2. 点击下一步

配置Transform(转换)

  1. Transform(转换)区域,配置以下信息:

    1. 选择阿里云服务模型/智能体调用(阿里云百炼),本文以选择模型调用为例。

    2. 模型名称填写qwen-max

    3. 模型上下文配置如下表:

      SYSTEM

      固定值

      你是一名数据合规官,需要确保所有进入分析系统的数据都符合 GDPR/CCPA 规范,不能包含用户的个人身份信息(PII)。希望在 ETL 过程中自动识别并脱敏处理文本中的姓名、电话和身份证号。同时对敏感的宗教,性以及政治相关内容进行屏蔽。

      USER

      部分事件

      $.data.messageBody

      image

    4. 结构化输出选择开启,点击添加字段,参考下表添加字段:

      data

      string

      脱敏后的数据内容

      必填

      cause

      string

      数据被过滤的原因,使用英文返回

      非必填

      image

    5. API Key填写之前获取的百炼API-KEY。

  2. 点击下一步

配置Sink(目标)

  1. Sink(目标)区域,配置以下信息:

    1. 服务类型选择轻量消息队列(原MNS)

    2. 队列名称选择已创建的队列eventbridge-online

    3. 消息体(body)选择部分事件,并填写$.transform0.structuredoutput

      image

  2. 点击保存。等待事件流创建成功,状态应显示运行中

方案验证

3

Source(源)队列发送带有敏感信息的数据,在Sink(目标)队列接收事件流处理后的数据,来验证通过大模型实现的数据脱敏效果。

发送消息

  1. 登录轻量消息队列(原 MNS)控制台在左侧导航栏单击队列列表

  2. 找到已创建的队列eventbridge-dev,点击操作列的收发消息

  3. 发送消息区域,配置以下信息:

    1. 消息内容填写客户张三(13812345678)反馈了一个问题

    2. 消息延时时间设置为0

  4. 点击发送消息

接收消息

  1. 登录轻量消息队列(原 MNS)控制台在左侧导航栏单击队列列表

  2. 找到已创建的队列eventbridge-online,点击操作列的收发消息

  3. 接收消息区域,点击接收消息

  4. 列表中显示接收到的消息,点击操作列的详情,查看Base64解码后的消息内容。获取的结果类似下图,表明数据处理成功。

    image

清理资源

单击当前方案页面右上角的image结束试用,在弹出的确认框中继续单击确定,即可结束试用并释放所有资源。

说明

方案试用结束后,试用账号将销毁,试用资源将自动释放。