使用MaxCompute远程模型自动生成电商选品描述

本文介绍如何使用MaxCompute远程模型自动生成电商选品描述。

场景说明

随着电商和直播业务的飞速发展,对电商选品的“拍图-上架”周期要求日益压缩,传统的人工标注方案依赖标注员经验与主观判断,且海量数据处理成本高昂,长期规模化应用面临成本与质量管控的双重挑战。借助AI能力进行多模态数据处理逐渐成为主流趋势。本文通过一个电商场景的图片标签和摘要生成案例,介绍如何通过Object Table访问存储在OSS上的非结构化数据,使用MaxCompute远程模型和AI Function实现非结构化数据的处理。

方案优势

  • 通过MaxCompute Object Table的能力,可以直接访问存储在OSS中的数据,不需要进行复杂的数据迁移。

  • 用户可以直接使用自己在EAS服务中部署的模型,模型服务的资源可被有效利用。

  • 用户无需进行复杂的自定义函数封装,通过MaxCompute AI Function的能力,使用简单的SQL语句就能完成图片数据提取、加工。

环境准备

数据准备

  1. 将需要处理的电商数据上传图片至OSS,本文示例为50张商品海报图片数据。数据来源于阿里云天池公共数据集:海报设计文本图像数据集

    图片示例:

    image.pngimage.pngimage.png

  2. 创建Object Table。

    SET odps.namespace.schema=true; -- 开启租户级Schema语法开关。
    
    CREATE OBJECT TABLE IF NOT EXISTS image_demo
    WITH SERDEPROPERTIES ('odps.properties.rolearn'='acs:ram::1393************:role/aliyunodpsdefaultrole')
    LOCATION 'oss://oss-cn-shanghai-internal.aliyuncs.com/mllm-demo/jpg-test/';
    
    -- 刷新,即图片元信息缓存在MaxCompute中。
    ALTER TABLE image_demo REFRESH METADATA;
    
    SELECT COUNT(*) AS ROW_COUNT FROM image_demo; 
    
    +------------+
    | row_count  |
    +------------+
    | 50         |
    +------------+

创建远程模型

  1. PAI EAS控制台部署Omni多模态模型,获取模型服务的名称、访问Endpoint和对应的Token信息。

  2. MaxCompute中注册Omni多模态远程模型。

    CREATE MODEL PAI_EAS_Qwen25_Omni_3B WITH VERSION v1 
    OPTIONS(
        MODEL_SOURCE_TYPE = 'REMOTE',
        MODEL_TYPE = 'MLLM',
        TASKS = 'text-generation',
        PAI_EAS_MODEL_NAME = 'Qwen2.5-Omni-3B',
        PAI_EAS_SERVICE_NAME = 'demo_remote_model', 
        ENDPOINT = 'http://***********.cn-shanghai.pai-eas.aliyuncs.com',
        APIKEY = 'your-api-key',
        PAI_EAS_SYNC_MODE = 'true'
    )
    COMMENT "PAI EAS remote model";
    
    
    ALTER MODEL PAI_EAS_Qwen25_Omni_3B ADD VERSION v2 
    INPUT(data BINARY, promt STRING) 
    WITH OPTIONS(
        MODEL_SOURCE_TYPE = 'REMOTE',
        MODEL_TYPE = 'MLLM',
        TASKS = 'text-generation',
        PAI_EAS_MODEL_NAME = 'Qwen2.5-Omni-3B',
        PAI_EAS_SERVICE_NAME = 'demo_remote_model', 
        ENDPOINT = 'http://************.cn-shanghai.pai-eas.aliyuncs.com',
        APIKEY = 'your-api-key',
        PAI_EAS_SYNC_MODE = 'true'
    )
    COMMENT "PAI EAS remote model binary input";
  3. 查看远程模型。

    desc model PAI_EAS_Qwen25_Omni_3B;
    
    ID = 20250909024319251glhmocwqddl
    +------------------------------------------------------------------------------------+
    |                  Model Information                                                 |
    +------------------------------------------------------------------------------------+
    | Owner:                    ALIYUN$***********************                           |
    | Project:                  pd_test_model                                            |
    | Schema:                   default                                                  |
    | Model Name:               PAI_EAS_Qwen25_Omni_3B                                   |
    | Model Type:               MLLM                                                     |
    | Source Type:              REMOTE                                                   |
    | Default Version:          v1                                                       |
    | CreateTime:               2025-09-04 10:29:28                                      |
    | LastModifiedTime:         2025-09-09 10:43:11                                      |
    | Model ID:                 46311b6397494a84ad23c5a4********                         |
    | Comment:                  PAI EAS remote model url input                           |
    +------------------------------------------------------------------------------------+
    |                Version Information                                                 |
    +------------------------------------------------------------------------------------+
    | Owner:                    ALIYUN$***********************                           |
    | Project:                  pd_test_model                                            |
    | Schema:                   default                                                  |
    | Model Name:               PAI_EAS_Qwen25_Omni_3B                                   |
    | Model Type:               MLLM                                                     |
    | Source Type:              REMOTE                                                   |
    | Version Name:             v1                                                       |
    | Version ID:               c389823cd0324b72b1c0d55***********                       |
    | Path:                                                                              |
    | CreateTime:               2025-09-04 10:29:28                                      |
    | LastModifiedTime:         2025-09-04 10:29:28                                      |
    | apikey:                   Yzc4*******mNzFkMGM********4YzEwZjY1NTA*********NzkyNw== |
    | endpoint:                 http://13933481********.cn-shanghai.pai-eas.aliyuncs.com |
    | pai_eas_model_name:       Qwen2.5-Omni-3B                                          |
    | pai_eas_service_name:     demo_eas_model                                           |
    | pai_eas_sync_mode:        true                                                     |
    | remote_service_type:      PAI-EAS                                                  |
    +------------------------------------------------------------------------------------+
    | Input           | Type       | Comment                                             |
    +------------------------------------------------------------------------------------+
    +------------------------------------------------------------------------------------+
    
    OK

数据分析

使用MaxCompute AI_GENERATE函数进行图片数据的分类和描述摘要生成:

SET odps.namespace.schema=true; 

SELECT
  key,
  AI_GENERATE(
    PAI_EAS_Qwen25_Omni_3B, v1, image_url,
    "从电商商品销售海报中识别并提取商品所属的类目。返回结果仅限于如下六个选项之一:美妆、服装、日用、食品、其他、电子产品,不包含其他文字或信息"
  ) as item_catagory,
  AI_GENERATE(
    PAI_EAS_Qwen25_Omni_3B, v1, image_url,
    "你是一名专业的电商文案编辑, 请根据提供的电商商品销售海报,生成商品描述摘要。
     输出要求:1.摘要应准确反映海报中的关键信息,如商品特点、促销信息等; 2.绝对保证语言通顺和可读,不包含任何特殊符号和乱码,长度不超过50字;3.除商品的英文品牌名外,必须使用中文进行表述,严禁夹杂任何英文单词;
     示例:纯棉T恤限时优惠,买一送一,活动仅剩3天!"
  ) as item_description
  from (
    select GET_SIGNED_URL_FROM_OSS(
      'pd_test_model.default.image_demo', key, 604800
    ) as image_url, key as key
    from pd_test_model.default.image_demo
) Limit 10;


ID = 2025090909524183gsu********
Log view:
https://logview.alibaba-inc.com/logview/?h=http://server-ip:8008/daily&p=pd_test_model&i=2025********4183gsuq57sqddl&token=********
----------------------------------------------------------------------------------------------
                    STAGES        STATUS  TOTAL  COMPLETED  RUNNING  PENDING  BACKUP
M1_job_0 .................    TERMINATED      1          1        0        0       0
----------------------------------------------------------------------------------------------
STAGES: 01/01    [==========================>>] 100%  ELAPSED TIME: 11.65 s    
----------------------------------------------------------------------------------------------
+------+---------------+------------------+
| key  | item_catagory | item_description |
+------+---------------+------------------+
| alimamazszw-1.jpg | 食品        | 西餐厅牛肉限时优惠,下单享好礼,带有新鲜罗勒叶,美味享受不容错过。 |
| alimamazszw-10.jpg | 电子产品  | 新功能风扇限时促销,历史最低价,快来选购! |
| alimamazszw-11.jpg | 电子产品  | 炫酷头盔在线销售,MIPS防护技术,下单立减270元,优惠至手729元,限时活动,抢购不容错过! |
| alimamazszw-12.jpg | 美妆        | misspiggy「极细丝滑」眼线胶笔,软糯丝滑,持久不晕妆。买买二减十,限时优惠,立即行动。 |
| alimamazszw-13.jpg | 电子产品  | 本次特价销售的IX35雨刷,今日特惠,立即抢购。 |
| alimamazszw-14.jpg | 日用        | 北京吉田生物护科技有限公司生产的生物组织胶水,可以粘伤口,仅用于动物实验,有效期1年。 |
| alimamazszw-15.jpg | 美妆        | BodyAid增发精华液,唤醒毛囊,发境育发,焕发新生。 |
| alimamazszw-16.jpg | 美妆        | 3CE元气腮红限时优惠,买一赠一,狂欢日惊喜不断。 |
| alimamazszw-17.jpg | 美妆        | 海蓝之谜HR护肤霜,黑白包装,6件六重好礼,下单即送价值2340元,顺丰速递,限时优惠,数量有限。 |
| alimamazszw-18.jpg | 日用        | 李施德林漱口水多种口味促销,现有30元优惠券,数量有限,快来抢购! |
+------+---------------+------------------+

-- 如果读BINARY。
SELECT
  key,
  AI_GENERATE(
    PAI_EAS_Qwen25_Omni_3B, v2, image_binary,
    "从电商商品销售海报中识别并提取商品所属的类目。返回结果仅限于如下六个选项之一:美妆、服装、日用、食品、其他、电子产品,不包含其他文字或信息"
  ) as item_catagory,
  AI_GENERATE(
    PAI_EAS_Qwen25_Omni_3B, v2, image_binary,
    "你是一名专业的电商文案编辑, 请根据提供的电商商品销售海报,生成商品描述摘要。
     输出要求:1.摘要应准确反映海报中的关键信息,如商品特点、促销信息等; 2.绝对保证语言通顺和可读,不包含任何特殊符号和乱码,长度不超过50字;3.除商品的英文品牌名外,必须使用中文进行表述,严禁夹杂任何英文单词;
     示例:纯棉T恤限时优惠,买一送一,活动仅剩3天!"
  ) as item_description
  from (
    select GET_DATA_FROM_OSS(
      'pd_test_model.default.image_demo', key
    ) as image_binary, key as key
    from pd_test_model.default.image_demo
) Limit 10;