PolarDB for AI助力菜鸟实现一站式数据智能

公司介绍

菜鸟是全球电商物流行业领导者,全球跨境电子商务物流提供商,也是中国顶尖的电商综合供应链提供商。凭借出色的“电商和科技”基因,构建了一张全球智慧物流网络,通过不断创新解决方案,满足高速增长的复杂电商物流需求。通过全国自营网络建设,菜鸟速递为天猫超市等众多渠道的商家和品牌提供上门揽收、中转配送、在途拦截、逆向退货、售后客服等一站式快速、可靠和准时的快递服务,并保证送货上门。目前已在约300个城市提供次晨达、次日达和按需送货上门服务,重点城市最快半日达。在服务淘宝和天猫平台的快递公司中,菜鸟速递的送货上门率在业内最高。

业务挑战

为了保障送货上门的服务质量,如果通过电话随机回访用户确认包裹是否上门,需要较高的成本,也会频繁打扰用户;通过AI能力把大概率虚假上门的订单识别出来进行优先回访,可帮助将回访量由百万级定向到万级,有效降低成本和客户打扰。

但是在AI模型的生命周期管理过程中,存在如下痛点:

  • 业务不灵活:数据标注加工、算法设计与开发、特征工程、模型训练、模型调优、模型评估、模型上线等工作涉及众多业务系统、至少三类工程师角色,业务逻辑复杂,全流程耗时过长,当有新需求或者变更时,无法及时满足。

  • 开发难度大:需要Python、SQL、Java等众多开发语言和开发平台,对技术水平要求很高

  • 资源成本高:数据需要在不同业务系统中流转,导致数据冗余、计算资源冗余。

解决方案

经过充分的调研和评估,此业务最终采用了DB4AI解决方案,使用PolarDB数据库MLOps能力来替换原有解决方案。PolarDB for AI拥有一系列MLOps和内置的模型,解决了数据、特征和模型的割裂状态,通过SQL来驱动数据、特征和模型,实现了基于数据库的数据智能的一站式服务。

PolarDB for AI具备如下特点:

  • 全自动:内置MLOps能力,全流程自动化管理,提供一站式数据智能服务;

  • 一站式:支持包括模型创建、模型训练、模型评估、模型推理和模型管理等生命周期管理。避免数据来回传递。

  • 应用简单:统一SQL访问,不再需要独立的数据工程师和算法工程师。

  • 安全:数据和模型通过数据库访问控制和安全机制来保护。

  • 高性能:ML性能会随着集群的大小进行扩展,同时支持集成GPU卡,按需进行选型

image

如上图所示,通过AI节点,PolarDB通过扩展的SQL支持了多种模型操作,包括但不限于模型创建、模型评估、模型推理(在线)、模型推理(离线)、模型上传、模型部署等,下面给出了几个样例SQL:

  • 模型创建

    CREATE MODEL airlines_gbm WITH (model_class='lightgbm’, 
        x_cols='Airline,Flight,AirportFrom,AirportTo,DayOfWeek,Time,Length', 
        y_cols='Delay’, 
        model_parameter=(boosting_type='gbdt', n_estimators=100, max_depth=8, num_leaves=256)) 
    AS (SELECT * FROM airlines_train);
  • 模型评估

    SELECT Delay 
    FROM evaluate(MODEL airlines_gbm, SELECT * FROM airlines_test) 
    WITH (x_cols='Airline,Flight,AirportFrom,AirportTo,DayOfWeek,Time,Length’, y_cols='Delay', metrics='acc');
  • 模型推理(离线)

    SELECT TripID,Delay 
    FROM PREDICT (MODEL airlines_gbm_copy1, SELECT * FROM airlines_train_1000_copy1) 
    WITH ( s_cols='TripID,Delay’,x_cols = 'Airline,Flight,AirportFrom,AirportTo,DayOfWeek,Time,Length', y_cols='Delay’,primary_key='TripID', mode='async') 
    INTO lightgbm_v2_predict8220;
  • 模型推理(在线)

    SELECT TripID,Delay 
    FROM PREDICT (MODEL airlines_gbm_copy1, SELECT * FROM airlines_train_1000_copy1) 
    WITH ( s_cols='TripID,Delay’, x_cols = 'Airline,Flight,AirportFrom,AirportTo,DayOfWeek,Time,Length', y_cols='Delay’, primary_key='TripID',);

客户价值

菜鸟通过PolarDB for AI的应用和部署,实现了如下业务价值:

  • 非专业算法同学通过已有的SQL+Java技术栈,具备一定的算法理论基础的情况下,即可通过PolarDB for AI的能力进行算法的全生命周期开发,降低了算法研发门槛和维护成本。这样工程开发同学以相对较低的学习成本,结合当前的业务场景,可以快速解决领域内的业务问题,开发工作量从7人日降低至3人日,部署工作量从2人日降低为0。

  • PolarDB for AI相比原解决方案,消除了数据冗余,减少了计算资源,云资源成本降低了50%。

维度

原解决方案

PolarDB4AI

开发工作量

5人日

3人日

部署工作量

2人日

0

资源成本

降低50%

人员门槛