衣二三作为亚洲最大的共享时装平台,MaxCompute是如何帮助它解决数据提取速度慢、数据口径差异等问题呢?本案例通过衣二三数据体系架构,从用户运营应用、商品运营应用以及算法推荐系统三方面为您剖析MaxCompute是如何助力衣二三构建智能化运营工具的。
公司介绍
业务痛点
- 打开衣橱总是找不到今天想穿的衣服。使用衣二三,用户可以灵活换装, 不断地尝试不同风格
- 费用高。衣二三标准的月费只有499 元,相当于买一件衣服的价格,用户可以用买一件衣服的价格换穿一整月的不同服装。
- 大城市的房屋空间有限,拥有一个衣橱对于很多用户来说更是奢望。衣二三可以回收衣服,帮助用户节约空间,同时还负责清洗衣服,正如宣传语所说的那样——“你负责貌美如花,我负责清洗收发”。
- 卫生问题。衣二三联合福奈特、天天洗衣等共同打造了智能化现代化的洗衣工厂,每一件衣服需要经过多达16 道清洗消毒流程,比自己家里洗衣服还要干净。
- 购买和退换问题。衣二三通过体验式的方式帮助用户从款式、尺码等方面找到真正适合自己的衣服,并且允许用户买下来。
为什么选择阿里云
衣二三的前后端运营比较复杂,前端需要让客户在尽可能短的时间认识我们,了解我们,才能形成转化;后端也是特别复杂,与一般的电商相比,衣二三有明显的异同,常规电商的客户在前端下好单后,会通过订单管理系统,将订单派发到仓储中心,仓储中心会对订单进行拣货、配货、包装、物流等,最终将商品送到客户手中, 也可能伴随着一小部分的退货或返修,对于一般电商来讲,整个流程到这里就基本结束了,但是对于衣二三来说,该流程只进行了一半,我们需要对所有的衣服进行回收、清洗和质检,才能够再次上架让客户挑选,如此复杂的运营自然离不开大数据的支持,MaxCompute 作为整个数据体系的核心,帮助了衣二三很多。
- 数据提取速度慢。随着系统不断地变复杂,SQL越跑越慢。
- 数据口径差异。每个工程师将逻辑都写在 SQL 里,不同工程师得到的数据结果可能不一样,这就是因为我们没有集中化标准化的数据仓库对每一个数据维度和业务的指标有相应明确的定义,造成所有的逻辑都在SQL 中。
- Python 脚本实现基础 ETL。作业调度与依赖难于维护与迭代,运维也是比较令人头疼的,修复时间长。
- 人工数据提取及报表制作。工程师忙于提供各个业务部门的数据支持。
这些问题促使我们想要做出改变,起初我们想做一套完整的hadoop 全家桶进行替代,但评估后发现其运维代价和资源消耗对于我们的数据团队和运维团队来说,都是比较大的负担,而且很难快速体现价值。后来,我们很幸运的遇到了MaxCompute, 从试用开始,我们逐渐把数据仓库和数据体系建构在MaxCompute 上。
- MaxCompute 是基于云端的大数据仓库,无需复杂作业运维工作。
- 数据吞吐量大,查询性能好,支持UDF。
- 可视化任务编辑界面,易于上手。
- 使用成本低,适合初创公司。
- 与阿里云大数据产品生态融为一体,比如RDS,应用层的Quick BI,Blink 以及日志服务。
解决方案
衣二三数据体系架构如图所示,最底层是数据源,包括RDS 生产数据库和日志服务等,通过日志服务、DataHub 等投递到数据计算层;数据计算层以Max- Compute 为核心,同时配合我们自己做的脚本和UDF 进行数据存储和计算,生成的结果反馈到前端数据应用层;数据应用层是数据分析展示工具,包括YConsole、 Quick BI 以及DataV 等,我们使用DataV 做展示业务全局的看板,让我们快速了解全国各地谁在下单、仓储中心的储备情况等。 我们还有包括用户画像、商品画像、爆款识别、衣二三指数和实时人效监控等。
- 用户运营应用
用户运营对于互联网公司来讲,都是极其重要的,它有两个业务指标,一是转化,一是留存。转化是指尽快让客户了解我们的价值,同时形成付费和转化;留存是指让已经成为我们用户的用户在平台上得到好的体验,让用户喜欢这种生活方式并留下来。 我们结合了MySQL 数据和用户日志放到MaxCompute 中,经过PAI 平台, 我们自己做了数据分析,包括使用数据挖掘算法和随机森林等的数据维度分析,对我们整个用户运营做了很多量化指标,我们通过邮件日报对运营指标监控,基于这些指标我们开发了自有用户分群体系推进用户精细化运营;基于阿里云机器学习计算平台PAI,我们建立了预测模型,预测用户的转化率等;引入流失预警计算体系后,运营根据用户的流失指数进行精准挽留营销,将会员流失降低了超过50%。
- 商品运营应用
衣二三的每一个商品都有结构化的数据,我们专业的买手会给商品打上20+ 维度的标签。此外,我们会总结用户行为,用户与商品之间的互动都放在MaxCompute 中做相关性分析,形成商品的一系列指标,比如爆款识别,通过爆款识别去预测满足哪些属性和维度的衣服会形成爆款,我们的买手会带着数据工具一起进行采购,极大的提高了运营效率。 我们还结合商品各个表现维度,包括库存深度、出租情况等计算出衣二三指数, 它可以对商品进行排名。除了给合作伙伴应有的租赁收益外,我们还会提供数据工具,最大化业务模式的价值。
商品的灵魂就是标签,只要将标签做的足够细,才能从结构化上去理解它,去做一些预测性的指标。我们通过商品不同的标签及风格场景热度指数进行备货指导,通过最终商品空置率进行商品调拨及库存关联,通过衣二三指数反映商品热度排行,根据用户行为促进租售转化,完成商品流动闭环。
- 算法推荐系统
衣二三的推荐算法也是基于MaxCompute,把用户对商品的行为通过日志收集到MaxCompute 中,对用户进行用户画像,对用户画像进行模型训练,最终落地到商品列表展示给用户。使用推荐系统给我们的业务带来很大提升,选衣页推荐的点击率增加了70%,人均点击数增加了50%;相关单品推荐的点击率增加了150%,人均点击率增加了110%。
大数据的魅力大家已经认识到,MaxCompute 这样的产品对于初创公司来讲将大数据门槛降的非常低,让大数据能够面向各种各样的公司来贡献力量和发挥价值。
相关产品
- 大数据计算服务 · MaxCompute
MaxCompute(原ODPS)是一项大数据计算服务,它能提供快速、完全托管的PB级数据仓库解决方案,使您可以经济并高效的分析处理海量数据。
更多关于阿里云MaxCompute的介绍,参见MaxCompute产品详情页。
- 实时计算
实时计算(Alibaba Cloud Realtime Compute,Powered by Ververica)是阿里云提供的基于 Apache Flink 构建的企业级大数据计算平台。在 PB 级别的数据集上可以支持亚秒级别的处理延时,赋能用户标准实时数据处理流程和行业解决方案;支持 Datastream API 作业开发,提供了批流统一的 Flink SQL,简化 BI 场景下的开发;可与用户已使用的大数据组件无缝对接,更多增值特性助力企业实时化转型。
更多关于实时计算的介绍,参见实时计算产品详情页。
- 日志服务 SLS
一站式提供数据收集、清洗、分析、可视化和告警功能。全面提升海量日志处理能力,实时挖掘数据价值,智能助力研发/运维/运营/安全等场景。
更多关于日志服务的介绍,参见日志服务产品详情页。
- 云数据库RDS MySQL版
MySQL 是全球最受欢迎的开源数据库之一,作为开源软件组合 LAMP(Linux + Apache + MySQL + Perl/PHP/Python)中的重要一环,广泛应用于各类应用场景。
更多关于云数据库RDS MySQL版的介绍,参见云数据库RDS MySQL版产品详情页。
- 机器学习PAI
阿里云机器学习平台PAI(Platform of Artificial Intelligence),为传统机器学习和深度学习提供了从数据处理、模型训练、服务部署到预测的一站式服务。
更多关于机器学习PAI的介绍,参见机器学习PAI产品详情页。
- DataV数据可视化
DataV旨在让更多的人看到数据可视化的魅力,帮助非专业的工程师通过图形化的界面轻松搭建专业水准的可视化应用,满足您会议展览、业务监控、风险预警、地理信息分析等多种业务的展示需求。
更多关于阿里云DataV数据可视化的介绍,参见DataV数据可视化产品详情页。