客户案例

DataWorks在多个行业中均有典型的案例落地,帮助多个行业的企业解决数据痛点,挖掘数据价值,本文为您介绍典型行业中已落地的客户案例。

新零售行业:大润发云上数据中台建设

客户架构如下。大润发

  • 客户简介

    为了快速数字化转型,拥抱新零售,大润发计划两年内将IT系统全面迁移到阿里云上,不再自建IDC。同时与阿里云合作启动数据中台项目,可以帮助大润发降低TCO的同时,更好的依托云上生态,实现数据资产业务化闭环。

  • 客户需求

    • 基于Hadoop开源生态打造,软硬件维护成本高昂,稳定性问题不断,严重影响业务经营分析。

    • 线上业务爆发,需求积压严重,期望有整体解决方案,能够快速灵活支持业务发展所需的技术扩展。

  • 价值体现

    通过MMA工具,15天完成400TB+历史数据迁移,同时保证了迁移的准确性,让客户拥有平滑高效的上云体验。基于飞天大数据平台产品DataWorks+MaxCompute大大提高了数据业务的开发效率,构建大润发的数据中台体系。

新金融行业:某互联网金融公司湖仓一体案例

客户架构如下。互联网金融

  • 客户简介

    公司的第一代数据湖是基于Hadoop + OSS搭建的,同时引入的数据中台的执行引擎和存储是 MaxCompute,两套异构的执行引擎带来存储冗余、元数据不统一、权限不统一、湖仓计算不能自由流动的问题。

  • 客户需求

    如架构图所示,MaxCompute和EMR不同引擎用于不同的业务场景,使用阿里云数据湖构建DLF统一做元数据管理和统一用户权限管理。通过DataWorks进行全链路数据治理,提升数据质量与应用能力。

  • 价值体现

    • 将EMR的元数据统一到DLF,底层使用OSS作统一存储,并通过湖仓一体打通EMR数据湖和MaxCompute数仓两套体系,让数据和计算在湖和仓之间自由流动。

    • 实现湖仓数据分层存储。数据中台对数据湖数据进行维度建模的中间表存储在MaxCompute上,EMR或其他引擎消费ADS层。

新能源:某能源客户基于DataWorks全链路数据治理案例

客户架构如下。能源

  • 客户简介

    • 多家子公司经过多年建设,系统数量多,技术路线复杂多样。

    • 数据分散,数据标准定义混乱,各类数据出现断层,无法有效用于分析。

    • 数据管理权责不明,缺乏数据治理,没有有效的数据共享机制。

  • 客户需求

    • 通过DataWorks+MaxCompute搭建数据中台,打破数据孤岛。

    • 通过Realtime Compute+MaxCompute交互式分析(Hologres)提升数据中台实时性。

    • 通过DataWorks进行全链路数据治理,提升数据质量与应用能力。

  • 价值体现

    • 打造B2B智慧营销系统,实现智能制造+互联网模式落地。

    • 打造离线实时一体化数据中台,构建统一、完整的大数据应用链路,服务内部几大核心业务。

    • 全链路数据治理提高数据可用性,让数据在中台进行自由流动,保证数据准确、准时、一致,成本削减1亿元。

    • 提高业务迭代效率,数据更新频率由1天变成10分钟,新需求上线由1周变成1天。

互联网行业:快狗打车云上大数据仓库

客户架构如下。快狗打车

  • 客户简介

    快狗打车则一直坚持通过“连接网络化”、“运力共享化”、“过程数据化”、“匹配智能化”等数字信息化解决方案,将闲散运力统一整合到平台上,通过大数据将运力精准匹配市场需求,实现运力的节能减排,降低空驶率,有效提升行业运行效率,积极推动绿色物流发展。

  • 客户需求

    • 海量数据处理效率下降,离线数据计算时长不稳定。

    • 实时计算开发维护成本高,希望对数仓进行综合治理。

  • 价值体现

    基于飞天大数据平台产品,快狗打车不仅机器成本节约30%以上,数据开发效率提升100%。从Java Storm迁移到Flink SQL使实时计算开发周期大大减少,维护更加容易,数据一致性得到更好地保障,提升了业务监控大屏的准确性和实时性,用户可以更专注于业务,加速了业务的实时化。同时,阿里云的24小时运维服务保证了集群稳定,实现了零故障。

互联网行业:宝宝树云上大数据仓库

客户架构如下。宝宝树

  • 客户简介

    宝宝树成立于2007年,是中国最大、最活跃的母婴类社区平台。作为最早做互联网2C的社区平台之一,宝宝树很早就建立了自己的IDC集群,而且规模越来越大。

  • 客户需求

    • 集群水位高,性能差,亟待大数据综合治理。

    • IDC大数据每年投入成本高,希望降本提效。

  • 价值体现

    从大数据平台上云整体“降本增效”的方案快速切入,迁移到大数据MaxCompute、实时计算、DataWorks后,部分任务有10倍以上的性能提升,存储从自建Hadoop 3PB降到900T,利用Flink实时数据处理能力,将宝宝树现有的场景实时化(“基于用户ID维度和内容类型的实时行为”、“获取用户的实时群聊ID”及“获取文章的实时发布信息”),并且基于Flink进行实时推荐增加转化率。大数据平台整体成本节省30%以上。

游戏行业:DeNA中国游戏全链路运营

客户架构如下。游戏

  • 客户简介

    DeNA是优秀的网络服务公司,随着游戏项目的生命周期越来越短,项目的各个阶段走向实时、精准的把控,需要构建经济、高效的精细化数据运营体系。

  • 客户需求

    • 存在Hadoop1.0、2.0两个集群,技术架构复杂,平台的稳定性和安全性、资源的弹性伸缩能力都遇到了瓶颈。

    • 日志来源渠道多,实时性要求高,基于fluentd的文件采集服务,随着日志量的增多,性能、稳定性存在明显瓶颈。

    • “人肉脚本”的数据开发方式,业务支持效率低,且hive计算性能无法满足需求。

  • 价值体现

    DeNA中国是游戏行业首家应用闪电立方+MMA工具项目,在无专线等环境下,1个多月就完成10年增量RDS库300TB+历史数据50TB的数据迁移,具备较高的技术复杂度。相较之前客户基于python开源的airflow任务管理系统来说,DataWorks拥有以下优势:

    • 任务管理一目了然,任务出错定位以及即时跳转到相关任务代码修复。

    • 数据源一次性管理,不需要重复劳动,可被多种数据服务需求使用游戏业务拥有上百个数据源。

    • 整体技术下沉,使得资源调度等都不需要自己耗费精力和"额外"的coding,而实现专注于管理开发。

    迁移完成后,飞天大数据平台覆盖数据采集>存储&计算>实时/离线分析等游戏数据运营全链路。

游戏行业:37手游重构数据体系建设

  • 客户简介

    37手游致力于手机游戏发行业务,在中国大陆地区,存在近10%的市场占有率。迄今为止,成功发行二十余款优秀作品,累计为超过4亿游戏玩家提供过服务,累计发行运营游戏超2000+款。庞大的运营计数会产生海量数据,需做好数据分析,为游戏运营提供更好的数据服务。

  • 客户需求

    希望优化数据体系结构,解决如下难点、痛点问题:

    • 业务团队对全域数据资产无感知,且数据需求响应时间长。

    • 组件繁多,运维、开发成本高。

    • 昼夜资源使用量不均,资源利用率低。

    • 扩展性差,扩容、升级存在一定难度和风险。

    • 数据质量难保证。

  • 价值体现

    通过统一计算引擎、统一管理及运维、打通AI及BI,提升数据利用率、做到降本增效。同时,构建自助数据分析平台,快速满足各类人员不同数据分析需求。数据体系整体上云,使用少量组件即可实现流批一体、湖仓一体,完成从数据驱动到数智驱动,极大发挥数据价值。

  • 视频介绍

社交媒体行业:欢聚时代大规模数据湖建设

  • 客户简介

    欢聚时代成立于2005年,是全球领先的社交媒体企业,旗下运营多款社交娱乐产品,包括即时通讯、电商业务等。目前基于Hadoop+HDFS开源架构进行离线(HDFS+Spark)、实时计算(Flink+中间件),该架构在运行中存在性能瓶颈及弹性能力弱等问题,无法很好的满足当前业务需要。

  • 客户需求

    改善自建架构如下问题:

    • 资源成本高、弹性能力弱,资源无法按量使用弹性扩展,并且扩容时间长。

    • 基础设施底层服务需专门人员维护,性能瓶颈及运维人力成本高。

    • 服务版本升级困难。

  • 价值体现

    通过统一存储、统一元数据、计算与存储分离、计算资源弹性扩缩容,使系统整体架构更加灵活,并减少成本。同时,实现流批一体,做到秒级查询,使开发、维护及对数更加简单。解决原有性能瓶颈及弹性能力弱等问题。

  • 视频介绍