方案亮点:PB级新能源车辆基础数据、高性能采集入库、高效数据分析、低成本运营。
客户感言
2019年开始上海市新能源汽车大数据平台从自建Hadoop集群迁移至阿里云Lindorm+DLA Spark产品,有效解决了我们平台存储和计算的横向动态扩容瓶颈,同时借助其产品中间件LTS实现了我们平台数据的冷热分离,有效降低了数据存储成本,依托于阿里云强大丰富的技术生态解决了我们的诸多技术壁垒,使得我们的技术团队专注于业务开发。
客户简介
上海市新能源汽车公共数据采集与监测研究中心(以下简称“数据中心”)是2014年底由上海市社会团体管理局批准注册成立,由上海市经济和信息化委员会负责业务指导,是上海市的新能源汽车市级监管平台,其主要职责是对上海市推广的全部新能源汽车进行数据采集和分析应用,以支撑政府政策制订和安全监管。截至2021年1月31日,数据中心累计接入新能源汽车41.8万辆,涉及车企95家,品牌107个,车型777款,数据存储量突破1个PB,数据规模继续处于全球城市前列。成立以来,数据中心在多源数据融合应用方面做了许多探索,陆续建成了 “上海市新能源汽车大数据平台”、“上海市动力电池溯源管理平台”、“上海市加氢站与氢燃料电池汽车公共数据平台”、 “GEF6上海能源管理中心平台”,有效发挥了数据在车辆安全监管、动力电池全生命周期监管、燃料电池汽车补贴发放等方面工作的支撑作用。
业务挑战
国家政策支持,保有车辆数量快速增长。
电动车作为一个新生事物,还处于不断发展中,数据采集点有不断变化的需求。
为满足分析及上层业务诉求,采集频率也有不断变化的需求,采集频率的提高往往意味着吞吐量、数据量翻倍甚至数量级提升。
国家对于电动车数据的保存年限做了规范性要求。
海量采集数据有实时归档到离线数仓案并分析的需求。
数据分析结果有服务化的需求,需要回流到在线存储。
解决方案
Lindorm历经阿里众多核心服务的大规模验证,拥有相关技术领域的技术团队,保障了使用过程的持续稳定、可靠,构建起坚实的离在线存储底座,使得客户可以聚焦于业务侧的发展。
Lindorm宽表引擎批量提交优化,大幅度提升集群吞吐量、降低请求响应时间,性能提升3倍以上。
开启Lindorm宽表引擎压缩优化特性,显著减少存储空间开销。
基于Lindorm HDFS大数据存储方案,满足海量数据ETL和分析需求。
云原生数据湖分析(简称DLA)Spark分析引擎满足在线交互式查询、流处理、批处理、机器学习等业务诉求。
客户价值
Lindorm宽表引擎批量写入、高效压缩,线性扩展等特性使得数据采集入库性能更高、成本更低,很好的支撑了业务的快速发展,对于采集点&采集频率变更带来的流量突增也可以从容应对。
通过APP->Lindorm->LTS实时归档->parquet列存(Lindorm HDFS)->DLA Spark分析->bulkload->Lindorm这样一条链路形成了数据存储、实时归档、分析、数据回流、分析后数据查询的全链路数据闭环,满足业务发展的诉求。