基于DataWorks的大数据一站式开发及数据治理-阿里云帮助中心

直达最佳实践

点击查看最佳实践详情

解决问题

日志采集、处理及分析
日志使用Flink实时写入HDFS
日志数据实时ETL
日志HIVE分析
基于DataWorks一站式开发
数据治理

方案优势

大数据一站式开发，完善的数据治理能力。
性能优越：高吞吐，高扩展性。
安全稳定：Exactly-Once，故障自动恢复，资源隔离。
简单易用：SQL语言，在线开发，全面支持UDX。
功能强大：支持SQL进行实时及离线数据清洗、数据分析、数据同步、异构数据源计算等DataLake相关功能，以及各种流式及静态数据源关联查询。
安全：原生的多租户系统，以项目进行隔离，所有计算任务在安全沙箱中运行。

部署架构图

相关产品

文件存储HDFS
阿里云文件存储HDFS（Apsara File Storage for HDFS）提供标准的HDFS访问协议，用户无需对现有大数据分析应用做任何修改，即可使用具备无限容量及性能扩展、单一命名空间、高可靠和高可用等特性的分布式文件系统。
更多关于文件存储HDFS的介绍，参见文件存储HDFS产品详情页。
实时计算
实时计算（AlibabaCloudRealtimeCompute，PoweredbyVerverica）是阿里云提供的基于ApacheFlink构建的企业级大数据计算平台。在PB级别的数据集上可以支持亚秒级别的处理延时，赋能用户标准实时数据处理流程和行业解决方案；支持DatastreamAPI作业开发，提供了批流统一的FlinkSQL，简化BI场景下的开发；可与用户已使用的大数据组件无缝对接，更多增值特性助力企业实时化转型。
更多关于实时计算的介绍，参见实时计算产品详情页。
E-MapReduce
阿里云E-MapReduce (EMR) 是构建在阿里云云服务器ECS上的开源Hadoop、Spark、HBase、Hive、Flink生态大数据PaaS产品。提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。
更多关于E-MapReduce的介绍，参见E-MapReduce产品详情页。
DataWorks
DataWorks基于MaxCompute/EMR/MC-Hologres等大数据计算引擎，为客户提供专业高效、安全可靠的一站式大数据开发与治理平台，自带阿里巴巴数据中台与数据治理最佳实践，赋能各行业数字化转型。每天阿里巴巴集团内部有数万名数据/算法工程师正在使用DataWorks，承担集团99%数据业务构建。
更多关于DataWorks的介绍，参见DataWorks产品详情页。

直达最佳实践

更多最佳实践

解决问题

方案优势

部署架构图

相关产品