文档

基于DataWorks的大数据一站式开发及数据治理

更新时间:
一键部署

基于DataWorks做大数据一站式开发,包含数据实时采集到kafka通过实时计算对数据进行ETL写入 HDFS,使用Hive进行数据分析。通过DataWorks进行数据治理,数据地图查看数据信息和血缘关系, 数据质量监控异常和报警。

直达最佳实践

点击查看最佳实践详情

更多最佳实践

点击查看更多阿里云最佳实践

解决问题

  • 日志采集、处理及分析

  • 日志使用Flink实时写入HDFS

  • 日志数据实时ETL

  • 日志HIVE分析

  • 基于DataWorks一站式开发

  • 数据治理

方案优势

  • 大数据一站式开发,完善的数据治理能力。

  • 性能优越:高吞吐,高扩展性。

  • 安全稳定:Exactly-Once,故障自动恢复,资源隔离。

  • 简单易用:SQL语言,在线开发,全面支持UDX。

  • 功能强大:支持SQL进行实时及离线数据清洗、数据分析、数据同步、异构数据源计算等DataLake相关功能,以及各种流式及静态数据源关联查询。

  • 安全:原生的多租户系统,以项目进行隔离,所有计算任务在安全沙箱中运行。

部署架构图

部署架构图

相关产品

  • 文件存储HDFS

    阿里云文件存储HDFS(Apsara File Storage for HDFS)提供标准的HDFS访问协议,用户无需对现有大数据分析应用做任何修改,即可使用具备无限容量及性能扩展、单一命名空间、高可靠和高可用等特性的分布式文件系统。

    更多关于文件存储HDFS的介绍,参见文件存储HDFS产品详情页

  • 实时计算

    实时计算(AlibabaCloudRealtimeCompute,PoweredbyVerverica)是阿里云提供的基于ApacheFlink构建的企业级大数据计算平台。在PB级别的数据集上可以支持亚秒级别的处理延时,赋能用户标准实时数据处理流程和行业解决方案;支持DatastreamAPI作业开发,提供了批流统一的FlinkSQL,简化BI场景下的开发;可与用户已使用的大数据组件无缝对接,更多增值特性助力企业实时化转型。

    更多关于实时计算的介绍,参见实时计算产品详情页

  • E-MapReduce

    阿里云E-MapReduce (EMR) 是构建在阿里云云服务器ECS上的开源Hadoop、Spark、HBase、Hive、Flink生态大数据PaaS产品。提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。

    更多关于E-MapReduce的介绍,参见E-MapReduce产品详情页

  • DataWorks

    DataWorks基于MaxCompute/EMR/MC-Hologres等大数据计算引擎,为客户提供专业高效、安全可靠的一站式大数据开发与治理平台,自带阿里巴巴数据中台与数据治理最佳实践,赋能各行业数字化转型。每天阿里巴巴集团内部有数万名数据/算法工程师正在使用DataWorks,承担集团99%数据业务构建。

    更多关于DataWorks的介绍,参见DataWorks产品详情页

  • 本页导读
文档反馈