基于hadoop生态系统的大数据解决方案综述-基于hadoop生态系统的大数据解决方案综述文档介绍内容-阿里云

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

DataWorks On EMR使用说明

背景信息开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。阿里云...

注册EMR集群至DataWorks

背景信息开源大数据开发平台 E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还...

概述

增大151.7%3.02GB AVRO Hadoop生态格式的数据，数据由大部分遗留系统产生。增大8.3%1.3GB RCFile Hadoop生态格式的数据，数据由大部分遗留系统产生。减少2.5%1.17GB Parquet Hadoop生态格式的数据。数据采用高性能的列存储格式，提升数据...

阿里云电子政务云产品全家福

阿里云电子政务云平台提供弹性计算类、网络、数据库、存储、大数据、中间件、IoT等品类丰富的产品及高标准的安全合规服务，用以支撑多种政务类业务场景，例如：城市大脑，合规应用平台等。截至文档发布时间，阿里云电子政务云共计上线95款...

JindoFS介绍和使用

JindoFS是基于阿里云对象存储OSS，为开源大数据生态构建的Hadoop兼容文件系统（Hadoop Compatible File System，HCFS）。JindoFS提供兼容对象存储的纯客户端模式（SDK）和缓存模式（Cache），以支持与优化Hadoop和Spark生态大数据计算对OSS...

HBASE-HDFS

HBASE-HDFS服务 HDFS作为Hadoop生态系统的核心组件，提供了可靠的分布式文件存储功能。HBase-HDFS服务通过使用HDFS作为其底层数据存储解决方案，继承了HDFS的所有原生特性和优势，未对其基本架构进行修改。HDFS更多信息介绍，请参见 HDFS...

快速玩转Tablestore入门与实战

基于Tablestore的一站式物联网存储解决方案-场景篇基于Tablestore的一站式物联网存储解决方案-表设计篇基于Tablestore的一站式物联网存储解决方案-数据操作篇基于Tablestore的一站式物联网存储解决方案-Spark分析基于Tablestore的一站...

客户案例

客户简介快狗打车则一直坚持通过“连接网络化”、“运力共享化”、“过程数据化”、“匹配智能化”等数字信息化解决方案，将闲散运力统一整合到平台上，通过大数据将运力精准匹配市场需求，实现运力的节能减排，降低空驶率，有效提升行业...

JindoData概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括JindoFS存储系统（原JindoFS Block模式）、...

什么是实时数仓Hologres

Hologres致力于高性能、高可靠、低成本、可扩展的实时数仓引擎研发，为用户提供海量数据的实时数据仓库解决方案和亚秒级交互式查询服务，广泛应用在实时数据中台建设、精细化分析、自助式分析、营销画像、人群圈选、实时风控等场景。...

OSS/OSS-HDFS概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括 JindoFS 存储系统（原JindoFS Block模式）...

E-MapReduce数据迁移

提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。前提条件已开通并创建E-MapRedece集群。具体操作，请参见创建集群。说明当使用阿里云文件存储 HDFS 版替换E-...

JindoFS实战演示

使用Checksum迁移HDFS数据到OSS 使用Checksum迁移HDFS数据到OSS 2021-05-11 通过Checksum算法，你可以在大数据迁移场景中校验数据的完整性、对比数据差异并实现增量迁移。本视频为您介绍如何使用Jindo Distcp迁移HDFS数据到OSS，以及在迁移...

快速入门

Beats快速入门高级监控报警基于Elasticsearch开发的，具备采集、监控、报警、诊断、数据处理等多种能力的SAAS服务，为云上用户提供开箱即用的一站式监控报警解决方案。高级监控报警快速入门应用性能监控分析服务（APM）APM是阿里云基于...

产品优势

云原生数据湖分析DLA（Data Lake Analytics）是新一代大数据解决方案，采取计算与存储完全分离的架构，支持数据库与消息实时归档建仓。DLA提供弹性的Spark与Presto，满足在线交互式查询、流处理、批处理、机器学习等诉求，也是传统Hadoop...

2023年

本文为您介绍了MaxCompute 2023年内容更新的最新动态，基于此您可以了解MaxCompute中增加了哪些新功能、语法新特性和权限变更，提升项目开发效率。MaxCompute的重要功能发布记录请参见产品重大更新。2023年12月更新记录时间特性类别 ...

什么是MaxCompute

MaxCompute提供离线和实时的数据接入，支持大规模数据计算及查询加速能力，为您提供面向多种计算场景的数据仓库解决方案及分析建模服务。MaxCompute还为您提供完善的数据导入方案以及多种经典的分布式计算模型，您可以不必关心分布式计算和...

JindoData版本说明

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。本文为您介绍JindoData各版本支持的功能。背景信息 JindoData是原阿里云EMR SmartData组件...

保险行业

云上云下混合联通：通过各类网络解决方案，与云下IDC中的系统进行互访，与周边其他系统进行基于互联网的互访。大数据分析应用：通过数据集成方案，将业务数据转入大数据平台进行数据分析、应用。架构优势：同城双活、异地灾备安全防护，...

迁移HBase至Hologres

相比传统的HBase等技术，Hologres保留了横向扩展能力和高性能的主键点查能力，同时解决了Schema Free带来的数据质量管理难题，也通过更少的外部依赖提升了系统的稳定性。支持宽表设计、多流合并、前缀扫描（Prefix Scan）等多种HBase常用...

方案选择

本文主要为您介绍针对订单系统的一些传统解决方案，以及面对亿量级订单，表格存储提供的更全面的解决方案。传统方案一：MySQL分库分表 MySQL自身拥有强大的数据查询、分析功能，基于MySQL创建订单系统，可以应对订单数据多维查询和统计场景...

创建集群

实时数据流（DataFlow）：是EMR平台上提供的实时计算一站式解决方案，拥有分布式、高吞吐量和高可扩展性的消息系统Kafka和基于Apache Flink官方产品Ververica提供的Flink商业内核两大组件，专注于解决实时计算端到端的各类问题，广泛应用于...

Napatech案例

基于Lindorm的解决方案，用户在采用到100Gbps+流量产生的大量数据包元数据直接通过Lindorm存储，在数据的存储和索引性能方面得到极大的提升，同时也极大地降低整个系统的运维成本。客户价值支持多个100G数据流量采集点的数据包元数据存储...

客户案例

解决方案 天弘基金基于阿里云MaxCompute构建了企业级一站式大数据解决方案。MaxCompute对于海量数据的存储、运维、计算能力强大且安全稳定。MaxCompute服务将原本需要清算8小时的用户交易数据缩短至1.5小时，同时减少了本地服务器部署压力...

最佳实践概览

查询分析RocketMQ客户端日志通过Elasticsearch和rsbeat实时分析Redis slowlog 服务器数据采集服务器数据采集方案概述阿里云Elasticsearch数据采集解决方案 通过自建Metricbeat收集系统指标信息使用SkyWalking和Elasticsearch实现全链路...

Hadoop生态外表联邦分析

云原生数据仓库AnalyticDB PostgreSQL版支持通过外表访问Hadoop生态的外部数据源（包括HDFS与Hive）。注意事项本特性只支持存储弹性模式实例，且需要 AnalyticDB PostgreSQL版实例和目标访问的外部数据源处于同一个VPC网络。2020年9月6...

公交出行：启迪公交

解决方案 启迪公交采用 PolarDB-X 分布式数据库方案构建了全部业务系统，既支持海量大数据的处理能力，又支持高并发、高可用和很强的弹性伸缩能力。票务管理工作台通过用户检录数据，实时同步到阿里云AnalyticDB分析型数据库，分析出实时...

Hive

Hive是Hadoop生态系统中的一个被广泛使用的数据仓库工具，主要用来进行Hadoop中的大规模数据的提取、转化、加载、查询和分析等操作。Hive数据仓库工具能将存储在HDFS系统中的结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将...

数据服务集群

Apache HBase和Apache Hadoop生态系统无缝集成，并且可以和Apache Phoenix搭配使用以对HBase表进行类似于SQL的查询。Apache HBase基于HDFS作为底层存储系统，在云上的场景可以使用对象存储（例如OSS）来提供更好的灵活性以及更低的成本。...

AnalyticDB MySQL助力Flowerplus业务高速发展

基于MySQL生态打造的HTAP（Hybrid Transaction and Analytical Process）数据库解决方案（RDS MySQL+AnalyticDB MySQL）有效支撑了Flowerplus的业务鲜花售卖。基于 AnalyticDB MySQL 快速分析海量数据的结果，优化用户的采购环节、订单分析...

金融大数据

架构优势：提供了结构化与非结构化数据的融合方案满足了同时存在离线、在线、流数据的业务场景解决了大数据平台的集成问题为大数据平台的开发与管理提供了高效方案金融风险控制方案金融风险控制解决方案通过大数据画像、机器学习、...

Hive概述

Hive是一个基于Hadoop的数据仓库框架，在大数据业务场景中，主要用来进行数据提取、转化和加载（ETL）以及元数据管理。背景信息 E-MapReduce（简称EMR）版本中，Hadoop、Hive版本和EMR集群的配套情况，请参见版本概述。Hive结构名称说明...

离线同步并发和限流之间的关系

来源端读取支持最大连接数：同步解决方案的离线全量数据初始化阶段，会基于JDBC建立到数据库连接并读取全量历史数据。此连接数即用来控制数据来源端支持的最大JDBC连接数，避免大量任务同时启动打满数据库连接池，影响数据库的稳定性。请...

数据分析整体趋势

Hadoop也在早期的MapReduce接口基础上增加了SQL接口，SQL语法逐渐成为大数据分析系统的标准配置。随着AWS，Azure，Alibaba，Google等云厂商的出现，云原生分布式数据仓库成为目前数据分析技术的主要解决方案，代表性云服务包括Amazon ...

大数据上云及巡检服务内容说明

帮助客户制定满足客户业务系统的大数据平台迁移改造技术方案，快速高效的实现数据/作业的迁移，保证数据的一致性。以解决以下客户痛点：对云计算平台产品不熟悉，对大数据迁移没有设计经验，缺乏相应的迁移方案设计能力。数据迁移整体流程...

基于AnalyticDB实现城市公交系统智能化

启迪公交基于 AnalyticDB MySQL版和DRDS建设的完整解决方案，将人、车、线、站的大数据资源及相关配套资源进行商业化转换，引领行业提升公交系统的创新能力和服务水平，助力“互联网+城市公交”的提升发展。业务挑战启迪公交（北京）科技...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

互联网教育：尚学博志（上海）教育科技有限公司

尚学数字化教学解决方案（以学生为中心，以教学为主体）基于移动互联新技术重构学校教学环境和资源，帮助学校打造智慧校园，实现智慧教学、智慧管理。业务挑战尚学数字化教学解决方案基于移动终端和各类物联网设备进行广泛的数据采集，...

基于hadoop生态系统的大数据解决方案综述

新品推荐