大数据平台中集成Tair

本文介绍如何在不同大数据分析平台中接入 云原生内存数据库Tair。常见大数据分析平台集成 Tair 的方法如下:大数据开发治理平台DataWorks:请参见 配置Redis Writer插件。说明 Tair 完全兼容Redis,您可以参考该文档配置 Tair 实例信息,但...

通过大数据平台搭建设备监控大屏

本文介绍如何对接物联网平台和阿里云大数据平台,以实现设备数据分析、统计、计算和可视化实时展示。前提条件 开通、购买相关阿里云产品实例和计算资源。使用阿里云大数据平台处理物联网平台设备相关数据,涉及多个阿里云产品,包括 云数据...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce(简称EMR),是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

什么是DataWorks

获奖经历 IDC:大数据平台公共云市场份额中国第一 Forrester:全球云数据仓库卓越表现者象限,国内唯一 中国信通院:首个通过577项技术要求的数据平台整体解决方案评测 中国电子学会科技进步特等奖 中国国际软件博览会金奖 浙江省科技进步...

产品简介

开源大数据开发平台E-MapReduce(简称EMR)是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

JindoData概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件,面向大数据和AI生态,为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现,主要包括JindoFS存储系统(原JindoFS Block模式)、...

什么是EMR Notebook

EMR Notebook是一个Serverless化的交互式数据分析和探索平台,满足大数据和AI融合下的数据处理需求,为数据工程师、数据分析师和数据科学家提供了可视化的应用程序开发环境。通过EMR Notebook可以完成对SQL、Python、Markdown等多种语言...

Paimon概述

目前阿里云开源大数据平台E-MapReduce常见的计算引擎(例如Flink、Spark、Hive或Trino)都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务,并接入上述计算引擎实现数据湖的分析...

数据分析概述

DataWorks提供的数据分析平台,可以流畅地进行数据处理、分析、加工及可视化操作。在数据分析板块中,您不仅可以在线洞察数据,还可以编辑和共享数据。本文为您介绍数据分析平台的优势、功能、权限等概要信息。产品优势 与本地数据分析相比...

JindoFS介绍和使用

JindoFS是基于阿里云对象存储OSS,为开源大数据生态构建的Hadoop兼容文件系统(Hadoop Compatible File System,HCFS)。JindoFS提供兼容对象存储的纯客户端模式(SDK)和缓存模式(Cache),以支持与优化Hadoop和Spark生态大数据计算对OSS...

Catalog概述

本文为您介绍什么是Catalog(数据目录),以及如何使用Catalog查询内外部数据。基本概念 内部数据:保存在StarRocks中的数据。外部数据:保存在外部数据源(例如,Apache Hive、Apache Iceberg和Apache Hudi)中的数据。Catalog StarRocks ...

Catalog概述

本文为您介绍什么是Catalog(数据目录),以及如何使用Catalog管理和查询内外部数据。基本概念 内部数据:保存在StarRocks中的数据。外部数据:保存在外部数据源(例如Apache Hive、Apache Iceberg和Apache Hudi)中的数据。Catalog ...

ClickHouse概述

开源大数据平台E-MapReduce(简称EMR)的ClickHouse提供了开源OLAP分析引擎ClickHouse的云上托管服务。EMR ClickHouse完全兼容开源版本的产品特性,同时提供集群快速部署、集群管理、扩容、缩容和监控告警等云上产品功能,并且在开源的基础...

离线同步并发和限流之间的关系

在一些数据同步场景,脏数据的出现会导致任务同步效率下降,以关系数据库写出为例,默认是执行batch批量写出模式,在遇到脏数据时会退化为单条写出模式(以找出batch批次数据具体哪一条是脏数据,保障正常数据正常写出),但单条写出效率会...

EMR Studio概述

EMR Studio是E-MapReduce提供的开源大数据开发套件,包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群(EMR on ECS和EMR on ACK)的计算引擎提交任务,并提供了交互式开发、任务调度和任务监控等...

概述

Flume最终会将数据落地到实时计算平台(例如Flink、Spark Streaming和Storm)、离线计算平台上(例如MR、Hive和Presto),也可仅落地到数据存储系统中(例如HDFS、OSS、Kafka和Elasticsearch),为后续分析数据和清洗数据做准备。...

什么是EMR on ECS

与自建Hadoop集群对比 开源大数据开发平台EMR与自建Hadoop集群的优势对比如下表所示。对比项 阿里云EMR 自建Hadoop集群 成本 支持按量和包年包月付费方式,集群资源支持灵活调整,数据分层存储,资源使用率高。无额外软件License费用。需...

授权信息

本文为您介绍 开源大数据平台 E-MapReduce(EMR)为RAM权限策略定义的操作(Action)、资源(Resource)和条件(Condition)。开源大数据平台 E-MapReduce(EMR)的RAM代码(RamCode)为 emr,emr-apm-server,ecm,emr-serverless-spark,dls...

概述

本文为您介绍什么是HoloStudio,以及HoloStudio的核心功能。HoloStudio是基于交互式分析Hologres构建的一站式OLAP开发平台,深度集成于阿里云智能开发平台DataWorks。HoloStudio通过可视化方式,为您提供标准化、无门槛的开发服务和一站式...

数据集成:全领域数据汇聚

DataWorks的数据集成功能模块是稳定高效、弹性伸缩的数据同步平台,致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。功能概述 DataWorks数据集成支持离线同步、实时同步,以及离线和实时一体化的全增量同步...

什么是EMR Serverless Milvus

它在开源版本的基础上增强了可扩展性,能提供规模AI向量数据的相似性检索服务。凭借其开箱即用的特性、灵活的扩展能力和全链路监控告警,Milvus云服务成为多样化AI应用场景的理想选择,包括多模态搜索、检索增强生成(RAG)、搜索推荐、...

概述

随着业务的快速发展,企业数据呈几何倍增长,数据量庞大、复杂、各类数据间标准不一致,往往会出现数据难以管理的现象。DataWorks智能数据建模服务,将无序、杂乱、繁琐、庞大且难以管理的数据,进行结构化有序的管理。使企业中的数据产生...

Doris概述

统一数仓构建:一个平台满足统一的数据仓库建设需求,简化繁琐的大数据软件栈。基于Doris构建的统一数仓,替换了原来由Spark、Hive、Kudu、Hbase、Phoenix组成的旧架构,架构大大简化。数据湖联邦查询:通过外表的方式联邦分析位于Hive、...

概述

Apache Druid是一个分布式内存实时分析系统,用于解决如何在规模数据集下快速的、交互式的查询和分析问题。基本特点 Apache Druid具有如下特点:支持亚秒级的交互式查询。例如,多维过滤、Ad-hoc的属性分组和快速聚合数据。支持实时的...

DataWorks权限体系功能概述

附录2:如何区分“空间级别模块”和“全局级别模块”从全部产品入口进入产品功能页面后,如果页面顶部有工作空间选择框的话,那此模块就是“空间级别模块“,例如 数据集成、数据开发 等。从全部产品入口进入产品功能页面后,如果页面顶部...

概述

数据组织 ZooKeeper的数据组织方式与标准文件系统类似,组织成类似文件树的结构,在ZooKeeper中使用znode(ZooKeeper node)来描述文件,与标准文件系统不同的是,znode并不区分目录或者文件的概念,每个znode都可以存储数据。ZooKeeper...

什么是EMR Workflow

无缝对接EMR资源集群和各种大数据计算存储引擎,例如Hive、Spark和Flink等。提供与Apache DolphinScheduler兼容的接口和使用体验,支持开源DolphinScheduler和EMR旧版数据开发作业的一键迁移。产品功能 EMR Workflow具有如下功能:支持多种...

Stream Load

StarRocks支持从本地直接导入数据,支持CSV文件格式,数据量在10 GB以下。本文为您介绍Stream Load导入的基本原理、使用示例和最佳实践。背景信息 Stream Load是一种同步的导入方式,通过发送HTTP请求将本地文件或数据流导入到StarRocks中...

Hudi概述

Apache Hudi是一种数据湖的存储格式,在Hadoop文件系统之上提供了更新数据和删除数据的能力以及消费变化数据的能力。Hudi表类型 Hudi支持如下两种表类型:Copy On Write 使用Parquet格式存储数据。Copy On Write表的更新操作需要通过重写...

DataWorks交流钉钉群

DataWorks作为阿里云大数据平台操作系统,对接各种数据计算引擎,以all in one box的方式提供专业高效、安全可靠的全域智能大数据平台,高效率完成数据全链路研发流程,建设企业数据治理体系,同时提供优质高效的交流服务,本文为您介绍...

Presto概述

支持高级数据结构,具体如下:数组和Map数据 JSON数据 GIS(Geographic Information System)数据 颜色数据 功能扩展能力强,提供了多种扩展机制:扩展数据连接器 自定义数据类型 自定义SQL函数 流水线:基于Pipeline处理模型数据在处理...

相关的云服务

本文为您介绍典型场景下,使用开源大数据平台E-MapReduce时通常会使用到的其他云服务。云服务名称 说明 云服务器ECS 使用云服务器ECS(Elastic Compute Service)作为集群的节点,每个ECS实例集群中的一个节点。专有网络VPC 专有网络VPC...

Stream Load

StarRocks支持从本地直接导入数据,支持CSV文件格式,数据量在10 GB以下。本文为您介绍Stream Load导入的基本原理、使用示例和最佳实践。背景信息 Stream Load是一种同步的导入方式,通过发送HTTP请求将本地文件或数据流导入到StarRocks中...

独享调度资源组

数据源处于经典网络中 独享资源组处于阿里云VPC网络,如果数据源处于经典网络环境中,则数据源与独享资源组间网络无法连通,建议您将数据源迁移至VPC网络中。白名单配置 如果数据源设置有白名单限制访问地址时,您需要将独享资源组的访问...

独享数据服务资源组

为保证用户创建并封装在数据服务中的API在被外部应用调用时,能达到高QPS以及满足可用性保障,企业需要使用独享数据服务资源以确保调用的高效和可靠。独享数据服务资源给用户提供了专属的计算资源和环境隔离,提升企业高并发接口处理效率,...

什么是EMR Serverless StarRocks

EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务,您可以通过EMR Serverless StarRocks灵活的创建和管理StarRocks实例以及数据。StarRocks作为一款兼容MySQL协议的OLAP分析引擎,提供了极致的性能和丰富的OLAP场景模型,...

独享数据集成资源组

数据集成任务高并发执行且无法错峰运行的情况下,需要专有的计算资源组来保障数据快速、稳定的传输时,建议您选择使用DataWorks的独享数据集成资源组。本文为您概要介绍独享数据集成资源组。功能介绍 独享数据集成资源组的功能亮点如下:...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据传输服务 云数据库 RDS 数据库备份 DBS 云数据库 Redis 版 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用