常见问题

本文介绍大数据专家服务常见问题。1.售前咨询渠道 尊敬的“准”大数据专家服务用户您好:如果您准备购买阿里云大数据专家服务,但是遇到如服务范围、规格、服务选择等售前方面的问题,您可以通过钉钉与我们联系,您将“当面”获得阿里云大...

操作指南

本文介绍大数据专家服务的服务流程。一、大数据专家服务流程指南 二、服务流程说明 用户可以根据自己实际需要,提前或者在问题发生时购买大数据专家服务,服务项包含大数据技术架构方案咨询、大数据解决方案POC、大数据搬站迁云方案咨询、...

授权信息

本文为您介绍 云原生大数据计算服务 MaxCompute(MaxCompute)为RAM权限策略定义的操作(Action)、资源(Resource)和条件(Condition)。云原生大数据计算服务 MaxCompute(MaxCompute)的RAM代码(RamCode)为 odps,支持的授权粒度为 ...

什么是EMR on ACK

阿里云E-MapReduce(简称EMR)on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版(ACK)之上,利用ACK在服务部署和容器应用管理的优势,减少对底层集群资源的运维投入,以便于您可以更加专注...

外部表概述

但这两种方法都有不足之处:第一种方法需要在MaxCompute系统外部做一次中转,如果OSS数据量太,还需要考虑如何并发来加速,无法充分利用MaxCompute的规模计算能力。第二种方法通常需要申请UDF网络访问权限,还需要开发者自己控制作业...

概述

背景信息 在大数据生态系统中,Alluxio位于数据驱动框架或应用(例如Apache Spark、Presto、TensorFlow、Apache Flink和Apache Hive等)和各种持久化存储系统(例如HDFS和阿里云OSS)之间,使得上层的计算应用可以通过统一的客户端API和...

通用开发流程

本文将为您介绍数据开发任务的通用开发流程。前提条件 已绑定所需数据源。详情请参见 开发前准备:绑定数据源或集群。已拥有 开发 角色权限。授权详情请参见 添加空间成员并管理成员角色权限。进入数据开发 登录 DataWorks控制台,切换至...

数据模型架构规范

本文为您介绍数据模型架构规范。声明 本文以及后续章节中介绍的非功能性规范均为建议性规范,产品功能无强制,仅供指导。数据层次的划分 ODS:Operational Data Store,操作数据层,在结构上其与源系统的增量或者全量数据基本保持一致。它...

数据质量教程概述

本文为您介绍数据质量保障教程的业务场景以及如何衡量数据质量的高低。前提条件 在开始本教程前,请您首先完成 搭建互联网在线运行分析平台 教程,详情请参见 业务场景与开发流程。业务场景 要保证业务数据质量,首先您需要明确数据的消费...

MaxCompute数据

是 无 table 读取数据表的表名称(小写不敏感)。是 无 partition 读取的数据所在的分区信息。ODPS的分区配置支持linux Shell通配符,*表示0个或多个字符,?表示任意一个字符。默认情况下,读取的分区必须存在,如果分区不存在则运行的...

MySQL整库离线同步到OSS

本文示例以MySQL为源端,OSS为目标端,为您介绍如何将MySQL整个数据库的数据离线同步到OSS。使用限制 仅支持使用独享数据集成资源组。操作步骤 步骤一:创建同步任务。步骤二:配置同步任务。步骤三:运行并查看任务状态。前提条件 已购买...

SQL概述

MaxCompute SQL是MaxCompute中用于数据查询和分析的SQL语言,其语法类似于标准SQL,但在标准语法ANSI SQL92的基础上进行了一些扩展和限制以更好地服务于规模数据仓库的场景。本文为您介绍MaxCompute SQL使用场景、使用向导及支持的工具...

OSS数据

OSS数据源为您提供读取和写入OSS的双向通道,本文为您介绍DataWorks的OSS数据同步的能力支持情况。支持的字段类型与使用限制 离线读 OSS Reader实现了从OSS读取数据并转为数据集成协议的功能,OSS本身是无结构化数据存储。对于数据集成而言...

计费逻辑说明

产品类型 功能介绍 计费项 计费说明 计费标准参考 智能数据建模 智能数据建模是DataWorks自研的建模产品,支持数仓规划设计、制定并沉淀企业数据标准、维度建模、数据指标定义,帮助您将建模设计产出的维度表、明细表、应用表、汇总表物化...

数据服务入门

步骤一:创建数据源并配置网络连通性 使用数据服务创建API前,您需将数据库或数据仓库添加为DataWorks的数据源,并保障数据服务资源组与您的目标数据源网络连通,以便调用API时DataWorks可成功访问数据源。说明 DataWorks工作空间将集群或...

应用场景

阿里云开源大数据平台E-MapReduce(简称EMR)具有广泛的应用场景。本文为您介绍EMR的主要应用场景。数据湖场景 DataLake集群类型提供了数据湖分析场景所需的服务和相关湖格式,包括Hadoop、OSS-HDFS、Hive、Spark、Presto等。通过选择OSS-...

EMR Workbench

阿里云EMR Workbench是一个综合性的大数据分析和开发环境,作为阿里云E-MapReduce的一部分,它提供了EMR Notebook和EMR Workflow两个核心功能。通过EMR Workbench,您可以轻松进行数据开发,以及交互式数据分析,并设计复杂的数据处理工作...

常用文件路径

本文为您介绍E-MapReduce中常用文件的路径。您可以登录Master节点查看常用文件的安装路径。数据湖集群 大数据组件安装目录 组件安装在/opt/apps/xxx 目录下,例如:HDFS:/opt/apps/HDFS/hdfs-current Hive:/opt/apps/HIVE/hive-current ...

数据湖集群

本文为您介绍数据湖集群支持的特性,以及与旧版Hadoop集群之间的差异。数据湖集群特性介绍 可靠性 如果您启用了集群的高可用服务,则EMR把3台Master节点分布在底层不同的硬件上以降低故障风险。另外,考虑到Master节点在损坏情况下的修复...

LIKE字符匹配

本文介绍LIKE常用通配符和使用示例。注意事项 目前MaxCompute SQL仅支持UTF-8的字符集,如果数据以其他格式编码,计算结果可能不正确。LIKE通配符%表示匹配任意多个字符。表示匹配单个字符。如果要匹配%或_本身,则要对其进行转义。例如:\...

选型配置说明

集群类型 场景介绍 核心组件 DataLake 云原生数据湖场景,提供Hive和Spark计算引擎,适用于数据湖场景和离线数据分析等情况,支持多种数据湖格式如DeltaLake、Hudi和Iceberg。HDFS、YARN、Hive、Spark、Presto、Impala、JindoData、...

Hadoop DistCp介绍

Hadoop DistCp(分布式复制)是一个用于大型集群间或集群内数据复制的工具,通过MapReduce实现复制过程中数据的分发、错误处理、恢复及报告。本文为您介绍Hadoop DistCp与Jindo DistCp的区别、Hadoop DistCp使用方法以及常见问题。说明 ...

GREATEST

本文为您介绍GREATEST函数的命令格式、参数说明以及返回值信息。命令格式 greatest(,[,.])参数说明 var1、var2:必填。BIGINT、DOUBLE、DECIMAL、DATETIME或STRING类型。返回值说明 返回输入参数中的最大值。当不存在隐式转换时,返回值同...

DataWorks资源组概述

资源组介绍 DataWorks包括独享资源组、公共资源组,各资源组根据任务调度、数据集成、数据服务等不同的使用场景,细分为不同类型的资源组,包括:独享调度资源组、独享数据集成资源组、独享数据服务资源组、公共调度资源组、公共数据服务...

数据类型版本说明

本文为您介绍三种数据类型版本、选择数据类型版本以及查看和修改项目的数据类型版本。MaxCompute数据类型版本 MaxCompute设置数据类型版本属性的参数共有3个:odps.sql.type.system.odps2:MaxCompute 2.0数据类型版本的开关,属性值为True...

选择连接工具

本文为您介绍连接并处理MaxCompute项目数据工具的应用场景、运行环境要求以及使用指引。您可根据业务需要和相应准备的环境,选择合适的连接工具。前提条件 已创建MaxCompute项目。更多创建MaxCompute项目操作,请参见 创建MaxCompute项目。...

2.0数据类型版本

本文为您介绍MaxCompute 2.0数据类型版本的定义、使用场景、支持的数据类型以及与其它数据类型版本的差异。定义 项目空间选择数据类型版本为2.0数据类型版本时,项目空间的数据类型属性参数定义如下。setproject odps.sql.type.system.odps...

HDFS DiskBalancer介绍

当您的集群因大量的写入和删除,或者由于磁盘更换和扩容等操作,导致数据在节点上的磁盘之间分布不均匀,引起HDFS并发读写性能的下降等问题时,可通过HDFS Diskbalancer将数据均匀地分布在DataNode的所有磁盘上。本文为您介绍HDFS ...

JindoFS缓存模式

本文主要介绍JindoFS的缓存模式(Cache),以及一些典型的应用场景。概述 缓存模式兼容现有OSS存储方式,文件以对象的形式存储在OSS上,每个文件根据实际访问情况会在本地进行数据和元数据的缓存,从而提高访问数据以及元数据的性能,Cache...

MySQL整库实时同步至OSS数据

本文以MySQL实时入湖写入至OSS场景为例,为您介绍如何通过数据集成实时入湖。前提条件 已购买合适规格的独享数据集成资源组。详情请参见:新增和使用独享数据集成资源组。已完成MySQL和OSS数据源配置,以便在同步任务配置时,可通过选择...

JindoFS块存储模式

应用场景 E-MapReduce目前提供了三种大数据存储系统,E-MapReduce OssFileSystem、E-MapReduce HDFS和E-MapReduce JindoFS,其中OssFileSystem和JindoFS都是云上存储的解决方案,下表为这三种存储系统和开源OSS各自的特点。特点 开源OSS E-...

基于MaxCompute进行大数据BI分析

方案介绍 基于MaxCompute进行大数据BI分析的流程如下:通过数据集成同步业务数据和日志数据至MaxCompute。通过MaxCompute、DataWorks对数据进行ETL处理。同步处理后的结果数据至AnalyticDB for MySQL。通过Quick BI可视化建立用户画像。...

产品简介

大数据专家服务 大数据专家服务(Bigdata Expert Service)是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障,帮助用户...

数据治理能力解读

以下为您系列讲解阿里云数据治理能力解读。课程视频列表 课程简介 课程内容:数据治理的产品介绍。主要产品:DataWorks 课程时长:25分钟 课程内容:DataWorks数据治理能力的最佳实践。主要产品:DataWorks、MaxCompute 课程时长:19分钟

产品架构

本文为您介绍EMR Serverless StarRocks的架构。StarRocks架构的核心为FE(Frontend)和BE(Backend)两类进程,不依赖任何外部...物理执行单元会在对应的数据存储节点上执行,实现本地计算,避免数据的传输与拷贝,从而极的提升了查询性能。

创建数据脱敏场景

脱敏场景介绍 DataWorks提供的 数据开发/数据地图展示脱敏、数据分析展示脱敏、MaxCompute引擎层脱敏、Hologres引擎层脱敏 等动态脱敏,及 数据集成静态脱敏 等一级脱敏场景为固定场景,不支持执行新增、编辑、删除等操作。同时,DataWorks...

数据开发概述

数据开发主要功能 数据开发(DataStudio)的主要功能介绍如下。您可参考 数据开发相关概念 辅助理解。类型 描述 对象组织及管理 DataWorks数据开发提供的对象组织与管理机制如下:对象组织:提供 解决方案>业务流程 两级管理模式。...

应用场景

实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统 通过数据总线,您可以实时接入APP、WEB、IoT和数据库等产生的异构数据,统一管理,并投递到下游的分析、归档等系统,构建清晰的数据流,让您更好的释放数据的价值。...

什么是DataWorks

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起,DataWorks不断沉淀阿里巴巴大数据建设方法论,支撑数据中台建设,同时与...

应用场景

数据分析业务 云数据库 Memcache 版搭配大数据计算服务 MaxCompute。实现对大数据的分布式分析处理,适用于商业分析、挖掘等大数据处理场景。通过数据集成服务可自助实现数据在云数据库 Memcache 版与 MaxCompute 间的同步,简化数据操作...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云数据库 RDS 数据传输服务 数据库备份 云原生大数据计算服务 MaxCompute 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用