大数据产品包括哪些内容-大数据产品包括哪些内容文档介绍内容-阿里云

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

常见问题

4.大数据专家服务范围是覆盖阿里云所有大数据产品技术栈吗？答：服务范围仅包含阿里云MaxCompute｜DataWorks｜Hologres｜DataHub｜PAI｜Flink｜EMR｜ES｜ABM产品技术专家服务。阿里云其它产品、非阿里云产品、客户软件问题、基础网络问题、...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

产品优势

支持防护常见的结构化数据、非结构化数据和大数据产品，例如对象存储OSS、云数据库RDS、MaxCompute等。智能化运用大数据和机器学习能力，通过智能化的算法，对敏感数据和高风险活动，例如数据异常访问和潜在的泄露风险进行有效识别和监控...

EMR Studio概述

EMR Studio作为一款云上产品，支持与数据湖构建（DLF）和对象存储（OSS）等云上产品对接，构建云原生大数据产品架构。您可以在创建EMR Studio时指定OSS bucket路径，EMR Studio将自动备份作业代码和作业日志，并可以通过该路径提交Airflow ...

发展历程

2019大数据“星河（Galaxy）”奖最佳大数据产品奖（TOP10）。2018年 MaxCompute的多个客户案例荣获“2017大数据优秀产品和应用解决方案案例”奖。基于公共云的BigBench在100 TB规模上，MaxCompute的性能指标较2017年10月提升了一倍，达到...

准备数据源和计算源

准备数据源 Dataphin支持对接的数据源包括大数据存储型数据源、文件数据源、消息队列数据源、关系型数据源和NoSQL数据源，各模块支持对接的数据源类型及操作指导，请参见 Dataphin支持的数据源。重要确定业务数据源类型后，在Dataphin创建...

数据源管理概述

功能介绍多数据源类型接入：Dataphin内置丰富的数据源类型，支持对接的数据源包括大数据存储型数据源、文件型数据源、消息队列型数据源、关系型数据源和NoSQL数据源。更多信息，请参见 Dataphin支持的数据源。自定义数据源类型：在内置的...

数据源管理概述

功能介绍多数据源类型接入：Dataphin内置丰富的数据源类型，支持对接的数据源包括大数据存储型数据源、文件型数据源、消息队列型数据源、关系型数据源和NoSQL数据源。更多信息，请参见 Dataphin支持的数据源。自定义数据源类型：在内置的...

配置OSS输入组件

同步OSS数据源的数据至其他数据源的场景中，您需要先配置OSS输入组件读取的数据源，再配置数据同步的目标数据源。本文为您介绍如何配置OSS输入组件。前提条件在开始执行操作前，请确认您已完成以下操作：已创建OSS数据源。具体操作，请...

配置OSS输入组件

同步OSS数据源的数据至其他数据源的场景中，您需要先配置OSS输入组件读取的数据源，再配置数据同步的目标数据源。本文为您介绍如何配置OSS输入组件。前提条件在开始执行操作前，请确认您已完成以下操作：已创建OSS数据源。具体操作，请...

安全白皮书概述

Dataphin面向各行各业大数据建设、管理及应用诉求，一站式提供从数据接入到数据消费全链路的智能数据建设与资产治理的大数据能力，包括产品、技术和方法论等，可帮助企业一站式构建生产经济、质量可靠、安全稳定、消费便捷的企业级数据资产...

范围选择器功能介绍

选择数据格式在选中地图中的区域范围后，可自定义选择所需的范围数据格式内容，可选数据格式内容包括如下几种：JSON API：单击链接右侧的图标，即可复制JSON数据的API链接。JEOJEON API：单击链接右侧的图标，即可复制JEOJEON数据的API...

范围选择器功能介绍

选择数据格式在选中地图中的区域范围后，可自定义选择所需的范围数据格式内容，可选数据格式内容包括如下几种：JSON API：单击链接右侧的图标，即可复制JSON数据的API链接。GeoJSON API：单击链接右侧的图标，即可复制GeoJSON数据的API...

配置资产数据

本文档介绍配置资产数据的方法，以及资产数据面板的内容，包括数据接口、数据源、数据过滤器和数据轮询频次等。操作步骤登录 DataV控制台。在我的可视化页面，单击您创建的可视化应用项目上方的编辑按钮。在画布编辑器页面，单击图层...

设置资产数据源

本文介绍DataV设置资产数据源的方法，以及设置数据源页面的内容，包括数据源、数据过滤器以及数据响应结果等。配置资产数据源登录 DataV控制台。在我的可视化页面，单击您创建的可视化应用项目上方的编辑按钮。在画布编辑器页面，...

数据接口配置说明

编辑数据接口基本信息每一个数据接口中包含多个参数内容，您可以自定义编辑数据接口的基本信息参数内容。名称：数据接口的名称。显示名：数据接口对外显示的名称。确认修改显示名后按回车键，结果会即时显示在配置面板中。描述：数据接口...

数据接口配置说明

编辑数据接口基本信息每一个数据接口中包含多个参数内容，您可以自定义编辑数据接口的基本信息参数内容。名称：数据接口的名称。显示名：数据接口对外显示的名称。确认修改显示名后按回车键，结果会即时显示在配置面板中。描述：数据接口...

通用数据开发

通常数据开发的总体流程包括数据产生、数据收集与存储、数据分析与处理、数据提取和数据展现与分享。说明上图中，虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示：数据产生：业务系统每天会产生大量结构化的...

DataWorks on EMR数据安全方案

在大数据领域，阿里云为企业用户提供了一整套数据安全方案，包含用户认证、数据权限、大数据作业管理体系等。本文以联合使用DataWorks与EMR为例，为您介绍DataWorks on EMR场景下的数据安全方案。背景信息 DataWorks on EMR目前支持LDAP...

典型使用场景

典型的数据源包括：MySQL/SQL Server/PostgreSQL/Oracle等OLTP业务数据库，业务App产生的日志数据，在OSS/Hadoop上的归档数据，以及来自Kafka/Flink等系统的流式数据。在库中对ODS层数据进行加工，形成CDM（Common Data Model）和ADS...

数据分析整体趋势

综上所述，数据分析技术趋势主要包括：云原生分布式：无论是OLTP还是OLAP，如今单机数据已无法满足企业业务和数据快速增长的需求，分布式数据库成为主流，同时数据库市场未来主要在云上（"Gartner:The Future of the DBMS Market Is Cloud...

数据标准

数据是由特定的环境产生的，这些环境因素包括生产者、时间、系统等，从而造成了同一个语义的数据，有多种不同的定义方法，给后期进行数据汇集和整合带来障碍。因此，数据处理的前奏就是数据标准化，数据标准作为一个统一的数据共识，在标准...

典型场景

基于湖构建数据平台，支持BI、挖掘等业务对象存储OSS可以作为湖存储，DLA基于OSS构建一站式的大数据平台。具体包括构建数据湖、数据ETL、交互式查询、机器学习等功能。构建数据湖实时数据湖：支持DB的CDC与消息数据（如Kafka）入湖，构建...

空间数据管理概览

空间数据管理页面内提供了我的主页、我的项目、我的数据和空间档案四大功能模块，用户可以在这里创建项目，上传数据和添加模型等。本文为您介绍空间数据管理页面的结构与功能，帮助您快速使用空间构建平台。进入空间构建平台空间构建平台...

外部表概述

对于MaxCompute表外的各种用户数据（包括文本以及各种非结构化的数据），您需要通过不同工具导入MaxCompute表再进行计算。以OSS为例，如果您需要在MaxCompute中处理OSS上的数据，通常有以下两种方式：通过OSS SDK或者其他工具从OSS下载数据...

空间数据管理概览

空间数据管理页面内提供了我的主页、我的项目、我的数据和空间档案四大功能模块，用户可以在这里创建项目，上传数据和添加模型等。本文为您介绍空间数据管理页面的结构与功能，帮助您快速使用空间构建平台。进入空间构建平台空间构建平台...

返回结果

大多数请求响应会还会包含响应内容，尤其是“失败响应”会返回具体错误信息内容。请求成功请求成功会返回对应的成功状态码，有数据的会返回请求数据。不同的 API 请求返回的数据内容和格式不同，请查阅写入数据和读取数据。请求失败 ...

创建同步OSS

准备工作 1.准备OSS Bucket DataHub支持将数据同步到对象存储...确认同步数据同步文件在OSS中的命名格式如下图所示：包含Bucket、目录前缀、二级目录以及文件名等下载该文件，并查看文件内容，TUPLE同步文件内容为csv数据格式，如下图所示：

添加数据集

DataV数据集支持多种数据源的接入，如数据库、excel表格文件等，通过对数据的结构化存储和元数据的汇集整理，提供高效实用的数据建模能力，可用的算子包括常见的数据聚合函数、按不同时间粒度划分、地理信息处理等。本文为您介绍如何在...

创建GreenPlum数据源

通过创建GreenPlum数据源能够实现Dataphin读取GreenPlum的业务数据或向GreenPlum写入数据。本文为您介绍如何创建GreenPlum数据源。背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析...

整体架构

AnalyticDB MySQL版从2014年开始正式对外提供服务，覆盖十多个行业，既包括传统的大中型企业和政府机构，也包括众多的互联网公司。AnalyticDB MySQL版是基于数据库大数据一体化的理念和趋势，在工程上深度打磨出的云原生数据仓库。技术...

数仓分层

数据应用层ADS（Application Data Service）：存放数据产品个性化的统计指标数据。根据CDM与ODS层加工生成。该数据分类架构在ODS层分为三部分：数据准备区、离线数据和准实时数据区。整体数据分类架构如下图所示。在本教程中，从交易数据...

数仓分层

数据应用层ADS（Application Data Service）：存放数据产品个性化的统计指标数据。根据CDM与ODS层加工生成。该数据分类架构在ODS层分为三部分：数据准备区、离线数据和准实时数据区。整体数据分类架构如下图所示。在本教程中，从交易数据...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

数据迁移

本文为您介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。权限说明仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据...

路况层

如果您在创建三维城市构建器项目时，使用了空间数据项目模式，并且项目内包含了数据图元图层数据内容。在场景编辑器内配置数据面板时，您还可以使用空间构建数据源获取空间地图数据，具体步骤如下：在图层配置面板中选择数据页签，...

准备环境

实名认证，详情请参见个人实名认证背景信息本次实验涉及的阿里云产品如下：大数据计算服务 MaxCompute 数据工场 DataWorks 人工智能平台 PAI MaxCompute DataWorks PAI 开通大数据计算服务MaxCompute 说明如果您已经开通MaxCompute，请...

创建Impala数据源

通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala，在导出Dataphin数据至...

大数据产品包括哪些内容

新品推荐