什么和大数据相关-什么和大数据相关文档介绍内容-阿里云

什么是EMR on ACK

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注大数据任务本身。形态对比阿里云EMR提供on ECS和on ACK两种方式，以...

产品优势

支持防护常见的结构化数据、非结构化数据和大数据产品，例如对象存储OSS、云数据库RDS、MaxCompute等。智能化运用大数据和机器学习能力，通过智能化的算法，对敏感数据和高风险活动，例如数据异常访问和潜在的泄露风险进行有效识别和监控...

IoT数据自动化同步至云端解决方案

物联网专注于物物相连，大数据专注于数据的价值化，云计算则为大数据和物联网提供计算资源等服务支持。大数据是物联网体系的重要组成部分。物联网的体系结构包括设备、网络、平台、分析、应用和安全，其中分析部分的主要内容为大数据分析。...

数据分析整体趋势

这些云原生数据仓库技术分别起源于数据库和大数据，提供标准SQL接口和ACID保证，底层存储通过Share Everything或Share Nothing实现资源池化和横向扩展能力。资源隔离，数据共享是目前业务应用对云原生数据仓库的普遍需求。综上所述，数据...

什么是EMR Notebook

EMR Notebook是一个Serverless化的交互式数据分析和探索平台，满足大数据和AI融合下的数据处理需求，为数据工程师、数据分析师和数据科学家提供了可视化的应用程序开发环境。通过EMR Notebook可以完成对SQL、Python、Markdown等多种语言...

OSS数据安全防护最佳实践

智能化：运用大数据和机器学习能力，通过智能化的算法，对敏感数据和高风险活动，诸如数据异常访问和潜在的泄漏风险进行有效识别和监控，并提供修复建议。提供定制化的敏感数据识别能力，便于客户自定义识别标准，实现精准识别和高效防护。...

如何对JSON类型进行高效分析

列数扩展当半结构化数据相关属性通过虚拟列转换为大宽表的列时，大宽表的列数会随着半结构化数据属性增加而不断扩大。而原生MySQL的最大列数限制，一般取决于表的存储引擎的限制，例如InnoDB存储引擎支持最大列数为1017列（约1K列）。对于...

文档修订记录

QueryPublicModelEngine 2023.10.20 新增功能上传与下载 DataWorks的上传与下载模块，提供了便捷的数据上传功能，支持将多种来源（例如，本地文件、OSS文件）的数据上传至MaxCompute大数据引擎中进行分析处理及相关管理操作，致力于为您...

数据归档

背景信息 ODC 支持定时将源数据库中的表数据归档至其它目标数据库中，以解决因线上数据增多影响查询性能与业务运作的问题。本文档旨在介绍如何通过提交数据归档工单实现归档数据。原理介绍前提条件归档的表中必须包含主键。注意事项前置...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、...，帮助用户构建和持续优化的大数据体系架构...

常见问题

数据湖后端存储使用OSS，用户使用数据湖构建面向大数据分析和机器学习场景可以获得集中式权限管理和统一的元数据视图，更容易对接云上大数据和分析产品。什么情况下我需要使用数据湖构建？在云上有数据分析和机器学习需求，希望构建云上的...

互联网、电商行业离线大数据分析

概述电商网站的销售数据通过大数据进行分析后，可以在大屏幕展示销售指标、客户指标、销售排名和订单地区分布等业务指标数据。DataV大屏支持可视化动态展示销售数据，触控大屏支持您自助查询数据，极大地提高数据的可读性。应用场景电商...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

自媒体：易撰

PolarDB-X 专注解决海量数据存储、超高并发吞吐、大表瓶颈以及复杂计算效率等数据库瓶颈问题，...通过 PolarDB-X 的高并发写能力和PolarDB的高性能读能力，最终完美解决了我们资讯数据入库和大范围查询的业务痛点。—— 长沙营智技术总监刘涛

数据标准

数据是由特定的环境产生的，这些环境因素包括生产者、时间、系统等，从而造成了同一个语义的数据，有...说明目前使用DDM进行数据建模可以进行逻辑建模和物理建模，但物理建模仅支持MaxCompute和Hive两种大数据引擎，不支持自定义数据源类型。

典型场景

大数据分析平台对于MaxCompute、Hadoop和Spark中保存的海量数据，可通过采用数据集成服务（DataX）或通过对象存储服务（OSS），快速批量导入到云原生数据仓库AnalyticDB PostgreSQL版，帮助您实现高性能分析处理和在线数据探索。数据湖...

数据迁移与同步FAQ

本文为您列出数据迁移与数据同步的常见问题和相关解答。什么是数据迁移、数据同步？DTS的数据迁移与数据同步工作原理是什么？DTS的数据迁移与数据同步有什么区别？使用DTS遇到预检查报错，如何解决？什么是数据迁移、数据同步？数据迁移：...

存储空间分析

您可以在 AnalyticDB for MySQL 空间总览页面查看集群和表的总数据量、冷数据量、热数据量、索引数据量、分区数量、节点的磁盘使用率等指标。查看集群级别的数据量通过空间总览可以查看当前集群的总数据量、热数据量、冷数据量、以及 ...

定义敏感数据

更多敏感数据类型及其SQL算子请参见支持的数据类型和相关算子。全新定义敏感数据您需要根据业务场景特性，判断哪些数据属于敏感数据，哪些数据属于普通数据，对于敏感数据，在库表结构中将数据类型定义为对应的敏感数据类型。以如下数据...

什么是DataWorks

中国国际大数据产业博览会十佳大数据案例中国信通院：数据集成工具、数据管理工具、数据开发平台、数据脱敏工具、数据分类分级等评测学习路径您可以通过DataWorks文档首页的学习路径，快速了解DataWorks的相关概念、基础操作及进阶操作...

离线集成支持的数据源

不支持 Lindorm 支持支持半结构化存储数据源 API 支持支持 SAP Table 支持不支持整库迁移支持的数据源数据源类型数据源相关文档来源端数据源 MySQL、Oracle、Microsoft SQL Server、OceanBase、IBM DB2、MaxCompute、FTP。...

敏感数据审计

您可以选择功能模块、时间范围，输入用户名、数据库名、表名、列名等维度的敏感数据相关信息，单击搜索，搜索审计日志。说明产品默认展示近1天的敏感数据审计日志。在审计列表中，您可以查看每个工单或任务的操作人员、所属功能模块、...

数据集成调度策略说明

DTS的数据集成功能可根据调度策略的配置，定期地将源库中的结构和存量数据迁移至目标库中。通过该功能可以帮助您构建更加灵活的数据仓库（例如构建T+1的周期性数仓），本文介绍数据集成的策略、限制及适用场景。支持的数据库支持全量数据...

功能简介

通过我的资产清晰掌握可使用、可管理、已授权的数据表和数据服务API数据资产相关信息。功能特性支持以用户的视角展示自有权限或申请授权成功的数据表、数据服务API资产。支持特定角色对数据表、数据服务API等数据资产进行管理。工作组管理...

概述

DataWorks的安全中心，帮助您快速构建平台的数据内容、个人隐私等相关的安全能力，满足企业面向高风险场景的各类安全要求（例如，审计），无需您额外配置即可直接使用该功能。DataWorks的安全中心作为云上大数据体系的安全门户，致力于向您...

功能简介

通过数据标准的管理功能，模型设计者可通过设计标准数据元素，定义关键业务对象、业务对象属性及值域，规范标准数据字典，制定并管理平台遵循的统一数据标准，帮助平台管理者和数据管理者管控治理后数据的一致性和数据质量。模型标准设计 ...

功能简介

通过数据标准的管理功能，模型设计者可通过设计标准数据元素，定义关键业务对象、业务对象属性及值域，规范标准数据字典，制定并管理平台遵循的统一数据标准，帮助平台管理者和数据管理者管控治理后数据的一致性和数据质量。模型标准设计 ...

数据源白名单配置

为确保数据库访问的安全性，阿里云数据库相关产品通常情况存在IP白名单访问限制。若您需在Dataphin中创建基于阿里云产品的数据源，创建数据源前，需确保Dataphin的IP已添加至数据库白名单（或安全组）中，使数据源与Dataphin网络互通。下表...

快速开始

提供简单、直观、易于使用的数据准备、洞察发现、可视化分析工具，通过具象、生动、有趣的方式快速理解数据，让更多用户能便捷高效地利用数据可视化技术获得信息表达的优势和乐趣、获得全新数据互动体验。产品功能介绍可视分析创作间将为...

我的资产

通过我的资产清晰掌握可使用、可管理、已授权的数据表和数据服务API数据资产相关信息。通过不同的权限来源，用户可获取数据表、API等类型数据资产的使用权限。我的资产以用户的视角展示自有权限或申请授权成功的数据表、数据服务API数据...

支持的数据源

类别数据源导入方式文档链接消息队列 Kafka 数据同步通过数据同步功能同步Kafka至湖仓版（推荐）日志类数据日志服务（SLS）数据同步通过数据同步功能同步SLS至湖仓版（推荐）大数据 Hive 数据迁移 Hive数据导入相关文档 AnalyticDB...

从这里开始

区块：区块是基于基础组件封装的一个黑盒工具，可以定义内部外部的数据传输，对内可以封装业务相关的组件样式、组件布局、默认数据（不包含除静态数据和API外的数据源）和蓝图逻辑，对外可定义业务相关的区块数据接口。资源管理设计资源：...

目标数据库连接性检查

为保障数据迁移任务的顺利执行，在预检查阶段检查DTS服务器是否能够连通要迁移的目标数据库。本文将介绍目标数据库连接性检查失败可能的原因及修复方法。当目标数据库连接性预检查失败时，可能是以下几种原因。数据库账号或数据库密码不...

数据加密

另外SSL也会带来额外的CPU开销，MongoDB实例的吞吐量和响应时间都会受到一定程度的影响，具体影响与您的连接次数和数据传输频度有关。TDE 云数据库MongoDB支持透明数据加密（Transparent Data Encryption，简称TDE）功能。TDE加密采用国际...

功能发布记录（2024年）

2024.2.20 所有地域所有DataWorks用户数据上传数据下载数据开发新增CDH集群节点您可在DataWorks上进行CDH相关的Hive、Spark、MR、Presto、Impala等任务的开发和周期性调度。2024.2.19 所有地域所有DataWorks用户创建CDH Hive节点 ...

发展历程

深度参与和推动全球大数据领域标准化建设 MaxCompute代表阿里巴巴计算平台，成为国际TPC（Transaction Processing Performance Council）委员会大数据评测标准BigBench的委员会委员，是中国担任此国际性能标准化测试组织委员的唯一企业。...

概述

AnalyticDB MySQL Spark全密态计算引擎是首批通过信通院隐私计算可信执行环境《产品性能》和《安全功能》两项认证的产品，它可以加密敏感数据，避免数据泄露。您可以通过本文，了解Spark全密态计算引擎在安全合规等领域的应用场景、功能...

Presto概述

支持高级数据结构，具体如下：数组和Map数据 JSON数据 GIS（Geographic Information System）数据颜色数据功能扩展能力强，提供了多种扩展机制：扩展数据连接器自定义数据类型自定义SQL函数流水线：基于Pipeline处理模型数据在处理...

创建账号和数据库

如果您使用一键上云等迁移方式将本地自建数据库迁移上云时，表空间将与本地自建数据库表空间名称相同，支持将数据库和表的表空间修改为 pg_defult。常见问题创建的账号在只读实例上可以用吗？答：主实例创建的账号会同步到只读实例，...

新建 TiDB 数据源

前提条件已获取相关数据库的 IP 地址和端口号。已存在用于数据迁移的数据库用户。建议您为数据迁移项目创建一个专属的数据库用户，该用户必须具备相关的数据操作权限。详情请参见创建 TiDB 数据库用户。如果您需要订阅 TiDB 增量日志，请...

什么和大数据相关

新品推荐