大数据时代的知识生产-大数据时代的知识生产文档介绍内容-阿里云

JindoData概述

支持面向云时代的大数据Hadoop SDK和HDFS接口，内置优化访问阿里云OSS，较Hadoop社区版本性能大幅提升。同时支持JindoFS存储系统和服务、JindoFSx存储加速系统，支持多云对象存储。支持JindoShell CLI。JindoData除了支持HDFS Shell命令，...

mysqldump

当您需要备份或者迁移云数据库SelectDB 中的数据时，通过mysqldump工具，可以将数据库的...使用mysqldump导出数据和表结构仅用于开发测试或者数据量很小的情况，请勿用于大数据量的生产环境。相关文档 mysqldump的详细信息请参见 mysqldump。

离线同步数据质量排查

DataWorks标准项目分为开发数据源、生产数据源，在开发环境运行任务使用开发数据源，在生产环境运行任务使用生产数据源，再对数据数量和内容比对时，需要确认下使用的数据源环境，避免开发、生产查询不一致。在实际生产业务当中，在线数据...

MaxCompute数据源

MaxCompute数据源作为数据中枢，为您提供读取和写入数据至MaxCompute的双向通道。使用限制说明 DataWorks的MaxCompute数据源可使用 Tunnel Endpoint 地址访问相应MaxCompute项目的Tunnel服务，从而通过上传、下载等方式同步该项目的数据。...

文档更新动态（2022年之前）

新功能网络连通解决方案 2021年08月24日数据服务：支持数据服务模块的数据查询加速、支持的数据源类型和版本拓展为了满足对数据查询速度有要求的业务场景，Dataphin支持为项目添加加速计算源，且完成Dataphin数据源开发后，您可以手动...

数据导入性能优化

云原生数据仓库AnalyticDB MySQL版提供的多种数据导入方法，满足不同场景下的数据导入需求。然而数据导入性能依然受各种各样的因素影响，如表的建模不合理导致长尾、导入配置低无法有效利用资源等。本文介绍不同场景下的数据导入调优方法...

数据导入性能优化

云原生数据仓库AnalyticDB MySQL版提供的多种数据导入方法，满足不同场景下的数据导入需求。然而数据导入性能依然受各种各样的因素影响，如表的建模不合理导致长尾、导入配置低无法有效利用资源等。本文介绍不同场景下的数据导入调优方法...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

应用场景

实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统通过数据总线，您可以实时接入APP、WEB、IoT和数据库等产生的异构数据，统一管理，并投递到下游的分析、归档等系统，构建清晰的数据流，让您更好的释放数据的价值。...

互联网、电商行业离线大数据分析

概述电商网站的销售数据通过大数据进行分析后，可以在大屏幕展示销售指标、客户指标、销售排名和订单地区分布等业务指标数据。DataV大屏支持可视化动态展示销售数据，触控大屏支持您自助查询数据，极大地提高数据的可读性。应用场景电商...

应用场景

数据分析业务云数据库 Memcache 版搭配大数据计算服务 MaxCompute。实现对大数据的分布式分析处理，适用于商业分析、挖掘等大数据处理场景。通过数据集成服务可自助实现数据在云数据库 Memcache 版与 MaxCompute 间的同步，简化数据操作...

数据分析整体趋势

大数据与数据库一体化：早期大数据技术以牺牲一定程度一致性为基础提供分布式能力，解决了传统单机数据库的扩展性不足问题，在MapReduce基础上提供了标准SQL接口，架构上也逐步采用了部分MPP数据库技术；另一方面，分布式数据库也快速发展...

基于MaxCompute进行大数据BI分析

本实践以电商行业为例，通过MaxCompute、DataWorks对业务数据和日志数据进行ETL处理，并同步至分析型数据库MySQL（AnalyticDB MySQL）进行实时分析，再通过Quick BI进行可视化展示。背景信息 MaxCompute：用于进行大规模数据计算，详情请...

自媒体：易撰

所属行业：自媒体网站地址：易撰客户介绍长沙营智信息技术有限公司是专业的新媒体大数据服务商，其旗下知名品牌易撰，基于新媒体大数据挖掘技术及NLP算法分析，为各内容创客、广告主提供全面、科学、精准的大数据分析服务以及大数据架构...

数据集成概述

背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效的配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优（例如容错，限速，并发）等。...

修改备份源

测试阶段结束，需要将数据库切换为生产环境，确保备份的数据源与生产环境一致，保证生产数据的备份完整性和可用性。源数据库账号密码配置错误或权限不足，需要修改账号密码或调整账号权限。源数据库的库表发生变动，例如新增、删除或修改了...

DataWorks V3.0

MaxCompute：大数据计算服务MaxCompute（原ODPS）是一种快速、完全托管的EB级大数据计算引擎，是大规模离线数据仓库的核心引擎。MaxCompute是DataWorks最早支持，且最成熟完备的计算引擎，目前已基本覆盖MaxCompute的所有功能。详情请参见 ...

创建并管理数据源

您可以分别创建开发环境和生产环境的数据源，使测试与生产调度操作的数据源隔离，以保护您的生产数据安全。详情请参见附录：数据源环境介绍。开发环境的数据源：可在数据同步节点中选择，并在开发环境运行，但无法提交到生产环境或在生产...

概述

解决方案 T+1全量同步一键建仓是指通过DLA控制台配置数据源（RDS、PolarDB for MySQL、MongoDB数据源、ECS自建数据库数据）和目标OSS数据仓库，系统按照您设定的数据同步时间自动、无缝的帮您把数据源中的数据同步到目标数据仓库OSS中，...

索引优化

在大部分传统的TP型数据库中，索引可以极大的提高数据的访问效率。但是在类似与 AnalyticDB PostgreSQL版这样的分布式数据库中，应该谨慎的选择索引的使用。在大部分场景下，AnalyticDB PostgreSQL版更适合快速的顺序扫描，或者结合稀疏...

典型场景

基于湖构建数据平台，支持BI、挖掘等业务对象存储OSS可以作为湖存储，DLA基于OSS构建一站式的大数据平台。具体包括构建数据湖、数据ETL、交互式查询、机器学习等功能。构建数据湖实时数据湖：支持DB的CDC与消息数据（如Kafka）入湖，构建...

大数据AI公共数据集分析

本教程通过DataWorks，联合云原生大数据计算服务MaxCompute，使用大数据AI公共数据集（淘宝、飞猪、阿里音乐、Github、TPC等公共数据），指导您如何快速进行大数据分析，快速熟悉DataWorks的操作界面与最基础的数据分析能力。DataWorks的更...

应用场景

云数据库MongoDB版支持单节点、副本集和分片集群三种部署架构，具备安全审计、时间点备份等多项企业能力。在互联网、物联网、游戏、金融等...大数据应用：使用云数据库MongoDB作为大数据的云存储系统，随时进行数据提取分析，掌握行业动态。

JindoFS介绍和使用

HDFS有Java onheap限制，而Block模式没有Java onheap和内存限制，可以支持更大的数据规模。Block模式轻运维，不用担心坏盘或坏节点，数据1备份放置在OSS上，支持上下线节点。支持对冷数据做透明压缩和归档，使用多种手段进行成本优化，对接...

应用场景

大数据场景云数据库HBase支持海量全量数据的低成本存储、快速批量导入和实时访问，具备高效的增量及全量数据通道，可轻松与Spark、MaxCompute等大数据平台集成，完成数据的大规模离线分析。优势如下：低成本：高压缩比，数据冷热分离，...

产品系列概述

大中型企业的生产数据库。互联网、物联网、零售电商、物流、游戏等行业的数据库。集群系列一主多备的高可用架构，支持自动故障切换。备节点可访问，提升读能力。可增加更多备节点进一步扩展读能力。大中型企业的生产数据库。互联网新零售...

冷热分层

背景信息在海量大数据场景下，随着业务和数据量的不断增长，性能和成本的权衡成为大数据系统设计面临的关键挑战。Delta Lake是新型数据湖方案，推出了数据流入、数据组织管理、数据查询和数据流出等特性，同时提供了数据的ACID和CRUD操作...

外部表概述

MaxCompute支持使用外部表功能查询和分析存储于OSS等外部存储系统的数据。该机制使得用户可以无需将数据导入到MaxCompute内部存储，直接对外部数据进行操作，从而提供了数据处理的灵活性和方便性。背景信息 MaxCompute SQL作为分布式数据...

主备方案介绍

A：存储的是数据D1和数据D2中时间戳更大的数据，数据在LTS同步过程中不会改变数据原有的时间戳，一般情况下存储的是数据D2，但是由于主备实例不同可能存在时间戳毫秒级的时间差异造成数据D2的时间戳比数据D1的时间戳小，在这种情况下存储的...

数据质量教程概述

在本教程中，您需要重点关注数据的生产环节（MaxCompute外部表引用的表格存储数据）和加工环节（数据仓库CDM及ADS层）中表行数是否大于0、表行数波动是否正常以及字段是否出现空值或重复的情况。准确性准确性是指数据记录中信息和数据是否...

数据质量教程概述

在本教程中，您需要重点关注数据的生产环节（MaxCompute外部表引用的表格存储数据）和加工环节（数据仓库CDM及ADS层）中表行数是否大于0、表行数波动是否正常以及字段是否出现空值或重复的情况。准确性准确性是指数据记录中信息和数据是否...

限制说明

数据大小云数据库 Memcache 版支持的单条缓存数据的 Key 最大不超过 1 KB，Value 最大不超过 1 MB，过大的数据不适合存储。事务支持云数据库 Memcache 版不支持事务，有事务性要求的数据不适合写入，而应该直接写入数据库。使用场景当...

ETL工作流快速体验

GitHub十大热门编程语言 DataWorks MaxCompute 函数计算 OSS 数据集成数据开发基础版基于GitHub Archive公开数据集，通过DataWorks 数据集成模块获取过去1小时GitHub中提交次数最多的代码语言数据，在DataStudio 数据开发模块通过函数...

数据迁移

本文为您介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大...

新建注册上挂指标

如您选择生产数据，建议您代码写明该生产数据的项目或数据板块前缀，以免无主键事实表提交时校验规范性会不通过。统计粒度统计粒度的时效与汇总逻辑表的时效保持一致，不支持修改。您需要为统计粒度的主键字段选择来源表的字段进行映射。...

JindoFS实战演示

使用Checksum迁移HDFS数据到OSS 使用Checksum迁移HDFS数据到OSS 2021-05-11 通过Checksum算法，你可以在大数据迁移场景中校验数据的完整性、对比数据差异并实现增量迁移。本视频为您介绍如何使用Jindo Distcp迁移HDFS数据到OSS，以及在迁移...

配置跨库Spark SQL节点

任务编排中的跨库Spark SQL节点，主要针对各类跨库数据同步和数据加工场景，您可以通过编写Spark SQL，完成各种复杂的数据同步或数据加工的任务开发。前提条件支持的数据库类型：MySQL：RDS MySQL、PolarDB MySQL版、MyBase MySQL、...

Quick BI连接MaxCompute

MaxCompute支持您将MaxCompute项目数据接入阿里云Quick BI，对海量数据进行实时在线分析服务，同时支持拖拽式操作和丰富的可视化效果，帮助您轻松自如地完成数据分析、业务数据探查、报表制作等工作。本文为您介绍如何使用Quick BI连接...

新建注册上挂指标

如您选择生产数据，建议您代码写明该生产数据的项目或数据板块前缀，以免无主键事实表提交时校验规范性会不通过。统计粒度统计粒度的时效与汇总逻辑表的时效保持一致，不支持修改。您需要为统计粒度的主键字段选择来源表的字段进行映射。...

数据质量保障原则

一致性一致性通常体现在跨度很大的数据仓库中。例如，某公司有很多业务数仓分支，对于同一份数据，在不同的数仓分支中必须保证一致性。例如，从在线业务库加工到数据仓库，再到各个数据应用节点，用户ID必须保持同一种类型，且长度也要...

大数据时代的知识生产

新品推荐