数据分析作业

MaxCompute是适用于数据分析场景的企业级SaaS模式云数据仓库,支持在多种工具上使用MaxCompute运行大数据计算分析作业。如果您需要进行简单的查询等数据分析作业,推荐您使用SQL查询或DataWorks的临时查询等工具,高效便捷地完成数据分析...

创建集群

业务场景 请您根据自身实际场景进行选择:数据湖(DataLake):提供更灵活、可靠、高效的管理集群,更快的运行大数据计算引擎并提供出色的数据分析能力。支持构建数据湖架构,使用JindoFS进行数据湖加速。支持OSS-HDFS(全托管HDFS)作为...

2023年

作业运行常见问题 2023-08-01 新增Github公开事件数据 新说明 本文为您介绍MaxCompute公开数据集中Github公开事件数据的基本信息、如何通过MaxCompute执行Github公开事件数据查询以及Query样例和分析结果。Github公开事件数据 2023年7月...

填充数据库

第一次填充数据库时可能需要插入大量的数据。本节包含一些如何让这个处理尽可能高效的建议。1.禁用自动提交 在使用多个 INSERT 时,关闭自动提交并且只在最后做一次提交(在普通 SQL 中,这意味着在开始发出 BEGIN 并且在结束时发出 COMMIT...

作业运行常见问题

导致MaxCompute作业运行时长不达预期(作业运行慢)的原因通常可分为资源不足、作业问题、模式回退三种:资源不足 对于使用 包年包月 计算资源的作业,可能由于总体作业运行数据、申请资源多、作业优先级低而导致该作业出现资源等待...

采集数据

本教程以MySQL中的用户基本信息(ods_user_info_d)表及OSS中的网站访问日志数据(user_log.txt)文件,通过数据集成离线同步任务分别同步至MaxCompute的ods_user_info_d、ods_raw_log_d表为例,为您介绍如何通过DataWorks数据集成实现异构...

采集数据

本教程以MySQL中的用户基本信息(ods_user_info_d)表及OSS中的网站访问日志数据(user_log.txt)文件,通过数据集成离线同步任务分别同步至MaxCompute的ods_user_info_d、ods_raw_log_d表为例,为您介绍如何通过DataWorks数据集成实现异构...

数据服务入门

步骤一:创建数据源并配置网络连通性 使用数据服务创建API前,您需将数据库或数据仓库添加为DataWorks的数据源,并保障数据服务资源组与您的目标数据源网络连通,以便调用API时DataWorks可成功访问数据源。说明 DataWorks工作空间将集群或...

RDS迁移至MaxCompute实现动态分区

本文为您介绍如何使用DataWorks数据集成同步功能自动创建分区,动态地将RDS中的数据迁移至MaxCompute大数据计算服务。前提条件 准备DataWorks环境 开通MaxCompute。在DataWorks上完成创建业务流程,本例使用DataWorks简单模式。详情请参见 ...

变更规格操作

如果您的同步任务数据运行时间长,则可通过如下方式缩短运行时长:扩大资源组内机器规格,调整单个机器可同时执行的并发数。调单个同步任务的并发数。独享调度资源组√不涉及。独享数据服务资源组√不涉及。DATABLAU数据建模√仅...

数据流运维

说明 调度触发:通过调度或指定时间的方式运行数据流。手动触发:通过手动单击试运行的方式运行数据流。单击 状态 列前的,查看数据流运行日志。在 操作 列中,单击 执行历史,查看数据流的 操作时间、操作人员 和 操作内容。在 操作 列中...

产品简介

大数据专家服务 大数据专家服务(Bigdata Expert Service)是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障,帮助用户...

应用场景

实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统 通过数据总线,您可以实时接入APP、WEB、IoT和数据库等产生的异构数据,统一管理,并投递到下游的分析、归档等系统,构建清晰的数据流,让您更好的释放数据的价值。...

什么是DataWorks

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起,DataWorks不断沉淀阿里巴巴大数据建设方法论,支撑数据中台建设,同时与...

配置离线数据集成节点

运行时间与数据规模成正比,数据规模越运行耗时时间越长。如果执行日志的最后一行出现 status SUCCEEDED,表明任务试运行成功。试运行成功后,您可以在目标库的SQL窗口中,查询目标表中已迁移的数据。如果执行日志的最后一行出现 ...

大数据安全治理的难点

存储 众所周知,大数据系统以数据类型多(结构化、非结构化、半结构化)、数据(动辄PB级别)著称,某些巨头组织一天就能新增数十万甚至数百万张表,如此体量给数据分级分类带来了极挑战,通过人工进行数据分级分类显然是不现实的,...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力,本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库 本场景推荐的架构如下。适用行业:全行业...

发布数据

可选:试运行数据流。单击画布左上方的 试运行 按钮。在 提示 对话框,单击 确认。单击画布的空白区域,单击页面下方的 执行日志 页签,查看数据流试运行是否成功。如果执行日志的最后一行中出现 status SUCCEEDED,表明数据流试运行成功。...

通用数据开发

通常数据开发的总体流程包括数据产生、数据收集与存储、数据分析与处理、数据提取和数据展现与分享。说明 上图中,虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示:数据产生:业务系统每天会产生大量结构化的...

账单数据订阅及查询分析

DataWorks及MaxCompute:DataWorks基于MaxCompute等大数据引擎,支持您在线进行SQL分析、业务洞察、编辑和分享数据,以及将查询结果保存为可视化图表卡片,快速搭建可视化数据报告。订阅账单数据后,用户中心会将相关账单数据同步至指定...

数据标准

数据是由特定的环境产生的,这些环境因素包括生产者、时间、系统等,从而造成了同一个语义的数据,有...说明 目前使用DDM进行数据建模可以进行逻辑建模和物理建模,但物理建模仅支持MaxCompute和Hive两种大数据引擎,不支持自定义数据源类型。

使用HBase Shell

ROW COLUMN+CELL r1 column=cf1:q1,timestamp=2022-09-14T16:06:34.339,value=v1 r2 column=cf1:q1,timestamp=2022-09-14T16:06:36.615,value=v3 2 row(s)获取数据 运行 get 命令获取单个行(row)或单元格(cell)的数据。您可以根据需求...

受众与核心能力

产品定位 DataWorks致力于为数据开发者、数据分析师、数据资产管理者,打造一个具备开放自主开发与全栈数据研发能力的一站式、标准化、可视化、透明化的智能大数据全生命周期云研发平台。DataWorks赋予用户仅通过单一平台,即可实现数据...

查看并管理运行记录

运行记录为您保存近15天的即席查询、运行计算任务、逻辑数据表预览、派生指标冒烟测试、资产数据预览、OpenAPI数据查询的记录。本文为您介绍如何查看运行记录。查看运行记录 在Dataphin首页,单击顶部菜单栏的 研发。按照下图操作指引,...

冷热分层

背景信息 在海量大数据场景下,随着业务和数据量的不断增长,性能和成本的权衡成为大数据系统设计面临的关键挑战。Delta Lake是新型数据湖方案,推出了数据流入、数据组织管理、数据查询和数据流出等特性,同时提供了数据的ACID和CRUD操作...

Delta Lake概述

Delta Lake以数据为中心,围绕数据流走向(数据从流入数据湖、数据组织管理和数据查询到流出数据湖)推出了一系列功能特性,协助您搭配第三方上下游工具,搭建快捷、易用和安全的数据湖。背景信息 通常的数据湖方案是选取大数据存储引擎...

查询并下载数据

样例数据下载:样例数据下载的格式和数据运行记录由数据下载审批设置决定。更多信息,请参见 数据下载配置。说明 若规范设置中已开启下载审批,您需提交 数据下载申请 后才可进行下载。审批通过后,您可查看审批任务、当前运行结果或在运行...

数据迁移

本文为您介绍数据迁移的最佳实践,包含将其他业务平台的业务数据或日志数据迁移至MaxCompute,或将...MaxCompute处理业务数据和日志数据后,可以通过Quick BI快速地以可视化方式展现数据处理结果,详情请参见 基于MaxCompute的大数据BI分析。

AnalyticDB for MySQL 3.0数据

如果ADB数据源配置的实例从数仓版切换到了湖仓版,使用该数据运行在公共资源组上的同步任务将会失败,建议切换前,确认是否有运行在公共资源组上的同步任务,并且将其切换到独享资源组运行。离线同步支持读取视图(VIEW)表。支持的字段...

外部表概述

但这两种方法都有不足之处:第一种方法需要在MaxCompute系统外部做一次中转,如果OSS数据量太,还需要考虑如何并发来加速,无法充分利用MaxCompute的规模计算能力。第二种方法通常需要申请UDF网络访问权限,还需要开发者自己控制作业...

数据分析概述

功能概述 SQL查询 SQL查询是使用标准的SQL语句,来查询和分析存储在MaxCompute中的大数据,详情请参见 SQL查询。您可以通过编写SQL语句,对有查询权限的数据源进行快速的数据查询与分析操作,详情请参见 功能概览。DataWorks SQL查询提供了...

数据集成

数据源支持情况 数据集成目前支持40种以上的数据源类型(包括关系型数据库、非结构化存储、大数据存储、消息队列等),通过定义来源与去向数据源,并使用数据集成提供的数据抽取插件(Reader)、数据写入插件(Writer),实现任意结构化、...

数据集成:全领域数据汇聚

计费 运行数据集成任务可能产生的费用由以下几部分组成:运行数据集成任务所需的 数据集成资源组 费用。计费详情请参见 独享数据集成资源组计费说明:包年包月、公共数据集成(调试)资源组:按量计费。运行数据集成任务所需的 调度资源组 ...

数据上传

DataWorks的数据上传功能,支持将多种来源(例如,本地文件、OSS文件)的数据上传至MaxCompute大数据引擎进行分析处理及相关管理操作,致力于为您提供高效、便捷的数据传输服务,助力您快速实现数据驱动业务。使用限制 目前仅支持基于 本地...

新建同步节点并运行后上线

单击 图标,运行数据同步节点。说明 当解析后不存在参数,则单击运行图标后,不会弹出该对话框。查看运行结果和日志,当日志列结果显示success,则表示数据同步节点运行成功。步骤四:(条件必选)如果节点需要被周期调度,设置调度信息 ...

新建同步节点并运行后上线

单击 图标,运行数据同步节点。说明 当解析后不存在参数,则单击运行图标后,不会弹出该对话框。查看运行结果和日志,当日志列结果显示success,则表示数据同步节点运行成功。步骤四:(条件必选)如果节点需要被周期调度,设置调度信息 ...

离线同步任务调优

但如果该值设置过,会导致数据同步运行进程OOM异常。出现上述报错后,请参见:离线同步常见问题。附录:查看实际并发 在数据同步任务的详情日志页面,查找形式为 JobContainer-Job set Channel-Number to 2 channels.的日志,此处的 ...

查看并管理手动实例

手动实例是手动任务运行后生成的实例数据。系统支持对手动实例进行运维管理,包括查看运行日志、查看手动任务、查看节点代码等。手动实例入口 请参见 运维中心入口,进入 运维 中心。在 运维 中心页面,单击左侧导航栏 手动实例,进入手动...

V$INSTANCE

HOST_NAME character varying(16)运行数据库实例的服务器主机名。VERSION character varying(17)数据库的版本号。STARTUP_TIME date 实例最后一次启动的时间。STATUS character varying(12)实例当前的状态。例如"OPEN"、"MOUNTED"、...

DB2数据

DB2数据源作为数据中枢,为您提供读取和写入DB2数据库的双向通道,能够快速解决海量数据的计算问题。本文为您介绍DataWorks的DB2数据同步的能力支持情况。支持的版本 DB2 Reader和DB2 Writer使用的DB2驱动版本为 IBM Data Server Driver ...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云数据库 RDS 数据库备份 云数据库 Redis 版 数据传输服务 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用