使用DataWorks(离线与实时)

MaxCompute支持通过DataWorks的 数据集成 功能将其他数据源的数据以离线或实时方式导入MaxCompute,也支持将部分类型的本地文件数据导入MaxCompute。本文为您介绍使用DataWorks将数据导入MaxCompute的主要操作流程与注意事项。前提条件 已...

扩展MapReduce(MR2)

MR2模型产生背景 传统的MapReduce模型要求在经过每一轮MapReduce操作后,得到的数据结果必须存储分布式文件系统中(例如,HDFSMaxCompute数据表)。MapReduce模型通常由多个MapReduce作业组成,每个作业执行完成后都需要将数据写入磁盘...

通过日志服务迁移日志数据至MaxCompute

在 日志存储>日志库 页签中,单击目标Logstore左侧的>,选择 数据处理>导出>MaxCompute(原ODPS)。单击 MaxCompute(原ODPS)后的+,在 MaxCompute数据投递 对话框页面配置相关参数。配置参数说明如下。参数 语义 投递名称 自定义一个投递...

UNLOAD

使用限制 UNLOAD命令的使用限制如下:导出至OSS的文件的分割方式和文件名称由系统自动生成,不支持自定义导出文件名称或文件后缀。将MaxCompute数据导出至Hologres中,不支持使用双签名授权模式。不支持将MaxCompute数据导出至Hologres分区...

UNLOAD

使用限制 UNLOAD命令的使用限制如下:导出至OSS的文件的分割方式和文件名称由系统自动生成,不支持自定义导出文件名称或文件后缀。将MaxCompute数据导出至Hologres中,不支持使用双签名授权模式。不支持将MaxCompute数据导出至Hologres分区...

LOAD

如果您需要将外部存储上的数据导入MaxCompute的表或表的分区中,可以通过LOAD命令实现该操作。本文为您介绍如何使用LOAD命令将外部存储上的CSV格式或其他开源格式数据导入MaxCompute。本文中的命令您可以在如下工具平台执行:MaxCompute...

LOAD

如果您需要将外部存储上的数据导入MaxCompute的表或表的分区中,可以通过LOAD命令实现该操作。本文为您介绍如何使用LOAD命令将外部存储上的CSV格式或其他开源格式数据导入MaxCompute。本文中的命令您可以在如下工具平台执行:MaxCompute...

使用Kafka(离线与实时)

Kafka数据写入MaxCompute流程:阿里云全托管Kafka MaxCompute与消息队列Kafka服务紧密集成,借助消息队列Kafka服务的MaxCompute Sink Connector,无需第三方工具及二次开发,即可满足将指定Topic数据持续导入MaxCompute数据表的需求,...

创建并使用MaxCompute

您可通过MaxCompute的SQL语句及DataWorks提供的可视化方式,创建与管理MaxCompute表。相比SQL方式,可视化方式操作更加便捷。本文为您介绍如何使用可视化方式创建及管理MaxCompute表。前提条件 在 工作空间配置 页面绑定MaxCompute引擎后,...

利用MaxCompute External Volume处理非结构化数据

External Volume是MaxCompute提供的分布式文件系统和数据存储方案,为OSS路径在MaxCompute中的映射对象。MaxCompute通过创建External Volume去挂载OSS的一个路径,利用MaxCompute权限管理系统对用户访问External Volume做细粒度的权限控制...

功能特性

分区表实际就是对应分布式文件系统上的独立的文件夹,一个分区对应一个文件夹,文件夹下是对应分区所有的数据文件。分区表 外部表 OSS外部表 可以通过OSS外部表访问OSS目录下的数据文件中的非结构化数据,或将MaxCompute项目中的数据写入...

导入数据

本文为您介绍如何通过MaxCompute客户端,使用Tunnel Upload将本地数据文件中的数据导入创建好的表中。前提条件 请确认您已满足如下条件:已创建表。更多创建表操作,请参见 创建表。已将CSV或TXT数据文件下载至本地。本文提供的数据文件样...

2020年

新功能 MaxCompute与消息队列Kafka服务紧密集成,借助消息队列Kafka服务的MaxCompute Sink Connector,无需第三方工具及二次开发,即可满足将指定Topic数据持续导入MaxCompute数据表的需求。极大简化Kafka消息队列数据进入MaxCompute的...

与Hive、MySQL、Oracle数据类型映射表

在进行数据迁移或集成操作时,即当您需要将其他数据库数据导入MaxCompute或将MaxCompute数据导出至其他数据库时,您需要参照数据类型映射表,设置表字段的数据类型映射关系。正确的数据类型映射关系可以确保数据在不同数据库中能够正确地...

读取OSS数据

在成功创建了OSS外部表后,您可以访问和查询存储在OSS指定目录下的数据文件,实现高效的数据读取操作。背景信息 完成OSS外部表创建后,您可以根据需要选择如下方式之一对OSS外部表进行操作:(推荐)方式一:将OSS的开源格式数据导入...

新功能试用申请

2023年3月 项目开启Volume权限 External Volume是MaxCompute提供的分布式文件系统和相关的数据存储方案,功能为OSS路径在MaxCompute中的映射对象。MaxCompute通过创建External Volume去挂载OSS的一个路径或者 Bucket,利用MaxCompute权限...

常见问题

MaxCompute项目打开2.0新数据类型开关(odps.sql.type.system.odps2=true)时,存在隐式转换被禁用的风险,您可以关闭2.0新数据类型开关(odps.sql.type.system.odps2=false)。在MaxCompute中创建表的方式有哪些?您可以通过如下方式...

Join示例

MaxCompute MapReduce框架自身并不支持Join逻辑,但您可以在自己的Map或Reduce函数中实现数据的Join。测试准备 准备好测试程序的JAR包,假设名字为 mapreduce-examples.jar,本地存放路径为 data\resources。准备好Join的测试表和资源。...

计费项与计费方式概述

MaxCompute以项目为单位,对存储、计算和下载操作进行计费。本文为您介绍MaxCompute费用组成、计费项与计费方式以及计费方式选择。计费项与计费方式 MaxCompute计费项以及计费说明如下表所示。计费方式 说明 存储费用 存储费用:按照存储在...

2022年

新说明 分布式文件系统按块(Block)存放数据,文件大小比块大小(64MB)小的文件称为小文件。分布式系统不可避免会产生小文件,比如SQL或其他分布式引擎的计算结果、Tunnel数据采集。合并小文件可以达到优化系统性能的目的。本文为您介绍...

Tablestore外部表

背景信息 表格存储(Tablestore)是构建在阿里云飞天分布式系统之上的NoSQL数据存储服务,提供海量结构化数据的存储和实时访问,详情请参见 Tablestore文档。您可以通过DataWorks配合MaxCompute对外部表进行可视化的创建、搜索、查询、配置...

快速入门

ml_100k_ratings(user_id BIGINT COMMENT '用户id',movie_id BIGINT COMMENT '电影id',rating BIGINT COMMENT '得分',timestamp BIGINT COMMENT '时间戳')基于Tunnel Upload 将本地数据文件内容导入MaxCompute的表中。更多Tunnel操作,请...

多路输入输出示例

hello,odps 导入wc_in2表的数据如下。hello,world 测试步骤 在MaxCompute客户端中执行MultipleInOut。jar-resources mapreduce-examples.jar-classpath data\resources\mapreduce-examples.jar ...

MaxCompute账单用量明细分析

如果您想了解费用的分布情况并避免在使用MaxCompute产品时费用超出预期,您可以通过获取MaxCompute账单并进行分析,为资源使用率最大化及降低成本提供有效支撑。本文为您介绍如何通过用量明细表分析MaxCompute的费用分布情况。背景信息 ...

2023年

Spark Connector 2023-10-27 新增数据科学计算概述 新说明 MaxFrame是由阿里云自研的分布式科学计算框架,是对历史相关产品功能(PyODPS、Mars)的重大升级,在MaxCompute之上提供一套完全兼容Pandas接口的API,让用户用更为熟悉、更符合...

外部表常见问题

本文为您介绍外部表的常见问题。问题类别 常见问题 OSS外部表 自定义Extractor在读取非结构化数据时...相比每次从Tablestore远程读取数据,更高效快速的方法是先一次性把需要的数据导入MaxCompute内部,转为MaxCompute内部表,再进行查询。

开发ODPS MR任务

MaxCompute MapReduce:MaxCompute的原生接口,执行速度快、开发快捷、不暴露文件系统MaxCompute扩展MapReduce(MR2):对MaxCompute MapReduce的扩展,支持更复杂的作业调度逻辑。MapReduce的实现方式与MaxCompute原生接口一致。在...

外部表概述

背景信息 MaxCompute SQL作为分布式数据处理的主要入口,可实现EB级别离线数据的快速处理和存储。随着大数据业务的不断扩展,新的数据使用场景在不断产生,MaxCompute计算框架也在不断演化。MaxCompute原来主要面对内部特殊格式数据的强大...

Spark Connector

为了更好地融入大数据生态,...defaults.conf 文件内容示例如下:#在spark-defaults.conf配置账号 spark.hadoop.odps.project.name=doc_test spark.hadoop.odps.access.id=L*spark.hadoop.odps.access.key=*spark.hadoop.odps.end.point=...

ODPS-0123144

错误码:ODPS-0123144:Fuxi job failed 错误1:kInstanceMonitorTimeout(errCode:252)at Odps/xxx/xxx.Detail error msg:CRASH_EXIT,usually caused by bad udf performance.错误信息 ODPS-0123144:Fuxi job failed-...

RAM权限

MaxCompute部分资源管理类的操作只能通过管理控制台来完成,其中有些操作权限通过RAM进行鉴权,本文为您介绍MaxCompute管理相关操作对接RAM的权限点列表及权限策略。权限点列表 操作类别 Action ARN ARN示例 说明 项目管理 odps:...

导入导出表数据

MaxCompute Studio可以将CSV、TSV等格式的本地数据文件导入MaxCompute表中,也可将MaxCompute表中的数据导出到本地文件MaxCompute Studio通过Tunnel导入导出数据。前提条件 导入导出数据使用MaxCompute Tunnel,因此要求MaxCompute ...

运行安全命令示例

本文为您介绍如何在MaxCompute客户端上使用Java SDK接口运行安全相关的命令。前提条件 您需要完成以下操作:准备IntelliJ IDEA开发工具,请参见 安装Studio。配置MaxCompute Studio连接MaxCompute项目空间,请参见 创建MaxCompute项目连接...

MaxCompute UDF(Java)常见问题

Java沙箱限制问题 问题现象:调用MaxCompute UDF访问本地文件、外网或分布式文件系统,创建Java线程等时,代码运行会报错。产生原因:网络限制问题,MaxCompute UDF默认不支持访问网络。解决措施:请根据业务情况填写并提交 网络连接申请...

MaxCompute导入数据报错get odps table error:can ...

2、分析型数据库目前仅允许操作者导入自身为 Project Owner 的 MaxCompute Project 中,或者操作者是 MaxCompute 表的 Table Creator 的数据。3、如果用户的 MaxCompute 开启了保护模式的功能(set projectProtection=true),数据无法以任何...

数据上云工具

Flume(DataHub通道系列)Apache Flume是一个分布式的、可靠的、可用的系统,可高效地从不同的数据源中收集、聚合和移动海量日志数据到集中式数据存储系统,支持多种Source和Sink插件。Apache Flume的DataHub Sink插件可以将日志数据实时...

合并小文件

分布式文件系统按块(Block)存放数据,文件大小比块大小(64MB)小的文件称为小文件。分布式系统不可避免会产生小文件,比如SQL或其他分布式引擎的计算结果、Tunnel数据采集。合并小文件可以达到优化系统性能的目的。本文为您介绍如何在...

ODPS-0121096

错误码:ODPS-0121096:MetaStore transaction conflict 错误1:Reached maximum retry times because of OTSStorageTxnLockKeyFail(Inner exception:Transaction timeout because cannot acquire exclusive lock.)错误信息 ODPS-0121096:...

2020年

2020-12-05 所有区域 使用DataWorks连接 2020-11 功能名称 功能描述 发布时间 发布区域 相关文档 MaxCompute支持消息队列Kafka通过Connector持续导入数据 MaxCompute与消息队列Kafka服务紧密集成,借助消息队列Kafka服务的MaxCompute...

数据输入输出

df=md.read_odps_table("parted_odps_table",partitions=["pt1=20240119,pt2=10"],index_col=["idx_col"])如果需要将预处理的中间数据存储MaxCompute表中,可以使用 to_odps_table 方法。df.to_odps_table("output_table_name").execute...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
文件存储HDFS版 图计算服务 GraphCompute 云原生大数据计算服务 MaxCompute 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用