使用本地客户端(odpscmd)连接

MaxCompute本地客户端(odpscmd)适用于命令行操作场景,可在本地直接运行,高效执行命令并管理项目。本文介绍其下载、安装、配置、运行及基本使用方法。

适用范围

  • 待安装MaxCompute客户端的设备已安装Java 8或以上版本。

  • 版本兼容性

    • MaxCompute客户端从v0.28.0版开始支持JDK 1.9,v0.28.0以下版本只支持JDK 1.8。启动MaxCompute客户端后,在命令行界面可查看客户端版本号。

    • MaxCompute客户端的输出格式不承诺向前兼容,不同版本间的客户端命令格式及行为有差异,请勿依赖客户端的输出格式执行任何解析工作。

    • 更多客户端版本,请参见aliyun-odps-console

  • 编码格式

    客户端默认编码为UTF-8,若本机环境编码不是UTF-8,通过客户端查询MaxCompute表数据返回值有中文时可能会出现乱码,或通过客户端执行Tunnel命令上传本地数据文件到MaxCompute,也可能会出现中文乱码。

费用说明

使用MaxCompute客户端连接项目不收费,但是通过客户端执行的操作可能会触发MaxCompute计费。例如,使用客户端提交一个SQL查询和写入命令,此SQL命令在MaxCompute上运行会消耗计算资源,同时写入数据会占用存储空间,将产生计算费用和存储费用。MaxCompute计费详情请参见计费项与计费方式

安装并配置MaxCompute客户端

客户端从v0.27.0版本开始支持MaxCompute 2.0新数据类型,推荐使用新数据类型。支持的数据类型列表,请参见2.0数据类型版本

操作流程如下:

  1. 下载MaxCompute客户端安装包(Github)

    说明
    • 通过上方链接进入客户端发布界面,下载最新版本的MaxCompute客户端安装包(odpscmd_public.zip)。

    • 如果上方链接无法下载,可以尝试单击此处的MaxCompute客户端安装包(OSS)下载。更多关于GitHub链接访问失败的问题,推荐在搜索引擎中查找相关解决方案。

  2. 解压下载的安装包文件,得到binconflibplugins文件夹。

  3. 进入conf文件夹,配置odps_config.ini文件。

    odps_config.ini文件中使用井号(#)作为注释。参数说明如下。

    参数

    是否必填

    描述

    示例

    project_name

    访问的目标MaxCompute项目名称。

    如果创建了标准模式的工作空间,在配置project_name时,请注意区分生产环境与开发环境(_dev)的项目名称,请参见工作空间模式区别

    1. 登录MaxCompute控制台,在左上角选择地域。

    2. 在左侧导航栏,选择管理配置 > 项目管理

    3. 项目管理页面,可以获取MaxCompute项目名称。

    doc_test_dev

    access_id

    阿里云账号或RAM用户的AccessKey ID。可以进入AccessKey管理页面获取AccessKey ID。

    access_key

    AccessKey ID对应的AccessKey Secret。

    end_point

    MaxCompute服务的连接地址。

    需要根据创建MaxCompute项目时选择的地域以及网络连接方式配置Endpoint。各地域及网络对应的Endpoint值,请参见Endpoint

    重要
    • Endpoint用于MaxCompute服务,Tunnel Endpoint用于MaxComputeTunnel服务,此处请填写Endpoint。

    • 如果Endpoint配置有误,会出现无法访问错误,请务必仔细确认。

    http://service.cn-hangzhou.maxcompute.aliyun.com/api

    log_view_host

    Logview地址。推荐配置该参数,如果不配置该参数,在作业报错时无法快速定位问题。

    可以通过该地址查看作业的详细运行信息,并为报错处理提供依据。固定取值为:http://logview.odps.aliyun.com。

    http://logview.odps.aliyun.com

    https_check

    是否开启HTTPS访问机制,对访问MaxCompute项目的请求进行加密。取值范围如下:

    • True:采用HTTPS机制。

    • False:采用HTTP机制。

    默认值为False。

    True

    data_size_confirm

    输入数据量的最大值,单位为GB。取值范围无限制。推荐设置为100 GB。

    100

    update_url

    预留参数,暂无需关注。

    use_instance_tunnel

    是否使用InstanceTunnel下载SQL执行结果。取值范围如下:

    • True:使用InstanceTunnel下载SQL执行结果。

    • False:不使用InstanceTunnel下载SQL执行结果。

    默认值为False。

    True

    instance_tunnel_max_record

    客户端返回的SQL执行结果的最大记录数。如果use_instance_tunnel值为True,需要配置该参数。最大值为10000。

    10000

    tunnel_endpoint

    Tunnel服务的外网访问链接。

    • 如果未配置Tunnel Endpoint,Tunnel会自动路由到MaxCompute服务所在网络对应的Tunnel Endpoint。

    • 如果配置了Tunnel Endpoint,则以配置为准,不自动路由。

    各地域及网络对应的Tunnel Endpoint值,请参见Endpoint

    http://dt.cn-hangzhou.maxcompute.aliyun.com

    set.<key>

    设置MaxCompute项目的属性。

    更多属性信息,请参见属性列表

    set.odps.sql.decimal.odps2=true

    请确保上述信息配置正确,若信息配置错误,会导致项目连接失败。

运行MaxCompute客户端

  1. 创建MaxCompute项目

  2. 若使用MaxCompute客户端的用户为RAM用户,需要通过阿里云主账号将该RAM用户添加至目标MaxCompute项目。更多添加工作空间成员操作,请参见授权给其他用户

  3. 启动MaxCompute客户端有如下两种方式,任选其一即可:

    方式一:安装包的脚本文件

    MaxCompute客户端安装路径下的bin文件夹中,双击odpscmd.bat文件(Windows系统)或者双击odpscmd文件(macOS系统),即可启动MaxCompute客户端。返回如下信息,表明已成功连接MaxCompute项目。image.png

    方式二:系统的命令行执行窗口

    在系统的命令行执行窗口,进入MaxCompute客户端安装路径下的bin目录,执行odpscmd命令(Windows系统)或sh odpscmd(Linux系统或Mac系统),即可启动MaxCompute客户端。返回如下信息,表明已成功连接MaxCompute项目。

    说明

    Ubuntu执行sh odpscmd会提示报错,请使用./odpscmd命令尝试启动。

    image.png

    如果通过系统的命令行窗口启动MaxCompute客户端,可以指定参数来执行命令,更多参数信息,请参见启动参数

MaxCompute客户端相关操作

获取全部命令帮助

可以通过如下方式快速获取MaxCompute客户端的命令帮助,可以任选其中一种:

MaxCompute客户端查看命令帮助信息

  • 查看全部命令的帮助信息。

    odps@project_name>help;
    -- 等价于如下命令。
    odps@project_name>h;
  • 通过指定关键字查看相关命令帮助信息。

    例如获取与表操作相关的命令帮助。

    odps@project_name>help table;
    -- 返回结果如下。
    Usage: alter table <tablename> merge smallfiles
    Usage: export table <tablename>
    Usage: show tables [in <project_name>] [like '<prefix>']
           list|ls tables [-p,-project <project_name>]
    Usage: describe|desc [<projectname>.]<tablename> [partition(<spec>)]
    Usage: read [<project_name>.]<table_name> [(<col_name>[,..])] [PARTITION (<partition_spec>)] [line_num]
    重要

    read命令属于SQL语法,涉及收费详细说明请参考SQL收费标准

在系统的命令行执行窗口查看命令帮助信息

在系统的命令行执行窗口,切换到MaxCompute客户端安装路径下的bin目录,执行如下命令查看全部命令的帮助信息。在命令行执行窗口启动MaxCompute客户端时,允许指定一系列参数,参数信息请参见启动参数

...\odpscmd\bin>odpscmd -h

获取当前登录用户信息

在运行MaxCompute客户端后执行如下命令获取当前登录用户的信息。

odps@project_name>whoami;

返回结果说明如下。

  • Name:当前登录的账号信息。

  • Source IP:MaxCompute客户端所在设备的IP地址。

  • End_Point:MaxCompute服务的连接地址。

  • Project:MaxCompute项目的名称。

  • Schema:MaxCompute项目下的Schema。

退出MaxCompute客户端

执行如下命令退出运行中的MaxCompute客户端。

odps@project_name>quit;
-- 等价于如下命令。
odps@project_name>q;

执行tunnel download命令

  • 通过MaxCompute客户端首次执行tunnel download命令时,MaxCompute客户端会在当前设备的客户端安装目录plugins/dship下,创建一个用于存放日志的session文件夹。

  • 如果多名用户共用同一设备执行tunnel download命令时,为确保数据安全,可以通过如下方式解决该问题:

    • 通过设备自身的文件夹权限管理功能,管控session文件夹权限。

    • tunnel download命令中添加-sd <新session文件夹名称>-session-dir <新session文件夹名称>参数,将数据下载至其他session文件夹。更多tunnel download命令信息,请参见Download

相关文档

登录MaxCompute客户端后,即可在MaxCompute项目内执行SQL命令,请参见通过客户端使用MaxCompute

MaxCompute客户端支持的详细命令语法信息,请参见常用命令列表SQL命令及函数

常见问题

配置完odps_config.ini文件后启动MaxCompute客户端,常见报错如下:

报错:no java found

  • 问题原因

    运行MaxCompute客户端的机器未安装Java。

  • 解决方案

    在运行MaxCompute客户端的机器安装Java,并配置环境变量。MaxCompute客户端从v0.28.0版本起开始支持JDK 1.9,之前版本只支持JDK 1.8。

报错:找不到或无法加载主类 com.aliyun.openservices.odps.console.ODPSConsole

  • 问题原因

    可能下载了两次客户端安装包,第二次的时候目录被自动重命名为odpscmd_public (1),目录名称里包含了空格等字符,导致路径识别错误。

  • 解决方案

    删除目录名称中的空格等字符。

报错:Accessing project '<projectname>' failed: ODPS-0420111: Project not found - '<projectname>'.

  • 问题原因

    可能是odps_config.ini配置文件中的项目名称填写错误。

  • 解决方案

    1. 登录MaxCompute控制台,在左上角选择地域。

    2. 在左侧导航栏,选择管理配置 > 项目管理

    3. 项目管理页面,获取已经创建的正确MaxCompute项目名称后,修改odps_config.ini配置文件。

报错:Accessing project '<projectname>' failed: ODPS-0420095: Access Denied - Authorization Failed [4002], You don't exist in project <projectname>.

报错:Accessing project '<projectname>' failed: { "Code": "InvalidProjectTable", "Message": "The specified project or table name is not valid or missing."}Accessing project '<projectname>' failed: connect timed out

  • 问题原因

    end_point参数值填写错误。例如在本地计算机上使用MaxCompute客户端连接项目,却使用了阿里云经典网络连接方式下的Endpoint(外网环境使用了内网Endpoint)或填入了Tunnel Endpoint。

  • 解决方案

    请参照Endpoint文档,选择与要连接项目所属区域和网络环境相符的Endpoint。

    Endpoint用于MaxCompute服务,Tunnel Endpoint用于MaxComputeTunnel服务,end_point参数值应填写Endpoint,请不要填入Tunnel Endpoint。

报错:Accessing project '<projectname>' failed: <endpoint>

  • 问题原因

    end_point参数值填写错误。例如将华东1(杭州)地域的外网Endpoint(http://service.cn-hangzhou.maxcompute.aliyun.com/api),输入为http://service.ch-hangzhou.maxcompute.aliyun.com/api

  • 解决方案

    请参照Endpoint文档,复制要连接项目所属区域和网络环境相符的Endpoint,建议不要手动输入。

启动参数

在系统的命令行执行窗口,可以通过指定一系列参数快速执行命令,命令使用方法如下。

Usage: odpscmd [OPTION]...
where options include:
    --help                                  (-h)for help
    --config=<config_file>                  specify another config file
    --project=<prj_name>                    use project
    --endpoint=<http://host:port>           set endpoint
    -k <n>                                  will skip begining queries and start from specified position
    -r <n>                                  set retry times
    -f <"file_path;">                       execute command in file
    -e <"command;[command;]...">            execute command, include sql command

启动参数说明如下。

命令

说明

命令示例

--help-h

获取MaxCompute客户端的全部命令帮助信息。

odpscmd --help

--config

指定配置文件odps_config.ini的路径。默认配置文件的路径是odpscmd_public/conf/odps_config.ini

odpscmd --config=D:/odpscmd/conf/odps_config.ini

--project

指定访问的MaxCompute项目名称。

odpscmd --project=doc_test

--endpoint

指定连接MaxCompute服务的Endpoint信息。更多Endpoint信息,请参见Endpoint

odpscmd --endpoint=http://service.cn-shanghai.maxcompute.aliyun.com/api

-k

运行从指定位置开始的语句。当n≤0时,从第一条语句开始执行。每条语句以分号(;)分隔。

忽略前两条语句,直接从第三条语句开始执行。odpscmd -k 3 -e "drop table table_name;create table table_name (dummy string);insert overwrite table table_name select count(*) from table_name;"

-r

设置作业运行失败时的重试次数。

odpscmd -r 2 -e "select * from sale_detail;select * from table_test;"

-f

指定读取的文件。

  1. 准备本地脚本文件script.txt,假设存放在D盘,文件内容如下。

    drop table if exists test_table_mj;
    create table test_table_mj (id string, name string);
    drop table test_table_mj;
  2. 在系统命令行窗口,切换到MaxCompute客户端安装路径下的bin目录,运行如下命令。

    ..\odpscmd\bin>odpscmd -f D:/script.txt;

-e

指定执行的命令。

odpscmd -e "select * from sale_detail;"

Shell(或Windows命令行)执行窗口,用户可能需要使用odpscmd -e <SQL语句>执行得到的动态返回值,Shell的变量会获取这个动态返回值,然后在Shell中执行后续作业。此场景需要返回值不包含运行信息、表头等额外信息。为便于Shell调用,需要配置odps_config.ini文件中的use_instance_tunnel参数值为false,关闭Instance Tunnel服务。然后执行set odps.sql.select.output.format={"needHeader":false,"fieldDelim":" "}; 命令,关闭表头显示。

例如表noheader中有一列三行数据,为1、2、3。执行如下命令,将计算结果重定向到stdout到目标句柄,计算结果仅包含具体数据,不包含其他额外信息:

--Windows命令行执行窗口运行命令如下。
...\odpscmd\bin>odpscmd -e "set odps.sql.select.output.format={""needHeader"":false,""fieldDelim"":"" ""};select * from noheader;" >D:\test.txt
--返回结果会保存在D:\test.txt中。

--Shell执行窗口运行命令如下。
/Users/.../odpscmd/bin/odpscmd -e "set odps.sql.select.output.format={\"needHeader\":false,\"fieldDelim\":\"\"};select * from noheader;" >/Users/A/temp/test.txt 
--返回结果会保存在/Users/A/temp/test.txt中。
--返回结果如下。
1
2
3

版本更新记录

MaxCompute客户端近期版本的更新说明如下,详细信息请单击对应版本链接获取。

更多MaxCompute客户端版本及相关功能更新说明,请参见GitHub

版本

变更类型

描述

v0.52.3-public

新功能

支持使用STS令牌作为临时安全凭证。

缺陷修复

Apache Arrow库版本更新,修复Arrow库依赖的兼容性问题。

v0.52.2-public

新功能

新增跳过进度配置选项。添加skip_progress配置参数以控制MCQA 2.0作业的进度报告。

功能增强

  • 改进的MCQA V2支持:增强命令以更好地处理MCQA V2模式。

  • 增强compact命令并支持使用特定compact ID。

v0.51.2-public

缺陷修复

升级依赖关系以清除CVE漏洞。

v0.51.1-public

新功能

增强的外部卷创建加速:为外部卷下载添加加速选项。

功能增强

重构DescribeTableCommandShowPartitionsCommandShowTablesCommand命令以更好地处理外部项目V2。

v0.51.0-public

新功能

  • Quota缓存机制:实现本地文件系统配额信息缓存以提升性能。

  • 增强的compact 命令: compact操作新增局部阈值选项、强制模式以及参数验证优化。

  • SQL 优化调优命令:引入新的TUNE命令分析和优化SQL查询计划、实现调优算法以评估多个候选执行计划,新增调优历史和报告功能。

功能增强

  • 增强MCQA 2.0的会话管理和配额加载。

  • 网络超时配置:重新实现网络超时配置参数(network_read_timeoutnetwork_connect_timeout),并集成超时设置与REST客户端配置。

v0.50.0-public

新功能

  • 支持提交MCQA 2.0作业。

  • 使用UseQuotaCommand指定交互式Quota组。

v0.48.0-public

新功能

  • odps-sdk版本从0.47.0-public升级至0.48.6-public,包含的增强和修复参阅 odps-sdk 变更日志

  • DESC EXTENDED 命令增加展示数据脱敏信息。

缺陷修复

MCQA模式能够更准确地识别fallback行为,避免重复展示logview。

v0.47.0-public

新功能

  • 新增http命令,支持以当前用户身份快速发起HTTP请求。

  • 保持会话变量:新增 --keep-session-variables 启动参数。开启后,use [project] 命令将不会清除已设置的Flag,比如 SET a=b,在不同项目间切换时将保持这些设置。

功能增强

  • 读取命令支持新类型:read命令支持TIMESTAMP_NTZJSON数据类型。

  • Tunnel命令升级:

    • TUNNEL UPLOAD/DOWNLOAD命令新增-qn标志,用于指定Tunnel QuotaName。

    • TUNNEL UPLOAD命令新增-dfp标志,用于设置上传DATETIME类型文本的格式。

  • HistoryCommand支持 Grep:HistoryCommand增加grep查询功能,提高搜索能力。

  • 项目删除语法:为了与控制台一致的语法对齐,现在支持使用DROP project,与DELETE project并行使用。

  • Setproject命令优化:支持更长的值字符串,支持设置如JSON等复杂类型值 。

v0.46.5-public

新功能

Tunnel 相关操作支持JSON数据类型。

v0.46.4-public

新功能

  • 数据操作的UPSERT功能:通过Tunnel实现UPSERT操作,新增DshipUpdate类及RESUME_UPSERT_ID常量,支持数据更新与操作恢复功能。

  • 改进SQL执行的时区管理,支持使用SET odps.sql.timezone=UTC;设置SQL执行的时区。

  • 增强的安全配置命令:改进安全配置的处理。

  • 改进的命令解析和验证:重构SetCommand,使其具备更好的解析能力,从而实现更好的命令匹配。

功能增强

增强的表描述存储层信息:扩展DescribeTableCommand以显示更详细的存储层信息。

v0.45.1-public

新功能

  • 存储层信息显示:增强DescribeTableCommand以显示分区表和非分区表的存储层信息。

  • 新增存储层名称和分区最后修改时间的显示,并显示分区表中每个存储层的存储大小信息。

v0.45.0-public

新功能

  • MCQA附加会话超时配置:添加attach_session_timeout配置参数以控制MCQA会话附加超时。

  • SetCommand中增强的模式验证:设置默认模式时,改进模式存在性验证以及对无效模式名称的错误处理。

功能增强

  • 带附加超时支持的SessionUtils:在会话构建器配置中添加attachTimeout参数,增强带可配置超时值的会话管理。

  • 改进dship命令功能:增强命令功能,更好地解析和执行日期时间处理。

  • 改进TopInstanceCommand:增强命令解析和选项处理。

v0.43.2-public

新功能

  • 支持创建External Volume。

  • Show命令支持查询当前MaxCompute项目中所有内建函数、或符合某规则的内建函数的信息。

v0.40.10-public

缺陷修复

删除Log4j依赖。

v0.40.8-public

新功能

支持项目按Schema存储。更多信息请参见Schema操作

v0.37.5-public

新功能

支持复杂数据类型通过Tunnel上传、下载。

v0.37.4-public

功能增强

  • 优化命令对应的帮助信息。

  • desc extended partition命令支持返回更多分区属性信息。

v0.36.0-public

新功能

支持创建External Project连接DLF(Data Lake Formation),实现湖仓一体功能。更多湖仓一体信息,请参见MaxCompute湖仓一体概述

缺陷修复

修复下载TIMESTAMP类型数据时,纳秒(nano)部分处理不正确的问题。