通过logstash-input-maxcompute插件,您可以读取MaxCompute离线表的数据到其他数据源中。
前提条件
您已完成以下操作:
使用logstash-input-maxcompute插件
满足以上前提条件后,您可以通过配置文件管理管道的方式创建管道任务。在创建管道任务时,按照以下说明配置Pipeline参数,保存并部署后,即可触发阿里云Logstash读取MaxCompute的数据到目标数据源中。
配置脚本如下,相关参数说明请参见参数说明。
input {
maxcompute {
access_id => "Your accessId"
access_key => "Your accessKey"
endpoint => "maxcompute service endpoint"
project_name => "Your project"
table_name => "Your table name"
partition => "pt='p1',dt='d1'"
thread_num => 1
dirty_data_file => "/ssd/1/<Logstash实例ID>/logstash/data/XXXXX.txt"
}
}
output {
stdout {
codec => rubydebug
}
}
目前阿里云Logstash只支持同一专有网络VPC(Virtual Private Cloud)下的数据传输,如果源端数据在公网环境下,请参见配置NAT公网数据传输,通过公网访问Logstash。
logstash-input-maxcompute插件会全量同步数据到目标数据源中。
参数说明
logstash-input-maxcompute插件支持的参数如下。
参数 | 类型 | 是否必选 | 说明 |
| string | 是 | MaxCompute对外服务的访问域名,详情请参见各地域Endpoint对照表(外网连接方式)。 |
| string | 是 | 阿里云账号的AccessKey ID。 |
| string | 是 | 阿里云账号的Access Key Secret。 |
| string | 是 | MaxCompute的项目名称。 |
| string | 是 | MaxCompute的表名称。 |
| string | 是 | 分区字段。分区表按照字段来定义,例如: |
| number | 是 | 线程数,默认为1。 |
| number | 否 | 重试的间隔,单位为秒。 |
| string | 是 | 指定文件目录,用于记录处理失败的日志。 说明 文件路径请指定为 |