本作业程序使用 python 编写,目的是统计一个日志文件中 “INFO”,”WARN”,”ERROR”,”DEBUG” 出现的次数。
该作业包含3个任务:split, count 和 merge。
- split 任务会把日志文件分成 3 份。
- count 任务会统计每份日志文件中“INFO”,”WARN”,”ERROR”,”DEBUG”出现的次数(count 任务需要配置 InstanceCount 为 3,表示同时启动 3 个 count 任务)。
- merge 任务会把 count 的结果统一合并起来。
DAG图例:
A) 上传数据文件到 OSS
下载本示例所需的数据:log-count-data.txt
将 log-count-data.txt 上传到:
oss://your-bucket/log-count/log-count-data.txt
- your-bucket 表示对应的 bucket,本示例假设 region 为:cn-shenzhen。
- 上传数据到OSS,请参考 开始使用OSS 。
B) 准备任务程序
本示例的作业程序使用 python 编写, 下载本示例所需程序:log-count.tar.gz
解压到如下目录:
mkdir log-count && tar -xvf log-count.tar.gz -C log-count
解压后的目录结构如下:
log-count
|-- conf.py # 配置
|-- split.py # split 任务程序
|-- count.py # count 任务程序
|-- merge.py # merge 任务程序
说明 不需要改动程序
提交作业
提交作业可以使用 python sdk 或者 java sdk, 或者控制台提交,本例子使用命令行工具提交。
A) 编写作业配置
在 log-count 的父目录下创建一个文件:job.cfg(此文件要与 log-count 目录平级), 内容如下:
[DEFAULT]
job_name=log-count
description=demo
pack=./log-count/
deps=split->count;count->merge
[split]
cmd=python split.py
[count]
cmd=python count.py
nodes=3
[merge]
cmd=python merge.py
这里描述了一个多任务的作业,任务的执行顺序是 split->count->merge。
关于 cfg 格式的描述,请参考 多任务支持 。
B) 提交命令
bcs sub --file job.cfg -r oss://your-bucket/log-count/:/home/input -w oss://your-bucket/log-count/:/home/output --docker localhost:5000/myubuntu@oss://your-bucket/dockers/
- -r 和 -w 表示只读挂载和可写映射,具体请参考 OSS 挂载 。
- 同一个OSS路径,可以挂载到不同的本地目录。但是不同的OSS路径是不能挂载到同一个本地目录的,一定要注意。
- —docker 表示使用 docker,格式:image_name@storage_oss_path, 会自动将 docker 名称和仓库地址配置到环境变量。
- 注意:
bcs 使用的 region,一定要和 docker 所在 region 一致。
4. 查看作业运行状态
bcs j # 获取作业列表, 每次获取作业列表后都会将列表缓存下来,一般第一个即是你刚才提交的作业
bcs ch 1 # 查看缓存中第一个作业的状态
bcs log 1 # 查看缓存中第一个作业日志
5. 查看结果
Job 结束后,可以使用以下命令查看存在 OSS 中的结果。
bcs oss cat oss://your-bucket/log-count/merge_result.txt
内容应该如下:
{"INFO": 2460, "WARN": 2448, "DEBUG": 2509, "ERROR": 2583}