全部产品
存储与CDN 数据库 安全 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网 钉钉智能硬件
批量计算

操作手册

更新时间:2017-06-07 13:26:11

1. 渲管系统结构

1.1 渲管与各云产品的详细关系

rm_c

1.2 渲管系统内部结构

p0

  1. render manager: 一个web应用,基于flask框架开发,处理用户的各种操作
  2. render master:使用python编写的一个背景进程,负责与BatchCompute交互
  3. 本地数据库:存放各种信息,以及render managerrender master之间传递的消息。

2. 渲管的部署

在阿里云云市场里有已经安装了渲管的ECS镜像免费售卖,在启动ECS实例时将镜像指定为镜像市场中的rendermanager,启动即可使用。

2.1 部署流程

建议安装环境:Ubuntu 14.04 64位

  1. # 安装flask
  2. sudo apt-get install python-flask -y
  3. # 安装uwsgi
  4. sudo apt-get install uwsgi uwsgi-plugin-python -y
  5. # 安装nginx
  6. sudo apt-get install nginx y
  7. # 修改nginx配置,在http模块里添加新的server
  8. #
  9. # server {
  10. # listen 1314; #listen port
  11. # server_name localchost;
  12. # location / {
  13. # include uwsgi_params;
  14. # uwsgi_pass 0.0.0.0:8818;#this must be same app_config.xml
  15. # }
  16. # }
  17. #
  18. vi /etc/nginx/nginx.conf
  19. # 启动nginx或重启
  20. nginx
  21. # 获取最新版渲管
  22. wget http://openrm.oss-cn-qingdao.aliyuncs.com/render_manager_release/latest/rm.tar.gz
  23. # 解压
  24. tar xf rm.tar.gz
  25. # x.x.x为版本号
  26. cd rm-x.x.x
  27. # 指定安装目录部署
  28. python deploy.py /root/rm_install/
  29. # 启动
  30. cd /root/rm_install/rm_install_s && python rm_cmd.py start
  31. # 登陆渲管http://installed_machine_ip:1314/rm/login
  32. # 初始账号: rm_admin 密码: rm_admin@123
  33. # 若监听在公网,建议采用https

3. 渲管系统升级

p43页面右上角的版本信息中可以查看是否有可升级的新版本,第一次使用渲管前,建议升级到最新版本后再使用渲管(每次只能升级到下一版本,所以升级后请查看是否已是最新版本)。

4. 渲管系统配置

p44配置页面里有渲管系统的各种系统设置。第一次使用渲管时,必须先填入SECURITY_ID,SECURITY_KEY,OSS_BUCKET这三个值,不然渲管无法使用。

  • SECURITY_ID和SECURITY_KEY即阿里云账号的AccessKeys信息,可以在阿里云官网控制台创建。
  • OSS_BUCKET可以在OSS的控制台创建,用于存储渲管自身的worker包已经渲染数据。渲管默认使用青岛(华北1)区域,如果使用其他区域的BatchCompute,请修改配置中的OSS_HOST(OSS_BUCKET必须与OSS_HOST属于同一个region)与BATCHCOMPUTE_REGION,每个region的OSS_HOST也可以工单咨询获取。p45其他配置项可以看页面上的说明。

5. OSS数据上传

一定要在提交渲染作业前将渲染用到的数据传上OSS,在计算节点启动后再上传的数据将不能在计算节点中访问到。

由于OSS页面控制台上传数据有大小限制,所以上传数据建议使用OSS的命令行工具(类linux系统)、windows客户端或者MAC客户端。这里有更多OSS工具

6. 计算节点镜像制作

渲染客户需要自己制作计算节点镜像。具体制作的流程如下:

  1. 在ECS控制台,点击创建实例进入购买页面(购买链接
  2. 选择按量付费类型和所需的region(与要使用的batchcompute的region相同),可用区随机即可ecs_region
  3. 选择一个已有的安全组或创建一个新安全组
  4. 按需选择实例规则(提交渲染作业时可重新指定实例规格)
  5. 带宽选择按量付费并将峰值适当调大(目前流入ECS实例的流量不收钱,流出收费)network
  6. 镜像选择镜像市场中运行环境类目中的batchcompute基础镜像(搜索batchcompute即可看到,根据所需的操作系统选择,基础镜像中已内置了batchcompute的基础组件)image_select
  7. 系统盘默认40G(可以按需选择合适的系统盘大小)。
  8. 设置管理员(windows是Administrator,linux是root)密码,并记住密码pp1
  9. 确认购买并开通pp2
  10. 开通成功后,进入管理控制台pp3

  11. 等ECS实例状态为运行中后,可以通过实例的公网IP远程登录(windows账号为Administrator,linux为root,密码即创建实例时设置的密码),登录方法有:

    • Linux类操作系统可以ssh
    • Windows操作系统可以使用远程桌面(在运行中输入mstsc)pp4m1m2
    • 所有类型的实例都可以通过实例页面上的连接管理终端选项登入ECS实例。
  12. 远程登录后,在实例中安装渲染软件以及各种插件,将测试用的渲染数据拖进ecs实例中,并用渲染命令行测试(window在运行里输入cmd可以调出命令行窗口),确保可进行命令行渲染。
  13. 将ecs实例关机,待实例状态为停止后,在实例信息页面点击创建自定义镜像选项。image_make
  14. 等待镜像完成度为100%时,将镜像共享给账号:1190847048572539。p35
  15. 在不需要该ecs实例时,可以选择立即释放该实例,因为不释放将会产生持续的费用。pp5

7. 计算节点镜像管理

7.1 添加计算节点镜像

在镜像管理页面可以添加计算节点镜像ID

7.2 给计算节点镜像配置渲染软件信息

在添加完计算节点镜像ID后,在镜像信息页面可以点击添加软件并配置软件信息。image_config在配置软件信息时,需要填入渲染软件的名称,渲染文件的后缀(用于识别渲染文件)以及执行代码。执行代码(要求python语法)是一段会在渲管worker中执行的代码,render_cmd变量即渲染时的命令行,命令行应根据实际安装的渲染软件来填写,比如渲染软件的路径,以及一些参数。渲管中的模板只是个示例,实际使用需要微调。render_cmd渲管已经预定义了一些变量和函数,在执行代码中可以调用这些变量和函数,例如$CPU在执行期会被替换成实际的cpu核数,$START_FRAME在执行期会被替换成起始帧号。如果想增加自定义参数,可以选择添加参数,添加的自定义参数会需要在提交作业时填入。关于所有的可用变量可在软件配置页面点击查看。$OUTPUT_LOCAL_DIR这个变量即创建项目时配置的节点内临时输出路径,渲染的输出结果应该放在该路径下(大部分渲染器都支持在命令行中指定输出路径),在渲染结束后该目录下的数据会被传输到OSS。

8. 项目管理

8.1 项目创建

创建项目时需要指定OSS数据映射,计算节点镜像,虚拟机内的临时输出路径,OSS输出路径。

8.1.1 计算节点镜像

创建项目时选择的计算节点镜像(需要先在镜像管理页面添加计算节点镜像)是提交AutoCluster作业时使用的镜像,如果提交作业时指定了集群(在集群管理页面可以创建)则作业直接跑在所指定的集群中。

8.1.2 OSS数据映射

OSS数据映射(或者称OSS数据挂载),可以将OSS上的数据映射到计算节点的本地路径(windows是盘符),一个作业中的所有计算节点可以共享访问到相同的数据。OSS数据挂载有如下功能或限制:

  1. 映射的目的路径必须根据计算节点镜像实际的操作系统类型进行填写,否则会导致挂载失败,windows只能映射到盘符(例G:),linux必须是绝对路径。
  2. 可共享读取访问OSS上的数据。
  3. 不支持修改OSS上已存在的文件和文件夹名称。
  4. 选择WriteSupport后,支持本地(挂载路径下)文件和文件夹的创建,以及新建文件的修改。
  5. 挂载的本地路径里的改动只是本计算节点可见,不会同步到OSS。
  6. 在Windows系统中,在挂载时刻已存在的文件夹中创建的文件或文件夹将不支持删除操作,linux系统可以。
  7. 选择LockSupport后,将可以使用文件锁功能(只影响windows)。
  8. OSS数据挂载会有分布式cache(集群内),所以在大规模并发读取数据时性能较好(能达到10MB~30MB,200台并发,读取20G数据)。
  9. OSS路径必须以’/’结尾。
8.1.3 OSS输出目录与临时本地输出目录

渲染作业结束时,计算节点中的临时输出目录中的数据将会被传输到OSS输出目录中。临时输出路径格式必须与节点的操作系统类型对应,不然会出错。

8.2 提交渲染任务

p41选择目的集群和场景所在的OSS路径前缀后进入提交的详细页面,选中场景文件的上一级目录,可以被提交渲染的场景文件则会被列出,勾选想要渲染的文件,选择配置的渲染软件和起止帧,即可提交渲染作业。可指定节点数量,如果指定集群,并发数量上限是集群的节点数上限。填入的起止帧会均匀的分布在各个计算节点被渲染。p42任务结束后可以在OSS上查看输出结果,如果开启自动下载(配置页面设置),渲管会在任务结束后将OSS上的输出结果下载到渲管部署的机器上。

8.3 渲染日志

在节点列表页面,点击节点可以查看各种日志,渲管worker日志里都是渲管系统worker的日志,里面可以查看该计算节点中运行的实际渲染命令行。渲染器标准输出和渲染器标准输出里的日志就是渲染软件的输出日志。p47

9. 调试

新启动的渲管需要进行配置,并进行调试然后再提交大规模的渲染任务。配置完,应该先提交1帧测试任务,查看错误日志(渲管worker日志和渲染器标准输出)调整渲染软件配置(主要是修改渲染命令行),走通全流程并确认结果没有问题后才进行正式生产渲染。当作业失败的时候可以在作业信息中查看失败原因项。p46建议创建一个集群然后将作业提交到该集群进行调试(AutoCluster的作业需要启停计算节点,比较费时)

10. 集群管理

在集群管理页面可以创建自定义集群,需要选择所需的计算节点镜像ID,节点的实例类型(BatchCompute的不同·区域可能支持的实例类型和磁盘类型不同,详细可以提工单咨询),磁盘类型和磁盘大小(根据实际制作的计算节点镜像的磁盘大小选择,选择过小会导致无法启动计算节点)。创建好的集群可以动态调整节点数量,甚至调整数量到0。p48

本文导读目录