Processor是包含在线预测逻辑的程序包。PAI-EAS已将一些常用的Processor预置为官方Processor,您可以直接使用该官方Processor部署常规模型,节省开发在线预测逻辑的成本。
Processor名称 | Processor Code(仅用于EASCMD部署) | 文档 | |
---|---|---|---|
CPU版 | GPU版 | ||
PMML | pmml | 无 | PMML Processor |
TensorFlow1.12 | tensorflow_cpu_1.12 | tensorflow_gpu_1.12 | TensorFlow1.12 Processor |
TensorFlow1.14 | tensorflow_cpu_1.14 | tensorflow_gpu_1.14 | TensorFlow1.14 Processor |
TensorFlow1.15 | tensorflow_cpu_1.15 | tensorflow_gpu_1.15 | TensorFlow1.15 Processor(内置PAI-Blade敏捷版优化引擎) |
TensorFlow2.3 | tensorflow_cpu_2.3 | 无 | TensorFlow2.3 Processor |
PyTorch1.6 | pytorch_cpu_1.6 | pytorch_gpu_1.6 | PyTorch1.6 Processor(内置PAI-Blade敏捷版优化引擎) |
Caffe | caffe_cpu | caffe_gpu | Caffe Processor |
PS算法 | parameter_sever | 无 | 无 |
Alink | alink_pai_processor | 无 | 无 |
xNN | xnn_cpu | 无 | 无 |
EasyVision | easy_vision_cpu_tf1.12_torch151 | easy_vision_gpu_tf1.12_torch151 | EasyVision Processor |
EasyNLP | easy_nlp_cpu_tf1.12 | easy_nlp_gpu_tf1.12 | EasyNLP Processor |
Processor | 无 | easy_nlp_with_transformer_gpu | EasyNLP_with_Transformer_GPU Processor |
Blade | blade_cpu | blade_cuda10.0_beta | 无 |
MediaFlow | 无 | mediaflow | MediaFlow Processor |
Triton | 无 | triton | Triton Processor |
PMML Processor
- 将PMML类型的模型文件加载为一个服务。
- 处理对模型服务进行调用的请求。
- 根据模型计算请求结果,并将其返回至客户端。
DataType | 默认填充值 |
---|---|
BOOLEAN | false |
DOUBLE | 0.0 |
FLOAT | 0.0 |
INT | 0 |
STRING | “” |
- 控制台上传
选择Processor种类为PMML,详情请参见控制台上传部署。
- 本地客户端部署
在服务配置文件service.json中,将processor字段配置为相应的Processor Code,即pmml,示例如下。
{ "processor": "pmml", "generate_token": "true", "model_path": "http://xxxxx/lr.pmml", "name": "eas_lr_example", "metadata": { "instance": 1, "cpu": 1 #自动为每个CPU配置4 GB内存,称为1 Quota。 } }
- PAI-DSW部署
类似于本地客户端部署,编写服务配置文件service.json,详情请参见PAI-DSW部署。
TensorFlow1.12 Processor
- 控制台上传
选择Processor种类为TensorFlow1.12,详情请参见控制台上传部署。
- 本地客户端部署
在服务配置文件service.json中,将processor字段配置为相应的Processor Code,即tensorflow_cpu_1.12或tensorflow_gpu_1.12(需要根据部署所用的资源进行选择,如果processor与资源不匹配,则会导致部署报错),示例如下。
{ "name": "tf_serving_test", "generate_token": "true", "model_path": "http://xxxxx/savedmodel_example.zip", "processor": "tensorflow_cpu_1.12", "metadata": { "instance": 1, "cpu": 1, "gpu": 0, "memory": 2000 } }
- PAI-DSW部署
类似于本地客户端部署,编写服务配置文件service.json,详情请参见PAI-DSW部署。
TensorFlow1.14 Processor
- 控制台上传
选择Processor种类为TensorFlow1.14,详情请参见控制台上传部署。
- 本地客户端部署
在服务配置文件service.json中,将processor字段配置为相应的Processor Code,即tensorflow_cpu_1.14或tensorflow_gpu_1.14(需要根据部署所用的资源进行选择,如果processor与资源不匹配,则会导致部署报错),示例如下。
{ "name": "tf_serving_test", "generate_token": "true", "model_path": "http://xxxxx/savedmodel_example.zip", "processor": "tensorflow_cpu_1.14", "metadata": { "instance": 1, "cpu": 1, "gpu": 0, "memory": 2000 } }
- PAI-DSW部署
类似于本地客户端部署,编写服务配置文件service.json,详情请参见PAI-DSW部署。
TensorFlow1.15 Processor(内置PAI-Blade敏捷版优化引擎)
- 官方通用Processor不支持TensorFlow自定义OP。
- 该Processor内置了PAI-Blade敏捷版优化引擎,您可以使用它部署PAI-Blade敏捷版优化后的TensorFlow模型。
- 控制台上传
选择Processor种类为TensorFlow1.15,详情请参见控制台上传部署。
- 本地客户端部署
在服务配置文件service.json中,将processor字段配置为相应的Processor Code,即tensorflow_cpu_1.15或tensorflow_gpu_1.15(需要根据部署所用的资源进行选择,如果processor与资源不匹配,则会导致部署报错),示例如下。
{ "name": "tf_serving_test", "generate_token": "true", "model_path": "http://xxxxx/savedmodel_example.zip", "processor": "tensorflow_cpu_1.15", "metadata": { "instance": 1, "cpu": 1, "gpu": 0, "memory": 2000 } }
- PAI-DSW部署
类似于本地客户端部署,编写服务配置文件service.json,详情请参见PAI-DSW部署。关于服务配置文件中的参数解释请参见创建服务。
TensorFlow2.3 Processor
- 控制台上传
选择Processor种类为TensorFlow2.3,详情请参见控制台上传部署。
- 本地客户端部署
在服务配置文件service.json中,将processor字段配置为相应的Processor Code,即tensorflow_cpu_2.3,示例如下。
{ "name": "tf_serving_test", "generate_token": "true", "model_path": "http://xxxxx/savedmodel_example.zip", "processor": "tensorflow_cpu_2.3", "metadata": { "instance": 1, "cpu": 1, "gpu": 0, "memory": 2000 } }
- PAI-DSW部署
类似于本地客户端部署,编写服务配置文件service.json,详情请参见PAI-DSW部署。
PyTorch1.6 Processor(内置PAI-Blade敏捷版优化引擎)
- 官方通用Processor不支持PyTorch扩展、不支持非Tensor类型的模型输入和输出。
- 该Processor内置了PAI-Blade敏捷版优化引擎,您可以使用它部署PAI-Blade敏捷版优化后的PyTorch模型。
- 控制台上传
选择Processor种类为PyTorch1.6,详情请参见控制台上传部署。
- 本地客户端部署
在服务配置文件service.json中,将processor字段配置为相应的Processor Code,即pytorch_cpu_1.6或pytorch_gpu_1.6(需要根据部署所用的资源进行选择,如果processor与资源不匹配,则会导致部署报错),示例如下。
{ "name": "pytorch_serving_test", "generate_token": "true", "model_path": "http://xxxxx/torchscript_model.pt", "processor": "pytorch_gpu_1.6", "metadata": { "instance": 1, "cpu": 1, "gpu": 1, "cuda": "10.0", "memory": 2000 } }
- PAI-DSW部署
类似于本地客户端部署,编写服务配置文件service.json,详情请参见PAI-DSW部署。关于服务配置文件中的参数解释请参见创建服务。
Caffe Processor
- 控制台上传
选择Processor种类为Caffe,详情请参见控制台上传部署。
- 本地客户端部署
在服务配置文件service.json中,将processor字段配置为相应的Processor Code,即caffe_cpu或caffe_gpu(需要根据部署所用的资源进行选择,如果processor与资源不匹配,则会导致部署报错),示例如下。
{ "name": "caffe_serving_test", "generate_token": "true", "model_path": "http://xxxxx/caffe_model.zip", "processor": "caffe_cpu", "model_config": { "model": "deploy.prototxt", "weight": "bvlc_reference_caffenet.caffemodel" }, "metadata": { "instance": 1, "cpu": 1, "gpu": 0, "memory": 2000 } }
- PAI-DSW部署
类似于本地客户端部署,编写服务配置文件service.json,详情请参见PAI-DSW部署。
EasyNLP Processor
PAI-EAS提供的EasyNLP Processor可以加载EasyTransfer框架训练得到的深度学习NLP模型。
- 控制台上传
选择Processor种类为EasyNLP,详情请参见控制台上传部署。
- 本地客户端部署
在服务配置文件service.json中,将processor字段配置为相应的Processor Code,即easy_nlp_cpu_tf1.12或easy_nlp_gpu_tf1.12(需要根据部署所用的资源进行选择,如果processor与资源不匹配,则会导致部署报错),在model_config的type字段指定训练时所使用的模型类型,示例如下。其他参数的详细解释请参见创建服务:
- 使用GPU部署的配置
{ "name": "ev_app_demo", "generate_token": "true", "model_path": "http://xxxxx/your_model.zip", "processor": "easy_nlp_gpu_tf1.12", "model_config": "{\"type\":\"text_classify_bert\"}", "metadata": { "resource": "your_resource_name", "cuda": "9.0", "instance": 1, "memory": 4000, "gpu": 1, "cpu": 4, "rpc.worker_threads" : 5 } }
- 使用CPU部署的配置
{ "name": "easynlp_serving_test", "generate_token": "true", "model_path": "http://xxxxx/your_model.zip", "processor": "easy_nlp_cpu_tf1.12", "model_config": "{\"type\":\"text_classify_bert\"}", "metadata": { "resource": "your_resource_name", "instance": 1, "gpu": 0, "cpu": 4, "rpc.worker_threads" : 5 } }
- 使用GPU部署的配置
EasyNLP_with_Transformer_GPU Processor
PAI-EAS提供的EasyNLP_with_Transformer_GPU Processor可以加载EasyTexMiner框架训练得到的Transformer模型。
- 控制台上传
选择Processor种类为EasyNLP (GPU),详情请参见控制台上传部署。
- 本地客户端部署
在服务配置文件service.json中,将processor字段配置为相应的Processor Code,即easy_nlp_with_transformer_gpu,在model_config的type字段指定训练时所使用的模型类型,示例如下。其他参数的详细解释请参见创建服务。
{ "name": "news_title_zh", "generate_token": "true", "processor": "easy_nlp_with_transformer_gpu", "model_path": "path-to-model/model_best_from_zqkd.tar.gz", "model_config": "{\"type\":\"news_title_generation\"}", "metadata": { "eas.handlers.disable_failure_handler": true, "resource": "eas-r-6krxn2f5pjt5mt****", "cpu": 4, "instance": 1, "cuda": "9.0", "memory": 8192, "gpu_memory": 8 } }
EasyVision Processor
PAI-EAS提供的EasyVision Processor可以加载EasyVision框架训练得到的深度学习模型。
- 控制台上传
选择Processor种类为EasyVision,详情请参见控制台上传部署。
- 本地客户端部署
在服务配置文件service.json中,将processor字段配置为相应的Processor Code,即easy_vision_cpu_tf1.12_torch151或easy_vision_gpu_tf1.12_torch151(需要根据部署所用的资源进行选择,如果processor与资源不匹配,则会导致部署报错),在model_config的type字段指定训练时所使用的模型类型,示例如下。其他参数的详细解释请参见创建服务:
- 使用GPU部署的配置
{ "name": "ev_app_demo", "processor": "easy_vision_gpu_tf1.12_torch151", "model_path": "oss://path/to/your/model", "model_config": "{\"type\":\"classifier\"}", "metadata": { "resource": "your_resource_name", "cuda": "9.0", "instance": 1, "memory": 4000, "gpu": 1, "cpu": 4, "rpc.worker_threads" : 5 } }
- 使用CPU部署的配置
{ "name": "ev_app_cpu_demo", "processor": "easy_vision_cpu_tf1.12_torch151", "model_path": "oss://path/to/your/model", "model_config": "{\"type\":\"classifier\"}", "metadata": { "resource": "your_resource_name", "instance": 1, "memory": 4000, "gpu": 0, "cpu": 4, "rpc.worker_threads" : 5 } }
- 使用GPU部署的配置
MediaFlow Processor
PAI-EAS 提供的MediaFlow Processor是通用的编排引擎,可以进行视频、音频及图像分析处理。
- 控制台上传
选择Processor种类为MediaFlow,详情请参见控制台上传部署。
- 本地客户端部署
在服务配置文件service.json中,将processor字段配置为相应的Processor Code,即mediaflow。此外,使用MediaFlow Processor部署模型,还需要增加如下特有字段,其他字段说明请参见创建服务:
- graph_pool_size:图池的数量。
- worker_threads:调度线程的数量。
- 部署视频分类模型的配置。
{ "model_entry": "video_classification/video_classification_ext.js", "name": "video_classification", "model_path": "oss://path/to/your/model", "generate_token": "true", "processor": "mediaflow", "model_config" : { "graph_pool_size":8, "worker_threads":16 }, "metadata": { "eas.handlers.disable_failure_handler" :true, "resource": "your_resource_name", "rpc.worker_threads": 30, "rpc.enable_jemalloc": true, "rpc.keepalive": 500000, "cpu": 4, "instance": 1, "cuda": "9.0", "rpc.max_batch_size": 64, "memory": 10000, "gpu": 1 } }
- 部署语音识别(ASR)模型的配置。
{ "model_entry": "asr/video_asr_ext.js", "name": "video_asr", "model_path": "oss://path/to/your/model", "generate_token": "true", "processor": "mediaflow", "model_config" : { "graph_pool_size":8, "worker_threads":16 }, "metadata": { "eas.handlers.disable_failure_handler" :true, "resource": "your_resource_name", "rpc.worker_threads": 30, "rpc.enable_jemalloc": true, "rpc.keepalive": 500000, "cpu": 4, "instance": 1, "cuda": "9.0", "rpc.max_batch_size": 64, "memory": 10000, "gpu": 1 } }
Triton Processor
- 支持多种开源框架的部署,包括TensorFlow、PyTorch、ONNX Runtime及TensorRT等,同时也支持您提供的自定义服务后端(backend)。
- 支持多个模型同时运行在GPU上,以提高GPU设备的利用率。
- 支持HTTP/gRPC通信协议,提供二进制格式扩展以压缩发送请求的大小。
- 支持Dynamic Batching功能,提升服务吞吐。
- Triton Processor目前仅在华东2(上海)公测,其他地域暂不支持。
- Triton服务部署使用的模型都必须存放在OSS中。因此,您需要提前开通OSS,并将自己的模型相关文件上传到OSS中。关于如何上传文件到OSS,请参见上传文件。
- 使用Triton Processor部署模型服务
您只能通过客户端工具eascmd部署Triton模型服务。关于如何使用客户端工具eascmd部署模型服务,请参见创建服务。部署模型服务时,使用的服务描述配置文件service.json中,需要将processor字段配置为相应的Processor Code,即triton。此外,由于Triton需要从OSS中获取模型,因此还需要用户配置OSS的相关参数。service.json的示例如下。
部署Triton模型服务需要配置的特有参数的含义如下表所示,其他通用参数含义请参见service.json中的参数详解。{ "name": "triton_test", "processor": "triton", "processor_params": [ "--model-repository=oss://triton-model-repo/models", "--allow-http=true", ], "metadata": { "instance": 1, "cpu": 4, "gpu": 1, "memory": 10000, "resource":"<your resource id>" } }
参数 描述 processor_params 服务启动时传递给Triton Server的参数。对于不支持的参数将被自动过滤,支持传递给Triton server的参数集合如下面的表 1所示。其中model-repository为必填参数,其他可选参数请参见main.cc。 oss_endpoint OSS的Endpoint。如果不传递该参数,则系统会自动使用当前PAI-EAS服务所在地域的OSS服务。如果需要使用跨地域的OSS服务,则必须指定该参数。该参数的取值请参见访问域名和数据中心。 metadata resource 用于部署模型服务的PAI-EAS专属资源组ID。通过Triton Processor部署模型服务时,使用的资源必须为PAI-EAS的专属资源组。关于如何创建PAI-EAS专属资源组,请参见专属资源组。 表 1. 支持传递给Triton server的参数集合 参数 是否必选 描述 model-repository 是 路径需要指定为OSS路径,系统不支持直接使用Bucket根目录作为model-repository,需要指定Bucket下的某个子目录才可以。 例如,
oss://triton-model-repo/models
,其中triton-model-repo为Bucket名称,models为Bucket下的一个子目录。log-verbose 否 参数详情请参见main.cc。 log-info 否 log-warning 否 log-error 否 exit-on-error 否 strict-model-config 否 strict-readiness 否 allow-http 否 http-thread-count 否 pinned-memory-pool-byte-size 否 cuda-memory-pool-byte-size 否 min-supported-compute-capability 否 buffer-manager-thread-count 否 backend-config 否 - 使用Triton原生Client调用PAI-EAS Triton Processor服务
使用Python Client发出请求,您需要先通过如下命令安装Triton官方提供的Client。
下载测试图片到当前目录,命令如下。pip3 install nvidia-pyindex pip3 install tritonclient[all]
以下示例中,使用Python Client向Triton Processor服务发送请求,该请求的数据格式是二进制格式。wget http://pai-blade.oss-cn-zhangjiakou.aliyuncs.com/doc-assets/cat.png
import numpy as np import time from PIL import Image import tritonclient.http as httpclient from tritonclient.utils import InferenceServerException URL = "<servcice url>" # 将<servcice url>替换为服务的访问地址。 HEADERS = {"Authorization": "<service token>"} # 将<service token>替换为服务的访问Token。 input_img = httpclient.InferInput("input", [1, 299, 299, 3], "FP32") img = Image.open('./cat.png').resize((299, 299)) img = np.asarray(img).astype('float32') / 255.0 input_img.set_data_from_numpy(img.reshape([1, 299, 299, 3]), binary_data=True) output = httpclient.InferRequestedOutput( "InceptionV3/Predictions/Softmax", binary_data=True ) triton_client = httpclient.InferenceServerClient(url=URL, verbose=False) start = time.time() for i in range(10): results = triton_client.infer( "inception_graphdef", inputs=[input_img], outputs=[output], headers=HEADERS ) res_body = results.get_response() elapsed_ms = (time.time() - start) * 1000 if i == 0: print("model name: ", res_body["model_name"]) print("model version: ", res_body["model_version"]) print("output name: ", res_body["outputs"][0]["name"]) print("output shape: ", res_body["outputs"][0]["shape"]) print("[{}] Avg rt(ms): {:.2f}".format(i, elapsed_ms)) start = time.time()