PAI提供的公共数据集来自官方的开源数据集,存在阿里云的公共读取存储中。您可以直接注册这些PAI的公开数据集,并且无需在自己的数据存储中创建副本,进而用于后续的数据处理及建模。本文介绍PAI公共数据集的详细内容及下载方法。
背景信息
CIFAR-10图像数据集
- train文件夹:包含5万张图片,作为训练集。
- test文件夹:包含1万张图片,作为测试集。
- predict文件夹:少许图片作为预测集。
- 数据集地址
- 华东1(杭州):
oss://pai-vision-data-hz2.oss-cn-hangzhou.aliyuncs.com/data/cifar10/qince_data/
- 华东2(上海):
oss://pai-vision-data-sh.oss-cn-shanghai.aliyuncs.com/data/cifar10/qince_data/
- 华北2(北京):
oss://pai-vision-data-bj.oss-cn-beijing.aliyuncs.com/data/cifar10/qince_data/
- 华南1(深圳):
oss://pai-vision-data-sz.oss-cn-shenzhen.aliyuncs.com/data/cifar10/qince_data/
- 华东1(杭州):
- 下载方法
使用OSS的命令行工具ossutil将数据集下载至本地,示例如下:
- 下载并配置ossutil,详情请参见下载和安装。
- 使用如下命令将数据集下载到本地。关于ossutil的命令详情,请参见命令行工具ossutil快速入门。
./ossutilmac64 cp -r oss://pai-vision-data-hz2/data/cifar10/qince_data /Users/tongxin/Desktop
PASCAL VOC 2007图像数据集
PASCAL VOC 2007是一个广泛应用于目标检测和图像分割的开源数据集,Faster-RCNN、Yolo等都以此为基准。该数据集的内容包括Annotations标注文件集合、ImageSets各类型文件名集合、JPEGImages图片集合、SegmentationClass分割图集合、SegmentationObject实例分割图集合。
- 数据集地址
- 华东1(杭州):
oss://pai-vision-data-hz2.oss-cn-hangzhou.aliyuncs.com/data/VOCdevkit/VOC2007/
- 华东2(上海):
oss://pai-vision-data-sh.oss-cn-shanghai.aliyuncs.com/data/VOCdevkit/VOC2007/
- 华北2(北京):
oss://pai-vision-data-bj.oss-cn-beijing.aliyuncs.com/data/VOCdevkit/VOC2007/
- 华南1(深圳):
oss://pai-vision-data-sz.oss-cn-shenzhen.aliyuncs.com/data/VOCdevkit/VOC2007/
- 华东1(杭州):
- 下载方法
使用OSS的命令行工具ossutil将数据集下载至本地,示例如下:
- 下载并配置ossutil,详情请参见下载和安装。
- 使用如下命令将数据集下载到本地。关于ossutil的命令详情,请参见命令行工具ossutil快速入门。
./ossutilmac64 cp -r oss://pai-vision-data-hz2/data/VOCdevkit/VOC2007 /Users/tongxin/Desktop
内容风控领域的图像分类数据集
内容风控领域的图像分类数据集主要应用于PAI官方提供的图像分类内容风控解决方案的Demo场景中。数据集分为训练集和测试集。通过内容风控解决方案,您可以基于自己特定的业务场景,快速搭建数据准备、模型构建、模型部署一整套完整的端到端流程,从而快速构建您自己的风控系统。PAI官方提供的内容风控解决方案请参见图像内容风控解决方案。
- 数据集地址
华东2(上海):
oss://pai-vision-data-sh.oss-cn-shanghai.aliyuncs.com/data/image_inspection_cls/
- 下载方法
使用OSS的命令行工具ossutil将数据集下载至本地,示例如下:
- 下载并配置ossutil,详情请参见下载和安装。
- 使用如下命令将数据集下载到本地。关于ossutil的命令详情,请参见命令行工具ossutil快速入门。
./ossutilmac64 cp -r oss://pai-vision-data-sh/data/image_inspection_cls /Users/tongxin/Desktop
内容风控领域的目标检测数据集
内容风控领域的目标检测数据集主要应用于PAI官方提供的目标检测内容风控解决方案的Demo场景中。数据集分为训练集、评估集和测试集。通过内容风控解决方案,您可以基于自己特定的业务场景,快速搭建数据准备、模型构建、模型部署一整套完整的端到端流程,从而快速构建您自己的风控系统。PAI官方提供的内容风控解决方案请参见图像内容风控解决方案。
- 数据集地址
- 华东1(杭州):
oss://pai-vision-data-hz2.oss-cn-hangzhou.aliyuncs.com/data/image_inspection_det/
- 华东2(上海):
oss://pai-vision-data-sh.oss-cn-shanghai.aliyuncs.com/data/image_inspection_det/
- 华北2(北京):
oss://pai-vision-data-bj.oss-cn-beijing.aliyuncs.com/data/image_inspection_det/
- 华南1(深圳):
oss://pai-vision-data-sz.oss-cn-shenzhen.aliyuncs.com/data/image_inspection_det/
- 华东1(杭州):
- 下载方法
使用OSS的命令行工具ossutil将数据集下载至本地,示例如下:
- 下载并配置ossutil,详情请参见下载和安装。
- 使用如下命令将数据集下载到本地。关于ossutil的命令详情,请参见命令行工具ossutil快速入门。
./ossutilmac64 cp -r oss://pai-vision-data-hz2/data/image_inspection_det /Users/tongxin/Desktop
Deepfashion2图像数据集
Deepfashion2是一个广泛应用于图像匹配及图像检索领域的开源时尚服饰图像数据集。PAI在Deepfashion2开源数据集中进行了精选,提供了其中总计31万余张时尚服饰图像。通过基于PAI的相似图像匹配和图像检索解决方案,您可以基于自己特定的业务场景,快速搭建数据准备、模型构建、模型部署一整套完整的端到端流程,从而快速构建自己的图像检索系统。PAI官方提供的相似图像匹配和图像检索解决方案请参见相似图像匹配与图像检索解决方案。
- 数据集地址
- 华东1(杭州):
oss://pai-vision-data-hz2.oss-cn-hangzhou.aliyuncs.com/data/deepfashion2/train_crop/
- 华东2(上海):
oss://pai-vision-data-sh.oss-cn-shanghai.aliyuncs.com/data/deepfashion2/train_crop/
- 华北2(北京):
oss://pai-vision-data-bj.oss-cn-beijing.aliyuncs.com/data/deepfashion2/train_crop/
- 华南1(深圳):
oss://pai-vision-data-sz.oss-cn-shenzhen.aliyuncs.com/data/deepfashion2/train_crop/
- 华东1(杭州):
- 下载方法
使用OSS的命令行工具ossutil将数据集下载至本地,示例如下:
- 下载并配置ossutil,详情请参见下载和安装。
- 使用如下命令将数据集下载到本地。关于ossutil的命令详情,请参见命令行工具ossutil快速入门。
./ossutilmac64 cp -r oss://pai-vision-data-hz2/data/deepfashion2/train_crop /Users/tongxin/Desktop