PAI提供的公共数据集来自官方的开源数据集,存在阿里云的公共读取存储中。您可以直接注册这些PAI的公开数据集,并且无需在自己的数据存储中创建副本,进而用于后续的数据处理及建模。本文介绍PAI公共数据集的详细内容及下载方法。

背景信息

CIFAR-10图像数据集

CIFAR-10是广泛应于深度学习图像分类领域的开源数据集。该数据集包含6万张图片,且分属10个不同的类别( airplane、automobile、bird、cat、deer、dog、frog、horse、ship、truck),所有图片分为三个文件夹存储:
  • train文件夹:包含5万张图片,作为训练集。
  • test文件夹:包含1万张图片,作为测试集。
  • predict文件夹:少许图片作为预测集。
CIFAR-10图像数据集的存储地址和下载方法如下:
  • 数据集地址
    • 华东1(杭州):oss://pai-vision-data-hz2.oss-cn-hangzhou.aliyuncs.com/data/cifar10/qince_data/
    • 华东2(上海):oss://pai-vision-data-sh.oss-cn-shanghai.aliyuncs.com/data/cifar10/qince_data/
    • 华北2(北京):oss://pai-vision-data-bj.oss-cn-beijing.aliyuncs.com/data/cifar10/qince_data/
    • 华南1(深圳):oss://pai-vision-data-sz.oss-cn-shenzhen.aliyuncs.com/data/cifar10/qince_data/
  • 下载方法

    使用OSS的命令行工具ossutil将数据集下载至本地,示例如下:

    1. 下载并配置ossutil,详情请参见下载和安装
    2. 以华东1(杭州)地域为例,使用如下命令将数据集下载到本地。关于ossutil的命令详情,请参见命令行工具ossutil快速入门
      ./ossutilmac64 cp -r oss://pai-vision-data-hz2/data/cifar10/qince_data /Users/tongxin/Desktop

PASCAL VOC 2007图像数据集

PASCAL VOC 2007是一个广泛应用于目标检测和图像分割的开源数据集,Faster-RCNN、Yolo等都以此为基准。该数据集的内容包括Annotations标注文件集合、ImageSets各类型文件名集合、JPEGImages图片集合、SegmentationClass分割图集合、SegmentationObject实例分割图集合。

PASCAL VOC 2007图像数据集的存储地址和下载方法如下:
  • 数据集地址
    • 华东1(杭州):oss://pai-vision-data-hz2.oss-cn-hangzhou.aliyuncs.com/data/VOCdevkit/VOC2007/
    • 华东2(上海):oss://pai-vision-data-sh.oss-cn-shanghai.aliyuncs.com/data/VOCdevkit/VOC2007/
    • 华北2(北京):oss://pai-vision-data-bj.oss-cn-beijing.aliyuncs.com/data/VOCdevkit/VOC2007/
    • 华南1(深圳):oss://pai-vision-data-sz.oss-cn-shenzhen.aliyuncs.com/data/VOCdevkit/VOC2007/
  • 下载方法

    使用OSS的命令行工具ossutil将数据集下载至本地,示例如下:

    1. 下载并配置ossutil,详情请参见下载和安装
    2. 以华东1(杭州)地域为例,使用如下命令将数据集下载到本地。关于ossutil的命令详情,请参见命令行工具ossutil快速入门
      ./ossutilmac64 cp -r oss://pai-vision-data-hz2/data/VOCdevkit/VOC2007 /Users/tongxin/Desktop

内容风控领域的图像分类数据集

内容风控领域的图像分类数据集主要应用于PAI官方提供的图像分类内容风控解决方案的Demo场景中。数据集分为训练集和测试集。通过内容风控解决方案,您可以基于自己特定的业务场景,快速搭建数据准备、模型构建、模型部署一整套完整的端到端流程,从而快速构建您自己的风控系统。PAI官方提供的内容风控解决方案请参见图像内容风控解决方案

内容风控领域的图像分类数据集的存储地址和下载方法如下:
  • 数据集地址
    • 华东1(杭州):oss://pai-vision-data-hz2.oss-cn-hangzhou.aliyuncs.com/data/image_inspection_cls/
    • 华东2(上海):oss://pai-vision-data-sh.oss-cn-shanghai.aliyuncs.com/data/image_inspection_cls/
    • 华北2(北京):oss://pai-vision-data-bj.oss-cn-beijing.aliyuncs.com/data/image_inspection_cls/
    • 华南1(深圳):oss://pai-vision-data-sz.oss-cn-shenzhen.aliyuncs.com/data/image_inspection_cls/
  • 下载方法
    使用OSS的命令行工具ossutil将数据集下载至本地,示例如下:
    1. 下载并配置ossutil,详情请参见下载和安装
    2. 以华东1(杭州)地域为例,使用如下命令将数据集下载到本地。关于ossutil的命令详情,请参见命令行工具ossutil快速入门
      ./ossutilmac64 cp -r oss://pai-vision-data-hz2/data/image_inspection_cls /Users/tongxin/Desktop

内容风控领域的目标检测数据集

内容风控领域的目标检测数据集主要应用于PAI官方提供的目标检测内容风控解决方案的Demo场景中。数据集分为训练集、评估集和测试集。通过内容风控解决方案,您可以基于自己特定的业务场景,快速搭建数据准备、模型构建、模型部署一整套完整的端到端流程,从而快速构建您自己的风控系统。PAI官方提供的内容风控解决方案请参见图像内容风控解决方案

内容风控领域的目标检测数据集的存储地址和下载方法如下:
  • 数据集地址
    • 华东1(杭州):oss://pai-vision-data-hz2.oss-cn-hangzhou.aliyuncs.com/data/image_inspection_det/
    • 华东2(上海):oss://pai-vision-data-sh.oss-cn-shanghai.aliyuncs.com/data/image_inspection_det/
    • 华北2(北京):oss://pai-vision-data-bj.oss-cn-beijing.aliyuncs.com/data/image_inspection_det/
    • 华南1(深圳):oss://pai-vision-data-sz.oss-cn-shenzhen.aliyuncs.com/data/image_inspection_det/
  • 下载方法
    使用OSS的命令行工具ossutil将数据集下载至本地,示例如下:
    1. 下载并配置ossutil,详情请参见下载和安装
    2. 以华东1(杭州)地域为例,使用如下命令将数据集下载到本地。关于ossutil的命令详情,请参见命令行工具ossutil快速入门
      ./ossutilmac64 cp -r oss://pai-vision-data-hz2/data/image_inspection_det /Users/tongxin/Desktop

Deepfashion2图像数据集

Deepfashion2是一个广泛应用于图像匹配及图像检索领域的开源时尚服饰图像数据集。PAI在Deepfashion2开源数据集中进行了精选,提供了其中总计31万余张时尚服饰图像。通过基于PAI的相似图像匹配和图像检索解决方案,您可以基于自己特定的业务场景,快速搭建数据准备、模型构建、模型部署一整套完整的端到端流程,从而快速构建自己的图像检索系统。PAI官方提供的相似图像匹配和图像检索解决方案请参见相似图像匹配与图像检索解决方案

Deepfashion2图像数据集的存储地址和下载方法如下:
  • 数据集地址
    • 华东1(杭州):oss://pai-vision-data-hz2.oss-cn-hangzhou.aliyuncs.com/data/deepfashion2/train_crop/
    • 华东2(上海):oss://pai-vision-data-sh.oss-cn-shanghai.aliyuncs.com/data/deepfashion2/train_crop/
    • 华北2(北京):oss://pai-vision-data-bj.oss-cn-beijing.aliyuncs.com/data/deepfashion2/train_crop/
    • 华南1(深圳):oss://pai-vision-data-sz.oss-cn-shenzhen.aliyuncs.com/data/deepfashion2/train_crop/
  • 下载方法
    使用OSS的命令行工具ossutil将数据集下载至本地,示例如下:
    1. 下载并配置ossutil,详情请参见下载和安装
    2. 以华东1(杭州)地域为例,使用如下命令将数据集下载到本地。关于ossutil的命令详情,请参见命令行工具ossutil快速入门
      ./ossutilmac64 cp -r oss://pai-vision-data-hz2/data/deepfashion2/train_crop /Users/tongxin/Desktop