全部产品
阿里云办公

下载文件

更新时间:2018-08-07 15:32:57

OSS Python SDK提供了丰富的文件下载方式:

下载过程中,您还可以通过进度条功能查看下载进度。

流式下载

以下代码用于流式下载文件:

  1. # -*- coding: utf-8 -*-
  2. import oss2
  3. # 阿里云主账号AccessKey拥有所有API的访问权限,风险很高。强烈建议您创建并使用RAM账号进行API访问或日常运维,请登录 https://ram.console.aliyun.com 创建RAM账号。
  4. auth = oss2.Auth('<yourAccessKeyId>', '<yourAccessKeySecret>')
  5. # Endpoint以杭州为例,其它Region请按实际情况填写。
  6. bucket = oss2.Bucket(auth, 'http://oss-cn-hangzhou.aliyuncs.com', '<yourBucketName>')
  7. # bucket.get_object的返回值是一个类文件对象(File-Like Object),同时也是一个可迭代对象(Iterable)。
  8. object_stream = bucket.get_object('<yourObjectName>')
  9. print(object_stream.read())

以下代码用于将数据下载到本地文件中:

  1. import shutil
  2. # object_stream是类文件对象,您可以使用shutil.copyfileobj方法,将数据下载到本地文件中。
  3. object_stream = bucket.get_object('<yourObjectName>')
  4. with open('<yourLocalFile>', 'wb') as local_fileobj:
  5. shutil.copyfileobj(object_stream, local_fileobj)

以下代码用于流式拷贝到另一个文件中:

  1. # object_stream是一个可迭代对象,您可以将它流式拷贝到另一个文件中。
  2. object_stream = bucket.get_object('<yourObjectName>')
  3. bucket.put_object('<yourBackupObjectName>', object_stream)

下载到本地文件

以下代码用于将指定OSS文件下载到本地文件中:

  1. # -*- coding: utf-8 -*-
  2. import oss2
  3. # 阿里云主账号AccessKey拥有所有API的访问权限,风险很高。强烈建议您创建并使用RAM账号进行API访问或日常运维,请登录 https://ram.console.aliyun.com 创建RAM账号。
  4. auth = oss2.Auth('<yourAccessKeyId>', '<yourAccessKeySecret>')
  5. # Endpoint以杭州为例,其它Region请按实际情况填写。
  6. bucket = oss2.Bucket(auth, 'http://oss-cn-hangzhou.aliyuncs.com', '<yourBucketName>')
  7. # 下载OSS文件到本地文件。如果指定的本地文件存在会覆盖,不存在则新建。
  8. bucket.get_object_to_file('<yourObjectName>', '<yourLocalFile>')

范围下载

如果仅需要文件中的部分数据,您可以使用范围下载,下载指定范围内的数据,代码如下:

  1. # -*- coding: utf-8 -*-
  2. import oss2
  3. # 阿里云主账号AccessKey拥有所有API的访问权限,风险很高。强烈建议您创建并使用RAM账号进行API访问或日常运维,请登录 https://ram.console.aliyun.com 创建RAM账号。
  4. auth = oss2.Auth('<yourAccessKeyId>', '<yourAccessKeySecret>')
  5. # Endpoint以杭州为例,其它Region请按实际情况填写。
  6. bucket = oss2.Bucket(auth, 'http://oss-cn-hangzhou.aliyuncs.com', '<yourBucketName>')
  7. # 获取0~99字节范围内的数据,包括0和99,共100个字节的数据。如果指定的范围无效(比如开始或结束位置的指定值为负数,或指定值大于文件大小),则下载整个文件。
  8. object_stream = bucket.get_object('<yourObjectName>', byte_range=(0, 99))

断点续传下载

当下载大文件时,如果网络不稳定或者程序异常退出,会导致下载失败,甚至重试多次仍无法完成下载。为此OSS提供了断点续传下载功能。

断点续传下载的流程如下:

  1. 在本地创建一个临时文件,文件名由原文件名加上一个随机的后缀组成。
  2. 通过指定HTTP请求的Range头,按照范围读取OSS文件,并写入到临时文件里相应的位置。
  3. 下载完成之后,把临时文件重命名为目标文件。如目标文件已存在会覆盖,不存在则新建。

您可以通过oss2.resumable_download方法断点续传下载,该方法中包含以下参数:

参数 描述 是否必需 默认值
bucket 存储空间名称。
key OSS文件名称。
filename 本地文件。OSS文件将下载到该文件中。
store 记录本地分片下载结果的文件。下载过程中,断点信息会保存在此文件中,如果下载中断了,再次下载时会根据文件中记录的点继续下载。 HOME目录下建立的.py-oss-download目录。
multipart_threshold 文件长度大于该值时,则使用断点续传下载。 10MB
part_size 分片大小。 自动计算
progress_callback 下载进度回调函数。
num_threads 并发下载的线程数。 1

以下代码用于断点续传下载:

  1. # -*- coding: utf-8 -*-
  2. import oss2
  3. # 阿里云主账号AccessKey拥有所有API的访问权限,风险很高。强烈建议您创建并使用RAM账号进行API访问或日常运维,请登录 https://ram.console.aliyun.com 创建RAM账号。
  4. auth = oss2.Auth('<yourAccessKeyId>', '<yourAccessKeySecret>')
  5. # Endpoint以杭州为例,其它Region请按实际情况填写。
  6. bucket = oss2.Bucket(auth, 'http://oss-cn-hangzhou.aliyuncs.com', '<yourBucketName>')
  7. oss2.resumable_download(bucket, '<yourObjectName>', '<yourLocalFile>')

Python SDK 2.1.0以上版本支持设置可选参数进行断点续传下载,代码如下:

  1. # -*- coding: utf-8 -*-
  2. import oss2
  3. # 阿里云主账号AccessKey拥有所有API的访问权限,风险很高。强烈建议您创建并使用RAM账号进行API访问或日常运维,请登录 https://ram.console.aliyun.com 创建RAM账号。
  4. auth = oss2.Auth('<yourAccessKeyId>', '<yourAccessKeySecret>')
  5. # Endpoint以杭州为例,其它Region请按实际情况填写。
  6. bucket = oss2.Bucket(auth, 'http://oss-cn-hangzhou.aliyuncs.com', '<yourBucketName>')
  7. # 请将oss2.defaults.connection_pool_size设成大于或等于线程数,并将part_size参数设成大于或等于oss2.defaults.multiget_part_size。
  8. oss2.resumable_download(bucket, '<yourObjectName>', '<yourLocalFile>',
  9. store=oss2.ResumableDownloadStore(root='/tmp'),
  10. multiget_threshold=20*1024*1024,
  11. part_size=10*1024*1024,
  12. num_threads=3)

说明:避免多个程序(线程)同时调用该方法下载同一个源文件到同一个目标文件中。因为断点信息会在本地磁盘上互相覆盖,且临时文件名可能会冲突。

进度条

进度条用于指示上传或下载的进度。下面的代码以bucket.get_object_to_file方法为例,介绍如何使用进度条。

  1. # -*- coding: utf-8 -*-
  2. from __future__ import print_function
  3. import os, sys
  4. import oss2
  5. # 阿里云主账号AccessKey拥有所有API的访问权限,风险很高。强烈建议您创建并使用RAM账号进行API访问或日常运维,请登录 https://ram.console.aliyun.com 创建RAM账号。
  6. auth = oss2.Auth('<yourAccessKeyId>', '<yourAccessKeySecret>')
  7. # Endpoint以杭州为例,其它Region请按实际情况填写。
  8. bucket = oss2.Bucket(auth, 'http://oss-cn-hangzhou.aliyuncs.com', '<yourBucketName>')
  9. # 当HTTP响应头部没有Content-Length时,total_bytes的值为None。
  10. def percentage(consumed_bytes, total_bytes):
  11. if total_bytes:
  12. rate = int(100 * (float(consumed_bytes) / float(total_bytes)))
  13. print('\r{0}% '.format(rate), end='')
  14. sys.stdout.flush()
  15. # progress_callback是可选参数,用于实现进度条功能。
  16. bucket.get_object_to_file('<yourObjectName>', '<yourLocalFile>', progress_callback=percentage)

进度条的完整示例代码请参见GitHub

本文导读目录