Python下载到本地文件

更新时间:2025-03-07 06:13:12

本文介绍如何通过简单下载方法将存储空间(Bucket)中的文件(Object)下载到本地,此方法操作简便,适合快速将云端存储的文件下载到本地。

注意事项

  • 本文示例代码以华东1(杭州)的地域IDcn-hangzhou为例,默认使用外网Endpoint,如果您希望通过与OSS同地域的其他阿里云产品访问OSS,请使用内网Endpoint。关于OSS支持的RegionEndpoint的对应关系,请参见OSS地域和访问域名

  • 要将文件下载到本地,您必须有oss:GetObject权限。具体操作,请参见RAM用户授权自定义的权限策略

方法定义

get_object(request: GetObjectRequest, **kwargs) → GetObjectResult

请求参数列表

参数名

类型

说明

参数名

类型

说明

request

GetObjectRequest

设置请求参数,具体请参见GetObjectRequest

返回值列表

类型

说明

类型

说明

GetObjectResult

返回值,具体请参见GetObjectResult

关于简单下载方法的完整定义,请参见get_object

示例代码

您可以使用以下代码将存储空间中的文件下载到本地。

import argparse
import alibabacloud_oss_v2 as oss
import os

# 创建命令行参数解析器
parser = argparse.ArgumentParser(description="get object sample")

# 添加命令行参数 --region,表示存储空间所在的区域,必需参数
parser.add_argument('--region', help='The region in which the bucket is located.', required=True)
# 添加命令行参数 --bucket,表示存储空间的名称,必需参数
parser.add_argument('--bucket', help='The name of the bucket.', required=True)
# 添加命令行参数 --endpoint,表示其他服务可用来访问OSS的域名,非必需参数
parser.add_argument('--endpoint', help='The domain names that other services can use to access OSS')
# 添加命令行参数 --key,表示对象的名称,必需参数
parser.add_argument('--key', help='The name of the object.', required=True)

def main():
    # 解析命令行参数
    args = parser.parse_args()

    # 从环境变量中加载凭证信息,用于身份验证
    credentials_provider = oss.credentials.EnvironmentVariableCredentialsProvider()

    # 加载SDK的默认配置,并设置凭证提供者
    cfg = oss.config.load_default()
    cfg.credentials_provider = credentials_provider

    # 设置配置中的区域信息
    cfg.region = args.region

    # 如果提供了endpoint参数,则设置配置中的endpoint
    if args.endpoint is not None:
        cfg.endpoint = args.endpoint

    # 使用配置好的信息创建OSS客户端
    client = oss.Client(cfg)

    # 执行获取对象的请求,指定存储空间名称和对象名称
    result = client.get_object(oss.GetObjectRequest(
        bucket=args.bucket,  # 指定存储空间名称
        key=args.key,  # 指定对象键名
    ))

    # 输出获取对象的结果信息,用于检查请求是否成功
    print(f'status code: {result.status_code},'
          f' request id: {result.request_id},'
          f' content length: {result.content_length},'
          f' content range: {result.content_range},'
          f' content type: {result.content_type},'
          f' etag: {result.etag},'
          f' last modified: {result.last_modified},'
          f' content md5: {result.content_md5},'
          f' cache control: {result.cache_control},'
          f' content disposition: {result.content_disposition},'
          f' content encoding: {result.content_encoding},'
          f' expires: {result.expires},'
          f' hash crc64: {result.hash_crc64},'
          f' storage class: {result.storage_class},'
          f' object type: {result.object_type},'
          f' version id: {result.version_id},'
          f' tagging count: {result.tagging_count},'
          f' server side encryption: {result.server_side_encryption},'
          f' server side data encryption: {result.server_side_data_encryption},'
          f' next append position: {result.next_append_position},'
          f' expiration: {result.expiration},'
          f' restore: {result.restore},'
          f' process status: {result.process_status},'
          f' delete marker: {result.delete_marker},'
    )

    # ========== 方式1:完整读取 ==========
    with result.body as body_stream:
        data = body_stream.read()
        print(f"文件读取完成,数据长度:{len(data)} bytes")

        path = "./get-object-sample.txt"
        with open(path, 'wb') as f:
            f.write(data)
        print(f"文件下载完成,保存至路径:{path}")

    # # ========== 方式2:分块读取 ==========
    # with result.body as body_stream:
    #     chunk_path = "./get-object-sample-chunks.txt"
    #     total_size = 0

    #     with open(chunk_path, 'wb') as f:
    #         # 使用256KB块大小(可根据需要调整block_size参数)
    #         for chunk in body_stream.iter_bytes(block_size=256 * 1024):
    #             f.write(chunk)
    #             total_size += len(chunk)
    #             print(f"已接收数据块:{len(chunk)} bytes | 累计:{total_size} bytes")

    #     print(f"文件下载完成,保存至路径:{chunk_path}")

# 当此脚本被直接运行时,调用main函数
if __name__ == "__main__":
    main()  # 脚本入口,当文件被直接运行时调用main函数

常见使用场景

根据限定条件下载

当从Bucket中下载单个文件(Object)时,您可以指定基于文件最后修改时间或ETag(文件内容标识符)的条件限制。只有当这些条件得到满足时才会执行下载操作;如果不满足,则会返回错误并且不会触发下载。利用限定条件下载不仅可以减少不必要的网络传输和资源消耗,还能提高下载效率。

OSS支持的限定条件如下:

说明
  • If-Modified-SinceIf-Unmodified-Since可以同时存在。If-MatchIf-None-Match也可以同时存在。

  • 您可以通过ossClient.getObjectMeta方法获取ETag。

参数

描述

IfModifiedSince

如果指定的时间早于实际修改时间,则正常传输文件,否则返回错误(304 Not modified)。

IfUnmodifiedSince

如果指定的时间等于或者晚于文件实际修改时间,则正常传输文件,否则返回错误(412 Precondition failed)。

IfMatch

如果指定的ETagOSS文件的ETag匹配,则正常传输文件,否则返回错误(412 Precondition failed)。

IfNoneMatch

如果指定的ETagOSS文件的ETag不匹配,则正常传输文件,否则返回错误(304 Not modified)。

以下示例代码展示了如何使用限定条件下载。

import argparse
import alibabacloud_oss_v2 as oss
from datetime import datetime, timezone

# 创建一个命令行参数解析器,并描述脚本用途:获取对象并保存到文件示例
parser = argparse.ArgumentParser(description="get object to file sample")

# 添加命令行参数 --region,表示存储空间所在的区域,必需参数
parser.add_argument('--region', help='The region in which the bucket is located.', required=True)
# 添加命令行参数 --bucket,表示要获取对象的存储空间名称,必需参数
parser.add_argument('--bucket', help='The name of the bucket.', required=True)
# 添加命令行参数 --endpoint,表示其他服务可用来访问OSS的域名,非必需参数
parser.add_argument('--endpoint', help='The domain names that other services can use to access OSS')
# 添加命令行参数 --key,表示对象(文件)在OSS中的键名,必需参数
parser.add_argument('--key', help='The name of the object.', required=True)
# 添加命令行参数 --file_path,表示下载文件的本地路径,必需参数
parser.add_argument('--file_path', help='The path of the file to save the downloaded content.', required=True)

def main():
    # 解析命令行提供的参数,获取用户输入的值
    args = parser.parse_args()

    # 从环境变量中加载访问OSS所需的认证信息,用于身份验证
    credentials_provider = oss.credentials.EnvironmentVariableCredentialsProvider()

    # 使用SDK的默认配置创建配置对象,并设置认证提供者
    cfg = oss.config.load_default()
    cfg.credentials_provider = credentials_provider
    
    # 设置配置对象的区域属性,根据用户提供的命令行参数
    cfg.region = args.region

    # 如果提供了自定义endpoint,则更新配置对象中的endpoint属性
    if args.endpoint is not None:
        cfg.endpoint = args.endpoint

    # 使用上述配置初始化OSS客户端,准备与OSS交互
    client = oss.Client(cfg)

    # 定义 if_modified_since 时间
    # 只有在此时间之后被修改的对象才会被返回
    if_modified_since = datetime(2024, 10, 1, 12, 0, 0, tzinfo=timezone.utc)

    # 假设ETag为DA5223EFCD7E0353BE08866700000000,则填写的ETag与Object的ETag值相等时,将满足IfMatch的限定条件,并触发下载行为。
    etag = "\"DA5223EFCD7E0353BE08866700000000\""

    # 执行获取对象并保存到本地文件的请求
    result = client.get_object_to_file(
        oss.GetObjectRequest(
            bucket=args.bucket,  # 指定存储空间名称
            key=args.key,        # 指定对象键名
            if_modified_since=if_modified_since,  # 只有在指定时间之后被修改的对象才会被返回
            if_match=etag,       # 只有 ETag 匹配的对象才会被返回
        ),
        args.file_path  # 指定下载文件的本地路径
    )

    # 输出获取对象的结果信息,包括状态码、请求ID等
    print(f'status code: {result.status_code},'
          f' request id: {result.request_id},'
          f' content length: {result.content_length},'
          f' content range: {result.content_range},'
          f' content type: {result.content_type},'
          f' etag: {result.etag},'
          f' last modified: {result.last_modified},'
          f' content md5: {result.content_md5},'
          f' cache control: {result.cache_control},'
          f' content disposition: {result.content_disposition},'
          f' content encoding: {result.content_encoding},'
          f' expires: {result.expires},'
          f' hash crc64: {result.hash_crc64},'
          f' storage class: {result.storage_class},'
          f' object type: {result.object_type},'
          f' version id: {result.version_id},'
          f' tagging count: {result.tagging_count},'
          f' server side encryption: {result.server_side_encryption},'
          f' server side data encryption: {result.server_side_data_encryption},'
          f' next append position: {result.next_append_position},'
          f' expiration: {result.expiration},'
          f' restore: {result.restore},'
          f' process status: {result.process_status},'
          f' delete marker: {result.delete_marker},'
          f' server time: {result.headers.get("x-oss-server-time")},'
    )

# 当此脚本被直接执行时,调用main函数开始处理逻辑
if __name__ == "__main__":
    main()  # 脚本入口点,控制程序流程从这里开始

打印下载文件的进度条

当您在下载文件时,可以使用进度条实时了解下载进度,避免因为等待时间过长而感到不安或怀疑任务是否卡住。

以下示例代码展示了如何使用进度条查看下载文件的进度。

import argparse
import alibabacloud_oss_v2 as oss

# 创建一个命令行参数解析器,并描述脚本用途:获取对象示例
parser = argparse.ArgumentParser(description="get object sample")

# 添加命令行参数 --region,表示存储空间所在的区域,必需参数
parser.add_argument('--region', help='The region in which the bucket is located.', required=True)
# 添加命令行参数 --bucket,表示要获取对象的存储空间名称,必需参数
parser.add_argument('--bucket', help='The name of the bucket.', required=True)
# 添加命令行参数 --endpoint,表示其他服务可用来访问OSS的域名,非必需参数
parser.add_argument('--endpoint', help='The domain names that other services can use to access OSS')
# 添加命令行参数 --key,表示对象(文件)在OSS中的键名,必需参数
parser.add_argument('--key', help='The name of the object.', required=True)

def main():
    # 解析命令行提供的参数,获取用户输入的值
    args = parser.parse_args()

    # 从环境变量中加载访问OSS所需的认证信息,用于身份验证
    credentials_provider = oss.credentials.EnvironmentVariableCredentialsProvider()

    # 使用SDK的默认配置创建配置对象,并设置认证提供者
    cfg = oss.config.load_default()
    cfg.credentials_provider = credentials_provider
    
    # 设置配置对象的区域属性,根据用户提供的命令行参数
    cfg.region = args.region

    # 如果提供了自定义endpoint,则更新配置对象中的endpoint属性
    if args.endpoint is not None:
        cfg.endpoint = args.endpoint

    # 使用上述配置初始化OSS客户端,准备与OSS交互
    client = oss.Client(cfg)

    # 执行获取对象的请求,指定存储空间名称、对象名称及进度回调函数
    result = client.get_object(
        oss.GetObjectRequest(
            bucket=args.bucket,  # 指定存储空间名称
            key=args.key,        # 指定对象键名
        ),
        progress_fn=lambda bytes_transferred: print(f'{bytes_transferred} bytes transferred')  # 设置进度回调函数
    )

    # 输出获取对象的结果信息,包括状态码、请求ID等
    print(f'status code: {result.status_code},'
          f' request id: {result.request_id},'
          f' content length: {result.content_length},'
          f' content range: {result.content_range},'
          f' content type: {result.content_type},'
          f' etag: {result.etag},'
          f' last modified: {result.last_modified},'
          f' content md5: {result.content_md5},'
          f' cache control: {result.cache_control},'
          f' content disposition: {result.content_disposition},'
          f' content encoding: {result.content_encoding},'
          f' expires: {result.expires},'
          f' hash crc64: {result.hash_crc64},'
          f' storage class: {result.storage_class},'
          f' object type: {result.object_type},'
          f' version id: {result.version_id},'
          f' tagging count: {result.tagging_count},'
          f' server side encryption: {result.server_side_encryption},'
          f' server side data encryption: {result.server_side_data_encryption},'
          f' sse kms key id: {result.sse_kms_key_id},'
          f' next append position: {result.next_append_position},'
          f' expiration: {result.expiration},'
          f' restore: {result.restore},'
          f' process status: {result.process_status},'
          f' delete marker: {result.delete_marker},'
    )

# 当此脚本被直接执行时,调用main函数开始处理逻辑
if __name__ == "__main__":
    main()  # 脚本入口点,控制程序流程从这里开始

相关文档

  • 本页导读 (1)
  • 注意事项
  • 方法定义
  • 常见使用场景
  • 根据限定条件下载
  • 打印下载文件的进度条
  • 相关文档