Python管理文件元数据

更新时间:2025-03-28 08:09:46

本文介绍如何使用OSS Python SDK设置和获取文件元数据。

注意事项

  • 本文示例代码以华东1(杭州)的地域IDcn-hangzhou为例,默认使用外网Endpoint,如果您希望通过与OSS同地域的其他阿里云产品访问OSS,请使用内网Endpoint。关于OSS支持的RegionEndpoint的对应关系,请参见OSS地域和访问域名

  • 本文以从环境变量读取访问凭证为例。如何配置访问凭证,请参见配置访问凭证

  • 要设置文件元数据,您必须具有oss:PutObject权限;要获取文件元数据,您必须具有oss:GetObject权限。具体操作,请参见RAM用户授权自定义的权限策略

上传文件时设置元数据

上传文件时设置元数据

以下代码使用上传文件(PutObject)为例设置元数据,包括设置文件过期时间、设置文件为公共读、设置自定义元数据来标识文件的用途或属性等。其他上传类对象接口都支持设置元数据,且设置方式与PutObject方法一致。

import argparse
import requests
import alibabacloud_oss_v2 as oss

from alibabacloud_oss_v2.models import (
    PutObjectRequest, GetObjectRequest, DeleteObjectRequest,
    ListObjectsRequest, PutBucketRequest, GetBucketAclRequest
    # 其他您需要的请求类...
)

# 创建命令行参数解析器
parser = argparse.ArgumentParser(description="put object sample")
# 添加命令行参数 --region,表示存储空间所在的区域,必需参数
parser.add_argument('--region', help='The region in which the bucket is located.', required=True)
# 添加命令行参数 --bucket,表示存储空间的名称,必需参数
parser.add_argument('--bucket', help='The name of the bucket.', required=True)
# 添加命令行参数 --endpoint,表示其他服务可用来访问OSS的域名,非必需参数
parser.add_argument('--endpoint', help='The domain names that other services can use to access OSS')
# 添加命令行参数 --key,表示对象的名称,必需参数
parser.add_argument('--key', help='The name of the object.', required=True)

def main():
    args = parser.parse_args()  # 解析命令行参数

    # 从环境变量中加载凭证信息,用于身份验证
    credentials_provider = oss.credentials.EnvironmentVariableCredentialsProvider()

    # 加载SDK的默认配置,并设置凭证提供者
    cfg = oss.config.load_default()
    cfg.credentials_provider = credentials_provider
    # 设置配置中的区域信息
    cfg.region = args.region
    # 如果提供了endpoint参数,则设置配置中的endpoint
    if args.endpoint is not None:
        cfg.endpoint = args.endpoint

    # 使用配置好的信息创建OSS客户端
    client = oss.Client(cfg)

    # 定义要上传的字符串内容
    text_string = "Hello, OSS!"
    data = text_string.encode('utf-8')  # 将字符串编码为UTF-8字节串

    # 执行上传对象的请求,指定存储空间名称、对象名称和数据内容
    result = client.put_object(oss.PutObjectRequest(
        bucket=args.bucket,
        key=args.key,
        body=data,
        metadata={
            'key1': 'value1',
            'key2': 'value2'
        }
    ))

    # 输出请求的结果状态码、请求ID、内容MD5、ETag、CRC64校验码和版本ID,用于检查请求是否成功
    print(f'status code: {result.status_code},'
          f' request id: {result.request_id},'
          f' content md5: {result.content_md5},'
          f' etag: {result.etag},'
          f' hash crc64: {result.hash_crc64},'
          f' version id: {result.version_id},'
    )

if __name__ == "__main__":
    main()  # 脚本入口,当文件被直接运行时调用main函数

获取文件元数据

使用HeadObject方法获取对象的所有元数据

您可以通过以下代码使用HeadObject方法获取指定Object的所有元数据。

import argparse
import alibabacloud_oss_v2 as oss

# 创建命令行参数解析器,并描述脚本用途:获取对象头部信息示例
parser = argparse.ArgumentParser(description="head object sample")

# 添加命令行参数 --region,表示存储空间所在的区域,必需参数
parser.add_argument('--region', help='The region in which the bucket is located.', required=True)
# 添加命令行参数 --bucket,表示存储空间的名称,必需参数
parser.add_argument('--bucket', help='The name of the bucket.', required=True)
# 添加命令行参数 --endpoint,表示其他服务可用来访问OSS的域名,非必需参数
parser.add_argument('--endpoint', help='The domain names that other services can use to access OSS')
# 添加命令行参数 --key,表示对象的名称,必需参数
parser.add_argument('--key', help='The name of the object.', required=True)

def main():
    # 解析命令行提供的参数,获取用户输入的值
    args = parser.parse_args()

    # 从环境变量中加载访问OSS所需的认证信息,用于身份验证
    credentials_provider = oss.credentials.EnvironmentVariableCredentialsProvider()

    # 使用SDK的默认配置创建配置对象,并设置认证提供者
    cfg = oss.config.load_default()
    cfg.credentials_provider = credentials_provider

    # 设置配置对象的区域属性,根据用户提供的命令行参数
    cfg.region = args.region

    # 如果提供了自定义endpoint,则更新配置对象中的endpoint属性
    if args.endpoint is not None:
        cfg.endpoint = args.endpoint

    # 使用上述配置初始化OSS客户端,准备与OSS交互
    client = oss.Client(cfg)

    # 发送请求以获取对象的头部信息
    result = client.head_object(oss.HeadObjectRequest(
        bucket=args.bucket,           # 指定存储空间名称
        key=args.key,                 # 指定对象名称
    ))

    # 打印操作结果的各种元数据信息
    print(f'status code: {result.status_code},'
          f' request id: {result.request_id},'
          f' content length: {result.content_length},'
          f' content type: {result.content_type},'
          f' etag: {result.etag},'
          f' last modified: {result.last_modified},'
          f' content md5: {result.content_md5},'
          f' cache control: {result.cache_control},'
          f' content disposition: {result.content_disposition},'
          f' content encoding: {result.content_encoding},'
          f' expires: {result.expires},'
          f' hash crc64: {result.hash_crc64},'
          f' storage class: {result.storage_class},'
          f' object type: {result.object_type},'
          f' version id: {result.version_id},'
          f' tagging count: {result.tagging_count},'
          f' server side encryption: {result.server_side_encryption},'
          f' server side data encryption: {result.server_side_data_encryption},'
          f' server side encryption key id: {result.server_side_encryption_key_id},'
          f' next append position: {result.next_append_position},'
          f' expiration: {result.expiration},'
          f' restore: {result.restore},'
          f' process status: {result.process_status},'
          f' request charged: {result.request_charged},'
          f' allow origin: {result.allow_origin},'
          f' allow methods: {result.allow_methods},'
          f' allow age: {result.allow_age},'
          f' allow headers: {result.allow_headers},'
          f' expose headers: {result.expose_headers},'
          )

# 当此脚本被直接执行时,调用main函数开始处理逻辑
if __name__ == "__main__":
    main()  # 脚本入口点,控制程序流程从这里开始

使用GetObjectMeta方法获取对象的部分元数据

说明

使用GetObjectMeta方法仅可以获取部分的对象元数据,包括:返回内容的长度(ContentLength)、实体标签(ETag)、返回的对象最后一次被修改的时间(LastModified)、对象最后一次被访问的时间(LastAccessTime)、对象的版本ID(VersionId)、对象的 64 位 CRC 值(HashCRC64)。

您可以通过以下代码使用GetObjectMeta方法获取指定对象的部分元数据。

import argparse
import alibabacloud_oss_v2 as oss

# 创建命令行参数解析器,并描述脚本用途:获取对象元数据示例
parser = argparse.ArgumentParser(description="get object meta sample")

# 添加命令行参数 --region,表示存储空间所在的区域,必需参数
parser.add_argument('--region', help='The region in which the bucket is located.', required=True)
# 添加命令行参数 --bucket,表示存储空间的名称,必需参数
parser.add_argument('--bucket', help='The name of the bucket.', required=True)
# 添加命令行参数 --endpoint,表示其他服务可用来访问OSS的域名,非必需参数
parser.add_argument('--endpoint', help='The domain names that other services can use to access OSS')
# 添加命令行参数 --key,表示对象的名称,必需参数
parser.add_argument('--key', help='The name of the object.', required=True)

def main():
    # 解析命令行提供的参数,获取用户输入的值
    args = parser.parse_args()

    # 从环境变量中加载访问OSS所需的认证信息,用于身份验证
    credentials_provider = oss.credentials.EnvironmentVariableCredentialsProvider()

    # 使用SDK的默认配置创建配置对象,并设置认证提供者
    cfg = oss.config.load_default()
    cfg.credentials_provider = credentials_provider

    # 设置配置对象的区域属性,根据用户提供的命令行参数
    cfg.region = args.region

    # 如果提供了自定义endpoint,则更新配置对象中的endpoint属性
    if args.endpoint is not None:
        cfg.endpoint = args.endpoint

    # 使用上述配置初始化OSS客户端,准备与OSS交互
    client = oss.Client(cfg)

    # 发送请求以获取对象的元数据
    result = client.get_object_meta(oss.GetObjectMetaRequest(
        bucket=args.bucket,           # 指定存储空间名称
        key=args.key,                 # 指定对象名称
    ))

    # 打印操作结果的状态码、请求ID、内容长度、ETag、最后修改时间、最后访问时间、版本ID以及哈希CRC64等信息,以便确认请求状态
    print(f'status code: {result.status_code},'
          f' request id: {result.request_id},'
          f' content length: {result.content_length},'
          f' etag: {result.etag},'
          f' last modified: {result.last_modified},'
          f' last access time: {result.last_access_time},'
          f' version id: {result.version_id},'
          f' hash crc64: {result.hash_crc64},'
          )

# 当此脚本被直接执行时,调用main函数开始处理逻辑
if __name__ == "__main__":
    main()  # 脚本入口点,控制程序流程从这里开始

修改已有文件的元数据

使用CopyObject方法修改对象元数据

您可以通过以下代码使用CopyObject方法拷贝源对象时设置目标对象的元数据。

import argparse
import alibabacloud_oss_v2 as oss

# 创建命令行参数解析器
parser = argparse.ArgumentParser(description="copy object sample")

# 添加命令行参数 --region,表示存储空间所在的区域,必需参数
parser.add_argument('--region', help='The region in which the bucket is located.', required=True)
# 添加命令行参数 --bucket,表示目标存储空间的名称,必需参数
parser.add_argument('--bucket', help='The name of the destination bucket.', required=True)
# 添加命令行参数 --endpoint,表示其他服务可用来访问OSS的域名,非必需参数
parser.add_argument('--endpoint', help='The domain names that other services can use to access OSS')
# 添加命令行参数 --key,表示目标对象的名称,必需参数
parser.add_argument('--key', help='The name of the destination object.', required=True)
# 添加命令行参数 --source_key,表示源对象的名称,必需参数
parser.add_argument('--source_key', help='The name of the source object.', required=True)
# 添加命令行参数 --source_bucket,表示源存储空间的名称,必需参数
parser.add_argument('--source_bucket', help='The name of the source bucket.', required=True)

def main():
    # 解析命令行参数
    args = parser.parse_args()

    # 从环境变量中加载凭证信息,用于身份验证
    credentials_provider = oss.credentials.EnvironmentVariableCredentialsProvider()

    # 加载SDK的默认配置,并设置凭证提供者
    cfg = oss.config.load_default()
    cfg.credentials_provider = credentials_provider

    # 设置配置中的区域信息
    cfg.region = args.region

    # 如果提供了endpoint参数,则设置配置中的endpoint
    if args.endpoint is not None:
        cfg.endpoint = args.endpoint

    # 使用配置好的信息创建OSS客户端
    client = oss.Client(cfg)

    # 执行复制对象的请求
    result = client.copy_object(oss.CopyObjectRequest(
        bucket=args.bucket,  # 指定目标存储空间名称
        key=args.key,  # 指定目标对象键名
        source_key=args.source_key,  # 指定源对象键名
        source_bucket=args.source_bucket,  # 指定源存储空间名称
        metadata={'key1': 'value1', 'key2': 'value2'}, # 指定元数据
        metadata_directive='REPLACE', # 指定元数据处理方式
    ))

    # 输出复制对象的结果信息
    print(f'status code: {result.status_code},'
          f' request id: {result.request_id},'
          f' version id: {result.version_id},'
          f' hash crc64: {result.hash_crc64},'
          f' source version id: {result.source_version_id},'
          f' server side encryption: {result.server_side_encryption},'
          f' server side data encryption: {result.server_side_data_encryption},'
          f' last modified: {result.last_modified},'
          f' etag: {result.etag},'
    )

# 当此脚本被直接运行时,调用main函数
if __name__ == "__main__":
    main()  # 脚本入口,当文件被直接运行时调用main函数

使用拷贝管理器Copier.Copy方法修改对象元数据

您可以通过以下代码使用拷贝管理器Copier.Copy方法拷贝源对象时设置目标对象的元数据,包括使用新的元数据替换原来的元数据,清除原来的元数据或者更新指定的部分元数据,在拷贝对象完成后可以选择是否删除源对象。

import argparse
import alibabacloud_oss_v2 as oss

# 创建命令行参数解析器
parser = argparse.ArgumentParser(description="copier sample")

# 添加命令行参数:region(必填),指定Bucket所在的地域
parser.add_argument('--region', help='The region in which the bucket is located.', required=True)

# 添加命令行参数:bucket(必填),指定目标Bucket名称
parser.add_argument('--bucket', help='The name of the bucket.', required=True)

# 添加命令行参数:endpoint(可选),指定OSS的访问域名
parser.add_argument('--endpoint', help='The domain names that other services can use to access OSS')

# 添加命令行参数:key(必填),指定目标对象的名称
parser.add_argument('--key', help='The name of the object.', required=True)

# 添加命令行参数:source_key(必填),指定源对象的名称
parser.add_argument('--source_key', help='The name of the source address for object.', required=True)

# 添加命令行参数:source_bucket(必填),指定源Bucket的名称
parser.add_argument('--source_bucket', help='The name of the source address for bucket.', required=True)


def main():
    # 解析命令行参数
    args = parser.parse_args()

    # 从环境变量中加载凭证信息
    # 使用EnvironmentVariableCredentialsProvider从环境变量中读取Access Key ID和Access Key Secret
    credentials_provider = oss.credentials.EnvironmentVariableCredentialsProvider()

    # 使用SDK的默认配置
    cfg = oss.config.load_default()
    cfg.credentials_provider = credentials_provider  # 设置凭证提供者
    cfg.region = args.region  # 设置Bucket所在的地域
    if args.endpoint is not None:
        cfg.endpoint = args.endpoint  # 如果提供了endpoint,则设置自定义访问域名

    # 创建OSS客户端实例
    client = oss.Client(cfg)

    # 创建Copier实例并执行对象复制操作
    copier = client.copier()

    # 执行对象复制操作
    result = copier.copy(
        oss.CopyObjectRequest(
            bucket=args.bucket,          # 目标Bucket名称
            key=args.key,                # 目标对象名称
            source_bucket=args.source_bucket,  # 源Bucket名称
            source_key=args.source_key,  # 源对象名称
            metadata={'key1': 'value1', 'key2': 'value2'}, # 设置目标对象的元数据
            metadata_directive="REPLACE",   # 指定元数据处理方式
        )
    )

    # 打印复制结果
    # 使用vars(result)将结果对象转换为字典格式并打印
    print(vars(result))


if __name__ == "__main__":
    main()
  • 本页导读
  • 注意事项
  • 上传文件时设置元数据
  • 获取文件元数据
  • 修改已有文件的元数据
AI助理

点击开启售前

在线咨询服务

你好,我是AI助理

可以解答问题、推荐解决方案等