OSS MD5一致性校验说明

OSS上的Object会有ETag标签,ETag主要是用来判断服务端数据是否存在变化。但是ETag不一定等同于文件的MD5值,所以不建议作为校验数据一致性的依据。

如果需要校验上传到OSS的文件和本地文件是否一致,可以在上传文件时携带文件的Content-MD5值。OSS会在接收文件时,将文件的MD5值和Content-MD5进行比对,两者一致时才可以上传成功,从而保证上传数据的一致性。

以消息内容“0123456789”为例,以下详细说明正确及错误计算该字符串的Content-MD5的方法。

  • 正确计算示例

    1. 先计算MD5加密的二进制数组(128位)。

    2. 对该二进制数组进行base64编码(而不是对32位字符串编码)。

    Python为例:

    >>> import base64,hashlib
    >>> hash = hashlib.md5()
    >>> hash.update("0123456789")   #在Python 3中此处需要改为hash.update(b"0123456789")。
    >>> base64.b64encode(hash.digest())
    'eB5eJF1ptWaXm4bijSPyxw=='

    hash.digest(),计算出二进制数组(128位)。

    >>> hash.digest()
    'x\x1e^$]i\xb5f\x97\x9b\x86\xe2\x8d#\xf2\xc7'
  • 错误计算示例

    说明

    常见错误是直接对计算出的32位字符串进行base64编码。

    #hash.hexdigest(),计算得到可见的32位字符串编码。
    >>> hash.hexdigest()
    '781e5e245d69b566979b86e28d23f2c7'
    # 错误的MD5值进行base64编码后的结果。
    >>> base64.b64encode(hash.hexdigest())
    'NzgxZTVlMjQ1ZDY5YjU2Njk3OWI4NmUyOGQyM2YyYzc='
说明

部分Header中的参数(例如Content-MD5)需要加入到signature计算中,且Headersignature需保持一致,否则报错SignatureDoesNotMatch。关于要签名的Header,请参见签名版本1