使用TairString实现高性能分布式锁-云数据库 Tair（兼容 Redis®）-阿里云

分布式锁是大型应用中最常见的功能之一，基于Redis实现分布式锁的方式有很多。本文介绍并分析常见的分布式锁实现方式，之后结合阿里巴巴集团在使用Tair（企业版）和分布式锁方面的业务经验，介绍使用Tair（企业版）实现高性能分布式锁的实践方案。

背景信息

分布式锁及其应用场景

应用开发时，如果需要在同进程内的不同线程并发访问某项资源，可以使用各种互斥锁、读写锁；如果一台主机上的多个进程需要并发访问某项资源，则可以使用进程间同步的原语，例如信号量、管道、共享内存等。但如果多台主机需要同时访问某项资源，就需要使用一种在全局可见并具有互斥性的锁了。这种锁就是分布式锁，可以在分布式场景中对资源加锁，避免竞争资源引起的逻辑错误。

分布式锁的特性

互斥性
在任意时刻，只有一个客户端持有锁。
不死锁
分布式锁本质上是一个基于租约（Lease）的租借锁，如果客户端获得锁后自身出现异常，锁能够在一段时间后自动释放，资源不会被锁死。
一致性
硬件故障或网络异常等外部问题，以及慢查询、自身缺陷等内部因素都可能导致Redis发生高可用切换，replica提升为新的master。此时，如果业务对互斥性的要求非常高，锁需要在切换到新的master后保持原状态。

使用原生Redis实现分布式锁

说明

该部分介绍的实现方式同样适用于Redis开源版。

加锁

在Redis中加锁非常简便，直接使用SET命令即可。示例及关键选项说明如下：

SET resource_1 random_value NX EX 5

表 1. 关键选项说明

参数/选项	说明
resource_1	分布式锁的key，只要这个key存在，相应的资源就处于加锁状态，无法被其它客户端访问。
random_value	一个随机字符串，不同客户端设置的值不能相同。
EX	设置过期时间，单位为秒。您也可以使用PX选项设置单位为毫秒的过期时间。
NX	如果需要设置的key在Redis中已存在，则取消设置。

示例代码为resource_1这个key设置了5秒的过期时间，如果客户端不释放这个key，5秒后key将过期，锁就会被系统回收，此时其它客户端就能够再次为资源加锁并访问资源了。

解锁
解锁一般使用DEL命令，但可能存在下列问题。
1. t1时刻，App1设置了分布式锁resource_1，过期时间为3秒。
2. App1由于程序慢等原因等待超过了3秒，而resource_1已经在t2时刻被释放。
3. t3时刻，App2获得这个分布式锁。
4. App1从等待中恢复，在t4时刻运行DEL resource_1将App2持有的分布式锁释放了。
从上述过程可以看出，一个客户端设置的锁，必须由自己解开。因此客户端需要先使用GET命令确认锁是不是自己设置的，然后再使用DEL解锁。在Redis中通常需要用Lua脚本来实现自锁自解：
```
if redis.call("get",KEYS[1]) == ARGV[1] then
    return redis.call("del",KEYS[1])
else
    return 0
end
```
续租
当客户端发现在锁的租期内无法完成操作时，就需要延长锁的持有时间，进行续租（renew）。同解锁一样，客户端应该只能续租自己持有的锁。在Redis中可使用如下Lua脚本来实现续租：
```
if redis.call("get",KEYS[1]) == ARGV[1] then
    return redis.call("expire",KEYS[1], ARGV[2])
else
    return 0
end
```

使用Tair实现分布式锁

使用Tair内存型或持久内存型实例的String增强命令，无需Lua即可实现分布式锁。

加锁
加锁方式与原生Redis相同，使用SET命令：
```
SET resource_1 random_value NX EX 5
```

解锁

直接使用Tair（企业版）的CAD命令即可实现优雅而高效的解锁：

/* if (GET(resource_1) == my_random_value) DEL(resource_1) */
CAD resource_1 my_random_value

续租
续租可以直接使用CAS命令实现：
```
CAS resource_1 my_random_value my_random_value EX 10
```
说明
CAS命令不会检查新设置的value和原value是否相同。

基于Jedis的示例代码

定义CAS/CAD命令

enum TairCommand implements ProtocolCommand {
    CAD("CAD"), CAS("CAS");

    private final byte[] raw;

    TairCommand(String alt) {
      raw = SafeEncoder.encode(alt);
    }

    @Override
    public byte[] getRaw() {
      return raw;
    }
}

加锁

public boolean acquireDistributedLock(Jedis jedis,String resourceKey, String randomValue, int expireTime) {
    SetParams setParams = new SetParams();
    setParams.nx().ex(expireTime);
    String result = jedis.set(resourceKey,randomValue,setParams);
    return "OK".equals(result);
}

解锁

public boolean releaseDistributedLock(Jedis jedis,String resourceKey, String randomValue) {
    jedis.getClient().sendCommand(TairCommand.CAD,resourceKey,randomValue);
    Long ret = jedis.getClient().getIntegerReply();
    return 1 == ret;
}

续租

public boolean renewDistributedLock(Jedis jedis,String resourceKey, String randomValue, int expireTime) {
    jedis.getClient().sendCommand(TairCommand.CAS,resourceKey,randomValue,randomValue,"EX",String.valueOf(expireTime));
    Long ret = jedis.getClient().getIntegerReply();
    return 1 == ret;
}

如何保障一致性

Redis的主备同步（replication）是异步进行的，如果向master发送请求修改了数据后master突然出现异常，发生高可用切换，缓冲区的数据可能无法同步到新的master（原replica）上，导致数据不一致。如果丢失的数据跟分布式锁有关，则会导致锁的机制出现问题，从而引起业务异常。下文介绍三种保障一致性的方法。

使用红锁（RedLock）
红锁是Redis作者提出的一致性解决方案。红锁的本质是一个概率问题：如果一个主备架构的Redis在高可用切换期间丢失锁的概率是k%，那么相互独立的N个Redis同时丢失锁的概率是多少？如果用红锁来实现分布式锁，那么丢锁的概率是(k%)^N。鉴于Redis极高的稳定性，此时的概率已经完全能满足产品的需求。
说明
红锁的实现并非这样严格，一般保证M(1<M=<N)个同时锁上即可，但通常仍旧可以满足需求。
红锁的问题在于：
- 加锁和解锁的延迟较大。
- 难以在集群版或者标准版（主备架构）的Redis实例中实现。
- 占用的资源过多，为了实现红锁，需要创建多个互不相关的云Redis实例或者自建Redis。
使用WAIT命令。
Redis的WAIT命令会阻塞当前客户端，直到这条命令之前的所有写入命令都成功从master同步到指定数量的replica，命令中可以设置单位为毫秒的等待超时时间。在云Redis版中使用WAIT命令提高分布式锁一致性的示例如下：
```
SET resource_1 random_value NX EX 5
WAIT 1 5000
```
使用以上代码，客户端在加锁后会等待数据成功同步到replica才继续进行其它操作，最大等待时间为5000毫秒。执行WAIT命令后如果返回结果是1则表示同步成功，无需担心数据不一致。相比红锁，这种实现方法极大地降低了成本。
需要注意的是：
- WAIT只会阻塞发送它的客户端，不影响其它客户端。
- WAIT返回正确的值表示设置的锁成功同步到了replica，但如果在正常返回前发生高可用切换，数据还是可能丢失，此时WAIT只能用来提示同步可能失败，无法保证数据不丢失。您可以在WAIT返回异常值后重新加锁或者进行数据校验。
- 解锁不一定需要使用WAIT，因为锁只要存在就能保持互斥，延迟删除不会导致逻辑问题。
使用Tair
- Tair的CAS/CAD命令可以极大降低分布式锁的开发和管理成本，提升锁的性能。
- Tair内存型实例能提供三倍于原生Redis的性能，即使是大并发的分布式锁也不会影响正常的实例服务。同时，内存型实例还支持配置主备实例间同步方式为半同步，保证写入数据并同步至备节点后，才成功返回客户端（若出现备节点故障、网络异常等情况会降级为异步同步），保证高可用切换后数据不丢失。