在读取数据时使用过滤器实现条件过滤-表格存储-阿里云

在服务端对读取结果再进行一次过滤，根据过滤器（Filter）中的条件决定返回的行。使用过滤器后，只返回符合条件的数据行，从而有效降低网络传输的数据量，减少响应时间。

场景

直接过滤结果
以物联网中的智能电表为例，智能电表按一定的频率（例如每隔15秒）将当前的电压、电流、度数等信息写入表格存储。在按天做分析时，需要获取某一个电表当天是否出现过电压异常以及出现时的其他状态数据，用于判断是否需要对某条线路进行检修。
按照目前的方案，使用GetRange读取一个电表一天内的所有的监控数据，共有5760条，然后再对5760条信息进行过滤，最终获取了10个电压出现不稳定时的监控信息。
使用过滤器只返回了实际需要的10条数据，有效降低了返回的数据量。而且无需再对结果进行初步的过滤处理，节省了开发成本。
正则匹配并转换数据类型后再过滤结果
当某些列中存储了自定义格式数据（例如JSON格式字符串）时，如果用户希望过滤查询该列的某个子字段值，则可以通过正则表达式匹配并转换子字段值类型后，再使用过滤器来过滤需要的数据。
例如列中存储的数据为{cluster_name:name1,lastupdatetime:12345}格式，如果需要过滤查询lastupdatetime>12345的行数据，此时您可以通过正则表达式lastupdatetime:([0-9]+)}来匹配该列中子字段的数据，然后将匹配结果转换为数值类型，再进行数值类型的比较，从而过滤得到所需要的数据行。

功能概述

在通过GetRow、BatchGetRow和GetRange接口查询数据时，您可以使用过滤器只返回符合条件的数据行。在GetRow、BatchGetRow和GetRange接口中使用过滤器不会改变接口的原生语义和限制项，具体操作，请参见读取数据。

使用过滤器时，您可以根据需要进行如下配置：

当参考列在某行中不存在时，可以使用PassIfMissing参数决定此时是否满足条件，即设置当参考列不存在时的行为。
当参考列存在多个版本的数据时，配置是否只使用最新版本的值做比较。
使用正则表达式用于匹配子字段值。
使用关系运算符和逻辑运算符构造组合过滤条件。

过滤器目前包括SingleColumnValueFilter、SingleColumnValueRegexFilter和CompositeColumnValueFilter，是基于一个或者多个参考列的列值决定是否过滤某行。

过滤器	说明
SingleColumnValueFilter	只判断某个参考列的列值。
SingleColumnValueRegexFilter	支持对类型为String的列值，使用正则表达式进行子字符串匹配，然后根据实际将匹配到的子字符串转换为String、Integer或者Double类型，再使用过滤器进行过滤。其中正则表达式必须满足以下条件：长度不能超过256个字节。支持perl regular语法。支持单字节正则表达式。不支持中文的正则匹配。支持正则表达式的全匹配模式和部分匹配模式。部分匹配的正则表达式在模式中由一对括号（…）分隔。如果正则表达式为全匹配模式，则返回第一个匹配结果；如果正则表达式中包含部分匹配语法，则返回第一个满足的子匹配结果。例如列值为1aaa51bbb5，如果正则表达式为`1[a-z]+5`时，则返回值为1aaa5；如果正则表达式为`1([a-z]+)5`，则返回值为aaa。重要只有Java SDK支持使用SingleColumnValueRegexFilter过滤器。
CompositeColumnValueFilter	根据多个参考列的列值的判断结果进行逻辑组合，决定是否过滤某行。

注意事项

过滤器的条件支持关系运算（=、!=、>、>=、<、<=）和逻辑运算（NOT、AND、OR），最多支持10个条件的组合。
过滤器中的参考列必须在读取的结果内。如果指定的要读取的列中不包含参考列，则过滤器无法获取参考列的值。
使用GetRange接口时，一次扫描数据的行数不能超过5000行或者数据大小不能超过4 MB。
当在该次扫描的5000行或者4 MB数据中没有满足过滤器条件的数据时，得到的Response中的Rows为空，但是NextStartPrimaryKey可能不为空，此时需要使用NextStartPrimaryKey继续读取数据，直到NextStartPrimaryKey为空。

使用方式

重要

只支持通过SDK方式使用过滤器功能。

您可以通过Java SDK、Go SDK、Python SDK、Node.js SDK、.NET SDK和PHP SDK使用过滤器功能。此处以Java SDK为例介绍过滤器功能的使用。

使用SingleColumnValueFilter过滤数据

以下示例用于读取数据表中的一行数据，设置读取最新版本的数据以及根据Col0列的值过滤数据。

private static void getRow(SyncClient client, String pkValue) {
    //构造主键。
    PrimaryKeyBuilder primaryKeyBuilder = PrimaryKeyBuilder.createPrimaryKeyBuilder();
    primaryKeyBuilder.addPrimaryKeyColumn("pk", PrimaryKeyValue.fromString(pkValue));
    PrimaryKey primaryKey = primaryKeyBuilder.build();

    //读取一行数据，设置数据表名称。
    SingleRowQueryCriteria criteria = new SingleRowQueryCriteria("<TABLE_NAME>", primaryKey);
    //设置读取最新版本。
    criteria.setMaxVersions(1);

    //设置过滤器，当Col0列的值为0时，返回该行。
    SingleColumnValueFilter singleColumnValueFilter = new SingleColumnValueFilter("Col0",
            SingleColumnValueFilter.CompareOperator.EQUAL, ColumnValue.fromLong(0));
    //如果Col0列不存在，则不返回该行。
    singleColumnValueFilter.setPassIfMissing(false);
    criteria.setFilter(singleColumnValueFilter);

    GetRowResponse getRowResponse = client.getRow(new GetRowRequest(criteria));
    Row row = getRowResponse.getRow();

    System.out.println("读取完毕，结果为: ");
    System.out.println(row);
}

使用SingleColumnValueRegexFilter正则过滤数据

以下示例用于读取主键范围为["pk:2020-01-01.log", "pk:2021-01-01.log")时Col1列的数据，并对该列的数据执行正则过滤。

private static void getRange(SyncClient client) {
    //设置数据表名称。
    RangeRowQueryCriteria criteria = new RangeRowQueryCriteria("<TABLE_NAME>");
 
    //设置主键范围为["pk:2020-01-01.log", "pk:2021-01-01.log")，读取范围为左闭右开的区间。
    PrimaryKey pk0 = PrimaryKeyBuilder.createPrimaryKeyBuilder()
        .addPrimaryKeyColumn("pk", PrimaryKeyValue.fromString("2020-01-01.log"))
        .build();
    PrimaryKey pk1 = PrimaryKeyBuilder.createPrimaryKeyBuilder()
        .addPrimaryKeyColumn("pk", PrimaryKeyValue.fromString("2021-01-01.log"))
        .build();
    criteria.setInclusiveStartPrimaryKey(pk0);
    criteria.setExclusiveEndPrimaryKey(pk1);
 
    //设置读取最新版本。
    criteria.setMaxVersions(1);
 
    //设置过滤器，当cast<int>(regex(Col1)) > 100时，返回该行。
    RegexRule regexRule = new RegexRule("t1:([0-9]+),", RegexRule.CastType.VT_INTEGER);
    SingleColumnValueRegexFilter filter =  new SingleColumnValueRegexFilter("Col1",
        regexRule,SingleColumnValueRegexFilter.CompareOperator.GREATER_THAN,ColumnValue.fromLong(100));
    criteria.setFilter(filter);

    while (true) {
        GetRangeResponse resp = client.getRange(new GetRangeRequest(criteria));
        for (Row row : resp.getRows()) {
            // do something
            System.out.println(row);
        }
        if (resp.getNextStartPrimaryKey() != null) {
            criteria.setInclusiveStartPrimaryKey(resp.getNextStartPrimaryKey());
        } else {
            break;
        }
   }
}

使用CompositeColumnValueFilter过滤数据

以下示例用于返回主键范围在["a","h")之间，Col0列值等于0且Col1列值大于100或者Col2列值小于等于10的行。

private static void getRange(SyncClient client) {
    //设置数据表名称。
    RangeRowQueryCriteria criteria = new RangeRowQueryCriteria("<TABLE_NAME>");

    //设置主键范围，读取范围为左闭右开的区间。
    PrimaryKey pk0 = PrimaryKeyBuilder.createPrimaryKeyBuilder()
            .addPrimaryKeyColumn("pk", PrimaryKeyValue.fromString("a"))
            .build();
    PrimaryKey pk1 = PrimaryKeyBuilder.createPrimaryKeyBuilder()
            .addPrimaryKeyColumn("pk", PrimaryKeyValue.fromString("h"))
            .build();
    criteria.setInclusiveStartPrimaryKey(pk0);
    criteria.setExclusiveEndPrimaryKey(pk1);

    //设置读取最新版本。
    criteria.setMaxVersions(1);

    //composite1的条件为(Col0 == 0) AND (Col1 > 100)。
    CompositeColumnValueFilter composite1 = new CompositeColumnValueFilter(CompositeColumnValueFilter.LogicOperator.AND);
    SingleColumnValueFilter single1 = new SingleColumnValueFilter("Col0",
            SingleColumnValueFilter.CompareOperator.EQUAL, ColumnValue.fromLong(0));
    SingleColumnValueFilter single2 = new SingleColumnValueFilter("Col1",
            SingleColumnValueFilter.CompareOperator.GREATER_THAN, ColumnValue.fromLong(100));
    composite1.addFilter(single1);
    composite1.addFilter(single2);

    //composite2的条件为( (Col0 == 0) AND (Col1 > 100) ) OR (Col2 <= 10)。
    CompositeColumnValueFilter composite2 = new CompositeColumnValueFilter(CompositeColumnValueFilter.LogicOperator.OR);
    SingleColumnValueFilter single3 = new SingleColumnValueFilter("Col2",
            SingleColumnValueFilter.CompareOperator.LESS_EQUAL, ColumnValue.fromLong(10));
    composite2.addFilter(composite1);
    composite2.addFilter(single3);
    criteria.setFilter(composite2);

    while (true) {
        GetRangeResponse resp = client.getRange(new GetRangeRequest(criteria));
        for (Row row : resp.getRows()) {
            // do something
            System.out.println(row);
        }
        if (resp.getNextStartPrimaryKey() != null) {
            criteria.setInclusiveStartPrimaryKey(resp.getNextStartPrimaryKey());
        } else {
            break;
        }
    }
}

计费说明

使用过滤器功能不影响现有计费规则。

使用过滤器后，可以有效降低返回的数据量，但是由于过滤计算是服务器端在返回数据前进行的，并未降低磁盘IO次数，所以消耗的读CU与不使用过滤器时相同。例如使用GetRange读取到100条记录，共200 KB数据，消耗了50单位读CU，在使用过滤器后，实际只返回了10条数据，共20 KB，但是仍然会消耗50单位读CU。

错误码

更多信息，请参见错误码参考。

常见问题

如何选择二级索引和多元索引