过滤器

在服务端对读取结果再进行一次过滤,根据过滤器(Filter)中的条件决定返回的行。使用过滤器后,只返回符合条件的数据行。

前提条件

使用方法

在通过GetRow、BatchGetRowGetRange接口查询数据时,可以使用过滤器只返回符合条件的数据行。

过滤器目前包括SingleColumnValueFilter、SingleColumnValueRegexFilterCompositeColumnValueFilter。

  • SingleColumnValueFilter:只判断某个参考列的列值。

  • SingleColumnValueRegexFilter:支持对类型为String的列值,使用正则表达式进行子字符串匹配,然后根据实际将匹配到的子字符串转换为String、Integer或者Double类型,再对子值使用过滤器进行过滤。

  • CompositeColumnValueFilter:根据多个参考列的列值的判断结果进行逻辑组合,决定是否过滤某行。

说明

关于过滤器的更多信息,请参见功能介绍中的过滤器

注意事项

  • 过滤器的条件支持关系运算(=、!=、>、>=、<、<=)和逻辑运算(NOT、AND、OR),最多支持10个条件的组合。

  • 过滤器中的参考列必须在读取的结果内。如果指定的要读取的列中不包含参考列,则过滤器无法获取参考列的值。

  • 使用GetRange接口时,一次扫描数据的行数不能超过5000行或者数据大小不能超过4 MB。

    当在该次扫描的5000行或者4 MB数据中没有满足过滤器条件的数据时,得到的Response中的Rows为空,但是NextStartPrimaryKey可能不为空,此时需要使用NextStartPrimaryKey继续读取数据,直到NextStartPrimaryKey为空。

参数

参数

说明

ColumnName

过滤器中参考列的名称。

ColumnValue

过滤器中参考列的对比值。

CompareOperator

过滤器中的关系运算符。

关系运算符包括EQUAL(=)、NOT_EQUAL(!=)、GREATER_THAN(>)、GREATER_EQUAL(>=)、LESS_THAN(<)和LESS_EQUAL(<=)。

LogicOperator

过滤器中的逻辑运算符。

逻辑运算符包括NOT、ANDOR。

PassIfMissing

当参考列在某行中不存在时,是否返回该行。取值范围如下:

  • true(默认):如果参考列在某行中不存在时,则返回该行。

  • false:如果参考列在某行中不存在时,则不返回该行。

LatestVersionsOnly

当参考列存在多个版本的数据时,是否只使用最新版本的值做比较。取值范围如下:

  • true(默认):如果参考列存在多个版本的数据时,则只使用该列最新版本的值进行比较。

  • false:如果参考列存在多个版本的数据时,则会使用该列的所有版本的值进行比较,此时只要有一个版本的值满足条件,就返回该行。

Regex

正则表达式,用于匹配子字段值。正则表达式必须满足以下条件:

  • 长度不能超过256个字节。

  • 支持perl regular语法。

  • 支持单字节正则表达式。

  • 不支持中文的正则匹配。

  • 支持正则表达式的全匹配模式和部分匹配模式。

    部分匹配的正则表达式在模式中由一对括号(…)分隔。

    如果正则表达式为全匹配模式,则返回第一个匹配结果;如果正则表达式中包含部分匹配语法,则返回第一个满足的子匹配结果。例如列值为1aaa51bbb5,如果正则表达式为1[a-z]+5时,则返回值为1aaa5;如果正则表达式为1([a-z]+)5,则返回值为aaa。

VariantType

使用正则表达式匹配到子字段值后,子字段值转换为的类型。取值范围为VT_INTEGER(整型)、VT_STRING(字符串类型)和VT_DOUBLE(双精度浮点型)。

示例

使用SingleColumnValueFilter过滤数据

以下示例用于读取数据表中的一行数据,设置读取最新版本的数据以及根据Col0列的值过滤数据。

private static void getRow(SyncClient client, String pkValue) {
    //构造主键。
    PrimaryKeyBuilder primaryKeyBuilder = PrimaryKeyBuilder.createPrimaryKeyBuilder();
    primaryKeyBuilder.addPrimaryKeyColumn("pk", PrimaryKeyValue.fromString(pkValue));
    PrimaryKey primaryKey = primaryKeyBuilder.build();

    //读取一行数据,设置数据表名称。
    SingleRowQueryCriteria criteria = new SingleRowQueryCriteria("<TABLE_NAME>", primaryKey);
    //设置读取最新版本。
    criteria.setMaxVersions(1);

    //设置过滤器,当Col0列的值为0时,返回该行。
    SingleColumnValueFilter singleColumnValueFilter = new SingleColumnValueFilter("Col0",
            SingleColumnValueFilter.CompareOperator.EQUAL, ColumnValue.fromLong(0));
    //如果Col0列不存在,则不返回该行。
    singleColumnValueFilter.setPassIfMissing(false);
    criteria.setFilter(singleColumnValueFilter);

    GetRowResponse getRowResponse = client.getRow(new GetRowRequest(criteria));
    Row row = getRowResponse.getRow();

    System.out.println("读取完毕,结果为: ");
    System.out.println(row);
}

使用SingleColumnValueRegexFilter正则过滤数

以下示例用于读取主键范围为["pk:2020-01-01.log", "pk:2021-01-01.log")Col1列的数据,并对该列的数据执行正则过滤。

private static void getRange(SyncClient client) {
    //设置数据表名称。
    RangeRowQueryCriteria criteria = new RangeRowQueryCriteria("<TABLE_NAME>");
 
    //设置主键范围为["pk:2020-01-01.log", "pk:2021-01-01.log"),读取范围为左闭右开的区间。
    PrimaryKey pk0 = PrimaryKeyBuilder.createPrimaryKeyBuilder()
        .addPrimaryKeyColumn("pk", PrimaryKeyValue.fromString("2020-01-01.log"))
        .build();
    PrimaryKey pk1 = PrimaryKeyBuilder.createPrimaryKeyBuilder()
        .addPrimaryKeyColumn("pk", PrimaryKeyValue.fromString("2021-01-01.log"))
        .build();
    criteria.setInclusiveStartPrimaryKey(pk0);
    criteria.setExclusiveEndPrimaryKey(pk1);
 
    //设置读取最新版本。
    criteria.setMaxVersions(1);
 
    //设置过滤器,当cast<int>(regex(Col1)) > 100时,返回该行。
    RegexRule regexRule = new RegexRule("t1:([0-9]+),", RegexRule.CastType.VT_INTEGER);
    SingleColumnValueRegexFilter filter =  new SingleColumnValueRegexFilter("Col1",
        regexRule,SingleColumnValueRegexFilter.CompareOperator.GREATER_THAN,ColumnValue.fromLong(100));
    criteria.setFilter(filter);

    while (true) {
        GetRangeResponse resp = client.getRange(new GetRangeRequest(criteria));
        for (Row row : resp.getRows()) {
            // do something
            System.out.println(row);
        }
        if (resp.getNextStartPrimaryKey() != null) {
            criteria.setInclusiveStartPrimaryKey(resp.getNextStartPrimaryKey());
        } else {
            break;
        }
   }
}

使用CompositeColumnValueFilter过滤数据

以下示例用于返回主键范围在["a","h")之间,Col0列值等于0Col1列值大于100或者Col2列值小于等于10的行。

private static void getRange(SyncClient client) {
    //设置数据表名称。
    RangeRowQueryCriteria criteria = new RangeRowQueryCriteria("<TABLE_NAME>");

    //设置主键范围,读取范围为左闭右开的区间。
    PrimaryKey pk0 = PrimaryKeyBuilder.createPrimaryKeyBuilder()
            .addPrimaryKeyColumn("pk", PrimaryKeyValue.fromString("a"))
            .build();
    PrimaryKey pk1 = PrimaryKeyBuilder.createPrimaryKeyBuilder()
            .addPrimaryKeyColumn("pk", PrimaryKeyValue.fromString("h"))
            .build();
    criteria.setInclusiveStartPrimaryKey(pk0);
    criteria.setExclusiveEndPrimaryKey(pk1);

    //设置读取最新版本。
    criteria.setMaxVersions(1);

    //composite1的条件为(Col0 == 0) AND (Col1 > 100)。
    CompositeColumnValueFilter composite1 = new CompositeColumnValueFilter(CompositeColumnValueFilter.LogicOperator.AND);
    SingleColumnValueFilter single1 = new SingleColumnValueFilter("Col0",
            SingleColumnValueFilter.CompareOperator.EQUAL, ColumnValue.fromLong(0));
    SingleColumnValueFilter single2 = new SingleColumnValueFilter("Col1",
            SingleColumnValueFilter.CompareOperator.GREATER_THAN, ColumnValue.fromLong(100));
    composite1.addFilter(single1);
    composite1.addFilter(single2);

    //composite2的条件为( (Col0 == 0) AND (Col1 > 100) ) OR (Col2 <= 10)。
    CompositeColumnValueFilter composite2 = new CompositeColumnValueFilter(CompositeColumnValueFilter.LogicOperator.OR);
    SingleColumnValueFilter single3 = new SingleColumnValueFilter("Col2",
            SingleColumnValueFilter.CompareOperator.LESS_EQUAL, ColumnValue.fromLong(10));
    composite2.addFilter(composite1);
    composite2.addFilter(single3);
    criteria.setFilter(composite2);

    while (true) {
        GetRangeResponse resp = client.getRange(new GetRangeRequest(criteria));
        for (Row row : resp.getRows()) {
            // do something
            System.out.println(row);
        }
        if (resp.getNextStartPrimaryKey() != null) {
            criteria.setInclusiveStartPrimaryKey(resp.getNextStartPrimaryKey());
        } else {
            break;
        }
    }
}

相关文档

  • 当某些应用需要使用不同属性作为查询条件来执行数据查询时,您可以通过将这些属性作为二级索引的主键列实现按照属性快速查询数据的需求。更多信息,请参见二级索引

  • 当日常业务中有非主键列查询、多列组合查询、模糊查询等多维查询需求以及求最值、统计行数、数据分组等数据分析需求时,您可以将这些属性作为多元索引中的字段并使用多元索引查询与分析数据。 更多信息,请参见多元索引

  • 您还可以通过SQL查询与分析表中数据。更多信息,请参见查询数据