字符串函数-日志服务(SLS)-阿里云帮助中心

本文介绍字符串函数的基本语法和示例。

日志服务支持如下字符串函数。

重要在日志服务分析语句中，表示字符串的字符必须使用单引号（''）包裹，无符号包裹或被双引号（""）包裹的字符表示字段名或列名。例如：'status'表示字符串status，status或"status"表示日志字段status。

函数名称	语法	说明	支持SQL	支持SPL
chr函数	chr(x)	将ASCII码转换为字符。	√	√
codepoint函数	codepoint(x)	将字符转换为ASCII码。	√	√
concat函数	concat(x, y...)	将多个字符串拼接成一个字符串。	√	√
from_utf8函数	from_utf8(x)	将二进制字符串解码为UTF-8编码格式，并使用默认字符U+FFFD替换无效的UTF-8字符。	√	√
from_utf8函数	from_utf8(x, replace_string)	将二进制字符串解码为UTF-8编码格式，并使用自定义字符串替换无效的UTF-8字符。	√	√
length函数	length(x)	计算字符串的长度。	√	√
levenshtein_distance函数	levenshtein_distance(x, y)	计算x和y之间的最小编辑距离。	√	×
lower函数	lower(x)	将字符串转换为小写形式。	√	√
lpad函数	lpad(x, length, lpad_string)	在字符串的开头填充指定字符，直到指定长度后返回结果字符串。	√	√
ltrim函数	ltrim(x)	删除字符串开头的空格。	√	√
normalize函数	normalize(x)	使用NFC格式将字符串格式化。	√	×
position函数	position(sub_string in x)	返回目标子串在字符串中的位置。	√	×
replace函数	replace(x, sub_string )	删除字符串中匹配的字符。	√	√
replace函数	replace(x, sub_string, replace_string)	将字符串中所匹配的字符替换为其他指定字符。	√	√
reverse函数	reverse(x)	返回反向顺序的字符串。	√	√
rpad函数	rpad(x, length, rpad_string)	在字符串的尾部填充指定字符，直到指定长度后返回结果字符串。	√	√
rtrim函数	rtrim(x)	删除字符串中结尾的空格。	√	√
split函数	split(x, delimeter)	使用指定的分隔符拆分字符串，并返回子串集合。	√	√
split函数	split(x, delimeter, limit)	通过指定的分隔符拆分字符串并使用limit限制字符串拆分的个数，然后返回拆分后的子串集合。	√	√
split_part函数	split_part(x, delimeter, part)	使用指定的分隔符拆分字符串，并返回指定位置的内容。	√	√
split_to_map函数	split_to_map(x, delimiter01, delimiter02)	使用指定的第一个分隔符拆分字符串，然后再使用指定的第二个分隔符进行第二次拆分。	√	√
strpos函数	strpos(x, sub_string)	返回目标子串在字符串中的位置。与position(sub_string in x)函数等价。	√	√
substr函数	substr(x, start)	返回字符串中指定位置的子串。	√	√
substr函数	substr(x, start, length)	返回字符串中指定位置的子串，并指定子串长度。	√	√
to_utf8函数	to_utf8(x)	将字符串转换为UTF-8编码格式。	√	√
trim函数	trim(x)	删除字符串中开头和结尾的空格。	√	√
upper函数	upper(x)	将字符串转化为大写形式。	√	√
csv_extract_map函数	csv_extract_map(x, delimeter, quote, keys)	用于提取目标字符串中单行CSV信息。	√	×
ilike函数	ilike(x, pattern)	忽略字符串的大小写，是否匹配指定的字符模式。	√	√
str_uuid函数	str_uuid()	生成一个随机的 128 位 ID，并以字符串 (String) 格式返回。	×	√
gzip_compress函数	gzip_compress(data, compression_level)	接收一个字符串对象，并使用 GZIP 算法对其进行压缩，返回压缩后的二进制流。	×	√
gzip_decompress函数	gzip_decompress(binary_data)	接收 GZIP 格式压缩后的二进制数据（Varbinary），并将其解压还原。	×	√
search函数	search(search_expression)	在SQL分析语句中对日志数据执行全文检索，支持布尔操作、字段限定、模糊查询、范围查询等。	√	×

chr函数

chr函数用于将ASCII码转换为字符。

语法

chr(x)

参数说明

参数	说明
x	ASCII码。

返回值类型

varchar类型。

示例

判断region字段值的首字母是否是c开头，其中99为ASCII码，代表小写字母c。

字段样例
```
region:cn-shanghai
```

查询和分析语句（调试）

* | SELECT
  substr(region, 1, 1) = chr(99)

查询和分析结果：_col0 列的返回值为 true，表示 region 字段的首字符与 chr(99)（即字符 c）匹配。

codepoint函数

codepoint函数用于将字符转换为ASCII码。

语法

codepoint(x)

参数说明

参数	说明
x	参数值为varchar类型。

返回值类型

integer类型。

示例

判断region字段值的首字母是否是c开头，其中99为ASCII码，代表小写字母c。

字段样例
```
upstream_status:200
```

查询和分析语句（调试）

* | SELECT
  codepoint(cast (substr(region, 1, 1) AS char(1))) = 99

查询和分析结果：_col0列返回两行数据，值均为true。

concat函数

concat函数用于将多个字符串拼接成一个字符串。

语法

concat(x, y...)

参数说明

参数	说明
x	参数值为varchar类型。
y	参数值为varchar类型。

返回值类型

varchar类型。

示例

将region字段和request_method字段的值拼接为一个字符串。

字段样例

region:cn-shanghai
time:14/Jul/2021:02:19:40

查询和分析语句（调试）
```
* | SELECT
  concat(region, '-', time)
```
查询和分析结果中，_col0 列返回拼接后的字符串，例如 cn-shanghai-14/Jul/2021:01:16:30。

from_utf8函数

from_utf8函数用于将二进制字符串解码为UTF-8编码格式。

语法

使用默认字符U+FFFD替换无效的UTF-8字符。
```
from_utf8(x)
```
使用自定义字符替换无效的UTF-8字符。
```
from_utf8(x,replace_string)
```

参数说明

参数	说明
x	参数值为binary类型。
replace_string	用于替换的字符串。只能为单个字符或空格。

返回值类型

varchar类型。

示例

将二进制字符串0x80解码为UTF-8编码格式，并使用默认字符U+FFFD替换返回结果中无效的UTF-8字符。U+FFFD显示形式为�。
- 查询和分析语句（调试）
```
* | SELECT
  from_utf8(from_base64('0x80'))
```
- 查询和分析结果：查询结果返回单列 _col0，值为包含替换字符 �（U+FFFD）的字符串，即无效的UTF-8字节已被默认替换字符替换。
将二进制字符串0x80解码为UTF-8编码格式，并使用0替换返回结果中无效的UTF-8字符。
- 查询和分析语句（调试）
```
* | SELECT
  from_utf8(from_base64('0x80'), '0')
```
- 查询和分析结果返回结果为单列 _col0，值为 0□4，其中方框为无法正常渲染的字节，即 from_utf8 函数将无效 UTF-8 字节替换后的输出。

length函数

length函数用于计算字符串的长度。

语法

length(x)

参数说明

参数	说明
x	参数值为varchar类型。

返回值类型

bigint类型。

示例

计算http_user_agent字段值的长度。

字段样例

http_user_agent:Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.2 (KHTML, like Gecko) Chrome/22.0.1216.0 Safari/537.2

查询和分析语句（调试）
```
* | SELECT
  length(http_user_agent)
```
查询和分析结果为 127，表示该 http_user_agent 字段值的字符串长度。

levenshtein_distance函数

levenshtein_distance函数用于计算两个字符串的最小编辑距离。

语法

levenshtein_distance(x, y)

参数说明

参数	说明
x	参数值为varchar类型。
y	参数值为varchar类型。

返回值类型

bigint类型。

示例

查询instance_id字段值和owner_id字段值的最小编辑距离。

字段样例
```
instance_id:i-01
owner_id:owner-01
```

查询和分析语句（调试）

* | SELECT
  levenshtein_distance(owner_id, instance_id)

查询和分析结果为 5。

lower函数

lower函数用于将字符串转换为小写形式。

语法

lower(x)

参数说明

参数	说明
x	参数值为varchar类型。

返回值类型

varchar类型。

示例

将request_method字段的值转换为小写形式。

字段样例
```
request_method:GET
```
查询和分析语句（调试）
```
* | SELECT
  lower(request_method)
```
查询和分析结果为get。

lpad函数

lpad函数用于在目标字符串的开头填充指定的字符，直到指定长度后返回结果字符串。

语法

lpad(x, length, lpad_string)

参数说明

参数	说明
x	参数值为varchar类型。
length	整数，用于指定结果字符串的长度。当字符串的长度小于length时，在字符串的开头填充指定的字符。当字符串的长度大于length时，只返回字符串中的length个字符。
lpad_string	新填充的字符。

返回值类型

varchar类型。

示例

将instance_id字段值的长度补充到10位，不足10位时，在字段值的开头补充0。

字段样例
```
instance_id:i-01
```
查询和分析语句（调试）
```
* | SELECT
  lpad(instance_id, 10, '0')
```
查询和分析结果中，_col0 列的返回值为 000000i-01。

ltrim函数

ltrim函数用于删除字符串中开头的空格。

语法

ltrim(x)

参数说明

参数	说明
x	参数值为varchar类型。

返回值类型

varchar类型。

示例

删除region字段值开头的空格。

字段样例
```
region: cn-shanghai
```
查询和分析语句（调试）
```
* | SELECT
  ltrim(region)
```
查询和分析结果为 cn-shanghai。

normalize函数

normalize函数使用NFC格式将字符串格式化。

语法

normalize(x)

参数说明

参数	说明
x	参数值为varchar类型。

返回值类型

varchar类型。

示例

使用NFC格式将字符串schön格式化。

查询和分析语句（调试）
```
* | SELECT
  normalize('schön')
```
查询和分析结果返回一行一列（列名 _col0），值为 schön。

position函数

position函数用于查询目标子串在字符串中的位置。

语法

position(sub_string in x)

参数说明

参数	说明
sub_string	目标子串。
x	参数值为varchar类型。

返回值类型

int类型，从1开始。如果字符串中不存在目标子串，则返回0。

示例

查询子串cn在region字段值中位置。

字段样例
```
region:cn-shanghai
```
查询和分析语句（调试）
```
* | SELECT
  position('cn' in region)
```
查询和分析结果返回 _col0 列，值为 1，表示子串 cn 在字段值 cn-shanghai 中的起始位置为1。

replace函数

replace函数用于删除字符串中所匹配的字符或者将字符串中所匹配的字符替换为其他指定字符。

语法

删除字符串中所匹配的字符。
```
replace(x, sub_string)
```
将字符串中所匹配的字符替换为其他指定字符。
```
replace(x, sub_string, replace_string)
```

参数说明

参数	说明
x	参数值为varchar类型。
sub_string	目标子串。
replace_string	用于替换的子串。

返回值类型

varchar类型。

示例

示例1：将region字段值中的cn替换为中国。
- 字段示例
```
region:cn-shanghai
```
- 查询和分析语句（调试）
```
* | select
  replace(region, 'cn', '中国')
```
- 查询和分析结果中，_col0 列的值为 中国-shanghai。
示例2：删除region字段值中的cn-。
- 字段示例
```
region:cn-shanghai
```
- 查询和分析语句（调试）
```
* | select
  replace(region, 'cn-')
```
- 查询和分析结果返回结果为shanghai。

reverse函数

reverse函数用于返回反向顺序的字符串。

语法

reverse(x)

参数说明

参数	说明
x	参数值为varchar类型。

返回值类型

varchar类型。

示例

将request_method字段值反向排序。

字段样例
```
request_method:GET
```
查询和分析语句（调试）
```
* | SELECT
  reverse(request_method)
```
查询和分析结果为 TEG。

rpad函数

rpad函数用于在字符串的尾部填充指定的字符，直到指定长度后返回结果字符串。

语法

rpad(x, length, rpad_string)

参数说明

参数	说明
x	参数值为varchar类型。
length	整数，用于指定结果字符串的长度。当字符串的长度小于length时，在字符串的尾部填充指定的字符。当字符串的长度大于length时，只返回字符串中的length个字符。
rpad_string	新填充的字符。

返回值类型

varchar类型。

示例

将instance_id字段值的长度补充到10位，不足10位时，在字段值的尾部补充0。

字段样例
```
instance_id:i-01
```
查询和分析语句（调试）
```
* | SELECT
  rpad(instance_id, 10, '0')
```
查询和分析结果：_col0 列返回值为 i-01000000。

rtrim函数

rtrim函数用于删除字符串中结尾的空格。

语法

rtrim(x)

参数说明

参数	说明
x	参数值为varchar类型。

返回值类型

varchar类型。

示例

删除instance_id字段值中结尾的空格。

字段样例
```
instance_id:i-01 
```
查询和分析语句（调试）
```
* | SELECT
  rtrim(instance_id)
```
查询和分析结果：_col0 列返回值为 i-01。

split函数

split函数用于通过指定的分隔符拆分字符串，并返回拆分后的子串集合。

语法

通过指定的分隔符拆分字符串，并返回拆分后的子串集合。
```
split(x, delimeter)
```
通过指定的分隔符拆分字符串并使用limit限制字符串拆分的个数，然后返回拆分后的子串集合。
```
split(x,delimeter,limit)
```

参数说明

参数	说明
x	参数值为varchar类型。
delimeter	分隔符。
limit	限制字符串拆分的个数，大于0的整数。

返回值类型

array类型。

示例

示例1：使用正斜线（/）将request_uri字段的值拆分成4个子串，并返回子串的集合。
- 字段样例
```
request_uri:/request/path-1/file-9
```
- 查询和分析语句（调试）
```
* | SELECT
  split(request_uri, '/')
```
- 查询和分析结果：查询返回结果为 ["" ,"request","path-1","file-9"]，即 request_uri 按 / 拆分后的数组。
示例2：使用正斜线（/）将request_uri字段的值拆分成3个子串，并返回子串的集合。
- 字段样例
```
request_uri:/request/path-1/file-9
```
- 查询和分析语句（调试）
```
* | SELECT
  split(request_uri, '/', 3)
```
- 查询和分析结果中，_col0列的值为["","request","path-1/file-9"]。

split_part函数

split_part函数通过指定的分隔符拆分字符串，并返回指定位置的内容。

语法

split_part(x, delimeter, part)

参数说明

参数	说明
x	参数值为varchar类型。
delimeter	分隔符。
part	大于0的整数。

返回值类型

varchar类型。

示例

使用英文问号（?）拆分request_uri字段的值并返回第一个子串（即文件路径部分），然后统计不同路径对应的请求数量。

字段样例

request_uri: /request/path-2/file-6?name=value&age=18
request_uri: /request/path-2/file-0?name=value&age=18
request_uri: /request/path-3/file-2?name=value&age=18

查询和分析语句（调试）

* | SELECT
  count(*) AS PV,
  split_part(request_uri, '?', 1) AS Path
GROUP BY
  Path
ORDER BY
  pv DESC

查询和分析结果：/request/path-2/file-6 的 PV 为 49，/request/path-2/file-0 的 PV 为 47，/request/path-3/file-2 的 PV 为 44。

split_to_map函数

split_to_map函数用于使用指定的第一个分隔符拆分字符串，然后再使用指定的第二个分隔符进行第二次拆分。

语法

split_to_map(x, delimiter01, delimiter02)

参数说明

参数	说明
x	参数值为varchar类型。
delimeter01	分隔符。
delimeter02	分隔符。

返回值类型

map类型。

示例

使用英文逗号（,）和英文冒号（:）拆分time字段的值，返回结果为MAP类型。

字段样例

time:upstream_response_time:"80", request_time:"40"

查询和分析语句

* | SELECT
  split_to_map(time, ',', ':')

查询和分析结果为 {"request_time":"\"40\"","upstream_response_time":"\"80\""}，即 split_to_map 函数将键值对字符串拆分为 JSON 格式的 map 输出。

strpos函数

strpos函数用于返回目标子串在字符串中的位置。与position函数等价。

语法

strpos(x, sub_string)

参数说明

参数	说明
x	参数值为varchar类型。
sub_string	目标子串。

返回值类型

int类型，从1开始。如果字符串中不存在目标子串，则返回0。

示例

返回字母H在server_protocol字段值中的位置。

查询和分析语句（调试）

* | SELECT
  strpos(server_protocol, 'H')

查询和分析结果：_col0 列返回两行数据，值均为 1，表示字符 H 在 server_protocol 字段中首次出现的位置为 1。

substr函数

substr函数用于返回字符串中指定位置的子串。

语法

返回字符串中指定位置的子串。
```
substr(x, start)
```
返回字符串中指定位置的子串，并指定子串长度。
```
substr(x,start,length)
```

参数说明

参数	说明
x	参数值为varchar类型。
start	开始提取子串的位置，从1开始。
length	子串的长度。

返回值类型

varchar类型。

示例

提取server_protocol字段值中的前4个字符（即HTTP部分），然后统计HTTP协议对应的请求数量。

字段样例
```
server_protocol:HTTP/2.0
```

查询和分析语句（调试）

* | SELECT
  substr(server_protocol, 1, 4) AS protocol,
  count(*) AS count
GROUP BY
  server_protocol

查询和分析结果中，protocol 列值为 HTTP，count 列值为 9078。

to_utf8函数

to_utf8函数用于将字符串转换为UTF-8编码格式。

语法

to_utf8(x)

参数说明

参数	说明
x	参数值为varchar类型。

返回值类型

varbinary类型。

示例

将字符串log转换为UTF-8编码格式。

查询和分析语句（调试）
```
* | SELECT
  to_utf8('log')
```
查询和分析结果中，_col0 列的返回值为 bG9n。

trim函数

trim函数用于删除字符串中开头和结尾的空格。

语法

trim(x)

参数说明

参数	说明
x	参数值为varchar类型。

返回值类型

varchar类型。

示例

删除instance_id字段值的开头和结尾的空格。

字段样例
```
instance_id: i-01 
```
查询和分析语句（调试）
```
* | SELECT
  trim(instance_id)
```
查询和分析结果

upper函数

upper函数用于将目标字符串转化为大写形式。

语法

upper(x)

参数说明

参数	说明
x	参数值为varchar类型。

返回值类型

varchar类型。

示例

将region字段值转换为大写形式。

字段样例
```
region:cn-shanghai
```
查询和分析语句（调试）
```
* | SELECT
  upper(region)
```
查询和分析结果为CN-SHANGHAI。

csv_extract_map函数

csv_extract_map函数用于提取目标字符串中单行CSV信息。

语法

csv_extract_map(x, delimeter, quote, keys)

参数说明

参数	说明
x	参数值为varchar类型。
delimeter	CSV分隔符。参数值为varchar类型，且长度为1。
quote	CSV引用符。参数值为varchar类型，且长度为1。
keys	CSV信息输出的key名称。参数值为array类型，元素数目与数据中CSV信息数目不一致时返回null。

返回值类型

map(varchar, varchar)类型。

示例

提取content字段中的CSV信息。

字段样例

content: '192.168.0.100,"10/Jun/2019:11:32:16,127 +0800",example.aliyundoc.com'

查询和分析语句

select csv_extract_map(content, ',', '"', array['ip', 'time', 'host']) as item

输出数据
查询结果返回一条 JSON 记录：{"ip":"192.168.0.100","host":"example.aliyundoc.com","time":"10/Jun/2019:11:32:16,127 +0800"}。

ilike函数

ilike忽略输入字符串的大小写，判断是否匹配指定的字符模式

语法

ilike(x, pattern)

参数说明

参数

说明

参数值为varchar类型。

pattern

字符模式，包括字符串和通配符。通配符说明如下：

百分号（%）代表任意个字符。
下划线（_）代表单个字符。

返回值类型

boolean类型

示例

判断request_uri是否以file-6结尾

字段样例

request_uri: '/request/path-2/File-6'

查询和分析语句

select ilike(request_uri, '%file-6')

输出数据

查询和分析结果为 true，即 request_uri 以 file-6 结尾。

str_uuid函数

str_uuid() 函数用于生成一个随机的 128 位 ID，并以字符串格式返回。

语法

str_uuid()

返回值

返回值类型： VARCHAR
格式： 标准的 36 个字符字符串，包含 32 个十六进制数字和 4 个连字符 -。
结构示例： xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx

示例

在模拟测试环境时，快速生成大批量的唯一标识。

* | extend uuid = str_uuid()

gzip_compress函数

gzip_compress 函数接收一个字符串对象，并使用 GZIP 算法对其进行压缩，返回压缩后的二进制数据。

语法

-- 方式 1：默认级别，默认级别为6
gzip_compress(data)
-- 方式 2：指定级别
gzip_compress(data, compression_level)

参数说明

参数	类型	说明
data	VARCHAR	待压缩的字符串内容。
compression_level	BIGINT	压缩级别。通常取值为 1 到 9。

返回值

返回值类型：VARBINARY
说明：压缩后的二进制数据。

示例

示例一：基础压缩

* | extend compress_data =  gzip_compress('Hello World')

示例二：追求极致压缩率（针对大文本）
如果你有一段几万字的日志，且对存储空间非常敏感，可以使用级别 9：
```
* | extend compress_data =  gzip_compress('Hello World',9)
```

gzip_decompress函数

gzip_decompress 函数接收 GZIP 格式压缩后的二进制数据（Varbinary），并将其解压还原。

语法

gzip_decompress(binary_data)

参数说明

binary_data 必须是有效的 GZIP 压缩格式数据（通常由 gzip_compress 生成）。如果传入的内容不是标准的 GZIP 格式，函数会返回 NULL

返回值

返回值类型：VARCHAR
说明：解压后的原始明文内容。

示例

简单的压缩与解压链路：

* | extend original_content =  gzip_decompress(gzip_compress('Hello SLS!'))
-- 输出: "Hello SLS!"

search函数

search函数用于在SQL分析语句中对日志数据执行全文检索。search函数以标准SQL函数的形式提供，支持复杂的查询条件，包括布尔操作、字段限定、模糊查询、范围查询等。

使用限制

限制项	说明
单实例限制	每个子查询（底层SELECT）中只能使用一个`search()`函数。如需多个查询条件，请将条件合并到一个`search()`调用中，例如`search('error AND timeout')`。
OR操作符限制	`search()`函数不能与SQL层的OR操作符组合使用。在search函数内部可以使用OR，例如`search('error OR warning')`是允许的。
已创建索引且非扫描模式	扫描模式下不支持search函数。
查询语法输入冲突	当查询语法输入包含实际过滤条件时，不能使用search函数。查询语法输入为空或为`*`时允许使用。
参数类型	search函数的参数只能是字符串字面量，不支持列引用、变量或函数表达式等动态值。
参数数量	必须且仅能接受1个参数。

语法

search(search_expression)

在查询分析语句中的使用格式如下：

* | SELECT ... FROM log WHERE search('search_expression')

重要：search函数只能用在WHERE子句中。

参数说明

参数	说明
search_expression	字符串字面量，表示查询表达式。`search_expression`需要完全遵守SLS查询语法，拥有和查询语法与功能一样的功能，支持全文查询、字段查询、布尔运算、模糊查询、范围查询等。

返回值类型

BOOLEAN类型。true表示当前行匹配查询条件，false表示不匹配。

示例

示例1：使用search函数查询包含error和timeout的日志。
```
* | SELECT * FROM log WHERE search('error AND timeout')
```
示例2：使用search函数进行字段限定查询，查询status字段值为200的日志。
```
* | SELECT * FROM log WHERE search('status: 200')
```
示例3：search函数与SQL谓词通过AND组合使用，查询status为200且请求时间大于100的日志。
```
* | SELECT * FROM log
    WHERE search('status: 200') AND request_time > 100
```
详情请参考使用search函数进行全文检索。