Clickhouse处理JSON文档

在Yandex.Metrica中,JSON由用户作为会话参数传输。这个JSON有一些特殊的功能。 (尽管在大多数情况下,JSON还需要进行预处理,结果值将以处理后的格式放在不同的列中)。所有这些函数都基于对JSON的一些假设,它们尽可能少地完成工作。

有如下假设:

—字段名称(函数参数)必须是一个常量。

—字段名称以某种方式在JSON中正则编码。例如:visitParamHas(’{“abc”:“def”}’,‘abc’)= 1,visitParamHas(’{“\ u0061 \ u0062 \ u0063”:“def”}’,‘abc’ )= 0

—字段在任何嵌套级别上进行搜索。如果有多个匹配的字段,则使用第一个匹配的字段。

—JSON没有字符串外的空格字符。

visitParamHas(params, name)

检查是否存在具有“name”名称的字段。

visitParamExtractUInt(params, name)

从名为“name”的字段值解析UInt64。如果这是一个字符串字段,它会尝试从字符串的开头解析一个数字。如果该字段不存在,或者存在但不包含数字,则返回0。

visitParamExtractInt(params, name)

与Int64相同.

visitParamExtractFloat(params, name)

与Float64相同.

visitParamExtractBool(params, name)

解析一个 true/false 值. 结果是 UInt8.

visitParamExtractRaw(params, name)

返回一个域的值, 包括分隔符.

示例:

visitParamExtractRaw(’{“abc”:"\n\u0000"}’, ‘abc’) = ‘"\n\u0000"’

visitParamExtractRaw(’{“abc”:{“def”:[1,2,3]}}’, ‘abc’) = '{“def”:[1,2,3]}' visitParamExtractString(params, name)

用双引号解析字符串。值是未转义的。如果转码失败,它将返回一个空字符串。

示例:

visitParamExtractString(’{“abc”:"\n\u0000"}’, ‘abc’) = ‘\n\0’visitParamExtractString(’{“abc”:"\u263a"}’, ‘abc’) = ‘☺’visitParamExtractString(’{“abc”:"\u263"}’, ‘abc’) = ‘‘visitParamExtractString(’{“abc”:"hello}’, ‘abc’) = ‘’

 

参考: http://www.clickhouse.com.cn/topic/5a5f64369d28dfde2ddc5e2d

posted @ 2021-04-01 20:47  zbs666  阅读(2646)  评论(0编辑  收藏  举报