Clickhouse处理JSON文档
在Yandex.Metrica中,JSON由用户作为会话参数传输。这个JSON有一些特殊的功能。 (尽管在大多数情况下,JSON还需要进行预处理,结果值将以处理后的格式放在不同的列中)。所有这些函数都基于对JSON的一些假设,它们尽可能少地完成工作。
有如下假设:
—字段名称(函数参数)必须是一个常量。
—字段名称以某种方式在JSON中正则编码。例如:visitParamHas(’{“abc”:“def”}’,‘abc’)= 1,visitParamHas(’{“\ u0061 \ u0062 \ u0063”:“def”}’,‘abc’ )= 0
—字段在任何嵌套级别上进行搜索。如果有多个匹配的字段,则使用第一个匹配的字段。
—JSON没有字符串外的空格字符。
visitParamHas(params, name)
检查是否存在具有“name”名称的字段。
visitParamExtractUInt(params, name)
从名为“name”的字段值解析UInt64。如果这是一个字符串字段,它会尝试从字符串的开头解析一个数字。如果该字段不存在,或者存在但不包含数字,则返回0。
visitParamExtractInt(params, name)
与Int64相同.
visitParamExtractFloat(params, name)
与Float64相同.
visitParamExtractBool(params, name)
解析一个 true/false 值. 结果是 UInt8.
visitParamExtractRaw(params, name)
返回一个域的值, 包括分隔符.
示例:
visitParamExtractRaw(’{“abc”:"\n\u0000"}’, ‘abc’) = ‘"\n\u0000"’
visitParamExtractRaw(’{“abc”:{“def”:[1,2,3]}}’, ‘abc’) = '{“def”:[1,2,3]}' visitParamExtractString(params, name)
用双引号解析字符串。值是未转义的。如果转码失败,它将返回一个空字符串。
示例:
visitParamExtractString(’{“abc”:"\n\u0000"}’, ‘abc’) = ‘\n\0’visitParamExtractString(’{“abc”:"\u263a"}’, ‘abc’) = ‘☺’visitParamExtractString(’{“abc”:"\u263"}’, ‘abc’) = ‘‘visitParamExtractString(’{“abc”:"hello}’, ‘abc’) = ‘’
参考: http://www.clickhouse.com.cn/topic/5a5f64369d28dfde2ddc5e2d