摘要: 为文档使用分词器。 1、创建索引的时候设定分词器 2、ES配置文件中,设定全局默认分词器 一、通过索引指定分词器 % curl -XPOST 'localhost:9200/myindex' -d '{ "settings":{ "number_of_shards":2, "number_of_re 阅读全文
posted @ 2024-09-10 21:27 Wind_LPH 阅读(4) 评论(0) 推荐(0) 编辑
摘要: 1、数仓建设所站在的维度不一样,那么构建好的数仓的 易用性和可扩展性也将不一样。 1)基于业务构建数仓 2)基于业务建设高质量数仓 3)基于数据体系构建数仓,建设高标准高输出高效能的数据产品体系 2、基于公司现有业务构建的数仓,在出现新的业务场景后,数据融合应该有什么参考依据呢 应以核心业务为基础, 阅读全文
posted @ 2024-07-25 11:24 Wind_LPH 阅读(4) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2024-05-23 13:55 Wind_LPH 阅读(5) 评论(0) 推荐(0) 编辑
摘要: 1、时间定义、事件时间和 处理时间 https://nightlies.apache.org/flink/flink-docs-release-1.17/docs/dev/table/concepts/time_attributes/#defining-in-ddl-12、自定义函数 https:/ 阅读全文
posted @ 2023-10-10 22:53 Wind_LPH 阅读(69) 评论(0) 推荐(0) 编辑
摘要: sqoop export -D mapred.job.name=tttt -D mapreduce.map.memory.mb=2048 -D mapreduce.map.java.opts=-Xmx2048m -m 2 --hcatalog-database ttt --hcatalog-tabl 阅读全文
posted @ 2023-03-24 10:51 Wind_LPH 阅读(52) 评论(0) 推荐(0) 编辑
摘要: 生辰数字 select posexplode(split(repeat("o", datediff("2022-12-31", "2022-12-16")), "o")) 生成日期 with dates as ( select date_add("2012-01-01", a.pos) as d f 阅读全文
posted @ 2023-01-05 16:10 Wind_LPH 阅读(407) 评论(0) 推荐(0) 编辑
摘要: spring boot 默认提供了StringRedisTemplate 工具类。key和value全部以String的方式进行序列化。 ObjectMapper是jackJson的一个工具类。 <dependency> <groupId>com.fasterxml.jackson.core</gr 阅读全文
posted @ 2022-12-26 22:15 Wind_LPH 阅读(76) 评论(0) 推荐(0) 编辑
摘要: https://www.cnblogs.com/fuzongle/p/12830572.html 阅读全文
posted @ 2022-08-11 00:56 Wind_LPH 阅读(12) 评论(0) 推荐(0) 编辑
摘要: scala 版本 1 def getSigned(createTime:String): String ={ 2 val secrectStr = appId+createTime+appKey 3 val digest: MessageDigest = MessageDigest.getInsta 阅读全文
posted @ 2022-05-02 11:18 Wind_LPH 阅读(33) 评论(0) 推荐(0) 编辑
摘要: 1、切比雪夫不等式(Chebyshev) 随机变量X分布未知,只知道期望和方差的情况下,估计概率的界限问题。、 解释了误差对概率的影响。 2、霍夫丁不等式 霍夫丁不等式解释了误差和次数n之间的关系 3、大数定律-弱大数定理、伯努利大数定理 实际应用中,实验次数很大的时候,可以使用事件的频率来代替事件 阅读全文
posted @ 2022-04-05 22:01 Wind_LPH 阅读(587) 评论(0) 推荐(0) 编辑
摘要: 背景介绍,使用flume读取Kafka并落地数据到HDFS。 初始配置如下: a1.sources = source1 a1.channels = channel1 a1.sinks = log a1.sources.source1.channels = channel1 a1.sinks.log. 阅读全文
posted @ 2022-03-28 15:57 Wind_LPH 阅读(26) 评论(0) 推荐(0) 编辑
摘要: hive小文件合并。 当使用union all会产生多个文件夹,可以设定distributed by 或者reduce个数。 hive合并。 SET hive.exec.dynamic.partition=true; SET hive.exec.dynamic.partition.mode=nons 阅读全文
posted @ 2022-01-27 10:23 Wind_LPH 阅读(821) 评论(0) 推荐(0) 编辑
摘要: 1、NIO:selector、byteBuffer、channel 2、netty:EventLoop、Channel、Futrue、Pipline、Handler、ByteBuf 3、粘包半包、协议设计、序列化知识 4、常见参数以及源码 阅读全文
posted @ 2021-12-19 10:33 Wind_LPH 阅读(55) 评论(0) 推荐(0) 编辑
摘要: 有Low Level REST Client和High Level REST Client。 Low Level REST Client需要自己拼接所有的语句,需要自己解析结果。 High Level REST Client基于 Low Level REST Client。 pom如下。 <depe 阅读全文
posted @ 2021-12-02 22:04 Wind_LPH 阅读(717) 评论(0) 推荐(0) 编辑
摘要: 相关性评分排序默认情况下,返回的结果是按照 相关性 进行排序的——最相关的文档排在最前。 首先看看 sort 参数以及如何使用它。为了按照相关性来排序,需要将相关性表示为一个数值。在 Elasticsearch 中, 相关性得分 由一个浮点数进行表示,并在搜索结果中通过 _score 参数返回, 默 阅读全文
posted @ 2021-12-01 23:20 Wind_LPH 阅读(4469) 评论(0) 推荐(0) 编辑
摘要: Elasticsearch中的所有的查询都会触发相关度得分的计算。对于那些不需要相关度得分的场景下,Elasticsearch以过滤器的形式提供了另一种查询功能,过滤器在概念上类似于查询,但是它们有非常快的执行速度,执行速度快主要有以下两个原因: 1、过滤器不会计算相关度的得分,所以它们在计算上更快 阅读全文
posted @ 2021-12-01 21:34 Wind_LPH 阅读(542) 评论(0) 推荐(0) 编辑
摘要: 复合搜索(compound query)布尔搜索(bool query)bool 查询用bool操作来组合多个查询子句为一个查询。 可用的关键字:must:必须满足filter:必须满足,对集合包含/排除的简单检查,计算速度非常快,不参与、不影响评分should:或must_not:必须不满足,在f 阅读全文
posted @ 2021-11-30 23:07 Wind_LPH 阅读(741) 评论(0) 推荐(0) 编辑
摘要: 可以使用term-level queries根据结构化数据中的精确值查找文档。结构化数据的值包括日期范围、IP地址、价格或产品ID。与全文查询不同,term-level queries不分析搜索词。相反,词条与存储在字段级别中的术语完全匹配。 词条搜索(term query)term 查询用于查询指 阅读全文
posted @ 2021-11-30 21:49 Wind_LPH 阅读(629) 评论(0) 推荐(0) 编辑
摘要: match、match_phrase、query_string POST /lagou-company-index/_search { "query":{ "match_all": {} } } # or关系 # match 类型查询,会把查询条件进行分词,然后进行查询,多个词条之间是or的关系 P 阅读全文
posted @ 2021-11-30 21:33 Wind_LPH 阅读(905) 评论(0) 推荐(0) 编辑
摘要: var token="eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJhdWQiOiJhZG1pbiIsImlzcyI6IjEifQ.Vrr3ZSo3KVcjPFoMABbN6ir_ApGD47HsPDdoeo5gG84";var xhr=new XMLHttpReq 阅读全文
posted @ 2021-11-15 17:56 Wind_LPH 阅读(220) 评论(0) 推荐(0) 编辑