可以看看你胖次吗

2020年8月6日

Mac OS ITerm2 终极配置

摘要：搬运大佬的博客 https://www.jianshu.com/p/405956cdaca6 阅读全文

posted @ 2020-08-06 18:17 可以看看你胖次吗阅读(404) 评论(0) 推荐(0)

2020年7月26日

数仓建模理论（传送门）

摘要： https://www.cnblogs.com/muchen/p/5310732.html 阅读全文

posted @ 2020-07-26 20:29 可以看看你胖次吗阅读(389) 评论(0) 推荐(0)

2020年7月7日

Sqoop在导入数据的时候数据倾斜

摘要： Sqoop 抽数的并行化主要涉及到两个参数：num-mappers：启动N个map来并行导入数据，默认4个； split-by：按照某一列来切分表的工作单元。 split切分算法默认是根据主键来的：比如map 个数为4，取（主键最大值 - 主键最小值）/ map 数量，这就分成了 4份，如果阅读全文

posted @ 2020-07-07 22:14 可以看看你胖次吗阅读(1476) 评论(1) 推荐(0)

2020年7月3日

Kafka 事务传送门

摘要： http://trumandu.github.io/2019/07/08/kafka%E5%B9%82%E7%AD%89%E6%80%A7%E5%92%8C%E4%BA%8B%E5%8A%A1%E4%BD%BF%E7%94%A8%E5%8F%8A%E5%AE%9E%E7%8E%B0%E5%8E%9F 阅读全文

posted @ 2020-07-03 14:31 可以看看你胖次吗阅读(262) 评论(0) 推荐(0)

2020年6月30日

MySQL 实现主键存在则更新，不存在则插入语义

摘要：转载 https://blog.csdn.net/qq2430/article/details/80511640 replace into和on duplcate key update都是只有在primary key或者unique key冲突的时候才会执行。如果数据存在，replace into则阅读全文

posted @ 2020-06-30 10:41 可以看看你胖次吗阅读(667) 评论(0) 推荐(0)

2020年6月23日

hive 与phoenix 整合兼容性解决方法

摘要：参考链接：https://www.jianshu.com/p/90e423f0722c 阅读全文

posted @ 2020-06-23 18:30 可以看看你胖次吗阅读(663) 评论(0) 推荐(0)

2020年6月21日

Flink ON Yarn 配置

摘要：附上官网链接 https://ci.apache.org/projects/flink/flink-docs-release-1.10/zh/ops/deployment/hadoop.html 方法一：方法二：个人体验在我配置了Hadoop_classpath之后，还是会显示 org.apa 阅读全文

posted @ 2020-06-21 16:01 可以看看你胖次吗阅读(620) 评论(0) 推荐(0)

Flink 实现订单支付实时监控

摘要：需求对订单信息流进行监控，15分钟之内没有支付的发出警告 Flink CEP 实现 import org.apache.flink.cep.scala.{CEP, PatternStream} import org.apache.flink.cep.scala.pattern.Pattern im 阅读全文

posted @ 2020-06-21 11:45 可以看看你胖次吗阅读(1308) 评论(1) 推荐(0)

2020年6月20日

Flink 实现双流Join

摘要：需求将五分钟之内的订单信息和支付信息进行对账，对不上的发出警告代码实现 import org.apache.flink.api.common.state.{ValueState, ValueStateDescriptor} import org.apache.flink.api.scala.ty 阅读全文

posted @ 2020-06-20 21:58 可以看看你胖次吗阅读(1824) 评论(1) 推荐(1)

Flink 用布隆过滤器来实现UV统计

摘要：需求查询一个小时之内的用户访问量（一个用户算一个）难点：如果用户量很多，要想用Set等数据结构实现去重不太现实，随时都会OOM，这时就得利用布隆过滤器，先判断user是否存在，不存在则计数+1，存在则不做计算，这样能节省大量的内存空间利用Flink官方实现的布隆过滤器来实现 package p 阅读全文

posted @ 2020-06-20 21:49 可以看看你胖次吗阅读(3545) 评论(0) 推荐(1)

Flink 实现实时TOPN 需求

摘要：需求求每个小时内用户点击量的TOP3，每五分钟更新一次 bean：利用底层API实现 import java.sql.Timestamp import org.apache.flink.api.common.functions.AggregateFunction import org.apach 阅读全文

posted @ 2020-06-20 21:04 可以看看你胖次吗阅读(1341) 评论(0) 推荐(1)

2020年6月15日

Spark 双流join代码示例

摘要：基本思想与flink流的join原理不同的是，Spark双流join是对俩个流做满外连接，因为网络延迟等关系，不能保证每个窗口中的数据key都能匹配上，这样势必会出现三种情况：（some，some），（None，some），（Some,None）,根据这三种情况，下面做一下详细解析：（some 阅读全文

posted @ 2020-06-15 20:21 可以看看你胖次吗阅读(1726) 评论(2) 推荐(1)

2020年6月14日

cana保证写入到kafka的数据有序

摘要：参考链接https://blog.csdn.net/weixin_41279060/article/details/79045151?utm_medium=distribute.wap_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2 阅读全文

posted @ 2020-06-14 23:30 可以看看你胖次吗阅读(244) 评论(0) 推荐(0)

2020年6月10日

JDBC远程连接显示表不存在

摘要：问题在通过flink -jdbc 连接MySQL数据库时，发现程序报错表不存在解决在Linux下的MySQL默认对表名字的大小写敏感，而windows下默认不敏感参考链接：https://www.cnblogs.com/kevingrace/p/6150748.html 阅读全文

posted @ 2020-06-10 18:58 可以看看你胖次吗阅读(481) 评论(0) 推荐(0)

2020年6月5日

Kafka消费者如何控制消费速度

摘要：消费太慢考虑增加Topic的分区数，并且同时提升消费组的消费者数量，消费者数=分区数。（两者缺一不可）消费太快参考来源：https://blog.csdn.net/weixin_33797791/article/details/88003844?utm_medium=distribute.pc 阅读全文

posted @ 2020-06-05 13:00 可以看看你胖次吗阅读(19124) 评论(0) 推荐(1)

可以看看你胖次吗

欲上九天揽月，纵然失败，仍与星辰同在！

公告