摘要:
Hive的源码Debug及Spark的内存模型 博客链接:https://www.cnblogs.com/lhk20213937/p/18136064 蓝桥杯国赛二等奖 天梯赛国赛三等奖 阅读全文
摘要:
Kafka性能测试 单节点、百兆网卡 生产者 消费者 start.time end.time data.consumed.in.MB MB.sec data.consumed.in.nMsg nMsg.sec rebalance.time.ms fetch.time.ms fetch.MB.sec 阅读全文
摘要:
Flume和Kafka Produce的配置 我们一般都会知道Flume有三个组件:source、channel、sink 我们这篇文章主要是讲解一下\(\color{ForestGreen}{Flume}\)、\(\color{ForestGreen}{Kafka Producer(Kafka生产 阅读全文
摘要:
Hive On Spark 调优 本篇博客将从hive on spark的SQL层面,来对任务做一些优化。下面的优化,从这几个方面来讲:Group、Join、并行度、小文件。 Group、Join $\color{ForestGreen}{小提示:}$ Group和Join的不同之处在于: Grou 阅读全文
摘要:
资源配置优化 从1.11开始,增加了一个通用客户端模式,(-t yarn-job) TaskManager内存模型 Flink既使用堆内存,又使用堆外内存。 指定进程内存 JVM metaspace:JVM元空间,默认256M JVM 执行内存:执行开销。有最小值和最大值。计算公式为:进程内存*0. 阅读全文
摘要:
内容介绍 hive on spark的调优,那必然涉及到这一系列框架的内存模型。本章就是来讲一下这些框架的内存模型。 hive on spark的任务,从开始到结束。总共涉及了3个框架。分别是:yarn、hive、spark 其中,hive只是一个客户端的角色。就不涉及任务运行时的内存。所以这里主要 阅读全文
摘要:
select userid, from_unixtime(createtime,'yyyy-MM-dd') as dateid, regexp_extract(browser,'^([^\\(]*).*$',1) as browser, operationsystem, device, row_nu 阅读全文
摘要:
在通过Hive SQL向Parquet或者ORC格式的表插入数据时,如果开启的分区数量太多。很容易导致OOM。即便数据只有小小的几M。 主要原因是在写入这些文件之前,需要将这些批次的行缓存到内存中。 每一个动态分区目录都会有一个文件写入器。因为这些缓冲区都是按照分区维护的。所以所需内存随着分区数量的 阅读全文
摘要:
#!/usr/bin/python3 # coding=utf-8 import datetime import subprocess def get_yesterday(): date = datetime.date.today() return date - datetime.timedelta 阅读全文
摘要:
直接在官网下载sql server的插件。 Debezium Release Series 2.5 下载完后将这个插件解压到linux里面。 路径其实是无所谓的,我在kafka目录下,创建了一个connect目录,专门放置这些插件 然后去kafka的config目录下,修改connect-distr 阅读全文