sw_kong

2020年1月18日

摘要：问题一：绝对路径用什么符号表示？当前目录、上层目录用什么表示？主目录用什么表示? 切换目录用什么命令？答案：绝对路径：如/etc/init.d当前目录和上层目录：./ ../主目录：~/切换目录：cd问题二：怎么查看当前进程？怎么执行退出？怎么查看当前路径？答案：查看当前进程：ps执行退出：e 阅读全文

posted @ 2020-01-18 17:54 sw_kong 阅读(428) 评论(0) 推荐(0) 编辑

2020年1月17日

通过SparkListener监控spark应用

摘要：监控spark应用的方式比较多，比如spark on yarn可以通过yarnClient api监控。这里介绍的是spark内置的一种监控方式如果是sparkStreaming，对应的则是streamingListener package cn.com.kong; import org.apac 阅读全文

posted @ 2020-01-17 13:50 sw_kong 阅读(3398) 评论(0) 推荐(0) 编辑

dataset的reparation和coalesce

摘要： /** * Returns a new Dataset that has exactly `numPartitions` partitions, when the fewer partitions * are requested. If a larger number of partitions i 阅读全文

posted @ 2020-01-17 09:50 sw_kong 阅读(697) 评论(0) 推荐(1) 编辑

2020年1月10日

[转]SparkSQL – 有必要坐下来聊聊Join

摘要：转载自网易范欣欣http://hbasefly.com Join背景介绍 Join是数据库查询永远绕不开的话题，传统查询SQL技术总体可以分为简单操作（过滤操作-where、排序操作-limit等），聚合操作-groupBy等以及Join操作等。其中Join操作是其中最复杂、代价最大的操作类型，也是阅读全文

posted @ 2020-01-10 09:38 sw_kong 阅读(351) 评论(0) 推荐(0) 编辑

2020年1月9日

hbase hbck及region RIT处理

摘要： hbase hbck主要用来检查hbase集群region的状态以及对有问题的region进行修复。 hbase hbck ：检查hbase所有表的一致性，如果正常，就会Print OK hbase hbck -details：检查hbase所有表的一致性，并且输出详细报告。 hbase hbck 阅读全文

posted @ 2020-01-09 14:34 sw_kong 阅读(3725) 评论(0) 推荐(0) 编辑

Hive Join优化经验

摘要：大表x小表这里可以利用mapjoin，SparkSQL中也有mapjoin或者使用广播变量能达到同样效果，此处描述HQL // 开启mapjoin并设定map表大小 set hive.auto.convert.join.noconditionaltask = true; set hive.auto 阅读全文

posted @ 2020-01-09 13:23 sw_kong 阅读(3213) 评论(0) 推荐(0) 编辑

java bitSet

摘要： bitSet对那种海量无符号的整数，去重，统计，判断元素是否存在之类的比较高效。bitSet不需要存储元素本身但是面对其他情况，比如处理url，则需要使用哈希函数将URL处理为1bit，存储在BitSet中。但是，哈希函数发生冲突的概率比较高，若要降低冲突概率到1%，就要将BitSet的长度设置为阅读全文

posted @ 2020-01-09 10:36 sw_kong 阅读(287) 评论(0) 推荐(0) 编辑

2020年1月7日

spark aggregate算子

摘要： spark aggregate源代码 /** * Aggregate the elements of each partition, and then the results for all the partitions, using * given combine functions and a 阅读全文

posted @ 2020-01-07 16:28 sw_kong 阅读(255) 评论(0) 推荐(0) 编辑

布隆过滤器（Bloom Filter）

摘要：背景我们以网络爬虫为例。网络间的链接错综复杂，爬虫程序在网络间“爬行”很可能会形成“环”。为了避免形成“环”，程序需要知道已经访问过网站的URL。当程序又遇到一个网站，根据它的URL，怎么判断是否已经访问过呢？第一个想法就是将已有URL放置在HashSet中，然后利用HashSet的特性进行判断阅读全文

posted @ 2020-01-07 14:36 sw_kong 阅读(656) 评论(0) 推荐(0) 编辑

【转】Spark Streaming 实时计算在甜橙金融监控系统中的应用及优化

摘要：系统架构介绍整个实时监控系统的架构是先由 Flume 收集服务器产生的日志 Log 和前端埋点数据, 然后实时把这些信息发送到 Kafka 分布式发布订阅消息系统，接着由 Spark Streaming 消费 Kafka 中的消息，同时消费记录由 Zookeeper 集群统一管理，这样即使 Kaf 阅读全文

posted @ 2020-01-07 11:32 sw_kong 阅读(569) 评论(0) 推荐(0) 编辑

公告