上一页 1 ··· 5 6 7 8 9 10 11 12 13 14 下一页
摘要: 问题一: 绝对路径用什么符号表示?当前目录、上层目录用什么表示?主目录用什么表示? 切换目录用什么命令? 答案:绝对路径:如/etc/init.d当前目录和上层目录:./ ../主目录:~/切换目录:cd问题二: 怎么查看当前进程?怎么执行退出?怎么查看当前路径?答案:查看当前进程:ps执行退出:e 阅读全文
posted @ 2020-01-18 17:54 sw_kong 阅读(418) 评论(0) 推荐(0) 编辑
摘要: 监控spark应用的方式比较多,比如spark on yarn可以通过yarnClient api监控。这里介绍的是spark内置的一种监控方式 如果是sparkStreaming,对应的则是streamingListener package cn.com.kong; import org.apac 阅读全文
posted @ 2020-01-17 13:50 sw_kong 阅读(3347) 评论(0) 推荐(0) 编辑
摘要: /** * Returns a new Dataset that has exactly `numPartitions` partitions, when the fewer partitions * are requested. If a larger number of partitions i 阅读全文
posted @ 2020-01-17 09:50 sw_kong 阅读(678) 评论(0) 推荐(1) 编辑
摘要: 转载自网易范欣欣http://hbasefly.com Join背景介绍 Join是数据库查询永远绕不开的话题,传统查询SQL技术总体可以分为简单操作(过滤操作-where、排序操作-limit等),聚合操作-groupBy等以及Join操作等。其中Join操作是其中最复杂、代价最大的操作类型,也是 阅读全文
posted @ 2020-01-10 09:38 sw_kong 阅读(338) 评论(0) 推荐(0) 编辑
摘要: hbase hbck主要用来检查hbase集群region的状态以及对有问题的region进行修复。 hbase hbck :检查hbase所有表的一致性,如果正常,就会Print OK hbase hbck -details:检查hbase所有表的一致性,并且输出详细报告。 hbase hbck 阅读全文
posted @ 2020-01-09 14:34 sw_kong 阅读(3586) 评论(0) 推荐(0) 编辑
摘要: 大表x小表 这里可以利用mapjoin,SparkSQL中也有mapjoin或者使用广播变量能达到同样效果,此处描述HQL // 开启mapjoin并设定map表大小 set hive.auto.convert.join.noconditionaltask = true; set hive.auto 阅读全文
posted @ 2020-01-09 13:23 sw_kong 阅读(3197) 评论(0) 推荐(0) 编辑
摘要: bitSet对那种海量无符号的整数,去重,统计,判断元素是否存在之类的比较高效。bitSet不需要存储元素本身 但是面对其他情况,比如处理url,则需要使用哈希函数将URL处理为1bit,存储在BitSet中。但是,哈希函数发生冲突的概率比较高,若要降低冲突概率到1%,就要将BitSet的长度设置为 阅读全文
posted @ 2020-01-09 10:36 sw_kong 阅读(282) 评论(0) 推荐(0) 编辑
摘要: spark aggregate源代码 /** * Aggregate the elements of each partition, and then the results for all the partitions, using * given combine functions and a 阅读全文
posted @ 2020-01-07 16:28 sw_kong 阅读(252) 评论(0) 推荐(0) 编辑
摘要: 背景 我们以网络爬虫为例。网络间的链接错综复杂,爬虫程序在网络间“爬行”很可能会形成“环”。为了避免形成“环”,程序需要知道已经访问过网站的URL。当程序又遇到一个网站,根据它的URL,怎么判断是否已经访问过呢? 第一个想法就是将已有URL放置在HashSet中,然后利用HashSet的特性进行判断 阅读全文
posted @ 2020-01-07 14:36 sw_kong 阅读(636) 评论(0) 推荐(0) 编辑
摘要: 系统架构介绍 整个实时监控系统的架构是先由 Flume 收集服务器产生的日志 Log 和前端埋点数据, 然后实时把这些信息发送到 Kafka 分布式发布订阅消息系统,接着由 Spark Streaming 消费 Kafka 中的消息,同时消费记录由 Zookeeper 集群统一管理,这样即使 Kaf 阅读全文
posted @ 2020-01-07 11:32 sw_kong 阅读(547) 评论(0) 推荐(0) 编辑
上一页 1 ··· 5 6 7 8 9 10 11 12 13 14 下一页