2020 年 1月 7 日随笔档案 - sw_kong

2020年1月7日

摘要： spark aggregate源代码 /** * Aggregate the elements of each partition, and then the results for all the partitions, using * given combine functions and a 阅读全文

posted @ 2020-01-07 16:28 sw_kong 阅读(255) 评论(0) 推荐(0) 编辑

布隆过滤器（Bloom Filter）

摘要：背景我们以网络爬虫为例。网络间的链接错综复杂，爬虫程序在网络间“爬行”很可能会形成“环”。为了避免形成“环”，程序需要知道已经访问过网站的URL。当程序又遇到一个网站，根据它的URL，怎么判断是否已经访问过呢？第一个想法就是将已有URL放置在HashSet中，然后利用HashSet的特性进行判断阅读全文

posted @ 2020-01-07 14:36 sw_kong 阅读(656) 评论(0) 推荐(0) 编辑

【转】Spark Streaming 实时计算在甜橙金融监控系统中的应用及优化

摘要：系统架构介绍整个实时监控系统的架构是先由 Flume 收集服务器产生的日志 Log 和前端埋点数据, 然后实时把这些信息发送到 Kafka 分布式发布订阅消息系统，接着由 Spark Streaming 消费 Kafka 中的消息，同时消费记录由 Zookeeper 集群统一管理，这样即使 Kaf 阅读全文

posted @ 2020-01-07 11:32 sw_kong 阅读(569) 评论(0) 推荐(0) 编辑

sw_kong

公告