随笔分类 - 数据开发
摘要:技术准备 HttpClient Java比较常用的发起请求的工具,功能有: 方便的发起get、post等请求 可以设置连接池(类似线程池),使用池化思想降低频繁创建连接的开销 可以自己编写代码设置多线程爬取 ... 代码模板 public static void main(String[] args
阅读全文
摘要:概述 最近做了一个小任务,要使用Flink处理域名数据,在4GB的域名文档中求出每个域名的顶级域名,最后输出每个顶级域名下的前10个子级域名。一个比较简单的入门级Flink应用,代码很容易写,主要用到的算子有FlatMap、KeyBy、Reduce。但是由于Maven打包问题,总是提示找不到入口类,
阅读全文
摘要:ELK介绍 ELK即ElasticSearch + Logstash + kibana ES:作为存储引擎 Logstash:用来采集日志 Kibana可以将ES中的数据进行可视化,可以进行数据分析中常见的对属性求和、平均值、计数,按照时间戳或其他日志展示出来 整体的流程就是先把logstash启动
阅读全文