随笔分类 -  数据开发

摘要:技术准备 HttpClient Java比较常用的发起请求的工具,功能有: 方便的发起get、post等请求 可以设置连接池(类似线程池),使用池化思想降低频繁创建连接的开销 可以自己编写代码设置多线程爬取 ... 代码模板 public static void main(String[] args 阅读全文
posted @ 2022-08-03 15:23 andandan 阅读(690) 评论(0) 推荐(0) 编辑
摘要:概述 最近做了一个小任务,要使用Flink处理域名数据,在4GB的域名文档中求出每个域名的顶级域名,最后输出每个顶级域名下的前10个子级域名。一个比较简单的入门级Flink应用,代码很容易写,主要用到的算子有FlatMap、KeyBy、Reduce。但是由于Maven打包问题,总是提示找不到入口类, 阅读全文
posted @ 2022-03-21 17:26 andandan 阅读(257) 评论(0) 推荐(0) 编辑
摘要:ELK介绍 ELK即ElasticSearch + Logstash + kibana ES:作为存储引擎 Logstash:用来采集日志 Kibana可以将ES中的数据进行可视化,可以进行数据分析中常见的对属性求和、平均值、计数,按照时间戳或其他日志展示出来 整体的流程就是先把logstash启动 阅读全文
posted @ 2022-03-07 15:12 andandan 阅读(783) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示