摘要:
使用 netcat 数据源测试 Flume 请对 Flume 的相关配置文件进行设置,从而可以实现如下功能:在一个 Linux 终端(这 里称为“Flume 终端”)中,启动 Flume,在另一个终端(这里称为“Telnet 终端”)中, 输入命令“telnet localhost 44444”,然 阅读全文
2020年2月12日
2020年2月11日
2020年2月9日
2020年2月8日
2020年2月7日
摘要:
利用Sqoop导出Hive分析数据到MySQL库 一,将Hive表中数据,导入到MySQL 1.首先在Hive中,创建一张表,命名为lenum,用于存储统计结果。 create table lenum( year string, num int ) row format delimited fiel 阅读全文
2020年2月5日
2020年2月4日
摘要:
统计学生成绩 学生的成绩清单格式如下所示,第一行为表头,各字段意思分别为学号、性别、课程名 1、课程名 2 等,后面每一行代表一个学生的信息,各字段之间用空白符隔开 object scoreReport{ def main(args: Array[String]) { // 假设数据文件在当前目录下 阅读全文
2020年2月3日
摘要:
模拟图形绘制 对于一个图形绘制程序,用下面的层次对各种实体进行抽象。定义一个 Drawable 的特质,其包括一个 draw 方法,默认实现为输出对象的字符串表示。定义一个 Point 类表示点,其混入了 Drawable 特质,并包含一个 shift 方法,于移动点。所有图形实体的抽象类为Shap 阅读全文
2020年2月2日
摘要:
对爬取到的数据进行清洗,按照一定的规则把“脏数据”“洗掉”。 数据清洗是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。 import java.io.BufferedReader; import java.io.InputStreamReader; impo 阅读全文
2020年2月1日
摘要:
首先,需要采集北京市政百姓信件内容,通过网络爬虫,找到有用的信息。 网络爬虫由控制节点、爬虫节点、资源库构成。 网络爬虫中可以有多个控制节点,每个控制节点下可以有多个爬虫节点,控制节点之间可以互相通信,同时,控制节点和其下的各爬虫节点之间也可以进行互相通信,属于同一个控制节点下的各爬虫节点间,亦可以 阅读全文