上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 17 下一页
摘要: 今天看了看实验六。 1. 安装 Flume 2. 使用 Avro 数据源测试 Flume Avro 可以发送一个给定的文件给 Flume,Avro 源使用 AVRO RPC 机制。请对 Flume的相关配置文件进行设置,从而可以实现如下功能:在一个终端中新建一个文件helloworld.txt(里面 阅读全文
posted @ 2020-02-11 16:17 星辰° 阅读(254) 评论(0) 推荐(0) 编辑
摘要: 今天尝试爬疫情数据,找了好长时间都没找到有历史数据的,最后好不容易发现360的疫情追踪分析里可以提取出历史数据。 https://m.look.360.cn/events/feiyanMulTrendNew?sv=&version=&market=&device=2&net=4&stype=&sce 阅读全文
posted @ 2020-02-10 19:49 星辰° 阅读(154) 评论(0) 推荐(0) 编辑
摘要: 今天学习spark编程,完成了实验五。 1 .Spark SQL 基本操作 将下列 JSON 格式数据复制到 Linux 系统中,并保存命名为 employee.json。{ "id":1 , "name":" Ella" , "age":36 }{ "id":2, "name":"Bob","ag 阅读全文
posted @ 2020-02-09 15:32 星辰° 阅读(656) 评论(0) 推荐(0) 编辑
摘要: 今天将实验四全部完成。 2. 编写独立应用程序实现数据去重 对于两个输入文件 A 和 B,编写 Spark 独立应用程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新文件 C。下面是输入文件和输出文件的一个样例,供参考。 输入文件 A 的样例如下: 20170101 x20170102 y2 阅读全文
posted @ 2020-02-08 19:13 星辰° 阅读(793) 评论(0) 推荐(0) 编辑
摘要: 今天学了一点spark的内容,做了实验四的第一个。 1 .spark-shell 交互式编程 请到本教程官网的“下载专区”的“数据集”中下载 chapter5-data1.txt,该数据集包含了某大学计算机系的成绩,数据格式如下所示: Tom,DataBase,80Tom,Algorithm,50T 阅读全文
posted @ 2020-02-07 15:23 星辰° 阅读(576) 评论(0) 推荐(0) 编辑
摘要: 今天做了做实验三。Hadoop之前已经安装好了,只需要安装Spark就可以了。 安装Spark 安装详情参照慕课网Spark安装教程(https://wiki.imooc.com/spark/install.html),我下载的是2.4.5版本(https://www.apache.org/dyn/ 阅读全文
posted @ 2020-02-06 13:53 星辰° 阅读(359) 评论(0) 推荐(0) 编辑
摘要: 今天做了实验二的其余两个实验。 2. 模拟图形绘制 对于一个图形绘制程序,用下面的层次对各种实体进行抽象。定义一个 Drawable 的特质,其包括一个 draw 方法,默认实现为输出对象的字符串表示。定义一个 Point 类表示点,其混入了 Drawable 特质,并包含一个 shift 方法,用 阅读全文
posted @ 2020-02-05 21:04 星辰° 阅读(305) 评论(0) 推荐(0) 编辑
摘要: 今天在虚拟机上安装了Scala,做了实验二的一部分。 安装Scala的时候发现虚拟机上不了网了,但是外边的win10系统并没有断网,弄了好长时间终于整好了。然而具体原因还是不清楚,莫名其妙的虚拟机就能上网了。 Scala的安装 详情参考菜鸟教程的安装详解:https://www.runoob.com 阅读全文
posted @ 2020-02-04 15:48 星辰° 阅读(158) 评论(0) 推荐(0) 编辑
摘要: 今天做了做实验一,复习了一遍Linux系统的一些命令。 启动 Linux 虚拟机,进入 Linux 系统,通过查阅相关 Linux 书籍和网络资料,或者参考本教程官网的“实验指南”的“Linux 系统常用命令”,完成如下操作: (1)切换到目录 /usr/bin; (2)查看目录/usr/local 阅读全文
posted @ 2020-02-03 16:52 星辰° 阅读(331) 评论(0) 推荐(0) 编辑
摘要: 今天把信件可视化的任务完成了。在完成可视化之前没有仔细看要求,弄了好长时间的爬取信件具体内容以及官方回复,后来发现可视化并不需要信件的具体内容,之前爬取的数据已经可以满足可视化的条件了。 爬取信件具体内容需要用到以下3种网址,originalId为信件的编号,即爬取的数据中字段original_id 阅读全文
posted @ 2020-02-02 18:16 星辰° 阅读(120) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 17 下一页