上一页 1 2 3 4 5 6 ··· 11 下一页
摘要: 电脑修好了,但之前落下的几天博客确实没啥补的劲头,今天先写一份报告吧。 实验内容和要求 安装 Flume 安装成功。 使用 Avro 数据源测试 Flume 配置文件 启动flume agent a1 创建指定的日志文件 客户端传输 传输完成 使用 netcat 数据源测试 Flume 创建exam 阅读全文
posted @ 2020-02-13 22:19 limitCM 阅读(173) 评论(0) 推荐(0) 编辑
摘要: 这几天主要还是看高数和数据结构。。另外看了几个关键词提取的算法,之后试试。 阅读全文
posted @ 2020-02-11 21:18 limitCM 阅读(77) 评论(0) 推荐(0) 编辑
摘要: 这两天电脑又出问题了,准备换风扇。 这两天看了张宇的数学,了解了函数极限以及数学的魅力,嗯。 阅读全文
posted @ 2020-02-08 19:57 limitCM 阅读(95) 评论(0) 推荐(0) 编辑
摘要: 开学的日子越来越捉摸不定了,唉。 今天主要是把北京市政百姓信件分析实战这个作业做了,因为之前一直摸鱼的关系,今天一天做了太多东西(还没做完)。 最首先是爬取数据,我在找到了读取列表的api,所以我几乎把爬取数据、清洗数据、挖掘数据全给跳过了。。(放心,之后我还是要做一遍,因为还有一些功能没完成以及另 阅读全文
posted @ 2020-02-06 22:47 limitCM 阅读(148) 评论(0) 推荐(0) 编辑
摘要: 今天主要完成了北京市政百姓信件分析实战。 Spark方面只是安装了Flume,以及尝试使用套接字流作为DSteam的数据源。 启动NetCat作为套接字的监听模式,这样在端口9999就能和spark互联。 值得一提,nc -l 9999 虽然也是适用的,-k是为了可以保持多个连接,所以应该还是必要的 阅读全文
posted @ 2020-02-05 22:44 limitCM 阅读(128) 评论(0) 推荐(0) 编辑
摘要: 今天没干啥,修电脑,过。 阅读全文
posted @ 2020-02-04 21:38 limitCM 阅读(86) 评论(0) 推荐(0) 编辑
摘要: 放弃编译了,Spark连最基本的hive都不支持就当成hive被抛弃了吧。垃圾hadoop。 虽然如此,但还是很头疼,这样一来只能把最基本的CVS文件当成数据库来使用,这样虽然也挺方便,但总归只是成为折中之举,或许在以后会有更好的解决方案,现在姑且如此。 所以今天还是来写写所学内容。 今天算是仔细学 阅读全文
posted @ 2020-02-03 21:08 limitCM 阅读(129) 评论(0) 推荐(0) 编辑
摘要: 因为想要通过hive作为数据库来保存爬取后和处理完成的数据,需要添加spark的hive支持,这方面还没编译完,所以今天暂时没有这方面的进度,所以写写SparkSteaming。 数据的价值随着时间的流逝而减少 这也正是MapReduce的使用范围所产生的的极大弊端,没法应对大流量的实时数据,MR这 阅读全文
posted @ 2020-02-02 21:12 limitCM 阅读(108) 评论(0) 推荐(0) 编辑
摘要: 开始尝试sparkSQL的尝试编程。 SparkSQL总体来说就是spark中的hive,但麻烦的一点是spark官网下载的并不自带对hive的支持,所以不能使用外部的hive。之后解决。 所以这次主要关注dataframe的编程。 首先创建了一个json文件用来创建DataFrame,内容为: { 阅读全文
posted @ 2020-02-01 22:32 limitCM 阅读(112) 评论(0) 推荐(0) 编辑
摘要: 今天想记录下如何在windows环境下远程提交代码到spark集群上面运行。 博客中提到的环境变量配置方法已经有更简单的方式可以替代。 使用findspark模块来达到自动配置环境变量的目的。 Findspark 之后就可以在代码前端加入 import findspark findspark.ini 阅读全文
posted @ 2020-01-27 21:49 limitCM 阅读(147) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 11 下一页