limitCM - 博客园

2020年2月13日

【2020/2/13】寒假自学——学习进度报告16

摘要：电脑修好了，但之前落下的几天博客确实没啥补的劲头，今天先写一份报告吧。实验内容和要求安装 Flume 安装成功。使用 Avro 数据源测试 Flume 配置文件启动flume agent a1 创建指定的日志文件客户端传输传输完成使用 netcat 数据源测试 Flume 创建exam 阅读全文

posted @ 2020-02-13 22:19 limitCM 阅读(173) 评论(0) 推荐(0) 编辑

2020年2月11日

【2020/2/9】寒假自学——学习进度报告15

摘要：这几天主要还是看高数和数据结构。。另外看了几个关键词提取的算法，之后试试。阅读全文

posted @ 2020-02-11 21:18 limitCM 阅读(77) 评论(0) 推荐(0) 编辑

2020年2月8日

【2020/2/8】寒假自学——学习进度报告14

摘要：这两天电脑又出问题了，准备换风扇。这两天看了张宇的数学，了解了函数极限以及数学的魅力，嗯。阅读全文

posted @ 2020-02-08 19:57 limitCM 阅读(95) 评论(0) 推荐(0) 编辑

2020年2月6日

【2020/2/6】寒假自学——学习进度报告13

摘要：开学的日子越来越捉摸不定了，唉。今天主要是把北京市政百姓信件分析实战这个作业做了，因为之前一直摸鱼的关系，今天一天做了太多东西（还没做完）。最首先是爬取数据，我在找到了读取列表的api，所以我几乎把爬取数据、清洗数据、挖掘数据全给跳过了。。（放心，之后我还是要做一遍，因为还有一些功能没完成以及另阅读全文

posted @ 2020-02-06 22:47 limitCM 阅读(148) 评论(0) 推荐(0) 编辑

2020年2月5日

【2020/2/5】寒假自学——学习进度报告12

摘要：今天主要完成了北京市政百姓信件分析实战。 Spark方面只是安装了Flume，以及尝试使用套接字流作为DSteam的数据源。启动NetCat作为套接字的监听模式，这样在端口9999就能和spark互联。值得一提，nc -l 9999 虽然也是适用的，-k是为了可以保持多个连接，所以应该还是必要的阅读全文

posted @ 2020-02-05 22:44 limitCM 阅读(128) 评论(0) 推荐(0) 编辑

2020年2月4日

【2020/2/4】寒假自学——学习进度报告11

摘要：今天没干啥，修电脑，过。阅读全文

posted @ 2020-02-04 21:38 limitCM 阅读(86) 评论(0) 推荐(0) 编辑

2020年2月3日

【2020/2/3】寒假自学——学习进度报告10

摘要：放弃编译了，Spark连最基本的hive都不支持就当成hive被抛弃了吧。垃圾hadoop。虽然如此，但还是很头疼，这样一来只能把最基本的CVS文件当成数据库来使用，这样虽然也挺方便，但总归只是成为折中之举，或许在以后会有更好的解决方案，现在姑且如此。所以今天还是来写写所学内容。今天算是仔细学阅读全文

posted @ 2020-02-03 21:08 limitCM 阅读(129) 评论(0) 推荐(0) 编辑

2020年2月2日

【2020/2/2】寒假自学——学习进度报告9

摘要：因为想要通过hive作为数据库来保存爬取后和处理完成的数据，需要添加spark的hive支持，这方面还没编译完，所以今天暂时没有这方面的进度，所以写写SparkSteaming。数据的价值随着时间的流逝而减少这也正是MapReduce的使用范围所产生的的极大弊端，没法应对大流量的实时数据，MR这阅读全文

posted @ 2020-02-02 21:12 limitCM 阅读(108) 评论(0) 推荐(0) 编辑

2020年2月1日

【2020/2/1】寒假自学——学习进度报告8

摘要：开始尝试sparkSQL的尝试编程。 SparkSQL总体来说就是spark中的hive，但麻烦的一点是spark官网下载的并不自带对hive的支持，所以不能使用外部的hive。之后解决。所以这次主要关注dataframe的编程。首先创建了一个json文件用来创建DataFrame，内容为： { 阅读全文

posted @ 2020-02-01 22:32 limitCM 阅读(112) 评论(0) 推荐(0) 编辑

2020年1月27日

【2020/1/27】寒假自学——学习进度报告7

摘要：今天想记录下如何在windows环境下远程提交代码到spark集群上面运行。博客中提到的环境变量配置方法已经有更简单的方式可以替代。使用findspark模块来达到自动配置环境变量的目的。 Findspark 之后就可以在代码前端加入 import findspark findspark.ini 阅读全文

posted @ 2020-01-27 21:49 limitCM 阅读(147) 评论(0) 推荐(0) 编辑

limitCM——希望能找到什么

——————war，the war never change

公告