摘要:
今天看着文件按照其上面给的三个需求,做了相应的数据处理。需求如下。 需求1:分析每年的信件数量 需求2:分析信件是属于投诉还是属于咨询,及投诉和咨询的数量 需求3:分析对信件进行回答的政府部门 按照这三个需求我做了其相应的数据处理。我使用的mysql建立的试图来进行处理的,这种方法很简单用于处理不是 阅读全文
摘要:
今天没有继续整数据,这个数据还需要进一步的清洗,很麻烦,暂时不想清洗,今天看了一部分spark的内容,在网上查找了一些资料,明天将使用eclipse连接spark进行编程实验,或者进行数据的清洗。 今天也将数据导入到了数据库中。 阅读全文
摘要:
今天根据昨天爬取到的网址进行了二次爬取,爬取内容为每个信件的内容,然而本应该是一项很简单的任务,但是奈何数据是真的‘脏’,所以今天知识对所有的三万个网址进行了信件内容的爬取。 使用的时beautifulsoup进行爬取,在爬取的同时对数据进行了简单的处理,完善了一些bug。之后将按照下一步对怕爬取到 阅读全文
摘要:
继上次爬取完总体数据之后,这次我做的是将每个信件的网址使用MapReduce进行清洗出来,进而爬取出进一步的数据。 通过观察所得该网站根据不同的信件类型有不同的网址其对应关系如下: 咨询 com.web.consult.consultDetail.flow 建议 com.web.suggest.su 阅读全文
摘要:
这两天一直整一个大作业具体内容是从网站上爬取信件内容进行操作。这两天一直在整这个内容,到现在是爬了出来。 网址:http://www.beijing.gov.cn/hudong/hdjl/com.web.search.mailList.flow 这是信件的网址老师给的网址已更新,这是我从同学哪里要的 阅读全文
摘要:
这是寒假第一天的博客,今天我做了相关的spark环境的搭配,对spark有了简单的了解,以及把spark的实验一做了,实验一的内容比较简单,是对linux命令的简单处理以及ftp软件的应用,实验二是简单的编程,明天我会对spark进行一些深入了解。了解spark的操作原理。 阅读全文
摘要:
题目:现有一文本文件,要将其中的数据进行清洗,以及存入hive数据库,在进行相关的数据统计。 这是要求我们使用mapReuce进行数据清洗,以及进行数据的统计。作为一名mapreduce的初学者,对于mapreduce的原理还不是很清楚。这是我使用Java进行数据清洗,在进行数据库的录入。 上代码: 阅读全文
摘要:
今天上课的实验我们做了MapReduce的相关实验,了解了下MapReduce的简单实验:具体内容为:统计id出现的次。 首先建立MapReduce的项目,运行相关的代码。(我用的是windows连接Linux下的Hadoop) 具体最初的文件为: 运行的结果为: 阅读全文
摘要:
最近学习大数据Hadoop和hbase,但是奈何虚拟机速度更不上就想使用Windows下的eclipse链接Linux下的Hadoop等文件,但是使用Hadoop的控件可以连接好,而且也能链接hadoop的相关文件,但是到了hbase就会卡住不动,出现以下界面就一直不动。 经过修改别的虚拟机下的ho 阅读全文