Hadoop综合大作业

Hive对爬虫大作业产生的文本文件（或者英文词频统计下载的英文长篇小说）进行词频统计。

Hive对爬虫大作业产生的csv文件进行数据分析，写一篇博客描述你的分析过程和分析结果。

由于我的爬虫大作业是中文的，所以我下载了一篇英文小说（哈利波特1-7章，共58000行数据）来进行词频统计分析。

首先启动hadoop

文件上传到hdfs

启动hive

创建小说表，并导入数据

用HQL进行词频统计，结果放在表word_count里

查看统计结果

以下是我的爬虫大作业的数据提交到hive

我统计的是博客园2018年到4月底的新闻词频统计，统计的结果大部分为中文，统计的最后几个单词如下图

首先在本地把统计好的词频转化成csv格式和txt格式

通过软件WinSCP把文件上传到虚拟机

然后要启动hdfs

上传到hdfs并显示前10条

启动mysql

启动hive

创建数据库

创建表

导入数据

查看数据

posted @ 2018-05-21 17:46 风丶轻轻阅读(227) 评论(0) 编辑收藏举报

刷新页面返回顶部

风丶轻轻