hadoop大作业

要求:

1.Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计。

网上下载经典长篇英文小说The Great Gatsby,保存到wc文件中,命名为xhp.txt

  启动hadoop集群

wc文件夹的xhp.txt上传文件至hdfsdata文件夹

 

启动hive,创建数据库和文档表,

 

导入文件内容并查看

 

显示出来结果

 

2.Hive对爬虫大作业产生的csv文件进行数据分析,写一篇博客描述你的分析过程和分析结果。

对虎扑网关于凯尔特人的新闻进行爬取数据分析,并根据新闻进行词频统计,产生的csv如下:

创建表phe并将csv数据导入到表中

 

显示前二十条结果

 

posted @ 2018-05-24 15:36  商软3许怀鹏222  阅读(165)  评论(0编辑  收藏  举报