Hadoop综合大作业

在hadoop上对英文小说《教父II·西西里人》进行词频统计;

 

 

  • 开启所有的服务,并将txt文件放在wc文件夹里:

  • 将txt文件上传至hdfs,启动hive:

  • 将导入文件导入到新建的表novel里:

  • 进行词频统计并放入表note_count表中:

  • 查询前20:

  • 用Hive对爬虫大作业产生的csv文件进行数据分析:

  • 进入文件路径并查看数据前5:

  • 查看上传成功的文件的前20个数据:

  • 查看数据总条数:

posted @ 2018-05-25 12:04  Polvem  阅读(121)  评论(0编辑  收藏  举报