10.17每日总结
今天完成了大型数据库的第二个作业,也就是在hive下用hiveql去分析数据,
具体流程跟前半部分跟上一次我的做法一样,(大数据作业避坑 - 风·华正茂 - 博客园 (cnblogs.com)),
只需要改文件名和文件路径,不一样的是最后一步,就是要先进到hive文件夹下:
执行:
bin/hive
然后分行执行如下命令:
##第一行执行 create table docs(line string); ##第二行执行 load data inpath 'hdfs中文件的路径,一般在根目录下' overwrite into table docs; ##第三行执行 create table word_count as select word, count(1) as count from (select explode(split(line,' '))as word from docs) w group by word order by word;