10.17每日总结

今天完成了大型数据库的第二个作业,也就是在hive下用hiveql去分析数据,

具体流程跟前半部分跟上一次我的做法一样,(大数据作业避坑 - 风·华正茂 - 博客园 (cnblogs.com)),

只需要改文件名和文件路径,不一样的是最后一步,就是要先进到hive文件夹下:

执行:

bin/hive

然后分行执行如下命令:

##第一行执行
create table docs(line string);
##第二行执行
load data inpath 'hdfs中文件的路径,一般在根目录下' overwrite into table docs;
##第三行执行
create table word_count as 
select word, count(1) as count from
(select explode(split(line,' '))as word from docs) w
group by word
order by word;

 

posted @ 2023-10-17 16:58  风·华正茂  阅读(28)  评论(0编辑  收藏  举报