10.17每日总结

今天完成了大型数据库的第二个作业，也就是在hive下用hiveql去分析数据，

具体流程跟前半部分跟上一次我的做法一样，（大数据作业避坑 - 风·华正茂 - 博客园 (cnblogs.com)），

只需要改文件名和文件路径，不一样的是最后一步，就是要先进到hive文件夹下：

执行：

bin/hive

然后分行执行如下命令：

##第一行执行
create table docs(line string);
##第二行执行
load data inpath 'hdfs中文件的路径，一般在根目录下' overwrite into table docs;
##第三行执行
create table word_count as 
select word, count(1) as count from
(select explode(split(line,' '))as word from docs) w
group by word
order by word;

posted @ 2023-10-17 16:58 风·华正茂阅读(26) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

2351920019xin

10.17每日总结

公告