Hive 操作与应用 词频统计

一、hive用本地文件进行词频统计

1.准备本地txt文件

本地文件

2.启动hadoop,启动hive

启动hive

3.创建数据库,创建文本表
#查看数据库
show databases;

show datanases

#创建数据库
create database if not exists hive;

create database

#查看是否成功创建数据库
show databases;

查看是否成功创建数据库

4.映射本地文件的数据到文本表中
#查看表
use hive;
show tables;

show tables

#创建表
create table if not exists pctext(line string);

create table

#查看是否成功创建表
show tables;

show datables

#映射本地文件的数据到文本表中
load data local inpath '/home/hadoop/HLH/hlh1.txt' into table pctext;

load data

#查看映射内容
select * from pctext;

select *

5.hql语句进行词频统计交将结果保存到结果表中。
#词频统计
select split(line,'') as word from pctext;
select explod(split(line,'')) as word from pctext;

select split
select expold
select expold

6.查看统计结果
#查看统计结果
select word,count(1) as count from (select explode(split(line,'')) as word from pctext) w group by word order by word;




二、hive用HDFS上的文件进行词频统计

1.准备电子书或其它大的文本文件
2.将文本文件上传到HDFS上
#上传本地文件
hdfs dfs -put HLH HLH
#查看上传结果
hdfs dfs -ls HLH

hdfs dfs -put

3.创建文本表
#创建数据表
create table if not exists HLH(line string)
#查看数据表是否创建成功
show tables;

create table

4.映射HDFS中的文件数据到文本表中
5.sql语句进行词频统计交将结果保存到结果表中
6.查看统计结果

posted on 2020-12-06 21:52  靓号~亮皓  阅读(134)  评论(0编辑  收藏  举报

导航