北京市政百姓信件分析实战——三、利用HiveSql语句离线分析信件内容数据

基础概述

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。

其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

Hive构建在基于静态批处理的Hadoop之上，由于Hadoop通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销。因此，Hive并不适合那些需要低延迟的应用，它最适合应用在基于大量不可变数据的批处理作业，例如，网络日志分析。

Hive的特点是：可伸缩（在Hadoop集群上动态的添加设备）、可扩展、容错、输出格式的松散耦合。

Hive将元数据存储在关系型数据库（RDBMS）中，比如MySQL、Derby中。

需求概述

在本节中，我们将使用Hive对以下指标进行统计并演示：

1.需求1：分析每年的信件数量

2.需求2：分析信件是属于投诉还是属于咨询，及投诉和咨询的数量

3.需求3：分析对信件进行回答的政府部门5.自定义UDF，区分信件时间的月份

4.使用UDF

初始化操作

1.首先，使用jps查看hadoop相关进程是否已经启动

若未启动，则启动hadoop：

cd /apps/hadoop/sbin
./start-all.sh

再次输入JPS查看进程：

2.启动MySQL服务(数据库密码为：zhangyu)

sudo service mysql start

3.切换到/data目录，并创建名为edu3的目录

cd /data
mkdir edu3

再切换到/data/edu3目录下，并使用wget命令下载本次实验使用的数据：

cd /data/edu3
wget http://192.168.1.100:60000/allfiles/second/edu3/govdata

4.执行命令，启动Hiveshow

hive

在Hive中创建edu3数据仓库，并切换到edu3下。

create database edu3;
use edu3;

5.在Hive创建一张表，用于存放清洗后的数据，表名为govdata，字段名、字符类型、字段解释如下：

leixing string 类型
biaoti string 标题
laixinren string 来信人
shijian string 时间
number int 网友同问或者网友评论数
problem string 信件类容
offic string 官方回答部门
officpt string 官方回答时间
officp string 官方回答内容

6.在Hive中创建内部表：

create table govdata(
biaoti string,
laixinren string,
shijian string,
number int,
problem string,
offic string,
officpt string,
officp string
) row format delimited
fields terminated by '\t';

创建成功后，查看govdata表的表结构：

当然，也可以创建外部表：

create external table if not exists govdata(
leixing string,
biaoti string,
laixinren string,
shijian string,
number int,
problem string,
offic string,
officpt string,
officp string
) row format delimited
fields terminated by '\t';

外部表的创建方法比内部表多了一个external，同时还加上了if判断，判断创建表之前，是否存在同样名称表。

Hive创建内部表时，会将数据移动到数据仓库指向的路径；创建外部表时，仅记录数据所在的路径，不对数据的位置做任何改变。

在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据，生产中常使用外部表。

7.表设计好以后，在Hive端使用load命令，将/data/edu3下的govdata导入Hive表中。

load data local inpath '/data/edu3/govdata' into table govdata;

在hive中，执行查询操作，验证数据是否导入成功。

view plain copy

select * from govdata limit 10;

查看数据条数

select count(1) as num from govdata;

需求1：分析每年的信件数量

SQL语句：

select
substr(shijian,0,4) as dt,
count(1) as num
from govdata
group by substr(shijian,0,4);

由结果分析，可得近10年中，2014年群众的举报信件最多，2012年最少。

其中2015年数据从5月开始采集到12月，5月数据不完整；2017年数据采集时间是1月到8月，8月数据不完整。如下所示：

需求2：分析信件是属于投诉还是属于咨询，及投诉和咨询的数量

SQL语句：

select
leixing,
count(1) as num
from govdata
group by leixing
order by num desc;

通过分析结果，我们可以清楚地了解到信件内容属于投诉举报的有7514条，属于咨询问答的有15407条，信件内容大多属于投诉举报。

需求3：分析对信件进行回答的政府部门

SQL语句：

select
offic,
count(1) as num
from govdata
group by offic
order by num desc;

结果部分截图如下：

通过分析，我们可以得出看出市人力社保局接受的群众信件数量最多。

使用UDF

1.在需求1中，对日期的处理，我们使用了Hive中自带的，截取字符串的函数substr。有时这些函数功能较弱，需要增强。所以我们可以进行自定义。下面编写自定义函数，执行数据处理。这种函数叫UDF（User Defined Function）

下面，使用另一种方式，来处理需求4中的日期。

2.打开eclipse，创建Java项目

将项目命名为myudf3。

选中项目名myudf3，右键，依次点击New=》Package，创建包，

将包命名为my.udf

选中包my.udf，右键依次点击New=》Class创建类

将类命名为ParseDate

选中项目名myudf3，右键依次点击New=>Folder，创建目录，并将目录命名为libs。用于存放项目所依赖的jar文件

最终项目框架，如下：

3.切换目录到/data/edu3目录下，使用wget命令下载实验所需的jar包

cd /data/edu3
wget http://192.168.1.100:60000/allfiles/second/edu3/hive-udf-libs.tar.gz

将hive-udf-libs.tar.gz进行解压，并查看解压后的/data/edu3目录：

tar -zxvf hive-udf-libs.tar.gz
ls /data/edu3

4.将/data/edu3/hive-udf-libs目录下所有jar包，导入拷贝到myudf3项目的libs目录下

点击OK

导入后，选中lib中的所有文件，单击右键并依次选择Build Path=>Add to Build Path。

5.编写ParseData类中编写代码，实现UDF。要想自定义函数，需要使ParseData类继承UDF类，并重构evaluate函数即可。

package my.udf;
import org.apache.hadoop.hive.ql.exec.UDF;
public class ParseDate extends UDF {
public String evaluate(String createiontime){
return null;
}
}

在这里evaluate函数，要实现的功能，就是对“2017-06-20 ”格式的日期数据，进行处理最终只保留日期部分“2017”。

public String evaluate(String createiontime) throws ParseException{
DateFormat dateFormat = new SimpleDateFormat("yyyy");
Date dt = dateFormat.parse( createiontime );
return dateFormat.format(dt);
}

上面这段日期转换的代码很简单，我们也可以放到main函数中，进行测试

public static void main(String[] args) throws ParseException {
String dtString = "2017-1-1";
DateFormat dateFormat = new SimpleDateFormat("yyyy");
Date dt = dateFormat.parse(dtString);
String result = dateFormat.format(dt);
System.out.println(result);
}

执行结果，最终会得到2017这样的结果

UDF的完整代码如下：

package my.udf;
import java.text.DateFormat;
import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.Date;
import org.apache.hadoop.hive.ql.exec.UDF;
public class ParseDate extends UDF {
public String evaluate(String createiontime) throws ParseException{
DateFormat dateFormat = new SimpleDateFormat("yyyy");
Date dt = dateFormat.parse( createiontime );
return dateFormat.format(dt);
}
}

6.将我们自定义的UDF打包成Jar文件。右键类文件，点击Export

在弹出框中输入jar，在列出的可选项中，选择JAR file

在弹出的窗口中，点击Browser，设置要导出jar文件的位置

将Jar文件导出到/data/edu3

7.执行测试。运行UDF测试有两种方式。

第一种方式：

将导出的udf.jar拷贝到/apps/hive/lib目录下

cp /data/edu3/udf.jar /apps/hive/lib

重启hive命令行，在hive命令行下，创建临时function

create temporary function udf as 'my.udf.ParseDate';

再执行需求1中查询命令

use edu3;
select
substr(shijian,0,4) as dt,
count(1) as num
from govdata
group by substr(shijian,0,4);

第二种方式：

先删除第一种方式中，/apps/hive/lib目录下的udf.jar文件

rm -rf /apps/hive/lib/udf.jar

重启hive命令行终端，在命令行下，直接输入命令

add jar /data/edu3/udf.jar;

这句话的意思是，将编写的自定义函数分发到集群中去。相比于第一种，不用改变集群环境。

剩余步骤与第一种方式相同。

直接输入命令，创建临时方法

create temporary function udf as 'my.udf.ParseDate';

再执行需求1中查询命令

use edu3;
select
substr(shijian,0,4) as dt,
count(1) as num
from govdata
group by substr(shijian,0,4);

执行测试后，两者结果相同。至此实验完毕。

将项目命名为myudf3。

选中项目名myudf3，右键，依次点击New=》Package，创建包，

将包命名为my.udf

选中包my.udf，右键依次点击New=》Class创建类

将类命名为ParseDate

选中项目名myudf3，右键依次点击New=>Folder，创建目录，并将目录命名为libs。用于存放项目所依赖的jar文件

最终项目框架，如下：

3.切换目录到/data/edu3目录下，使用wget命令下载实验所需的jar包

1. cd /data/edu3

2. wget http://192.168.1.100:60000/allfiles/second/edu3/hive-udf-libs.tar.gz

将hive-udf-libs.tar.gz进行解压，并查看解压后的/data/edu3目录：

1. tar -zxvf hive-udf-libs.tar.gz

2. ls /data/edu3

4.将/data/edu3/hive-udf-libs目录下所有jar包，导入拷贝到myudf3项目的libs目录下

点击OK

导入后，选中lib中的所有文件，单击右键并依次选择Build Path=>Add to Build Path。

posted @ 2024-01-30 21:22 伽澄阅读(29) 评论(0) 编辑收藏举报

刷新页面返回顶部

jiacheng-712

北京市政百姓信件分析实战——三、利用HiveSql语句离线分析信件内容数据

公告