开学第一测大数据技术测试

Result文件数据说明：

Ip：106.39.41.166,（城市）

Date：10/Nov/2016:00:01:02 +0800,（日期）

Day：10,（天数）

Traffic: 54 ,（流量）

Type: video,（类型：视频video或文章article）

Id: 8701（视频或者文章的id）

测试要求：

1、 数据清洗：按照进行数据清洗，并将清洗后的数据导入hive数据库中。

两阶段数据清洗：

（1）第一阶段：把需要的信息从原始日志中提取出来

ip: 199.30.25.88

time: 10/Nov/2016:00:01:03 +0800

traffic: 62

文章： article/11325

视频： video/3235

（2）第二阶段：根据提取出来的信息做精细化操作

ip--->城市 city（IP）

date--> time:2016-11-10 00:01:03

day: 10

traffic:62

type:article/video

id:11325

（3）hive数据库表结构:

create table data( ip string, time string , day string, traffic bigint,

type string, id string )

2、数据分析：在HIVE统计下列数据。

（1）统计最受欢迎的视频/文章的Top10访问次数（video/article）

（2）按照地市统计最受欢迎的Top10课程（ip）

（3）按照流量统计最受欢迎的Top10课程（traffic）

3、数据可视化：

将统计结果倒入MySql数据库中，通过图形化展示的方式展现出来。

当我拿到原数据后，立刻将数据导入了hive，后发现有一列数据缺失，发现是因为原数据文件中，有错误，多了一个空格。我应该先用python清洗数据，再将原数据导入到hive中。

将数据完成导入后，后面就简单了，利用hive sql 进行统计数据利用vue进行展示。

老师要求用 sqoop 将hive表中的统计结果转出到mysql,但是这次数据量太小，其实是可以复制粘贴的。

列一下这次测试常用的命令吧

这个命令是临时设置的，也可以修改hive的配置文件进行实现

set set hive.stats.column.autogather=false

　　　　上传文件

　　　　hadoop fs -put /home/cleaned_data.csv hdfs://node1:8020/user/hive/warehouse/

　　　　将文件导入到hive数据库中

　　　　LOAD DATA INPATH 'hdfs://node1:8020/user/hive/warehouse/mytable/cleaned_data.csv' INTO TABLE mytable;

　　　　查询表存储位置

　　　　DESCRIBE FORMATTED your_table_name;

　　　　这个命令是用sqoop导出数据的，要求是分隔符必须是逗号。ip地址，数据库，表名，列需要自己修改（要求必须提前在mysql中建立与hive表结构一样的表，才能导出成功）

　　　bin/sqoop export \

　　 --connect jdbc:mysql://192.168.83.1:3306/test_db \

　　 --username root \

　　--password 123456 \

　　 --table employees \

　　 --columns "id,name,age,department" \

　　 --input-fields-terminated-by ',' \

　　 --input-lines-terminated-by '\n' \

　　 --export-dir 'hdfs://node1:8020/user/hive/warehouse/test_db.db/employees' \

　　 --input-null-string '\\N' \

　　--input-null-non-string '\\N' \

　　 --null-string '\\N' \

　　 --null-non-string '\\N' \

　　 --num-mappers 1

　　　　后面就没有什么难的了，自己编写sql语句进行查询，然后将查询结果保存到查询表中，导出到mysql中。

Result文件数据说明：

Ip：106.39.41.166,（城市）

Date：10/Nov/2016:00:01:02 +0800,（日期）

Day：10,（天数）

Traffic: 54 ,（流量）

Type: video,（类型：视频video或文章article）

Id: 8701（视频或者文章的id）

测试要求：

1、 数据清洗：按照进行数据清洗，并将清洗后的数据导入hive数据库中。

两阶段数据清洗：

（1）第一阶段：把需要的信息从原始日志中提取出来

ip: 199.30.25.88

time: 10/Nov/2016:00:01:03 +0800

traffic: 62

文章： article/11325

视频： video/3235

（2）第二阶段：根据提取出来的信息做精细化操作

ip--->城市 city（IP）

date--> time:2016-11-10 00:01:03

day: 10

traffic:62

type:article/video

id:11325

（3）hive数据库表结构:

create table data( ip string, time string , day string, traffic bigint,

type string, id string )

2、数据分析：在HIVE统计下列数据。

（1）统计最受欢迎的视频/文章的Top10访问次数（video/article）

（2）按照地市统计最受欢迎的Top10课程（ip）

（3）按照流量统计最受欢迎的Top10课程（traffic）

3、数据可视化：

将统计结果倒入MySql数据库中，通过图形化展示的方式展现出来。

posted @ 2025-02-19 21:03 财神给你送元宝阅读(6) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 大数据第一次作业

· 数据库实验五：数据库编程

· 开学第一课，课堂测试

· Hive大数据测试

· hive课堂测试1

公告

昵称：财神给你送元宝
园龄： 1年10个月
粉丝： 11
关注： 4

+加关注

2025年3月

日

一

二

三

四

五

六

youxiandechilun

开学第一测大数据技术测试

公告

搜索

常用链接

合集

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

youxiandechilun

开学第一测 大数据技术测试

公告

搜索

常用链接

合集

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

开学第一测大数据技术测试