陌陌聊天数据统计分析(基于Hive数仓实现加载)
etl数据清洗---高roi
1.基础数据(.tsv/.txt)
2.
3.基于Hive数仓实现加载
建库建表语句要正确
--------------1、建库------------------- --如果数据库已存在就删除 drop database if exists db_msg cascade; --创建数据库 create database db_msg; --切换数据库 use db_msg; --------------2、建表------------------- --如果表已存在就删除 drop table if exists db_msg.tb_msg_source; --建表 create table db_msg.tb_msg_source( msg_time string comment "消息发送时间" , sender_name string comment "发送人昵称" , sender_account string comment "发送人账号" , sender_sex string comment "发送人性别" , sender_ip string comment "发送人ip地址" , sender_os string comment "发送人操作系统" , sender_phonetype string comment "发送人手机型号" , sender_network string comment "发送人网络类型" , sender_gps string comment "发送人的GPS定位" , receiver_name string comment "接收人昵称" , receiver_ip string comment "接收人IP" , receiver_account string comment "接收人账号" , receiver_os string comment "接收人操作系统" , receiver_phonetype string comment "接收人手机型号" , receiver_network string comment "接收人网络类型" , receiver_gps string comment "接收人的GPS定位" , receiver_sex string comment "接收人性别" , msg_type string comment "消息类型" , distance string comment "双方距离" , message string comment "消息内容" ) row format delimited fields terminated by '\t';
4.加载数据
--------------3、加载数据------------------- --上传数据文件到node1服务器本地文件系统(HS2服务所在机器) --shell: mkdir -p /root/hivedata --加载数据到表中 load data local inpath '/root/hivedata/data1.tsv' into table db_msg.tb_msg_source; load data local inpath '/root/hivedata/data2.tsv' into table db_msg.tb_msg_source; --查询表 验证数据文件是否映射成功 select * from tb_msg_source limit 10; --统计行数 select count(message) as cnt from tb_msg_source;
查看是否上传成功(有数据成功)