陌陌聊天数据统计分析(基于Hive数仓实现加载)
etl数据清洗---高roi
1.基础数据(.tsv/.txt)
2.
3.基于Hive数仓实现加载
建库建表语句要正确
--------------1、建库------------------- --如果数据库已存在就删除 drop database if exists db_msg cascade; --创建数据库 create database db_msg; --切换数据库 use db_msg; --------------2、建表------------------- --如果表已存在就删除 drop table if exists db_msg.tb_msg_source; --建表 create table db_msg.tb_msg_source( msg_time string comment "消息发送时间" , sender_name string comment "发送人昵称" , sender_account string comment "发送人账号" , sender_sex string comment "发送人性别" , sender_ip string comment "发送人ip地址" , sender_os string comment "发送人操作系统" , sender_phonetype string comment "发送人手机型号" , sender_network string comment "发送人网络类型" , sender_gps string comment "发送人的GPS定位" , receiver_name string comment "接收人昵称" , receiver_ip string comment "接收人IP" , receiver_account string comment "接收人账号" , receiver_os string comment "接收人操作系统" , receiver_phonetype string comment "接收人手机型号" , receiver_network string comment "接收人网络类型" , receiver_gps string comment "接收人的GPS定位" , receiver_sex string comment "接收人性别" , msg_type string comment "消息类型" , distance string comment "双方距离" , message string comment "消息内容" ) row format delimited fields terminated by '\t';
4.加载数据
--------------3、加载数据------------------- --上传数据文件到node1服务器本地文件系统(HS2服务所在机器) --shell: mkdir -p /root/hivedata --加载数据到表中 load data local inpath '/root/hivedata/data1.tsv' into table db_msg.tb_msg_source; load data local inpath '/root/hivedata/data2.tsv' into table db_msg.tb_msg_source; --查询表 验证数据文件是否映射成功 select * from tb_msg_source limit 10; --统计行数 select count(message) as cnt from tb_msg_source;
查看是否上传成功(有数据成功)
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 记一次.NET内存居高不下排查解决与启示