2.18 日志数据处理
日志处理
日志数据:
183.162.52.7 - - [10/Nov/2016:00:01:02 +0800] "POST /api3/getadv HTTP/1.1" 200 813
"www.neusoft.com" "-"
cid=0×tamp=1478707261865&uid=2871142&marking=androidbanner&secrect=a6e8e14701ffe9f6063934780d9e2e6d&token=f51e97d1cb1a9caac669ea8acc162b96
"neuedu/5.0.0 (Android 5.1.1; Xiaomi Redmi 3 Build/LMY47V),Network 2G/3G" "-"
10.100.134.244:80 200 0.027 0.027
获取数据:
统计最受欢迎的视频/文章的TopN访问次数
video/vedeoid -->视频/视频Id
article/articleid--->文章/文章id
按照地市统计最受欢迎的TopN课程
ip--->城市
按照流量统计最受欢迎的TopN课程
traffic --->流量
时间 ---->时间
数据清洗
两阶段数据清洗:
第一阶段:把需要的信息从原始日志中提取出来
ip:199.30.25.88
time: 10/Nov/2016:00:01:03 +0800
traffic:62
文章:http://www.neusoft.com/article/11325
视频:http://www.neusoft.com/video/3235
第二阶段:根据提取出来的信息做精细化操作
ip--->城市 city
date--> time:2016-11-10 00:01:03
day: 10
traffic:62
http://www.neusoft.com/article/11325--->
type:article/video
id:11325
hive:
create table data(
ip string,
time string ,
day string,
traffic bigint,type string,
id string
)
数据处理
按照我们的需要进行相应业务的统计和分析
spark、Hive、MapReduce或其他的一些分布式计算框架
create table data(
ip string,
time string ,
day string,
traffic bigint,
type string,
id string
)
统计最受欢迎的视频/文章的TopN访问次数
按照地市统计最受欢迎的TopN课程
按照流量统计最受欢迎的TopN课程
处理结果入库
结果可以存放到mysql
数据的可视化
通过图形化展示的方式展现出来:饼图、柱状图、地图、折线图
Echarts、HUE、zeppelin
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· 三行代码完成国际化适配,妙~啊~
· .NET Core 中如何实现缓存的预热?
· 如何调用 DeepSeek 的自然语言处理 API 接口并集成到在线客服系统