摘要: 日志分析 比如说现在给你一个活: 日志分析 ,一个日志大概有几十兆,而且每一行都很类似,比如 可以看出这些日志是从Web服务器里面产生的,包含了 客户端IP 访问时间 请求的URL 返回的状态 referer User Agent 现在我们需要统计, 一天之内 每个页面的访问量(PV) 独立的IP数 阅读全文
posted @ 2018-03-02 16:44 dy2903 阅读(243) 评论(0) 推荐(0) 编辑
摘要: Hadoop的前世今生 什么是大数据 各行各业都会产生大量的数据,比如社交网站的意见观点,电商平台人们浏览网页停留的时间,交通运输每天产生的数据等等。这些数据大多不是结构化的,一般来说都是半结构化或者非结构化的 在以前,我们的处理能力达不到,所以很多数据要么没有存起来,要么没有利用起来。而现在数据越 阅读全文
posted @ 2018-03-02 11:28 dy2903 阅读(299) 评论(0) 推荐(0) 编辑