数据挖掘:(一)数据获取
- 数据分析:利用统计分析方法,从数据中提取有用的信息,并进行总结和概括的过程。
- Python 的胶水特性:Python 可以粘合其它语言代码段。
一、数据获取手段
1)数据仓库
- 将所有业务数据汇总处理,构成数据仓库(DW);
- 特点:
- 全部事实的记录(必须是全面的、完备的、尽可能详细的);
- 可以方便的以不同维度抽取和整理数据(数据是拿来用的,一般一个特定的场景不会使用全部的数据,数据仓库非常丰富,必须根据不同的应用调取相应的数据,这些被抽取和整理的数据称为数据集市-DW);
1、数据库 VS 仓库
- 数据库面向业务存储,需要保证高频繁、快速读写、数据结构精简,主要为用户提供精致的体验;
- 仓库面向主题存储,是根据一个个主题进行存储的;(主题:较高层次上对分析对象数据的一个完整并且一直的描述;如,一次购买行为,包含时间、商品、金额、用户等各个维度的信息)
- 数据库针对应用(为用户提供数据上的支持与服务,此过程称为“OLTP”——联机事务处理),仓库针对分析(仓库进行全面和详细的记录,一般就是用来分析的,此过程称为“OLAP”——联机分析处理);
- 数据库组织规范,仓库可能冗余,相对变化大,数据量大(仓库几乎每时每刻都在记录);
2)监测与抓取
- 监测:利用设备和算法直接获取数据;(如传感器、网络等)
- 抓取:直接解析网页、接口、文件的信息;
- Python 中的常用抓取工具:urllib、urllib2、requests、scrapy;
- Python 中的常用解析工具:PhantomJS(渲染数据)、beautifulSoup(解析路径)、Xpath(lxml,解析路径)
3)填写、埋点、日志
- 填写:用户填写的信息;(如注册信息)
- 埋点:在APP或网页应用中根据特定的流程,收集一定的信息,用来跟中APP和网页的使用情况,以便后来进一步优化产品或进行运营支持;(比较常见的记录项:访问、访客、停留时间、页面查看、跳出率)(一般可以分为两种:页面统计、统计操作行为)
- 日志:
- 日志和数据仓库有共同的作用,日志更加精简,也可以在出现故障时帮助定位问题;
- 以文件形式记录数据,一般也需要统计到仓库中,进行统一的分析;
- 日志分前端日志和后端日志:
# 前端日志,网页或者APP中记录的信息,前端日志需要传输到后端才能被记录;
# 后端日志,服务器里的日志,可以直接进行处理;
4)计算
- 有些属性不能直接获取,必须通过计算得到,如投入产出比;
二、数据学习网站