数据分析2
数据分析的全景图和修炼指南
数据分析分成3个部分:
1、数据收集 前提
2、数据挖掘 核心
3、数据可视化
1、数据采集-数据源
开源数据源
爬虫抓取
日志采集
传感器
2、数据采集-工具
八爪鱼 火车采集器 收集客
3、数据采集-爬虫编写
python -- Selenium 、 lxml 、scrapy、phantomjs
4、数据采集-实战
如何自动抓取微博评论
如何自动下载明星海报
如何自动给微博加粉丝
5、数据挖掘-数学基础
概率论与数理统计、线性代数、图论、最优化方法
6、数据挖掘-基本流程
商业理解-数据理解-数据准备-模型建立-模型评估-上线发布
7、数据挖掘-十大算法
分类算法:C4.5、朴素贝叶斯、SVM、KNN、Adaboost、CART
聚类算法:k-means、EM
关联分析:Apriori
连接分析:pageRank
8、数据挖掘-实战
如何对手写数字进行识别
如何进行乳腺癌检测
如何对文档进行分类
。。。
9、数据可视化-python
matplotlib and seaborn
10、数据可视化-第三方工具
DataV
在工具中灵活使用,在项目中加深理解
修炼指南
认知很重要,认知到成长更重要
把知识转化成自己的语言,他才是真正变成我们的东西
认知-工具-实战
自下而上:带着概念做总结
自上而下:带着问题找答案
1、不重复造轮子
2、工具决定效率(熟练度)
记录每天的认知:记录对知识点的理解
这些认知对应工具的哪些操作:多练习
做更多的练习巩固你的认知
人与人最大的差距在认知
学习要做学习笔记——————划重点,要考