数据分析概览01:读《深入浅出数据分析》
题记:完全不懂数据分析,统计也忘了差不多的小白开始学习数据分析。
读了《深入浅出数据分析》,对数据分析有了一个大致的了解。书中讲的每个章节都需要翻大量的资料继续学习。这本书是一个指引(索引)。
1.数据分析的流程
确定目标或者问题-->分解问题,从而分解数据-->评估问题,总结结论-->指导决策
数据分析的思路是这样,数据分析报告也需要这么写。
2.实验
实验能够帮助分析。实验过程中要加入控制组,便于发现实验的结论。用随机选择控制组是一个比较好的方法。
3.最优化
最优化问题主要有三部分组成:决策变量,约束条件和目标函数。
4.数据图形化
数据图形化在数据分析过程中能够更好地发现问题,在数据报告中能够更好地展示问题或结论。
散点图:用于展示两种变量的因果关系;其实散点图只能展示两种变量的相关性,其中的因果还需要运用其他的东西来分析。(空心圆能够更好地表示重叠关系。)
多元散点图:多种变量的关系。
直方图:展示数据的分布情况。
5.假设检验(不懂)
6.贝叶斯统计(不懂)
相关topic:基础概率和波动数学。
7.主观概率(不懂)
用标准偏差评估数据。
用贝叶斯修正主观概率。
8.启发式(不懂)
9.回归·预测
回归加上控制实验能够预测未来。
回归线:贯穿平均值的直线,能用相关性系数来评估回归线。
回归线有线性和非线性。
10.合理误差
误差范围,使得用户不仅知道预测值还能知道误差的范.围,使得预测更加可信。
预测过程中要注意数据的阈值范围,超过阈值范围的预测很不准确。
均方根误差评估预测的准确性。
通过分段预测和评估可以控制误差。
11.数据整理
Excel和正则表达式非常有用。
整理完数据还要查看数据的重复性等问题。
12.附录(告诉我还需要看啥)
1)统计学
2)Excel
3)耶鲁大学教授Edward Tufte图形原则
4)非线性及多元回归
5)原假设——备择假设
参考《深入浅出统计学》
6)随机性
7)google Docs可以绘图和访问实时数据库
8)专业技能