数据分析四:回归分析
回归分析:统计学用来研究不确定性的基本手段;
如何研究不确定性:分析业务——找出因变量Y——找出X;
x、y、 ε表示不确定性
- 统计学: ——(不准确)——》 统计学就是研究不确定性
- 回归分析是统计学中研究数据的基本手段。
数据分析的第一步是回归分析;
回归分析的第一步是分析业务,第二步是确定因变量y。
回归分析:把抽象的业务问题具体化为数据可分析问题(清晰的数据问题)。
- 因变量 Y 是什么:首先,确定 y。
首先,确定 Y(业务问题转为数据问题):
比如,
什么是航线运行效率:单公里航线,单座,客流量;
什么是卡车司机驾驶习惯:违章次数,卡车油费;
什么是客户价值:未来的收入高低(如客户花同样的钱在保险和豪车上的收入区别);
- 可能的待选因素x是什么:
比如,
航线运行效率: 时间,始发站和终点站等;
卡车司机驾驶习惯:驾驶经验,路线等;
客户价值:客户性别,年龄,职业等;
可控型与不可控型x变量;