《深入浅出数据分析》

1、数据分析总的来说是:认清问题,解决问题

       

2、实验,(星巴克咖啡店),实验控制组

3、最优化策略;橡皮鸭和橡皮鱼

4、数据图形化;重要的散点图

5、假设检验,podphone手机明天或下个月会发布么?最可能什么时候发布。为每个猜想加权,比较。

6、贝叶斯统计:蜥蜴流感

7、主观概率,石油投资,利用贝叶斯公式修正主管概率

8、启发法,快省树决策树。

9、直方图,引入R语言

10、回归

  • 通过预想加薪和实际加薪,算出回归方程,预测加薪,散点图大法再出。

  • 只要能看出两个变量之间具有密切的关系,只要回归线有意义,你就可以充满信心地让软件计算各个系数。

11、误差

  • 机会误差=实际结果与模型预测结果之间的偏差,又称为残差。

  • 用均方根误差(残差标准差)定量表示残差分布。

  • 对于前后残差标准差差距较大可以将数据分为两段分析,分段不宜过多,否则无预测性。

  • R语言语句:

    mylm <- lm(a~b,data) #回归表达式,~左边是因变量,右边是解释变量。详见R语言语法
    summary(mylm)$coefficients #系数相关矩阵
    summary(mylm)$sigma #残差标准差

12、数据库

13、整理数据,正则表达式

posted @ 2015-10-17 17:29  phil_chow  阅读(348)  评论(0编辑  收藏  举报