摘要: 可以从线性回归推到logistic regression. 首先介绍线性回归。 线性回归是非常基础的模型,它的几个假设有: (1)假设对x的测量数据没有误差 (2)假设y的期望是系数和x的线性组合 (3)假设误差独立同分布,分布为$N(0,\sigma^2)$ (4)假设变量x之间没有多重共线性(即 阅读全文
posted @ 2017-09-02 10:23 寻找最好的自己 阅读(369) 评论(0) 推荐(0) 编辑
摘要: ##从智库百科摘取 优点: 1、可以生成可以理解的规则 2、计算量相对不是很大 3、可以处理连续和种类字段 4、可以清晰的显示哪些字段比较重要(这一特性可以用于特征选择) 缺点: 1、对连续型字段比较难预测 2、对于有时间顺序数据,需要许多预处理工作(为什么?) 3、当类别较多时,错误可能增加的比较 阅读全文
posted @ 2017-08-31 20:25 寻找最好的自己 阅读(11927) 评论(0) 推荐(1) 编辑
摘要: 决策树的学习分三步:特征选择、决策树生成和决策树剪枝 一、特征选择 特征选择可以用的指标有:信息增益、信息增益率和基尼指数 首先要了解什么是信息熵。设样本为D,共有n个类,样本中第k类样本占的比例为pk(k = 1,2,.....,n),那么D的信息熵为 H(D) = - Σnk=1 pk log2 阅读全文
posted @ 2017-08-31 15:50 寻找最好的自己 阅读(259) 评论(0) 推荐(1) 编辑