【数据科学原理与实践】模型选择
模型选择
机器学习:使用训练数据训练模型,利用模型进行预测,提升效果的算法。
有监督学习
分类
是有监督学习,通过学习一个已分类对象的数据集,基于产品属性或描述,建立一个分类器。
分类器的训练:
step 1:使用训练集训练模型——学习过程
step 2:使用测试集验证过模型,评价模型效果——模型评价
step 3:分类器的实际应用——模型验证
举例:火灾检测,入侵检测,识别即将违约的贷款
二分类问题建模
二分类问题:将要区分的数据分为两个类别
多分类问题:将要区分的数据分为多个类别(如电子邮件)
- 朴素贝叶斯:满足条件独立性假设,适用于具有多个输入变量,适用于文本分类,适用于含大量可能值的类别型输入变量
- 决策树:当输入变量与输出之间存在if-then关系时
- 逻辑斯蒂回归:估计分类概率,考察不同输入变量对输出的相对影响
- 支持向量机(SVM):有很多输入变量或输入变量和输出相互作用或变量之间以非线性方式相互作用。
单标签多分类:
- 直接多分类
- 一对一二分类:两两类别进行组合
- 一对多二分类:每个类别做正例,其他做反例
打分
是有监督学习,打分输出的是连续值(通常为实数),分类问题输出的是离散值(标签)。
线性回归:输入和输出是线性加性函数。
逻辑回归:通常预测一个介于0到1之间的数值,适合预测概率和比率。
举例:预测关键词广告的价值,估计贷款拖欠的概率
无监督学习:发现数据的相似性和关系
聚类
把对象分成具有相似模式的没有类标签的几类(eg.识别具有相同购买模式的顾客群体;识别所有讨论的类似事件的新闻)
K-means聚类
- 随机地选择k个对象,每个对象初始地代表了一个簇的中心;
- 对剩余的每个对象,根据其与各簇中心的距离,将它赋给最近的簇;
- 重新计算每个簇的平均值,更新为新的簇中心;
- 不断重复2、3,直到准则函数收敛。
关联规则挖掘
两个不相交的非空集合X,Y,如果有X->Y,就说X->Y是一条关联规则。(eg. 识别点击量多的网页和广告关键词组合;购物车兴趣推荐,同时买了什么东西推荐给你)
Apriori算法
- 产生频繁项集(Frequent Itemset),发现满足最小支持度阈值的所有项集
- 产生关联规则(Rule),从上一步发现的频繁项集中提取所有满足最小置信
度阈值的规则
最邻近法
如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,该样本也属于这个类别,并具有这个类别上样本的特性(eg.产品推荐;电影推荐等,看过这些电影的人也看过别的什么推荐给你)
k-NN
- 计算已知类别数据集中的点与当前点之间的距离;
- 按照距离递增次序排序;
- 选取与当前距离最小的k个点;
- 确定前k个点所在类别的出现频率;
- 返回前k个点出现频率最高的类别作为当前点的预测分类
模型评价
比较的模型:
如果所建立的模型低于空值模型,则是失败的
如果所建立的模型接近贝叶斯率模型,停止调优
如果所建立的模型不能优于训练数据的最优单变量模型,失败
分类模型的评价
分类器的评价度量:
- 精度:(TP+TN)/(TP+FP+TN+FN)
- 准确率和召回率:准确率:TP/(TP+FP);召回率:TP/(TP+FN)
- F-score:是准确率与召回率的调和指标(1+β²)*(准确率*召回率)/(β²*准确率+召回率)
- 灵敏度和特异度:灵敏度=召回率;特异度:TN/(TN+FP)
分类器的评价工具:混淆矩阵(统计已知类别组合与预测类别组合一起发生的频度统计表)
预测值=负 | 预测值=正 | |
---|---|---|
实际=负 | TN(真阴) | FP(假阳) |
实际=正 | FN(假阴) | TP(真阳) |
打分模型的评价
检查残差,即预测的值和实际结果之间的偏差
- 均方根误差
sqrt=(mean((d$prediction-d$y)^2))
- R-平方
- 相关性
- 绝对误差
概率模型的评价
逻辑斯蒂回归和决策树都是ᨀ供准确概率估计的建模方法
- 创建双密度图:找出并解释双密度图中分类器阈值
- 受试者操作特性曲线(ROC曲线):画出真阳性率=敏感度(TP/(TP+FN))和假阳性率=特异度(FP/(FP+TN)
- 对数似然估计:赋给每个样例的概率值p的乘积的对数,这个值总是负数,趋于零更好
- 偏离值:-2*(对数似然估计-S) S是技术常数
- 赤池信息准则AIC:偏离值+2*模型的独立参数个数
- 贝叶斯信息准则BIC:偏离值+独立参数个数*ln(样本数量)
- 熵
聚类模型的评价
- 簇内距离和簇间距离
- 把簇当做分类或得分
模型验证
法一:输出在训练数据集上获得最佳效果的模型,在测试集上验证模型
法二:在训练集上训练模型,在验证集上评价模型,根据评价结果调整模型,在测试机上验证模型。
常见模型问题
- 偏差:系统性误差
- 方差:非系统性
- 过拟合:模型某些特征只与训练集有关,对总体不具有代表性
- 不显著性:似乎表明了一个重要关系,但事实上该关系在总体不成立,或没有这个关系也能得到同样好的预测结果