园龄：5年粉丝：1 关注：10

📂数据科学

🔖数据科学

2022-05-08 11:25阅读: 234评论: 0推荐: 0

【数据科学原理与实践】模型选择

模型选择

机器学习：使用训练数据训练模型，利用模型进行预测，提升效果的算法。

有监督学习

打分

是有监督学习，打分输出的是连续值（通常为实数），分类问题输出的是离散值（标签）。
线性回归：输入和输出是线性加性函数。
逻辑回归：通常预测一个介于0到1之间的数值，适合预测概率和比率。

举例：预测关键词广告的价值，估计贷款拖欠的概率

无监督学习：发现数据的相似性和关系

聚类

把对象分成具有相似模式的没有类标签的几类（eg.识别具有相同购买模式的顾客群体；识别所有讨论的类似事件的新闻）

K-means聚类

随机地选择k个对象，每个对象初始地代表了一个簇的中心；
对剩余的每个对象，根据其与各簇中心的距离，将它赋给最近的簇；
重新计算每个簇的平均值，更新为新的簇中心；
不断重复2、3，直到准则函数收敛。

关联规则挖掘

两个不相交的非空集合X,Y，如果有X->Y，就说X->Y是一条关联规则。（eg. 识别点击量多的网页和广告关键词组合；购物车兴趣推荐，同时买了什么东西推荐给你）

Apriori算法

产生频繁项集（Frequent Itemset），发现满足最小支持度阈值的所有项集
产生关联规则（Rule）,从上一步发现的频繁项集中提取所有满足最小置信
度阈值的规则

最邻近法

如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，该样本也属于这个类别，并具有这个类别上样本的特性（eg.产品推荐；电影推荐等，看过这些电影的人也看过别的什么推荐给你）

k-NN

计算已知类别数据集中的点与当前点之间的距离；
按照距离递增次序排序；
选取与当前距离最小的k个点；
确定前k个点所在类别的出现频率；
返回前k个点出现频率最高的类别作为当前点的预测分类

模型评价

比较的模型：
如果所建立的模型低于空值模型，则是失败的
如果所建立的模型接近贝叶斯率模型，停止调优
如果所建立的模型不能优于训练数据的最优单变量模型，失败

分类模型的评价

分类器的评价度量：

精度：(TP+TN)/(TP+FP+TN+FN)
准确率和召回率：准确率：TP/(TP+FP)；召回率：TP/(TP+FN)
F-score：是准确率与召回率的调和指标(1+β²)*(准确率*召回率)/(β²*准确率+召回率）
灵敏度和特异度：灵敏度=召回率；特异度：TN/(TN+FP)

分类器的评价工具：混淆矩阵（统计已知类别组合与预测类别组合一起发生的频度统计表）

	预测值=负	预测值=正
实际=负	TN(真阴)	FP(假阳)
实际=正	FN(假阴)	TP(真阳)

打分模型的评价

检查残差，即预测的值和实际结果之间的偏差

均方根误差sqrt=(mean((d$prediction-d$y)^2))
R-平方
相关性
绝对误差

概率模型的评价

逻辑斯蒂回归和决策树都是ᨀ供准确概率估计的建模方法

创建双密度图：找出并解释双密度图中分类器阈值
受试者操作特性曲线（ROC曲线）：画出真阳性率=敏感度（TP/(TP+FN)）和假阳性率=特异度（FP/(FP+TN）
对数似然估计：赋给每个样例的概率值p的乘积的对数，这个值总是负数，趋于零更好
偏离值：-2*(对数似然估计-S) S是技术常数
赤池信息准则AIC：偏离值+2*模型的独立参数个数
贝叶斯信息准则BIC：偏离值+独立参数个数*ln(样本数量)
熵

聚类模型的评价

簇内距离和簇间距离
把簇当做分类或得分

模型验证

法一：输出在训练数据集上获得最佳效果的模型，在测试集上验证模型
法二：在训练集上训练模型，在验证集上评价模型，根据评价结果调整模型，在测试机上验证模型。

常见模型问题

偏差：系统性误差
方差：非系统性
过拟合：模型某些特征只与训练集有关，对总体不具有代表性
不显著性：似乎表明了一个重要关系，但事实上该关系在总体不成立，或没有这个关系也能得到同样好的预测结果

上一篇【数据科学原理与实践】数据准备

下一篇【数据科学原理与实践】基本建模方法

本文作者：梅落南山

本文链接：https://www.cnblogs.com/ting65536/p/16245091.html

posted @ 2022-05-08 11:25 梅落南山阅读(234) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

梅落南山