第五章:挖掘建模【未完,待续】
5.1 分类与预测
分类主要是预测分类标号(离散属性);而与预测主要是建立连续值函数模型,预测给定自变量对应的因变量的值;
5.1.1 实现过程
分类 --- 构造一个分类模型,输入样本的属性值,输出对应的类别。分类建立在已有类标记的数据集上。有监督的学习
预测 --- 建立两种或两种以上变量间相互依赖的函数模型,然后进行预测。
5.1.2 常用的分类与预测方法
回归分析;决策树; 人工神经网络; 贝叶斯网络; 支持向量机
5.1.3 回归分析
主要的回归模型:线性回归; 非线性回归; Logistic回归; 岭回归; 主成分回归;
线性回归: 可用最小二乘法求模型系数;【适用范围:因变量与自变量都是线性关系】
非线性回归: 如果非线性关系可用通过简单的函数转换为线性关系,用线性回归思想求解;如果不能转换,用非线性最小二乘方法求解;【适用范围:因变量与自变量不都是线性关系】
Logistic回归:广义线性回归模型的特例, 利用Logistic函数将因变量的取值范围控制在0和1直接,表示取值为1的概率;【适用范围:因变量一般有1和0(是,非)两种取值】
岭回归:改进的最小而成估计的方法;【适用范围:参与建模的自变量间之间具有多重共线性】
主成分回归:最小二乘法的一种改进,它是参数估计的一种有偏估计,可以消除自变量间之间具有多重共线性;【适用范围:参与建模的自变量间之间具有多重共线性】
5.1.4 决策树
5.1.5 人工神经网络
5.1.6 分类与预测算法评估:
评估指标;
绝对误差与相对误差; 平均绝对误差; 均方误差 ; 均方根误差 ; 平均绝对百分误差
Kappa统计:用于比较两个或多个观测者对同一事物,或者观测者对同一事物的两次多多次观测结果是否一致。取值范围【-1, 1】
识别准确度: Accuracy = (TP + FN) /( TP + TN + FP + FN) *100% 【注: TP(true positives): 正确的肯定 :表示正确的肯定的分类数】
识别精确度: Precision = TP / (TP + FP) *100% 【注: FP(false positives): 错误的肯定:表示错误的肯定的分类数】
反馈率: Recall = TP /( TP + TN ) *100% 【注: FN(false negatives): 错误的否定:表示错误的否定的分类数】
ROC曲线
混淆矩阵
5.1.7 Python分类预测模型特点
Python 步骤:
建立一个对象 ---- 通过fit()方法对模型进行训练 ---- 通过predict()方法预测结果 ---- 通过score()方法对模型评估
5.2 聚类分析
5.2.1 常用聚类方法:
划分(分裂)方法;层次分析方法;基于密度的方法;基于网格的方法;基于模型的方法
5.2.2 K-means聚类方法:
5.2.3 聚类分析算法评估:
5.2.4 Python 主要聚类分析方法:
Python 步骤:
先用对应的函数建立模型 ---- 利用.fit()方法对模型进行训练 ---- 利用.label_方法给出样本标签/或用.predict()方法预测新的输入的标签
5.3 关联规则
5.3.1 常用的关联规则算法
5.3.2 Apriori算法