第五章：挖掘建模【未完，待续】

5.1 分类与预测

分类主要是预测分类标号（离散属性）；而与预测主要是建立连续值函数模型，预测给定自变量对应的因变量的值;

5.1.1 实现过程

分类 --- 构造一个分类模型，输入样本的属性值，输出对应的类别。分类建立在已有类标记的数据集上。有监督的学习

预测 --- 建立两种或两种以上变量间相互依赖的函数模型，然后进行预测。

5.1.2 常用的分类与预测方法

回归分析；决策树；人工神经网络；贝叶斯网络；支持向量机

5.1.3 回归分析

主要的回归模型：线性回归；非线性回归； Logistic回归；岭回归；主成分回归；

线性回归：可用最小二乘法求模型系数；【适用范围：因变量与自变量都是线性关系】

非线性回归：如果非线性关系可用通过简单的函数转换为线性关系，用线性回归思想求解；如果不能转换，用非线性最小二乘方法求解；【适用范围：因变量与自变量不都是线性关系】

Logistic回归：广义线性回归模型的特例，利用Logistic函数将因变量的取值范围控制在0和1直接，表示取值为1的概率；【适用范围：因变量一般有1和0（是，非）两种取值】

岭回归：改进的最小而成估计的方法；【适用范围：参与建模的自变量间之间具有多重共线性】

主成分回归：最小二乘法的一种改进，它是参数估计的一种有偏估计，可以消除自变量间之间具有多重共线性；【适用范围：参与建模的自变量间之间具有多重共线性】

5.1.4 决策树

5.1.5 人工神经网络

5.1.6 分类与预测算法评估：

评估指标；

绝对误差与相对误差；平均绝对误差；均方误差；均方根误差；平均绝对百分误差

Kappa统计：用于比较两个或多个观测者对同一事物，或者观测者对同一事物的两次多多次观测结果是否一致。取值范围【-1， 1】

识别准确度： Accuracy = (TP + FN) /( TP + TN + FP + FN) *100% 【注： TP(true positives): 正确的肯定 :表示正确的肯定的分类数】

识别精确度： Precision = TP / (TP + FP) *100% 【注： FP(false positives): 错误的肯定:表示错误的肯定的分类数】

反馈率： Recall = TP /( TP + TN ) *100% 【注： FN(false negatives): 错误的否定:表示错误的否定的分类数】

ROC曲线

混淆矩阵

5.1.7 Python分类预测模型特点

Python 步骤：

建立一个对象 ---- 通过fit()方法对模型进行训练 ---- 通过predict()方法预测结果 ---- 通过score()方法对模型评估

5.2 聚类分析

5.2.1 常用聚类方法：

划分（分裂）方法；层次分析方法；基于密度的方法；基于网格的方法；基于模型的方法

5.2.2 K-means聚类方法：

5.2.3 聚类分析算法评估：

5.2.4 Python 主要聚类分析方法：

Python 步骤：

先用对应的函数建立模型 ---- 利用.fit()方法对模型进行训练 ---- 利用.label_方法给出样本标签/或用.predict()方法预测新的输入的标签

5.3 关联规则

5.3.1 常用的关联规则算法

5.3.2 Apriori算法

5.4 时序模式

5.4.1 时间序列算法

5.4.2 时间序列的预处理

5.4.3 平稳时间序列分析

5.4.4 非平稳时间序列分析

5.4.5 Python主要时序模式算法

5.5 离散点检测

5.5.1 离群点检查方法

5.5.2 基于模型的离群点检查方法

5.5.3 基于聚类的离群点检查方法

posted @ 2016-12-12 11:49 蒋励阅读(248) 评论(0) 编辑收藏举报

刷新页面返回顶部

数据科学工作加油站