分类与预测

分类与预测

主要分类与预测算法


回归分析 确定预测值与其他变量关系。线性、非线性、Logistic、岭回归、主成分回归等

决策树 自顶向下分类

人工神经网络 用神经网络表示输入与输出之间的关系

贝叶斯网络 又称信度网络,是不确定知识表达和推理领域最有效的理论模型之一

支持向量机 将低维非线性可分转化为高维线性可分进行分析


主要回归模型分类


线性回归 因/自变量是线性关系 对一个或多个自/因变量线性建模,用最小二乘法求系数

非线性回归 因/自变量是非线性 非线性建模

Logistic回归 因变量为0或1 广义线性回归特例,利用Logistic函数将因变量控制0-1内表示取值为1的概率

岭回归 参与建模的自变量间具有多重共线性 改进的最小二乘法

主成分回归 同上 根据PCA提出,是参数估计的一种有偏估计


逻辑回归——Scikit-Learn

决策树——sklearn.tree;输出一个tree.dot文件,许安装Graphviz进行可视化

人工神经网络——keras


BP神经网络 信息正传播,误差逆传播

LM神经网络 给予梯度下降法和牛顿法的多层前馈神经网络,迭代次数少,收敛块,精度高

RBF径向基神经网络 能以任意精度逼近任意连续函数,输入层-隐含层是非线性,隐含层-输出成是线性,特别适合解决分类问题

FNN模糊神经网络 具有模糊权系数或输入信号是模糊两的神经网络,汇聚NN和模糊系统的有点

GMDH神经网络 也称多项式网络,网络结构在训练中变化

ANFIS自适应神经网络 NN镶嵌在一个全模糊的结构中,自动产生、修正、高度概括出最佳隶属函数和模糊规则


SVM——sklearn.svm

随机森林——sklearn.ensemble

朴素贝叶斯——sklearn.naive_bayes

建模的第一步都是建立一个空白的对象,然后设置模型参数,利用fit进行巡林啊,最后用predict方法预测结果,之后进行一些评估如score等

误差评价
:绝对误差、相对误差、平均绝对误差、均方误差、均方根误差、平均绝对百分误差、Kappa统计、识别准确度、识别精确率、反馈率、ROC曲线、混淆矩阵

聚类分析

常用方法:划分方法、层次分析方法、基于密度的方法、基于网格的方法、给予模型的方法

常用算法:K-Means、K-中心点、系统聚类(多层次聚类)

评价方法:purity评价法(正确的比例)、RI评价法、F值评价法

聚类可视化工具——TSNE

关联规则 :也称为购物篮分析,目标是找出各项之间的关系

常用算法:Apriori、FP-Tree、Eclat算法、灰色关联法

时序模式 :给定一个已被观测的时间序列,预测该序列的未来值

常用模型:平滑法、趋势你合法、组合模型、AR模型、MA模型、ARMA模型、ARIMA、ARCH、GARCH模型及衍生

python主要时序算法函数:acf自相关,plot_acf画自相关系数图、pacf计算偏相关系数、plot_pacf画偏相关系数图、adfuller对观测值序列进行单位根检验、diff差分计算、ARIMA创建ARIMA时序模型、summary或summaty2给出ARIMA模型报告、aic/bic/hqic计算ARIMA模型的指标值、forecast预测、acorr_ljungbox检验白噪声

离群点检测

成因:数据源不同、自然变异、测量和收集误差

类型:全局离群点和局部离群点;数值型离群点和分类型离群点;一维离群点和多维离群点

检测方法:基于统计、基于邻近度、基于密度、基于聚类

在这里插入图片描述

posted @ 2021-06-28 15:03  老酱  阅读(181)  评论(0编辑  收藏  举报