分类与预测

分类与预测

主要分类与预测算法

回归分析确定预测值与其他变量关系。线性、非线性、Logistic、岭回归、主成分回归等

决策树自顶向下分类

人工神经网络用神经网络表示输入与输出之间的关系

贝叶斯网络又称信度网络，是不确定知识表达和推理领域最有效的理论模型之一

支持向量机将低维非线性可分转化为高维线性可分进行分析

主要回归模型分类

线性回归因/自变量是线性关系对一个或多个自/因变量线性建模，用最小二乘法求系数

非线性回归因/自变量是非线性非线性建模

Logistic回归因变量为0或1 广义线性回归特例，利用Logistic函数将因变量控制0-1内表示取值为1的概率

岭回归参与建模的自变量间具有多重共线性改进的最小二乘法

主成分回归同上根据PCA提出，是参数估计的一种有偏估计

逻辑回归——Scikit-Learn

决策树——sklearn.tree；输出一个tree.dot文件，许安装Graphviz进行可视化

人工神经网络——keras

BP神经网络信息正传播，误差逆传播

LM神经网络给予梯度下降法和牛顿法的多层前馈神经网络，迭代次数少，收敛块，精度高

RBF径向基神经网络能以任意精度逼近任意连续函数，输入层-隐含层是非线性，隐含层-输出成是线性，特别适合解决分类问题

FNN模糊神经网络具有模糊权系数或输入信号是模糊两的神经网络，汇聚NN和模糊系统的有点

GMDH神经网络也称多项式网络，网络结构在训练中变化

ANFIS自适应神经网络 NN镶嵌在一个全模糊的结构中，自动产生、修正、高度概括出最佳隶属函数和模糊规则

SVM——sklearn.svm

随机森林——sklearn.ensemble

朴素贝叶斯——sklearn.naive_bayes

建模的第一步都是建立一个空白的对象，然后设置模型参数，利用fit进行巡林啊，最后用predict方法预测结果，之后进行一些评估如score等

误差评价
：绝对误差、相对误差、平均绝对误差、均方误差、均方根误差、平均绝对百分误差、Kappa统计、识别准确度、识别精确率、反馈率、ROC曲线、混淆矩阵

聚类分析

常用方法：划分方法、层次分析方法、基于密度的方法、基于网格的方法、给予模型的方法

常用算法：K-Means、K-中心点、系统聚类(多层次聚类)

评价方法：purity评价法(正确的比例)、RI评价法、F值评价法

聚类可视化工具——TSNE

关联规则 ：也称为购物篮分析，目标是找出各项之间的关系

常用算法：Apriori、FP-Tree、Eclat算法、灰色关联法

时序模式 ：给定一个已被观测的时间序列，预测该序列的未来值

常用模型：平滑法、趋势你合法、组合模型、AR模型、MA模型、ARMA模型、ARIMA、ARCH、GARCH模型及衍生

python主要时序算法函数：acf自相关，plot_acf画自相关系数图、pacf计算偏相关系数、plot_pacf画偏相关系数图、adfuller对观测值序列进行单位根检验、diff差分计算、ARIMA创建ARIMA时序模型、summary或summaty2给出ARIMA模型报告、aic/bic/hqic计算ARIMA模型的指标值、forecast预测、acorr_ljungbox检验白噪声

离群点检测

成因：数据源不同、自然变异、测量和收集误差

类型：全局离群点和局部离群点；数值型离群点和分类型离群点；一维离群点和多维离群点

检测方法：基于统计、基于邻近度、基于密度、基于聚类

在这里插入图片描述

posted @ 2021-06-28 15:03 老酱阅读(181) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

老酱

分类与预测

公告