摘要:
简介 模型不合适,导致其无法对数据实现有效预测 | | 训练数据 | 预测数据 | | | | | | 欠拟合 | 不准确 | 不准确 | | 过拟合 | 准确 | 不准确 | | 好模型 | 准确 | 准确 | 原因 模型结构过于复杂(维度过高) 使用了过多属性,模型训练时包含了干扰信息 解决办法 阅读全文
摘要:
简介 PCA code #加载数据 import pandas as pd import numpy as np data = pd.read_csv('iris_data.csv') data.head(100) print(pd.value_counts(data.loc[:,'label']) 阅读全文
摘要:
简介 参考链接 https://blog.csdn.net/weixin_46344368/article/details/106312536?spm=1001.2014.3001.5502 code # 实战 异常检测 #加载数据 import pandas as pd import numpy 阅读全文
摘要:
简介 数据降维, 是指在某些限定条件下,降低随机变量个数,得到一组不相关主变量的过程 作用: 实现数据可视化 减少模型分析数据量,提升处理效率,降低计算难度 如何实现? 使投影后数据的方差最大,因为方差越大数据也越分散 计算过程: 原始数据预处理(标准化 \(\mu = 0, \sigma = 1\ 阅读全文
摘要:
简介 自动寻找 异常 根据输入数据, 对不符合预期模式的数据进行识别 概率密度 概率密度函数是一个描述随机变量在某个确定的取值点附近的可能性的函数 区间概率 \(P(x_1,x_2)\int_{x_1}^{x_2} p(x) dx\) 高斯分布(正态分布?) \[ p(x)=\frac{1}{\si 阅读全文
摘要:
简介 一种对实例进行分类的树形结构,通过多层判断区分目标所属类别 本质:通过多层判断,从训练数据集中归纳出一组分类规则 优点: 计算量小,运算速度较快 易于理解,可清晰查看各属性的重要性 缺点: 忽略属性间的相关性 样本类别分布不均匀时,容易影响模型表现 问题核心:特征选择, 每一个节点,应该选用哪 阅读全文