2022 年 4月 22 日随笔档案 - HDU李少帅

2022年4月22日

摘要：简介模型不合适，导致其无法对数据实现有效预测 | | 训练数据 | 预测数据 | | | | | | 欠拟合 | 不准确 | 不准确 | | 过拟合 | 准确 | 不准确 | | 好模型 | 准确 | 准确 | 原因模型结构过于复杂（维度过高）使用了过多属性，模型训练时包含了干扰信息解决办法阅读全文

posted @ 2022-04-22 15:39 HDU李少帅阅读(36) 评论(0) 推荐(0) 编辑

实战 PCA

摘要：简介 PCA code #加载数据 import pandas as pd import numpy as np data = pd.read_csv('iris_data.csv') data.head(100) print(pd.value_counts(data.loc[:,'label']) 阅读全文

posted @ 2022-04-22 15:15 HDU李少帅阅读(31) 评论(0) 推荐(0) 编辑

实战异常检测

摘要：简介参考链接 https://blog.csdn.net/weixin_46344368/article/details/106312536?spm=1001.2014.3001.5502 code # 实战异常检测 #加载数据 import pandas as pd import numpy 阅读全文

posted @ 2022-04-22 14:37 HDU李少帅阅读(46) 评论(0) 推荐(0) 编辑

PCA 主成分分析

摘要：简介数据降维，是指在某些限定条件下，降低随机变量个数，得到一组不相关主变量的过程作用：实现数据可视化减少模型分析数据量，提升处理效率，降低计算难度如何实现？使投影后数据的方差最大，因为方差越大数据也越分散计算过程：原始数据预处理（标准化 \(\mu = 0, \sigma = 1\ 阅读全文

posted @ 2022-04-22 11:22 HDU李少帅阅读(82) 评论(0) 推荐(0) 编辑

异常检测

摘要：简介自动寻找异常根据输入数据，对不符合预期模式的数据进行识别概率密度概率密度函数是一个描述随机变量在某个确定的取值点附近的可能性的函数区间概率 \(P(x_1,x_2)\int_{x_1}^{x_2} p(x) dx\) 高斯分布（正态分布？） \[ p(x)=\frac{1}{\si 阅读全文

posted @ 2022-04-22 11:03 HDU李少帅阅读(62) 评论(0) 推荐(0) 编辑

决策树

摘要：简介一种对实例进行分类的树形结构，通过多层判断区分目标所属类别本质：通过多层判断，从训练数据集中归纳出一组分类规则优点：计算量小，运算速度较快易于理解，可清晰查看各属性的重要性缺点：忽略属性间的相关性样本类别分布不均匀时，容易影响模型表现问题核心：特征选择，每一个节点，应该选用哪阅读全文

posted @ 2022-04-22 10:44 HDU李少帅阅读(77) 评论(0) 推荐(0) 编辑