摘要:
流行学习算法: 是一类用于可视化的算法,它允许进行更复杂的映射,通常也可以给出更好的可视化。 t-SNE算法是其中一种。 PCA是用于变换数据的首选方法,也可以进行可视化,但它的性质(先旋转然后减少方向)限制了有效性。因此,我们可以使用流形学习算法进行数据可视化。 1、什么是t-SNE t-SNE算 阅读全文
摘要:
主成分分析(PCA)是一种旋转数据集的方法,旋转后的特征在统计上不相关。 1、什么是PCA (1)、理解概念 下图展示了PCA对于一个模拟二维数据集的作用 图一: 算法在原始数据点集中,找到方差最大的方向(包含最多信息),标记为‘成分1’。 找到与“成分1”正交(成直角)且包含最多信息的方向,标记为 阅读全文
摘要:
一些算法,比如神经网络和SVM,对数据缩放非常敏感。需要对数据进行一种简单的按特征的缩放和移动。 1、不同类型的预处理 一个简单的二分类例子 📣 库:sklearn.preprocessing StandardScaler:确保每个特征的平均值为0,方差为1。 RobustScaler:使用中位数 阅读全文
摘要:
本周收获 总结一下本周学习内容: 1、学习了《深入浅出Pandas》的第五章:Pandas高级操作的三个内容 复杂查询 数据类型转换 数据排序 🚗我的博客链接: Pandas复杂查询、数据类型转换、数据排序 2、《Python机器学习基础教程》第二章p53-p90 朴素贝叶斯分类器 🚗我的博客链 阅读全文
摘要:
Pandas高级操作 1、复杂查询 (1)逻辑运算 以DataFrame其中一列进行逻辑计算,会产生一个对应的bool值组成的Series 于是我们可以利用返回的bool列表进行一系列的数据查询 (2)逻辑筛选数据 df[df['Q1'] == 8] # Q1 等于8 df[~(df['Q1'] = 阅读全文