高纬度数据定义
高维度数据指的是数据集中包含大量特征或维度的情况。每个特征都可以看作是数据点的一个属性或测量值。例如,一张彩色图像可以被看作是一个高维度的数据集,其中每个像素的颜色值是一个特征。同样,一个文本文档也可以被视为高维度数据,其中每个单词可以被认为是一个特征
低纬度数据定义
低维度数据是指包含较少特征或属性的数据集,可以在二维或者三维展示。
定义
主成分分析(Principal Component Analysis,PCA)是一种用于降低数据维度的线性数据分析技术。它的主要目的是通过找到数据中的主要成分或特征,将高维度的数据映射到低维度的空间中,同时尽量保留原始数据的重要信息
案例讲解
假设你有一个包含身高、体重和年龄的数据集,每个人的信息如下
有3个特征(身高、体重和年龄),每个特征都代表了一个维度。现在,我们希望使用PCA将数据降维到2个维度
setp:
-
首先,计算原始数据的协方差矩阵。协方差矩阵反映了不同特征之间的相关性。
-
然后,进行特征值分解,得到特征值和特征向量。在这个例子中,我们得到了3个特征值和对应的3个特征向量。
-
排序特征值,通常按特征值的大小降序排列。假设排序后的特征值是
[λ1, λ2, λ3]
,对应的特征向量是[v1, v2, v3]
。 -
选择前2个特征向量,即
[v1, v2]
,作为主成分。这两个主成分代表了数据中的主要方向。 -
将原始数据投影到所选的主成分上。对于每个数据点,计算它在
v1
和v2
上的投影值。假设你选择了前两个主成分,即
v1
和v2
,对于一个原始数据点(x, y, z)
,它在这两个主成分上的投影可以如下计算:投影到主成分1上:
投影1 = (x, y, z) · v1
投影到主成分2上:投影2 = (x, y, z) · v2
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!