高纬度数据定义

高维度数据指的是数据集中包含大量特征或维度的情况。每个特征都可以看作是数据点的一个属性或测量值。例如,一张彩色图像可以被看作是一个高维度的数据集,其中每个像素的颜色值是一个特征。同样,一个文本文档也可以被视为高维度数据,其中每个单词可以被认为是一个特征

低纬度数据定义

低维度数据是指包含较少特征或属性的数据集,可以在二维或者三维展示。

定义

主成分分析(Principal Component Analysis,PCA)是一种用于降低数据维度的线性数据分析技术。它的主要目的是通过找到数据中的主要成分或特征,将高维度的数据映射到低维度的空间中,同时尽量保留原始数据的重要信息

 

案例讲解

假设你有一个包含身高、体重和年龄的数据集,每个人的信息如下

 有3个特征(身高、体重和年龄),每个特征都代表了一个维度。现在,我们希望使用PCA将数据降维到2个维度

setp:

  1. 首先,计算原始数据的协方差矩阵。协方差矩阵反映了不同特征之间的相关性。

  2. 然后,进行特征值分解,得到特征值和特征向量。在这个例子中,我们得到了3个特征值和对应的3个特征向量。

  3. 排序特征值,通常按特征值的大小降序排列。假设排序后的特征值是 [λ1, λ2, λ3],对应的特征向量是 [v1, v2, v3]

  4. 选择前2个特征向量,即 [v1, v2],作为主成分。这两个主成分代表了数据中的主要方向。

  5. 将原始数据投影到所选的主成分上。对于每个数据点,计算它在v1v2上的投影值。

    假设你选择了前两个主成分,即 v1v2,对于一个原始数据点 (x, y, z),它在这两个主成分上的投影可以如下计算:

    投影到主成分1上: 投影1 = (x, y, z) · v1 投影到主成分2上: 投影2 = (x, y, z) · v2

 

posted on   黑逍逍  阅读(90)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!



点击右上角即可分享
微信分享提示