欢迎这位怪蜀黍来到《Python机器学习(二十九)Sklearn 可视化数据:主成分分析(PCA) - 大码王 - 博客园》

关闭页面特效

主成分分析(PCA)是一种常用于减少大数据集维数的降维方法,把大变量集转换为仍包含大变量集中大部分信息的较小变量集。

减少数据集的变量数量,自然是以牺牲精度为代价的,降维的好处是以略低的精度换取简便。因为较小的数据集更易于探索和可视化,并且使机器学习算法更容易和更快地分析数据,而不需处理无关变量。

总而言之,主成分分析(PCA)的概念很简单——减少数据集的变量数量,同时保留尽可能多的信息。

使用scikit-learn,可以很容易地对数据进行主成分分析:

复制代码
# 创建一个随机的PCA模型,该模型包含两个组件
randomized_pca = PCA(n_components=2, svd_solver='randomized')

# 拟合数据并将其转换为模型
reduced_data_rpca = randomized_pca.fit_transform(digits.data)

# 创建一个常规的PCA模型 
pca = PCA(n_components=2)

# 拟合数据并将其转换为模型
reduced_data_pca = pca.fit_transform(digits.data)

# 检查形状
reduced_data_pca.shape

# 打印数据
print(reduced_data_rpca)
print(reduced_data_pca)
复制代码

输出

复制代码
[[ -1.25946586  21.27488217]
 [  7.95761214 -20.76870381]
 [  6.99192224  -9.95598251]
 ...
 [ 10.80128338  -6.96025076]
 [ -4.87209834  12.42395157]
 [ -0.34439091   6.36555458]]
[[ -1.2594653   21.27488157]
 [  7.95761471 -20.76871125]
 [  6.99191791  -9.95597343]
 ...
 [ 10.80128002  -6.96024527]
 [ -4.87209081  12.42395739]
 [ -0.34439546   6.36556369]]
复制代码

随机的PCA模型在维数较多时性能更好。可以比较常规PCA模型与随机PCA模型的结果,看看有什么不同。

告诉模型保留两个组件,是为了确保有二维数据可用来绘图。

现在可以绘制一个散点图来可视化数据:

复制代码
colors = ['black', 'blue', 'purple', 'yellow', 'white', 'red', 'lime', 'cyan', 'orange', 'gray']

# 根据主成分分析结果绘制散点图
for i in range(len(colors)):
    x = reduced_data_rpca[:, 0][digits.target == i]
    y = reduced_data_rpca[:, 1][digits.target == i]
    plt.scatter(x, y, c=colors[i])

# 设置图例,0-9用不同颜色表示
plt.legend(digits.target_names, bbox_to_anchor=(1.05, 1), loc=2, borderaxespad=0.)
# 设置坐标标签
plt.xlabel('First Principal Component')
plt.ylabel('Second Principal Component')
# 设置标题
plt.title("PCA Scatter Plot")

# 显示图形
plt.show()
复制代码

显示:

图

 posted on   大码王  阅读(4757)  评论(0编辑  收藏  举报
编辑推荐:
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具

成都

复制代码

喜欢请打赏

扫描二维码打赏

了解更多

点击右上角即可分享
微信分享提示