主成分分析(PCA)是一种常用于减少大数据集维数的降维方法,把大变量集转换为仍包含大变量集中大部分信息的较小变量集。
减少数据集的变量数量,自然是以牺牲精度为代价的,降维的好处是以略低的精度换取简便。因为较小的数据集更易于探索和可视化,并且使机器学习算法更容易和更快地分析数据,而不需处理无关变量。
总而言之,主成分分析(PCA)的概念很简单——减少数据集的变量数量,同时保留尽可能多的信息。
使用scikit-learn,可以很容易地对数据进行主成分分析:
# 创建一个随机的PCA模型,该模型包含两个组件 randomized_pca = PCA(n_components=2, svd_solver='randomized') # 拟合数据并将其转换为模型 reduced_data_rpca = randomized_pca.fit_transform(digits.data) # 创建一个常规的PCA模型 pca = PCA(n_components=2) # 拟合数据并将其转换为模型 reduced_data_pca = pca.fit_transform(digits.data) # 检查形状 reduced_data_pca.shape # 打印数据 print(reduced_data_rpca) print(reduced_data_pca)
输出
[[ -1.25946586 21.27488217] [ 7.95761214 -20.76870381] [ 6.99192224 -9.95598251] ... [ 10.80128338 -6.96025076] [ -4.87209834 12.42395157] [ -0.34439091 6.36555458]] [[ -1.2594653 21.27488157] [ 7.95761471 -20.76871125] [ 6.99191791 -9.95597343] ... [ 10.80128002 -6.96024527] [ -4.87209081 12.42395739] [ -0.34439546 6.36556369]]
随机的PCA模型在维数较多时性能更好。可以比较常规PCA模型与随机PCA模型的结果,看看有什么不同。
告诉模型保留两个组件,是为了确保有二维数据可用来绘图。
现在可以绘制一个散点图来可视化数据:
colors = ['black', 'blue', 'purple', 'yellow', 'white', 'red', 'lime', 'cyan', 'orange', 'gray'] # 根据主成分分析结果绘制散点图 for i in range(len(colors)): x = reduced_data_rpca[:, 0][digits.target == i] y = reduced_data_rpca[:, 1][digits.target == i] plt.scatter(x, y, c=colors[i]) # 设置图例,0-9用不同颜色表示 plt.legend(digits.target_names, bbox_to_anchor=(1.05, 1), loc=2, borderaxespad=0.) # 设置坐标标签 plt.xlabel('First Principal Component') plt.ylabel('Second Principal Component') # 设置标题 plt.title("PCA Scatter Plot") # 显示图形 plt.show()
显示:
本文来自博客园,作者:大码王,转载请注明原文链接:https://www.cnblogs.com/huanghanyu/
分类:
人工智能之机器学习
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具