机器学习之旅|开始你的第一个机器学习项目
前言
大家好,关于数据挖掘或者机器学习的理论我想大家应该都已经了解很多,而数据挖掘的工具例如Pandas、NumPy、Sklearn等在历史文章都有所介绍,因此今天我们将开始第一个也是很多人入门机器学习的项目:简单线性回归模型——通过工作年限预测薪水。先来回顾一下基本步骤:
-
加载清洗数据
-
建立、调整模型
-
分析预测
加载并观察数据
首先我们打开Jupyter Notebook
导入相关库并加载数据
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
data = pd.read_excel('salary.xlsx')
接着查看数据
再查看一下描述性统计摘要
可以看到,我们的数据集非常简单所以不需要进行清洗,仅有两个变量:工作年限、薪资水平。一共10行2列,通过观察数据并结合经验,可以认为工作年限与薪资水平应该成线性关系,因此我们接下来将建立线性回归模型(有监督)。
建模预测
现在开始建模预测,虽然数据不大但是我们仍将它划分为训练集和测试集
X = data[['工作年限']]
y = data['薪水']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1, random_state=101)
接下来使用Sklearn
包中的LinearRegression
这个类来训练模型
model = LinearRegression()
model.fit(X_train,y_train)
在模型训练完毕之后,让我们使用之前的测试数据集来判断模型的准确性
当然也可以绘制散点图和回归直线来判断
可以看到我们的模型拥有100%的准确性,不过在真实的数据中几乎不可能出现这样的结果,一般超过90%的准确性就很好了,当然现在我们还可以使用其他数据来进行预测,比如预测拥有6.6年的工作经验对应的薪资水平是16300元。
结束语
以上就是使用Sklearn进行一次简单的回归建模预测的过程,也是我学习入门的案例,虽然简单,但是应该足够让小白搞懂基本流程,下一期来我们将使用著名的IRIS数据集来讲一讲分类。
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 智能桌面机器人:用.NET IoT库控制舵机并多方法播放表情
· Linux glibc自带哈希表的用例及性能测试
· 深入理解 Mybatis 分库分表执行原理
· 如何打造一个高并发系统?
· .NET Core GC压缩(compact_phase)底层原理浅谈
· 手把手教你在本地部署DeepSeek R1,搭建web-ui ,建议收藏!
· 新年开篇:在本地部署DeepSeek大模型实现联网增强的AI应用
· Janus Pro:DeepSeek 开源革新,多模态 AI 的未来
· 互联网不景气了那就玩玩嵌入式吧,用纯.NET开发并制作一个智能桌面机器人(三):用.NET IoT库
· 【非技术】说说2024年我都干了些啥