人工智能概述之04机器学习工作流程
1. 机器学习的定义
机器学习(Machine Learning,简称ML)是一种人工智能(Artificial Intelligence,简称AI)的分支,致力于研究如何让计算机系统通过学习从数据中获取知识和经验,然后利用这些知识和经验来做出具体的决策或预测。
与传统的程序设计不同,机器学习的方法使计算机系统能够从大量的数据中学习模式和规律,而无需显式地编写特定的规则。
机器学习的目标是通过训练模型来实现自动化的任务解决和决策制定。这些模型可以根据输入数据的模式和特征进行调整,以提高其性能。
机器学习可以分为监督学习(Supervised Learning)、无监督学习(Unsupervised Learning)、半监督学习(Semi-Supervised Learning)、强化学习(Reinforcement Learning)等不同的类型,每种类型都有其独特的应用领域和方法。
在监督学习中,模型通过学习输入数据和相应的标签之间的关系,以预测新的、未标记的数据。
在无监督学习中,模型试图从数据中发现隐藏的模式和结构,而不依赖于预先定义的标签。
半监督学习结合了监督学习和无监督学习的元素,利用部分带标签的数据进行训练。
强化学习则是通过在环境中采取行动,并根据这些行动的结果来学习最优的策略,以实现某个目标。
总体而言,机器学习为计算机系统赋予了学习和适应的能力,使其能够更好地处理复杂的任务和问题,如图像识别、语音识别、自然语言处理、推荐系统等
2. 机器学习的工作流程(参考谷歌提供的10个步骤)
机器学习(Machine Learning,ML)工作流程通常包括以下步骤,每个步骤都是为了最终构建和部署一个有效的机器学习模型:
-
定义问题:
- 最佳实践: 清晰地定义机器学习的目标,明确问题是分类、回归还是聚类等。
- 示例: 例如,我们的目标是通过用户的行为数据预测其购买意愿。
-
收集数据:
- 最佳实践: 收集与问题相关的高质量数据,确保数据质量和多样性。
- 示例: 收集用户的历史购买数据、浏览记录和其他相关信息。
-
数据清洗和预处理:
- 最佳实践: 处理缺失值、异常值和重复数据,并进行特征工程以提高模型性能。
- 示例: 填充缺失值、移除异常值,并从时间戳数据中提取新的特征。
-
探索性数据分析 (EDA):
- 最佳实践: 可视化和分析数据,以了解特征之间的关系和数据分布。
- 示例: 使用直方图、散点图等可视化工具,探索用户购买行为和其他特征的关系。
-
选择模型:
- 最佳实践: 根据问题的性质选择适当的模型,考虑模型的性能和解释能力。
- 示例: 对于购买预测问题,可以选择使用逻辑回归、决策树或深度学习模型。
-
训练模型:
- 最佳实践: 使用训练数据训练模型,并使用验证集进行调参。
- 示例: 划分数据集为训练集和验证集,使用训练集训练模型,并根据验证集的性能调整超参数。
-
模型评估:
- 最佳实践: 使用测试集评估模型性能,考虑精确度、召回率、F1分数等指标。
- 示例: 使用未见过的测试数据评估模型的预测性能。
-
调整和优化模型:
- 最佳实践: 根据评估结果对模型进行调整和优化,可能需要反复迭代这一过程。
- 示例: 调整模型的超参数,尝试不同的特征工程方法,以提高模型性能。
-
部署模型:
- 最佳实践: 将训练好的模型部署到生产环境,并建立监控系统以跟踪模型性能。
- 示例: 将购买预测模型集成到在线商店,并监控模型在实时数据上的表现。
-
**维护和更新模型
3. 相关概念
3.1 数据
数据是喂养模型的粮食,一般涉及的样本、特征、目标值等概念
数据集中:
一行数据我们称为一个样本
一列数据我们成为一个特征
有些数据有目标值(标签值),有些数据没有目标值
数据类型构成:
数据类型一:特征值+目标值(目标值是连续的和离散的)
数据类型二:只有特征值,没有目标值
数据分割:
机器学习一般的数据集会划分为两个部分:2个数据内容不同哦
训练数据:用于训练,构建模型
测试数据:在模型检验时使用,用于评估模型是否有效(新数据)
划分比例:
训练集:70% 80% 75%
测试集:30% 20% 25%
特征与目标值的关系:
-
特征(Features):
- 定义: 特征是用于描述数据的属性或者变量。在机器学习中,特征是输入模型的数据的各个方面或特点。
- 示例: 对于房价预测的问题,特征可能包括房屋的面积、卧室数量、浴室数量、地理位置等。在图像识别中,特征可能是图像的像素值。
- 作用: 特征提供了输入数据的信息,模型通过学习特征之间的关系来进行预测或分类。
-
目标值(Target):
- 定义: 目标值是模型试图预测或分类的结果。在监督学习中,目标值通常是标签或输出变量。
- 示例: 在房价预测问题中,目标值可能是房屋的实际售价。在垃圾邮件分类问题中,目标值可能是邮件是“垃圾”或“非垃圾”。
- 作用: 模型的任务是学习如何根据输入的特征来预测或分类目标值。
-
示例:
- 示例1(房价预测):
- 特征:房屋的面积、卧室数量、浴室数量、地理位置。
- 目标值:房屋的实际售价。
- 示例2(垃圾邮件分类):
- 特征:邮件的文本内容、发件人地址、主题等。
- 目标值:邮件是“垃圾”或“非垃圾”。
- 示例1(房价预测):
-
区别:
- 特征与目标值的区别: 特征是输入模型的数据的属性,而目标值是模型试图预测或分类的结果。
- 输入与输出的关系: 特征是模型的输入,目标值是模型的输出。
- 学习过程: 模型通过学习输入数据的特征和目标值之间的关系来进行预测或分类。
3.2 特征工程
特征工程是指在机器学习和数据挖掘中,通过选择、转换、创造原始数据特征,以提高模型性能的过程。特征工程的目标是使数据更适合用于模型训练,提高模型对数据的拟合能力,从而提高模型的预测或分类性能。
特征工程包括以下一些常见的操作:
1. 特征选择(Feature Selection):
-
最佳实践: 通过统计方法、模型的特征重要性、正则化等手段选择对目标变量有最大影响的特征。
-
示例: 使用基于树的模型如随机森林,查看每个特征的重要性并选择最重要的一部分特征。
2. 特征变换(Feature Transformation):
-
最佳实践: 对数变换、标准化、归一化等操作,使得数据更符合模型的假设。
-
示例: 对于偏态分布的数据,可以应用对数变换,将其转化为更接近正态分布的形式。
3. 特征创造(Feature Creation):
-
最佳实践: 创建与问题相关的新特征,可以是特征组合、多项式特征、文本特征的提取等。
-
示例: 对于时间序列数据,可以创建新的特征,如过去几天的移动平均值。
4. 处理缺失值和异常值:
-
最佳实践: 选择适当的方法填充缺失值,对异常值进行平滑处理或者删除。
-
示例: 使用均值、中位数或其他统计量填充缺失值,或者通过插值方法进行填充。对于异常值,可以使用截断、Winsorizing等方法。
5. 数据编码(Data Encoding):
-
最佳实践: 将分类数据转换成模型可以理解的形式,如独热编码。
-
示例: 对于具有多个类别的特征,使用独热编码将其转换为二进制形式,以便模型能够正确理解。
6. 降维(Dimensionality Reduction):
-
最佳实践: 使用降维技术如主成分分析(PCA)来减少特征的数量,同时保留数据中的重要信息。
-
示例: 对于高维数据集,应用PCA将数据投影到低维子空间,保留大部分方差的同时减少特征数量。
7. 特征重要性分析:
-
最佳实践: 使用模型的特征重要性分析,了解哪些特征对模型预测最为关键。
-
示例: 利用决策树或随机森林等模型,观察特征的重要性排序,以便更好地理解数据。
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
一般特征工程包含内容包括
- 特征提取: 将任意数据(如文本或图像)转换为可用于机器学习的数字特征
- 特征预处理: 通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程
- 特征降维: 在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程
3.3 机器学习
监督学习
无监督学习
半监督学习
强化学习
3.4 模型评估
分类模型评估
回归模型评估
拟合(欠拟合、 过拟合)
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南