数据相关问题-ML-(第三部分)
数据相关问题-ML-(第三部分)
假设你克服了 数据量 **** 问题,现在您已准备好进行分析,您会从给定的数据开始吗?你确定吗?没有任何进一步的数据处理和清理?如果是的话,那你就错了。
在这篇文章中,我将讨论 数据质量 , 它是什么?为什么我们需要确保高质量的数据?但是,在继续之前,我邀请您阅读我的 以前的文章 全面了解我在说什么,并通过本系列正确地继续您的 ML 之旅(顺序从下到上),
[
数据相关问题-ML-(第二部分)
在我之前的文章中,我谈到了数据量是许多 ML 工程师面临的真正问题。在这…
媒体网
](/@ismailouahbi169/data-related-problems-ml-part-ii-b8050aa43aed)
[
数据相关问题-ML-(第一部分)
正如所承诺的那样,与数据相关的问题会带来更多细节,但在潜入大海之前,我邀请您……
媒体网
](/@ismailouahbi169/data-related-problems-ml-part-i-b59a49d947ea)
[
机器学习的挑战(第二部分)
在通过文章讨论了限制机器学习模型运行良好的数据相关问题之后......
媒体网
](/@ismailouahbi169/the-challenges-of-machine-learning-part-ii-384d2e176803)
[
机器学习的挑战(第一部分)
在谈到机器学习算法用于学习的不同方法之后,通过下面的文章
媒体网
](/@ismailouahbi169/the-challenges-of-machine-learning-part-i-5aa500107534)
好吧,让我们开始讨论这个话题,
确保优质数据需要:
- 从可靠来源收集数据。
- 执行探索性数据分析以查找模式并检查噪声。
- 清理数据(删除异常值、空值、重复项等)
对于前两个轴,我建议阅读我的 全码纸( end-to-end ML 项目)使用干净和注释的代码更详细地介绍了这一点,此外还提供了一些资源以进行更多解释。
让我们深入了解 数据清理 过程并查看这个重要过程的全局。
…如果你的训练数据充满了 错误 , 异常值 , 和 噪音 (例如,由于测量质量差),这将使系统更难检测到潜在的模式,因此您的系统不太可能表现良好。花时间付出的努力通常是值得的 打扫 增加你的训练数据。事实是, 大多数数据科学家花费大量时间来做这件事 .
奥雷连杰龙
数据清理流程:
data cleaning (The Artists of Data Science)
如果某些情况清楚 异常值 ,它可能有助于简单地 丢弃它们 或尝试 修复错误 手动。
奥雷连杰龙
无论是一个 离群值 , 错误 , 或者 噪音 您需要检测它并拥有处理它所需的材料。
diamonds price prediction (by ismail ouahbi)
我们绘制了特征“x”和“y”的散点图来观察它们的关系(查看我的代码文件以了解更多信息)。
- 我们可以注意到一个
线性关系
存在于两个变量之间(是的
&X
)。 - 一些的存在 异常值 也很明显。
diamonds price prediction (by ismail ouahbi)
我们也可以通过以下方式检测异常值 IQR 方法 :
data cleaning (The Artists of Data Science)
data cleaning (The Artists of Data Science)
如果某些情况是 缺少一些功能 (例如,5% 的客户没有说明他们的年龄),您必须决定是否要 忽视 这个属性, 忽视 这些事例, 填写 缺失值(例如,年龄中位数), 或训练一个具有该特征的模型和一个没有该特征的模型 . ** 奥雷连杰龙**
我转过所有 异常值 至 空值 为了便于处理(所以 .isnull().sum() 方法将返回每个特征的异常值数)
在这里,我采取了简单的方法 删除异常值 (您也可以执行其他方法)。
data cleaning (The Artists of Data Science)
一旦你理解了这个过程,你就必须一遍又一遍地重复它以获得一个 干净的 和 可以用了 数据。
这就是本文的全部内容,请继续关注我即将发布的文章,我将在其中介绍更多内容 关于数据的话题 .
谢谢你的时间,
访问我的网站: 主页 — IsmailOuahbi.com
跟着我 领英 更多。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通