数据相关问题-ML-(第三部分)

数据相关问题-ML-(第三部分)

Photo by 用户体验印度尼西亚 on 不飞溅

假设你克服了 数据量 **** 问题,现在您已准备好进行分析,您会从给定的数据开始吗?你确定吗?没有任何进一步的数据处理和清理?如果是的话,那你就错了。

在这篇文章中,我将讨论 数据质量 , 它是什么?为什么我们需要确保高质量的数据?但是,在继续之前,我邀请您阅读我的 以前的文章 全面了解我在说什么,并通过本系列正确地继续您的 ML 之旅(顺序从下到上),

[

数据相关问题-ML-(第二部分)

在我之前的文章中,我谈到了数据量是许多 ML 工程师面临的真正问题。在这…

媒体网

](/@ismailouahbi169/data-related-problems-ml-part-ii-b8050aa43aed)

[

数据相关问题-ML-(第一部分)

正如所承诺的那样,与数据相关的问题会带来更多细节,但在潜入大海之前,我邀请您……

媒体网

](/@ismailouahbi169/data-related-problems-ml-part-i-b59a49d947ea)

[

机器学习的挑战(第二部分)

在通过文章讨论了限制机器学习模型运行良好的数据相关问题之后......

媒体网

](/@ismailouahbi169/the-challenges-of-machine-learning-part-ii-384d2e176803)

[

机器学习的挑战(第一部分)

在谈到机器学习算法用于学习的不同方法之后,通过下面的文章

媒体网

](/@ismailouahbi169/the-challenges-of-machine-learning-part-i-5aa500107534)

好吧,让我们开始讨论这个话题,
确保优质数据需要:

  • 从可靠来源收集数据。
  • 执行探索性数据分析以查找模式并检查噪声。
  • 清理数据(删除异常值、空值、重复项等)

对于前两个轴,我建议阅读我的 全码纸( end-to-end ML 项目)使用干净和注释的代码更详细地介绍了这一点,此外还提供了一些资源以进行更多解释。

让我们深入了解 数据清理 过程并查看这个重要过程的全局。

…如果你的训练数据充满了 错误 , 异常值 , 和 噪音 (例如,由于测量质量差),这将使系统更难检测到潜在的模式,因此您的系统不太可能表现良好。花时间付出的努力通常是值得的 打扫 增加你的训练数据。事实是, 大多数数据科学家花费大量时间来做这件事 .

奥雷连杰龙

数据清理流程:

data cleaning (The Artists of Data Science)

如果某些情况清楚 异常值 ,它可能有助于简单地 丢弃它们 或尝试 修复错误 手动。

奥雷连杰龙

无论是一个 离群值 , 错误 , 或者 噪音 您需要检测它并拥有处理它所需的材料。

diamonds price prediction (by ismail ouahbi)

我们绘制了特征“x”和“y”的散点图来观察它们的关系(查看我的代码文件以了解更多信息)。

  • 我们可以注意到一个 线性关系 存在于两个变量之间( 是的 & X )。
  • 一些的存在 异常值 也很明显。

diamonds price prediction (by ismail ouahbi)

我们也可以通过以下方式检测异常值 IQR 方法

data cleaning (The Artists of Data Science)

data cleaning (The Artists of Data Science)

如果某些情况是 缺少一些功能 (例如,5% 的客户没有说明他们的年龄),您必须决定是否要 忽视 这个属性, 忽视 这些事例, 填写 缺失值(例如,年龄中位数), 或训练一个具有该特征的模型和一个没有该特征的模型 . ** 奥雷连杰龙**

我转过所有 异常值空值 为了便于处理(所以 .isnull().sum() 方法将返回每个特征的异常值数)

在这里,我采取了简单的方法 删除异常值 (您也可以执行其他方法)。

data cleaning (The Artists of Data Science)

一旦你理解了这个过程,你就必须一遍又一遍地重复它以获得一个 干净的可以用了 数据。

这就是本文的全部内容,请继续关注我即将发布的文章,我将在其中介绍更多内容 关于数据的话题 .

谢谢你的时间,

访问我的网站: 主页 — IsmailOuahbi.com
跟着我 领英 更多。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/18696/34310610

posted @   哈哈哈来了啊啊啊  阅读(15)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
点击右上角即可分享
微信分享提示