数据科学

数据科学

它只是分析、预测和自动化的交叉点,而不是完整的分析、完整的预测和完整的自动化。

  • 数据科学谈论预测
  • 人工智能谈论自动化

人工智能

这是将人类智能输入计算机或机器的过程。

机器学习

ML 是 AI 的一个子集,负责从历史数据中学习模式。

什么是算法?

这是一种借助数学计算来学习模式的方法。

什么是深度学习?

深度学习是机器学习的一个子集,它处理从带有图像和视频的历史数据中学习模式。

自然语言处理 (NLP)

NLP 是 DL 的一部分。它处理从文本数据中学习模式。

项目

只不过是当我们有一个开始时间和一个结束时间。

交付项目的不同方法:

瀑布方法:

一次性交付一个项目。

敏捷方法:

以增量方式交付项目。

在敏捷中,我们遵循“敏捷 CRISP”。即-CRISP — 跨行业标准流程。

数据科学项目的生命周期:

  1. 业务理解:

毕竟,理解业务目标是非常重要的。我们需要了解客户是否希望最大限度地减少储蓄损失,或者他们是否更愿意预测商品的价格等。

2.数据理解:

业务理解之后,接下来就是数据理解。此步骤包括描述数据、其结构、相关性和记录类型。应该使用图形图来探索信息。通过简单地探索数据来提取我们可以获得的有关信息的任何数据。

3. 资料准备:

此阶段包括选择适用数据、使用合并数据集来整合数据、清理数据、通过消除或估算缺失值来处理缺失值、通过消除它们来处理不准确数据、另外使用框测试异常值等步骤阴谋并应付他们。构建新数据,从现有数据中获取新元素。将数据格式化为首选结构,消除不需要的列和特征。这一步是其他阶段中最耗时的。

4.探索性数据分析:(EDA)

这一步包括分析数据、可视化数据、描述性统计等。

4.1

特征工程:

  • 处理缺失值
  • 处理分类特征
  • 处理异常值
  • 处理不平衡的数据
  • 特征变换(归一化,转换为高斯曲线)
  • 特征提取
  • 创建派生特征

4.2 特征选择:

  • 检查相关性
  • 变异膨胀系数 (VIF)
  • 卡方检验
  • Annova 测试

5. 模型训练与评估:

此步骤包括选择合适的模型类型,无论问题是分类问题、回归问题还是聚类问题。在使用 Every 模型进行训练之后,我们需要谨慎地挑选模型来实施并执行它们。我们需要调整每个模型的超参数以获得首选性能。

  • 使用每个模型进行训练
  • 随机搜索简历
  • 网格搜索简历
  • TPOT分类器

在这里评估模型以检查它是否已准备好部署。该模型在看不见的数据上进行检查,并根据一组经过仔细考虑的评估指标进

6. 部署:

这是数据科学生命周期的最后一步。如果任何步骤执行不当,从而对后续步骤产生影响,那么所有的努力都会白费。

一般来说,部署 ML 模型有不同的选择,例如 Flask、Django、Streamlit 等。在大多数情况下,我们可以使用 Streamlit,因为它是最简单快捷的方式,并且不需要任何 Web 开发知识。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/38728/42322213

posted @ 2022-09-22 13:42  哈哈哈来了啊啊啊  阅读(30)  评论(0编辑  收藏  举报