数据科学

它只是分析、预测和自动化的交叉点，而不是完整的分析、完整的预测和完整的自动化。

数据科学谈论预测
人工智能谈论自动化

人工智能

这是将人类智能输入计算机或机器的过程。

机器学习

ML 是 AI 的一个子集，负责从历史数据中学习模式。

什么是算法？

这是一种借助数学计算来学习模式的方法。

什么是深度学习？

深度学习是机器学习的一个子集，它处理从带有图像和视频的历史数据中学习模式。

自然语言处理 (NLP)

NLP 是 DL 的一部分。它处理从文本数据中学习模式。

项目

只不过是当我们有一个开始时间和一个结束时间。

交付项目的不同方法：

瀑布方法：

一次性交付一个项目。

敏捷方法：

以增量方式交付项目。

在敏捷中，我们遵循“敏捷 CRISP”。即-CRISP — 跨行业标准流程。

数据科学项目的生命周期：

业务理解：

毕竟，理解业务目标是非常重要的。我们需要了解客户是否希望最大限度地减少储蓄损失，或者他们是否更愿意预测商品的价格等。

2.数据理解：

业务理解之后，接下来就是数据理解。此步骤包括描述数据、其结构、相关性和记录类型。应该使用图形图来探索信息。通过简单地探索数据来提取我们可以获得的有关信息的任何数据。

3. 资料准备：

此阶段包括选择适用数据、使用合并数据集来整合数据、清理数据、通过消除或估算缺失值来处理缺失值、通过消除它们来处理不准确数据、另外使用框测试异常值等步骤阴谋并应付他们。构建新数据，从现有数据中获取新元素。将数据格式化为首选结构，消除不需要的列和特征。这一步是其他阶段中最耗时的。

4.探索性数据分析：（EDA）

这一步包括分析数据、可视化数据、描述性统计等。

4.1

特征工程：

处理缺失值
处理分类特征
处理异常值
处理不平衡的数据
特征变换（归一化，转换为高斯曲线）
特征提取
创建派生特征

4.2 特征选择：

检查相关性
变异膨胀系数 (VIF)
卡方检验
Annova 测试

5. 模型训练与评估：

此步骤包括选择合适的模型类型，无论问题是分类问题、回归问题还是聚类问题。在使用 Every 模型进行训练之后，我们需要谨慎地挑选模型来实施并执行它们。我们需要调整每个模型的超参数以获得首选性能。

使用每个模型进行训练
随机搜索简历
网格搜索简历
TPOT分类器

在这里评估模型以检查它是否已准备好部署。该模型在看不见的数据上进行检查，并根据一组经过仔细考虑的评估指标进

6. 部署：

这是数据科学生命周期的最后一步。如果任何步骤执行不当，从而对后续步骤产生影响，那么所有的努力都会白费。

一般来说，部署 ML 模型有不同的选择，例如 Flask、Django、Streamlit 等。在大多数情况下，我们可以使用 Streamlit，因为它是最简单快捷的方式，并且不需要任何 Web 开发知识。

本文链接：https://www.qanswer.top/38728/42322213

posted @ 2022-09-22 13:42 哈哈哈来了啊啊啊阅读(72) 评论(0) 收藏举报

刷新页面返回顶部

amboke

数据科学

数据科学

人工智能

机器学习

什么是算法？

什么是深度学习？

自然语言处理 (NLP)

项目

交付项目的不同方法：

瀑布方法：

敏捷方法：

数据科学项目的生命周期：

公告