数据科学
数据科学
它只是分析、预测和自动化的交叉点,而不是完整的分析、完整的预测和完整的自动化。
- 数据科学谈论预测
- 人工智能谈论自动化
人工智能
这是将人类智能输入计算机或机器的过程。
机器学习
ML 是 AI 的一个子集,负责从历史数据中学习模式。
什么是算法?
这是一种借助数学计算来学习模式的方法。
什么是深度学习?
深度学习是机器学习的一个子集,它处理从带有图像和视频的历史数据中学习模式。
自然语言处理 (NLP)
NLP 是 DL 的一部分。它处理从文本数据中学习模式。
项目
只不过是当我们有一个开始时间和一个结束时间。
交付项目的不同方法:
瀑布方法:
一次性交付一个项目。
敏捷方法:
以增量方式交付项目。
在敏捷中,我们遵循“敏捷 CRISP”。即-CRISP — 跨行业标准流程。
数据科学项目的生命周期:
- 业务理解:
毕竟,理解业务目标是非常重要的。我们需要了解客户是否希望最大限度地减少储蓄损失,或者他们是否更愿意预测商品的价格等。
2.数据理解:
业务理解之后,接下来就是数据理解。此步骤包括描述数据、其结构、相关性和记录类型。应该使用图形图来探索信息。通过简单地探索数据来提取我们可以获得的有关信息的任何数据。
3. 资料准备:
此阶段包括选择适用数据、使用合并数据集来整合数据、清理数据、通过消除或估算缺失值来处理缺失值、通过消除它们来处理不准确数据、另外使用框测试异常值等步骤阴谋并应付他们。构建新数据,从现有数据中获取新元素。将数据格式化为首选结构,消除不需要的列和特征。这一步是其他阶段中最耗时的。
4.探索性数据分析:(EDA)
这一步包括分析数据、可视化数据、描述性统计等。
4.1
特征工程:
- 处理缺失值
- 处理分类特征
- 处理异常值
- 处理不平衡的数据
- 特征变换(归一化,转换为高斯曲线)
- 特征提取
- 创建派生特征
4.2 特征选择:
- 检查相关性
- 变异膨胀系数 (VIF)
- 卡方检验
- Annova 测试
5. 模型训练与评估:
此步骤包括选择合适的模型类型,无论问题是分类问题、回归问题还是聚类问题。在使用 Every 模型进行训练之后,我们需要谨慎地挑选模型来实施并执行它们。我们需要调整每个模型的超参数以获得首选性能。
- 使用每个模型进行训练
- 随机搜索简历
- 网格搜索简历
- TPOT分类器
在这里评估模型以检查它是否已准备好部署。该模型在看不见的数据上进行检查,并根据一组经过仔细考虑的评估指标进
6. 部署:
这是数据科学生命周期的最后一步。如果任何步骤执行不当,从而对后续步骤产生影响,那么所有的努力都会白费。
一般来说,部署 ML 模型有不同的选择,例如 Flask、Django、Streamlit 等。在大多数情况下,我们可以使用 Streamlit,因为它是最简单快捷的方式,并且不需要任何 Web 开发知识。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明