初学者数据科学路线图
初学者数据科学路线图
Modelling in python with scikit learn
我将一步一步地告诉你要成为一名数据科学家或数据爱好者。根据我的经验,这是我的意见,可以帮助您提高能力。我毕业于地球科学专业,热爱数据并从事数据科学工作。
**学习统计
** 学习描述性统计和推理统计
**学习编程语言
** 使用带有 pandas 和 numpy 的基本包来学习 python 用于预处理数据,skicit-learn 用于机器学习
了解步骤过程数据直到建模
有一步一步可以帮助你,例如:
- 问题定义:网络钓鱼邮件的自动检测
- 数据准备和处理:数据收集、数据格式化和表示、数据洗牌
- 特征提取:概述要使用的特征,自动特征提取
- 数据集测试:交叉验证以测试和训练数据集,预测结果
- 性能评估:评估算法、准确率、召回率、精度、f1-score、ROC、AUC 的性能指标
**尝试解决案例(项目自身)
** 你可以解决一些情况,尝试在 Kaggle 中查找数据并定义问题,然后解决它
**死投资组合
** 您可以将自己的项目添加到 github.com。因此,人们可以看到您的项目并了解您的能力
**重复练习
** 每天尝试解决数据会提高你的能力,你可以成为大师。所以,不要放弃!
我们正处于大数据时代。数据将是我们生活中最重要的。因此,在建模之前学习数据处理将帮助您更好地为新时代做好准备。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明