【最全资料汇总】如何12个月内成为数据科学家?
RoyalMail数据科学家Freddie Odukomaiya曾经用12个月的时间让自己成功的成为数据科学家,以下是他的经验分享和他所使用的学习资源。
以下内容译自https://blog.usejournal.com/how-to-become-a-data-scientist-in-12-months-71aa9ee822d9
想成为数据科学家,以下8点非常重要
- 选择一种编程语言,坚持下去。
不要不断改变你选择的语言。如果这样做,你的进度将大大减慢。
- 明确你的动机。
这很重要,因为学习数据科学很难,所以在过程中很容易失去动力。如果你的动力清晰而强大,那么就更容易忍受和坚持。
- 不要迷失在课程中。
如果你只是不断的在学习教程,你很容易陷入一种自我欺骗“我知道自己在干什么”。最好的方法是在项目中学习。找一个你感兴趣的项目,把数据科学应用其中,比如,我的项目是预测英超联赛的冠军。
- 精准选择小部分资源。
现在有太多学习数据科学基础知识的资源。一个普遍的现象是,大家很难坚持使用一个资源学习,很多人使用一个资源开始学习,看到了一个更好的资源后立即就更换了学习资源,这样成本是非常高的,要尽量避免这种情况。相反,我们应该选择一组涵盖不同主题的资源(例如,construct a curriculum),坚持下去,知道你完成他们
- 让自己沉浸在社区中。
你需要让数据科学包围自己。可以通过以下几种方式:订阅DS简报,阅读数据科学文章和书籍,收听数据科学播客,在youtube上观看数据科学讲座,通过参加所有和任何数据科学活动,利用Meetup和Eventbrite等网站。查找在线DS社区并加入他们。
- 去黑客马拉松!
不要等到你“准备好”再去参加黑客马拉松,参加黑客马拉松的好处远远超过你认为你会经历的任何负面影响。黑客马拉松也可以在线参与,例如,Kaggle本质上就是一个永无止境的在线黑客马拉松。
- 寻找导师。
这对我来说是最困难的部分,因为我对导师的定义有些许误解。导师只是一位经验丰富且值得信赖的老师/辅导员。你可以拥有多个导师,甚至可能无法直接与他们互动。我最终的导师其实是哪些有影响力的数据科学家,我通过社交媒体关注他们,订阅他们的新闻通讯,阅读他们的书籍和听他们的谈话/播客。当我觉得我需要建议时,我通过电子邮件和社交媒体与他们联系,虽然不是每个人都回复了我,但那些确实帮助了我很多。
- 准备好牺牲你工作日的晚上和周末。
你必须投入大量的精修勤练,花费大量时间学习,你的社交生活会受到影响。努力工作很重要,但聪明地工作更有价值,请你准备一份时间表,关于你正在学习的课程,正在阅读的书籍以及正在开展的项目。
最全学习资源汇总
充分利用这些信息资源才能更好的学习数据科学哦。
【课程】
- 开源数据科学大师 - @clarecorthell制作了涵盖数据科学所有不同方面的课程,并附有相关课程,书籍等的链接。
- Class Central - 这是谷歌的在线课程。您可以通过简介和用户评分找到与任何主题相关的在线课程。
- DataCamp - 一家通过互动在线课程教授数据科学的EdTech公司。
【实践】
- Kaggle - Kaggle是预测建模和分析竞赛的平台。
- #100DaysOfCode - 这是一个挑战,初学者尝试每天至少编码一个小时,持续100天。
- Codewars - 通过与其他人一起训练真实代码的挑战来提高您的技能。
- DrivenData - DrivenData让众包成为世上最大的社会挑战和组织之一。
- HackerRank - 练习编码。参与竞争。找工作。
【书籍】
- Machine Learning with Python Cookbook by Chris Albon
- An Introduction to Statistical Learning: with Applications in R
- Hands-On Machine Learning with Scikit-Learn and TensorFlow by Aurélien Géron
- Think Stats: Exploratory Data Analysis by by Allen B. Downey
- The Signal and the Noise: The Art and Science of Prediction by Nate Silver
- Prediction Machines: The Simple Economics of Artificial Intelligence
- How to Lie with Statistics by Darrell Huff
- Automate the Boring Stuff with Python by Al Sweigart
【通讯/博客】
- Data Elixir — Data Elixir每周二会发送到您的收件箱,其中包含从网络上挑选的数据科学内容。
- Data Science Roundup - 互联网上最有用的数据科学文章。由Tristan Handy策划。
- FiveThirtyEight - Nate Silver使用统计分析来解决政治和体育问题的热门博客。
- Variance Explained - David Robinson的数据科学博客,DataCamp的首席数据科学家,这是一家通过互动在线课程教授数据科学的EdTech公司。
- Flowing Data - FlowingData探索统计学家,设计师,数据科学家和其他人如何使用分析、可视化和探索去理解数据和我们自己。
- The Pudding - The Pudding通过视觉论文解释了文化中争论的观点
- Datacamp - 帮助您成为数据科学家的数据科学博客。
- Kaggle Blog - Kaggle.com的官方博客
- Machine Learning Mastery - 即使你是从0开始,也可以在真实应用程序中使用它来掌握机器学习。
- Chris Albon - 流行的Machine Learning Flashcards背后的数据科学家和Machine Learning with Python Cookbook的作者。
- KD Nuggets - KDnuggets™是业务分析,大数据,数据挖掘,数据科学和机器学习的领先站点。
- Analytics Vidhya - 了解有关Data Analytics的所有信息。
【播客】
- Linear Digressions - 在每一集中,主持人通过有趣的应用程序探索机器学习和数据科学。
- Partially Derivative - 日常生活中每天的数据,由Data Science超级极客主持。
- Data Skeptic - 介绍与数据科学,机器学习,统计和人工智能相关的主题的访谈和教育讨论。
- This Week In Machine Learning and Artificial Intelligence- 迎合热爱机器学习的观众和AI爱好者。
- Software Engineering Daily - 关于软件主题的技术访谈。
- DataFramed - 通过DataCamp,专注于探索数据科学可以解决的问题。
- Talking Machines - 机器学习正在改变我们可以提出的问题,我们探索如何提出最佳问题以及如何解决问题。
- Becoming A Data Scientist Podcast - 访问数据科学家,了解他们成功的方法。
- AI in Industry- 每周Dan Faggella都会采访Top AI和ML高管,投资者和研究人员。
【Youtube频道】
- 3Blue1Brown - 到目前为止最好的数学教程频道。以可视方式解释复杂概念。
- Brandon Foltz - 我第二喜欢的数学频道,主要侧重于从初级到高级教学统计。
- Computerphile - 关于计算机和计算机的视频。
- PyData - PyData为数据分析工具的用户和开发人员的国际社区提供了一个论坛,分享想法,相互学习。
- Sentdex - Youtuber和程序员会提供高质量的数据科学教程。
- Siraj Raval - 与Sentdex类似,可生成有趣且信息丰富的数据科学内容。
- 两分钟论文 - 在2分钟内解释最新的数据科学研究论文。
- Enthought - 从SciPy等流行的数据科学会议中寻找精彩的对话和讨论。
【大家要关注】
- @BecomingDataSci - HelioCampus的数据科学家Renee Teate和流行的Becoming A Data Scientist网站和播客的创建者。
- @drob - 大卫罗宾逊,DataCamp的首席数据科学家,Tidytext软件包和O'Reilly的书籍Text Mining with R的共同作者。
- @chrisalbon - Chris Albon,流行的Machine Learning Flashcards背后的数据科学家和Machine Learning with Python Cookbook的作者。
- @frankchn - Frank Chen,Google Brain的软件工程师,负责TensorFlow。
- @fchollet - Francois Chollet,Google的深度学习。神经网络库Keras的创造者。“Deep Learning with Python”的作者。
- @goodfellow_ian -Ian Goodfellow,Google脑研究科学家,领导一个研究人工智能对抗技术的团队。Deep Learning Book的主要作者。
- @jakevdp - Jake VanderPlas,华盛顿大学电子科学研究所数据科学家。访问Google的研究员; Python Data Science Handbook的作者。
- @dataandme - 来自Rstudio的Tidyverse Dev Advocate的Mera Averick。
- @math_rachel - Rachel Thomas,Fast.ai的联合创始人和旧金山大学教授。
【在线社区】
- Python for Data Science
- FreeCodeCamp Data Science Room
- Reddit's Data Science Subreddit
- Kaggle’s online forum
- #100DaysOfCode - #100DaysOfCode Challenge参与者的Slack频道。
- Stack Overflow - 全球最大的开发者社区。
数据科学的学习是一个永无止境的过程,有了方法和学习资源最重要的一定还是坚持。
享受学习,享受知识,享受进步,大家加油鸭!!
网易云信,你身边的即时通讯和音视频技术专家,了解我们,请戳网易云信官网
想要阅读更多行业洞察和技术干货,请关注网易云信博客
更多精彩内容,关注网易云信知乎机构号哦。