[译]从零开始成为数据科学家的9个步骤
[译]从零开始成为数据科学家的9个步骤
- 原文链接:http://www.datasciencecentral.com/profiles/blogs/9-steps-to-become-a-data-scientist-from-scratch
- 作者:Bernard Marr
- 时间:2015年10月8日下午6点
- 译者:Tacey Wong
- 翻译时间:2015年10月12日
由于数据科学和数据分析是迅速发展的领域,从而相应工作的合格人才十分缺乏。这使得对于任何对其有兴趣或正在寻找新工作的人来说,数据科学都是一个很有前途且有利可图的从业领域。
但是,你怎样才能成为一个数据科学家呢?
首先,对于数据科学科学家的定义不同公司有多种不同的看法。对于这一概念没有单一的定义。但总的来说,数据科学家是具有统计学知识背景的软件工程师和在其想要从事的领域具有特定而完备知识的人的复合体。
大约百分之九十的数据科学家至少有大学本科教育背景——更高的具有博士学位,但他们获得学位的领域十分广泛。一些招聘人员甚至发现,在人文学科领域有一定创造力的人也可以接受理工科技能。
因此,除了获得一个数据科学学位(这类学位在世界各地的著名大学如雨后春笋般出现)你需要采取什么措施成为一个数据科学家?
-
1、温习你的数学和统计学技能。一个合格的数据科学家必须能够理解数据在告诉你什么,并通过从数据中获得的信息进行下一步的工作。你必须有扎实的基本线性代数,对算法和统计技能的理解。在某些地方上可能需要更高级的数学,但这是一个起步的好地方:)。
-
2、 理解机器学习的概念。机器学习是与大数据有千丝万缕联系的新兴流行词。机器学习使用人工智能算法将数据转化为价值,且无需显式编程来进行自动学习。
-
3、学习编程。数据科学家必须知道如何操作代码以便告诉计算机如何分析数据。从一个开放源码的语言,如Python,开始起步是个不错的选择。
-
4、了解数据库,数据仓库和分布式存储。数据存储在数据库、数据仓库或整个分布式网络中,这些数据存储库建立方式决定了你如何访问,使用,并分析数据。如果你在构建数据存储之前不进行整体的考虑将会对你之后的工作带来深远的影响。
-
5、学习数据规整和数据清洗技术。数据规整是将原始数据转换成另一种格式以便更容易获取和分析的过程。数据清理有助于消除重复和“噪声”数据。两者都是数据科学家工具箱中的必备工具与技能。
-
6、了解良好的数据可视化和数据展现的基础知识。你不必成为一个平面设计师,但你需要精通如何创建一个门外汉,如你的经理或CEO,可以理解的数据报告。
-
7、给你的工具箱添加更多的工具。一旦你掌握了上面所说的那些技能,就是时候扩展你的数据科学工具箱了,如Hadoop、R、Spark编程。这些工具的知识和使用经验将会使你超过大部分想从事数据科学这方面工作的人。
-
8、实践。在你有一份该领域的工作之前,你如何实践练习数据科学?你可以使用开源数据进行你自己的个人项目,参加数据科学竞赛,通过网络和数据科学家协同工作,加入一个训练营,作志愿者或实习生。最好的数据科学家在该领域应有当有足够的经验和直觉,并能够将他们的工作展示给招聘人员。
-
9、成为社区的一部分。关注行业的思想领袖,阅读行业博客和网站,参与其中,发出提问,并及时了解当前该领域的新闻和理论。
听起来是不是很多?好吧,确实挺多。数据科学不是适合每个人的,对于对其感兴趣并醉心于此的人来说,它可以是令人难以置信的奖励与回报。如果你没有足够的资金上大学,查看一下这个图表,详细说明了如何使用网络上的免费资源完成上面的这些步骤。
你认为成为数据科学家的最重要的一步是什么?我很想听到你的想法,你可以通过在下面评论(译者注:原文中下方可以评论)
数据科学中心(DSC,www.datasciencecentral.com)资源链接
- 职业:训练|书籍|作弊条|课程|认证|薪金调查|招聘
- 知识:研究|竞赛|网络研讨会|我们的书|成员|DSC搜索
- 消息:商业新闻|公告|事件/活动|RSS源
- 杂项:热链接|代码片段|外部资源|顶级博客|订阅|博主
扩展阅读
- 50篇关于Hadoop以及相关主题的文章
- 数据科学家发现的十个个现代统计概念
- DSC上前几的数据科学关键字
- 成为数据科学家的四个简单步骤
- 大数据和数据科学的十三个新趋势
- 数据科学相关的二十二个技巧
- 数据科学与十六个分析学科的比较
- 如何检测杂乱的相关性以及如何找到真正的相关性
- 所有数据科学家应读(实践)的十七篇短教程
- 十类数据科学家
- 针对数据科学家的六十六个面试问题
- 高水平与低水平的数据科学
在Twitter上关注我们: @DataScienceCtrl| @AnalyticBridge
译者附
-
上面提到的那个通过网络资源进行数据科学自学介绍的图表
-
上图的翻译重制版
译者言
这几个月都在准备着考研的事,国庆回了趟家,在准备回家-回家路上-在家-准备返校-返校之后至今的时间段内,足足半个多月过去了,今天实在是没有什么状态,就拿来一篇简短介绍数据科学的小博文进行翻译。一是打发不在状态的无聊,二是熟悉一下数据科学的大致学习过程不至于考研结束就把机器学习数据挖掘的东西忘个精光,三是是英文太差的同学/网友简单的传播一下数据科学方面的东西(英文可以的一定要看原版啊!!!!我这只是为了自己理解打发时间用的!!!!!!)。
这个小博文更像是在为那个网站打广告做宣传,但所述的内容对于一个未识数据科学的人来说未必没有参考价值。
还真有人点开啊🤣随意随意😂