到 2025 年,所有统计学家都应该成为数据科学家

到 2025 年,所有统计学家都应该成为数据科学家

介绍

长期以来,数据分析所需的技能一直是对统计理论、概念和概率论及其应用有很好的理解。早在 1974 年左右由 Peter Naur 创造数据科学术语之前,统计学家就是这种情况。

然而,今天后者感觉主宰了数据分析领域,似乎将传统统计学家推到了一边。应该是这样吗?统计领域是否受到数据科学专业的威胁?数据科学家比统计学家好吗?我们如何在这些不同的技能组合上妥协并协调工作,以追求对输出质量的相同分析接受?

好吧,我不会重新回顾过去关于这两个核心领域的辩论,但数据科学的背后是统计学,除了后者从数量和分析其他非传统数据(例如图像、视频)的角度来看待大数据复杂的技术。简而言之,如果没有统计学知识,数据科学家就无法完成工作,统计学家需要掌握数据科学技能并将其添加到 21 世纪的技能清单中。我在某处读到 Jeff Wu 曾使用过这个词 ** 数据科学** 作为替代名称 ** 统计数据** 1985 年。因此,这为本文提出的论点提供了支持。

我是一名专业的经济学家,在我生活的大部分时间里都应用了统计技能。我的学位是经济发展,从第一年开始学习准系统统计数据,直到第四年。在那些日子里,唯一可用于统计分析的工具是 STATA、电子视图 (E-Views) 和其他工具。在肯特大学攻读硕士学位期间,我还掌握了 90% 统计应用的计量经济学。大学没有提供数据科学软件包,而且该术语从未实现。

简而言之,我在 2011 年自学了数据科学,并使用 R markdown 起草了我的论文。那是我对数据科学领域感兴趣的开始,今天我了解了这个领域的 80% 并且很高兴。

数据科学回顾

在数据科学领域,所有提供数据科学课程的机构都明确指出数据科学的三个基石是拥有领域知识

·数学-统计,

· 商业知识

· 编码(黑客)技能

如下面的维恩图所示。

这些领域可能有不同的技术术语,但指的是相同的事物。掌握这三个领域将更接近数据科学专业。

统计学家的论据:

小计算:如果以上 3 个领域知识相当于 100% 的数据科学维恩图,则意味着统计学家只需学习 33% 的图表即可成为数据科学家,因为他们已经满足 统计数据业务领域 ,在他们目前的工作中。剩下的就是让统计学家摆脱使用数据科学编程语言的传统统计软件。与数据科学领域的新手相比,需要 100% 的学习才能成为数据科学家(有人告诉他们 6 个月内!)。

那么,当统计学家已经达到所需技能的 66.6% 时,为什么他们不转向数据科学领域呢?让我们打破上面的维恩图来了解统计学家的立场。

  1. 统计学家已经具备商业和统计知识 数据分析师 .

2. Statistics 和 Coding 的交集相当于 机器学习 .这要求统计学家除了传统的统计软件知识外,还必须获得新的计算技能(有待填补)。

3. 统计、商业和编码之间的交叉相当于 数据科学 .这是最后的摊位。获得编码知识(也称为黑客技能)并将其应用于他们的业务将使统计学家进入数据科学的世界。

统计学家面临的唯一挑战是放弃使用传统的软件包,转而采用 R 和 Python 等 21 世纪的编程语言。

以上清楚地表明,数据科学是将统计和黑客技能应用于商业领域。因此,通过应用获得的技能的实践,获得编码技能将使统计学家更接近数据科学专业。

统计学家的新起点

我们已经确定了统计学家需要掌握的编码技能差距。对专有软件的依赖可能已成为过去。拥抱新的免费开源编程语言是学习编码技能的最佳方式。你猜怎么着——数据科学中的决策基于使用统计工具,这些工具确信统计学家在他们的应用中拥有广泛的曝光率。唯一的额外要求是如何将这些技能整合到机器学习研究中。以下是三个步骤:

首先 ,我建议有抱负的数据科学家使用这本书: 统计学习简介:在 R 中的应用 .这本书讲授了如何使用 R 编程语言应用统计数据。我在学习阶段使用了这本书,对于那些想要掌握数据科学的统计应用,尤其是使用 R 进行机器学习的人来说,这本书是最值得推荐的书。

第二 为了加深您的数据科学技能,拥有一系列项目,您可以在其中应用编程语言从数据中获得洞察力。从简单开始,随着时间的推移扩展您的领域。在工作中使用现有项目尝试在 R 或 Python 中处理相同的数据,进行探索性数据分析,创建图表,并向工作场所的专业数据科学家寻求帮助,不要害羞地接近他们。如果您的预算有限,可以利用 Udemy、Coursera、Data Camp 和其他公司提供的在线课程——您的目标不应该是“始终”获得证书,而是专注于获得新的相关技能,因为您已经做到了受过教育。不断地练习才是正道。

第三 ,学习编码技能有多种途径,常见的有:

统计学家 你在统计理论方面有很好的基础,并且多年来你已经将你的商业头脑和统计数据应用于制定商业决策。您只需要扩展一个领域知识,那就是上面讨论的编码。老实说,你真的不需要学习诸如人工智能之类的困难概念和一些你永远不会在工作中应用的机器学习概念(如果你已经被雇用的话)。

鼓舞人心的挑战 : 仔细看下面的维恩图,尝试在 PowerPoint 中重新创建图表,名称位于每个圆圈的中间,并重新定位圆圈,每个域名都不会穿过任何线条。你看到了什么?哪个部分最小?这就是获得数据科学技能徽章的容易程度。您已经具备成为数据科学家的技能!

结论

请记住,您可以通过仅使用一种编程语言(例如 R 或 Python)成为数据科学家(我说的是准系统应用程序,但也有一些基于重载的软件,例如 Hadoop 等)。不要强迫自己同时学习 R 和 Python,因为掌握其中一种语言的知识以后很容易过渡到另一种语言。这就像一个从纽波特去伦敦的计划,你可以开车、坐火车、坐飞机或步行!这是你的选择。从小处着手,犯错误,然后从中学习并改进。这就是要走的路。

到 2025 年,所有统计学家都必须成为数据科学家。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/25886/29081100

posted @ 2022-09-11 00:29  哈哈哈来了啊啊啊  阅读(49)  评论(0编辑  收藏  举报