DataCamp-博客中文翻译-一-
DataCamp 博客中文翻译(一)
学习 MLOps 的 10 个绝佳资源
什么是 MLOps?
2015 年,谷歌发布了一篇名为《机器学习系统中隐藏的技术债务》的研究论文。在这篇论文中,斯卡利等人强调了编码预测性机器学习模型是如何在生产中构建、部署和维护机器学习系统的一小部分。这篇论文在整个领域引起了轩然大波,并通过无数数据科学家努力在生产中部署他们的模型的实例得到了验证。
令人兴奋的新类别 MLOps(机器学习操作)在过去几年中出现,旨在解决数据团队面临的部署挑战。MLOps,或机器学习操作,是一套工具、实践、技术和文化,确保机器学习系统的可靠和可扩展部署。随着数据科学作为一个领域的成熟,MLOps 是数据科学家可以选择的增长最快的专业之一。
鉴于 MLOps 是一个新兴的领域,没有太多成文的学习途径。无论如何,开源和机器学习社区已经提供了大量的免费资源,任何人都可以利用这些资源,这些资源非常可靠,而且非常有用。这里有 10 种免费资源,您可以从今天开始,开始您的 MLOps 学习之旅。
1.安德烈·布尔科夫的机器学习工程
这本书最初于 2020 年发布,是少数几本涵盖应用机器学习基础知识的书之一。布尔科夫没有专注于任何工具或概念,而是分解了构建和部署端到端机器学习项目的艺术和科学。在整本书中,他强调了数据团队在生产中部署机器学习模型时面临的最常见挑战及其解决方案。
你可以免费阅读这本书,因为它遵循“先阅读,后购买”的原则——这意味着如果你从中获得了价值,你可以阅读并付费。
2.生产博客中的 ML
在当今活跃的数据科学家的时事通讯和博客中可以找到一些关于 MLOps 的最佳资源。Luigi Patruno 的 ML in Production 博客和时事通讯就是最好的例子。他定期分享关于在生产中部署和维护模型的深刻内容。以下是他对自己的策展方法的描述:
- applied——内容侧重于已经证明在生产中有效的工具、模式、平台和系统。
- 专注于最佳实践—数据科学和机器学习是快速变化的领域。缺乏拥有部署这些系统的必要技能的人员,也缺乏既定的最佳实践。时事通讯旨在向更广泛的社区展示这些最佳实践。
- 旨在提高数据科学家的工作效率-所有策划的内容旨在帮助数据科学家、ML 工程师和数据从业者获得和提高影响力大、适销对路的技能组合。
3.MLOps 社区
学习 MLOps 最好是一起做,并与实践。这是一个由同修组成的社区,供你收听(或加入)并向该领域其他有经验的同修学习。从博客、视频和引人入胜的对话中,这个资源是在这个领域建立立足点的好方法。
4.全栈深度学习
这门课程在学习如何将复杂的大型模型投入生产方面提供了一些高质量的内容。它不仅由 OpenAI 和斯坦福大学的工程师和科学家等知名教授讲授,而且你还可以找到领导当今一些最鼓舞人心的机器学习公司的领导人的客座讲座,如特斯拉的 Andrej Karpathy。
本课程教授深度学习的全栈方法,包括
- 提出问题并估计项目成本
- 查找、清理、标记和补充数据
- 选择正确的框架和计算基础设施
- 故障排除培训和确保再现性
- 将模型部署到生产中
5.悟空莫汉达斯用 ML 做的
悟空·莫汉达斯创建了一门关于构建端到端机器学习系统的非凡而开放的课程。Made with ML 是 GitHub 上的顶级知识库之一,超过 30K+的人正在学习他的课程。
使用 ML 的课程涵盖了机器学习的基础知识,以及在生产中部署、测试和监控模型的细节。悟空的课程涵盖了所介绍的概念背后的直觉,提供了基于项目的动手作业,并为学习者提供了一些成功担任 MLOps 角色所需的软件工程最佳实践。
6.牛逼的生产机器学习
这个精心策划的 GitHub 知识库是为那些希望直接进入包、库和尖端工具进行实践的人准备的。所有列出的包和工具都旨在帮助您构建、部署、监控、版本化、扩展和保护您的生产机器学习系统。
无论是数据标记、模型训练编排、可解释性、服务、监控等等——这里肯定至少有几个包可以在您的项目中开始试验。它们还提供 ML 工程师简讯,让您了解机器学习从业者策划的最新框架、教程和文章。
7.DVC 的 MLOps 教程
DVC(数据版本控制)是一个用于机器学习项目的开源版本控制系统。DVC 将 Git 版本控制扩展到数据集和模型。此外,DVC 背后的同一个团队还开发了持续机器学习(CML),这是一种用于调整持续集成系统的工具,如 GitHub Actions & GitLab CI 用于机器学习。
这个相对短的 YouTube 系列突出了 DevOps 和机器学习交汇处的重要概念。它有效地平衡了理论和实践,并向您展示了如何通过 DVC 应用数据版本控制。
8.机器学习操作
这种资源可以说是最全面的资源之一。它充斥着分解成功的 MLOps 实践的不同元素的帖子。机器学习操作提出了指导方针、框架、行为准则,并试图设定 MLOps 的标准。
虽然很短,但这是一个很好的起点,阐明了为什么 MLOps 很重要,成功的 MLOps 实践的关键原则,MLOps 中使用的工具和框架,等等。
9.人工智能工程的机器学习操作
对于应用机器学习来说,AIEngineering 可能是最好的之一,如果不是最好的 YouTube 频道。Srivatsan Srinivasan 拥有超过 60000 名订户,通过讨论所有与数据相关的事情,他已经拥有了一批追随者。
他在 MLOps 和部署端到端机器学习项目上有大量深入的视频和播放列表。一定要去看看。
10.TensorFlow 为 TFX 的生产 ML 部署提供 ML 工程
谷歌用 TensorFlow 构建了机器学习中使用最广泛的工具之一。他们通过 TensorFlow Extended (TFX)将它带到了另一个层次。TensorFlow Extended 是一个用于部署机器学习模型的端到端平台。它由各种用于数据验证、转换、模型分析等的包组成。TFX 旨在轻松设计机器学习系统,而无需在软件工程工作中花费大量时间和精力。
这个 YouTube 播放列表由谷歌开发者倡导者 Robert Crowe 带领,向你介绍谷歌使用的关键 MLOps 概念和最佳实践。此外,TFX 文档也是一个很好的读物——仅仅尝试使用该软件包及其指南就可以教会你很多东西。
了解更多关于 MLOps 的信息
虽然 MLOps 仍处于早期阶段,但抢先了解上述资源中涵盖的最新最佳实践和工具非常有价值。如果您有兴趣了解更多关于 MLOps 的信息,您还可以查看以下资源:
- Noah Gift 的 MLOps 实用指南
- 与阿莱西娅·维森吉奇一起使用 MLOps 操作机器学习
- 与丹·贝克尔一起从预测到决策
2022 年将有 10 个 Python 包加入您的数据科学堆栈
随着数据科学的成熟和发展,从业者可以使用的工具也在不断发展。虽然 scikit-learn、pandas、numpy 和 matplotlib 等库是 PyData 堆栈的基础,但学习和掌握新的库和包对于在数据职业生涯中成长至关重要。
因此,本文将涵盖过去几年中出现的 Python 机器学习和数据科学生态系统中十个越来越受欢迎的包。
1.SHAP
随着机器学习从实验走向操作化,模型的可解释性是必须的。根据用例的不同,组织将模型的可解释性和透明性作为部署过程的一部分。
机器学习中可解释性的崛起在过去几年中一直在加速,看看过去十年中“可解释的人工智能”一词的搜索趋势就可以展示这一点:
作者 Google Trends 截图— 链接到结果
这种对可解释的人工智能(XAI)日益增长的兴趣来自于避免与机器学习模型相关联的有害结果的需要。对于金融或医疗保健等行业的高风险用例来说,尤其如此。机器学习模型的结果可能充满了放大现有刻板印象的偏见。这可以在谷歌翻译中看到,这是世界上最常用的语言模型之一:
机器学习模型如何放大有害刻板印象的例子
左边的例子是乌兹别克语,一种中性语言。然而,当将查询翻译成英语时,谷歌翻译的语言模型用其结果强化了性别歧视的刻板印象。你可以观察到其他中性语言的类似结果,如土耳其语或波斯语。
这种偏见的例子在机器学习用例中可能会产生极其有害的结果,如信用风险建模或信用批准。为了最大限度地降低这些风险,数据科学家正在使用可解释的人工智能(XAI)技术来理解机器学习系统的内部工作原理。
对 XAI 来说,最受欢迎的工具之一是由 Scott M. Lundberg 和 Su-In Lee 创建的 SHAP 图书馆。SHAPley Additive exPlanations(SHAP)使用博弈论的方法来解释是什么驱动了大量机器学习模型的输出。
其大众吸引力的主要部分是其 Shapley 值的优雅可视化,这可以解释模型输出的一般和个别。通过浏览文档,你可以深入了解 SHAP 及其范例。
图片来自 SHAP 文件-麻省理工学院许可
🌟GitHub star:16.2k
📦问题:1.3K
🍴叉子:2.5K
2. UMAP
随着数据集规模的不断增长,对更好、更有效的降维算法的需求也在增长。
虽然 PCA 快速而高效,但它可能会返回过于简化的结果,因为它只减少了数据集的维数,而不必关注底层数据结构。SNE 霸王龙试图通过更加重视数据的结构来弥补这一点,但这一过程对于更大的数据集来说非常缓慢。
幸运的是,在 2018 年,利兰·麦金尼斯和他的同事们引入了 UMAP(均匀流形逼近和投影)算法,作为这两种方法之间的共同点。UMAP Python 包更灵活地减少了表格数据集的维度,强调了数据的全局拓扑结构的重要性。
该软件包在 Kaggle 上很流行,其文档概述了除降维之外的其他有趣应用,如针对更大数据集的更快离群点检测。其结果在可视化时既实用又美观:
图片来自 UMAP 文件— BSD-3 条款许可
🌟GitHub Stars: 5.6K
📦问题:313
🍴福克斯:633
3 & 4.LightGBM 和 CatBoost
当 XGBoost 库在 2015 年变得稳定时,它迅速统治了 Kaggle 上的表格比赛。它速度很快,优于其他梯度推进实现。然而,它并不完美。微软和 Yandex 这两家价值数十亿美元的公司受到了陈天齐在梯度增强机器和开源 LightGBM 和 CatBoost 库方面的工作的启发。
他们的目标很简单——改进 XGBoost 的缺点。虽然 LightGBM 极大地减少了 XGBoost 形成的 boosted 树的内存占用,但 CatBoost 变得比 XGBoost 更快,并使用默认参数获得了令人印象深刻的结果。
在 Kaggle 的 2021 年数据科学和机器学习状况调查中,这两个库位列最受欢迎的机器学习框架的前七名。
🌟GitHub Stars (LGBM,CB): 13.7K,6.5K
📦问题:174,363
🍴叉子:3.5K,1K
🔗有用链接: LGBM 文档、 CB 文档,教程— LGBM 、 CB
5.BentoML
将模型部署到生产中从未如此重要。在这一节中,我们将讨论 BentoML 如何简化将模型部署为 API 端点的过程。历史上,数据科学家使用 Flask、Django 或 FastAPI 等 web 框架来部署模型作为 API 端点,但这些工具通常带有相对较陡的学习曲线。
BentoML 简化了 API 服务的创建,只需要几行代码。它几乎可以与任何机器学习框架一起工作,并且可以在几分钟内将它们部署为 API 端点。尽管 BentoML 是去年发布的,目前仍处于测试阶段,但它已经积累了一个重要的社区。你可以点击查看 BentoML 的各种实例。
🌟GitHub Stars: 3.5K
📦问题:395
🍴福克斯:53
6 & 7.细流和梯度
机器学习解决方案应该是每个人都可以访问的,虽然 API 部署会让您的同事、队友和程序员朋友受益,但模型也应该为非技术社区提供用户友好的界面。
用于构建这种界面的两个发展最快的软件包是 Streamlit 和 Gradio。它们都提供了低代码的 Pythonic APIs 来构建 web 应用程序来展示您的模型。使用简单的函数,您可以创建 HTML 组件来接受不同类型的用户输入,如图像、文本、视频、语音、草图等。,并返回一个预测。
Streamlit 特别有用,因为您可以使用它的富媒体工具来讲述美丽的数据故事。您可以在他们的图库中查看来自 Streamlit 的各种示例。
用于机器学习的 streamlit web 应用示例
将 BentoML 这样的 API 服务与 Streamlit 或 Gradio 这样的 UI 工具结合起来,是 2022 年部署机器学习模型的最佳和最轻的方式。
🌟GitHub Stars (Streamlit,Gradio): 18.9K,6.6K
📦问题:264,119
🍴福克斯:1.7K,422
🔗有用链接: Streamlit 文档、 Gradio 文档,教程— Streamlit 、 Gradio
8.PyCaret
PyCaret 是一个低代码的机器学习库,最近吸引了很多关注。使用 PyCaret,您只需几行代码就可以自动化机器学习管道的几乎任何阶段。它结合了 Scikit-learn、XGBoost、transformers 等其他流行软件包的一些最佳特性和算法。它的主要吸引力在于它能够在笔记本环境中在几分钟内完成从数据准备到模型部署的过程。
PyCaret 有独立的子模块,用于分类、回归、NLP、聚类、异常检测,还有一个专用的模块用于最新版本的时间序列分析。如果你想自动化和加速你的机器学习工作流程,PyCaret 是你的首选库。
🌟GitHub Stars: 6.5K
📦问题:248
🍴叉子:1.3K
9.奥普图纳
在倒数第二个位置,我们有 Optuna,它是一个超参数库,正在 Kaggle 上加速发展。
Optuna 可视化示例
Optuna 是一个贝叶斯超参数调优库,几乎可以在任何 ML 框架上工作。与竞争对手相比,它有许多优势,例如:
- 平台无关的设计
- Pythonic 搜索空间——可以用条件和循环定义超参数
- 一套广泛的最先进的调优算法,可通过一个关键字进行更改
- 简单高效的并行化,允许您通过一个参数跨可用资源进行扩展
- 图形调整实验的可视化,可让您比较超参数的重要性
- Optuna 的 API 基于称为研究和试验的对象。结合起来,它们提供了控制优化会话运行时间、暂停和恢复会话等功能..
🌟GitHub Stars: 6.3K
📦问题:108
🍴福克斯:701
10.数据版本控制— DVC
DVC 主页截图
随着数据环境变得越来越复杂,清楚地了解数据集的变化变得越来越重要。这就是 DVC 的目标,像 Git 管理你的代码库一样有效地管理你的海量数据文件和模型。
虽然 Git 对于跟踪代码库的变化非常有用,但它在对大文件进行版本控制时会出现问题,这阻碍了开源数据科学的进步。数据科学家需要一个系统来同时跟踪代码和数据的变化,并在孤立的分支中进行实验,而不复制数据源。
Iterative.ai 的数据版本控制(DVC)使这一切成为可能。通过一个简单的远程或本地 repo 来存储数据,DVC 可以像捕获代码一样捕获数据和模型的变化,并跟踪指标和模型工件以监控实验。
当与 DagsHub (即数据科学家的 GitHub)结合使用时,它成为一个改变游戏规则的工具,因为 DagsHub 为 DVC 缓存提供免费存储,并且可以通过一个 CLI 命令进行配置。
🌟GitHub Stars: 9.7K
📦问题:619
🍴福克斯:924
🔗有用链接: docs ,综合教程,用 DVC 和 DagsHub 做的样例项目
了解有关最新工具的更多信息
数据科学和机器学习领域充满活力,并且不断发展。虽然上面列出的工具越来越流行,但我们可以肯定地期待现代数据堆栈中会有更多的工具和整合。要了解有关数据科学新工具和进步的更多信息,请查看以下资源:
坏数据的 10 个迹象:如何发现质量差的数据
原文:https://web.archive.org/web/20221210085053/https://www.datacamp.com/blog/10-signs-bad-data-quality
随着数据革命继续改变我们所知的世界,企业开始意识到这个时代的繁荣需要维护一个执行良好的数据架构。数据架构描述了组织的数据资产的结构,并映射了数据如何在组织中流动。从本质上讲,数据体系结构充当管理数据的蓝图,以确保所有业务数据都得到相应的管理,并满足业务需求。但是当他们遇到不好的数据会怎么样呢?
如果没有定义良好的数据架构,企业就不太可能释放其数据的真正价值,并可能在此过程中浪费大量资源。他们也可能会败给拥有更成熟数据策略的竞争对手(参见 DataCamp 如何利用分析来提高内容质量)。为了避免这种命运,企业领导人必须认识到的最重要的事情之一是,坏数据存在并会带来后果。
在这里,我们探讨什么是坏数据,为什么数据质量很重要,以及坏数据的标志是什么。
什么是坏数据?
如果我们可以把高质量的数据定义为适合目的的数据,我们可以说低质量的数据不适合目的。这意味着数据不够好,不足以支持它被使用的结果。
通常,原始数据可能被认为是坏数据。例如,从 Twitter 等社交媒体网络中提取的数据是非结构化的,并且在其原始状态下,无法用于分析或用于其他有见地的目的。
然而,原始数据可以通过数据清理和处理变成好数据,这通常需要时间。
最简单的说法是,任何缺乏结构并且存在质量问题(如不准确、不完整、不一致和重复)的数据都可以被认为是坏数据。
为什么数据质量很重要
数据质量是指定性或定量数据的状态:它衡量给定特定因素下数据的状况,如准确性、完整性、一致性、可靠性以及数据是否更新。除了客户数据,这还包括产品数据、公司数据、供应商数据等等。
确保你拥有的数据是高质量的至关重要。为了从数据中获取价值,我们需要数据足够准确、足够有用以支持我们希望使用它的结果,并且足够好以最佳利用可用资源。
为什么会出现数据质量差的情况?
有三种主要类型的数据质量问题会对运营效率产生直接影响:
- 人为失误。数据质量差的最常见原因之一是人为错误;这通常发生在数据输入过程缺乏标准化时,或者是员工手动将值输入电子表格的结果。这两种情况都增加了出错的几率。
- 不同的系统。组织通常将数据存储在由他们自己的规则组成的几个不同的系统中。构建数据集可能需要集成来自不同系统的多个来源,从而导致重复数据、缺失字段或标签不一致。也有可能不同的字段具有相同的含义,但被另一个系统不同地处理。
- 无效数据。变化在发生,企业在发展。当发生这种情况时,必须对数据进行更改(即,更改数据结构中的详细程度、降低字段价值或更新数据字段)。然而,分析师可能只有在将要使用数据时才意识到需要进行的更改。
这些因素是坏数据的主要原因,并在数据被使用时成为瓶颈。
你可以在这个 DataCamp 数据清洗教程中学习如何用 Python 提高数据质量。
劣质数据的代价
不良数据的成本取决于几个因素。在某些情况下,成本可能会在下游流程或关键操作的延迟中累积。在最坏的情况下,你可以预期整个过程的失败。
让我们来看看糟糕数据的一些代价。
有缺陷的见解
我们从数据中获得的洞察力受制于数据本身的质量。例如,企业领导可能会基于从数据中获得的见解做出关键决策,而没有意识到用于获得见解的多个来源包含重复的内容。冗余可能会扭曲研究结果,使其不能反映现实,从而导致有缺陷的见解。
财务费用
在一篇关于数据质量改进的商业案例的文章中, Gartner research 指出,“组织认为糟糕的数据质量导致每年平均 1500 万美元的损失”,并且“随着信息环境变得越来越复杂,这种情况可能会恶化,这是各种规模的组织都面临的挑战。”
组织效率
随着越来越多的企业以数据为核心进行运营,劣质数据会直接影响整个组织。例如,销售团队可能向错误的目标受众推销产品,如果他们能够获得高质量的数据,这本来是可以避免的。
迁移期间的问题
想象一个场景,一个组织决定从一个平台迁移到另一个平台;与旧平台相比,新平台可能具有不同的数据治理和标准化规则,这将导致迁移问题。您还可能面临平台以不同格式存储数据的情况:这将使精确映射数据变得困难。
总体瓶颈
在组织的数字化转型过程中,较差的数据质量会迅速导致严重的瓶颈。出现的问题必须得到解决,这意味着转换项目暂停。重复几次会对采用率和资源造成巨大的损失。
坏数据的 10 个迹象
投入的质量将决定产出的质量。对于不完整、不一致或损坏的数据,几乎不可能生成准确可靠的报告:垃圾输入,垃圾输出。
因此,您如何确定您的组织是否存在数据质量问题?以下是需要注意的十个迹象(不按顺序排列):
#1 缺少重要信息
丢失数据可能有多种原因,例如,设备故障、文件丢失、数据输入不完整等。尽管在任何给定的数据集中缺失一些数据并不罕见,但缺失重要信息会带来许多挑战。这里有三个主要的:
- 数据的缺乏会降低统计能力,从而减少发现真实影响的机会。
- 丢失的数据可能导致估计参数的偏差
- 缺少关键信息可能会降低样本的代表性。
你可以通过我们的在线课程了解更多关于在 Python 中处理缺失数据的知识。
#2 琐碎的工作需要过多的努力和时间
如果你觉得你的大部分时间都花在手工任务上,你可能得到了错误的数据。无效(或不存在)的数据管理策略可能会导致您手动组织来自各种来源的数据,寻找人员来填补缺失的空白,并将数据输入到电子表格中。
#3 没有足够的可操作的见解
可操作的见解是从数据中得出的结论,可以直接转化为行动或响应。因此,可操作的见解必须是相关的、具体的,并且对决策者有价值。
这种见解的价值在于它带来的新信息。然而,这并不意味着它必须来自一个全新的数据集。如果你的数据告诉你的是你已经确切知道的事情,那么它就没有价值,也不相关。
#4 分析数据很困难
需要对您的数据进行规范化,以便:
- 确保该表只包含与主键直接相关的数据
- 确保每个数据字段只包含一个数据元素
- 确保删除冗余数据
如果没有标准化的数据,进行分析可能会非常困难,因为每个数据源都可能带有不同的格式、字段和标签。
#5 错过的机会
您没有充分利用您所拥有的数据的想法可能会一直萦绕在您的脑海中,尤其是如果您不信任您当前的数据管理策略。你依赖坏数据的一个明显迹象是,你暴露于不必要风险的风险增加了,这使你暴露在突然变化发生时。
#6 洞察力不能按时到达
您必须能够即时访问集中存储库中的数据。这使您能够快速轻松地生成报告,并带来其他好处。例如,减少冗余,从而最大限度地减少错误并简化对信息的访问。
集中式数据意味着整个组织从相同的蓝图开始工作,并遵循相同的规则。这个想法是为了避免由于使用不同的数据和不同的工具而产生的差异。
#7 数据中有太多错误
人类容易出错。当一个人负责手工输入数据到系统中时,期望完美的数据是有缺陷的。应该对数据进行审计。这也将清楚地表明数据中的错误是由公用事业提供商还是人为错误造成的。
#8 缺乏信心的决策者
数据应该培养信心。拥有可信的数据是做出数据驱动的决策的基本前提。当决策者对数据缺乏信心时,他们的本能是回归老路,这意味着你可以根据直觉和有根据的猜测做出决定。
通过我们的在线课程,了解更多关于数据驱动的业务决策的重要性。
#9 缺乏关键业务指标的可见性
当关键绩效指标(KPI)无法实时获得时,就不清楚什么样的行动会产生最大的影响。
#10 脱节的客户体验
当客户收到的内容与他们在购买过程中所处的位置不一致时,这是一个明显的(也可能是代价高昂的)坏数据信号。当今时代,消费者不再“想要”个性化的体验;他们期待着。如果客户在接触点上没有获得个性化体验,客户体验可能会被认为是脱节的。
在您的组织中认识到这些症状是一个值得关注的原因:可能存在数据质量问题。通过我们的在线课程,了解更多关于用 Python 构建推荐引擎的信息。
如何管理不良数据
希望你现在意识到不是所有的数据都是好的。管理不良数据的最佳方式是从源头上防止质量不佳。然而,如果您已经在处理坏数据,这个解决方案可能很难实施。
如果您已经收集了错误数据,以下步骤旨在帮助您管理错误数据:
第一步:接受现实
你有错误的数据。接受吧。如果你没有意识到坏数据是一个问题,那么你就不太可能愿意采取措施来改善它。
第二步:更新你的坏数据
利用您如何识别不良数据的知识,您的数据必须被清理–这可能包括更新现有记录。
步骤 3:引入数据质量计划
数据质量计划用于降低出错风险,同时建立通用可靠的流程来支持数据的使用和生产。
步骤 4:改进数据收集技术
实施更好的技术来获取数据:这可能包括在没有必要的情况下避免请求信息,并提供详细信息,如为什么您需要特定的数据,您打算如何使用它,以及如果您的客户与您共享他们的数据,这对他们有什么好处。
教育你周围的人
为了更好地管理数据,员工必须知道如何收集、处理、处置和管理数据。
管理坏数据的关键是在源头处理它。如果您已经收集了错误的数据,您必须接受您的数据是错误的,然后根据需要执行数据清理和更新。清理完数据后,通过引入数据质量计划来改进组织的数据管理技术,从而降低再次面临此类问题的风险是至关重要的。你有足够的数据技能吗?您可以通过 DataCamp 的商业数据技能技能课程,学习如何使用数据回答现实问题。
数据质量是基于准确性、完整性、一致性、可靠性以及数据是否更新的数据状况的衡量标准。
数据质量问题可能由多种因素引起,但对运营效率有直接影响的三个主要原因是:1)人为错误,2)不同的系统,以及 3)无效数据。
数据质量差会严重损害您的业务,因为它是一个主要的瓶颈。不良数据的代价包括有缺陷的见解、高昂的财务成本、迁移问题和组织效率的降低。
表示您有坏数据的警告信号包括:
- 同一个问题返回不同的答案
- 洞察力未能按时到达/机会被错过
- 粗活需要过多的精力和时间
- 客户抱怨员工对以前交易的了解
- 团队之间关于组织绩效的分歧
- 由于数据质量差,数据迁移活动持续失败
- 尽管有多个数据仓库和数据湖,但性能数据不可靠
- 员工不信任系统,因此他们维护自己的数据存储。
- 分析数据很困难
- 重要信息缺失
在您的数据职业生涯中成长的 12 个最佳实践
数据职业可以让你接触到广泛的技术、技能和利益相关者。您将有机会参与对业务核心领域有重大影响的项目,通常是在高度跨职能团队中或与其他技术同事合作。
根据您所在的行业和专业,从初级数据科学职位到高级数据科学职位的转变看起来会非常不同,但对于大多数数据科学家来说这需要 2-5 年的时间。有了正确的知识和技能,的薪水很容易达到 6 位数。10 年后,随着新工具、最佳实践和方法的不断涌现,对数据科学家的需求预计将大幅增长,尽管角色可能会有很大不同。
数据职业的发展可以采取多种形式,但无论你的目标是什么,都有一些重要的提示和实践要记住。请继续阅读,了解我们的最佳实践,以确保您能够在整个职业生涯中不断进步。
1.定义成功
为工作而工作本身不是问题;不断练习被认为是一件好事,许多人都从中受益。然而,如果你心中没有成长的目标,你可能不会感到满意。坐下来定义成功对你来说是什么样子是很重要的。这不仅能确保你朝着正确的方向前进,还能给你一个方法来评估你的进步。你对成功的理解不一定是关于晋升、收入或职位。你可能渴望长期目标,比如发表一篇论文或完成一个博士学位。也许你想领导一个团队或开发一个被数百万人使用的产品。通过定义你的成功愿景,你可以确定朝着正确的方向成长的必要步骤。
2.不要停止学习
你听过有人谈论他们的成长心态.)吗?研究表明,有这种心态的人往往比那些认为天赋是天生的人成就更大。数据职业可能会很艰难;很多从业者都会面临挫折,遇到失败。从错误中学习经常被认为是成功的关键标准之一;即使是成功的企业家也会谈论他们的许多失败以及他们从失败中学到了什么。
持续发展你的技能的另一个关键原因是跟上行业变化的快节奏。Elad Cohen 在 DataFramed (大约 49 分钟)中提到,不管你是否认为自动化将简化数据科学工作流程的一部分,许多人都倾向于低估技术在 10 年后的样子。如果你不保持学习和成长,这个行业本身可能会比你走得更快。
3.继续建立投资组合
投资组合的重要性不能低估。虽然他们经常与试图获得第一份工作的初级数据科学家联系在一起,但投资组合可以是收集你职业生涯中一些最佳作品的好地方。作品集也可以是你研究自己感兴趣的主题的一个出口,尤其是当你没有机会每天都做这件事的时候。最后,扩大你的投资组合可以激励你应用以前的最佳实践,不断发展新技能。
在整个职业生涯中保持投资组合可以确保您能够:
- 如果你要换工作、换公司,或者甚至成为自由职业者,分享你的工作
- 捕捉一些你最感兴趣的作品,以备后用
- 有一个空间来分享你的激情项目的成果,这是其他数据科学家喜欢看到的
- 建立你自己的个人品牌,这可以打开你职业生涯其他领域的大门
4.投资模型部署能力
目前,大学教授数据科学的方式与数据科学在行业中的应用方式之间最重要的脱节之一是 MLOps。简而言之, MLOPs 是一套工具、实践、技术、文化和思维模式,确保机器学习系统的可靠和可扩展部署。当今数据团队面临的最大挑战之一是机器学习模型的可扩展和高效部署,这就是为什么估计显示在低至 8%的企业在生产中拥有模型。难怪 MLOps 是过去一年数据科学发展最快的领域之一。
对当今许多数据科学家来说,投资于模型部署能力是必不可少的,即使是那些有多年经验的科学家也是如此。认识到你的知识中可能存在差距,并找出弥补的方法,这是一种很好的成长方式。你不必对每一个新工具都有专业知识,但是理解 MLOps 或其他新颖开发的核心概念并学习如何应用它们的技术会让你走得更远,并为以后的专业化奠定基础。如果你有兴趣开始使用 MLOps,你可以在这篇博客文章中找到一些免费资源。
5.选择专业
数据科学是一个异常广阔的领域。在这本电子书中,DataCamp 将数据科学定义为“一个寻求从数据中提取有意义见解的跨学科领域”。不同的学科包括数学、统计学、机器学习、编程、数据可视化等等。一个人不可能发展所有这些领域的专业知识,尤其是在一个领域需要大量知识来实现技术的时候。例如,考虑你需要理解多少理论来部署一个自然语言模型,同时达到令人满意的准确性并避免偏差。
一旦你在广泛的领域有了一点经验,就值得花时间考虑你可能想专攻的领域。成为一个领域的专家是一个打开大门的好方法,让你更接近成功的愿景。
6.构建你的人际网络
人际关系网是职业发展最重要的方式之一,它可以以多种形式出现,比如参加活动,与业内人士或同事进行“咖啡聊天”,甚至自己做演讲。人际网络是一个很好的方式,可以让你了解其他组织正在发生什么,你可能需要学习什么新技能,或者你的组织将来可能需要什么新技能。如果你想换工作,这也是进入另一家公司的最简单的方法。
许多人发现联网的想法令人望而生畏,但是在数据社区中有一系列联网和发现事件的方法。我们在这里整理了一份 2022 年将参加的顶级数据科学会议列表,让你开始你的网络之旅。
7.战斗骗子综合征
《哈佛商业评论》将“冒名顶替综合症”定义为“怀疑自己的能力,感觉自己像个骗子”,这是许多数据科学家在职业生涯中的某个时候都感受过的。在职业生涯的早期阶段,经验丰富的数据科学家拥有的知识广度和深度似乎是一个非常高的门槛。甚至在以后,您可能会遇到在数据科学的每个子领域都有着极其渊博知识的专家。在过去的几年里,随着许多高层管理人员公开他们的经历,冒名顶替综合症这个术语变得越来越常见。因此,有许多书籍可以帮助理解它可能会影响你,以及你可以做些什么来对抗它。这篇 Reddit 帖子还包含了几位数据科学家分享他们关于冒名顶替综合症的经历。
8.关注就业市场
职业发展与你如何度过朝九晚五的时间高度相关。如果你每天做的事情不符合你对成功的长期定义,你可能需要重新评估你的位置。这可能意味着与你的经理进行一次谈话,改变你的日常工作,或者在你的组织内进行一次横向调动。然而,了解就业市场上正在发生的事情总是值得的。你可能会发现你的技能很受欢迎,其他公司可以提供不同的职位或增加工资和福利。
职业发展公司 Wonsulting 的李晨建议每年都去你感兴趣的公司面试,以保持你的面试技巧新鲜,并确保你目前的公司重视你。这一点的重要性取决于你的长期目标和成功标准,但抓住市场其余部分的脉搏总是一个好主意。
9.保持最新状态
除了发展自己的技能,对你所在领域的前沿研究、科技公司和市场领导者有一个总体的了解也很重要。你不必总是钻研细节——从高层次了解最新技术的潜力是保持消息灵通的一个好方法。如果你能够与你的人际网络就这项技术进行对话,了解他们如何应用这项技术,或者教给他们一些新的东西,这将是额外的奖励!
亚当·沃塔瓦是这种高级扫描的一个很好的资源,他每周在 LinkedIn 上写一篇“跟上数据”的帖子。这些写得很好的摘要是跟踪最新研究、商业新闻甚至最近发布的 Python 包的好方法。您还可以订阅我们的每周综合视频简讯,它为您提供来自数据科学、技术和研究社区的最有趣的新闻。
10.考虑你工作的影响
你的职业发展应该会达到你自己的成功标准,但是你的组织的成功呢?重要的是要考虑你的工作产生了什么影响,是通过高效的工具节省时间,通过创建信息丰富的仪表板帮助同事,还是通过训练有素的模型节省生产成本。了解您对整个组织的影响可确保您能够:
- 为晋升或工作调动提供商业案例
- 证明让你的公司赞助培训课程的合理性
- 在会议上谈论你的工作
- 如果你打算换工作,好好面试
11.培养领导技能
最佳实践#12 将涵盖您在数据科学领域可能拥有的不同类型的管理职业道路。但要达到这一目标,你需要作为一名个人贡献者培养领导技能。领导技能,如授权、优先排序、给予反馈和设定明确的方向,都是必不可少的。即使你不管理人,当你被选择作为个人贡献者领导一个项目时,你仍然可以学习和应用这些技能。
在你的职业生涯中,会有很多机会来培养这些技能,但这也可能需要你离开自己的舒适区。走出你的舒适区,进入伸展区是我们最好的学习和成功发生的地方;不要回避这些机会,因为它们代表着绝佳的成长机会,将在你的职业生涯中带来回报。
12.选择职业道路
如今,职业道路并不总是直线。你可能会被平级调动到不同的团队或项目,或者在管理岗位上进进出出。Meta 在这里对他们的一些职业道路进行了分类,指出“...成为经理不是升职。这只是完成工作的另一种方式”。这种理念在组织中很普遍,尤其是那些结构扁平的组织,许多团队围绕项目而不是工作职能。对于 Meta 来说,核心职业道路是
- 高级贡献者:虽然高级贡献者通常不管理人,但他们经常指导初级团队成员,并能对战略和决策产生重大影响。这条职业道路主要涉及动手工作和编码。
- 技术主管:这条职业道路是一条分裂的道路,一方面从事技术工作,另一方面管理一个小团队,通常是其他数据工作者。
- 人事经理:这是传统的管理方式,你很少编码,而是召开高层会议,进行日常人事管理。
了解你职业生涯的后期目标是什么是很好的。如果人事管理目前不适合你,你可以更多地投资于你的技术技能,尽管如果情况正好相反,你可能想建立关系网,寻找学习领导技能的机会。
额外收获——在数据科学领域取得成功有很多方法
本文为组织内的数据科学家提供了大量建议,但在数据职业生涯中取得成功的方法有很多。学术、教学、自由职业和内容创作都是让世界变得更美好、学习或发展某些东西或增加收入潜力的途径。不要把自己硬塞进一家公司或一条职业道路——想想成功对你来说是什么样的,走出去实现你的愿景。
为您提供更多资源:
12 个最好的数据可视化工具
数据可视化是数据科学中最相关的技能之一。用有洞察力的图和图表赋予数据以生命,这是传达您的团队可能无法发现的洞察力的最有效方式之一。使用数据可视化工具通常是这一过程的关键部分。
数据可视化是各种数据角色的必备技能,从处理仪表板和报告的数据分析师到解释公司数据仓库组织方式的数据管家。数据可视化也是数据叙事的核心支柱,这种方法提倡使用视觉、叙事和数据将数据见解转化为行动。
数据可视化工具从无代码商业智能工具如 Power BI 和 Tableau 到在线可视化平台如 DataWrapper 和 Google Charts。数据科学的流行编程语言中也有特定的库,比如 Python 和 R 。因此,对于许多有抱负的数据从业者来说,数据可视化通常被视为切入点,或者“门户药物”。
本文全面概述了数据科学中最好的数据可视化工具。学习如何使用这些工具是在数据科学职业生涯中取得成功的关键一步。如果你对掌握数据可视化技能感兴趣,我们强烈建议你查看 DataCamp 的 30 多门数据可视化课程。
什么是好的数据可视化工具
数据科学是一门充满活力、快速发展的学科。新的软件和工具,包括数据可视化工具,每天都在涌现。在这种背景下,决定使用哪种工具具有挑战性。没有一种数据可视化工具绝对能够解决您在数据科学职业生涯中可能遇到的所有问题和情况。
每个案例都是不同的,你或你工作的公司必须平衡几个因素,找到最适合你的需求。在选择数据可视化工具之前,您可以在下面找到您应该始终考虑的因素列表:
学习曲线
数据可视化工具的易用性和复杂性差别很大。一般来说,特性和功能越多,即对设置、定制和功能的控制越多,学习曲线就越陡。更简单的数据可视化工具更适合非技术用户,他们将能够快速上手。
灵活性
如果您想要完全控制配置、参数和地块的美观,您应该选择具有广泛灵活性的数据可视化。即使你是一个经验丰富的数据分析师,你也需要花更多的时间来熟悉这个工具,但是一旦你到了那里,你将能够产生难以置信的美感和可定制的可视化效果。
可视化类型
数据可视化工具可以根据它们是关注独立的绘图还是仪表板来分类。第一类工具旨在一次创建一个可视化。第二类将应用程序或仪表板视为基本单元。数据仪表板是一种信息管理工具,用于跟踪和可视化多个数据点和 KPI。
观众
你表达观点的方式会因你的听众而异。如果您是一名数据工程师,主要向同一个部门的其他技术角色汇报工作,那么专注于可视化分析的数据可视化工具就足够了。相比之下,如果你是一名与管理和决策团队密切合作的数据分析师或业务顾问,你可以考虑通过专注于数据叙事来整合额外功能的工具,这些功能允许用户讲述数据背后的完整故事。
价格
最后但同样重要的是,价格是选择数据可视化工具时要考虑的一个重要因素。根据您的需求和预算,有些工具会比其他工具运行得更好。下面,您会发现一个跨各种平台和技术的开源和专有数据可视化工具的列表。
顶级开源 Python 数据可视化工具
matplotlib
matplotlib 是一个用于在 Python 中创建静态、动画和交互式可视化的综合库。matplotlib 由 John D. Hunter 于 2003 年创建,它提供了创建许多不同类型数据集的丰富可视化的构建块。使用 matplotlib,只需几行代码就可以轻松创建各种可视化效果,如线图、直方图、条形图和散点图。
你可以用 matplotlib 定制你能想到的一个情节的每个方面。这使得该工具非常灵活,但也可能是具有挑战性的和耗时的,以获得完美的情节。
主要特性:
- 它是创建数据可视化的标准 Python 库。
- 以多种文件格式导出可视化效果,如
.pdf
、.png
和.svg
。 - 数据专业人员也可以使用 matplotlib 的 API 在图形用户界面(GUI)应用程序中嵌入图形。
优点:
- 通用性高。
- 允许完全自定义地块。
- 由庞大社区支持的通用 Python 数据可视化工具。
缺点:
- 繁琐的文档,陡峭的学习曲线。
- 用户需要了解 Python 才能使用。
在 DataCamp 上学习:
- 【Matplotlib 数据可视化简介课程
希伯恩
使用 matplotlib,任何类型的可视化都是可能的。然而,有时 matplotlib 的广泛灵活性会变得难以掌握。你可能会花上几个小时在一个一开始设计似乎很简单的地方。Seaborn 旨在解决这些问题。
这是一个 Python 库,允许您轻松生成优雅的图形。Seaborn 基于 matplotlib,并提供了一个高级接口,用于绘制有吸引力和信息丰富的统计图形。
主要特性:
- 强大的高级接口,用几行代码就可以构建情节。
- 关注统计数据可视化。
- 基于 matplotlib 构建。
优点:
- 快速创建简单的可视化。
- 默认情况下,可视化具有美学吸引力。
- 强大的图形大集合。
- 定义良好的文档,有许多例子。
缺点:
- 定制选项有限。
- 不提供交互式图形。
- 用户可能需要使用 matplotlib 来优化可视化。
在 DataCamp 上学习:
- 【Seaborn 课程数据可视化介绍
散景
matplotlib 和 Seaborn 主要关注静态可视化。相比之下,散景的主要优势在于互动性。Bokeh 是一个用于交互式数据可视化的强大 Python 包。它使你能够超越静态图,并允许利益相关者与你的可视化互动,挖掘他们自己的见解。
散景的目标是提供优雅而简单的图形,从简单的绘图到复杂的带有流数据集的仪表盘。它允许通过 JavaScript 功能进行额外的定制。
主要特性:
- 它创建了随用户交互而变化的交互图。
- 为复杂的用例轻松创建简单的图表。
- 可视化被设计成嵌入在网络浏览器中。
优点:
- 几秒钟内就有漂亮的互动图表。
- 必要时为用户提供不同的方式来提供定制的 JavaScript。
- 在网络浏览器中嵌入可视化的可能性。
缺点:
- 可视化的交互选项是 plot。
- 有限的灵活性与它来设计情节。
- Python 和 JavaScript 的结合可能很麻烦。
在 DataCamp 上学习:
顶级开源 R 数据可视化工具
ggplot2
可以说是 R 最强大的包,ggplot2 是一个绘图包,它提供了从数据框中的数据创建复杂绘图的有用命令。自 Hadley Wickham 于 2007 年推出以来,ggplot2 已成为 r 中灵活和专业绘图的首选工具。ggplot2 的灵感来自名为“图形语法”的数据可视化方法,其思想是独立指定图形的组件,然后将它们组合起来。
这个包包含在 tidyverse 中,tidy verse 包含一组用于数据科学的包。ggplot2 还提供交互式和动画图形。
主要特性:
- r 中最流行的数据可视化库。
- 基于“图形语法”的哲学。
优点:
- 简单直观的语法。
- 默认情况下,情节在视觉上很吸引人。
- 提供完全定制。
缺点:
- 与其他 R 包相比,语法不一致。
- ggplot2 的计算速度通常比其他 R 包慢。
- 创建某些可视化的灵活性有限。
在 DataCamp 上学习:
- 【ggplot2 课程数据可视化介绍
传单
传单最初是作为一个开源 JavaScript 库发布的,用于创建动态在线地图。同名的 R 包使得在 R 中创建这种可视化成为可能。R 中的传单是使用空间数据制作有吸引力的交互式 web 地图的完美工具。
广受欢迎,传单目前被许多网站和 GIS 专家使用,如纽约时报和 Mapbox。
主要特性:
- 专注于交互式地图。
- 直观简单的语法。
- 支持多种类型的地图对象,如线、多边形、地图切片和 GeoJSON。
优点:
- 有许多美学特征,使得地图在 R 社区中流行。
- 多种互动选项。
- 在 R Markdown 文档和闪亮的应用程序中嵌入地图的可能性。
缺点:
- 有自己的语法。
- 静态地图不如 ggplot2 的静态地图好。
在 DataCamp 上学习:
plotly
plotly 是一个 R 包,用于通过开源 JavaScript 图形库 plotly(也可用于 Python )创建交互式的、出版物质量的图形。由于其简单性和强大的输出,plotly 是许多大型技术公司的交互式数据可视化的标准库。
虽然 plotly 是基于 R 语法来创建绘图,但它使用 JavaScript 来呈现最终的图形,使得可视化非常适合现代 web 浏览器中的出版物。
主要特性:
- r 中交互式图形的定位工具。
- 提供与几种不同语言的兼容性,包括 R、Python、MATLAB、Perl 和 Julia。
- 非常适合网络出版物。
优点:
-
非常简单和直观的语法
-
多种互动选项
-
没有技术背景的人也可以使用 plotly GUI 创建交互式图形
缺点:
- 用 plotly 社区版本制作的可视化效果总是公开的
- 与其他工具相比,调色板和其他美学的数量是有限的
在 DataCamp 上学习:
基于 GUI 的顶级开源数据可视化工具
草图
RAWGraphs 是一个开源的数据可视化框架,旨在使复杂数据的可视化表示对每个人来说都很容易。它于 2013 年推出,是一个非常棒的数据可视化开源替代方案。
这是一个免费、直观的平台,允许用户快速、舒适地绘制数据,而无需编码。此外,它还包括将这些可视化嵌入到另一个网站上的可能性,并且无需创建帐户或注册电子邮件地址。
主要特性:
- 基于拖放的无代码工具
- 适用于学习环境,由于数据样本和用户友好的界面
- 电子表格应用程序和矢量图形编辑器之间缺少链接
优点:
- 完全自由
- 开始时不需要任何设置
- 可视化效果可以以多种格式导出
缺点:
- 有限的图形集合
- 有限的灵活性:只有少数美学参数可以调整
- 小型用户社区
谷歌图表
谷歌图表是在你的网站上可视化数据的完美工具。这是一个基于 JavaScript 的工具,可以从小型和大型数据集创建简单的可视化。Google Charts 提供了一个非常漂亮且易于使用的界面,您可以轻松地选择要使用的可视化类型。
它提供了一个相当广泛的交互式图形集合。虽然它不像其他基于 GUI 的数据可视化工具那样功能丰富,但 Google Charts 永远是免费的。
主要特性:
- 关注网站的交互式可视化。
- 无代码工具,面向没有技术技能的用户。
优点:
- 兼容所有商业浏览器。
- 直观、易用的平台。
- 目前,谷歌图表的使用是完全免费的
缺点:
- 有限的灵活性和美学控制功能
- 您将需要 JavaScript 的基本知识来在您的网站上发布您的可视化
数据包装器
如果你的主要工作领域是新闻业,DataWrapper 就是你需要的数据可视化工具。许多数字媒体已经采用了这种奇妙的工具来制作他们的图片,包括《华盛顿邮报》、《卫报》、Vox 和华尔街日报。
它易于使用,不需要编码。使用 DataWrapper,我们可以加载数据集,并以简单的方式将其转换为图形或地图。它也有一个广泛的模板基础,可以很容易地将这些可视化集成到您的网站中。
主要特性:
- 关注交互式可视化
- 在所有主流浏览器和移动平台上无缝运行
- 在数据新闻业非常受欢迎
优点:
- 您可以使用免费帐户创建无限数量的视图
- 不需要编码,简单易学
- 内置的色盲检查:使您的可视化色盲友好
缺点:
- 您只能从少数来源导入数据
- 功能有限的免费版本
- DataWrapper 高级计划比竞争工具更昂贵
商业智能工具和软件
(舞台上由人扮的)静态画面
Tableau 是一个强大而流行的数据可视化工具,允许您同时分析来自多个来源的数据。2003 年成立于斯坦福大学,2019 年,Salesforce 收购了该平台。
Tableau 是同类最佳的商业智能工具之一,顶级公司使用它从大量原始数据中提取见解。由于其直观和强大的平台,你可以用 Tableau 做任何事情。然而,如果您只是对构建简单的图表感兴趣,那么您应该选择不太健壮且更实惠的选项。
主要特性:
- 一流的商业智能平台
- 专为数据驱动型组织而设计
- 拖放界面使其易于使用
优点:
-
包括各种图表模板
-
可以处理大量数据
-
您可以从各种来源导入数据
-
快速创建交互式可视化和仪表板
缺点:
- 陡峭的学习曲线
- 尤其对于大机构来说,Tableau 是一个比较贵的产品。
- 有限的数据预处理功能。
在 DataCamp 上学习:
功率 BI
Power BI 是一个基于云的业务分析解决方案,它允许您将不同的数据源汇集在一起,对它们进行分析,并通过可视化、报告和仪表板呈现数据分析。
根据 Gartner 魔力象限,微软的 PowerBI 是业内 BI 解决方案的领导者。Power BI 使在组织内外的几乎任何设备上访问数据变得容易。
主要特性:
- 一流的商业智能平台
- 完全可定制的仪表板。
- 实时视图。
- 设想在公司内的用户和部门之间同时使用。
优点:
- 包括许多预设的图表和报告模板。
- 近年来,它已包括机器学习能力。
- 可在桌面和移动设备上使用。
- 比竞争对手更实惠的选择。
缺点:
- 有限的数据共享。
- 笨重的用户界面。
在 DataCamp 上学习:
Qlik
Qlik Sense 是一款数据可视化工具,专为希望使用增强分析来分析数据的大公司和个人而设计。Qlik Sense 是“QlikView”的继任者,QlikView 是一种类似(但更小)的可视化分析工具。
Qlik Sense 可以部署在内部或云中。该公司还运营着一个名为 Data Market 的产品,该产品为 QlikView 用户提供了一个公共可用数据集的精选列表,包括人口普查数据、财务数据和业务备案数据。
主要特性:
- 交互式图表。
- 直观的 GUI,面向拖放。
- 非常适合大型团队。
优点:
- 在线和离线工作。
- 可视化和先进的数据准备:它可以自动清理和排序您的数据。
- 适用于大型公司。
缺点:
- 不灵活的数据提取功能。
- 由于缺少一些基本图表,可视化有限。
- 与竞争对手相比,定价模式昂贵。
- 最适合有数据分析经验的人。
顶级数据可视化工具示例
如果您有兴趣了解上述工具的能力,这里有一个示例列表,可以从中获得启发:
Tableau 可视化示例—杰里米·约翰逊在欧洲的远程工作和学习。
在这个由 Tableau 制作并在 Tableau Public 上发布的关于远程工作的仪表盘中,Jeremy Johnson 研究了欧洲各国远程工作和在线教育的发展。
来源: Tableau Public
Power BI 可视化示例— Themistoklis Apostolidis 的新冠肺炎信息仪表板
这个新冠肺炎信息仪表板就是一个很好的例子来说明 Power BI 的魔力。仪表板提供了世界各地疫情的多种信息。
来源:电力毕廊
DataWrapper 示例—Lisa Charlotte Muth 的全球 IT 部门能耗
Lisa Charlotte Muth 使用 DataWrapper 创建了这张颇有见地的可视化图,比较了 IT 部门的能耗和几个国家的能源预算。
来源:数据包装器
成为数据可视化专家
我们希望你喜欢这篇文章。虽然了解市场上最佳数据可视化工具的不同选项很重要,但更重要的是了解如何自己创建数据可视化。数据营是来帮忙的。您可以在下面找到更多资源来指导您完成数据可视化之旅。
数据驱动的金融数字化转型的 13 个用例
在过去十年中,大数据和数字技术颠覆了行业和消费者行为。IDC 和 Statista 估计,每年生成的数据量从 2010 年的 2 zetta bytes 增加到 2020 年的 59 zettabytes,标志着仅在过去 10 年中生成的数据就增加了 30 倍( Statista )。预计这种数据洪流只会越来越大,预计到 2024 年每年将产生 149 吉字节。
虽然各行各业都在争相利用商业智能、数据科学和机器学习的数据洪流,但金融服务业最有条件从大数据中受益。数据是金融服务业的核心,包括零售银行、投资银行和保险。金融服务组织通过法规遵从性流程、保险索赔、股票市场交易等生成并存储客户交易数据、详细的客户资料。产生的数据量令人震惊:仅纽约证券交易所每天就产生 1tb 的交易数据( Investopedia )。
我们已经看到金融科技初创公司利用消费者行为的转变和金融业的数据洪流。N26、Revolut 和 Monzo 等数字银行放弃了实体模式,选择了纯粹的数字银行体验,依靠数据来改善用户体验和自动化工作流( Revolut )。欧洲最大的金融科技独角兽 Klarna 提供无息分期付款选项,使用机器学习(美国消费者新闻与商业频道)自动批准或拒绝。数据洪流不仅为颠覆性的创新服务开辟了空间,也为整个行业以数据为基础的数字化转型打开了大门。
各行各业颠覆性的数字优先创业公司促使许多现任者大举投资数字化转型。金融服务业也不例外。埃森哲和牛津在 2018 年的一项研究发现,87%的零售银行高管已经制定了技术投资和数字化转型的长期计划(埃森哲)。在新冠肺炎经济中尤其如此,它推动了消费者的网上购物,并加速了所有行业的数字化转型计划。
这种加速在金融服务业尤为紧迫。经济学人信息部最近的一项研究引用了 45%的银行高管认为建立一个“真正的数字生态系统”是对疫情最好的战略回应。在同一项调查中,66%的受访者认为,到 2025 年,机器学习和人工智能等新技术将对银行业带来最显著的影响。
举一个实际的例子,使用非接触式金融工具的紧迫性导致花旗银行的日常移动支票存款增加了 84%,Apple pay 的活跃度增加了 10 倍(福布斯)。这促使花旗集团总裁兼消费银行首席执行官简·弗雷泽宣称,“疫情的结果已经不可逆转地改变了银行业。转向数字的支点已经被增压。[...]我们相信我们拥有未来的模式——轻便的分支机构足迹、无缝的数字能力以及合作伙伴网络,将我们的触角延伸至数亿客户。”
这种数字化转型计划的成功取决于数字技术与数据驱动的见解和高效数据科学用例的无缝集成。这些高影响力的使用案例是什么?阻碍它们的挑战是什么?在我们的白皮书金融数字化转型:提升数据驱动时代的技能中,我们剖析了 13 个跨领域和行业的高影响力用例,以及大型金融机构在实现数据驱动方面面临的挑战。
2022 年数据趋势和预测
排名第一的组织加快文化转型计划
数据文化是人们的集体行为和信念,他们重视、实践并鼓励使用数据来改善决策。它为公司有效地从不断增长的数据集中获取价值奠定了基础和思维模式。
不幸的是,缺乏数据文化是一个组织走向数据驱动之路的主要障碍。
在 2022 年,我们预计首席数据官(CDO)将专注于数据文化的关键构建模块,包括适当的数据治理、数据扫盲计划和培养数据驱动的思维模式。这些是组织范围内数据驱动的决策过程的催化剂。
#2 组织将扩展数据治理
对自助分析不断增长的需求推动了对合规、可操作和高质量数据的需求。然而,衡量和维护数据质量的挑战与数据集的规模和复杂性密切相关。因此,公司正在调整他们的数据治理策略。
其中一个策略是在数据管道中采用数据可观测性。简而言之,数据可观测性旨在近乎实时地识别、排查和解决数据问题。
在 2022 年及以后,更多公司将扩大其数据治理计划,并采用新的现代工具来监控和检测数据质量问题。
#3: NLP 带来了新一代的低代码数据工具
在过去的几年里,NLP 有了巨大的发展,这要归功于对更大的大型语言模型(LLM)的军备竞赛,比如 T5、GPT-3 和威震天-图灵 NLG。
Large language models get larger over the years (Source)
LLM 正在挑战 NLP 的极限。最新的模型让社区感到惊讶,它们能够在没有任何明确培训的情况下生成各种类型的文本(如计算机代码和吉他标签)。
这种 NLP 模型有可能开创低代码和无代码工具的时代。今天,微软的 Power 应用允许非技术用户使用自然语言构建应用。这种工具将继续降低编码的壁垒,并促进组织内公民开发人员和公民数据科学家的崛起。
#4 L&D 成为公司文化的一部分
由于高管们担心他们的组织缺乏关键技能,公司将在 2022 年继续大力投资学习和发展(L & D)项目。这种研发项目的好处是显而易见的——世界经济论坛预测,到 2030 年, 38%的国内生产总值将来自技术升级。
随着劳动力继续应对疫情,我们希望公司将 L&D 预算分配到虚拟学习生态系统上,以促进有效学习并提供实践社区。希望大规模提高员工数据素养的公司可以利用现有的 L&D 计划作为内部数据科学技能学院。
数据趋势#5:组织内的 MLOps 将继续成熟
MLOps 是一套结合了机器学习、数据工程和 DevOps 的实践。它包括自动化机器学习工作流程的标准化流程。
公司只能通过生产级人工智能系统规模化地从机器学习中提取价值。这解释了为什么对 MLOps 的需求预计会大幅增长。事实上,据估计,到 2025 年,该行业的价值将达到 1261 亿美元。
在即将到来的一年,像 KubeFlow 和 MLFlow 这样的 MLOps 工具将会继续成熟。它们成为所有数据科学团队的主食只是时间问题。
数据趋势#6:负责任的人工智能变得更加可操作化
不幸的是,今天许多现有的人工智能系统充满了隐藏的偏见。因此,欧盟的监管者正计划让这种人工智能承担责任,预计许多人会效仿。公司必须确保他们的人工智能系统保持公平和负责任。那些做不到这一点的人可能会损害自己的声誉,并因加剧不平等而受到谴责。
这就是为什么公司越来越多地实施负责任的人工智能原则,以确保人工智能保持公平、可解释、保护隐私和安全。框架的一个例子是普华永道的负责任的人工智能工具包,它解决了负责任的人工智能的各个方面。
数据趋势#7:数据网格的兴起
当今大多数数据架构都是数据湖的形式。随着一种新形式的数据架构解决了数据湖的弱点,这种情况可能很快就会改变。
Zhamak Dehghani 创造了一种新的替代方法,叫做数据网格。数据网格已经分发了“数据产品”——每个产品都由数据工程师和产品所有者的跨职能团队处理。采用数据网格架构允许公司更快地交付数据,并实现更大的业务领域灵活性。
很快,随着使用数据湖的痛苦变得更加尖锐,公司将开始试验数据网格,正如 Zalando 和 Intuit 所做的那样。
数据趋势#8:新一代工具将提高数据团队的生产力
各种数据科学生产力工具在 2021 年出现,并将在未来几年继续流行。这些工具减少了对手动工作的需求,并允许数据科学家执行更高价值的任务。
这样的生产力工具包括 AutoML 工具(像 H2O AutoML 和 Auto PyTorch ),它自动化了机器学习模型选择甚至超参数调整的过程。
大量的合成数据生成工具也一直在增加。他们在大规模创建平衡且有标签的数据集的能力对渴望数据的公司尤其有吸引力。
大型数据科学团队可能也会发现协作工具,如 Databricks 和 DataCamp Workspace 非常有用。这些工具允许数据科学家在数据探索和 ML 建模中异步协作。
数据趋势#9:人才短缺和弹性工作将扩大和改善对数据人才的搜寻
随着“大辞职潮”愈演愈烈,人才短缺变得越来越严重。这种现象促使组织重新思考如何招聘和留住数据人才。
特别是,我们希望公司在招聘政策中优先考虑技能而不是邮政编码,自 2020 年 3 月以来,LinkedIn 上的远程职位发布数量增加了 280%。此外,随着 FAANG 公司接受在家工作的安排,我们希望其他科技公司也能效仿,为员工提供灵活的工作选择。
有关我们 2022 年数据趋势和预测的更多信息,请下载免费白皮书,或注册参加我们即将举办的网络研讨会,我们将在会上深入探讨数据科学在新的一年将会发生什么!
关于数据科学的 25 个有趣事实
数据科学有趣的事实
当您想到数据时,您通常会想到代码行和数字。但是数据科学可以用于一些真正壮观的事情,你可以用其中的一些来玩两个真相和一个谎言的游戏。事实上,这正是 DataCamp 在 Instagram 上一周所做的事情!
- 一个人工智能生成的文本预测模型被训练写一部哈利波特小说。
- 数据可视化被用来影响公共政策的最早案例是在为英国士兵争取更好的卫生条件的时候。
- 波士顿的 Wyss 研究所正在开发人工智能驱动的蜜蜂,用于农作物授粉、气候监测和监视等。
- 芝加哥市使用 R 来预测哪些餐馆可能在卫生检查中违规,基于诸如自上次检查以来的时间、附近卫生投诉的数量以及被检查的设施类型等因素。对这些网点进行优先审查,他们能够平均提前一周发现违规者。
- 一个由人工智能驱动的软件被创造出来,它可以以 90%的准确率预测奥斯卡的结果。
- 许多企业大量使用 Python,但 Dropbox 在 2008 年成立时几乎完全是基于编程语言构建的。Python 与 Dropbox 如此不可或缺,以至于 2013 年他们成功说服 Python 的创造者吉多·范·罗苏姆加入他们的团队。他同意了,条件是他不会被安排到管理或领导岗位。
关于数据科学使用的事实
随着数据改变世界,企业认识到它是一股不可忽视的力量。
- 从最初到 2003 年,谷歌已经创建了 5eb 的数据。到 2010 年,这一数量的数据是每两天创建一次,到 2021 年,每 40 分钟创建一次。
- 地球上的每一粒沙子大约有 40 万字节的数据。
- 根据麦肯锡的数据,利用客户分析的公司在获取客户方面比竞争对手高出 23 倍(在保持客户方面高出 9 倍)。
- 2020 年,公司分配给营销分析的营销预算金额增加了 198% 。
- 2019 年,据报道,只有 27%的组织能够充分利用他们的数据来产生可操作的见解,不断增长的数据技能差距被列为主要原因。
- 70% 组织的数字化转型计划未能实现其既定目标。这正是商业数据营可以提供帮助的地方!
关于数据科学职业的事实
考虑到以上所有因素,难怪数据科学和分析是非常令人垂涎的技能。拥有这些技能的人享有光明的职业前景和一系列可供选择的职位。
- 根据世界经济论坛 2021 年的一份报告,数据科学被确定为技能差距最大的技能。
- 2020 年,数据科学工作清单的数量超过了搜索此类工作的人数,比例为 3 比 1。
- 根据美国劳工统计局的数据,数据科学家的平均工资是 10 万美元,分析师的平均工资是 7 万美元(T2)。
- 许多数据科学家的职位只需要一个定量学科的学位。如果您拥有以下职位之一,您可能已经有资格申请这些职位:
- 英国国家医疗服务系统估计,到 2040 年,它将要求 90%的员工具备数据素养。
- SQL 和 Python 以及分别在专业开发人员中排名第三和第四的技术。
- 数据科学家 80%的时间花在组织数据上。
- 有效的数据叙述是数据科学家可以学习的最强大的技能之一。
- 自 2010 年以来,数据分析师的数量已经增加了一倍多。
数据科学培训和教育事实
- 据《发现数据科学》报道,五年前,数据科学专业的学士学位几乎不存在。现在美国有超过 50 所高等教育机构提供这种课程。
- 2015 年,在英国学校学生及其家长中进行的一项民意调查发现,与外语相比,大多数学生更喜欢学习 Python。
- 63%的公司利用在线学习来培训员工掌握新技能,并保持现有技能。
- 数据科学现在推动了 Adwords、脸书和亚马逊对大公司数字营销支出的 90%以上的竞标。像 NeuralEdge (Adwords)和advertio(亚马逊广告)这样的机构使用数据科学来计算最佳广告出价
- 99%的组织正在积极投资数据转型计划。
数据将改变世界,掌握数据将为你的职业带来回报。无论您是想学习如何使用数据来处理数字、讲故事,还是想让您的工作流程更加高效,我们在 DataCamp 上都有!你知道吗,我们正在开展一项限量的 $1 月订阅促销活动?立即注册,利用这一惊人的优惠!
学习 Caret 的 3 个理由
原文:https://web.archive.org/web/20230101103415/https://www.datacamp.com/blog/3-reasons-to-learn-caret
机器学习是对从数据中学习并对数据进行预测的算法的研究和应用。从搜索结果到自动驾驶汽车,它已经在我们生活的各个领域表现出来,是数据科学领域最令人兴奋和发展最快的研究领域之一。由 Max Kuhn 维护的caret
包是 R 社区中用于预测建模和监督学习的首选包。这个广泛使用的包为所有 R 最强大的机器学习设施提供了一致的接口。需要更有说服力的吗?在本帖中,我们探讨了你应该学习caret
包的 3 个原因。之后,你可以参加 DataCamp 的机器学习工具箱课程,该课程由caret
软件包的合著者扎卡里·迪恩-迈尔&马克斯·库恩教授!
1。它可以帮你找到一份数据科学的工作
有没有通读过数据科学的招聘信息,看到过“预测建模”、“分类”、“回归”或“机器学习”这样的词?如果你正在寻找一个数据科学的职位,你将有机会拥有所有这些主题的经验和知识。幸运的是,caret
套餐已经覆盖了你。caret
包以 R 被誉为机器学习的“瑞士军刀”;能够以直观、一致的格式执行许多任务。查看 Kaggle 最近发布的数据科学家职位,这些职位都在寻找具有 R 和机器学习知识的候选人:
2。这是最受欢迎的 R 包之一
这个caret
包每月直接下载超过 38000 次,是 R 社区中最受欢迎的包之一。随之而来的是巨大的好处,包括大量的文档和有用的教程。您可以安装Rdocumentation
包来直接在您的 R 控制台中访问有用的文档和社区示例。只需复制并粘贴以下代码:
# Install and load RDocumentation for comprehensive help with R packages and functions
install.packages("RDocumentation")
library("RDocumentation")
当然,学习广泛使用的软件包的另一个好处是你的同事也可能在他们的工作中使用caret
——这意味着你可以更容易地在项目上合作。另外,caret
也是大量附加机器学习和建模包的依赖包。理解caret
是如何工作的将使学习更有用的 R 包变得更容易和更流畅。
3。很好学,但是很厉害
如果你是一个初学 R 的用户,caret
包为执行复杂的任务提供了一个简单的界面。例如,您可以用一种简单、方便的格式训练多种不同类型的模型。您还可以监视各种参数组合并评估性能,以了解它们对您尝试构建的模型的影响。此外,caret
软件包通过比较特定问题的精确度和性能,帮助您决定最合适的模型。
完成下面的代码挑战,看看用caret
构建模型和预测值有多简单。我们已经将mtcars
数据集分成了训练集train
和测试集test
。这两个对象在控制台中都可用。您的目标是根据重量预测test
数据集中每辆车的每加仑英里数。自己看看caret
包如何只用两行代码就能处理这项任务!
eyJsYW5ndWFnZSI6InIiLCJwcmVfZXhlcmNpc2VfY29kZSI6IiAgICAgICAgIyBMb2FkIGNhcmV0IHBhY2thZ2VcbiAgICAgICAgICBsaWJyYXJ5KGNhcmV0KVxuICAgICAgICAjIHNldCBzZWVkIGZvciByZXByb2R1Y2libGUgcmVzdWx0c1xuICAgICAgICAgIHNldC5zZWVkKDExKVxuICAgICAgICAjIERldGVybWluZSByb3cgdG8gc3BsaXQgb246IHNwbGl0XG4gICAgICAgICAgc3BsaXQgPC0gcm91bmQobnJvdyhtdGNhcnMpICogLjgwKVxuXG4gICAgICAgICMgQ3JlYXRlIHRyYWluXG4gICAgICAgICAgdHJhaW4gPC0gbXRjYXJzWzE6c3BsaXQsIF1cblxuICAgICAgICAjIENyZWF0ZSB0ZXN0XG4gICAgICAgICAgdGVzdCA8LSBtdGNhcnNbKHNwbGl0ICsgMSk6bnJvdyhtdGNhcnMpLCBdIiwic2FtcGxlIjoiIyBGaW5pc2ggdGhlIG1vZGVsIGJ5IHJlcGxhY2luZyB0aGUgYmxhbmsgd2l0aCB0aGUgYHRyYWluYCBvYmplY3Rcbm10Y2Fyc19tb2RlbCA8LSB0cmFpbihtcGcgfiB3dCwgZGF0YSA9IF9fXywgbWV0aG9kID0gXCJsbVwiKVxuXG4jIFByZWRpY3QgdGhlIG1wZyBvZiBlYWNoIGNhciBieSByZXBsYWNpbmcgdGhlIGJsYW5rIHdpdGggdGhlIGB0ZXN0YCBvYmplY3RcbnJlc3VsdHMgPC0gcHJlZGljdChtdGNhcnNfbW9kZWwsIG5ld2RhdGEgPSBfX18pXG4gICAgICAgXG4jIFByaW50IHRoZSBgcmVzdWx0c2Agb2JqZWN0XG5yZXN1bHRzIiwic29sdXRpb24iOiIjIEZpbmlzaCB0aGUgbW9kZWwgYnkgcmVwbGFjaW5nIHRoZSBibGFuayB3aXRoIHRoZSBgdHJhaW5gIG9iamVjdFxubXRjYXJzX21vZGVsIDwtIHRyYWluKG1wZyB+IHd0LCBkYXRhID0gdHJhaW4sIG1ldGhvZCA9IFwibG1cIilcblxuIyBQcmVkaWN0IHRoZSBtcGcgb2YgZWFjaCBjYXIgYnkgcmVwbGFjaW5nIHRoZSBibGFuayB3aXRoIHRoZSBgdGVzdGAgb2JqZWN0XG5yZXN1bHRzIDwtIHByZWRpY3QobXRjYXJzX21vZGVsLCBuZXdkYXRhID0gdGVzdClcbiAgICAgICBcbiMgUHJpbnQgdGhlIGByZXN1bHRzYCBvYmplY3RcbnJlc3VsdHMiLCJzY3QiOiJ0ZXN0X2V4cHJlc3Npb25fb3V0cHV0KFwibXRjYXJzX21vZGVsXCIsIGluY29ycmVjdF9tc2cgPSBcIlRoZXJlJ3Mgc29tZXRoaW5nIHdyb25nIHdpdGggYG10Y2Fyc19tb2RlbGAuIEhhdmUgeW91IHNwZWNpZmllZCB0aGUgcmlnaHQgZm9ybXVsYSB1c2luZyB0aGUgYHRyYWluYCBkYXRhc2V0P1wiKVxuXG50ZXN0X2V4cHJlc3Npb25fb3V0cHV0KFwicmVzdWx0c1wiLCBpbmNvcnJlY3RfbXNnID0gXCJUaGVyZSdzIHNvbWV0aGluZyB3cm9uZyB3aXRoIGByZXN1bHRzYC4gSGF2ZSB5b3Ugc3BlY2lmaWVkIHRoZSByaWdodCBmb3JtdWxhIHVzaW5nIHRoZSBgcHJlZGljdCgpYCBmdW5jdGlvbiBhbmQgdGhlIGB0ZXN0YCBkYXRhc2V0P1wiKVxuXG5zdWNjZXNzX21zZyhcIkNvcnJlY3Q6IFNlZSBob3cgZWFzeSB0aGUgY2FyZXQgcGFja2FnZSBjYW4gYmU/XCIpIn0=
想自己学?
你很幸运!DataCamp 刚刚发布了一个全新的机器学习工具箱课程。该课程由一揽子计划的合著者 Max Kuhn 和 Zachary Deane-Mayer 教授。您将通过 24 个视频和 88 个互动练习,直接向编写软件包的人学习。该课程还包括一个客户流失案例研究,让您可以测试您的caret
技能,并获得实际的机器学习经验。你还在等什么?立即参加课程!
所有团队都应该学习 R 的 3 个理由
现代时代的数字化转型
在我们日益高度互联和数字化的世界中,每天都会从许多在线互动中产生大量数据。许多组织认识到了这一点的价值,并已着手进行数字化转型,以利用不断增长的数据量来推动其业务发展。
随着企业努力成为数据驱动型企业,有几个关键因素必须正确对待,其中之一就是为员工配备正确的数据工具,让他们能够最好地完成工作。
r 是一个强大的工具,它构成了现代数据科学工具包不可或缺的一部分。在这篇博客文章中,我们探索了 R 的能力以及为什么你应该用它来培训你的团队的令人信服的理由。
R 是什么?
r 是一种为统计分析和数据可视化而优化的开源编程语言。它由统计学家 Ross Ihaka 和 Robert Gentlemen 于 20 世纪 90 年代初开发,现已发展成为一个著名的数据挖掘和分析生态系统。
它的目标是创建一种更加用户友好的方式来执行统计、数据分析和数据可视化。尽管 R 有着悠久的历史,但它在当今的数据科学中仍然非常流行,并且通常被认为是初学者入门门槛较低的编程语言。
r 是一个丰富的社区驱动的生态系统的所在地,该生态系统由 CRAN 仓库中的 17,000 多个精选包组成。r 包类似于允许从业者在 r 上执行各种任务的应用程序。通过数据专业人员的审核贡献,存储库由许多模型和工具组成,使用户能够准备数据、构建强大的统计模型和创建漂亮的可视化效果。
下面是一些 R 的行业用例:
-
ANZ(澳新银行集团)在信用风险分析中使用 R 评估贷款违约概率
-
John Deere 使用 R 来预测客户对其设备的需求,以便他们能够根据影响订单履行的因素进行最佳调整
-
Zillow 是美国领先的房地产市场,它使用 R 来估算房价。
-
芝加哥市使用 R预测哪些餐厅可能在卫生检查中违规以优先审查这些餐厅。
-
AirBnB 开发了内部 R 包来促进数据在不同存储位置之间的高效移动(例如 Presto、AWS S3)
如果你想知道R 的名字是怎么来的,它是基于两位创造者(Ross Ihaka 和 Robert Gentleman)的名字,以及对更老的 S 编程语言名称的戏谑,R 就是建立在这种语言之上的。
R 怎么有用?
㈠易用性和可及性
R 的一个关键优势是提供了大量成熟的数据操作和统计分析包。它的开源特性也意味着任何人都可以获得 R 的丰富功能。在广泛的 R 生态系统中, Tidyverse 是最著名的数据科学 R 包集合。
Tidyverse 是一组易于使用的包,设计用于数据导入、操作、可视化和报告任务。这些包共享相同的设计、语法和数据结构,这反过来简化了 R 的学习,因为熟悉一个包可以让您轻松地过渡到下一个包。
R 还被普遍认为是数据操作更容易的编程语言之一,因此学习和应用 R 的障碍相对较低。
虽然 Excel 等电子表格软件可以执行数据分析,但它很难处理涉及大数据集的长期重复数据操作任务。如果您尝试过在 Excel 中处理超过 100,000 行的大型数据集,您就会理解程序会变得多么缓慢。
With 3 intuitive lines of code, you can filter a dataset based on column condition, and arrange it by another column condition
相反,R 可以有效地产生详细的分析,即使是对于大型数据集。这对于那些需要重复处理大量复杂的大型数据集,并且不能消耗太多时间或计算资源的项目很有帮助。
㈡数据处理和可视化
Tidyverse 集合包含为数据相关任务设计的包,包括一些流行的包,如:
-
dplyr–包含一组易于理解的数据操作命令
-
tidyr–提供以整齐的格式创建数据以供分析和存储的功能
-
【gg plot 2】–包含用于构建有效数据可视化的方法和函数
当串联使用时,这些软件包允许用户有效地执行数据操作和分析,并以高度精确和信息丰富的可视化方式有效地呈现见解。
From the ggplot2 plot above, we can readily glean insights about the GDP per capita across continents over time.
㈢报告和仪表板
在执行数据操作、分析和建模之后,最后一步(也可以说是最重要的一步)是确保有意义地交流见解。
除了使用 ggplot2 构建的静态可视化之外,还可以为利益相关者创建交互式仪表盘,以参与自助式商业智能。这些仪表板允许业务用户自己直接访问仪表板,以回答他们自己的数据问题
Shiny 是一个优秀的 R 包,它使人们能够轻松地构建和发布仪表板并与他人分享。它的易用性甚至允许那些没有太多技术经验的人创建强大和专业的仪表板。
以下是一个用于监控新西兰贸易信息的闪亮仪表板示例:
Source: RStudio Shiny Gallery
用 R 民主化数据科学
根据 Forrester 的调查,公司不到 50%的决策是基于数据,而不是直觉、经验或意见。为了释放数据的价值,员工需要提升技能,用工具武装自己,以便高效地从数据中学习。
好消息是强大的数据工具根本不需要花费太多。r 是一种免费的开源编程语言,使得执行关键的数据科学任务变得容易,比如数据操作、建模和可视化。
r 对于技术和非技术员工来说是一种实用而直观的技能,因为它的准入门槛相对较低。有了这些有价值的数据技能,企业就能以数据驱动型公司的方式实现积极的业务成果。
我在 JupyterCon 学到的 3 件事
Jupyter 项目可能因 Jupyter 笔记本而闻名,但是,正如我们将看到的,围绕该项目还有许多其他令人兴奋的发展。如果你还没有体验过 Jupyter 笔记本的交互式、可再现的数据科学分析、计算和通信,你可以在这里查看它们。这个项目本身说得最好:
Jupyter Notebook 是一个开源的 web 应用程序,允许您创建和共享包含实时代码、等式、可视化和说明性文本的文档。用途包括:数据清理和转换、数值模拟、统计建模、机器学习等等。
正如我们将看到的,Jupyter 生态系统不仅仅包含笔记本电脑。Project Jupyter 也不仅仅是内核和基于浏览器的前端。Anaconda 的联合创始人兼首席技术官王蒙杰说得好,Jupyter 是创新的基础。我最近参加了纽约市的首届 JupyterCon。这是第一次致力于 Jupyter 生态系统的会议,在过去的几年里,Jupyter 生态系统发展迅速,我非常高兴能够参加这次会议,讨论技术、发展、开源和社区。这些是我从这次会议中得到的一些启发。
1.Python 社区对数据科学的未来有一个强烈的、巨大的愿景
JupyterCon 主题演讲关注并展望了我们这个时代最紧迫的一些挑战。无论您是一名初出茅庐的数据科学家还是经验丰富的数据科学家,这些演讲中涉及的要点都将与您今天的工作和未来的工作相关:开源项目的可持续性、可再生数据科学、数据科学的教育前景以及我们的社区领导者对交互式可再生计算未来的愿景。
可持续性
IPython 的创建者、Jupyter 项目的联合负责人、加州大学伯克利分校的教授费尔南多·佩雷斯谈到了该项目的长期可持续性。他讨论了 IPython 和 Jupyter 背后的动机,以及其他许多现在已经牢牢地放在科学计算 Python 堆栈中的项目。这些项目提供了计算环境,反映了手头的科学任务,以及相关的概念和认知过程,快速加载数据、探索数据、可视化数据和讲述故事的能力。在这之上是另一层动机,一个与使用工具和合作可能性有关的道德层面。例如,如果 Fernando 主要使用需要昂贵许可证的专有工具,他就不一定能够与他在哥伦比亚的前顾问一起工作。此外,他强调了使用封闭源代码工具的陷阱:“如果科学是为了打开自然的黑匣子,我们就不应该使用法律上不允许我们打开和理解的工具来做科学。”
目标是为交互式计算和科学建立以人为中心的工具;帮助你思考和推理复杂问题的工具,使人类驱动的计算、探索和交流成为可能。
展望未来,Fernando 建议底层协议不应该成为分叉发生的地方,并且需要就协议和格式达成一致。它们是基础设施的主干,必须有竞争和发展,但这应该是在树叶中,因为我们需要就基础达成一致。
那么在生态系统的枝叶中发生了什么呢?JupyterLab,一个用于交互式和可复制计算的可扩展环境,nbdime,它提供了用于区分和合并 Jupyter 笔记本、Jupyterhub、笔记本多用户集线器和 Binder 的工具,在可执行环境中打开笔记本,以及许多其他项目。
他还讨论了可持续性的挑战、资金的作用以及像 NUMFOCUS 这样的组织管理开源项目并牢记其增长、健康和可持续性的必要性。
Anaconda 的联合创始人兼首席技术官王蒙杰回顾了 Jupyter 和 Anaconda 之间的相似之处,并明确表示,在这两种情况下,我们都处在一个转折点。用户群经历了从创新者和早期采用者到主流用户的技术转变。后者可能不会在周六晚上发出拉请求,但会使用该工具来完成工作。为了满足这些新的需求,彼得想,将有效地改变我们作为一个社区的工作,就像从一个在车库里表演的乐队转移到一个体育场里表演一样。Peter 本质上说,我们需要作为一个社区进行这种对话,因为在这些关键时刻,可持续性是必不可少的。项目需要严格和良好的记录,我们需要强调教程,研讨会和成长,并增加新的开发人员到相关的团队。
由于有大量的资金从公共和私人利益中流入,所以对其进行组织是至关重要的,这也是像 NUMFOCUS 这样的组织如此重要的原因之一。
Peter 接着纠正了一个常见的误解,即 Jupyter 和 Anaconda 只是工具,并指出它们实际上是创新的基础。它们形成了原子计算任务的通用框架,让我们所有人都能建立一种通用语言,通过这种语言,创新者、创造者和消费者之间形成了一个价值网络,本质上是一个数据科学市场。
在 github 开源项目工作的 Nadia Eghbal 谈到了金钱与开源的相遇,从资金的角度构建了可持续发展对话。
她首先向开源社区提出了一个假设性的问题,“如果你有钱,你会怎么花?”
为了回答这个问题,娜迪亚问了另一个问题,“人们为什么要捐款?”最常见的答案是
- “我想解决一个问题”(尤其是在项目的早期)
- “我想建立我的简历”(各种公开简历)
- “我觉得我属于这里。”(为社区而留!)
- “对我来说很好玩!”
请注意,对于任何个人来说,这些激励可以随着时间的推移而改变,例如,用户可以成为贡献者,也可以成为维护者。根据项目所处的阶段,资金可能以不同的方式得到最好的利用。举个例子,
- 在项目开始时,可能会有启动费用;
- 那么你的钱可能最好花在宣传你的项目以获得用户,赞助社区活动和会议上;
- 在某种程度上,通过面对面的冲刺、研讨会和维护者会议来降低贡献的障碍是很重要的。
思考资金在开源软件开发中的作用是一个重要的、尚未解决的问题,也是其成功的关键。
再现性
乔治·华盛顿大学机械和航空航天工程副教授 Lorena Barba 谈到了 T2 设计在科学再现性中的作用。她问“为什么我们关心计算的可复制性?”并表示我们关心是因为我们将计算作为一种创造关于世界和科学发现的新知识的方式。科学要求再现性!像 Jupyter 这样的项目要想保持可持续性和相关性,它需要满足用户的需求,可复制性就是其中之一。
洛雷纳质疑交互性如何促进再现性。例如,GUI 不适合再现性,因为再现所有指向和点击步骤不容易记录)。但是如果我们把科学看作是一种对话,在这种对话中,我们都有目标,有共同的语言,并有希望达成一致的互动,那么 Jupyter 就可以被看作是一种为再现性而定义的界面,一种增加一致并建立信任的共同语言。
熊猫的创造者韦斯·麦金尼(Wes McKinney)退后一步说,Jupyter 面临的挑战比 Python 更大,涉及交互式计算和可再生研究的普遍问题。一个主要问题是,当我们拥有有效的数据科学语言筒仓(Wes 将这一景观描述为几乎是部落的)时,如何以可重复的方式加载、操作数据、转换数据并报告数据:pandas 构建了许多很酷的东西,然而它是依赖于 Python 的;在 R 和 Python 中,你可以做同样的分析(例如,a group_by
),但是底层的实现完全不同。
Wes 的愿景包括一个共享的数据科学运行时来缩小这些孤岛,就像 Jupyter 在前端缩小孤岛一样。但是怎么做呢?
- 能够拥有可跨环境移植的数据帧内存格式,并且具有零拷贝交换(例如,将数据帧从 R 迁移到 Python 不需要成本)
- 在没有开销的情况下在生态系统之间共享数据帧;
- 高性能数据访问;
- 灵活的计算引擎。
Apache Arrow 的项目是创建一种与语言无关的零拷贝交换数据帧格式。MVP 是 Wes 和 Hadley Wickham 去年实现的。
杰里米·弗里曼(Jeremy Freeman),Chan-Zuckerberg Initiative 的计算生物学家,在开源和开放科学的交汇处工作。他的愿景是坚定地以实际方法为中心,使科学研究和进步更快、更有效率、更有效、可扩展和协作。总之,通过软件和计算工具来加速科学进步。他已经确定并正在应对的最大挑战是:
- 支持分析(当您的工作流程需要如此多的工具时,您如何使用笔记本电脑实时分析数据?)
- 建立协作,例如人类细胞图谱,其目标是系统地表征人体中的所有细胞)。这涉及到数百个实验室的数据协调平台,重新想象有了云,大规模的科学合作会是什么样子;重新想象这些协作成果(数据协调平台)的现代、基于云、可扩展和高度模块化的版本会是什么样子!
- 分享知识。杰里米提出了一个突出的观点,即科学以一种非常老式的方式分享知识:既不包含代码也不包含数据的静态文档,其中许多都在付费墙后面。未来的可能性包括用于交互式科学研究的 Jupyter 笔记本和活页夹。
教育
随着数据科学的发展并扩展到所有类型的行业,瓶颈之一是缺乏工作数据科学家。为了解决这个问题,我们 DataCamp 认为数据科学教育至关重要。我们还将看到,对所有现代公民来说,掌握数据知识和提高数据流畅性变得越来越重要。
在上面讨论的主题演讲中,费尔南多·佩雷斯还谈到了教育目前的关键作用,以及技术如何改变教育的面貌,以及我们如何利用这一点。例如,伯克利数据科学基础课程的教材包含了交互式笔记本。他还谈到数据科学是现代公民必备的技能。
在线深度学习学校 fast.ai 的联合创始人、数学家 Rachel Thomas 谈到了 fast.ai 课程,该课程使用 Jupyter 笔记本向全球 1000 名学生中的 10 名教授深度学习。这是一种前瞻性的教育模式,所有背景的学生都可以在最小的背景下使用现代深度学习技术。fast.ai 的座右铭是“会编码就能做深度学习”。它是免费的,没有高级数学先决条件,都是在 Jupyter 笔记本上教授的,他们使用了大量来自 Kaggle 的数据,确保了良好的数据源和良好的基准,并使技术与图像分析和自然语言处理中的应用相关,学生们可以立即在云实例上开始使用单个 GPU。Rachel 甚至在她的主题演讲中说“你学习不是通过听或看,而是通过做”,这与我们在 DataCamp 的座右铭“在做中学习”是一致的!
哈佛大学电子工程和生物工程助理教授登巴·巴正在努力赋予他的学生权力,并使计算教育民主化。引用费尔南多·佩雷斯的“数据科学是现代世界公民学习的一项关键技能”,登巴的目标是通过创建整合理论和计算的教育内容以及无缝编码界面的设计来弥合电气工程和计算机科学之间的差距,以便专注于学习内容。他的课程侧重于工具的垂直整合,在这种情况下,学生将收集自己的数据,上传到云,在笔记本上处理,获取输出,并以物联网的方式做出实时决策。他的课程通过在亚马逊网络服务上托管所有课程笔记本来利用现代技术,重点是与学生相关的数据、问题形成、数据收集和分析。登巴表示,“在未来,数据操作设施将成为文化的一部分”,以数据为中心的教学必然会在其他领域越来越多地出现,如政府和新闻业。
2.JupyterLab 是交互式开放数据科学的未来
我参加了 JupyterLab 的研讨会和讲座,这都是非常令人兴奋的消息。一个额外的收获是看到核心木星实验室的贡献者布莱恩·格兰杰、克里斯·科尔伯特、杰森·格劳特和伊恩·罗斯对此有多兴奋。JupyterLab 是什么?回想一下,Jupyter 笔记本电脑提供了交互式、探索性和可复制的计算环境。JupyterLab 旨在提供一个一站式商店,作为用户,您可以在其中组合您在数据科学工作流中需要的所有构建模块:
- 笔记本电脑
- 文件浏览器
- 文本和降价编辑器
- 安慰
- bash 终端
- 。csv 查看器
您不仅可以按照自己的意愿配置上面列出的任意数量的构建块,而且它们可以相互交互。例如,您可以将单元格从一个笔记本拖放到另一个笔记本,您可以在 JupyterLab 中实时查看 markdown 预览,预览会实时更新,您可以将一个实时控制台附加到 markdown 文档,从而直接在控制台中执行 markdown 中的代码!
有太多令人兴奋的开发,包括. csv 查看器,它允许您实时滚动 1 万亿行 1 万亿列的文件),交互式浏览 json 文件和 git 集成(是的!).
对我来说,最令人兴奋的发展是能够合作开发笔记本电脑,从而在代码、数据科学通信和计算环境方面进行合作。要明确的是,现在 Jupyter 笔记本上有实时协作,你和我可以在同一台笔记本上远程工作(技术说明:我们将运行不同的内核,但这并不总是如此),在聊天窗口中讨论我们的工作,并将代码、文本和方程从聊天中拖放到笔记本上。
您还可以构建自己的 Jupyter 扩展(据我所知,git 集成就是这样构建的),随着 JupyterLab 的发展,这将是生态系统和 Jupyter lab 的巨大胜利。我鼓励大家通过观看 2017 年西雅图 PyData 的演示来了解更多信息。
3.数据新闻是一个尚未解决的挑战,我们都可以为此做出贡献
DataCamp 的数据科学记者 Karlijn Willems 介绍了 Jupyter 项目在加强数据新闻实践中的作用。Karlijn 关注数据新闻业面临的几个挑战,其中最重要的是
- 数据新闻工作流程
- 可复制的数据新闻
- 数据新闻写作标准。
我在 Karlijn 的演讲中发现了很多东西,我知道最近的数据新闻作品,如网球拍和巴拿马文件,但我不太清楚数据新闻至少可以追溯到 1821 年,当时《卫报》出版了第一期,出版了第一份统计表。
Karlijn 讨论了几种不同的方法来开发一个标准的数据新闻工作流程,它可以借鉴设计思维和叙事理论等不同的领域。设计思维本质上是应用一种迭代的方法来寻找你的产品(或者问题,在这种情况下),叙事理论具体地告诉我们如何讲故事,我们都这样做,无论我们是研究科学家、记者、数据科学家还是数据记者。这些方法与开源软件开发的科学过程和方法相结合,为数据新闻工作流程的发展提供了肥沃的土壤。我们所有从这些不同领域的错误中吸取教训的人都可以帮助定义一个新兴领域。
可复制的数据新闻,嗯,可复制的任何东西都是当今的一个大问题。如果我在 fivethirtyeight 上看了一篇数据新闻,如何验证其结果、工作流程、方法是否正确?或者数据实际上是它所声称的那样?随着科学界陷入可重复性危机,我们正处于一个临界点,数据新闻可以通过制定社区标准来避免这种危机,例如提供用于生成分析的代码。在一个由点击诱饵和假新闻主导的时代,可复制的数据新闻也是至关重要的,在这个时代,许多人不知道该相信什么或相信谁。例如,Jupyter 笔记本是展示这些代码的好方法,在 github 上这样做,任何人都可以查看以前版本的代码/分析。我们需要考虑的问题:
- 我的数据是可复制的吗(如果我是在某一天收集的呢?)?
- 我的计算环境是可复制的吗?
- 我的代码是可复制的吗?
- 都是公开可复制的吗?
Karlijn 在她的演讲中向我介绍了 Brian C. Keegan 撰写的一篇名为 的文章《数据新闻业开放的必要性 ,该文章详细描述了数据新闻业面临的这些(以及更多)挑战,并试图复制一篇关于好莱坞性别偏见的fivethirtyeeight 文章,但未获成功。
Karlijn 提出的最有趣的观点之一是数据新闻写作标准的发展,这看起来可能有点不性感,但却是至关重要的。这项技术目前远远领先于媒体。有几种方法可以将计算笔记本和文档转化为网站(例如,参见 pelican、jekyll 和 hugo ),但问题仍然存在:如果我在 Jupyter 笔记本或 R markdown 中制作了一篇数据新闻,我该如何将其提交给 Upshot 或 fivethirtyeight?需要说明的是,这并不是科学出版作为一个整体已经弄清楚的事情。
所有这些都为记者、研究科学家、设计师、开源软件开发者和数据科学家之间的对话提供了肥沃的土壤,以探索数据新闻的可能未来。
数据科学项目的三种合作者
成功的数据科学项目需要跨团队协作。如果没有与所有相关利益方的适当合作,数据科学项目就不会有影响力。在最近的 DataCamp 网络研讨会中,Lucid Software 内部工程部门的工程经理 Brian Campbell 讨论了数据科学项目跨团队协作的最佳实践。
三种类型的合作者
数据科学家必须与其他利益相关方合作,以提高项目的影响力。数据科学家应该依靠组织内的其他人来更好地了解他们感兴趣的问题背后的业务价值和指标,如何在复杂的数据环境中导航,以及如何向客户部署他们的模型。在网上研讨会中,Brian 讨论了三种类型的合作者:
问题专家
问题专家是为数据科学项目奠定基础的合作者。他们的工作是为项目提供领域专业知识,并定义问题陈述。
问题专家非常了解受数据科学项目影响的指标,以及它们如何转化为业务成果。他们也知道一个有价值的模型所需要的准确性。这些知识是非常重要的信息,因为没有一个模型是完全准确的。理解什么是合理的和有价值的目标对于在项目早期定义目标和设定期望是至关重要的。
数据专家
数据是任何成功的数据科学项目的关键要素。许多组织拥有复杂的数据环境,这使得了解哪些数据可用以及需要哪些数据来解决问题变得非常困难。
数据专家负责了解某个领域中有哪些数据可用,如何获取数据,以及哪些数据最适合特定的业务问题。他们自己有时也可能是问题专家,但通常在组织中担任数据工程角色。
实施专家
最后,实现专家负责理解如何向客户部署这些模型。他们是大规模部署模型所需的基础设施和资源方面的专家。
当与这些专家合作时,让他们提前了解项目是很重要的,这样他们就有时间确保当模型准备好被部署时有合适的基础设施。了解工作将如何被使用也很重要——作为产品中的一个特性,API 的一部分,与现有的过程集成,或者从头开始需要一个新的过程。项目的使用将决定谁是最佳的实施专家。
如何有效地与合作者一起工作
时间表是协作的重要组成部分。这使得参与项目的每个人都可以计划何时参与进来,以帮助推进项目的完成。
考虑一个部署客户保持模型的提议项目。该模型将识别有可能不再从该组织购买订阅的客户,并向他们发送促销电子邮件以吸引他们留下来。
该项目将需要首先了解客户保留指标和趋势,收集相关数据,清理和分析数据,建立分类模型,将其集成到自动电子邮件系统中,并将其设置为活动。所有这些步骤可能需要数周时间,并且许多步骤需要前面部分讨论的三个利益相关者的帮助。
设定一个初始时间表允许协作者在需要帮助项目时制定路线图。如果出现延迟,应立即通知合作伙伴。如果数据收集阶段出现延迟,实施专家不应该提前一个月出现,因为这将浪费他们的时间,并损害未来与他们合作的机会。
要了解有关数据科学项目管理最佳实践的更多信息,请收听点播网络研讨会获取更多深入示例。
2022 年提升团队报告水平的 3 种方法
在 CIPD 的《工作中的学习和技能》报告中,三分之一的组织在 2021 年的培训预算被大幅削减。更少的预算,加上比以往更多的人在家工作,意味着团队经理和研发专业人员不得不用更少的资源做更多的事情。这导致了向数字化训练的巨大转变。CIPD 的分析表明,接受这种变化的组织正在收获回报,文化得到改善,向员工学习的需求增加。
但并不都是积极的。该报告还显示,77%的团队经理和 L&D 专业人士无法评估他们的学习计划的影响。评估培训计划最常见的自我报告方法是“参与者满意度调查”,这是一种主观报告,很难与 ROI 和您组织的业务目标联系起来。
CIPD: Barriers to the evaluation of learning and development program and initiatives (%)
如上图所示,提高报告质量有许多障碍——首要问题是相互竞争的优先级和时间不足。在 DataCamp,我们认为报告您的学习计划的业务影响应该很简单。这就是为什么所有面向业务部门的data camp现在比以往任何时候都有更多的方式来获取您可以快速与利益相关方分享的见解。
如何在 2022 年提升您的报告水平:
1.使用自定义报告创建专业的一键式报告
我们明白了。报告学习计划的影响需要时间。这就是我们创建自定义报告的原因。它们是预先制作的报告,DataCamp 管理员可以使用它们来展示您的学习投资回报并揭示可衡量的见解,包括从每周状态报告到您最积极参与的学习者或最受欢迎的课程的所有内容,并随时添加新的报告。
根据我们的预制模板创建专业报告详细了解您的学习计划日程定期自动生成报告,这样您就不会错过截止日期
准备好改进您的报告了吗?了解如何开始使用我们的帮助中心。
2.即插即用—将您的学习数据连接到 Tableau 和 Power BI
借助我们对 Data Connector 的 2021 更新,您现在可以使用 DataCamp 内置的 Athena 连接直接在 Tableau 或 Power BI 中创建报告和仪表板。Athena 插件使直接在您选择的平台上查看、查询和可视化学习见解变得更加容易。
准备好在 Tableau 或 Power BI 中分析和可视化您的数据了吗?邀请您的工程团队遵循以下步骤。
3.使用 Python 或 R with Workspace 构建定制报告
如果您的组织启用了工作空间编辑器,您可以在 Python 或 R 中从头开始构建报告,或者从我们现成的 Python 自定义报告中进行选择。
- 从您舒适的浏览器中分析您组织的学习数据
- 分享您的见解,同时控制哪些人可以看到它们
- 直接评论你的工作区报告,就像在谷歌文档中一样
想要构建自己的自定义报告吗?了解更多。
让我们让 2022 年成为你超越员工满意度调查的一年,并提升你如何报告你给员工带来的变化。了解有关 DataCamp for Business 的更多信息或者,如果您是现有客户,请登录尝试这些新功能。
您可能还喜欢:
白皮书:300 多名 L&D 领导人从构建数据流畅度中学到了什么
交付组织范围的数据素养所需的两个最重要的行动是强有力的执行支持和跨多个团队展示价值。
下载白皮书
客户成功案例:Autodesk
了解这家财富 1000 强软件公司如何在竞争中保持领先地位。
阅读 DataCamp 上的案例研究。
构建成功数据计划的 4 个步骤
启动数据程序可能是一项挑战,但是没有数据程序,您的企业可能无法综合重要数据来得出有意义的见解。我们最近的 DCVirtual 会议深入探讨了如何实施和衡量成功的数据驱动文化。DataCamp 的课程架构师 Richie Cotton 就此话题与 AXA XL 的战略设计、数据、定价和分析主管 Rachel Alt-Simmons 进行了交谈。请继续阅读,了解为什么每个人都需要数据驱动,如何确定您的数据目标,以及如何实施数据计划。
数据驱动是每个人的责任
在 21 世纪,每个组织都需要数据驱动才能具有竞争力。数据驱动不是让人们自动离职,而是为他们提供工具和信息,让他们在工作中更加高效。
我们认为提高数据驱动力是组织中每个人的责任。毕竟,我们每一个人都可能以某种方式接触数据,不管你的角色是什么。我们一直在寻找不同的机会来提升我们的资源,并在旅途中利用它们。——雷切尔·阿尔特-西蒙斯,安盛 XL
数据计划成功指标取决于您所在的行业和组织
没有放之四海而皆准的数据程序。每个数据项目的目标会因行业、公司规模和团队结构等因素而异。
我们以 AXA XL 为例。AXA XL 于 2018 年被安盛集团收购,是一家大型商业和专业保险公司,评估复杂的风险投资。他们目前在世界各地雇用了 13,000 人在分布式团队中工作,这意味着他们的许多团队实际上并不与他们的大多数团队成员一起工作。虚拟协作在全球各地都很重要,作为一家保险公司,他们的数据需求高度依赖纸张和 pdf。
我们的生意是纸上谈兵。我们出售法律文件——这就是保险单,只是一份法律文件。我们摄取纸张,然后生成纸张。举个例子,你从一个客户那里收到一个提交,里面包含了大量的文件和信息。您可能会在 PDF、Word 文档、Excel 文件以及其他各种文件中获得这些信息。文档的来源没有标准化,所以没有一个标准的 PDF 或标准文件。每个客户的情况都不一样。
因为他们的许多数据都存储在 pdf 中,并且数据输入是手动的,所以并不是所有的单个数据元素都被捕获。许多信息丢失或不容易检索。为了解决这些问题,AXA XL 利用自然语言处理等功能来抓取文档并轻松地从中提取信息。
如何实现一个数据程序
1.选择自上而下或自下而上的方法
构建数据计划的自顶向下方法与组织内更大的数据和分析计划相关。这需要战略性地构建您的程序,以标准化跨团队集成分析模型和工作流的方式。
自下而上的方法是关于在数据和分析职业道路上提高所有员工的能力和技能水平。例如,AXA XL 的分析 DNA 计划确定了不同技术和分析领域的专家,并向他们寻求可以利用的想法,以便在整个组织中更广泛地推广。
好消息是,人们真的愿意站出来,提供他们的指导和专业知识,这有助于我们将我们的计划塑造成与我们的战略计划相关和一致的东西。
2.开发人物角色并确定他们的目标
在 DataCamp,我们已经确定了我们的客户通常使用的几种与数据相关的角色:数据消费者、领导者、数据分析师、公民数据科学家、数据科学家、数据工程师、数据库管理员、统计学家、机器学习科学家和程序员。我们建议我们的教师在建立他们的课程时考虑谁是相关的人物角色,我们建议我们的商业客户在建立他们的数据程序时考虑谁是相关的人物角色。每个角色与数据有不同的关系。
AXA XL 的两个主要角色是精算师和数据科学家,他们目前专注于融合这两个角色所需的技能,以推动业务发展。
在许多[保险]组织中,关于精算背景和我所说的纯数据科学或分析背景之间的区别,一直存在一个有趣的分歧。在我们的组织中,我们将这两者结合在一起。我们实际上是在教精算师一些他们可以在精算过程中应用的统计机器学习技术。这不再是“我们对他们”了。这是“我们如何将这些能力结合在一起”,这是非常令人兴奋的。
3.确定每个角色的差距
我们建议我们的所有客户使用技能矩阵对他们的内部数据技能进行全面盘点。这有许多不同的形式,但通常涉及可视化组织、部门、团队或个人级别的优势和技能差距。
AXA XL 的 Rachel 建议,您可以通过询问以下问题来确定每个角色的差距:
- 你想知道什么?
- 你想要更多的什么?
- 我们还能提供什么,例如培训、招聘、技能发展或基于项目的工作?
- 我们是否将这些能力与我们的战略项目正确地结合起来了?
对于数据分析师、数据科学家和数据工程师等分析专业人士来说,公司可能希望调查在导入数据、在电子表格中进行数据分析、自然语言处理以及建立和维护数据管道等重要技能方面是否存在差距。这是我们为数据专业人员开发的技能矩阵示例。
对于数据消费者和领导者来说,成功所需的技能包括沟通、理解数据可视化和设计思维等软技能。
设计思维是创造一个解决方案,不管它是什么:技术的,数据的,还是模型的。如何以与客户相关的方式做到这一点?那么,如何有效地沟通结果呢?
4.为每个角色创建学习之旅
整体学习方法需要使用设计思维来创建有效的学习之旅。这不仅仅是建立技术技能,也是建立重要的商业技能。例如,AXA XL 要求他们的精算师能够将数据转化为有意义的术语,以便评估保险风险的保险商等决策者能够将公司的风险评估置于背景中,并得出有用的结论,如承担多大的风险。精算师的学习之旅必须包括将数据置于背景中并将其含义传达给更广泛的受众的能力。
为了帮助组织发现他们团队跨角色的数据技能水平,我们通过基准报告提供了免费的技能审计。个人可以参加我们的信号技能评估来跟踪自己的进步。
在评估技能后,我们建议组织建立自定义的跟踪,以便每个人都能达到其角色或职责所需的基本技能水平。数据消费者和领导者的学习路线可能倾向于我们的理论课程,而数据专业人员则参加我们的动手编程课程。例如,由于 AXA XL 的很多数据都是 pdf 格式,他们的精算师和数据科学家的学习之旅包括我们的几门关于自然语言处理的课程。对于职业生涯早期的精算师,我们推荐这些通过预测分析考试的课程。
从您的数据计划中获益
Rachel 说,通过回答这个问题,很容易衡量你的数据程序是否成功:它是否帮助你变得更加有利可图?如果数据正确地反馈到决策中,那么你的底线将会反映出来。因此,如果你的员工的技能在发展,你的公司正在做出明智的决策,那么可能的答案是:是的。
欲了解有关构建成功的数据程序的更多信息,请观看在线研讨会点播。
金融服务采用人工智能的 5 大障碍
数据科学和人工智能在金融服务中的应用几乎不是新闻。从根据信用评分提供贷款的银行、根据风险定价的保险公司,到根据预期风险和回报提供财务建议的投资基金,数据一直是金融部门的支柱。然而,要在数据科学和人工智能方面取得成功,金融服务机构需要深化对机器学习和人工智能的使用。在最近的一次网络研讨会中,渣打银行前集团 CDO、TruEra 现任首席战略官 Shameek Kundu 概述了如何在金融服务中加快人工智能的采用。
人工智能的应用很广泛但很肤浅
Shameek 解释说,今天在金融服务领域有一系列广泛的人工智能和机器学习用例。这里有一些值得注意的现实世界的例子。
- 安盛的机器学习预测核保简化了保单购买流程
- 光学字符识别(OCR)帮助花旗银行加快了他们的手动文档处理
- OCBC 银行的调查人员利用机器学习来检测欺诈交易
然而,这并不意味着金融服务机构正在充分利用数据科学和人工智能,因为需要深入采用这些技术。淡马锡报告称,几乎所有的金融服务都在一定程度上使用人工智能。然而,由于行业范围内的障碍,只有 13%的公司在大多数流程中真正使用了人工智能。
Many AI projects remain in their infancy, unable to reach the end goal of full deployment, according to the Bank of England Machine Learning Survey
广泛采用人工智能的障碍
有限的数据质量和可用性
监管机构越来越多地审查公司如何处理数据,美国和欧盟通过州数据隐私法就是明证。此外,由于数据隐私法的地理差异,数据的跨境共享仍然有限。这种规定转化为机器学习模型训练和预测的有限数据。
不成熟和分散的技术环境
随着新生的机器学习领域继续发展,它经历了相对不成熟和分散的技术领域形式的成长烦恼。
根据 Algorithima 的调查,如今,组织需要大约一到三个月的时间来将机器学习模型部署到生产中。交付时间长是由于缺乏成熟的机器学习操作化(MLOps) 工具而产生的症状。然而,鉴于其的快速发展,MLOps 工具的发展只是时间问题。
对机器学习缺乏信任
复杂的机器学习模型不容易解释或解释它们的预测。由于缺乏对黑箱模型的理解,最终用户很难相信他们的输出。
一个恰当的例子是 IBM 沃森。曾经被吹捧为医疗保健的未来,其黑箱模型未能赢得最终用户的信任。这些医生理所当然地拒绝将生死决定交给人工智能黑匣子。
类似地,从事欺诈检测等高风险决策的金融服务监管者和银行家发现很难相信黑箱模型。当透明度对于防止歧视和不公平结果以及履行披露义务不可或缺时,尤其如此。认识到这一点,美联储州长布雷纳德在 2018 年 11 月的一次演讲中说,“可解释性的挑战可以转化为人工智能方法适用性的更高水平的不确定性”,并呼吁金融服务公司在应用黑箱模型时保持警惕。
最后一英里操作化
机器学习项目也会遇到最后一英里问题——在正确的时间将结果提供给正确的人的挑战。例如,期待立即得到满足的手机应用程序用户在得知某个推荐需要 10 分钟才能加载时会不高兴。
解决最后一英里操作化的问题不仅需要成熟的 MLOps 工具环境,还需要机器学习从业者关注用户体验。
缺乏数据人才
人工智能项目的全面部署需要一个数据专业人员团队——包括数据科学家、分析师、工程师和机器学习科学家。因此,缺乏数据人才仍然是各行各业采用机器学习的一个障碍,包括金融服务业。
德勤的一项调查显示,23%最成熟的人工智能采用者报告称,在人工智能实施方面存在显著的人才技能差距。解决这一技能缺口需要一个针对特定人才的以为中心的再培训和技能提升战略。
结论
上面列出的障碍表明,只要有足够的时间和努力,它们是可以解决的。解决这些问题将使金融服务业离释放其采用人工智能的巨大潜力更近一步。
如果您对人工智能在金融服务中的应用感兴趣,请务必收听 Shameek 的点播网络研讨会“扩大人工智能在金融服务中的采用”。
托管您的数据科学产品组合的 5 个地方
为什么要有作品集项目?
找到从事个人项目的时间和动力是一项挑战。然而,无论你是在全职工作、自雇还是在找工作,平衡你的职业生活和你对构建数据科学项目的热情肯定是有益的。以下是您应该投入时间和精力构建数据科学投资组合的一些主要原因。如果你想了解为什么创建项目组合项目很重要,以及创建项目组合项目的最佳实践和例子,请务必阅读这篇文章。
培养和磨练技能
学习编码、构建模型、提高模型准确性和部署模型都是数据科学工作流程的一部分。这些技能需求量很大,创建项目组合是磨练你的技能和强化你感兴趣领域的知识的好方法。此外,组合项目允许你建立与你的背景、工作或专业不完全一致的技能。如果你专攻自然语言处理应用,建立计算机视觉辅助项目会让你的技能更上一层楼。可能性是无限的。
向招聘人员展示你的经历
想象一下,两个初级数据科学家来到招聘人员面前;第一个人说,“我知道 Python、机器学习和 MLOps,”但第二个人说,“我也知道所有这些,我在这个项目中应用了我的知识,我收集了数据,在其上应用了机器学习模型,并将其部署为 web 应用程序。”很明显哪个候选人会最突出。投资组合项目可以确立你作为数据科学家的合法性。你的投资组合越多样化,你就越能展示你可以与招聘人员和招聘经理谈论的各种技术技能。
展示你的软技能
创建数据科学项目组合展示了一致性、持久性、对细节的关注以及不断学习和改进的意愿。这些软技能在许多职业领域都至关重要,数据科学也不例外。更重要的是,如果你用基于内容的项目来补充技术组合项目,你将能够展示你的沟通和数据讲述技能,这将进一步让你成为一名数据科学家。
迈出创业的第一步
在副业和创业之间,只有一步可走,那就是全职开始冒险。无数的冒险变成了百万美元的创业公司。此外,项目组合也是成为一名自由数据科学家的好方法。要了解更多关于成为自由职业数据科学家的信息,请阅读关于成为自由职业数据科学家指南的第 1 部分和第 2 部分。
托管您的数据科学产品组合的 5 个地方
与数据科学社区共享您的项目有助于建立通用知识库,促进协作,帮助建立您的品牌,并让您参与更大范围的对话。这就是为什么就你的项目进行交流,并确保尽可能多的人可以看到它们是有好处的。托管您的数据科学投资组合有很多选择,但这些是帮助您在线展示投资组合的一些最佳工具和平台。
1.Datacamp 工作区
Datacamp Workspace 是一个基于云的协作笔记本,允许您分析数据、与其他人协作并即时发布分析结果。Workspace 使您能够只通过浏览器编写代码、分析数据和分享您的数据见解。除了通过剧本模板预先编写的代码示例之外,它还提供了 20 多个预加载的数据集供您分析。Workspace 支持 R、Python 和 SQL,可以在任何操作系统上使用。它需要零安装和零下载。创建项目后,您可以共享指向您的 DataCamp 个人资料的链接,以便人们可以立即访问它们。Workspace 上托管的高质量项目的一些示例如下
-
土耳其的森林大火
2.卡格尔
Kaggle 是一个面向数据科学家和机器学习爱好者的在线社区平台。它允许您与其他数据科学家协作,查找和发布数据集,发布笔记本,并与其他数据科学家竞争以解决数据科学挑战。有许多数据集可供那些想要实现其算法的人使用。这个平台的优点是数据的结构和清理相对较好。因此,这是一个开始感受从事数据科学项目的好地方。注册后,您可以浏览几个类别中正在进行的不同比赛:
- 针对初学者的长期比赛是让你开始的好资源。你可以应用你的知识,并用它们来实践你所学到的东西。
- 限时竞猜奖品或名气比初学者难度高一步。
- 有奖品的限时比赛会更有挑战性。它们通常由外部组织者赞助,如网飞、谷歌等。
参加这些比赛是发展、提高你的技能和增长你的技术能力的好方法。为了展示你的工作,你需要一个笔记本(内核),详细解释你的项目的来龙去脉,以便尽可能多的人能够理解它。
由于该平台以参与人数众多而闻名,对于初学者来说,赢得奖项似乎并不容易。但是,参加比赛和出版笔记本可以让你发展技能,积累积分,从而在队伍中攀升。很容易想象,在 Kaggle 上达到特级大师的最终级别,将开启你作为数据科学家的职业生涯。你可以阅读这本关于 Kaggle 的完整指南了解更多信息。Kaggle 上的一些优秀笔记本可以在下面找到:
3.开源代码库
从高层次来说,GitHub 是一个网站和云服务,它使开发人员能够存储和管理他们的代码库,并跟踪和监控代码库的变化。要理解 GitHub 是什么,您需要知道两个相关的原则:版本控制和 Git,它们帮助您记录项目随时间的变化,以便以后调用特定的版本。您可以查看本指南来了解更多关于 Git 的信息。该平台允许用户协作或发布开源项目,派生和共享代码,并跟踪问题。使用 GitHub pages 建立一个 GitHub 账户并托管你的投资组合既简单又免费。只需遵循以下步骤:
- 创建一个 GitHub 账户。
- 学习如何使用 Git 和 GitHub 。通过跟随这个教程或者Git 入门课程,你可以找到关于理解 Git 和 Github 的详细解释和教程。
- 通过重复以下步骤将你的网站上传到 GitHub 页面:
- 给你的网站一个主题,一个引导主题或者一个 HTML/CSS 模板可以,但是 WordPress 主题不行。
传递项目的一个有效方法是使用 Github 这样的平台。创建您的 Github 帐户后,您可以开始在那里发布您的项目。在 Github 中,你的每个项目都必须有一个用户容易阅读的README.md
文件。这是编码人员经常忘记的事情,但却是至关重要的。如果你没有一个README.md
,读者很难理解这个项目是关于什么的。以下是 GitHub 页面组合项目示例
4.个人网站
拥有一个博客或个人网站也是集中你的项目的一个很好的方式,特别是因为它相对简单,不需要花费大量的预算就可以建立一个网站。如果你决定走这条路,WordPress 是一个很好的起点,尽管另一个 CMS 如 Strikingly 或 Wix 会做得很好。虽然与在 DataCamp Workspace 或 Kaggle 等网站上托管项目相比,很难看到您的项目,但托管您的网站允许更多的控制和定制。此外,如果你努力优化你的搜索引擎优化,你可以出现在谷歌搜索相当高。
5.媒体(和社交网络)
尽可能多的交流你的项目是很重要的。对于基于内容的作品集项目,除了你自己的个人网站,你还可以使用博客平台。Medium 是让您的项目接触更广泛受众的最佳平台之一。此外,在社交网络如 Quora、LinkedIn、Twitter 和 Reddit 上发帖可以帮助巩固你作为数据科学家的合法性,并使你的项目获得更多的关注。
了解更多信息
拥有可靠的数据科学产品组合可以改变游戏规则。这是获取和学习新能力以及利用和改进现有能力的机会。追求组合项目可以让你积累新技能,获得招聘者的关注,并可能通过帮助你开始自由职业之旅而产生潜在的收入来源。向招聘人员展示你参与的项目将使你与其他数据科学家区分开来,所以花些时间磨练你的投资组合,因为投资回报绝对值得付出努力。有关投资组合项目和进入数据科学的更多信息,请查看以下资源:
获得 DataCamp 高级学生计划的 5 个理由
-
您将以学生价格获得高级课程:由专家讲师指导的课程,全程都有互动元素;测试你所学知识的评估;一个工作空间特性,你可以使用 Python 或 R (SQL 即将推出)开发你的投资组合;以及认证服务,这将包括从 DataCamp 获得对您技能的认可。
-
从提炼数据的角度来看,数据是新的石油。能够以一种可用于发现模式、讲述故事和告知未来决策的方式收集和组织数据,对于组织来说是一种游戏规则改变者。因此,数据科学是发展最快的职业领域之一,目前对数据科学家的需求超过了供应。
-
我们已经被你的一些潜在雇主利用了。【1,800 的财富 1,000 强公司和 1,800 多家组织都在使用我们的产品。有什么更好的方式来表明你在面试中处于领先地位,而不是已经采取了他们的技能提升计划的元素?
-
即使你不是数据科学家,这也是一套方便的技能。组织越来越多地在数据科学初学者课程中培训他们的非技术人员,因此表明你和 IT 人员之间的沟通将是无摩擦的,这是你求职过程中的一支可爱的箭。
-
你可能已经走上了成为数据科学家的道路。如果你的学位在某种程度上涉及数学,那么你已经满足了许多数据科学招聘信息中列出的基本要求。参加我们的一些课程或通过我们获得认证可以在申请这些工作时进一步提高你的地位。
最重要的是,我们提供了一个很大的折扣:今天就登录解锁吧!
练习技能的 5 个 SQL 挑战
随着越来越多的公司变得更加数据驱动,SQL 作为最流行的商业编程语言之一同时繁荣起来也就不足为奇了。SQL 的流行源于它的易用性和与关系数据库及其许多不同管理系统的良好兼容性。
从小型创业公司到大型私营公司,甚至政府机构,只要有数据的地方都会用到 SQL。SQL 是处理大型关系数据库的理想工具。你还在等什么?这些 SQL 挑战可以帮助您掌握这种重要的编程语言。你也可以看看我们的 Python 挑战和 R 挑战。
为什么要接受 SQL 挑战?
就像其他编程语言一样,您必须练习您的 SQL 技能,以建立和保持您的流畅性。通过我们的五个 SQL 挑战,从初学者到高级人员,任何人都可以使用真实的数据集来提高他们的 SQL 流畅性。这些数据集包括:
- 电子游戏的历史
- 美国婴儿名字趋势
- 世界上最古老的企业
- 纽约市公立学校考试成绩
- 在线体育零售收入
通过各种数据集,您可以创建一个全面的 SQL 组合来展示您的技能。这些项目可以存储在 DataCamp Workspace 中,在这里您可以展示不同的数据集并与您的队友协作。
免费周期间要完成 5 项 SQL 挑战
你们中的许多人都将迈出这一步,开始学习我们的各种 SQL 课程、课程、项目等等。在本节中,您将找到 5 个可以在 1 周或更短时间内完成的 SQL 项目。选择一个项目,今天就开始!
1.探索电子游戏的历史
许多电子游戏迷对电子游戏现在都只是续集和它们曾经有多好有不同看法。回忆电子游戏曾经有一个黄金时代是很容易的,但是你能用数据支持你的论点吗?
电子游戏的黄金时代是什么时候?项目中,您将探索历史视频游戏销售情况并查看数据,以了解哪些游戏最畅销和最受欢迎。除了能够赢得争论,这还是学习研究一个重要市场的好方法。
预备课程
2.为你的下一个孩子选择一个名字
莎士比亚有句名言“玫瑰换成其他名字闻起来还是一样香”,但这同样适用于婴儿的名字吗?有些名字是时髦的,有些是永恒的。你可以用数据分析找出哪些名字是哪些!
在分析美国婴儿名字趋势项目中,你将探索一百多年来的美国婴儿名字,看看人们的口味是如何随着时间的推移而变化的。
预备课程
3.寻找世界上最古老的企业
商业的一个重要部分是规划未来,并确保企业在不断变化的市场条件下生存下来。DataCamp 成立于 2013 年,但事实证明,少数业务甚至更老!
在什么和哪里是世界上最古老的企业项目中,您将使用您的数据操作技能来寻找世界上最古老的企业,并探索它们属于哪个行业。
预备课程
4.分析纽约市公立学校考试成绩分数
每年,数百万美国青少年参加学术评估测试(SAT)作为大学入学过程的一部分。
在分析纽约市公立学校考试成绩项目中,您将分析纽约市公立学校的 SAT 成绩,并查看哪个区表现最好。
预备课程
5.增加体育零售商的收入
运动服装是一个蓬勃发展的零售领域,许多零售商都在争夺一块消费者的衣橱。当然,要想收益最大化,还需要分析一些数据。
在优化在线体育零售收入项目中,您将查看定价数据、评分和评论以及网站流量,以便就体育零售公司如何增加收入提出建议。
预备课程
简化工作流程的 5 个技巧和窍门
数据分析正在彻底改变我们开展业务的方式,Tableau 等工具是它的核心。Tableau 允许任何人快速分析数据,提取见解,并通过易于使用的界面构建交互式仪表盘或其他数据产品。几乎任何具有基本 Excel 知识的人都可以加载 Tableau,插入 Excel 文件,并增强他们的数据工作流。
尽管它很容易使用,但成为 Tableau 专家有很大的深度。这篇博文分享了一些鲜为人知的技巧和诀窍,以帮助 Tableau 从业者简化工作流程,并始终如一地提供令人惊叹的可视化和仪表盘。这些技巧特别关注在数据准备和格式化过程中节省时间。
简化 Tableau 工作流程的五个技巧
1.使用 Tableau Prep Conductor 和 Tableau Prep Builder 自动化和重复使用数据准备流程
使用正确、最新的数据对于做出准确明智的决策至关重要。使用 Tableau Prep Builder 构建的流允许用户自动更新数据。该构建器允许用户可视化和管理整个数据准备过程。
Tableau Prep Conductor 在 Prep Builder 之上工作,允许用户调度和管理这些流。这意味着分析师不需要花费时间手动运行这些流,也不需要等待数据被填充。这些流程和过程可以在整个组织内共享和重用,从而减少未来设置数据准备过程的时间。
Tableau 为使用 conductor 工具自动化数据准备流程提供了一些最佳实践:
- 在非工作时间自动化流程:这允许流程在使用较少计算资源时运行,并在稳定的服务器环境中工作,而不是使用桌面资源。
- 使用 REST API 实现自动化:如果数据更新取决于其他任务的完成,用户可以利用 REST API 在相关流程完成时触发更新。
- 利用管理视图、服务器状态和警报:conductor 工具提供了许多功能来监控流的性能。它还允许用户在流程失败时发送通知,并提供如何修复错误的建议。
- 确保合适的人可以访问数据:任何技术工具中的适当文档对于其在整个组织中的可用性都是至关重要的。用户可以用关键字标记流,以对内容进行分类,从而使它们更容易被组织中的其他人重用和访问。此外,可以通过权限和身份验证设置来管理用户特定的流访问。
Tableau prep toolkit 通过确保正确的数据可供正确的人使用,可以节省组织的时间并消除工作流的低效。
2.跨多个流程重复使用清洗操作和计算
在任何技术领域,不要重复自己(干)是精简工作流程的一个必不可少的概念。用户不必花费额外的时间来应用相同的清理操作和在不同的流之间重写复杂的计算逻辑。他们应该努力确保流程设置正确,并且每一步第一次都能按预期工作。在这之后,他们应该相信这个步骤会被插入到其他流中。这是节省分析师时间和减少重写相同复杂逻辑的误差的最可靠的方法之一。
Tableau 允许从一个流中复制步骤,并将它们放到另一个流中。这是通过转到您想要复制的变更,将其粘贴到您想要添加它的步骤的变更中,然后拖放它来应用它。
干式编程是一个基本的技术概念,Tableau 使数据分析师能够在他们的工作流程中定期实现它。
3.创建样式模板以节省格式化未来仪表板的时间
每个人都有执行创造性工作的个人风格。这包括我们在表格上设置边框的方式,我们使用的字体,我们利用的调色板,以及可视化的位置。例如,看看皮尤研究中心或 FiveThirtyEight 的文章。他们所有的可视化在整个网站上都有一致的风格。
如果声音设计是你的风格,一致的风格有助于其他人认可你的作品,并且可以成为一个有价值的讲故事的机制。开发一个与您的工作相关联的优秀仪表板对于有效沟通非常有用。
然而,设计仪表板的过程通常非常耗时。如果您发现自己正在制作外观相似的仪表板,您可以创建一个模板文件来显著减少规划仪表板和从头开始做出设计决策所需的时间和精力。
虽然 Tableau 上没有专门的“模板”功能,但是通过创建一个包含模拟数据的工作簿,可以将格式从一个工作表复制到另一个工作表。您可以随时引用此模板工作簿,方法是右键单击图表选项卡以“复制格式”,然后通过右键单击返回到当前选项卡以“粘贴格式”。
开发原始模板文件将非常耗时,但最终会产生更高效的工作流。
4.了解重要的 Tableau 键盘快捷键
能够在没有持续鼠标导航的情况下工作可以节省大量时间。Brainscape 声称,学习键盘快捷键每年可以节省 8 天(64 小时),并提高 3.3%的工作效率。Tableau 是一个用户输入非常多的应用程序,这意味着有很多机会使用快捷方式来加快工作流程。
Tableau 支持其他应用程序中的许多标准键盘快捷键,并具有用于数据操作和仪表板设计的特定快捷键。
这里的是 Tableau 上可用快捷键的完整列表。虽然这个列表乍一看很长,但是学习这些将有助于简化你的工作流程和提高生产力。
5.使用网格功能或平铺功能布局仪表板
在 Tableau 中创建仪表板时,有两种不同的方式来布局对象:浮动和平铺。浮动选项给用户更多的自由,而平铺选项以一种有组织的方式快速地编辑信息。
浮动
布局可视化和文本需要以一种精确和有组织的方式来做好。在没有系统的情况下,仅仅通过将可视化拖放到画布上很难做到这一点。通过打开菜单栏上仪表板下拉菜单下的网格功能,可以大大改进和简化这一过程。
一旦网格打开,还有其他几个特性可以提高网格的效用。例如,可以在“网格选项”部分的“仪表板”下更改网格之间的像素。增量 10 最适合可用的键盘快捷键。
作为浮动对象放置后,可以使用箭头键将图形移动一个像素,或者使用 Shift 和箭头键将图形移动 10 个像素。可以通过使用 alt 键和箭头键进行 1 像素大小的调整,使用 alt + shift 键和箭头键进行 10 像素大小的调整。
平铺
如果用户希望快速创建仪表板,可以将工作表以平铺模式放入工作表中。它将图表彼此相邻地添加到表单中。通过双击左侧窗格中的工作表,可以快速添加填充画布的图块。双击画布上对象的顶部可以选择这些图块的容器。
Tableau 正在彻底改变我们与数据交互的方式,并创建价值驱动的交互式仪表盘。我们希望这些 Tableau 提示和技巧有助于您利用其所有可用功能来简化工作流程。要获得更多关于成为更好的 Tableau 从业者的资源,您可以查看以下资源:
在营销中使用数据科学的 5 种方式
市场营销中的数据科学导论
你有没有在某个网购平台购买过物品,却发现每次浏览网页都被同类商品的广告淹没?这是数据科学在市场营销中的应用。
仅在过去两年中就产生了世界上的大部分数据,公司现在有能力以前所未有的规模收集和存储客户数据。每次用户与组织的网站、社交媒体页面或 POS 系统交互时,都会创建新的数据点。
然后,这些数据被用来构建对用户行为的洞察,并向他们发送策划广告、个性化产品推荐和特别促销。
我们大多数人在日常生活中与营销数据科学应用程序进行交互,并无意识地根据它们做出决定。
在本文中,我们将介绍在营销中使用数据科学的 5 种方式。然后,我们将探索一个个人项目,您可以针对每个用例将其添加到您的数据科学投资组合中。最后,我们将谈到为什么你应该成为一名营销数据科学家,以及如何找到一份这样的工作。
数据科学在营销中的 5 个用例
1.推荐系统
网飞、Spotify 和亚马逊等公司使用推荐系统,根据用户与平台的互动为用户提供个性化的内容建议。
例如,如果你在网飞上观看了一部电影,并给了它一个积极的评价,下次你打开该应用程序时,你将被推荐相同类型、内容和演员的电影。
这是我们在日常生活中如何与推荐引擎互动的一个简单例子。
随着时间的推移,推荐系统会变得越来越强大,因为用户会继续与它们进行交互。
例如,如果你是 Spotify 的新手,你最初的音乐建议将是通用的。该应用程序将推荐对主流观众有吸引力的各种流派,因为该算法没有足够的数据来了解你的偏好。
随着你在平台上花费更多的时间,推荐引擎将了解更多关于你的喜欢和不喜欢,你的音乐建议将根据你的口味进行策划。该算法甚至可以预测你在不同季节或一天中不同时间可能喜欢的音乐类型。
推荐系统的类型
推荐系统可以大致分为两种类型——基于内容的推荐系统和基于协同过滤的推荐系统。
1。基于内容的推荐系统:
作者图片
基于内容的推荐系统仅仅根据产品的内容给出建议。
例如,如果你喜欢读波西·杰克森系列的小说,你可能会被推荐《奥林匹斯山的英雄》,这是同一位作者写的,并且是一个相似的类型。
然而,像这样的算法的一个缺点是,不会向你推荐与你已经读过的书不同的书。如果你喜欢波西·杰克森,那么你只会被推荐冒险和奇幻书籍,即使你可能喜欢非虚构或悬疑小说。
您可以使用基于协同过滤的推荐系统来克服基于内容的推荐系统的这一缺点,我们将在本文后面解释这一点。
基于内容的推荐系统项目构想
如果你是一个初学者,在构建推荐系统方面几乎没有经验,那么 Kaggle 电影数据集是一个很好的起点。该数据集包含 45,000 部电影的元数据,包括它们的海报、上映日期、类型和收入。
您可以根据 Datacamp 上 Python 教程中的推荐系统编写代码,使用数据集中可用的电影细节构建一个基于内容的推荐系统。
如果你想在建立电影推荐系统方面获得更多指导,请在 Datacamp 上注册一个现场代码培训课程。这是一个由专家指导的研讨会,他将在 1.5 小时内教你如何在 R 中创建推荐系统,如果你在这个过程中遇到任何挑战,你可以向讲师提问。
2。基于协同过滤的推荐系统
基于协同过滤的模型用于基于过去的用户行为生成建议。它们可以进一步分为基于用户和基于项目的协同过滤。
顾名思义,基于用户的协同过滤将具有相似行为的客户分组在一起。
然后,该算法根据这些客户群的共同偏好提供产品推荐,如下图所示:
作者图片
另一方面,基于项目的协作过滤根据用户偏好将相似的项目组合在一起,如下图所示:
作者图片
要了解更多关于不同类型的推荐系统以及如何实现它们,请参加 Datacamp 的在 Python 中构建推荐引擎课程。
协同过滤项目理念
您可以使用 Kaggle 上的图书推荐系统数据集构建一个基于协同过滤的推荐系统。这个数据集只包含三个变量——用户 ID、图书的 ISBN 代码和每本书的用户评分。
这个推荐系统教程可以帮助你在不熟悉协同过滤工作原理的情况下开始项目。
2.情感分析
图片来自 KDNuggets
情感分析,也称为观点挖掘,是确定一段文本背后的底层情感的过程,是数据科学在营销中的另一个热门应用。
下面是一个关于情绪分析如何为组织增加商业价值的例子:
南非的一家银行见证了比平常更高的客户流失率。许多用户开始转向竞争对手机构,不再想与他们做生意。银行试图在情绪分析的帮助下确定问题。
他们在社交媒体上收集了超过 200 万个数据点,以分析客户对他们的评价,并根据这些数据训练了一个情感分析模型。
根据这一分析,该机构意识到,大多数负面评论来自用户,他们不满银行在午餐时间没有足够的柜员,导致等待时间长。
然后,该银行通过在高交易量时段增加柜员来补救这种情况,从而减少了用户流失。
上面的例子说明了情感分析在帮助公司改进产品和超越竞争对手方面有多么有用。情感分析的其他应用包括产品分析、市场研究和用户评论挖掘。
要了解更多关于情感分析模型以及如何从头开始构建它们的信息,请参加 Datacamp 上的 Python 中的情感分析课程。
情感分析项目理念
首先,您可以使用 NLTK 库中的数据集创建一个电影评论情感分析模型。NLTK 是一个 Python 包,它为自然语言处理提供了一组不同的算法。
在这个项目中,您可以使用内置于库中的电影评论数据集,该数据集可以使用一行代码导入。然后,您需要构建一个算法,将电影评论数据分类为积极和消极情绪。
如果您需要入门指导,请阅读 Datacamp 上的 Python 情绪分析教程。
3.客户流失预测
图片来自深度笔记
客户流失是当用户停止与某个实体做生意时发生的一种现象。例如,如果你是网飞用户,并决定终止在该平台上的订阅,那么你就是一个已经发生变化的客户。
对于公司来说,更换一个不满意的客户比留住一个现有客户的成本更高。因此,许多组织雇用数据科学家来识别即将流失的用户,以便他们可以防止这种情况发生。
下面是一个客户流失预测模型如何帮助公司留住用户的例子:
您向互联网服务提供商订购了服务,最近发现连接速度很慢。您提出了一些投诉,并尝试联系客户支持团队,但问题仍然存在。因此,您甚至多次开关路由器并重新连接到网络。
最后,由于您对该 ISP 的用户体验不佳,您决定改用竞争对手的品牌。
ISP 的数据科学团队收集客户行为数据,在用户连接到网络时跟踪用户活动,并收集投诉信息。在整合了所有这些数据之后,团队意识到你面临着高风险。
他们会立即提醒营销和产品团队,你可能会停止与他们做生意。
然后,该公司的营销团队会向您提供个性化的促销和打折的 WiFi 计划,甚至提供免费升级现有套餐的服务。升级后,您意识到连接速度快了很多,并且您对 ISP 的整体体验也更加愉快。然后你决定继续订阅它们,而不是换成竞争对手的品牌。
上面的例子说明了客户流失模型在留住组织现有用户方面的作用。这种应用程序为公司增加了直接的商业价值,经常被网飞和 Spotify 等基于订阅的平台使用,这些平台依赖用户续订作为其主要收入来源。
客户流失预测项目理念
您可以使用 DataCamp 上的电信客户流失数据集来创建您的第一个流失预测项目。
该数据集包含伊朗电信公司用户的信息,如年龄、使用行为、订阅时长和投诉。使用这些数据来预测客户是否可能流失。
如果你不确定从哪里开始,就按照客户流失率预测教程来构建这个模型。你也可以看看我们关于用 Python 预测客户流失的课程。
4.客户细分
图片来自 Madlytics
客户细分是根据共享特征将用户划分为不同的客户子群体的过程。然后,根据每个细分市场的行为,为其提供不同的促销和产品。
下面是一个客户细分如何为组织增加商业价值的例子:
某电商公司构建客户细分模型,针对不同用户进行个性化促销。
如果用户经常浏览平台,但只在有折扣时购买,他们就被归类为“促销猎人”每次有持续折扣时,该细分市场中的所有客户都会立即收到电子邮件通知,因为他们可能会在此期间购买更多商品。
另一方面,一些用户购买特定的商品,并愿意不考虑价格而购买,因为他们更看重质量而不是价格。这些客户的目标是不同的,该公司的营销团队只根据他们已经表现出兴趣的产品向这一群体宣传高端产品。
通过这种方式,购买力高的顾客会看到迎合他们兴趣的更贵的产品,从而鼓励他们花更多的钱。在促销期间,重视价格的用户会被更便宜的产品所吸引。
上面的例子很简单,但展示了客户细分如何让公司从每个用户身上获取最大利润。
客户细分模型最常见的应用之一是在营销活动中建立广告组。
例如,脸书收集其用户的人口统计和行为数据,并允许公司根据这些信息投放针对定制受众群体的广告。用户可以根据特定的特征进行细分,例如他们的位置、年龄、性别、他们喜欢的品牌以及他们所属的人。
客户细分通常通过建立无监督的机器学习模型来实现,如 K 均值聚类。
如果您想了解更多关于客户细分以及如何构建 K-Means 聚类等算法的信息,请参加我们的Python 中的客户细分课程。
客户细分项目理念
你可以使用 Datacamp 的电子商务数据集建立一个客户细分组合项目。
该数据集由英国电子商务平台上的订单详情组成。
记录客户购买信息,如他们订购的商品、产品价格和发票日期,您可以使用这些数据根据他们在平台上的活动对用户进行细分。
5.市场篮子分析
图片来自 Analytics Vidhya
购物篮分析,也称为关联挖掘,是一种用于分析经常一起购买的商品的技术。这是通过处理历史购买数据来识别在交易中经常一起出现的产品组合来实现的。
零售商可以利用这一分析结果来改进商店设计,鼓励顾客在一次交易中购买更多商品。
例如,购买婴儿配方奶粉的人也可能会购买尿布,因此商店通常会将这些物品放在彼此附近,以使用户可以轻松获取。
然而,购买模式并不总是那么明显。根据地区、文化影响和人口统计因素,客户倾向于一起购买不属于同一类别的商品。这些相关性中的许多无法通过肉眼发现,这就是为什么组织依赖于数据科学技术,如购物篮分析。
下面是一个市场篮分析如何识别未被人们发现的关联的例子:
市场购物篮分析最常引用的例子是“啤酒和尿布”案例研究。根据这项研究,中西部的一家杂货连锁店使用数据挖掘技术来识别经常一起购买的商品。
他们的分析显示,顾客通常在周五晚上一起购买啤酒和尿布。这种相关性可能看起来纯粹是巧合,但这里有一个可能导致它的场景:
一个年轻的父亲在办公室度过漫长的一周之后,在周五晚上去杂货店买了几瓶啤酒。他的妻子意识到了这一点,并要求他也为他们的新生儿购买尿布。这种行为变成了一种习惯,上班的爸爸们开始在周五回家前一起买啤酒和尿布。
发现这一点后,商店开始将啤酒和尿布放在同一过道上,并立即见证了销售额的增长。
这个故事最早是在 90 年代中期报道的,其真实性多年来一直受到质疑。不管是不是虚构的,这个用例都提醒我们,在揭示人类肉眼看不到的隐藏关联时,统计是多么强大。
购物篮分析不仅限于实体零售店。电子商务平台也在同一页面上展示高度相关的产品,确保它们在用户的视线范围内。
例如,如果你在网上购买黑色牛仔裤,你可能会在页面底部看到配套的鞋子,鼓励你购买一捆产品而不是一件。同样,这直接导致了公司销售额的增加,因为顾客最终购买的产品比他们想要的要多。
要了解有关购物篮分析以及如何使用机器学习技术来执行它的更多信息,请参加 Python 学习课程中的购物篮分析。如果你更喜欢使用 R,参加 R 课程中的市场篮子分析。
购物篮分析项目理念
为了开始购物篮分析,您可以使用与上面客户细分部分提到的相同的电子商务数据集。请记住,这是在 UCI 机器学习库上可用的数据集的截断版本,仅包含 2500 行。如果想要处理更多的数据,可以下载更大的数据集。
如前一节所述,电子商务数据集包含客户交易数据,如发票号码和购买的产品。您可以使用此信息来识别客户在同一交易中经常一起购买的商品。
你可以使用 R 教程中的市场篮子分析来指导这个项目的实施。如果 Python 是你的首选语言,那么我们有一门用 Python 进行市场篮子分析的课程。
营销中的数据科学——后续步骤:
你为什么应该考虑成为一名营销数据科学家?
数据科学在营销领域有广泛的应用,其中许多我们在上面讨论过。这些用例通过提高销售额、解决客户的痛点以及鼓励购买者消费更多来为组织增加直接价值。
过去,当组织无法访问大量客户数据时,营销专家会自己执行上述许多应用程序。情绪分析和市场研究是通过发出调查问卷进行的。营销人员根据他们对客户行为的理解向用户发送有针对性的广告,这更像是一个直观的过程,而不是数据驱动的过程。
如今,随着组织收集和存储的数据量激增,公司已经开始采用数据驱动的营销方法。
然而,公司雇佣数据科学家来研究营销用例是不够的。
虽然数据科学家可以处理复杂的数据集,建立高度准确的预测模型,并执行统计分析,但这些技能本身不足以从数据中获得有价值的洞察力。他们缺乏市场营销领域的知识,通常无法将手头的数据与业务问题联系起来。
另一方面,营销专家了解客户行为,知道如何制定问题陈述,可以指导营销决策。他们缺乏处理大型数据集的专业技术。
专攻营销领域的数据科学家拥有这两种角色的综合技能,这对组织来说是无价的。这些人可以弥合数据科学和营销领域之间的差距,并可以做出对公司有利的数据驱动型决策。
如何成为营销数据科学家
要成为营销数据科学家,您必须具备强大的技术和分析能力、营销领域知识和软技能:
1.技术
- SQL 来提取、清理和操作数据库中的数据。参加SQL 简介课程,学习数据库操作的基础知识。
- 统计方面的专业知识以及监督和非监督机器学习技术的知识。参加统计学简介课程,了解统计分析的基础知识。
- 至少了解一种编程语言(R、Python、Java 等)。如果你不知道如何编码,可以去 Datacamp 的 Python 编程技能赛道或者它的 R 备选。
- 进行 A/B 测试的能力。
- 能够使用 Tableau、PowerBI 和 Excel 等工具执行数据可视化和构建仪表板。
- 了解广告活动如何在脸书和谷歌展示网络等平台上运行和优化。
- 能够进行实验设计和归因建模。
请记住,根据您加入的组织和团队,上述要求会有所不同。例如,一个专注于向用户展示产品推荐的团队不会致力于优化广告,也不会执行诸如属性建模之类的任务。
如果您不具备营销领域的知识,但想学习如何进行 A/B 测试、可视化营销指标和分析转化率,请参加 Datacamp 上的熊猫营销简介课程。
2.软技能
- 沟通能力强。
- 将复杂的技术概念分解给高级管理层并帮助决策的能力。
- 制定数据驱动的解决方案来解决业务问题的能力。
为了更清楚地了解公司对营销数据科学家的要求,以下是优步对该职位的要求:
如果您没有营销数据科学领域的经验,展示您在该领域技能的最佳方式是创建解决现实世界业务问题的项目。
我们已经为本文中解释的每个应用程序列出了相关项目,在简历中展示一些项目是一个好主意,可以向招聘经理展示您可以使用数据科学技术来提升商业价值。
最后,如果你想弥补现有的知识差距,并学习如何将数据科学方法应用于营销,你可以参加 Datacamp 的 Python 课程中的机器学习营销,或其 R 等效课程。
60 多个 Python 项目,适合各种专业水平
Python 是成为数据科学家时最重要的学习工具之一。然而,要真正掌握 Python,边做边学是必不可少的。这就是 Python 项目的用武之地。
构建 Python 项目将有助于你对正在学习的技能建立信心,开发一个有助于你在求职中脱颖而出的作品集,并从中获得乐趣。在本文中,我们将概述 60 多个 Python 项目想法,以加速您跨技能水平和领域的学习之旅。
在开始 Python 项目之前
如果你已经熟悉 Python,你可以马上开始这些项目。然而,如果你想建立必要的基础技能来开始 Python 项目,请查看 DataCamp 的列表 140+ Python 课程。我们所有的课程都是交互式的,旨在帮助你打破编码障碍,发展你的 Python 技能。
一旦您准备好开始项目工作,请查看 DataCamp 工作区,并在浏览器中的 DataCamp 笔记本编辑器中开始工作和发布您的项目。
初级 Python 项目
作为初学者,您应该利用 Python 项目来保留您所学的内容并获得新的技能。这些项目主要围绕探索性数据分析任务,以及对相关现实世界数据集的简单建模和预测任务。
1.钻石价格数据分析
钻石根据其碳原子的结构分为五种杂质类型。来自 Kaggle 的钻石数据集给你更多信息——切工、净度、颜色和价格。通过一些探索性的数据分析来发展您的数据可视化技能。
2.鲍鱼壳年龄数据分析
这是动物学中一个独特的数据集。鲍鱼壳是大自然的奇迹,你可以通过计算它们壳内的圆圈来确定它们的年龄。能否用 Python 数据分析技巧确定鲍鱼壳的年龄?
3.英超数据分析
一个足球(或英式足球)数据集,在这里你可以探索、分析和可视化英格兰超级联赛 2018-2019 赛季的事件。
4.电信流失预测
客户流失是最基本的机器学习问题之一。在这个客户数据集中,您将能够根据客户的使用数据预测电信提供商的流失。
5.股票价格分析和预测
你想找出两年前特斯拉股票暴涨 100%背后的原因吗?如果是的话,2010 年至 2021 年的科技股数据集将是第一个开始。
6.NBA 投篮数据
篮球运动员在哪个距离最有可能得分?在这个捕捉自 2021 年 NBA 季后赛的 NBA 投篮数据集中,你将能够回答这个问题。
7.预测电子商务销售
使用来自在线零售商的这个电子商务数据集,利用数据可视化和预测技术来预测未来的销售。
8.分析 Airbnb 房源
这是一个极好的数据集,有助于理解 Airbnb 租赁房源背后的动态。通过探索性数据分析和可视化,您将能够了解哪些社区拥有最受欢迎的房源,了解价格和房型之间的关系,等等。
9.分析 GDP 数据
国内生产总值是一个地区或国家经济健康的最强有力的指标之一。在该数据集中,分析在过去 50 年中各国的 GDP 是如何演变的。
10.奥运数据分析
柔道比赛中哪个国家赢了?运动员的身高如何影响一项运动的成功?通过对奥运会数据集的探索性分析,你将能够回答这个问题。
中级 Python 项目
除了初学者任务和数据集,这组 Python 项目将通过使用非表格数据集(例如,图像、音频)来挑战您,并测试您在各种问题上的机器学习能力。
1.从音频数据中分类歌曲流派
你是真正的音乐爱好者吗?然后,在这个音频识别项目中,你会喜欢用机器学习在音乐数据集上预测音乐流派。
2.分析和可视化优步皮卡在纽约
具有地理位置的数据集在地图上进行分析和可视化总是很有趣。纽约市超过 2000 万次乘车的优步接送数据集也不例外。
3.手写字符识别
MNIST 数字识别是实践深度学习的一个很好的起点。然而,这个数据集增加了另一层挑战,因为你预测的是英文手写字母。
4.信用卡欺诈检测
信用卡欺诈总是一个挑战——主要是因为数据中会有严重的阶级不平衡。看看你能否在这个信用卡欺诈数据集中绕过这个问题。
5.利用声音进行性别预测
在这个音频数据项目中,您将使用模糊包根据音素和它们的发音来对姓名的性别进行分类。
6.酒店预订取消率
如果你对房地产感兴趣,这是一个很好的数据集,可以用来了解酒店预订取消率。通过简单的机器学习技术,你可以尝试根据历史数据预测酒店取消预订的可能性。
7.图像中的人脸检测
有没有想过你的 iPhone 是如何在你的脸上放置小盒子的?这是因为它在引擎盖下执行面部检测。您可以使用带有面部注释的图像的这个小数据集来创建类似的功能。
8.从图像中预测蜜蜂的种类
机器学习算法可以根据图像检测蜜蜂的种类吗?在这个图像识别项目中,你将做到这一点。
9.分析和预测自行车共享需求
这个自行车共享数据集包含了一家自行车共享初创公司的大量自行车骑行信息。有了这个数据集,你就可以分析需求波动背后的驱动因素,甚至可以通过时间序列分析和机器学习来预测未来的需求。
10.构建推文分类器
不同的性格有不同的推特风格。在这个社交媒体分析项目中,你将使用机器学习和自然语言处理来分类推文是由唐纳德·川普还是贾斯廷·特鲁多创作的。
高级 Python 项目
这些高级项目超越了复杂的数据集,并挑战你对有趣的问题应用创造性的解决方案。无论是创建电影推荐系统,书籍中人物之间的网络分析,还是用机器学习解释手语,这些项目都将为您提供足够的复杂性,让您在旅途中学习新技能。
1.建立一个电影推荐系统
流媒体平台根据您和其他像您一样的人与内容的交互方式提供精细的推荐。在这个项目中,你将学习如何建立一个电影推荐系统。
2.美国信号语言识别
美国手语是北美许多聋人使用的主要语言。在这个图像识别项目中,你将使用深度学习来识别美国手语字母。
3.实时车牌识别
一个很棒的项目,使用视频数据集的深度学习实时识别车牌号码。查看包含数据集和代码的 GitHub 项目。
4.股票新闻标题中的情感分析
在寻找股票未来表现的线索时,投资者情绪是一个非常重要的指标。有了自然语言处理和机器学习,你可以在这个自然语言处理项目中自动从新闻标题中提取情感。
5.垃圾短信检测
垃圾邮件检测是数据科学的基石,需要结合自然语言处理和机器学习技术。用这个短信数据集创建一个垃圾邮件检测工具。
6.《权力的游戏》的网络分析
虽然在这一点上有点过时,但《权力的游戏》抓住了世界的想象力,不同于其他任何剧集。有这么多的角色和知识,其中最重要的是什么呢?在这个网络分析项目中,您将回答这个问题。
7.利用机器学习降低交通死亡率
在这个机器学习项目中,您将挖掘美国各州交通死亡率的历史数据,并应用机器学习来发现各州之间的相似性和差异,并提供粒度政策建议。
8.情节概要中的电影相似性
有这么多电影可供选择,很容易想到彼此相似的电影。如果你能找到自然语言处理和机器学习来根据电影的情节摘要对电影进行分类会怎么样?在这个 Python 项目中,您将完全做到这一点。
9.具有多标签输出的电影类型分类
一部电影可以结合多种类型。有了这个网飞电影数据集,你可以应用多标签分类,根据电影的描述、分级等来预测电影可能拥有的多种类型。
10.构建和部署机器学习管道
虽然这不是一个具体的项目,但是部署和维护列表中的其他项目是一个非常有用的技能,可以向雇主展示。在这个教程中,你将确切地学习如何去做。
有趣的 Python 项目来培养您的 Python 技能
虽然不是最复杂的,但这些项目提供了有趣和引人入胜的数据集来探索和开始加速您的 Python 学习之旅。
1.怪异的作者识别
将推理小说作家的作品分类。找出一个摘录是否属于埃德加·爱伦·坡、惠普·洛夫克拉夫特或玛丽·雪莱。
2.视频游戏销售预测
你在等动视或者 EA 即将推出的游戏吗?试着用过去 16k+视频游戏的数据来预测它的销售情况。
3.迈尔斯-布里格斯(MBTI)人格类型预测
根据 MBTI 指标,有 16 种性格类型。不要谷歌它,试着用这个性格类型数据集预测你的性格。
4.探索比特币价格数据
加密货币的价格因其极端的波动性而令世界着迷。在这个项目中,你将对比特币价格应用时间序列分析和数据可视化技术。
5.歌曲流行度预测
在这个包含 50 年代歌曲的大数据集中,你可以根据几个属性来预测一首歌的受欢迎程度。
6.分析健身追踪器数据
随着健身追踪器的兴起,你可以分析大量的数据。在这个数据分析项目中,您将分析并可视化 Runkeeper 健身追踪器数据。
7.用数据打破神话
1991 年的一项研究发现,左撇子比右撇子平均早死 9 年。这实际上是真的吗?在这个统计分析项目中一探究竟。
8.分析呼吸仪数据
使用从爱荷华州的呼吸测定器收集的数据,你将能够可视化和分析爱荷华州的醉酒情况,并找到可以导致更好的政策决策的模式。
9.登上音乐广告牌
有了这个从 2010 年到 2019 年约 600 首歌曲的 Spotify 数据集,你将能够探索和分析流行流派在过去十年中是如何演变的,根据关键属性预测歌曲的流派,等等。
10.分析乐高数据库
虽然这个项目也需要一些 SQL 技能,但这个乐高数据库可以让你挖掘全年成千上万的乐高销售,并了解哪些乐高套装推动了最多的销售。
用于实践的附加指导和非指导 Python 项目
在本文中,我们链接了许多 DataCamp 项目和数据集。DataCamp 根据你的目标难度提供了一系列引导式和非引导式项目。以下是练习的附加项目列表
指导性 Python 实践项目
1.预测信用卡批准
自动化信用卡审批是银行业中一个巨大的机器学习用例。在这个项目中,你将学习如何预测一份信用卡申请会被银行接受还是拒绝。
2.揭示机器学习研究中的趋势主题
在这个项目中,你将应用机器学习,通过分析过去十年的神经信息处理系统论文来发现机器学习研究趋势的未来。
3.献血者分类
献血是生命的救星。在这个项目中,分析献血的模式并预测一个人未来是否会再次献血。
4.按成分比较化妆品
选择一种不会危害皮肤健康的化妆品是很难的。在这个有指导的项目中,你将学习如何处理化妆品的成分,从而对一种新的化妆品是否对你有益做出更明智的决定。
5.诺贝尔奖获得者的视觉历史
几乎每个从事研究的人都梦想一生中获得一次诺贝尔奖。但是你的年龄、种族和性别会影响你的机会吗?通过分析 1901 年以来获奖者的数据来找出答案。
6.Scala 语言的 GitHub 历史
根据 TIOBE 指数,Scala 在最受欢迎的编程语言中排名第 34 位。在这个指导的项目中,通过分析 GitHub 库的历史来了解它是如何形成的。
7.探索 Linux 的发展
像 Git 这样的版本控制系统存储了关于软件项目进展的丰富信息。在这个项目中,您将分析和转换 Linux 内核的真实 Git 库,并了解 700K+提交是如何创建地球上使用最广泛的操作系统之一的。
8.重现约翰·斯诺的幽灵地图
约翰·斯诺医生(不是《权力的游戏》中的人物)手工绘制了霍乱病例地图,并推断出了他所在地区的霍乱爆发源头,从而诞生了现代流行病学。在这个项目中,你将重现他的作品和他著名的地图。
9.棒球数据分析的新时代
Moneyball 开创了体育分析的时代。在这个项目中,你将分析 MLB 的 Statcast 数据来比较不同的棒球运动员,并了解是什么推动了本垒打。
10.为谷歌广告生成关键词
为搜索广告生成关键词是一个极其细致和繁琐的过程。如果可以用 Python 自动完成这项任务会怎么样?在这个项目中,你将学习如何做到这一点。
11.手机游戏 A/B 测试
A/B 测试推动了许多数字产品和服务的成功,手机游戏就是一个很好的证明。在这个项目中,你将了解在流行的饼干猫游戏中运行的实验对用户保持的影响。
12.利用机器学习优先处理债务催收
债务拖欠是银行和金融机构的一个大问题。在这个项目中,你将使用机器学习和回归来理解如何为一家银行确定债务回收的优先顺序。
13.查尔斯·达尔文的图书推荐系统
查尔斯·达尔文是一个狂热的读者,拥有广泛的参考书目。在这个项目中,你将使用查尔斯·达尔文最喜欢的书籍来创建一个推荐系统,根据他的口味提供书籍推荐。
用于实践的无指导 Python 项目
1.在办公室调查网飞电影和客串明星
在这个项目中,你将操纵和想象网飞电影和文化现象系列“办公室”中客串明星的表演
2.探索乐高的历史
每秒钟大约生产 1140 块乐高积木。通过分析其历史销售数据,找出世界上最受欢迎的玩具品牌是如何变得如此占据主导地位的。
3.洗手的发现
洗手是我们所有人的第二天性,但在过去并不总是如此。事实上,匈牙利医生 Ignaz Semmelweis 通过分析医院病人的死亡率数据发现了洗手的好处。在这里重现他的数据分析。
4.Google Play 中的 Android 应用市场
安卓应用市场广阔且竞争激烈。分析并可视化这个从谷歌 Play 商店刮来的数据集,找出是什么造就了一个伟大的应用。
5.古典小说中的词频
在这个项目中,你将从古腾堡计划网站上抓取一本小说,然后分析一个大型书籍语料库中的单词分布。
6.糟糕的密码和 NIST 准则
几乎每个网站都需要密码,那么你怎么知道你用的是不是最好的密码呢?在这个项目中,你将创建一个系统,自动检查你的密码是否符合美国国家标准与技术研究所。
7.将搜索兴趣与谷歌趋势进行比较
Google 用 Python 公开了它的 Trends API,这样用户就可以找出任何关键词的搜索兴趣。这是一个极好的时间序列数据来源,记录可追溯到 2004 年。在这个项目中,你将探索全球五大互联网浏览器的搜索兴趣。
8.探索纽约 Airbnb 市场
利用数据清理和处理来揭示对纽约市 Airbnb 市场的洞察。
如何选择将哪些 Python 项目添加到简历中
面对这么长的 Python 项目列表,如何选择一个添加到简历中呢?根据畅销书《Ace the Data Science Interview》的作者尼克·辛格(Nick Singh)的说法,当你从事 Python 项目时,这里有四个关键原则需要考虑。
1.项目应该出于真正的兴趣
就你关心的话题做一个项目会让整个过程更吸引你,增加你完成的机会。此外,当你和招聘经理谈论你的项目时,这种热情会持续下去。
2.简单胜过复杂
今天,人们很容易被花哨的工具和尖端技术分散注意力。然而,现实世界中的数据科学需要一种简单、实用的方法来构建解决方案。项目的目标之一是展示你用相对简单的技术开发有用的数据科学解决方案的能力。
3.总是完成你的项目
做项目时很容易陷入范围蠕变。作为一个经验法则,永远要确定一个你知道你能从头到尾完成的项目——即使这意味着只是一个简单的数据分析练习。
4.项目应该有可量化的影响
一旦项目完成,确保分享你的工作,并以可量化的方式从社区获得反馈。无论是 GitHub stars、LinkedIn shares,还是 Reddit 提示语——分享你的工作是向潜在的招聘经理展示你的项目的可量化影响的最佳方式。
让您的 Python 学习更上一层楼
我们希望您喜欢这个 Python 项目列表,并且它们可以加速您的 Python 学习之旅。如果您想开始学习,并且可以先使用 Python 复习工具,请务必查看下面的 DataCamp 的 Python 课程和其他资源。
让你的同事迷上 R 的 7 个技巧
你爱 R,你希望你的同事也爱 R。眼见为实:在这篇文章中,我会给你一些建议,让你在自己的公司举办一次成功的研发演示,给你的同事留下深刻印象。这里有七个给你的团队留下深刻印象的技巧。
1)向他们推销 R
你知道 R 很神奇,现在是时候说服你的团队了。从基础开始——R 是一种强大的开源统计编程语言,可用于收集、操作和可视化数据。谷歌、脸书、优步、Airbnb、纽约时报等公司都在使用它。以下是 R 及其在分析和数据科学领域的影响的历史:
https://web.archive.org/web/20220810132206if_/https://www.youtube.com/embed/TR2bHSJ_eck
如果你在寻找更深入的东西,你可以点击这里查看大卫·史密斯的幻灯片。关键是,你要搞清楚为什么 R 值得学习并融入他们的日常工作流程。你也可以告诉他们关于日益流行的R 和如何将与其他开源替代品如 Python 相比较。使用上述资源向他们展示 R 中的技能提升肯定是他们应该考虑的事情。当然,你应该总是提到加薪😃
2)让他们使用 RStudio 进行设置
好了,你已经完成了你的推销,现在是时候向你的同事展示 R 的实际效果了。第一步是向他们展示所有神奇的事情发生的地方——r studio。抵制直接进入你的分析的冲动是很重要的。花些时间向你的观众解释他们在看什么。向他们展示如何加载库、赋值、执行基本运算等。以便他们了解 RStudio IDE 的工作原理。记住:所有这些功能、按钮和屏幕对你来说可能很熟悉,但对你以前从未见过的同事来说可能毫无意义。花 10 分钟解释会让你的同事感觉更舒服。当然,如果你想让他们有更好的准备,你也可以给他们布置一些家庭作业。有许多免费的 R 入门教程(比如这个 one )是为初学者设计的。
3)获得一个很酷的数据集
如果你真的想吸引观众的注意力,准备一个很酷的数据集。尽管“mtcars”和“iris”数据集很方便,但它们太过了,往往与你的内部受众不相关。选择一些与他们相关的东西。以下是适合任何受众的优秀数据集的一些来源:
- Quandl -为您的财务团队和组织内的经济学家提供完美的数据集(在这里了解如何使用他们的 R 包
- Data.gov——如果你在政府机构、非营利组织或研究机构工作,这将是一个非常棒的数据来源
- 很酷的数据集集合,包括王位争夺战、NFL 数据和 Twitter 上的美国航空公司观点。
- 令人惊叹的公共数据集——由凯撒 0301 策划,这份名单有一大堆数据集,从能源和教育到社交网络和时间序列数据
需要更多的想法吗?看看这个 KDnuggets 帖子。你可以在任何地方找到有趣的公共数据集,因此没有理由进行无聊的演示!记住你的听众,发挥创造力。无论如何,如果你正在向一群汽车爱好者推销,那就使用“mtcars”数据集吧。
4)走完数据科学流程的每一步
重要的是,您要引导您的受众了解数据科学流程的每一步。是的,这意味着你没有时间去钻研每一步背后的细节,这没关系。现在不是向您的观众全面解释 dplyr 与 data.table 相比的优势或为什么 ggplot2 是您最喜欢的可视化软件包的时候。在这一点上,他们可能不在乎。为了让他们相信 R 的强大,您需要向他们展示它可以用于数据科学工作流程的每个层面,包括导入数据、清理数据、操作数据、执行统计分析和数据可视化。当他们看到你在不到一个小时的时间里从一个杂乱的数据集到一个漂亮的数据可视化,他们会对 r 的力量印象深刻。需要一些灵感吗?查看来自流动数据的这些令人敬畏的指南,从原始数据中创建一些迷人的可视化。
对一切从零开始不感兴趣?没关系!已经有一些很棒的教程涵盖了所有这些步骤,所以你不需要这么做。以下是一些好的例子:
当然,网上还有更多教程和有趣的 R 演练。找到或制作一个适合你的观众的作品!
奖励:使用闪亮的创建一个互动的网络应用程序,这将真正打动你的同事!
5)向他们展示 R 如何使用他们已经知道的工具
当你试图在他们的工作流程中引入新工具时,人们很容易不知所措。他们开始思考如何才能学到所有的东西,他们本能地对自己常用的方法产生了抵触情绪。帮助克服这一点的一个简单方法是向他们展示 R 如何在他们已经熟悉的环境中工作。如果他们习惯使用 Excel,向他们展示如何使用 r 导入和导出 Excel 文件。如果他们通常使用 SQL 数据库,向他们展示导入他们需要的数据是多么容易。也许你正试图将它们从 SAS、SPSS 或 STATA 等商业软件中切换出来?如果是这样,向他们展示用 r 导入、导出和操作这些类型的文件是多么容易,这里有一个完整的课程可以帮助他们导入不同的文件类型。
6)在演讲前测试你的脚本
许多研发车间都被糟糕的计划给毁了。一场精彩的演讲可能会因为不想加载的库或者隐藏在视线之外的语法错误而泡汤。不要让这种事发生在你身上!在你演示之前,清空你的 RStudio 环境并运行你的脚本——仔细检查一下,确保一切运行顺利!之后,你可以在你的观众面前自信地编码,因为你知道你的脚本会顺利运行,不会有任何令人尴尬的错误。一般来说,你应该在你的观众面前写下每一步的代码,这样他们就能清楚地理解你的逻辑。如果你遇到了障碍,只要参考你已经证明脚本,你就回到了正确的道路上!请记住,你的目标是让你的观众相信 r 的力量。如果你的演示充满了错误、库问题和其他问题,它将不会很有说服力。
7)给他们一个路线图
恭喜你!你的报告完成了。你用令人敬畏的数据集、透彻的分析和杀手级的数据可视化给观众留下了深刻的印象。所以你的工作完成了,对吗?不对。你的新听众将会回到他们的办公桌前,在网上查找 R 资源,并被大量的教程、博客帖子和学习资源所淹没——有些比其他的好。为了帮助您的同事在他们的工作流程中采用 R,您需要帮助过滤掉噪声。幸运的是,有一些资源可以帮助你。查看这篇帖子,它提供了数据科学过程中每一步的资源概览。如果你正在寻找更全面的东西,有许多伟大的在线数据科学教育提供商,包括数据营、 Coursera 、 edX 等等!为你的听众设计一个学习路径是让他们参与并积极学习 R 的关键!
你刚刚读了让你的同事迷上 r 的 7 个技巧。现在你已经准备好开始工作了!有更多的提示或想法吗?你如何在你的公司传播 R?在下面评论并分享给你的朋友和同事吧!
关于群组数据营
DataCamp 是首个专注于为数据科学打造最佳学习体验的在线学习平台。我们已经在 150 多个国家培训了超过 470,000 名(有抱负的)数据科学家。
我们与两家公司(微软、Kaggle、RStudio 等)都有合作关系。)和来自一流学术机构(普林斯顿、杜克和华盛顿大学)的教授。我们的课程由来自 R 和 Python 社区的一流教师开发,包括 Hadley Wickham、Max Kuhn、Matt Dowle 等!
DataCamp for Groups 是管理人员培训和教育其分析和数据科学团队的最具可扩展性、最具成本效益的方式。它允许管理人员根据特定的学习目标设置任务、监控进度和评估绩效——所有这些都在一个简单的仪表板中完成。以 250 美元/座/年的价格,您的团队将获得超过 350 个视频和 1200 个互动练习,总计超过 120 个小时的精彩内容,涵盖数据科学工作流程的每一步。与 Lynda.com 等其他网站相比,这是以 R 和 Python 为中心的数据科学内容的 5 倍多,而现场讲师和现场培训的成本只是其一小部分。我们的互动课程的完成率比传统的在线课程高出 6 倍,这意味着您的团队将积极参与并有动力完成培训。
Interested in learning more? Feel free to reach out at [email protected]
9 大电力 BI 仪表板示例
Power BI 是最受欢迎的商业智能工具之一。它允许从业者创建高度美观、可定制的可视化和仪表板(不需要编码技能),并直接与利益相关者共享。
作为微软的一款工具,Power BI 特别适合 Excel 用户,因为它具有相似的界面和与 Excel 的深度集成。此外,它为从业者提供了高级功能,允许他们转换和清理数据、大规模协作以及设置粒度访问权限。
尽管有这些出色的特性,Power BI 提供了最大的价值,它通过令人难以置信的仪表板功能,让组织和团队可以一目了然地查看他们关心的所有指标。在本文中,我们将通过展示涵盖各种主题的 Power BI 仪表盘的真实示例来展示 Power BI 的强大功能。
如果你对 Power BI vs Tableau 以及哪一个适合你感兴趣,请查看我们单独的指南。
是什么造就了一个强大的 BI 仪表板?
一个 Power BI 仪表盘不仅要美观,还要清晰实用。您可以从许多方面来评估 Power BI 仪表板。在我们关于设计仪表板的最佳实践的文章中,我们概述了在 Power BI(以及任何工具,事实上)中构建仪表板的最佳实践。以下是大功率 BI 仪表板的主要特征:
特定于受众的
不同的仪表板有不同的受众和不同的用途。运营仪表板监控业务运营的实时数据,并由运营团队(例如,营销团队)使用,而战略仪表板监控长期公司 okr 和 KPI,并由 C 级高管使用。伟大的仪表板总是首先考虑观众的需求。
简单而整洁
很容易把除了厨房水槽以外的所有东西都扔到仪表板上。任何创建仪表板的人都需要深入思考复杂性和有用性之间的权衡。因此,一定要确保仪表板尽可能提供最有用的信息,而不增加不必要的混乱。
使用网格布局
使用网格布局不仅有助于您在创建仪表板时提高工作效率,还能让受众进行无缝的旅程。根据 Tableau 的技术传道者和仪表盘大全的合著者 Andy cotgreve 的说法,人类天生习惯于从左向右和从上到下看东西。使用网格布局有助于您的受众导航仪表板。
美学很重要
最重要的是,仪表板应该是有用的。然而,仪表板的美观(或缺乏美观)会严重影响它的采用。一般来说,要确保你的仪表盘不会使用一种以上的字体,并且创造性地使用颜色来引导观众的消费之旅。
快速加载时间很重要
加载时间对几乎任何数字产品的采用都很重要,仪表盘也不例外。即使仪表板勾选了所有的框,如果等待时间很长,它也几乎不会被使用。最小化加载时间的一个好方法是消除混乱,确保数据转换存储在数据库的视图中,并在复杂和简单的可视化之间取得平衡。
现在我们已经有了最佳实践,下面是来自销售、金融、医疗保健等垂直行业的顶级 BI 仪表板示例。
Power BI 销售仪表板示例
1.电子商务销售仪表板
这种交互式仪表板旨在供在线零售商使用,并为他们提供对不同产品性能的高层次到精细的了解。它提供了总销售额的概览,能够展示年、季度和月增长率。此外,它允许任何人挖掘数据,了解表现最佳的产品、位置等。
2.超市销售仪表板
这是一个令人难以置信的简洁而全面的仪表板,允许对肯尼亚一家连锁超市的财务状况一目了然。它提供了三个报告,涵盖整体销售数据,并能够按产品类别、客户人口统计数据以及不同超市分支机构的员工成本和人数数据进行细分。
3.AdventureWorks 的销售仪表板
这个仪表板跟踪一家名为 AdventureWorks 的虚构自行车制造商的销售业绩。它提供了一段时间内总销售额和增长的概览,并能够按产品类别进行深入分析。此外,它还提供了不同年份和月份之间的出色比较功能,以及一个按地区划分的巨大销售地图。
Power BI 财务仪表板示例
1.全球股票市场仪表板
在疫情开始时,许多组织在实现复苏之前遭受了巨大的股票市场损失。这个仪表板提供了新冠肺炎第一年前 200 家公司(以股价表现衡量)的概览。它结合了简单的视觉效果和强大的过滤功能,展示了 Power BI 仪表盘在金融领域的实用性。
2.通货膨胀仪表板
“通货膨胀是衡量一个经济体中商品和服务价格上涨速度的指标。如果出现通货膨胀,导致食品等基本必需品价格上涨,就会对社会产生负面影响。”投资媒体
由于新冠肺炎和俄乌战争的影响,通胀从未像现在这样真实。该仪表板提供了不同国家的通货膨胀概况,以及其他经济指标,如进出口数据、GDP 规模等。
3.NCAA 足球财务仪表板
NCAA 代表国家大学体育协会,是一个管理美国和加拿大学生体育运动的组织。该仪表板突出显示了 NCAA 的财务状况,对总收入、总支出和总利润进行了高度概括。此外,它为观众提供了按会议和参与学校过滤这些数据的能力。
Power BI 医疗保健仪表板示例
1.新冠肺炎仪表板
可以说是过去十年最大的数据故事,新冠肺炎传播和影响是仪表板的一个主要例子。这个仪表板帮助观众了解新冠肺炎如何在各国传播,恢复和死亡率,详细的国家比较,等等。
2.POC EID 数据仪表板
护理点早期婴儿诊断(POC EID)数据仪表板旨在评估护理点早期艾滋病毒诊断对婴儿的影响。该项目涉及九个非洲国家:喀麦隆、科特迪瓦、肯尼亚、莱索托、莫桑比克、卢旺达、埃斯瓦蒂尼、赞比亚和津巴布韦。仪表板为观众提供了现场护理测试与传统方法相比的概览,可供医生和公共政策官员使用。
3.医院应急响应决策仪表板
该仪表板为医院管理员提供了医院当前运营和瓶颈的绝佳概览。它提供了床位占用、出院和工作人员可用性的概述,以及重要安全材料和产品的供应。除了这个概述之外,它还提供了更详细地钻取所有这些特定指标的能力。
借助 Power BI 成为数据分析师
本文向您展示了 Power BI 如何使任何人都能够构建极其丰富的仪表板,从而为任何消费者提供价值。Power BI 是推动组织内数据驱动决策的最重要工具之一,也是从业者最想学习的工具之一。
如果您有兴趣成为 Power BI 专家,请查看 Power BI 职业跟踪中的数据分析师,它涵盖了在 Power BI 中自信地制作仪表盘所需的所有知识。有关 Power BI 的更多信息,请查看以下资源:
GPT 入门指南-3
原文:https://web.archive.org/web/20221129041532/https://www.datacamp.com/blog/a-beginners-guide-to-gpt-3
自然语言处理(NLP)是语言学、计算机科学、人工智能和信息工程的一个子领域,涉及计算机和人类(自然)语言之间的交互,特别是如何对计算机进行编程以处理和分析大量自然语言数据。
听起来很有趣?如果我们告诉你,我们让一种叫做 GPT-3 的算法来写这整段文字,它第一次就写完了,你会怎么说?我们不是在开玩笑!看看这个…
行动中的 GPT 三号
很神奇,对吧?!那么回到 NLP。它使计算机能够以文本或语音数据的形式处理人类语言,并“理解”其全部含义,包括说话者或作者的意图和情感。在过去的十年里,NLP 作为一个领域已经成为一些最令人兴奋的人工智能发现和实现的场所。在过去的几年中,在这个领域中可以看到的最激动人心和最多产的趋势是大型语言模型,GPT-3 模型就是其中之一。
GPT-3 被一些人认为是探索人工智能的第一步。它比其他任何人工智能模型都更受关注。它在以接近人类的效率和准确性执行一系列一般性任务方面的纯粹灵活性是它如此令人兴奋的原因。它以 API 的形式发布,旨在让数据科学家、开发人员以及世界各地各行各业的人们前所未有地接触到世界上最强大的语言模型之一。
该模型由人工智能研发前沿公司 OpenAI 创建。自 2020 年 7 月首次发布以来,世界各地的开发者已经为 GPT 3 找到了数百个令人兴奋的应用,这些应用有可能提升我们沟通、学习和娱乐的方式。它能够轻松解决一般的基于语言的任务,并可以在不同的文本风格和目的之间自由移动。
在 GPT-3 之前,语言模型被设计来执行一个特定的 NLP 任务,例如文本生成、摘要或分类。GPT-3 是自然语言处理历史上第一个通用语言模型,可以在一系列 NLP 任务中表现同样出色。GPT-3 代表“生成性预训练变压器”,这是 OpenAI 的第三次迭代模型。让我们来分解这三个术语:
- 生成式:生成式模型是一种统计模型,用于生成新的数据点。这些模型学习数据集中变量之间的潜在关系,以便生成与数据集中的数据点相似的新数据点。
- 预训练:预训练模型是已经在大型数据集上训练过的模型。这使得它们可以用于很难从头开始训练模型的任务。一个预先训练好的模型可能不是 100%准确,但是它可以让你避免重新发明轮子,节省时间,提高性能。
- 变压器:变压器模型是 2017 年发明的著名人工神经网络。这是一个深度学习模型,旨在处理序列数据,如文本。Transformer 模型通常用于机器翻译和文本分类等任务。
在下一节中,我们将着眼于语言模型的更广泛的背景——它们是什么,它们如何工作,以及它们的用途。
什么是大型语言模型?
近年来,围绕构建大型语言模型(LLM ),自然语言处理(NLP)领域出现了巨大的兴趣。经过大量文本训练的 LLM 可以用于各种基于语言的任务,包括文本生成、机器翻译和问题回答。
语言建模是使用概率来理解给定语言中的句子是如何组合在一起的任务。简单的语言模型可以查看一个单词,并根据现有文本序列的统计分析,预测最有可能跟随它的下一个单词(或多个单词)。例如,句子“我喜欢走我的……”更有可能以“狗”结尾,而不是“冰箱”。用大量数据训练语言模型以使其准确预测单词序列是很重要的。
LLM 可以被认为是统计预测机器,输入文本,输出预测。您可能从手机的自动完成功能中对此很熟悉。例如,如果您键入“good”,自动完成功能可能会给出类似“morning”或“luck”的建议自动完成等自然语言处理应用程序非常依赖语言模型。
虽然语言模型已经存在很长时间了,但是直到最近它们才变得如此成功。这是由于许多因素,包括大量训练数据的可用性,更好的训练算法的开发,以及使用 GPU 来加速训练。有了更多的数据,模型可以了解更多关于单词和使用它们的上下文之间的关系。这使得模型能够更好地理解文本的含义,并生成更准确的预测。
LLM 的成功是因为它们能够捕捉文本中单词之间的依赖关系。例如,在句子“猫坐在垫子上”,单词“猫”依赖于单词“the”,单词“mat”依赖于单词“on”在大型语言模型中,这些依赖关系在模型的参数中被捕获。尽管大型语言模型已经变得更加先进,但是它们使用的参数数量已经爆炸式增长,正如您在微软研究院发布的下图中所看到的。
最先进的自然语言处理模型的大小在对数标度上随时间变化的趋势
来源:微软研究博客【2021 年 10 月 11 日的帖子
大型语言模型的预训练需要大量的计算,这是能量密集型的。对这些模型日益增长的需求需要越来越多的计算资源。这带来了巨大的环境成本,例如不可持续的能源使用和碳排放。
在 2019 年的一项研究中,麻省大学的研究人员估计,训练一个大型深度学习模型会产生 62.6 万磅导致地球变暖的二氧化碳,相当于五辆汽车一生的排放量。随着模型变得越来越大,他们的计算需求超过了硬件效率的提高。一项 2021 年的研究估计,GPT-3 的训练产生了大约 552 公吨的二氧化碳。这大约是 120 辆汽车一年的行驶量。
然而,2019 年的绿色人工智能论文指出,“公开发布预训练模型的趋势是一种绿色成功”,作者鼓励组织“继续发布他们的模型,以节省其他人重新培训他们的成本。”OpenAI 等发布预训练大型语言模型的公司正在不断研发技术,以减少训练模型的碳足迹。
GPT-3 在执行各种 NLP 任务时高度准确,这是因为它所训练的数据集规模巨大,其庞大的架构包含 1750 亿个参数,这使它能够理解这些数据中的逻辑关系。GPT-3 在来自五个大数据集的文本语料库上进行预训练,这五个大数据集包括 Common Crawl、WebText2、Books1、Books2 和 Wikipedia。这个语料库总共包括近一万亿个单词,允许 GPT-3 在零射击设置下,或者在不提供任何示例数据的情况下,成功地执行数量惊人的 NLP 任务。
在下一节中,我们将探索 transformers,这是一个著名的架构使能模型,它席卷了语言建模领域,并改变了 NLP 空间中可能的定义。
什么是变形金刚模型?
转换器是一种神经网络体系结构,特别适合于语言建模任务。它最早是在 2017 年的论文《注意力是你所需要的全部》中介绍的。该论文将变压器解释为一种神经网络架构,旨在高效执行序列到序列任务,同时轻松处理长期依赖性。Transformer 模型已经迅速成为自然语言处理任务的首选架构,目前主导着 NLP 领域。
序列到序列是一种机制,是转换器模型的主干。也称为 Seq2Seq,该体系结构将给定的元素序列(如句子中的单词)转换为另一个序列(如不同语言的句子),这使得该体系结构特别适合翻译任务。谷歌翻译在 2016 年末开始在生产中使用类似的架构。
来源:“图解变形金刚”博客帖子作者杰伊·阿拉玛
Seq2Seq 模型由两部分组成:编码器和解码器。编码器和解码器可以被认为是只会说两种语言的人类翻译者。各有不同的母语;对于我们的例子,我们说编码器是一个母语为汉语的人,解码器是一个母语为英语的人。两者有共同的第二语言;假设是日本的。为了将中文翻译成英文,编码器将中文句子转换成日文。被称为上下文的日语句子被传递给解码器。由于解码器理解日语,并能够阅读该语言,它现在可以从日语翻译成英语。
transformer 架构的另一个关键组件是一种称为“注意”的机制。这是一种模仿认知注意力的技术。认知注意力是一种反映我们大脑如何关注句子重要部分的技术,有助于我们理解句子的整体意思。例如,当你在读这个句子时,你总是专注于你正在读的单词,但同时,你的记忆保存着这个句子最重要的关键词来提供上下文。
注意机制一段一段地查看输入序列,并在每一步决定序列的哪些其他部分是重要的。这有助于转换器过滤噪音,并通过连接本身没有任何明显的相互指向标记的相关单词来关注相关的内容。
变压器模型受益于更大的架构和更大量的数据。这使得它们比任何其他类型的神经网络都更好地理解句子中单词的上下文,这解释了它们对机器学习领域的主要影响。随着它们的不断发展,它们可能会在未来几年产生更大的影响,您可以通过几个简单的步骤开始尝试 LLM。
GPT 入门-3
导航 OpenAI API
尽管 GPT-3 可以说是世界上最复杂的语言模型之一,但它的功能可以通过一个简单的“文本输入文本输出”用户界面来访问。开始使用 GPT 3 的第一件事是访问 OpenAI API。你可以在这里申请,几分钟后,你的账户就会建立起来。
一旦你获得了 OpenAI 开发者账户,我们将会看到 Playground,这是一个基于网络的私人沙盒环境,允许你试验 API 并了解其不同组件如何协同工作。
open ai API 的组件
以下是不同 API 组件及其功能的概述:
- 执行引擎:决定执行使用的语言模型。选择正确的引擎是决定您的型号性能的关键,从而获得正确的输出。
- 响应长度:响应长度限制了 API 在完成时包含多少文本。因为 OpenAI 按每个 API 调用生成的文本长度收费,所以响应长度对于预算有限的人来说是一个至关重要的参数。响应长度越长,成本越高。
- 温度: 温度控制响应的随机性,表示为 0 到 1 的范围。较低的温度值意味着 API 会用模型看到的第一样东西来响应;较高的值意味着模型在得出结果之前会评估可能符合上下文的可能响应。
- Top P: Top P 控制模型应考虑完成多少随机结果,如温度刻度盘所建议的,从而确定随机性的范围。Top P 的范围是从 0 到 1。较低的值限制了创造力,而较高的值扩大了视野。
- 频率和存在惩罚: 频率惩罚通过“惩罚”模型来降低模型逐字重复同一行的可能性。在场惩罚增加了谈论新话题的可能性。
- 最佳: 此参数允许您指定要在服务器端生成的完成数(n)并返回“n”个完成中的最佳者。
- 停止序列: 停止序列是一组字符,指示 API 停止生成完成。
- 注入开始&重启文本: 注入开始文本和注入重启文本参数允许你分别在完成的开始或结束插入文本。
- Show Probabilities: 该选项允许您通过显示模型可以为给定输入生成的标记的概率来调试文本提示。
OpenAI API 提供了四种不同的执行引擎,它们在使用的参数数量、性能和价格上有所不同。主要的发动机按其能力和大小由大到小依次是阿达(以阿达·洛芙莱斯命名)、巴贝奇(以查尔斯·巴贝奇命名)、居里(以玛丽·居里夫人命名)和达芬奇(以列奥纳多·达·芬奇命名)。
基于上述四个主要模型,OpenAI 推出了一系列名为 InstructGPT 的改进模型,这些模型更好地理解指令,并根据您的需求产生特定的输出。你所要做的就是告诉模型你想要它做什么,它就会尽最大努力完成你的指令。向 GPT-3 模型提供指令的过程称为快速工程。
快速工程
GPT 3 号被设计成任务不可知的。这意味着,给定特定的训练提示,它可能执行任意数量的任务。创造人工智能解决方案从来都不容易,但有了 GPT-3,你所需要的只是用简单的英语给出一个合理的培训提示。
来源:安德烈·卡帕西2020 年 6 月 18 日发推文
创建 GPT-3 应用程序时,首先要考虑的是培训提示的设计和内容。提示设计是启动 GPT-3 模型以给出有利的上下文响应的最重要的过程。
提示是您给模型的文本输入,以便它生成您想要的输出。设计一个好的提示就是在文本输入中给模型足够的任务上下文。GPT-3 查看输入,并尝试用它认为最好的文本来完成输入。
在某种程度上,提示设计就像在玩猜字谜游戏!
写好提示的秘诀是理解 GPT 3 号对世界的了解,以及如何让模型使用这些信息产生有用的结果。在猜字谜游戏中,我们的目标是给玩家提供足够的信息,让他们利用自己的智力猜出正确的单词。同样,我们必须以训练提示的形式给 GPT-3 足够的上下文,以便模型找出模式并执行任务。我们不想因为信息过载而中断模型的自然智能流,但是给它的信息太少会导致不准确的结果。
作为一个经验法则,当设计训练提示时,你的目标应该是从模型中获得零射击响应。如果这是不可能的,那就举几个例子,而不是提供一个完整的语料库。培训提示设计的标准流程应该是这样的:
零镜头→少量镜头→基于语料库的启动
如果在您的文本输入中,模型看到字母“Q”和一个问题,它将尝试写一个响应,但不一定是您期望的响应。如果没有足够的上下文,它可能会假设你正在写一个问题和错误答案的列表。如果你想得到最好的答案,你需要让 GPT-3 知道提供什么样的答案。
代替要求 GPT-3 完成该输入:
Q:
A:
我们第一次完成的是:
Q:
A:
Q:
A:
通过使用这样的提示(或一些变体,取决于您希望模型生成什么类型的问题),您将大大改进您的问题输出:
Write a few trivia questions.
Q:
A:
在第一次尝试中我们得到了下面的完成:
What is the name of the longest river in Africa?
The Nile
What are the top 5 most spoken languages in the world?
Mandarin, Spanish, English, Hindi, Arabic
像上面这样简单的指令足以让 GPT-3 明白,它需要给出更符合你所寻找的答案;这种情况下,几个鸡毛蒜皮的问题。你也可以用“事实答案:”这样的短语代替“A:”来改善结果。
Write a few trivia questions.
Question:
Factual answer:
对于这个输入,我们得到了以下完成:
1\. What is the world’s largest desert?
The Sahara desert.
2\. What is the world’s deepest Ocean?
The Pacific Ocean.
GPT 3 沙盒-将 OpenAI API 与 Python 结合使用
在这一节中,我们将带您浏览 GPT 3 沙盒,这是一个开源工具,只需几行 Python 代码就能把您的想法变成现实。我们将向您展示如何使用它,以及如何为您的特定应用定制它。这个沙盒的目标是让你能够创建很酷的 web 应用程序,不管你的技术背景如何。
跟随这个交互式的视频系列一步一步地了解如何创建和部署 GPT-3 应用程序。要使用 GPT-3 沙盒,您需要以下技术支持:
- Python 3.7+版本
- 一个 IDE,比如 VS 代码
通过在 IDE 中打开一个新的终端并使用以下命令,从这个存储库中克隆代码:
git clone https://github.com/Shubhamsaboo/kairos_gpt3
代码中已经包含了创建和部署 web 应用程序所需的一切。您只需要调整一些文件来为您的特定用例定制沙盒。现在,创建一个 Python 虚拟环境开始。创建虚拟环境后,您可以使用以下命令安装所需的依赖项:
pip install -r requirements.txt
现在你可以开始定制沙盒代码了。您需要查看的第一个文件是training_data.py
。打开该文件,用您想要使用的训练提示替换默认提示。你可以使用 GPT-3 游乐场来试验不同的训练提示(见本书第二章中的和下面的视频中关于定制沙箱的更多信息)。
现在您已经准备好调整 API 参数(Maximum tokens
、Execution Engine
、Temperature
、Top-p
、Frequency Penalty
、Stop Sequence
)。我们建议在操场上为给定的训练提示试验不同的 API 参数值,以确定哪些值最适合您的用例。一旦你得到满意的结果,你就可以改变training_service.py
文件中的值。
就是这样!您的基于 GPT-3 的 web 应用程序现在已经准备好了。您可以使用以下命令在本地运行它:
streamlit run gpt_app.py
您可以使用 Streamlit sharing 来部署应用程序并将其分享给更广泛的受众。跟随这个视频获得部署应用程序的完整演练。
你能用 GPT 3 号建造什么?
在 GPT-3 发布之前,大多数人与 AI 的交互仅限于某些特定的任务,比如让 Alexa 播放你最喜欢的歌曲,或者使用谷歌翻译用不同的语言进行交谈。随着 LLM 的发展,我们正面临着一个重大的范式转变。LLM 向我们展示了通过增加模型的大小,人工智能应用程序可以执行类似于人类的创造性和复杂的任务。
通过用正确的技术激发创意企业家的想象力,GPT-3 正在推动下一波创业浪潮。OpenAI 发布 API 后不久,初创公司纷纷用它来解决问题。让我们来探索这个动态的生态系统,看看一些在创意艺术、数据分析、聊天机器人、文案和开发工具等领域使用 GPT-3 作为其产品核心的顶级初创公司。
1.GPT 3 的创意应用:寓言工作室
GPT 3 最令人兴奋的功能之一是讲故事。你可以给模特一个题目,让它在零镜头的设定下写一个故事。这种可能性让作家扩展他们的想象力,创作出非凡的作品。例如,由詹妮弗·唐(Jennifer Tang)执导、奇农耶雷姆·奥丁巴(Chinonyerem Odimba)和尼娜·西格尔(Nina Segal)合作开发的话剧《AI 》描述了在 GPT 3 号的帮助下,人类和计算机之间的独特合作。
寓言工作室是一家利用该模型的创造性讲故事能力的公司。他们将尼尔·盖曼和戴夫·马卡基的儿童读物《墙里的狼》改编成了获得艾美奖的虚拟现实电影体验。由于 GPT-3 生成的对话,电影主角露西可以与人进行自然对话。该公司认为,随着该模型的不断迭代,有可能开发出一种像最好的人类作家一样熟练和有创造力的人工智能讲故事者。
2.GPT-3 的数据分析应用:可行的
available是一款反馈汇总工具,可识别调查、服务台票证、实时聊天日志和客户评论中的主题、情绪和观点。然后,它会在几秒钟内提供结果摘要。例如,如果被问及“我们的顾客在结账体验中遇到了什么困难?”可行的回答可能是:“顾客对结账流程感到失望,因为加载时间太长。他们还想在结账时编辑自己的地址,并保存多种支付方式。”
正如你对客户反馈专家的期望一样,在软件生成的每个答案旁边,都有拇指向上和拇指向下的按钮。他们在再培训中使用这种反馈。人类也是这一过程的一部分:Viable 有一个注释团队,其成员负责建立训练数据集,既用于内部模型,也用于 GPT-3 微调。他们使用微调模型的当前迭代来生成输出,然后人类对其质量进行评估。如果输出没有意义或者不准确,他们就重写它。一旦他们有了满意的输出列表,他们会将该列表反馈到训练数据集的下一次迭代中。
3.GPT 的聊天机器人应用-3:快速聊天
Emerson AI 是该公司 Quickchat 的聊天机器人角色,以其一般的世界知识、多语言支持和进行对话的能力而闻名。艾默生人工智能用于展示 GPT-3 驱动的聊天机器人的能力,并鼓励用户与 Quickchat 合作,为他们的公司实现这样的角色。Quickchat 的产品是一个通用的对话式人工智能,可以谈论任何主题。客户可以通过添加特定于其产品的额外信息来自定义聊天机器人。Quickchat 已经出现了各种各样的应用,例如自动化客户支持和实现人工智能角色来帮助用户搜索公司内部知识库。
与典型的聊天机器人服务提供商不同,Quickchat 不构建任何对话树或僵化的场景,也不需要教会聊天机器人以给定的方式回答问题。相反,客户遵循一个简单的过程:你复制粘贴包含你希望你的人工智能使用的所有信息的文本,然后点击重新训练按钮,这需要几秒钟来吸收知识,就是这样。现在,聊天机器人已经对你的数据进行了训练,可以进行测试对话了。
4.GPT-3 的营销应用:Copysmith
GPT-3 最受欢迎的应用之一是即时生成创意内容。Copysmith 就是内容生成平台的一个例子。它使用 GPT-3 生成提示,然后将其转化为电子商务业务的文本。GPT-3 似乎在营销领域大放异彩,它有助于以闪电般的速度生成、合作和推出优质内容。由于这种模式,在线中小型企业可以编写更好的行动号召和产品描述,并提升其营销游戏的水平。
5.GPT 3 的编码应用:速记
OpenAI 社区大使 Bram Adams 创建了 Stenograph y,这是一个使用 GPT-3 和 Codex 来自动化编写代码文档过程的程序。
速记一炮而红,成为 ProductHunt 上的头号产品。Adams 认为文档是人们联系团队中的其他人、未来的自己或者只是偶然发现 GitHub 上的开发项目的感兴趣的人的一种方式。速记的目标是使一个项目能被其他人理解。
要了解更多关于崛起的 GPT-3 生态系统的信息,请查看我们即将出版的奥赖利图书的第章第 4 章 (GPT-3 作为新一代创业公司的发射台)和第章第 5 章 (GPT-3 针对企业)。
结论
- GPT-3 标志着人工智能历史上的一个重要里程碑。这也是一个更大的 LLM 趋势的一部分,它将在未来继续向前发展。提供 API 访问的革命性步骤创造了新的模型即服务业务模型。
- GPT-3 基于通用语言的能力为构建创新产品打开了大门。它尤其擅长解决诸如文本生成、文本摘要、分类和对话等任务。
- 有许多成功的公司很大程度上或完全建立在 GPT-3 的基础上。我们最喜欢的用例是创造性的讲故事、数据分析、聊天机器人、营销文案和开发工具。
Shubham Saboo 在全球知名公司担任过从数据科学家到人工智能传播者的多重角色。他作为人工智能传播者的工作使他建立了社区,接触到更广泛的受众,以促进新兴人工智能领域的想法和思想交流。作为他学习新事物和与社区分享知识的热情的一部分,他写关于人工智能进步及其经济影响的技术博客。他是《GPT-3:使用大型语言模型构建创新的自然语言处理产品》的合著者。
Sandra 是一名作家、福音传道者、社区建设者,也是人工智能主题的积极发言人,尤其是 GPT-3、无代码和合成媒体。她运营着一个 YouTube 频道,采访生态系统的利益相关者,讨论开创性的人工智能趋势。你可以看看她的书, GPT-3:用大型语言模型构建 NLP 产品。
环境变量数据科学家指南
你可能遇到过一个软件要求你允许修改你的PATH
变量,或者另一个程序的安装说明隐晦地告诉你必须“正确设置你的LD_LIBRARY_PATH
变量”。
作为一名数据科学家,在与您的计算堆栈交互时,您可能会遇到其他环境变量问题(尤其是如果您不能像我一样完全控制它的话)。这篇文章旨在揭示什么是环境变量,以及它如何在数据科学环境中使用。
什么是环境变量?
首先,让我通过深入研究PATH
环境变量来解释什么是环境变量。我鼓励您在 bash 终端中执行这里的命令(做适当的修改——阅读文本以了解我在做什么!).
当您登录到您的计算机系统时,比方说,通过 SSH 登录到您的本地计算机终端或您的远程服务器,您的 bash 解释器需要知道在哪里寻找特定的程序,比如nano
(文本编辑器),或者git
(您的版本控制软件),或者您的 Python 可执行文件。这是由 PATH 变量控制的。它指定了可执行程序所在文件夹的路径。
按照历史惯例,命令行程序,比如nano
、which
、top
,都在/usr/bin
目录下。(按照历史惯例,/bin
文件夹是存放软件二进制文件的,这就是它们被命名为/bin
的原因。)这些是与您的操作系统捆绑在一起的,因此需要特殊权限才能升级。
在您的终端中尝试一下:
$ which which
/usr/bin/which
$ which top
/usr/bin/top
其他程序(无论什么原因)被安装到/bin
中。ls
就是一个例子:
$ which ls
/bin/ls
还有一些程序可能安装在其他特殊目录中:
$ which nano
/usr/local/bin/nano
您的 Bash 终端如何知道去哪里寻找东西呢?它使用了PATH
环境变量。它看起来像这样:
$ echo $PATH
/usr/bin:/bin:/usr/local/bin
关于PATH
变量,要记住的最重要的事情是它是“冒号分隔的”。也就是说,每个目录路径由下一个使用“冒号”(:
)字符分隔。bash 终端查找程序的顺序是从左到右的:
/usr/bin
/bin
/usr/local/bin
在我的特定计算机上,当我输入ls
时,我的 bash 解释器将首先查看/usr/bin
目录。它会发现ls
在/usr/bin
中不存在,因此它会移动到下一个目录/bin
。由于我的ls
存在于/bin
下,它将从那里执行ls
程序。
你可以看到,这对于定制你的计算环境来说是非常灵活的,但是如果一个程序在你不知道的情况下修改了你的PATH
变量,这也是非常令人沮丧的。
等等,你真的可以修改你的PATH
变量?是的,有几种方法可以做到这一点。
如何修改PATH
变量
使用 Bash 会话
第一种方式是暂时的,只发生在特定的 bash 会话中。通过将文件夹“预先挂起”到PATH
变量,可以使文件夹具有比现有路径更高的优先级:
$ export PATH=/path/to/my/folder:$PATH
$ echo $PATH
/path/to/my/folder:/usr/bin:/bin:/usr/local/bin
或者,我可以通过将它“附加”到PATH
变量,使它具有比现有路径更低的优先级:
$ export PATH=$PATH:/path/to/my/folder
$ echo $PATH
/usr/bin:/bin:/usr/local/bin:/path/to/my/folder
这是暂时的,因为我只在当前的 bash 会话中导出它。
bashrc
或.bash_profile
文件
如果我想让我的更改更加永久,那么我会在我的.bashrc
或.bash_profile
文件中包含。(我推荐使用.bashrc
文件。)该.bashrc
/ .bash_profile
文件位于您的主目录中(您的$HOME
环境变量指定了这一点),并且是您的 bash 解释器将在第一次加载时执行的文件。它将执行里面的所有命令。这意味着,您可以通过简单地在您的.bashrc
中放入:
...other stuff above...
# Make /path/to/folder have higher priority
export PATH=/path/to/folder:$PATH
# Make /path/to/other/folder have lower priority
export PATH=$PATH:/path/to/folder
...other stuff below...
数据科学和PATH
环境变量
现在,这与数据科学家有什么关系?好吧,如果你是一名数据科学家,你很可能使用 Python,并且你的 Python 解释器来自 Anaconda Python 发行版(这是一个非常棒的东西,去得到它吧!).Anaconda Python 安装程序所做的是在PATH
环境变量中优先考虑/path/to/anaconda/bin
文件夹。您的系统上可能安装了其他 Python 解释器(即 Apple 自带的解释器)。然而,这个PATH
修改确保了每次在 Bash 终端中键入python
时,都会执行 Anaconda Python 发行版附带的 Python 解释器。在我的例子中,安装了 Anaconda Python 发行版后,我的PATH
看起来像这样:
$ echo $PATH
/Users/ericmjl/anaconda/bin:/usr/bin:/bin:/usr/local/bin
更好的是,conda 环境所做的是在环境被激活时预先考虑到 conda 环境二进制文件夹的路径。例如,对于我的博客,我将它保存在一个名为lektor
的环境中。因此...
$ echo $PATH
/Users/ericmjl/anaconda/bin:/usr/bin:/bin:/usr/local/bin
$ which python
/Users/ericmjl/anaconda/bin/python
$ source activate lektor
$ echo $PATH
/Users/ericmjl/anaconda/envs/lektor/bin:/Users/ericmjl/anaconda/bin:/usr/bin:/bin:/usr/local/bin
$ which python
/Users/ericmjl/anaconda/envs/lektor/bin/python
注意 bash 终端现在如何优先选择优先级更高的lektor
环境中的 Python。
如果你已经到了这一步,那么你将有希望意识到这里列出了一些重要的概念。让我们回顾一下:
PATH
是一个存储为纯文本字符串的环境变量,bash 解释器使用它来确定在哪里可以找到可执行程序。PATH
是冒号分隔的;优先级较高的目录位于字符串的左侧,而优先级较低的目录位于字符串的右侧。PATH
可以通过在环境变量前添加或附加目录来修改。它可以通过在命令提示符下运行export
命令在 bash 会话中暂时完成,也可以通过在.bashrc
或.bash_profile
中添加一个export
行在 bash 会话中永久完成。
其他感兴趣的环境变量
现在,数据科学家可能会遇到哪些其他环境变量?这些是您可能会看到并且可能必须修复的示例,尤其是在您的系统管理员外出度假(或者需要很长时间才能响应)的情况下。
对于一般用途的,你肯定想知道你的HOME
文件夹在哪里——在 Linux 系统上,通常是/home/username
,而在 macOS 系统上,通常是/Users/username
。您可以通过以下操作来弄清楚HOME
是什么:
$ echo $HOME
/Users/ericmjl
如果你是 Python 用户,那么PYTHONPATH
是一个可能有用的变量。它由 Python 解释器使用,并指定在哪里可以找到 Python 模块/包。
如果你必须处理 C++库,那么了解你的LD_LIBRARY_PATH
环境变量将会非常重要。我在这方面还不够精通,不能明智地支持它,所以我会遵从这个网站关于使用LD_LIBRARY_PATH
变量的最佳实践的更多信息。
如果你正在使用 Spark ,那么PYSPARK_PYTHON
环境变量将会是你感兴趣的。这实际上是告诉 Spark 为其驱动程序和工作程序使用哪种 Python 如果需要,您还可以将PYSPARK_DRIVER_PYTHON
设置为独立于PYSPARK_PYTHON
环境变量。
破解您的环境变量
这是最有趣的地方!通过修改环境变量,你可以做一些事情。
黑客#1:访问 PyPy。我偶尔会关注 PyPy 的开发,但是因为 PyPy 还不是默认的 Python 解释器,并且还不具备conda install
能力,所以我不得不把它放在自己的$HOME/pypy/bin
目录中。为了能够访问 PyPy 解释器,我必须确保我的/path/to/pypy
出现在PATH
环境变量中,但是优先级比我的常规 CPython 解释器低。
黑客#2:允许访问其他语言解释器/编译器。这类似于 PyPy。我曾经尝试使用 Lua 的 JIT 解释器来使用 Torch 进行深度学习,并需要在我的.bashrc
中添加一个路径。
黑客#3:将 Python 包安装到您的主目录。在使用modules
系统而不是conda
环境的共享 Linux 计算系统上,您加载的modulefile
可能配置有一个虚拟环境,而您没有权限修改该虚拟环境。如果需要安装 Python 包,可能要pip install --user my_pkg_name
。这将把它安装到$HOME/.local/lib/python-[version]/site-packages/
。在这种情况下,确保您的PYTHONPATH
包含足够高优先级的$HOME/.local/lib/python-[version]/site-packages
将非常重要。
黑客 4:出错时调试。如果出现了错误,或者您有了意外的行为——我以前遇到过的情况是在加载了我所有的 Linux 模块之后,我的 Python 解释器没有被正确地找到——那么调试的一种方法是临时将您的 PATH 环境变量设置为一些合理的“默认值”,并找到这些值,有效地“重置”您的 PATH 变量,以便您可以在调试时手动预先计划/附加。
为此,将下面一行代码放在主目录中名为.path_default
的文件中:
export PATH="" # resets PATH to an empty string.
export PATH=/usr/bin:/bin:/usr/local/bin:$PATH # this is a sensible default; customize as needed.
出现问题后,可以使用“source”命令重置 PATH 环境变量:
$ echo $PATH
/some/complicated/path:/more/complicated/paths:/really/complicated/paths
$ source ~/.path_default
$ echo $PATH
/usr/bin:/bin:/usr/local/bin
注意——您也可以在 bash 会话中执行完全相同的命令;交互性可能也是有帮助的。
结论
我希望您喜欢这篇文章,并且每当您遇到这些环境变量时,它将为您提供一条前进的道路!
赢得数据科学面试
Kevin Huo 目前是一家对冲基金的数据科学家,之前是脸书的数据科学家,为脸书集团工作。他拥有宾夕法尼亚大学的计算机科学学位和沃顿商学院的商学学位。大学期间,他在华尔街、脸书和彭博实习。他也是关于使用 Python 中的机器学习预测点击率的 DataCamp 课程的作者。
Nick Singh 的职业生涯始于 Facebooks 增长团队的软件工程师,最近在位置分析初创公司 SafeGraph 工作。他毕业于弗吉尼亚大学,获得系统工程学位,辅修计算机科学和应用数学。大学期间,他在微软实习,并在谷歌 Nest 实验室的数据基础设施团队工作。他是《直面数据科学采访》的合著者。
Adel 是 DataCamp 的一名数据科学教育家、演讲者和布道者,他在 Data camp 发布了关于数据分析、机器学习和数据工程的各种课程和现场培训。他热衷于在整个组织和技术与社会的交叉点传播数据技能和数据素养。他拥有数据科学和商业分析理学硕士学位。在他空闲的时候,你可以发现他和他的猫路易斯在一起。
使用 IPTOP 实现组织数据流畅
从为自动驾驶汽车提供动力到征服围棋比赛,组织通过数据科学使以前不可能的任务成为可能而占据了头条新闻。因此,很容易忽视隐藏的数据科学革命,即公司越来越多地将目前可能的东西广泛传播。换句话说,更多的公司正在努力实现更强的组织数据流畅度。据 DataCamp 产品研究副总裁 Ramnath Vaidyanathan 称,一个组织实现数据流畅的途径取决于五个关键支柱:基础设施、人员、工具、组织和流程(IPTOP)。在上个月的网络研讨会上,他分享了一个数据流畅性框架,任何组织都可以使用该框架来提高数据成熟度,从数据反应到数据扩展、数据渐进和数据流畅性。
为了摆脱数据反应,建立一种数据文化
数据反应型公司处于数据成熟度阶梯的最底层。这样的公司很少访问、使用和展示数据,导致了数据文化的缺失。它使用不同的传统工具来收集孤岛中的数据,并执行特定的数据流程。此外,它没有投资于数据提升战略,以在内部和数据基础架构中培养数据人才。通过构建数据文化和数据基础设施,公司可以在组织数据素养方面取得进步,从数据反应到数据扩展。为了灌输这样一种数据文化,公司应该强烈考虑追求唾手可得的成果,让利益相关者看到数据素养的价值。其中包括概念验证仪表板和客户流失建模等分析项目。该公司还可以开始开发其数据架构和数据收集流程。
使用适当的基础架构和组织模型来脱离数据扩展
与数据反应型公司不同,数据扩展型公司有某种形式的数据战略和文化。但是它的缺点仍然很明显。It 部门很少有员工拥有必要的技能和权限来自信地分析、报告和展示数据,这导致了薄弱的数据文化。此外,它缺乏集中的数据存储和团队,导致高度孤立的数据集和数据流程。
考虑到这些缺点,数据扩展公司必须提高其组织数据素养。为此,it 必须通过处理其数据基础架构和构建集中式数据存储来支持数据访问。这种数据基础设施允许将高质量的数据存储在云中,并方便所有利益相关者访问。通过适当的数据存储和访问,员工能够制定数据质量标准。例如,DataCamp 将其数据存储在基于云的集中式数据仓库 Amazon Redshift 中,并使用 Apache Airflow 管理数据管道。这标志着脱离了难以协调的孤立数据,并为单一的真相来源铺平了道路。
DataCamp 集中式数据存储的简化视图
作为数据成熟的一部分,数据扩展公司还必须为数据科学家开发一个清晰的组织模型。一些公司选择开发一个以数据科学团队为特征的集中式模型,该模型充当卓越中心,处理来自财务、营销和工程等各种职能部门的请求。其他人决定采用分散模型,数据科学家嵌入到功能中,专门处理该功能的数据需求。公司应该采用最适合其数据和业务需求的模型。
从使用数据工具和流程的数据渐进过渡
该公司在数据流畅道路上的下一个里程碑是数据进步的状态。在 data progressive 公司中,每个团队至少有一名 data fluent 员工可以分析、报告和展示他们的数据。然而,由于数据基础设施日趋成熟,在数据质量和可发现性方面仍有改进的余地。此外,尽管该公司的员工具备一定程度的数据素养,但其数据几乎只用于报告,因此未得到充分利用。由于难以获得数据工具和数据流程,数据缺乏民主化,这进一步抑制了数据的价值。
为了从数据渐进状态推进到数据流畅状态,组织应考虑根据 IPTOP 数据流畅框架同时开发其数据基础架构、人员、工具、组织和流程。
为了过渡到数据流畅,公司可以通过为员工开发和投资适当的技能提升策略来强化其数据文化。这包括持续的数据教育,以迎合不同的数据角色和公司的业务目标。例如,& T 公司的在 10 年内投资了 14 万美元来提升员工的技能。通过激励数据驱动的行为和奖励积极推动公司数据文化的数据传播者,公司将从更强大的数据文化中受益。
公司还可以构建内部数据产品,将数据流程作为其数据素养计划的一部分。这些数据产品可用于提高数据质量标准和监控业务目标。例如,DataCamp 有内部框架,允许涉众用最少的代码创建业务指标的可视化演示。
使用内部框架轻松开发 DataCamp 仪表盘
随着公司在组织数据素养方面的进步,它往往会转向混合模式,在这种模式下,数据科学家不仅属于集中式数据团队,还属于职能团队。这使得数据科学团队能够构建和共享符合职能业务目标的数据工具。
实现数据流畅要求组织将数据作为其流程不可或缺的一部分。这种过程减少了从数据中提取价值的摩擦,并使组织内的数据民主化。例如, AirBnb 的数据质量计划在整个公司范围内定义并强制执行数据集的质量,这反过来建立了利益相关者对数据的信任,并加强了数据文化。网飞通过为不同的目标人物角色定制笔记本模板,使利益相关者能够无缝地创建高效的笔记本。
使用 IPTOP 框架使数据变得流畅
最后,数据流畅性是一个公司理想的数据成熟度状态。在数据流畅的公司中,每个员工都有能力访问和理解他们工作所需的数据。可靠的数据基础设施和工具使他们能够无缝地做出数据驱动的决策。更好的是,该公司的数据流程和组织模型支持跨部门协作高效扩展。
显然,一个组织实现数据流畅的途径不是线性的。这需要明确的数据策略和强大的数据素养框架。下图总结了组织使用 IPTOP 框架将其数据读写能力从数据反应式迁移到数据流畅式时应采取的步骤。
有关扩展数据成熟度的更多信息,敬请关注我们的网络研讨会。
艾伦·图灵:生活与遗产
你可能会通过各种方式听到艾伦·图灵这个名字:你可能看过著名的本尼迪克特·康伯巴奇的电影《模仿游戏》。你可能会在曼彻斯特闲逛,看到他的雕像坐在一个叫做“同性恋村”的区域外的长椅上。有一天你可能最终会看到,甚至使用一张 50 英镑的钞票,如果你看一边,你会看到那个人的脸。但是既然你在 DataCamp 上,那么很有可能你第一次听到他的名字是在开始了解人工智能和机器学习的时候。尽管当今时代人们都在谈论人工智能以及它将如何影响未来,但人们很容易忘记,它是在第二次世界大战期间由一个人发明的,他的大脑为英国赢得了智能战争,并加速了随后的和平。
第一章:智慧的战争
加密的工作原理是根据一种称为密码的系统,用其他字母替换信息中的字母。一个非常基本的密码可能是,字母表中的每个字母都被前面的两个字母替换,因此“hello”被拼写为“jgnnq”。第二次世界大战中的密码破译者可以很容易地破解这个密码,所以需要更复杂的密码。而被德国军方广泛使用的恩尼格玛设备,提供了这种复杂性。
在最基本的层面上,一个人打出一个字母,键盘上相应的字母就会亮起。哪一个字母可以点亮是由机器中转子和插板的排列决定的,这种排列就是恩尼格玛的密码。这个设计意味着有 159 万亿种方法可以写出信息(这个数字既不是编造的也不是夸大的)。更复杂的是,Enigma 的密码每天都在变化,写在每个操作员随身携带的一本书上,这样他们就可以调整他们设备的设置。密码本只为未来一个月准备,可能会被扔进水中而遭到破坏,所以即使盟军设法通过武力获得一本,也需要一个更持久的解决方案。
图灵和他在英国密码破译中心布莱奇利公园的团队需要一种方法来了解那天恩尼格玛机器是如何设置的,并且要快,这样情报才能及时传递。因此,他们开发了一种叫做 Bombe 的机器,这种机器功能齐全时,可以在 20 分钟内破解恩尼格玛密码。基于图灵早期在机器和数学方面的工作,庞贝通过排除和模仿恩尼格玛系统的过程来工作。炸弹可以确认成对的字母是否相互对应,从而向操作员显示当天转子和塞子的安装方式。他们是如何决定搭配哪一对的?
Enigma 最大的缺陷是,一封信永远不会被写成它自己,所以这意味着德语中的一个单词可以被比作加密信息中的一组字母。如果没有一个字母匹配,这是一个可能的组合。图灵的团队会自己预测这些单词:当德国人发送每日天气报告时,他们会寻找德语中的“天气”一词。当皇家海军布雷时,与布莱切利保持联系,他们会寻找“地雷”这个词。出于显而易见的原因,他们会寻找的另一组单词是“希特勒万岁”。
因为一次只有一个插头可以插入插座,炸弹可以识别并消除不可能的组合,直到只剩下符合逻辑的设置。图灵的团队,以及后来整个布莱奇利公园的团队,能够将加密的信息输入到捕获的 enigma 设备中,校准正确的方法,并以简单的德语获得信息。
破解“谜”是盟军的一次重大胜利,他们甚至没有意识到他们已经赢得了军事情报圈之外的胜利(德国人也是,直到 1974 年)。从挪威到北非再到诺曼底,它几乎被用于每一场军事战役。然而破解“谜”带来的最重要的不同是能够知道德国潜艇的位置。漫游在北大西洋,这些机械海怪是每个在英国和美国之间运行的水手的恐惧,这是欧洲唯一的盟国和世界工业强国之间的重要补给线。丘吉尔说这是他担任首相期间唯一害怕的事情。发现他们的位置使盟军护航舰队能够避开威胁,防止英国挨饿——并使盟军海军接近杀戮。
故事的这一部分倾向于以历史学家的估计来结束,破译英格玛密码使战争缩短了两年,拯救了 1400 万人的生命。这是真的,但还有更多的东西需要说:那些认为德国可以赢得这场战争的人经常这样做,因为他们在战争后期开发的技术可以让他们占上风,如果不是因为战争在部署之前就结束了。大多数历史学家一致认为,至少这会使战争更具破坏性,所以底线是:1400 万人的生命是一个非常保守的估计。
图片来源: TS on Unsplash ##第二章:机器的思维图灵的故事可能会随着二战而结束,由于官方保密法,公众可能要到很久以后才知道。他继续在布莱奇利公园工作了两年,直到他觉得保密文化妨碍了他的工作,随后他转入了平民生活。1936 年,图灵已经奠定了后来被称为图灵机的基础,这种机器能够通过算法解决任何数学问题,图灵在此期间致力于计算机的最早迭代,并以此为基础。1950 年,他发表了可能是他最有影响力的文章,一篇以“机器能思考吗?”这个问题开始的哲学论文他的理论是,通过训练、教育和生活经验,人脑变成了一台“通用机器”,因此应该有可能建造一台能够考虑先前信息并进行类似学习的机器。这就是图灵被称为人工智能之父的原因。图灵提出了一个被称为模仿游戏的测试来证实大脑是否已经被制造出来。基于一个早期的维多利亚客厅游戏,它将涉及一个人类法官与一台机器进行对话,尽管不知道这是事实。如果通过语音模式、词汇选择等,机器可以欺骗法官,让他们认为他们正在与人类对话,那么机器就通过了图灵测试。图灵的理论是,到 2000 年,一台机器可以轻松通过这项测试。图灵的智慧很可能意味着这个预言已经实现了。但是一年后,图灵的故事进入了一个更加黑暗的阶段。第三章:背叛艾伦·图灵是一名同性恋者,出生在一个仇视同性恋的英格兰。在维多利亚时代,将同性恋行为定为犯罪的法律已经通过,并在半个世纪后当人们发现图灵与一个名叫阿诺德·默里的男子有关系时,这些法律仍然有效并得到了应用。图灵在国王学院期间公开了他的同性恋倾向,被描述为在一个不宽容的社会中“接受的绿洲”。他在布莱奇利公园期间一直保守着这个秘密,除了在 1941 年他向他的未婚妻和同事琼·克拉克透露了这个秘密,决定他不能继续订婚。他的前同事 I.J. Good 教授后来评论说,“安全人员不知道可能是件好事,因为他可能会被解雇,我们可能会输掉这场战争”。图灵在监狱和化学阉割之间做出选择,他选择了后者,这样他就可以继续他的研究工作。据报道,服用旨在使他阳痿的药物,加上剥夺他的安全许可和出国旅行的能力,导致了抑郁症,最终导致他吃了一个含氰化物的苹果自杀。然而,想法是不可能被扼杀的。随着英国过渡到一个更加宽容的社会,图灵成为 LGBTQ+世界的偶像。2009 年,英国首相托尼·布莱尔代表英国政府就图灵受到的待遇发表了道歉,四年后,伊丽莎白女王发布了皇家赦免令。2015 年引入了一系列法律,赦免了 49,000 名根据该法案定罪的男子,清除了他们的犯罪记录。这些被非正式地称为艾伦·图灵定律。##第四章:数据科学和 LGBTQ+社区想象一下,如果图灵能够看到现在的世界,会发生什么并不困难。生于 109 年前,如果他活得长久而快乐,他仍然会和我们在一起。他会既高兴又失望。
在 DataCamp,我们已经写了很多关于人工智能和数据科学整体的伦理的文章,共同的思路是,它只能与背后的人和数据一样道德。随着数据科学越来越多地影响我们的日常生活,LGBTQ+社区也是如此,而且有一些数据科学被错误使用的案例会真正震惊图灵先生。有一个案例,谷歌的情感分析器给短语“我是同性恋者”分配负面情感。有一个的例子,一场宣传活动针对被识别为 LGBTQ+(通过他们的脸书数据)的个人,用广告说服他们不要在 2016 年美国总统选举中投票。还有一个异常非道德的案例,一个人工智能据称可以通过面部分析识别同性恋个体。
然而,当人们把好的加到坏的上时,有更多的理由相信图灵先生会对他所看到的感到高兴。有一些应用程序的例子,如 Geosure 使用数据来保护 LGBTQ+旅行者,以及约会应用程序使用人工智能来验证个人资料和保护用户,其中 LGBTQ+个人占了很大一部分。更广泛地说,数据已经被用来打击反 LGBTQ+的误解,数据科学大体上是一个进步的领域,欢迎各种背景的人,包括性取向。
最后的话
艾伦·图灵是一个才华横溢的人,他在保护未来的自由世界方面发挥了重要作用,并为主导当今头条新闻的技术铺平了道路。他是一个走在时代前列的人,但不幸的是,他却因此受到了偏见制度的惩罚。这个世界被剥夺了一份礼物——但并不完全是。事实上,我写,你读这个曾经是图灵机证明了这一点。因此,为了纪念一位伟人,让我们确保我们的技术成就与我们的道德成就不相上下,甚至有所超越。
其他详细信息
如果我们没有掩盖某些细节,这篇文章可能会比它长得多,尽管如此,对于好奇的读者来说还是值得一提的。
-
波兰数学家和抵抗战士在破解谜团中扮演的关键角色
Git 是什么?Git 完全指南
原文:https://web.archive.org/web/20230101103007/https://www.datacamp.com/blog/all-about-git
如果你读过任何关于编码、编程或软件开发的东西,你一定听说过 Git。
这个方便(免费)的工具是世界上最流行的版本控制系统。它非常受欢迎,超过 90%的专业开发人员都在使用它,更不用说其他领域的专业人员了。
在许多方面,Git 实际上是版本控制的同义词。但是什么是版本控制,为什么它如此重要?
加入我们,深入了解吉特百货。在这里,我们仔细看看 Git 的一切,包括它是什么,谁使用它,以及它的历史。
Git 是什么?
Git 是一个分布式版本控制系统(dVCS)。顾名思义,版本控制就是控制和跟踪给定项目的不同版本。
什么是版本控制系统(VCS)?
VCS 跟踪并记录对任何文件(或一组文件)的更改,允许您稍后或根据需要调用特定的迭代。VCS 有时被称为源代码管理(SCM)或修订控制系统(RCS)。
版本控制允许许多团队成员在一个项目上协同工作,即使他们不在同一个房间甚至不在同一个国家。
例如,假设你是一个歌曲作者。你正忙着在家创作一首自己写的新歌,但你对它并不满意。所以你决定与另外两位词曲作者合作来解决需要改进的地方。
你和另外两位词曲作者开始调整歌词和乐谱,你们每个人都独立工作。当其他音乐家给你发来他们版本的歌曲时,你喜欢他们做的一些改动,但不是全部。
现在想象一下,你可以看到歌曲每个版本中的每个变化,你可以测试这些变化,看看它们听起来怎么样,然后跨版本同步你喜欢的变化。
这就是 Git 允许用户做的事情。个人可以在本地(在他们自己的计算机上)处理一个项目,保存任何有效的更改,然后将这些更改同步到 Git 存储库中,这样其他人就可以看到他们的新版本。
Git 通常被认为是一种软件开发工具,的确如此,但是它可以用于任何类型的文件的版本控制(版本控制),无论是代码行、新网站的设计布局还是一首歌曲。
版本控制的好处
除了作为协作工作的有用工具之外,版本控制还有其他一些好处:
-
归因改变——每一个改变都可以归因于一个团队成员。
-
深入跟踪使恢复变得容易——因为每一个变化都被跟踪,即使是非常小的变化,如果需要,恢复到早期版本是很容易的。可以想象,这是软件开发中非常需要的特性。
-
更好的组织和沟通——提交信息,你发送给团队的详细说明你做出改变的原因的信息,促进团队成员之间的良好沟通。如果你忘记了过去所做的改变,它们也会使事情变得容易得多!
-
并发性——在软件项目中,开发人员对源代码做了大量的修改。通常,有许多开发人员从事不同的工作。一个人可能正在调整现有的代码以获得更好的安全性,而另一个人正在开发新的特性。Git 使这些开发人员能够并发工作,同时有助于防止每个开发人员的更改之间的任何冲突。
-
分支和合并——团队成员可以创建单独的分支来处理项目,然后将他们的变更与主分支合并。分支是临时的,可以在合并后删除。
Git 是唯一的版本控制系统吗?
不,Git 不是唯一的 VCS,但它是最流行的,被认为是事实上的标准工具。其他流行的版本控制系统包括 Fossil、Mercurial 和 Subversion。
系统之间有细微的差异,包括它们如何处理核心功能,如分支和合并,但总的要点是相同的。然而,系统之间的主要区别在于它们是集中式的还是分布式的。
集中式和分布式版本控制系统
集中式和分布式系统,如 Git,都执行相同的功能。
两者之间的关键区别在于,集中式系统有一个中央服务器,团队成员可以在那里发布他们工作的最新版本。你可以把它想象成一个人人共享的单一中心项目。
使用分布式 VCS,团队成员在他们自己的设备上拥有整个项目历史的本地副本(克隆),因此他们不需要在线进行更改或处理他们的代码。他们从在线存储库中获取克隆,而不是集中式服务器。
当开发人员使用 Git 时,每个团队成员的项目克隆就是一个存储库,可以包含自项目开始以来的所有变更。
Git 的历史
Git 是由芬兰软件工程师 Linus Torvalds 在 2005 年开发的,他也被认为开发了 Linux 操作系统内核。
Git 是为了解决燃眉之急而创建的。在发明之前,全世界的 Linux 开发者都在使用专有软件 BitKeeper,它本身就是一个 dVCS。
因为这个软件是公司所有的,所以它在 Linux 开发者中引起了一些争论,他们中的大多数都拥护开源精神。
作为免费使用该软件的回报,BitKeeper 背后的公司 BitMover 对 Linux 社区进行了限制。根据 Linux 杂志的报道,其中一个限制是他们不能参与竞争性的版本控制项目。
一名 Linux 开发人员开始对 BitKeeper 进行逆向工程,试图创建一个开源产品,这或许是不可避免的。信守承诺,BitMover 停止向 Linux 内核提供服务,分布式开发系统陷入了不确定性。
为了解决这个难题,托瓦尔兹自 1991 年以来第一次停止了 Linux 上的工作,并创建了 Git,在开始开发后仅几个月就发布了一个稳定的版本。
有趣的是,在 Linux 内核首次采用 BitKeeper 之前,开发人员独立地向 Torvalds 发送他们的补丁(更改),而他在需要时集成这些补丁。2016 年,Git 发布 11 年后,BitKeeper 成为开源。
Git 是如何得名的?
2005 年 Linus Torvalds 在 Git 上第一次提交代码时,他添加了一个 read-me 文件,该文件提供了一些关于程序为什么被称为 Git 的见解。以下是该文件的一部分:
除非你喜欢更干净的全球信息跟踪器,否则 Git 的名字是对其功能的半开玩笑的引用,或者实际上,是对其缺乏功能的一种假设。
VCS 的历史
版本控制系统存在的时间比 Git 甚至 BitKeeper 都要长。让我们快速浏览一下历史时间表:
-
1972 年的今天,SCCS,第一台 VCS,由贝尔实验室制造,这与今天的系统几乎没有相似之处。
-
1982 年的今天,修正控制系统(RCS)被濮培德大学的一名计算机科学家开发出来。
-
1986 年的今天,并行版本系统被开发出来。这是第一个提供可供多个用户访问的集中存储库的 VCS。
-
1995 年的今天,至今仍受欢迎的 VCS 被开发出来。
-
2000 年的今天,一个被称为“颠覆”(有时被称为“SVN”)的更复杂的系统出现了。BitKeeper 也是如此,它是第一批 dVSCs 之一,也是普及分布式系统的一个。
-
2005 年的今天,Git 被发明并迅速成为全世界开发者的首选。
Git 和 GitHub,版本控制和存储库
Git 和 GitHub 是互补的技术。Git 是一个版本控制系统,而 GitHub 是一个基于云的托管服务,帮助团队管理他们的存储库。
GitHub 于 2008 年设计,旨在使 Git 的协作编码更容易,这是软件即服务(SaaS)平台所擅长的,最终吸引了全球数百万用户。
除了提供 Git 的标准版本控制特性,GitHub 还有自己的特性,比如 bug 跟踪、任务管理工具和持续集成(CI)。GitHub 运行在免费增值模式上;用户可以免费使用许多功能,但必须付费订阅才能解锁所有功能。GitHub 从 2018 年开始归微软所有。
GitHub 不是唯一的存储库托管服务,但有数百万用户和数亿项目依赖于该平台,它无疑是世界上最受欢迎的。你可以在 GitHub 上找到很多大牌公司,包括 DataCamp 。
竞争服务包括 GitLab 和 Bitbucket,Git lab 是为 Git 设计的完全免费的开源服务,bit bucket 同时支持 Git 和 Mercurial 代码管理。
我们之前提到过 Git 和版本控制不仅仅用于编码和软件开发,GitHub 也是如此,但后者并不适合非编码项目。
Git 不仅仅是一个软件开发工具
Git 可以用于任何版本控制很重要的合作项目,例如,大型用户手册的编写,甚至是教堂音乐的创作(最后一个是一个真实的项目,你可以在 GitHub 上查看)
虽然主要与软件开发的具体编码相关,但是相关领域的人们经常使用 Git。数据科学家和分析师就是一个很好的例子;这些专业人员需要一种方法来管理支持他们工作的代码,而 Git 正好提供了这种方法。
在 DataCamp,我们教授人们处理数据所需的工具和技术,包括 Git。我们的一系列沉浸式和引人入胜的 Git 课程可以在这里找到。
为什么 Git 这么受欢迎?
Git 受欢迎有很多原因,尤其是因为它是免费和开源的。
-
速度——Git 很快,尤其是当我们考虑到开发人员正在分支和合并整个存储库的时候。因为团队中的每个人都有他们自己的本地副本,所以没有必要等待每一个微小的变化都被推送到服务器上。
-
复杂的变更跟踪——Git 提供了令人难以置信的详细版本控制,即使是最小的变更也会被提交,此外,开发人员可以留下一个带时间戳的注释,解释他们为什么做出了每个变更。
-
离线工作——使用整个存储库的本地副本,用户不需要在线,直到他们准备好提交他们的更改。
-
无处不在——如今,Git 被广泛使用,它的无处不在进一步推动了它的流行。超过 90%的开发人员使用 Git,如果一个公司知道所有的开发人员都熟悉 Git,它就没有理由使用另一种工具。
-
协作——Git 支持协作工作,它使得合并同一个项目的不同版本变得简单,同时最小化了潜在的冲突。随着 GitHub 的加入,开发人员有了一个灵活的协作编码生态系统来支持他们的工作。
想从 Git 开始吗?
Git 是世界上最流行的分布式 VCS,它彻底改变了软件开发人员和相关领域的人员管理项目的方式。
从谷歌到网飞以及其他众多公司都将 Git 作为其技术堆栈的标准部分。Git 无处不在,以至于对于任何软件或代码相关的项目,你都可以假设 Git 是过程的一部分。
这也是数据分析师和科学家等与数据打交道的人的必备技能。毕竟,我们需要一种对代码进行版本控制的方法,来帮助我们从数据中获取见解,并构建有助于我们工作的软件工具。
Git 是事实上的 VCS 标准,如果你想从事 it 或任何相关领域的工作,这是一项必备技能。尽管 Git 并不以简单著称,但随着您在 Gitverse 中的进步,掌握基础知识并以您的知识为基础是很容易的。
DataCamp 可以提供帮助。我们的Git 简介课程旨在以有趣和吸引人的方式教你 Git 的基本知识。
要了解全球 900 多万学习者热爱 DataCamp 的原因,请立即注册您的第一门 Git 课程!
什么是 Power BI?Power BI 的完整指南
原文:https://web.archive.org/web/20221129044300/https://www.datacamp.com/blog/all-about-power-bi
2021 年,全球数据圈拥有大约 80z 字节的数据。如果这种趋势继续下去,到 2025 年,这个数字将会翻一番。虽然这些数字令人印象深刻(并且有点吓人),但是没有上下文,原始数据是没有用的。
Power BI 对原始数据进行分类和汇总,并将其转化为可操作的情报。
微软的 Power Business Intelligence and visualization tool(Power BI)是一个基于云的应用程序、软件和连接器集合,它将原始业务数据聚合、上下文化并解释到一个交互式可视化仪表板中。
超过 250,000 家组织,包括 97%的财富 500 强公司,依靠 Power BI 将他们的原始数据转换为易于理解的可视化和数字报告,这些报告对于做出明智、实用的业务决策至关重要,原因很容易理解。
Power BI 强大而强大(多达 1 亿行数据),它将原始数据转化为优雅且易于理解的视觉效果,使组织能够做出明智的决策,迎接未来。
电力 BI 简史
像许多伟大的发明一样,Power BI 开始时是一个绝密项目,有一个很酷的代号!它始于 2006 年,是微软 SQL Server Reporting Services 团队的 Thierry D'hers 和 Amir Netz 的创意。当时,这是一个机密项目,代号为“双子座”
Gemini 项目利用了微软的 SQL Server Analysis Services (SSAS)的强大功能,并将其转化为内存存储引擎。
Gemini 于 2009 年以“PowerPivot”的名字首次亮相,这是一个免费的 Excel 扩展。然而,直到微软 PowerPivot 专家 Rob Collie 在博客上向 Excel 用户介绍它之前,它或多或少一直没有被数据科学界发现。
然后,该公司将数据浏览器(后来更名为“Power Query”)添加到其 Excel 插件菜单中。不幸的是,尽管 PowerPivot 和 Power Query 可以被广泛访问并广受欢迎,但通过电子邮件发送大量 Excel 文件被证明是一个问题。此外,无法安排数据刷新。
2015 年,微软将这两个插件配对,并将商业智能工具重命名为“Power BI”。甚至在该应用程序上架之前,它就已经获得了足够的兴奋,超过 50 万独立用户注册测试并帮助设计这款革命性的新产品。然后,仅仅几个月后,Power BI 就上市了。
他们说,剩下的就是历史了。但这也是未来。
该项目获得了多项人民选择奖和 2018 年 PUG 数据可视化射击奖。最终,如果没有 Power BI 提供的洞察力,绝大多数商业领袖都不会梦想做出战略决策。
什么是 Power BI?
最高级别的 Power BI 使组织能够从众多基于云的(SaaS)系统中提取原始数据,并使用强大、交互式且易于使用的用户界面(UI)将其转换为可操作的数据。此外,该平台隔离了为个人用户所需的指标提供宝贵见解的要素。
顶级功能
Power BI 功能丰富且灵活。它最受欢迎的功能包括:
- 直接连接到 Excel,并可与其他微软产品轻松集成
- 能够压缩数据并从大型数据集中提取洞察力–多达 1 亿行,而 Excel 仅超过 100 万行。
- 使用 R 和 Python 的可定制性
- 使用户能够构建交互式地图
- 使用 Power Query 导入、过滤和翻译数据
- 所有版本的移动应用程序的可用性
- 使用户能够跨多个平台和报告(专业版和高级版)重复使用数据集
- 适应性强且友好的用户体验。通过其活跃和动态的在线社区,微软听取用户的意见,并根据每月更新调整 Power BI。
为什么功率 BI 是不同的
商业领袖有多种商业智能工具可供选择,那么为什么他们中 97%的人使用 Power BI ?当然,Power BI 提供报告。事实上,只需几次点击,任何用户都可以生成动态报告。但是,它还具有数据发现、数据转换以及可能最重要的数据建模功能。
简单的用户界面使用户能够通过集中的移动或桌面仪表板创建和可视化报告,并且因为 Power BI 是 SaaS,所以没有硬件成本或持续升级成本。Power BI 具有可扩展性和可移植性,其升级是自动的。
最后,对于寻求将机器学习工具集成到工作场所的企业来说,它让用户可以访问一个预先训练但可定制的机器学习模型目录。这些机器学习算法产生实时结果和可操作的见解。
Power BI 与 Excel 相比如何
众所周知,Power BI 的前身是一个 Excel 插件,但今天它已经独立存在了。那些不熟悉 Power BI 的人可能想知道为什么微软提供了两个看似竞争的数据分析应用程序。尽管如此,当你稍微深入一点,很明显这两个应用程序是非常不同的。下面是优势和劣势的比较:
超越优势
- 快速计算–在进行计算、操作和创建公式时,您无法超越 Excel 的速度和易用性。
- 多种用途–Excel 不仅仅是一个数据科学应用程序。组织在会计、人力资源、运营管理,当然还有业务分析中使用 Excel。Excel 任务包括数据输入和从网站抓取数据,而无需切换应用程序。
- 各种各样的模板–虽然该应用程序是完全可定制的,但有几个包含的模板,其中许多不需要以前的 Excel 培训。
- 非常适合创建表格报告
- 高级计算表–Excel 允许用户创建复杂的个性化计算表。
Excel 弱点
- 协作很难——要在 Excel 中进行协作,需要将文件保存在云中或手动共享。
- 数据限制——Excel 的数据限制为 100 万行。
Power BI 优势
- 各种各样的可视化——我们不能在不谈论其交互式可视化的情况下谈论 Power BI 的优势。Power BI 的可视化是交互式的、直观的、华丽的!它具有拖放功能,即使相对较新的用户也可以修改报告的外观。用户还可以应用过滤器,并直接与应用程序进行交互。管理员可以从 Microsoft Marketplace 购买和下载自定义视觉效果。选项包括地图、图表、图形、KPI、R 脚本可视化等。
- 强大的协作–Power BI 允许用户进行实时协作,借助 Power BI 服务,多人可以同时处理同一文件。
- 连接性——Power BI 连接到多个数据源,包括 Excel、SQL Server 数据库、Google Analytics、社交媒体分析、Azure 源、基于云的源等。Power BI 还可以访问多个大数据源。
- Excel 集成–用户可以在 Excel 中上传和查看电力 BI 数据;这在使用表格报告时特别有用。
- 前所未有的连接性–Power BI 基于云,可以从几乎任何系统或应用程序中访问和提取数据。
- 个人网关–个人网关允许用户对防火墙外的内部数据进行身份验证。然后,基于云的 Power BI UI 可以使用这些数据。
- 强大的数据容量–Power BI 可以处理 1 亿行数据。
- 智能、自动更新–Power BI 在考虑真实用户体验后自动更新。
- Power BI Embedded–Power BI Embedded 允许开发人员将 Power BI 报告嵌入或添加到应用和网站中。
- 关键绩效指标和仪表板的理想选择
电源 BI 弱点
- 不是为复杂的表设计的 Power BI 在处理表之间的多个链接时有困难。用户需要确保额外的数据模型有唯一的字段,否则 Power BI 可能会混淆这些表。
- 庞大的用户界面——Power BI 的用户界面似乎充斥着图标和选项,有时会遮挡仪表板和报告的视图。
- 难以配置视觉效果–微软在 Power BI 中包含了多种视觉效果。然而,虽然用户很少需要配置视觉效果,但定制选项是有限的。
- Power BI 的 DAX 公式有时被称为刚性的——Power BI 是围绕 DAX 作为一种表达式语言而构建的。DAX 可能具有挑战性。串联两个以上的元素需要嵌套语句。
- 复杂–Power BI 本身是一个直观、相对简单的工具,可用于导入数据和创建报告。然而,多个相互关联的工具增加了它的复杂性。
- 闭源–与所有 Microsoft Office 套件产品一样,Power BI 是闭源的。
虽然 Power BI 和 Excel 都是数据库,但它们是为集成而设计的。大多数组织使用 Excel 生成数据要求有限的表格报告,使用 Power BI 进行数据分析和可视化。
Power BI 许可证有哪三种类型?
Power BI 提供桌面版以及专业版和高级版。
Power BI 台式机–免费版
- 最适合个人
- 支持所有开发功能
- 无法共享云上的内容
- 在台式机或笔记本电脑(本地计算机)上生成报告
- 与多个数据源集成
- 1GB 云存储用于报告和数据
- 导出到 Excel、PowerPoint 或。可移植文档格式文件的扩展名(portable document format 的缩写)
- 使用 Python 可视化数据
- 用 R 构建可视化
Power BI Pro
Power BI Pro 每个用户每月 9.99 美元,提供 Power BI 桌面版的所有功能,另外还有:
- 能够与其他专业用户共享数据和报告
- 1GB 数据集限制
- 每位用户高达 10GB 的存储
- 可以将报告导出到 SharePoint 站点或网站
- 每天最多 8 次计划刷新
Power BI 高级版
Power BI Premium 有两个选项:个人和企业。个人 Power BI 高级许可证的费用为每个用户每月 20 美元。这两种订阅选项都提供 Power BI Pro 的所有功能,并增加了存储、共享和计划刷新选项。大型组织可能会选择 Power BI Premium enterprise 订阅,起价为每个组织每月 4,995 美元。但是,这两种订阅选项之间存在一些差异。
超级商务智能个人版
- 10GB 数据集限制
- 100TB 存储限制
- 每天最多 48 次计划刷新
Power BI 高级企业
- 组织的每个授权成员都可以共享和使用
- 100TB 存储和八个虚拟内核
- 免费用户可以查看和分析报告,但无需输入
谁用 Power BI?
有了适合大多数个人和企业需求的版本,任何人都是潜在的超级 BI 用户。因此,所有业务部门都使用 Power BI。其客户包括雀巢、Adobe、理光、惠普、拜耳制药、卡内基梅隆大学、BP 等巨头,以及数千家其他大型全球组织。
虽然任何授权用户都可以为他们的部门创建有价值的报告,但 Power BI 最适合那些 Excel 不足以满足其需求的超级用户。此外,Power BI 是闭源的,这意味着许多数据科学家发现它有局限性。但是,对于数据分析师来说,这是一个非常好的工具。
怎样才能学习 Power BI?
Power BI 是强大而复杂的,具有开箱即用的功能,但有一个学习曲线。不需要编程经验。不过 Excel 流畅度和数据分析经验是有帮助的。
DataCamp 的课程包括一系列 Power BI 课程,在短短几周内,就可以将新手变成专家。
电源 BI 简介
Power BI 简介是一个免费的课程,向初学者介绍 Power BI,教他们格式化,甚至制作地图。
采用 Power BI 的数据可视化
Power BI 数据可视化面向那些熟悉 Power BI 基础知识并希望更上一层楼的人。在课程中,用户学习创建视觉上引人注目且易于理解的报告。
用 DAX 创建计算
在 DataCamp Power BI 系列课程的第三部分中,用户将学习使用微软的公式语言 DAX 进行计算。
Power BI 中的数据建模
使用来自美国人口普查局的实际生活数据,Power BI 中的数据建模教导中间用户清理、整形和加载数据建模技术。本课程还探讨了超级查询和超级 BI 之间的差异。它还讨论了最佳实践,并教导用户使用 DAX 定制他们的数据模型。
Power BI 中的数据分析
Power BI 中的数据分析将用户的数据流畅度提升到了一个新的水平。用户学习使用 Power BI 的探索性数据分析(EDA)来增强报告,以识别统计异常值和缺失数据,并应用截断技术来填充缺失和错误的数据。
然后,用户将了解分类数据和连续数据之间的关系,分析时间序列,可视化数据,并发现趋势。作为最后一步,该课程将帮助用户应用 Power BI 的分解树和关键影响因素来确定对目标变量最有影响的变量。
权力职业 BI
由于 Power BI 几乎是通用的,它在任何数据驱动的角色中都很有用。然而,Power BI 开发人员的需求很大,估计工资在 10 万美元到 15 万美元之间。这里仅举几个例子:
- Logic 20/20 需要一名数据专业人士作为 Power BI 开发人员。
- 或者,您可以从源头着手,帮助 Power BI 做得更好。微软正在招聘一名高级商务智能开发人员和商业分析专家
想从事数据方面的职业?在 Microsoft Power BI 职业跟踪中发现我们的数据分析师,您将立即为工作做好准备。
结论
优质的数据是世界上最宝贵的资源,就像其他资源一样,它需要对如何从原材料中提取宝石有深刻的理解。一个熟练的 Power BI 开发人员挖掘、收获和打磨企业数据驱动智能所依赖的珠宝。
Power BI 在企业、政府和非营利组织中无处不在,这意味着它在各种行业中都是一项有价值的技能。了解更多关于商务智能技能如何在当前职业或数据专业求职中助你一臂之力。
Datacamp 提供了一条经济实惠的途径来增强 BI 专业知识。我们为所有技能级别提供课程,包括简介、数据可视化、DAX(数据分析师表达式)、数据建模和数据分析。
微软 Edge Chromium、Safari Mac、Chrome desktop 和 Firefox 都支持 Power BI。
Power BI 应用程序可从 Google Play、App Store 和 Windows Store 免费下载。根据您组织的需求,还有其他应用内购买
企业用户需要购买超级商务智能许可证。然后,他们只需要一个网络浏览器和凭证。
44。英语是默认语言,但用户只需在浏览器中更改语言即可。Power BI desktop 没有阿拉伯语或希伯来语版本,因为它不支持从右向左阅读的语言。
Power BI Pro 是单独授权的,用户只能与其他 Pro 用户共享。Power BI Premium 是一个组织订阅,Premium 版本的内容可以与任何人共享,无论是否获得许可。
Power BI Desktop 是一款免费下载软件,提供了数量惊人的功能。Power BI Pro 不是免费的,但每个用户每月 9.99 美元起,非常实惠。
Power BI Pro 费用 9.99 美元。Power BI Premium 每个个人用户每月的许可费用为 20 美元,一个组织的许可费用为 4,995 美元起。
Power BI Embedded 允许用户将报告嵌入第三方应用,如仪表盘、网站、web 应用、磁贴和报告。大多数用户是软件开发人员。
Power BI 台式机、Power BI 服务和 Power BI 手机
R 是什么?-统计计算发电站
原文:https://web.archive.org/web/20230101103007/https://www.datacamp.com/blog/all-about-r
R 是一种流行的编程语言吗?
R 是什么时候创造的?
谁使用 R?
介绍
r 是一个统计编程工具,专门用来处理大量数据。
使用 r 可以轻松处理大量信息并生成可供发布的图形和可视化效果。各种数据分析、挖掘和建模任务也是如此。
因为 R 最初是由统计学家为统计目的而设计的,所以它非常适合数据科学,这是当今世界的一个重要领域。
虽然 R 的核心功能是统计分析和图形,但它的用途超越了这些,进入了人工智能、机器学习、金融分析等领域。
R 一直被列为世界上最受欢迎的编程语言之一,更不用说是一种高薪语言了,它从 20 世纪 90 年代早期就已经存在,并且现在仍然很强大。
继续阅读,了解更多关于 R 编程语言的知识,包括它的历史,谁在使用它,以及拥有 R 技能的可能职业道路。
R 是什么?
r 是一个统计计算和图形系统。这个系统由两部分组成:R 语言本身(这是大多数人谈论 R 时的意思)和运行时环境。
r 是一种解释型语言,这意味着用户通过命令行解释器来访问它的功能。
与 Python 和 Java 等语言不同,R 不是一种通用的编程语言。相反,它被认为是一种特定领域语言(DSL),这意味着它的功能和用途是为特定的使用领域或领域而设计的。
在 R 的例子中,那是统计计算和分析。通过扩展,R 通常用于所有形式的数据科学任务。
r 配备了大量支持数据可视化的函数,因此用户可以分析数据,根据需要建模,然后创建图形。除了语言内置的图形功能之外,还有许多插件或模块来促进这一点。
R 是流行的编程语言吗?
r 是一种流行的编程语言,尤其是在某些领域,比如数据科学、学术研究和统计学。
在撰写本文时(2022 年 3 月),R 在 TIOBE 指数上排名第 11 位,2020 年 8 月,R 在第 8 位。TIOBE 索引每月更新一次,它是一种编程语言受欢迎程度的良好指标。
索引中列出了 50 种语言,已知存在的 8000 多种其他编程语言,所以可以肯定地说 R 很受欢迎!
2020 年 5 月,R 在 TIOBE 索引中短暂地失去了前二十名的位置,导致许多人猜测该语言从学术研究到商业应用的飞跃很快被 Python 取代。然而,这种受欢迎的平静并没有持续很久,正如 TechRepublic 报道的那样,到同年 7 月,R 已经进入了前十名。
r 是统计工程师和统计研究的首选语言。世界各地的大学使用 R 来帮助他们在许多领域的研究工作。
“R 的成功是一个例子,说明了学术界支持的社区有能力将一门语言提升到超出其预期的水平。”-斯蒂芬·奥格雷迪,雷德蒙克分析师
许多人认为 R 在 2020 年跃升至十大热门词汇是因为该语言在新冠肺炎研究中的使用越来越多。当有大量数据需要争论时,R 是理想的工具——这只是这种语言在诞生近 30 年后的今天仍然流行的一个原因。
R 是什么时候创造的?
r 是由奥克兰大学的统计学家 Ross Ihaka 和 Robert Gentleman 在 20 世纪 90 年代初创造的。
Ihaka 和 Gentleman 当时都是新西兰大学的统计学教授,他们在他们的计算机科学实验室中看到了 Ihaka 所说的“对更好的软件环境的共同需求”。这种认识促使两人开始开发 R,这是早期 S 编程语言的一种实现。
尽管教授们在 90 年代早期就开始研究 R,但直到 2000 年 2 月 1.0.0 版本才正式发布。
R 的名字是什么意思?
R 语言得名于两个原因:一是因为 R 是发明者名字的第一个字母,二是因为 R 是对其母语言 S 名字的一种玩法,S 最初是由贝尔电话实验室开发的。
r、S 和 Scheme
要完全理解 R,理解 S 是很有帮助的,S 是它发展的主要语言。
c 编程语言
s 是由约翰·钱伯斯和其他为贝尔实验室工作的人在 20 世纪 70 年代中期开发的。它的目的是提供一个交互式的统计计算方法,一个用户友好的方法,使数据分析任务更容易和更快。
在 2013 年的一次采访中,钱伯斯指出,贝尔实验室团队希望人们能够“接触到现有的最佳计算方法,不管他们来自哪里。”
他还说团队希望用户“从一个互动的环境开始,在这里他们不会有意识地认为自己是在编程。然后,随着他们的需求越来越清晰,成熟度越来越高,他们应该能够逐渐进入编程。”
s 的基本哲学和 R 的很像:提供一个软件环境,方便计算编程和统计分析,一个任何人都能学会使用的环境。
和 R 一样,S 也可以用来编写以统计任务为中心的更长的程序。不过,与 R 不同,S 及其后续版本 S-PLUS 是特许产品,这意味着它们必须从一家公司购买。
值得注意的是,R 不是一种独特的语言,而是 s 的一种方言。
句法和语义
语言学家使用术语句法和语义来描述自然语言的元素,计算机科学家也将这些术语用于编程语言。
在计算机编程中,句法指的是规定一种语言的“拼写”和“语法”的规则,而语义指的是一种语言的数据或命令如何呈现。
r 的语法与 S 早年的语法非常相似。这使得使用 S-PLUS 的人很容易转向 R,这对 R 最终在学术界流行起了关键作用。然而,r 的语义更接近于函数式编程语言 Scheme 的语义。
R 是低级语言还是高级语言?
r 是一种低级编程语言,这意味着一些不同的事情,包括它更接近于机器语言而不是自然的人类语言。这一点,加上其句法上的怪癖,给 R 带来了难以学习的名声。
这里有一个权衡:R 提供了强大的功能、可扩展性和灵活性,但是“代价”是一定程度的复杂性。
新手去 R 帮助页面寻求帮助可能会更加困惑,因为这些页面是针对有经验的读者的。
r 不是最容易学的编程语言,但也没有很多人想让你相信的那么难。十多年来,DataCamp 一直在教人们如何使用 R,我们已经对我们的方法进行了微调。
诀窍是先把重点放在本质上,然后随着你的进步发展你的技能和知识。如果您想尝试 R 编程,请查看我们免费的 R 课程简介。
这些年 R 是如何演变的
r 在其生命周期的大部分时间里都是开源的,因此该语言可用的软件包数量有了很大的变化。
语言本身也经历了一些变化,从第一个版本到最新版本,使用 R 的领域也有所扩展。在深入探讨之前,让我们先来看看 R 历史上的几个里程碑:
R 简史
- 1991 年的今天,作为奥克兰大学统计系的研究项目,罗斯·伊哈卡和罗伯特·绅士开始研究 S 的一种新方言。
- 1993 年的今天,R 的首个公告通过数据存档 StatLib 和 s-news 邮件列表与公众见面。
- 1995 年的今天,统计学家马丁·麦克勒说服 R 的发明者在 GNU 通用公共许可证下发布这种语言,使 R 既可以自由使用又可以开源。
Ihaka 和 Gentleman 发布了他们的开创性论文向世界介绍 R。
- 1997 年的今天, R 核心团队成立,这个团队是唯一一个对 R 源代码有写权限的团队,他们审查并制定任何对语言的修改建议。
同年,综合 R 档案网(CRAN)成立。这个开源 R 软件包库,是语言本身的扩展,帮助专业人员完成无数的任务。
- 2000 - R 版本 1.0.0 向公众发布。
- 2003 年的今天, R 基金会成立以持有和管理 R 软件版权并为 R 语言项目提供支持。
- 2004 - R 版本 2.0.0 发布。
- 2009 年的今天, R Journal 成立,这是一份开放存取的统计计算和研究期刊。
- 2013 - R 版本 3.0.0 发布。
- 2020 - R 版本 4.0.0 发布。
R 社区
R 社区是世界各地使用 R 的人们,他们为 CRAN 库上的可用包做出贡献,或者两者兼而有之。
众所周知,这个社区非常活跃,有很多人经营关于 R 的论坛,写博客,回答关于栈溢出和其他地方的问题。除了所有的虚拟 R 资源和支持之外,还有许多定期举行的大型 R 会议。
如果你想用 R 做一些事情,但又不确定如何开始,那么很有可能有一个软件包可以帮助你。熙熙攘攘的 R 社区已经产生了数以千计的工具来扩展 R 的功能。
事实上,微软的 Revolution Analytics 博客报道称,2017 年,CRAN 上列出了 1 万个包。其中一些包装凭借其自身的权利而声名鹊起,包括 Tidyverse。
R Tidyverse
如果你读过一些关于 R 的书,你很有可能听说过 Tidyverse。
Tidyverse 不是一个单独的包,而是一个由各个 R 包组成的包——非常元,对吗?这些软件包都是为数据科学和分析而设计的。
total Tidyverse 包中的每个工具都设计为与其他工具协同工作,并在数据科学任务之间提供非常清晰的流程。
Tidyverse 是 RStudio 首席科学家、《数据科学的 R》的合著者 Hadley Wickham 的创意。这个自称为“固执己见的 R 包集合”已经被证明在全球范围内很受欢迎,全世界的数据科学家现在都依赖 Tidyverse 进行他们的工作。
事实上,可以肯定地说,现在任何想与 R 或数据打交道的人都需要了解 Tidyverse。你可以在 DataCamp 的在线tidy verse的介绍中查看一下。
数据科学的兴起
如果不更详细地提及数据科学的兴起,就无法描绘 R 的演变。
随着 20 世纪末世界从模拟系统转向数字化(使现有系统数字化),数据变得越来越有价值。今天,它比黄金更值钱。
所有部门和行业的企业都需要了解他们的客户和潜在客户,以保持竞争力,当公共组织拥有尽可能多的信息时,他们可以做得更好。
所有这些数据都包含大量可供组织利用的见解,他们只需要合适的工具。
r 就是这些工具中的一个,Python、SQL、Power Bi、Tableau 等等也是。为了正确理解隐藏在数据中的信息,我们需要专业人士,如数据科学家和分析师。
随着数据科学在现代世界变得越来越重要,对具有阅读和解释数据的技术技能的人的需求也相应增加。例如,今天,数据科学是薪酬最高的 IT 职位之一,根据实际上的统计,平均薪酬超过 10 万美元。
谁用 R?
许多专业人员在他们的工作中使用 R,这种语言被广泛应用于各个领域。在看那些之前,让我们回顾几个可能的 R 技能职业。
r 职业生涯
- 数据科学家
- 统计工程师
- 数据分析师
- R programmer
- 数据架构师
- 数据库管理员
- 地理统计师
- 研究员
- 商业智能
- 财政分析家
- 机器学习科学家
- 定量分析师
- 统计员
- 还有更多…
使用 R 的领域和行业
因为它功能强大,能够处理各种数据分析、可视化和建模任务,所以 R 被广泛应用于各种行业和部门。以下是几个例子:
学术界
就像英语是世界通用语言一样,R 是许多学术机构中占主导地位的编程语言。它的用途也不仅限于统计学;许多种类的研究需要定量数据,包括相关数据、实验数据和描述性数据,这些都是跨领域的。
数字化(包含数据和相关工具的过程)和大数据的兴起触及了所有的学习和研究领域,导致 R 在学术环境中的使用增加。
例如,IBM 的社会科学统计软件包(SPSS)曾经是社会科学的首选软件。现在,R 是首选,原因有很多:
- r 对机构和学生都是 100%免费的
- r 兼容所有操作系统和各种文件类型的数据
- r 支持透明和可重复的研究
- r 使得创建数据可视化变得容易
2013 年 DataCamp 关于 R in education 的调查显示,71.1%的受访者从事经济学或商业研究,而只有 10.5%的受访者从事计算机科学,这表明数据素养和技能是全面的。
数据科学
与 Python 一样,R 也是数据科学领域的一种重要语言。在 R 的帮助下,专业人员可以建模和分析结构化和非结构化数据,他们还可以使用 R 来创建机器学习和统计分析工具,以帮助他们的工作。
r 使得处理各种来源的数据变得容易,从导入到分析。另外,R system 本身和 CRAN library 提供了大量的数据可视化功能和工具,这使得专业人员可以轻松地以有影响力且易于阅读的格式展示他们的研究和发现。
统计数字
不言而喻,因为它是一种统计编程语言,但 R 是统计学和统计计算的常用语言——毕竟,它是由统计学家为此目的而设计的。
大量的软件包支持这一领域的工作,而 R 语言本身可以用来开发包含统计功能的软件工具。它的用途甚至可能更广。在一次采访中,RStudio 计算机科学家郑中指出,R 可以作为一种通用语言来实现新的统计语言。
金融
凭借其灵活性和对任何数据分析任务的适应能力,R 在金融领域的应用越来越多也就不足为奇了。ANZ 和美洲银行等公司使用这种语言进行信用风险分析和建模、财务报告、处理投资组合以及许多其他任务。
诸如 jrvFinance 和 Rmetrics 这样的专用工具允许从事金融工作的人进行金融计算,即使他们的编程经验有限。
DataCamp 提供一系列的金融课程 R,包括 R 中的金融基础,R 中的应用金融。
社会化媒体
自从早期的 Open Dairy 和 Bolt 以来,社交媒体已经从少数精通技术的用户发展到几乎所有拥有智能手机的人。如今,很难找到不使用社交媒体平台的人。
社交媒体也是一个大行业,一个主要从事数据交易的行业。像 Meta(脸书和 Instagram)和抖音这样的公司依靠用户的习惯向其他公司提供有针对性的广告。
你在社交媒体上做的每一件事或与社交媒体互动的每一件事都会产生可用于此目的的数据,R 等工具是社交媒体公司从他们收集的大量数据中提取见解的完美方式,并管理算法,使用户返回符合他们兴趣的内容。
哪些公司用 R?
以下是一些在其技术堆栈中使用 R 的知名公司:
- 美洲银行
- 亚马孙
- 脸谱网
- JP 摩根
- 谷歌
- 埃森哲
- 商务化人际关系网
- 国际商用机器公司
- 超级的
- 德勤
- 《纽约时报》
- 福特
- 大功率(High Power)ˌ高压(High Pressure)ˌ高性能(High Performance)ˌ高聚物(High Polymer)
- 还有更多…
一些代码示例
r 可以执行基本的代码,比如创建一个矩阵和它的操作,如下所示:
#Let’s create a matrix
matrix_A <- matrix(1:10,nrow = 5, byrow = TRUE)
matrix_A
#Now let’s add a column to the matrix
matrix_A1 <- cbind(matrix_A,c(6:10))
matrix_A1
它还有助于数据分析和处理:
#Let's load a built-in dataset
data(mtcars)
#print first 10 rows
head(mtcars,10)
#Let us try to sort the dataset based on ascending order of horsepower
attach(mtcars)
df<- mtcars[order(hp),]
head(df,10)
基础和高级
具有基本 R 知识的人可以使用编程语言执行基本的数据排序和分析任务,例如分配变量和使用命令行执行计算。
它们还可以生成数据的可视化表示,如饼图或图表。他们甚至可能使用 R 来帮助他们管理自己的个人财务或小公司的财务。
不出所料,拥有 R 高级知识的人可以做所有这些事情,除此之外还可以做更多的事情。
r 的用途超越了创建可视化和数据分析。因为它是一个强大的统计计算工具,R 可以用来建立预测性的机器学习模型和其他数据科学工具。
尽管它主要是一种函数式的和特定领域的语言,R 甚至可以用于一些面向对象的编程任务。专家们也可能使用 R 进行元编程,即创建可以编写或操作其他程序的程序。
无论你只是想要一个工具来更好地管理自己的消费习惯,还是想成为 R 代码的大师,DataCamp 都可以帮助你。我们广泛的 R 课程和职业轨迹适合每个人,从绝对的 R 初学者到有能力的 R 程序员,甚至更高。
舍入 R
r 是一种流行的编程语言,它允许人们熟练地处理大量数据,生成出版物质量的可视化效果,并执行一系列统计和分析计算任务。
R 用于数据科学、金融、学术等领域,功能强大、灵活且可扩展。它也是免费和完全开源的,这意味着有大量的软件包可以帮助 R 用户完成各种任务,并且有一个支持全世界 R 爱好者的社区。
如果你对数据方面的职业感兴趣,R 技能可以帮助你获得成功,并在数据科学领域找到一份高薪工作。DataCamp 是互联网上最全面的 R 课程的所在地。从入门水平一直到 R 的机器学习,我们已经涵盖了你。
r 是一种特定领域的统计编程语言。它是为统计分析和图形可视化设计的。
更广泛地说,R 不仅仅是一种语言,而是一个由 R 语言本身和运行时环境组成的系统,在运行时环境中,用户通过命令行执行任务。
是也不是。R 不是最容易学习或掌握的编程语言。作为一种低级语言,它不像 Python 那样直观。
也就是说,R 并不像许多人认为的那么难,基本知识也很容易掌握。从那里,你可以建立你 R 技能。
尽管它比其他语言更难,但回报可能更大。例如,因为了解 R 的人比了解 Python 的人少,所以 R 程序员和数据科学家可能会获得更高的薪水。
r 的开发者,统计学家 Ross Ihaka 和 Robert Gentlemen,以他们名字的首字母命名他们的语言。两人还表示,他们选择这个名字是对 R 的母语 s 的一种玩法。
没有一种语言比另一种语言“更好”,每种语言都有优势、劣势和更适合选择的领域。
例如,如果您想要构建移动应用程序等数字产品,您需要使用 Python 等通用编程语言。如果您想在学术环境中执行统计研究或执行数据挖掘,R 是更好的选择。
就数据科学而言,两种语言都是合适的选择。
是的。r 一直是 TIOBE 索引中最受欢迎的 20 种编程语言之一。最常坐在第十和第十五名之间。r 是包括金融分析、数据科学和学术研究在内的几个领域的重要语言。
2022 年,专家认为 R 很可能会继续在这些领域占据优势,因此学习 R 是一项有价值的投资。
处理、操作、建模和创建数据的可视化。r 是数据科学和数据分析的流行语言。它允许用户执行各种数据分析和统计计算任务。
大概不会。除非你有过目不忘的记忆力,否则要花几周时间才能掌握 R 的基础知识。快速学习 R 的最好方法是通过一门为特定领域设计的课程,这样你就可以专注于你需要知道的东西,而不必涉水过多的信息。
DataCamp 的 R 技能和职业轨迹给你在现实世界中需要的 R 技能,它们不会让你连续几年坐在电脑前。例如,我们的 数据科学家与 R 职业跟踪总共需要大约 88 小时才能完成。
r 是一种用于统计计算和图形的编程语言和软件环境。微软 R Open 是微软公司开发的 R 版本。
R 和微软 R Open 都是用于数据科学和分析的免费开源工具。
是的。SQL 被设计用于非常有限的用途:允许用户与关系数据库通信。另一方面,r 的应用范围更广,尽管它主要用于数据的统计分析和图形表示。
另外,R 是低级语言,而 SQL 是高级语言。这指的是诸如一种语言使用多少内存以及一种语言对人类来说有多容易理解之类的问题。
R 中的语法不像 SQL 那样简单,但是,如果您想从事数据科学方面的职业,这两种语言都是您的武器库中非常好的工具。或者,学习 SQL 和 R 或 Python。
这要看情况。如果您有编程经验,您可以在一周内学习 R 基础知识。如果您对数据科学和一般编程还不熟悉,那么您可以花几周的业余时间学习 r 的基础知识。
DataCamp 的R入门课程教你 R 中数据分析的基础知识,只需要四个小时就可以完成。从那里,你可以继续我们的中级 R 课程,大约需要六个小时。
什么是 SQL?-数据库管理的基本语言
SQL 是一种强大的编程语言,在当今世界发挥着重要作用。它允许我们与关系数据库通信并收集信息。哪里有数据,哪里就有 SQL。这包括政府、公共组织和各行业各种规模的企业,从航运到鞋类销售。
你可能听说过数据现在是世界上最有价值的商品,这意味着它甚至比石油等化石燃料更有价值。那么,我们如何利用这种商品的力量,并利用它来获得洞察力和做出明智的决定呢?
这就是像 SQL 这样的语言的用武之地。在这里,我们仔细看看 SQL,包括它是什么,它做什么,谁使用它,以及这种特定于领域的语言的历史。
什么是 SQL?
SQL 代表结构化查询语言,顾名思义,你可以用这种编程语言对数据库进行提问(查询)。您会听到 SQL 读作“sequel”或缩写为“ess-que-el”
这种编程语言主要用于与关系数据库通信。在 SQL 的帮助下,我们可以访问、检索、排序和更新信息。它与众所周知的关系数据库管理系统(RDBMS)一起使用,包括:
-
神谕
-
赛贝斯
-
Microsoft SQL Server
-
一种数据库系统
-
关系型数据库
-
Microsoft Access
-
MariaDB
-
SQLite
SQL 于 1986 年由美国国家标准协会(ANSI)标准化。它还获得了国际标准化组织(ISO)的国际标准称号,并被世界各地的许多政府和组织机构采纳为标准。
SQL 和关系数据库
数据库以数字格式存储信息,确保数据易于访问。关系数据库是基于表的,允许我们管理和检查数据类型之间的关系。
我们可以在一个数据库的表中这样做,或者我们可以检查多个关系数据库中数据之间的关系。
关系模型的主要好处之一是我们可以连接表并理解数据类型之间的关系。
假设你拥有一家电商鞋店。如果想知道客户的位置和销售量之间的关系,可以使用 SQL 查询 customer 表并生成报告。
或者,假设您拥有一家实体鞋店,您想知道您的团队成员中谁卖的鞋最多。如果您的数据库有正确的参数,您也可以使用 SQL 找到这些信息。
您可以将关系数据库想象成一个简单的表格,其中包含可以在 Word 或 Excel 中创建的列和行。但是关系数据库包含几个表,与您可以在 Excel 中创建的表不同,大型关系数据库可以包含数百万个字段。
根据个人的业务或数据需求,数据库中的数据点会有所不同。卖鞋的人可能想要客户位置或员工销售信息,而另一个企业或组织可能想要其他数据点。
SQL 可以用来创建新的数据库,并根据需要修改现有数据库的模式(结构)。
SQL 为什么这么受欢迎?
SQL 在问世近 50 年后仍然广受欢迎,因为它工作简单。关系数据库是为了满足需求而发明的,而 SQL 是为了与这些数据库通信而发明的,这意味着它很快成为事实上的语言。
在许多方面,SQL 与关系数据库同义,这也是 RDBMS 通常被称为 SQL 数据库(而其他非关系数据库被称为 no SQL)的一个原因。
尝试重新发明轮子没有什么意义,对吗?关系数据库和 SQL 也是如此——因为它们工作得很好,所以都没有用!
这两个工具协同工作,确保我们的许多技术继续可靠地工作,从保持业务平稳运行的后端系统到结构化的互联网架构等等。
然而,它的无处不在并不是 SQL 流行的唯一原因。SQL 也很强大,允许开发人员和分析师以复杂的方式查询大量数据,并解决棘手的分析问题。
2021 栈溢出开发者调查显示,SQL 是第三大最常用的编程语言,被调查的职业开发者中有 50.73%的人使用。
当然,总会有新的发展,技术也在快速变化,但是 SQL 还没有被推下它最喜欢的位置。
NoSQL 对 SQL
NoSQL 数据库提供了不使用相关表来存储和管理数据的其他方法。它们在 2000 年代后期开始流行,因为它们提供了一种容纳数据的方式,而无需像 SQL 数据库那样进行结构化处理。开发人员可以更容易地创建 NoSQLs,可以提供更快的查询速度,并允许灵活的方法。
在许多方面,NoSQL 转向了原子性、一致性、隔离性和持久性(ACID)的传统数据库目标,并提出了一种更开放的数据存储方法。
另一方面,SQL 数据库用于关系数据,这从一开始就需要高度结构化的方法。它们提供灵活的查询使用、较低的数据存储占用空间、一致的数据完整性(这在金融等多个行业中至关重要),以及比 NoSQL 更多的保护措施。
SQL 数据库比 NoSQL 数据库常见得多,但是每种数据库都有自己的位置、优点和缺点。
SQL 是什么时候创建的?
SQL 的历史与关系数据库的诞生紧密相连。这段历史可以追溯到 20 世纪 60 年代末,当时一位名叫埃德加·弗兰克·科德的 IBM 数学家和研究员制定了关系数据库模型。
当时的一个重大突破是,该模型将信息片段(键)与各种类型的数据联系起来。例如,一个人的名字可以与他们的鞋码或电话号码联系起来。
1970 年,Codd 发表了他的开创性论文,大型共享数据库的数据关系模型,后来为其他研究人员提供了 SQL 语言的基础。
在 Codd 工作之前,从数据库中检索信息是一项艰巨的任务,需要复杂的计算机知识。Codd 的想法消除了对专业知识的需求,使任何人都更容易获得信息。
尽管这种模式是革命性的,但仍有批评。正如《数据库系统》的作者吉姆·格雷所说:“人们认为这个模型过于简单,永远不会有好的性能。”
凭借其对优雅数学的巧妙运用,Codd 的模型多次证明了其批评者的错误。
SQL 是谁发明的?
IBM 研究人员 Donald D. Chamberlin 和 Raymond F. Boyce 在了解了 Codd 在关系模型方面的工作后,发明了 SQL。
“Ray Boyce 和我想设计一种查询语言,它具有 Ted Codd 的关系语言的表达能力,但更容易被不是集合论或形式逻辑专家的用户理解。”唐纳德·张伯伦
Chamberlin 提到他们对关系数据库语言的第一次尝试叫做 Square。基于映射的概念,Square 使用了一种表示困难的下标符号。所以在 1973 年,当两人搬到 IBM 的圣何塞研究实验室时,他们开始研究 sequel 语言,他们恰当地称之为 Sequel。
后来 Sequel 就成了我们今天都知道的 SQL。
在测试了 SQL 和关系数据库系统之后,IBM 开始开发使用新技术的产品。System/38 于 1978 年发布,是一款以创新数据库系统为特色的中档计算机。从那以后,IBM 和其他供应商如 Oracle 继续发布以 SQL 为特色的产品。
SQL 这些年是如何发展的
关于 SQL 有趣的事情之一是,它的基本原理保持不变,甚至在它诞生后的近 50 年里也是如此。SELECT、UPDATE、INSERT、DELETE 等命令基本上没有变化。
不过,这并不意味着没有变化。使使用基本命令变得更容易的新特性已经出现,这使得 SQL 更加强大和用户友好。此外,随着新的 RBDMSs 的出现——既有专有的(属于像微软这样的公司),也有开源的(任何人都可以免费使用)——不同的 SQL 方言也出现了。
SQL 方言和语法差异
所有的 SQL 语言都有与标准 SQL 相同的基本结构。在大多数情况下,键盘命令是相同或非常相似的。然而,不同方言的语法有一些不同。
你可以认为它有点像自然语言,如英语。我们有诸如美国、英国和澳大利亚的方言,还有标准英语。
SQL 有标准 SQL,然后是方言,包括 PostgreSQL、MySQL、SQLite 和 SQL Server。每种方言都与相应的 RDBMS 兼容。
学习 SQL 的一个很好的起点是 PostgreSQL。这种方言比其他方言更接近标准的 SQL 语法,因此很容易将您的知识应用到其他方言和数据库系统中。
一些代码示例
此示例显示了对患者数据库的查询。要查看表格的内容:
SELECT * FROM patients;
输出显示了前 5 行:
如果您想查找所有男性患者的名字和姓氏:
SELECT first_name,last_name, gender FROM patients WHERE gender = ‘M’;
输出如下所示:
数据科学的兴起
数据科学的一个关键作用是发现和预测趋势,因此,它已经成为现代数据驱动世界的主要内容。2012 年,《哈佛商业评论》称数据科学是“21 世纪最性感的工作”快进到 2021 年,据《福布斯》报道,到 2026 年,数据科学领域将增长约 28%。
随着数据科学领域变得更加突出,数据科学家最常用的编程语言也变得更加突出,这包括 SQL。
数据和 SQL 是齐头并进的。任何想要访问、检查、操作结构化数据(存储在关系数据库中的数据)或者从结构化数据中获得洞察力的人都需要了解 SQL。
数据现在是世界上最有价值的商品,数据科学增加了数据的价值。因此,一直受欢迎的 SQL 在最近几年变得更加重要。
什么是新闻 QL?
NewSQL 系统是新出现的,有时被称为分布式关系数据库系统,或者更常见的是分布式 SQL。
NewSQL 系统首次出现在 21 世纪初,旨在弥合传统 RDBMSs 和 NoSQL 系统之间的差距。他们通过结合关系模型、事务支持和 RDBMSs 提供的 ACID 保证,提供 NoSQLs 的速度和可伸缩性来做到这一点。
Xeround 和 GenieDB 等 NewSQL 系统的早期供应商在数据库市场上并没有留下太多印象,可能是因为它过去(现在仍然)被 Oracle、Amazon Web Services 和 Microsoft 等公司严重垄断。
采用 NewSQL 模式的基于云的数据库服务包括 AWS Amazon Aurora 和 Google Cloud Spanner。
谁使用 SQL?
许多人经常使用 SQL,从以数据为职业的人到只想更好地管理小型数据库或获得洞察力的人。毕竟,当 SQL 和 SQL 数据库提供了一种更好的方法来检查数据时,为什么还要求助于 Excel 呢?
各种规模的企业也使用 SQL。依赖 SQL 管理数据库的公司包括微软、戴尔和谷歌。不仅仅是科技公司,任何利用关系数据库的企业都使用 SQL,想想像耐克和 Spotify 这样的大公司以及小型零售企业和其他许多企业。
任何需要创建、修改关系数据库或与之通信的人都需要 SQL。由于该技术的突出性和重要性,RDBMSs 和 SQL 出现在所有行业和领域。
sql 职业生涯
由于其数据排序和分析能力,SQL 是许多专业人员的必备技能,包括(但不限于):
-
数据库管理员
-
数据分析师
-
数据科学家
-
网页设计师
-
服务器管理专家
-
托管技术人员
-
商业智能专家
-
软件工程师
-
开发商
-
财务分析
-
研究人员
-
还有更多…
即使拥有基本的 SQL 工作知识,对无数其他行业和专业也是有帮助的。鉴于当今数据的重要性,越来越多的雇主在简历中列出拥有数据库技能的候选人也就不足为奇了。
有时这些雇主来自意想不到的行业,例如,新闻业。当记者们面对巴拿马文件,一大堆复杂的文件和文档需要解开和分析时,他们求助于数据库系统。
同样,营销人员、广告商和数字营销专家经常使用关系数据库来理解诸如跳出率、滚动深度和点击率等信息。对于这些在很多方面代表市场营销未来的职业,知道如何使用 SQL 特别有帮助。
使用 SQL 提升技能
无论你从事什么行业,SQL 技能都有很大的机会让你走在前面。提高技能和学习 SQL 是提升你当前职业的好方法,也是为你的技术工具箱增加另一项技能的好方法。
即使学习基本的 SQL 来查询数据库和查找信息也能让你成为更有价值的员工,或者帮助你找到一份新工作。
它被使用的例子。代码示例等
SQL 基础和高级 SQL
与任何技能一样,SQL 初学者和经验丰富、知识渊博的 SQL 专家使用这种特定于领域的语言所能做的事情有很大的不同。
例如,假设你已经注册了 DataCamp 的SQL入门课程。您将学习 SQL 语法的基础知识以及在关系数据库中查询和聚集信息的基础知识——足以让您立即开始使用数据库。
在关系数据库等式的另一边,您有 SQL 专家(其中一些是 DataCamp 的讲师),他们已经花了数年时间使用这种语言。
有了高级 SQL 技能,人们可以快速准确地操作数据、创建数据库和执行复杂的查询,而不必检查他们的代码是否正确。除了创建实体关系图(erd)、优化查询索引和执行分层查询之外。
然而,SQL 是一项终身技能。一旦掌握了基础知识,就很容易提高技能,并不断增加更多的 SQL 知识,学习如何做更高级或更复杂的事情。即使你对使用 SQL 已经驾轻就熟,DataCamp 也可以通过中级和高级 SQL 课程让你更进一步。
总结 SQL
如您所见,SQL 是一种重要的编程语言。没有它,我们将无法与关系数据库进行通信,我们也无法收集给企业和组织带来竞争优势的见解。
SQL 对于任何人来说都是一个方便的工具,对于处理数据的人来说,包括数据分析师和科学家、市场营销人员、金融专业人士等等,SQL 绝对是必备的。
如果您准备好开始学习 SQL,请查看 DataCamp 全面的个人课程和职业轨迹。
从最严格的定义来看,是的,SQL 是一种编程语言。但它不是像 Python 或 Java 那样的通用编程语言。你不能用 SQL 构建一个应用程序。相反,SQL 有一项特定的工作要做:与关系数据库通信并操纵关系数据库中的数据。
因为它有特定的应用,所以 SQL 是一种特定领域的编程语言。这种语言提供了一种从数据中获取信息的灵活而强大的方法,使其成为数据科学和相关领域的理想语言。
是的,SQL 是最容易学的计算机语言之一。它的语法基于英语并且简单,这意味着许多人可以在几周内掌握这门语言,即使他们之前没有编程语言的经验。
DataCamp 提供的免费课程《SQL 简介》是一个在线学习 SQL 的好方法,可以让你按照自己的进度学习。
是的,但是自学 SQL 可能要比参加像 DataCamp 这样的公认培训机构的结构化课程花费更长的时间。
SQL 是最容易学习的编程语言之一,但这并不意味着它很简单。它的使用和应用仍然很复杂。了解 SQL 的最佳方式是通过专门的培训。
SQL 是一种计算机语言,发明这种语言是为了让人们能够与关系数据库交流。关系数据库为人们提供了一种检查不同类型数据之间关系的方法,例如,一个人的身高和体重或销售量和位置。
为了从数据库中收集这类信息并生成报告,我们可以使用 SQL。
是的,SQL 是比 Excel 更好的查看、管理和检查数据的方式。与后者不同,SQL 数据库可以包含数百万个字段,使用 SQL 查询处理数据要比使用 Excel 公式多得多。
电子表格很有帮助,并且在许多行业中经常使用,但是它们不能提供与 SQL 数据库系统相同的分析功能,也不能提供相同级别的数据完整性。
因为 SQL 无处不在。这种编程语言是关系数据库的同义词,关系数据库是一种提供查看、管理和操作数据的最佳方式之一的技术。
无论您在哪里找到数据,都很有可能存储在关系数据库中,我们需要 SQL 与这些数据库进行通信。这种无处不在的程度意味着 SQL 很可能在未来许多年仍然流行。
如果你想从事数据科学或相关领域的职业,学习 SQL 是你能做的最好的事情之一。SQL 数据库或关系数据库是企业和组织存储数据的最常见方式。
要与关系数据库通信并释放它们所包含的数据的力量,您将需要 SQL 技能。即使您不想全职处理数据,了解一些 SQL 查询也是有帮助的。SQL 通常在招聘信息中被列为一项必备技能。
SQL。因为 SQL 只为特定的应用程序设计(与关系数据库通信),所以它的语法和句法比 Python 等通用编程语言更简单。
这并不是说学习 Python 很难。事实上,它是最容易学习的编程语言之一。DataCamp 提供 SQL 和 Python 两种语言的入门课程。两种方法都试试,看看你喜欢哪种方法。
从学习标准 SQL 或 PostgreSQL 开始,这是最接近标准的 SQL 方言。
要使用任何关系数据库管理系统(即 RDBMS ),您需要了解标准 SQL,然后当您更改系统时,例如从 PostgreSQL 到 MySQL,您需要了解每个系统的语法之间的细微差别。
根据 Indeed 的研究,使用 SQL 的开发人员平均年收入为 88,125 美元。这些开发人员使用 SQL 数据库,并创建与这些数据库交互的应用程序。
其他将 SQL 作为主要技能的工作包括数据库管理员、数据分析师和数据科学家。DataCamp 有一系列基于 SQL 的课程和职业跟踪,可以让你在新的职业中有一个良好的开端。
SQL 可以帮你找工作。这是最受欢迎的技术技能之一,被列为许多空缺职位的要求。
不管你现在的职位或行业是什么,学习 SQL 也能在几个方面帮助你提升技能。了解 SQL 意味着您可以与关系数据库进行交流,关系数据库是所有行业的大多数企业经常使用的工具。
什么是 Tableau-Tableau 完全指南
原文:https://web.archive.org/web/20221129044300/https://www.datacamp.com/blog/all-about-tableau
探索画面
除了员工,一家公司的数据是其最大的资产。数据描述您的客户,帮助您吸引和留住新客户,预测趋势,跟踪库存,跟踪可能影响您公司的世界事件等。
没有参考数据,即使是最小的公司也不敢做出重大决定。营销部门依靠数据来监控社交媒体或电子邮件活动以及其他营销活动。销售部门使用数据来跟踪销售和创建目标。
采购部门在下订单之前检查库存数据,物流团队跟踪其发货和交付情况。自然,公司领导人也使用数据来获得资金,规划新产品,并做出人事决策——我们只是触及了冰山一角。
较大的公司有更多的决策者、更多的数据和更多的数据集。指数级的数据增长意味着各种规模的公司都需要帮助来管理和理解他们的数据。这需要一个商业智能工具,它不仅能帮助他们的业务增长,还能与公司一起增长。
一个真正智能的商业智能(BI)平台将过去和现在结合在一起,帮助创建一个明智的未来可视化路线图。
那么哪个 BI 平台对威瑞森足够强大,对 Experian 足够安全,对网飞足够优雅,对法拉利足够快呢?
这四家公司都利用商业智能软件领域的行业领导者 Tableau 来制定数据驱动的业务决策。如果你不熟悉这个数据发电站,或者你知道你没有利用 Tableau 的全部功能,我们邀请你继续阅读。
画面的历史
在不太遥远的过去,公司曾在简单的电子表格中收集手动输入的数据,并让数据科学家从看似难以理解的报告中提取一些意义。
毫不奇怪,有很多问题。例如,数据容易出现人为错误。这是不可理解的,直到数据科学家理解了它。很难融合多个数据集,图表和图形也不太具有协作性或视觉吸引力。
BI 1.0
“商业智能”一词是在 20 世纪 80 年代末数据仓库诞生的时候创造出来的。数据仓库是一个中央数据存储库,它从公司的每个部门收集数据。数据仓库仍然是现代数据收集和 BI 的关键组成部分。
此时,市场上有几种 BI 选择,但是它们只能使用存储在数据仓库中的数据。然后,比尔·恩门和拉尔夫·金博尔用企业数据分析的维度方法革新了商业智能行业。
虽然两位工程师有不同的方法,但他们都认为可以从多个来源提取数据进行全面集成和分析。
BI 2.0 和 Tableau 1.0
像互联网和收集的数据一样,商业智能在 20 世纪 90 年代和 21 世纪初蓬勃发展。BI tools 开始增加企业资源规划(ERP ),帮助整合、管理和自动化公司数据。BI 也变得更加用户友好和快捷。它通过机器学习增加了预测分析,并通过互联网和云技术改善了可视化。
Tableau 1.0 在 21 世纪初上市,当时斯坦福大学的学生 Pat Hanrahan、Christian Chabot 和 Chris stopped 发布了 Tableau 的第一个版本。虽然以今天的标准来看,Tableau 1.0 很粗糙,但它让数据对视觉思考者(也就是大多数人)来说很明显。
Tableau 用他们的专有技术 VizQL 消除了编码的需要。拖放功能允许用户进行查询,并提供图形响应和见解。换句话说,任何人都可以使用 Tableau,他们使用得越多,Tableau 就越了解用户想要看到的信息类型。
BI 3.0
如今,几乎每个大中型组织都依靠 BI 来做出明智的数据驱动型业务决策。最好的 BI 工具可以跨平台使用,因为它们利用了人工智能,所以它们在不断地学习和发展。
Tableau 在 BI 市场上引起了如此大的轰动,以至于 CRM goliath Salesforce 在 2019 年收购了该公司,Salesforce 首席执行官 Marc Benioff 称之为“软件行业历史上最好的收购”。
今天, Tableau 为许多世界上最大的企业的业务战略提供了动力,但该平台是各种规模的组织都负担得起的。他们甚至提供个人订阅。
什么是 Tableau?
Tableau 是数据科学家的最爱,但它是为每个人设计的。该公司通过使平台对外行人开放,使数据科学民主化,而不管他们的技能组合如何。因此,创建有价值、可操作的报告并不需要编程或数据科学专业知识。
Tableau 获取原始数据,并以简单明了的格式将其转化为可操作的情报。技术和非技术用户都可以创建可视化仪表板和工作表。如果你想知道 Tableau vs Power BI 以及它们有什么不同,请查看我们关于这个主题的完整指南。
Tableau 的桌面版可以在 Windows 或 Mac OS 上运行,Android 和 iOS 用户都可以登录移动版。Tableau 有自己的专有语言,叫做 VisQL(类似于 sQL),但是大部分桌面代码都是用 C++写的。
Tableau 的主要特点:
复杂的数据可视化
当你做演示时,不要带着一排排的数字走进会场,你很可能会尝试用多种颜色和图案来创建一个视觉演示,这样你的观众就可以很容易地跟上。
有道理。电子表格上的数字很好,但即使高度可视化的数据表示对技术来说相对较新,人类也进化到扫描我们环境的颜色和模式,而不是电子表格上的数据行。
Tableau 的数据可视化不仅仅是提供数据;它在数百万、数十亿甚至数万亿条数据线和代表它们的图像之间编排了一种舞蹈。
通过丰富多彩的图表,Tableau 创造了一个叙事,即使是非数据科学家也能掌握完整的画面。Tableau 提供标准的条形图和饼图以及更高级的图表类型,如箱线图、项目符号图、甘特图、直方图、运动图、树状图等。
实时分析
企业领导人不应该每次想写报告时都要咨询数据分析师。而如果数据陈旧或不完整,又有什么意义呢?相反,访问您的数据并创建最新的报告,以查看任何或所有重要指标的准确情况。
Tableau 让您根据实时整体或分段绩效做出明智的业务决策。访问最新的销售和库存报告,无需等待您的 IT 部门。此外,Tableau 的向下钻取功能提供了任何后续问题的答案。
实时分析对组织意味着什么?首先,他们让您在问题升级之前解决问题。此外,员工、部门主管、高管甚至董事会成员都可以立即访问个人或组织的绩效指标,并能够进行自己的查询。
然而,Tableau 不仅仅是一个报告软件。如果您看到一个问题,该工具可以让您深入查找问题的根源。例如,是某个地区或位置表现不佳,还是整个公司表现不佳?或许生产成本或公司支出正在上升。Tableau 让你找出漏洞在哪里,这样你就可以堵住漏洞。
数据混合
中型和企业级的公司经常不得不执行杂耍行为来管理来自多个来源的数据。例如,许多组织使用两个或更多的客户关系管理(CRM)软件,每个软件都有自己的数据。此外,每个部门可能都有自己的数据和报告软件。
也许你需要比较销售和库存报告或搜索引擎优化和其他数字营销指标的实际销售。或者,也许你需要结合你所有的社交媒体指标。Tableau 可以从实时和内存数据源、数据仓库、云、大数据、电子表格、关系和非关系数据库中提取数据,
在数据混合技术出现之前,分析师必须处理和手动处理多个电子表格、VLOOKUPS 和脚本来构建全面的数据集。即使我们忽略手动组合不同数据集所浪费的时间以及对数据分析师的额外要求,手动流程也是无效且不可扩展的。然而,随着指数级的数据增长,可扩展性是必需的。
Tableau 的数据混合功能允许用户组合不同的数据源,以创建公司客户、财务和其他关键指标的 360 度视图。此外,Tableau 支持多种数据连接器,如 Google Sheets、Google Analytics、Amazon Athena、Salesforce、SQL Server、Presto、Dropbox、MemSQL、Amazon Athena、Microsoft Excel 等等。
Tableau 是可伸缩的、精确的、快速的,它为最复杂的组织问题提供了答案。
合作
数据不应该生活在真空中。成功的公司是由拥有共同目标的人建立起来的。协作使团队能够朝着那个目标努力。事实上,鼓励协作体验的公司提高了员工的忠诚度。
Tableau 是为协作而设计的。团队成员、部门主管和高管可以进行查询,并创建复杂混合数据集的清晰可共享的可视化效果。此外,将报告发布到 Tableau Online 或 Tableau Server 的速度快如闪电,使决策者能够快速访问他们未来规划和执行所需的数据。
Tableau 仪表板
Tableau 的仪表板为用户提供了多个数据集的整体和同步视图。工作表和仪表板是相连的,这意味着如果修改工作表,相应的仪表板也会改变,反之亦然。两者都会随着数据源的变化而自动更新。
Tableau 仪表板省去了在多个工作表之间导航的麻烦。仪表板是完全可定制的。例如,如果您每天都访问相同的报告,您可以设置仪表板,以便一次查看所有报告。用户只需从工作簿底部的选项卡中访问他们的数据。您只需双击或拖放即可将字段添加到视图中。
地图
Tableau 不仅仅是图表和图形。也许您想了解天气如何影响地区销售,或者想了解特定地区或当地法律法规的统计数据。Tableau 的地图功能可以让你精确到城市和邮政编码的活动。Tableau 允许您向数据中添加易于理解的地理环境。
移动数组
有 24 个时区、七大洲和 195 个国家。今天的许多企业至少在某种程度上是一天 24 小时运营的。此外,越来越多的人至少有一部分时间在家工作,通常是在正式工作日之后。
强迫人们一天 24 小时坐在电脑前是不现实的,这就是为什么现代软件在联网的桌面或移动设备(如电话或平板电脑)上良好运行至关重要。 Tableau Mobile 让您的数据触手可及,无论您何时需要,甚至是在度假中。
安全性
网络安全或许是科技行业面临的最大热点问题。每年,我们都会看到数据泄露数量的大幅增长。糟糕的数据安全性将您的公司和客户置于风险之中。 Tableau 遵循所有安全最佳实践,包括加密、HTTPS 安全、账户验证、密码保护的密码、多重身份验证以及登录尝试失败后的锁定。
询问数据
把 Tableau 想象成你的数据的搜索引擎。用户只需要用他们的母语输入一个查询,Tableau 就会自动以可视化的方式回答。询问数据理解用自然语言表达的复杂问题,并支持分析性描述性、预测性和规范性概念。
询问数据理解时间问题,例如“最早”或“最后一个季度”此外,它还理解可量化的问题,如“最畅销”或“最受欢迎”,以及空间分析问题,如“在哪里”
画面是多么的不同
威瑞森、益百利、网飞和法拉利等公司依赖 Tableau 将数据转化为可操作的情报是有原因的(实际上是几个原因)。Tableau 可以连接几乎所有类型的数据库,它的“实时视觉分析”可以在非常用户友好的地图和图表中产生可操作的结果。
Tableau 是给决策者看的,他们想在行动前看到。它易于共享,是混合多种数据源的专家,并通过图表、图形和地图提供“实时”可视化分析。与许多 BI 工具不同,Tableau 处理来自各种来源的数据,包括内部、云和数据仓库。
谁使用 Tableau?
Tableau 提供各种功能来帮助各个行业,从技术到体育管理,以及介于两者之间的一切。此外,BI 工具为营利性部门、非营利性组织和政府机构的决策者提供了支持。
世界上许多最大的公司信任他们的数据和 Tableau 数据驱动的决策。然而,一家公司不一定要在财富排行榜上才能将数据转化为明智的商业决策。
Tableau 提供三种订阅级别,各种规模的公司,甚至是个体经营者都负担得起。
Tableau 创建者——每个用户每月 70 美元(注意,每个组织至少需要一个创建者)
创建者许可证可以访问 Tableau 的所有功能和控件。此外,它还包括许多高级功能,如服务器部署监控、服务器管理、编程内容迁移,以及引入其他数据源的能力。
Tableau Explorer——每位用户每月 42 美元
资源管理器许可证授予用户访问权限,以便与仪表板和可视化效果进行交互。此外,用户还可以下载、整理和共享数据和报告,但它不允许用户输入数据。Explorer 许可持有者可以管理用户和权限。但是,其他管理功能留给创建者。
Tableau Viewer——每位用户每月 15 美元
不足为奇的是,查看者许可证的权限最少。但是,用户可以查看仪表板和可视化效果并与之交互。虽然他们不能访问完整的数据集,但他们可以访问汇总数据。
Tableau 主要特征
- 仪表板–组织数据的整体和可定制的可视化
- 协作–实时共享数据和可视化,实现实时协作。
- 实时和内存中的数据–使用 Tableau 的实时连接从源或内存中提取数据。
- 高级可视化——自然,Tableau 创建条形图和饼图。尽管如此,它的高级可视化还包括箱线图、子弹图、甘特图、直方图、运动图和树形图,而这只是冰山一角。
- 地图——Tableau 的地图功能可以让用户看到趋势发生在哪里。
- 高度可靠的安全性–Tableau 遵循所有行业最佳实践。
- 移动视图——通过手机或平板电脑创建仪表板和报告。
- 问数据——Tableau 懂几十种自然语言。用户不一定要成为数据科学家才能在数据中找到答案。
- 趋势线和预测分析——拖放技术为预测和预测创建趋势线。
- 跨数据库连接–通过多个数据集揭示洞察力。
- 嵌套排序–根据标题、轴或字段标签对数据进行排序。
- 拖放集成–Tableau 的拖放功能创建了快速的用户驱动的定制和格式化。
- 数据连接器–Tableau 支持几十个数据连接器。
- Prep Conductor–使用 Tableau Prep 清理和组织您的数据,并连接到数十个数据连接器中的一个。
- 文本编辑器——以你认为有意义的方式格式化你的文本。
- 修订历史–修订历史让决策者和查看者看到数据如何随时间变化。
- 许可视图–所有许可证持有者都可以查看控制面板和报告
- ETL 刷新–在添加新数据时自动或手动刷新
- Web 数据连接器——连接到云以及几乎所有其他在线数据源
- 分割功能–分割数据以在所有支持数据源中创建新字段
Tableau 产品
- Tableau Desktop–Tableau Creator 的一个标准功能,Tableau Desktop 提供了一个交互式仪表盘和实时可视化分析
- Tableau 服务器–安全的组织范围数据共享
- tableau Online–通过浏览器或移动应用程序进行基于云的访问、发布和共享
- Tableau Prep–Tableau Prep 帮助企业和分析师清理、组合和形成数据。Tableau Prep Builder 帮助建立数据流,Tableau Prep Conductor 让公司调度、监控和管理这些数据流。
- tableau CRM–与您的 Salesforce CRM 协同工作,发现宝贵的客户见解。
- Tableau Public–Tableau Public 对任何希望提高自己的分析技能或了解 Tableau 更多信息的用户免费开放。
- 数据管理–确保您的业务决策基于最新的相关数据。
- 服务器管理–快速、高效的集中式数据管理
- 嵌入式分析–轻松定制、集成和部署自助式分析。
- Tableau 集成–连接多个本地连接器和合作伙伴生态系统。
Tableau 的最新更新功能
数据和互联网在不断发展,Tableau 也是如此。其最新版本 2021.4 具有更新的虚拟连接、连接的应用程序和改进的 Slack 集成。
Tableau 的未来更新
- 工作簿优化
- 改进的搜索体验
- Ask 数据的短语生成器
- 内置的企业部署指南
- 背景资源限制
- 其他自定义
- 拼花文件支持
- 新加速器
- 新连接器
- 独立网关
- 监控超级假脱机
- 松弛集成监控
- 根表交换
- TabPy 模型评估
- 滤波器性能优化
- 改进的 Esri web 数据连接
- 新的 viz 工具栏
- 改进的 web 创作
- 查看加速度
- “静默”自动身份迁移
- 管理员控制的基于使用的发布频率
- 与 Tableau Prep Conductor 链接的任务功能
- viz 加载时间的管理洞察
- Tableau 准备中的增强参数
- 加速客户参与视图
- 宽松准备流程通知
- Salesforce 数据虚拟连接支持
- 简化的 OAuth 登录
- Tableau 目录的虚拟连接集成
其他画面特征
Tableau 的新冠肺炎数据中心包含所有最新的地方、州、国家和全球数据,这些数据随时可以与您的数据融合,以创建可操作的情报,帮助您的公司随着疫情的推移而蓬勃发展。
疫苗管理使医疗保健和生命科学组织和政府机构能够跟踪疫苗分发和其他对结束疫情至关重要的指标。Tableau 甚至创建了自己的案例研究,以了解 COVID 如何影响其销售渠道。
Tableau 优势
Tableau 功能丰富且不断发展,但有几个功能非常突出。
- 数据可视化——人类的大脑并不是为了理解页面上的一堆数字而设计的。Tableau 的数据可视化通过丰富多彩的交互式图表、图形和地图将这些数字呈现出来。
- 拖放–Tableau 的拖放功能允许用户试验各种数据集并简化数据可视化。
- 专为处理海量数据而构建——Tableau 可以管理来自不同数据源的数百万行数据。
- 移动支持–用户不必受限于桌面来创建和查看定制报告
- 问数据查询——大多数人不会用编程语言思考。Ask Data 允许用户用他们的自然语言创建查询。
Tableau 有多难?
Tableau 很容易上手。它的拖放功能意味着用户不需要了解 Python 或 R 等语言就可以创建可视化效果。然而,利用其更高级的特性需要一个学习曲线。
Tableau 中的职业
使用 Tableau 的作业类型
Tableau 非常适合任何数据驱动的组织,也就是说所有的组织。大多数 Tableau 职位,如开发人员、分析师、软件工程师等,都要求应聘者精通一些语言,如 R、SQL、Python、Java、C++、C#、TypeScript/JavaScript 等。此外,了解机器学习、建模和统计对大多数职位来说都是加分项,对一些职位来说则至关重要。
大多数 Tableau 开发人员每年能赚 10 万美元左右。高收入人群的收入在16.5 万美元左右。然而,额外的编码和数据科学技能会增加你对公司的价值。
谁在为 Tableau 招人?
接洽合作伙伴正在招聘一名 Tableau/SQL 开发人员。该职位要求申请人编写 SQL 查询,但他们也要求熟悉其他查询工具,如业务对象,水晶报表,Oracle,SAS 等。
该职位要求计算机科学、数据科学或相关专业的大学学位或证书(如 DataCamp 提供的)。该清单没有提到工资,但预计在 8 万美元至 10 万美元之间。
海湾国家丰田有限公司正在寻找一个建筑桌面。他们需要 SQL 以及开发和优化大型数据集查询的经验。该公司提供 7.1 万美元至 15.5 万美元的薪酬。
为什么你应该学习 Tableau
您已经知道数据呈指数级增长,这可能是吸引您加入 DataCamp 的原因之一。Tableau 允许公司混合和管理大型数据集,随着数据集的增长,对 Tableau 开发人员和分析师的需求也会增加。
即使没有计算机科学学位,DataCamp 也为其毕业生在 Tableau 的有利可图的职业生涯做准备。实践课程包括:
了解更多关于 DataCamp 如何让您为这个迷人且不断扩展的领域做好准备。
所有组织都需要至少一个创建者许可证持有者。创建者可以利用所有 Tableau 产品,包括服务器管理、数据监管和清理。从那里,它将取决于具体的需求。
Tableau Explorer 许可证授权用户使用现有数据创建可视化效果和仪表板。
Tableau 查看器许可证通常由 IT 部门以外的人持有,他们需要访问报告,但不一定具备构建仪表板的技能,例如销售和营销总监,甚至是首席执行官。
对于完整的功能,大多数组织购买 Tableau 桌面,这是 Tableau Creator 的标准配置。然而,Tableau 提供了其他几个产品,增强了 Tableau 平台的功能和便利性。
Tableau Server 允许组织范围内的共享,Tableau Server 允许组织在整个公司内共享数据。此外,Tableau online 允许员工在家或在现场时访问 Tableau。
Tableau Prep 是一个数据管理工具,用于清理、组合和整形数据以及管理流。
Tableau 运行在微软 Windows 8/8.1 和 Windows 10 上,以及 macOS Mojave 10.14、macOS Catalina 10.15 和 Big Sur 11.14 上
Tableau Mobile 在 Google Play 和苹果应用商店都有售。
Tableau 最大的优势之一是 Ask Data 能够理解来自数十种口语的自然语言查询。
有一个免费下载的 Tableau 版本,叫做 Tableau Public。虽然它的功能有限,但它是一个优秀的学习工具。
Tableau 支持几乎所有的数据连接器和数据源,包括电子表格、本地文件、数据仓库、云、关系数据库和大数据。
说到数据可视化,Tableau 几乎是无与伦比的。您可以通过图表、图形、地图、表格、图形、仪表板等查看您的数据。
Tableau 对所有数据驱动的部门都很有价值,包括销售、营销、会计、物流、人力资源、客户支持等。因为数据驱动决策,所有部门的决策者都需要访问 Tableau 报告。
Tableau 的财务分析消除了手动流程,并提供了做出明智财务决策所需的所有信息。从监控差旅和费用,到审计、风险和合规性分析,Tableau 对任何会计或财务部门都至关重要。
对 7 大热门数据科学职业的分析
数据处理、分析和可视化是使用 R 及其相应的软件包完成的。使用的笔记本和相关文件可以在这里找到。
根据韦氏词典词典,数据是用作推理、讨论或计算基础的事实信息。根据这一定义,数据基本上是任何收集到的信息,这些信息可以被使用并进一步处理和分析以获得洞察力。它通常与计算机联系在一起,因为数据通常是在计算机中产生和存储的,然而数据存在的时间比我们想象的要长得多。
数据历史
人类存储和分析数据的最早例子可以追溯到公元前 18000 年,当时人们发现史前人类使用计数棒作为进行初步计算的手段。这些旧石器时代的部落人们在棍子和骨头上做记号来记录他们的活动,比如交易和监控供给。公元前 2400 年,巴比伦发明了算盘,一种用于计算的工具。
纵观历史,数据收集、处理和分析的不断发展通过大量的石碑、泥土、纸莎草纸、木头和纸卷上的文字体现出来。最终,随着更多形式的数据被发现,对处理、收集、存储和分析数据的需求也随之发展。
随着人类社会变得越来越先进,对处理数据的要求也越来越高。19 世纪,美国开始进行人口普查。人口普查中的数据点数量呈指数增长,美国人口普查局估计需要几年甚至几十年才能收集和分析人口普查中的所有数据。这在很大程度上是有问题的,因为只有在下一次人口普查即将开始或已经开始时,才能完成对当前人口普查数据的汇编和分析。幸运的是,一位名叫赫尔曼·何乐礼的年轻工程师兼发明家发明了霍尔瑞斯制表机——一种机电制表机,它将收集和分析人口普查数据所需的时间从几年缩短到仅仅几个月。正因为如此,霍尔瑞斯被认为是现代自动计算之父,后来因创立 IBM 而闻名。
快进到 20 世纪,电脑的发明。随着更强大的计算机器的出现,对数据存储提出了更复杂的要求。德国-奥地利工程师 Fritz Pfleumer 发明了一种在磁带上磁性存储信息的方法。他的发明的一些原理今天仍然被用于数字数据存储。在这个时代,“商业智能”一词变得流行起来,因为对新兴软件以及用于分析商业和运营绩效的系统的需求迅速增长。
当蒂姆·伯纳斯·李在 1989 年创建了万维网,也被称为互联网时,数据革命真正改变了。这导致了全世界人们之间的自动化信息共享。这意味着如今更多的数据被共享、创建和存储,从而产生了收集、使用和分析数据的新方法。
向“大数据”过渡
由于 20 世纪 90 年代互联网的惊人增长以及个人电脑和计算设备的稳步发展,在线设备的数量(以及随之产生的数据量)快速增长。
虽然大数据的概念甚至在 20 世纪 90 年代之前就已经存在,但直到 2005 年 Roger Mougalas 才正式给它贴上标签。他将其描述为“使用传统商业智能工具几乎不可能管理和处理的大量数据。”
大数据是一个用于描述大量数据的术语,包括结构化和非结构化数据,这些数据每天都让组织不堪重负。它包括信息量、创建和收集信息的速度以及所涵盖的数据点的种类或范围。
鉴于大数据的规模和复杂性,收集、组织和分析大数据以发现模式和其他有用信息的过程已经成为帮助许多组织做出业务决策的一部分。反过来,这又催生了数据科学——这是一个跨学科领域,它使用来自大量数据的科学方法、流程、算法和系统来揭示模式,并使企业领导人能够获得明智的见解。
什么是数据科学?
根据 IBM 的说法,数据科学是一种多学科方法,用于从当今组织收集和创建的大量且不断增长的数据中提取可操作的见解。该领域通常需要计算机科学和纯科学技能,因为数据科学家在他们的方法中应用科学方法,并使用预测分析和人工智能从数据中提取见解。
如今,“数据科学”经常被企业和组织用作处理大量数据的过程的总称,无论是准备、清理、分析还是可视化数据以揭示模式。这些只是人们可以从事的数据科学职业的一部分:
-
Data Scientist:
数据科学家需要能够应用数学、统计学和科学方法;使用多种工具和技术清理和准备数据;执行预测分析和人工智能;并解释如何使用这些结果为业务问题提供数据驱动的解决方案。他们比数据分析师需要更多的技术技能。首先,你可以在 DataCamp 上学习面向数据科学的课程,比如:面向数据科学的 Python 简介和R 简介。
-
Data Analyst:
数据分析师收集、处理和执行统计数据分析,以得出对组织有意义的结论。它们将大型数据集转换和操作成可用的形式,如报告或演示。他们还通过研究重要的模式来帮助决策过程,并从数据中收集见解,然后他们可以有效地与组织领导沟通,以帮助业务决策。DataCamp 上的这些课程可能会帮助你开始你的数据分析师生涯:SQL 简介和SQL 中的探索性数据分析。
-
Data Engineer:
数据工程师负责准备、处理和管理收集和存储的数据,以供分析或操作使用。像传统的工程师一样,数据工程师构建和维护数据“管道”,将数据从一个系统连接到另一个系统,使数据科学家可以访问信息。因此,数据工程师需要了解数据科学中使用的几种编程语言,如 Python、R 和 SQL。像这样与数据工程相关的话题在 DataCamp 上都有:数据工程简介和面向所有人的数据工程。
-
Data Architect:
数据架构师主要为数据工程师构建的数据管理系统设计和创建蓝图。与传统架构师类似,数据架构师是“远见者”,因为他们负责可视化和设计组织的数据管理框架。此外,数据架构师提高了现有系统的性能,确保数据库管理员和分析师可以访问它们。你可以参加与数据架构相关的课程,比如 DataCamp 上的课程: AWS 云概念和数据库设计
-
Business Intelligence (BI) Developer:
BI 开发人员是专门的工程师,他们使用软件工具将数据转化为有用的见解,以帮助业务决策。他们负责简化技术信息,以便公司中的其他人容易理解。简而言之,他们创建并运行包含使用商业智能工具找到的数据的报告,并将信息转换成更通俗的术语。DataCamp 上提供了关于使用商业智能相关工具的课程,如微软 Power BI 和 Tableau,如:Power BI 简介和分析 Tableau 中的数据
-
Statistician:
鉴于统计学是数据科学的主要基础之一,许多统计学家可以很容易地过渡到数据科学领域。统计人员主要负责数据的收集和处理。他们决定需要什么数据以及如何收集数据。此外,他们设计实验,分析和解释数据,并报告结论。您可以在 DataCamp 上查看这些统计学入门课程:R 中的统计建模简介和电子表格中的统计简介。
-
Machine Learning Engineer:
机器学习工程师是另一群专门的工程师,他们专注于研究、构建和设计人工智能(AI)和机器学习(ML)系统,以自动化预测模型。基本上,他们开发算法,使用输入数据并利用统计模型来预测输出,同时随着新数据的出现不断更新输出。DataCamp 有许多与机器学习相关的课程,你可能会发现这些课程很有用,例如:面向所有人的机器学习和带插入符号的机器学习
快速的网上求职可以让你知道上面列出的哪种数据科学职业道路最受欢迎。下图显示了截至 2021 年 12 月 8 日实际上是美国的每条职业道路的职位空缺。
数据架构师似乎是最受欢迎的数据科学职业道路,因为他们在创建其他数据科学专业人员随后使用的数据管理系统方面非常重要。名单上的下一个是机器学习工程师,因为在许多科技公司中,利用人工智能预测结果非常重要。
需求最少的是统计学家,主要是因为许多传统的统计学家现在正在成为数据科学家。鉴于统计学家从纯统计转向数据科学是多么容易,因为他们已经拥有成为一名成熟的数据科学家所需的基础知识,这一趋势预计将继续下去。
数据科学没有减速
数据科学领域在 2010 年代非常受欢迎,尤其是当“数据科学家”被《哈佛商业评论》吹捧为“21 世纪最性感的工作”时。它变得如此受欢迎,以至于“数据科学家”这个头衔成了一个无处不在的时髦表达。虽然“最性感的工作”这个词一开始听起来确实很荒谬,但它主要指的是数据科学家不仅受欢迎,而且雇佣成本高昂,难以留住。
毫无疑问,数据科学如今非常受欢迎,但更好的问题是,它在未来还会如此受欢迎吗?根据就业预测,情况似乎确实如此。来自美国劳工统计局的 2020-2030 年就业预测数据显示,从 2020 年到 2030 年,数据科学职业,包括统计学、数据科学和其他基于数学和科学的职业,如数据工程,将以百分比变化的形式呈现非常高的增长率。统计学家总体排名第 14,而数据科学家和其他数学科学职业在数据包含的 790 个职位中总体排名第 31。
虽然与其他职业相比,统计学家和数据科学家在总劳动力中所占的份额较小,但随着数据科学职业道路越来越受欢迎,这些数字预计将在未来几年内增加。下图显示了统计学家、数据科学家和其他数学科学职业与其他高增长工作的对比。
一个非常昂贵的领域
数据科学受欢迎的一个主要原因是因为它是世界上薪酬最高的工作之一。下图显示了纽约市 10 种不同职业的薪资范围,包括数据科学家和数据分析师。这些数据来自于一个名为 Teleport 的网站,该网站收集了不同城市的生活条件(如工资)数据。
根据 Teleport 的数据,数据科学家的年薪中位数在纽约市排名第四,为 114105 美元,仅次于高管和医疗保健工作者。事实上,在马尼拉等其他一些城市,数据科学家的排名高达第二,仅次于 C 级高管。这足以说明这份工作有多赚钱。数据分析师的工作虽然不像数据科学职位那样赚钱,但仍然不容忽视。数据分析师的年薪中值为 61,818 美元,仍接近纽约市的平均家庭收入。
在就业市场不断增长
数据科学受欢迎的另一个主要原因是,如今组织如何将数据科学的原则集成到日常运营中。下图显示了工作中涉及数据科学的 10 大行业。8000 家面向数据科学的公司的样本数据都是从全球最大的知识图谱 Diffbot 中提取的。
毫不奇怪,软件公司——包括谷歌、苹果和优步等科技公司——拔得头筹。毕竟,大数据的异常增长是由互联网的诞生引起的,而互联网与软件和技术密切相关。数据科学实际上是使用各种工具和技术处理大量信息。
名单上的下一个是金融服务公司,这是由金融科技公司的崛起带来的。作为“金融”和“技术”的结合体,金融科技公司将技术和创新融入其服务和产品中,以改善其对客户的交付,并颠覆传统的金融服务。由于它涉及处理大量数据(如客户信息),金融服务公司看到了数据科学工具在帮助简化和优化流程以及改善服务方面的潜力。
总之,从事数据科学职业值得吗?
有了以上所有的解释,答案是肯定的!至于你应该走哪条具体的数据科学职业道路,这主要取决于你的个人优势和一般兴趣。重要的是,上面提到的任何一个职业,肯定都是值得的。
数据科学是一条非常有利可图的职业道路,而且在受欢迎程度方面似乎没有放缓的迹象,在未来许多年里,数据科学将继续塑造和影响企业和组织的运营方式。
弗朗索瓦·乔莱访谈
弗朗索瓦·乔莱(Franç ois Chollet)是一名人工智能和深度学习研究人员,是领先的 Python 深度学习框架 Keras 的作者,并出版了新书 用 Python 进行深度学习 。为了配合这本书的发行,我有幸通过电子邮件采访了弗朗索瓦。欢迎通过 @fchollet 和 @hugobowne 联系我们。
弗朗索瓦,你是谷歌的软件工程师和人工智能研究员。我想更多地了解你的工作。但是首先,人们实际做的事情和大众对他们所做的事情的印象是不一致的。人们认为你是做什么的?
这是一个敏锐的观察,人们所知道的,他们希望被知道的,以及他们实际上正在做的,通常是有差异的。就我而言,我最出名的可能是创建了深度学习框架 Keras。
你实际上是做什么的?
我在山景城的谷歌大脑团队工作,在那里我花了大部分时间开发 Keras。所以我相信我做的和人们认为我做的有很好的一致性。
我还为谷歌的机器学习框架 TensorFlow 做出贡献,Keras 与该框架进行了集成。此外,我还对一系列课题进行研究。最近,我在写关于机器翻译、计算机视觉以及将深度学习应用于定理证明的论文。我的主要研究兴趣是理解人工智能中的抽象和推理问题——如何从感知到抽象、高度概括的模型。
你作为 Keras 包的作者而闻名,Keras 包是 Python 中深度学习的开源神经网络:什么是深度学习?
深度学习是机器学习的一种特定方法,它比以前的方法更加强大和灵活。在大多数应用程序中,我们所谓的“深度学习”可以被认为是一种将大量由人类注释的数据转化为一个软件的方法,该软件可以以类似于人类的方式自动注释新数据。通过这种方式,您可以自动化许多不同的任务。深度学习尤其擅长理解“感知”数据,如图像、视频或声音。
这里有一个具体的例子。考虑一个大的图片集合,每个图片都有一些标签(“狗”、“猫”等)。深度学习可以让你自动将数据转化为一个“理解”如何将图片映射到标签的系统,只需从例子中学习,不需要任何手动调整或定制工程。这样的系统可以应用于新的数据,有效地自动化标记图片的任务。
同样,你可以将深度学习应用于广泛的问题,如机器翻译、语音识别、文本到语音、光学字符识别等。
恭喜你的新书,用 Python 深度学习。你为什么写这本书?
这本书是我试图提出一个课程,向具有 Python 编码能力但没有机器学习背景的人教授深度学习。我试图让深度学习尽可能容易理解,而不降低任何东西。事实证明这是可能的,因为在深度学习中,大多数情况下没有困难的想法。
Python 可以说是发展最快的编程语言,至少在高收入国家是如此。为什么选择 Python,对您和更广泛的编程社区都是如此?
我喜欢 Python。它很容易上手,而且随着你学会使用它,它会变得越来越有效率,不管你已经用了多长时间。与我用过的大多数其他语言相比,它感觉非常直观和优雅。但 Python 真正的杀手级特性并不在语言本身,而是周围的生态系统和社区。无论您需要做什么——解析特定的文件格式,与特定的系统交互——几乎肯定有 Python 库来完成,所以您不必花时间来实现它。尤其是在数据科学和机器学习方面,有很多很棒的工具——numpy、pandas、scikit-learn、绘图库等。这使得 Python 成为一种非常高效的语言。
此外,我喜欢 Python 不是特定于领域的语言,而是它位于多个领域的交叉点,从 web 开发到数据科学再到系统管理。例如,这意味着您不必切换到新的语言来将 Keras 模型部署为 web API。无论你需要做什么——启动一个 webapp,查询一个 REST API,解析一些文件,训练最先进的深度学习模型,Python 通常是一个相当可靠的选择。
对于希望进入机器学习和开发人工智能学科的人来说,存在一个明显的准入障碍。你对必备技能和技术的民主化有什么看法?
我不认为那是真的。在过去的 5 年里,进入机器学习变得极其容易。当然,5-7 年前是艰难的。你可能需要研究生教育。你需要自己编写许多低级算法,通常是用 C++或 Matlab。我经历过。现在不同了。你只需要 Python,它容易掌握得多,并且你可以使用像 Keras 这样的高级和易于使用的工具。此外,你可以从大量高质量的在线资源中学习,也可以在 Kaggle 上练习解决现实世界中的问题。学习从未如此简单。
因此,在这一点上,你可以,比如说,拿起我的书,安装 Keras,做一些 Kaggle 挑战,几个月后,你就会变得相当有效率地使用机器学习和深度学习来解决实际问题。
Keras 和你的新书是如何融入这种哲学的?
当我最初发布 Keras 时,我并没有特别试图将深度学习民主化。但随着时间的推移,我看到无数人通过 Keras 学习深度学习,并用它以我意想不到的方式解决了大量问题,这真的让我着迷。我已经意识到,深度学习可以以变革的方式部署到比硅谷人所怀疑的更多的领域。有太多的人可以从工作中使用深度学习中受益。因此,我越来越关心让尽可能多的人使用这些技术,这已经成为 Keras 的头号设计目标。这是我们最大限度地部署人工智能的唯一方法——让它广泛可用。
我的书试图在同一方向上迈出另一步:我试图让尽可能多的人正确地参与深度学习,这样他们就可以开始用它来解决他们熟悉的问题,而我甚至不怀疑这些问题的存在。仅仅提供易于使用的工具是不够的,你还应该提供学习材料来教人们如何使用这些工具。
初学者学习最重要的是什么?他们怎么能这样做?
最重要的大概是对深度学习能做什么,不能做什么有个大概的认识。并且感受关键的最佳实践,例如如何正确地评估模型以及如何防止过度拟合。这需要正式的解释和对现实世界问题的大量实践相结合。
对很多人来说,人工智能这个术语会让人想到有感知能力的机器人。我们看到诸如“谷歌人工智能创造了自己的‘孩子’人工智能,比人类建造的系统更先进”的头条新闻。我需要你的帮助来揭开人工智能到底是什么的神秘面纱。人工智能有什么能力?
毫无疑问,这个领域有很多炒作。大多数关于人工智能和深度学习的媒体报道都与现实严重脱节——无论是吓人的故事还是关于人工智能将如何让一切变得美好的故事。
至于 AI 今天能做什么,那是个难题。我认为人工智能可以做三类事情:
- 在我们能够完全、明确地指定人工智能需要遵循的规则的地方做任务。这本质上就是所谓的“符号人工智能”,或者更务实地说,“软件开发”。任何做过编程的人都知道,这种方法是脆弱的,只在每个人都在控制之下的情况下有效——这在现实世界的问题中很少出现。
- 做简单的感知和直觉任务,我们不能明确指定规则,但我们能够提供许多任务的例子。这包括所有的深度学习:分类图片,转录语音等。在这方面,我们能力的一个重要限制是,我们的模型只能处理非常接近他们以前所见的输入——你不能离你的训练数据太远。我们在这里做的基本上是美化的高维曲线拟合。
- 以上这些相当幼稚的组合。例如,你可以想象一个机器人,它有一个深度学习模块,可以提取周围许多物体的类型和位置,通过许多例子进行训练,再加上一个硬编码高级规则的模块来操作这些物体。另一个例子是 AlphaGo/AlphaZero,这基本上是蛮力搜索(显式编程)与经过大量游戏训练的深度学习模块的结合,可以“直观地”评估棋盘位置的价值。
碰巧的是,当最大限度地利用当前技术的潜力时,你可以在许多重要的任务上获得超人的表现,并且在更多的任务上获得体面的表现。但这仅在非常狭窄的环境下才有可能。而且,也许与直觉相反,没有一条真正的道路能让你非常擅长许多不同的垂直任务,拥有甚至是一个蹒跚学步的孩子的一般智力和常识,更不用说它的学习和适应能力了。
也就是说,真正擅长许多非常狭窄的任务对于大多数行业来说是变革性的。因此,你可以预计人工智能将在未来 20 年带来巨大的经济冲击。你可以将人工智能视为我们时代的蒸汽机——人类手中非常强大的工具,将在几十年内重塑经济格局。但是看不到有意识的机器人。
人工智能不能做什么?
在我们可能希望能够自动化的所有事情中,人工智能今天只能处理非常小的一部分。我们不能做的事情远远多于我们能做的事情。
总的来说,我们尤其不擅长:
- 任何需要“接地气”或者“懂”的东西。例如,人工智能无法理解自然语言的含义,而是根据统计依赖或硬编码的处理规则来处理语言。“意义”,因为它存在于人类的头脑中,来自人类经验的体现,这是我们的人工智能模型无法访问的。至少现在是这样。因此,今天没有一个人工智能系统能够以对人类有意义的方式“理解”它的任务。模型仅仅描绘了它们的训练数据的统计流形。
- 任何涉及处理不同于人工智能之前所见的数据的事情。人工智能只能应用你明确编码的规则,或者识别非常非常接近它被训练的东西。你在任务中引入的不确定性或变化越多,我们的能力就呈指数衰减。
- 任何涉及推理和抽象的东西。要么我们可以将显式推理规则硬编码到机器中,要么我们根本无法执行推理。当前的人工智能无法用自己的抽象模型来解决一个情况。可以说这是今天人工智能发展的主要瓶颈。如果你解决了这个问题,你很快就能克服前两个问题。
我写了一篇名为深度学习的局限性的博文来讨论这个问题和相关问题。
深度学习社区面临的主要挑战是什么?
打击炒作,培养道德意识,获得科学的严谨性。
炒作:这是困扰我们领域的问题。有些人以荒谬的方式大肆宣传最近的进展,极大地夸大了我们目前的能力,并经常把人类水平描绘成指日可待——事实并非如此。如果我们设定了极高的期望,却无法实现,我们就是在让人们反对我们。此外,这只是智力上的不诚实,对公众辩论有害。
伦理:今天部署人工智能系统的大多数人并没有来自特别多样化的背景,并且通常幸福地意识不到他们构建的系统的伦理含义和有害的副作用。这是一个主要问题,因为这些人对其他人的权力越来越大。我们需要更多地讨论这些问题,并提高对人工智能可能的不道德应用的认识,无论是影响人们生活的有偏见的预测模型,人工智能在真正有问题的地方应用,还是人工智能被用来以危险的方式操纵我们的行为和观点。
科学:每天都有大量的深度学习论文发布,其中大多数并没有真正产生任何有意义的新知识,因为它们没有遵循科学的方法。他们以模糊的方式“评估”模型,或在他们的训练数据上测试过度拟合模型(这尤其适用于生成模型和强化学习,这是深度学习研究中发展最快的两个主题),挑选结果,使用人工弱基线,以导致过度拟合特定任务的方式调整超参数,仅在 MNIST 上评估模型,等等。深度学习是科学的灾难地带。同行评审通常不会以任何有意义的方式解决这些问题,可能部分是因为大多数同行评审员通常最多在该领域工作一两年(因为该领域正在呈指数增长)。如果我们想取得更快的进展,我们需要在研究的可重复性、基线、模型评估和统计显著性方面给这个领域注入更高的严谨性期望。可悲的是,我们目前的激励体系对科学有偏见——我们激励出版,不幸的是,如果你让你的研究听起来复杂而神秘,同时又不可能正确评估其意义,那么出版就更容易了。
在你看来,深度学习的未来是什么样的?
我实际上写了一篇关于这件事的博文。总之,我预计人工智能将越来越多地将“直觉”模式识别模块与形式推理模块融合在一起。我也期待人工智能发展成为更像自动化软件开发的一种形式,借用当今软件工程中的许多模式和实践。
你不仅仅是一名开发者。在 keras 的博客上,在文章中,在你的书中和 twitter 上,你对围绕深度学习、人工智能和技术的伦理问题进行了思考和发言。你认为开发人员有义务对他们所做的工作进行道德考量吗?
毫无疑问。我认为这是近年来整个科技领域所缺乏的。例如,看看脸书。或者最多智能手机游戏。技术从来都不是中立的——因为它强大,因为它影响我们的生活。你设计产品和技术的方式是积极地给它们注入价值,不管你是否意识到这一点。所以你最好慎重考虑一下。如果你建立了一个社交媒体平台,并试图最大化“参与”,那么,这是一个伦理上的决定,具有重要的意义。要么我们关心道德,让道德成为我们建立的技术和权力结构的明确设计目标,要么我们放弃我们的价值观。如果你在科技行业,你不能选择“旁观”,那是一种错觉。
安德鲁·盖尔曼讨论选举预测和投票。(文字记录)
下面是播客链接。
介绍安德鲁·盖尔曼
雨果:你好,安迪,欢迎来到 DataFramed。
安德鲁:你好。
雨果:很高兴你能来参加我们的节目,我很高兴今天你能来谈论投票和选举预测,但在此之前,我想先了解一下你的情况。我的第一个问题是,你在数据社区以什么闻名?
Andrew:什么是数据社区?
Hugo:我认为,数据社区是当今从事数据分析技术、数据科学和大型杂乱数据集工作的人的粗略广泛的集合。
安德鲁:我最出名的可能是《贝叶斯数据分析》一书的作者之一,这本书于 1995 年出版,但从那以后我们已经出版了两个版本。这是一本书,我喜欢把它看作是第一本应用贝叶斯统计的书。所以,很多研究贝叶斯统计的人都是通过我们的书,或者用这本书作为参考。
贝叶斯统计
雨果:太好了。也许你能告诉我们更多关于贝叶斯统计的一般知识,只是作为介绍。我想我们通常会讨论两种类型的统计,贝叶斯统计和频率统计,对吗?
安德鲁:所以,在贝叶斯统计中,所有的未知,所有的未知参数和预测都与概率分布相关联。所以你用贝叶斯推理解决问题的方法是,你把你所有的已知和所有的未知放入一个联合概率分布中,然后用概率定律,在已知的情况下,对未知做出陈述。
Hugo:所以,你实际上已经做了很多工作,用一种叫做 Stan 的语言实现了很多贝叶斯技术,对吗?事实上,在这种语言中,正如你提到的,概率分布是贝叶斯统计的核心对象。我想在 Stan 和其他所谓的概率编程语言中,分布是一等公民,对吗?
安德鲁:对。没错。所以,我可以给你一个简单的例子。假设你正在进行一项教育创新,你想在干预后看看学生的考试成绩。所以你从基本的统计学概念开始,你拟合一个线性回归模型,假设给定他们的预测试分数,预测测试分数,并给出他们是接受治疗还是控制的指标。这是回归,还不是贝叶斯。只是统计建模而已。
安德鲁:它会变得或多或少的困难,它会变得非线性,你可以控制更多的预测因素,不仅仅是你的前测,而是所有的学生特征。你可以做无数的事情。它之所以是贝叶斯,是因为这个回归模型有参数,比如治疗的效果,后测在多大程度上可以从前测中预测出来。有一些参数,比如你的方差有多大,分布的形状,等等。
安德鲁:所有这些参数都有一个概率分布。我们称之为先验分布。所以,你把这些和你的数据一起放入 Stan,然后它给你一个后验分布,代表你在看到数据后对参数的不确定性。
雨果:所以,贝叶斯数据分析和贝叶斯推理,我认为,从历史上看,我们已经看到它们非常强大,但可能还没有像贝叶斯人希望的那样被广泛采用。我认为很多学习者,很多学习数据科学和统计推断的人,可能会发现贝叶斯数据分析甚至有点可怕。首先,这是对的吗?第二,为什么会这样,我们如何纠正这种情况?
安德鲁:在贝叶斯统计中,你有点像在和魔鬼做交易。你假设一个概率模型,所以你做了一个大的假设,做了这个假设,你就可以对任何事情做出预测。所以,我认为,也许在某种程度上它有点可怕,因为它太强大了,太容易使用了,就像那些 3D 打印机一样,人们害怕它们,因为它们可以打印任何东西。因此,在贝叶斯统计中,即使你有弱数据,你也可以得到推论,然后推论由你的先验分布驱动。贝叶斯统计中有一句话,权力越大,责任越大。这意味着,在贝叶斯推理中,检查你的模型的适合度,检查你的模型的合理性是非常重要的。
安德鲁:从这个意义上说,有两种统计方法。一种方法是做出非常小的假设,另一种方法是做出最大的假设。贝叶斯方法实际上是你做出最大的假设。我想说的是,你创建一个从你的假设到你的结论的书面记录,然后如果你的结论没有意义,你会发现你的假设有什么问题。出问题的可能是你的数据模型。也许你的取样有偏差,你没有意识到这一点。但是,不管是什么,在你需要来回的地方,你需要在你的假设和结论之间进行交流。
安德鲁:很多人宁愿在没有假设的情况下工作,有时你可以,我们可以谈谈例子,但基本上,如果你有一个清晰的问题和良好的数据,那么你就不需要在大量假设的情况下工作,除非假设你有良好的数据。随着数据质量变得更差,随着你的问题变得更难回答,你需要加入更多的假设,然后贝叶斯推理变得更有用。
雨果:当然,你在文章中提到的一个很棒的事情是事后检查你的模型的能力,我们现在有足够的计算能力来做到这一点,对吗?例如,一旦我们有了模型,我们就可以模拟数据的真实情况,并与我们实际看到的数据进行比较。
安德鲁:没错。我们称之为后验预测检验。人们已经这样做了很长一段时间,他们只是没有在那个名字下。统计学家弗雷德里克·莫斯特勒(Frederick Mosteller)在 20 世纪 50 年代写了一本书,他们在书中分析了一个实验的数据,这个实验被称为随机学习实验,他们实际上是给笼子里的狗电击,然后观察狗用了多长时间才知道电击即将到来。因此,他们有这个概率模型,然后在拟合模型后,他们模拟假数据,并将假数据与真实数据进行比较。
Andrew:在 20 世纪 70 年代,统计学家 Brian Ripley 从事空间统计工作,他因为参与 R 而变得非常有名,Brian Ripley 拟合空间模型,并再次做了同样的事情。他有一个似乎有点合理的模型,他从模型中刺激复制的数据,它看起来不像真实的数据,这启发了他扩展他的模型。所以,正是这样的例子促使我们将模型检查的想法形式化。我认为人们总是检查他们的模型,但是有一种感觉是它已经在系统之外了。这并不是说人们不好意思检查他们的模型,而是人们几乎会想,“我是个好人。我是一个好公民。所以,我检查我的模型。”它还没有被正式包含到统计学中,在贝叶斯框架中,你可以做到这一点。您可以将模型检查放在过程的中间,而不会感觉到它是您正在做的一些外部事情。
Hugo:我很高兴你提到了这个原因,这是我的下一个观点,它实际上融入了贝叶斯工作流,即模型检查的思想。
安德鲁:是的。
雨果:这就是贝叶斯数据分析。在数据社区中,您还有其他什么出名的事情吗?
安德鲁:我想说的是,我因统计图表而闻名,因为在 21 世纪初,我做了大量工作,试图将统计图表与统计分析相结合。因此,传统上,有这样一种想法,探索性数据分析是看着你的数据,发现有趣的模式。验证性数据分析就像处理数字,得到你的 p 值。探索性的数据分析,又一次,在统计学之外。它的支持者经常会说,“忘记所有这些愚蠢的建模东西,让我们直接看数据吧。”
安德鲁:但是,有趣的是,如果你仔细思考,探索性数据分析会发现意想不到的东西。所以,说我发现了意想不到的东西,是相对于预期的。事实上,当探索性分析与模型联系在一起时,它是最强大的。所以,我认为探索性的数据分析和统计图表,以及从可视化的数据中学习新事物,实际上非常适合贝叶斯推理和正式的统计建模。因为你符合模型,你的模型越好,你从它的伪造中学到的就越多。
安德鲁:那么,很久以前,哥白尼就有了行星围绕太阳做圆形轨道运行的模型,这很容易被证伪。但是后来,开普勒转到了椭圆轨道,所以伪造变得更加有趣,等等。所以,每次我们有了一个模型,就会激发更复杂的图形,让我们学到更多。
你是如何进入数据科学和统计学领域的?
Hugo:那么,你最初是如何进入数据科学和统计学领域的?
安德鲁:我从小就擅长数学,实际上我写过这方面的文章,不过我上高中时参加了数学奥林匹克培训项目,我发现有人比我更擅长数学。那时我们有一个非常天真的观点,所以我们不知道应用数学,我们只知道这个叫做数学的东西,我们认为能力是一维的。但无论如何,我去了大学,学习物理和数学,我不想成为一个纯粹的理论家。我只是觉得我不够好,不能以那种方式做出有用的贡献。我第一次上概率课是因为它是在晚上,这符合我的时间表。
安德鲁:所以,我学了概率和随机过程,然后学了统计学,我非常喜欢。在统计学中,我关心的每件事之间都有某种连续的联系。所以,在我能做的事情之间有一种联系,比如数学,还有政治,公共卫生,经济学,社会学,所有这些事情。从这些关于我们国家正在发生的事情,世界正在发生的事情,人们如何学习,所有类似的事情,通过定性思考,统计建模,数学分析,编程,所有这些事情的定性思考中,有一种连续的线索。所以,它对我来说非常完美。
安德鲁:我有时认为统计学应该被称为数学工程。他们有电子工程和机械工程,统计学是数学工程。
雨果:我喜欢这一点,你在这里暗示或直接谈到的是,这是你的才能和数学技能的结合,也是你对政治和社会科学的浓厚兴趣。
安德鲁:对。在大学里,我辅修了政治学,所以我觉得这很有趣。政治学是一个有趣的领域,因为你不会像在技术领域那样取得进步。你可以说从技术上来说,我们可以做各种各样高斯做不到的事情,无论如何,我相信当他看到它的时候,他可以弄明白,但是我们只是知道他们不知道的东西。在政治中,我们知道哪些霍布斯不知道的事情?嗯,很难说。很多具体的东西,比如在职优势的大小等等,但是有一点不同。更像是建筑之类的东西。我们现在有建筑,但你只是建造服务于当前目的的东西,那么也许技术的原理会改变。但是总的原则没有改变。
数据科学和统计学作为学科面临的最大挑战是什么?
Hugo:所以,在我们开始投票和选举预测之前,我想更概括地谈谈数据科学和统计学。我只是在想,现在是 2018 年,从现在开始往前走,你认为数据科学和统计学作为学科面临的最大挑战是什么?
安德鲁:一般来说,我认为统计推断有三个挑战。第一个是从样本到总体的推广,这是一个与调查抽样相关的问题,但实际上几乎在统计推断的每个应用中都出现。人们有时会说,“等等,我有 50 个州的数据。这就是人口。我们不会很快拥有第 51 个州。”即使这样,我也会回答,“好吧,你有去年和过去 10 年的 50 个州的数据,你感兴趣的是明年的 50 个州。”所以,总会有一些概括。所以,统计抽样的想法总是会出现。
安德鲁:统计学的第二个基本挑战是从对照组推广到治疗组。很多时候,我们感兴趣的是一些治疗或干预的效果,显然是像药物、教育干预或商业决策这样的事情,但也有各种社会科学的东西。每当你问为什么事情会发生,你就是在含蓄地问如果我改变一些事情会发生什么。除了极少数例外,我们没有匹配的对照组和治疗组。通常情况下,你可以做些什么的人与没有接受治疗的人是不同的,因此需要做出一些调整。
Andrew:第三个是从观察到的测量结果归纳到感兴趣的潜在结构。所以,这在教育测试中最为明显。你想知道能力,但你得到的是考试分数。所以,我们花很多时间设计仪器,设计调查问题,实验室测量。Theranos 公司的那些人,那些欺诈性的验血人员,他们所做的一切都是为了测量。所以,当你谈到挑战时,我认为那些是旧的挑战,它们仍然是新的挑战。大数据往往是杂乱的数据。所以,这不是一个随机样本,这是一个便利样本,这是一个选择加入的样本。你没有控制和治疗小组,人们选择他们自己的决定去做什么。通常,你没有对你所关心的东西进行仔细的测量,你通常只是从另一个来源获得数据,你试图适应这些数据。
安德鲁:因此,如果你想得到好的预测和合理的答案,并学习,你需要调整样本和总体之间的差异。你需要调整对照组和治疗组之间的差异,你需要建立你所关心的和你所测量的之间的联系。所有这些都需要大量的建模工作,因此,我们通常会说,你要么得到好的数据,要么得到好的模型,要么两者兼而有之。你必须做一点数据,一点工作,你必须做数据收集的工作,你还必须做模型的工作。因此,如果你有大数据,你需要大模型,那么这将需要大量的计算,这将是昂贵的。所以,你需要算法来拟合模型,近似拟合模型。我们这边有些好东西。例如,当你得到大量数据时,你的推论通常会变得更稳定,它们不一定会收敛到正确的答案,但事情可能看起来更正态分布,这来自中心极限定理。所以,这表明当你有大量数据时,某些统计方法,某些近似法可能会很有效。这很好,因为当你有很多数据时,你就更需要近似值。因此,有很多这样的事情,在应用和研究议程之间移动,但研究是为了适应这些大模型并理解它们,这将继续是一个挑战。
雨果:所以,这些都是非常重要的观点,我们实际上会通过民意调查和选举预测的镜头看到更多的关注。在我们到达那里之前,这个统计推断和统计建模的想法,我想知道怎样才能成为那个对话的一部分。我想,我的问题是,作为人类,我们不一定有良好的统计直觉,我想知道,作为一名教育工作者和统计学家,你希望看到一般人群的统计和数据素养发生变化吗?
安德鲁:看待这个问题有不同的方式。其中一些是程序性的。所以,如果有一个期望,当你有一个分析,你把你的数据放在 GitHub 上,你把你的分析放在 GitHub 上,它都是可复制的,我认为这将有所帮助。这不会让人们的分析更好,但会让人们更容易看到哪里出了问题。令人惊讶的是,让人们说出或写出他们到底做了什么非常困难。我在学生中发现了这一点,但即使是我也曾在咨询环境中遇到过,那里可能有另一方的专家,他们进行分析,并写下他们的分析,但你无法理解他们做了什么。他们会从教科书上复印三页,然后说,“我们做到了。”他们也不说他们的数据从何而来。我开始意识到很多人甚至不知道他们做了什么。人们没有工作流程,他们只有一堆数字,他们开始摆弄这些数字,在电子表格的不同位置进行计算,然后在最后,他们拿出一个数字,写下来,输入到他们的报告中。所以,那个著名的例子,莱因哈特和罗格夫在几年前的经济学论文中犯了错误,但是许多发表的期刊文章不仅结果没有重复,而且人们回到文章中发现论文中的数字甚至与他们自己不一致。例如,他们会说有一定数量的情况,然后他们会有一个百分比,但该百分比与分母的任何比率都不对应,或者他们有估计值、标准误差和 Z 分数,但它们不对应同一事物。
安德鲁:我刚刚开始意识到人们根本没有工作流程。需要一个工作流程会有所帮助。说到理解,你可能在小时候就听说过,如果你在数学问题上有困难,在它前面放一个美元符号,然后不知何故就很难相差几个数量级。心理学家,如 Gerd Gigerenzer 和其他人,已经做了大量的工作来理解我们的认知错觉以及我们如何解决这些问题。一个想法是从概率走向频率。
安德鲁:所以,有一些经典的概率问题,比如有一种疾病,1%的人患有这种疾病,你做了一个测试,对这种疾病的测试有 98%的准确率,有人测试呈阳性,他们患有这种疾病的可能性有多大?很难在头脑中做到这一点。但是,你可以想象你有一个礼堂,里面有 1000 人,我刚刚告诉你 1%的人患有这种疾病,想象一下礼堂前排有 10 个人。他们是有疾病的人。其他的 990 没有。现在我们要做一个准确率为 98%的测试。这很难,因为你必须做 10 个人中的 98%,所以你需要更多的人数。
安德鲁:让我换个说法,假设它有 90%的准确率,只是为了保持代数简单。这项测试有 90%的准确率。那么,你看第一排的 10 个人,他们中的 9 个测试呈阳性,其中一个测试呈阴性,你看另外的 990 个人,他们中的 99 个会意外地测试呈阳性,那是 10%,然后其他人会呈阴性。如果你让所有测试呈阳性的人举手,你会看到我们有 9 个测试呈阳性的病人和 99 个测试呈阳性的健康人。所以,大多数测试呈阳性的人都是健康的。所以,令人惊奇的是,我可以通过在脑子里说话来做到这一切,但我不能解决我脑子里的第一个问题。你可以说,嗯,但是我不得不摆弄这些数字,因为 98%的数字都不工作,但是这就是问题的关键。如果你有百分之一的疾病,测试有百分之九十八的准确率,你真的不能通过思考一千个人来解决问题。你需要更多的人口。所以,我们可以想象一个有一百万人口的城市,现在,百分之一,一万人患有这种疾病,我特意讲这个来证明你可以做到。1 万人有这种病,99 万人没有。你可以把它写下来,但是你可以在脑子里试一试。那么,在这一万名患病者中,98%的人,也就是 200 人。
安德鲁:所以,我可以稍微改变一下数字,我可以用不同的方式来做,但关键是有了分母就更容易形象化,它让所有的数字更有意义。所以,吉杰伦泽的观点是,分母总是存在的,而且分母确实很重要。对 10 个人发生 10%的事情和对 1 万个人发生 10%的事情是有区别的。这是一种不同的现象。概率论很棒,所以答案是有很多方法可以更好地理解概率,从频率的角度来思考。
选举预测
雨果:这是我们在选举预测中实际看到的东西,所以这将是一个很好的结局。我知道 538 和内特·西尔弗的众议院模型,他们不会说我们预测民主党有 75%的机会获得众议院,他们会说四分之三的机会,因为他们觉得,启发式地,这有助于人们更好地将其正式化。他们知道四分之一的共和党人会得到,四分之三的民主党人会得到。然后你甚至可以用这些术语来思考四分之一是什么意思。这是连续出现两个头像的频率,如果发生这种情况,你不会感到惊讶,对吗?
安德鲁:哦,当然,这以前发生过,我可以告诉你一个关于内特的故事,但是首先,在 2016 年大选之前,有人说,“那么这个预测呢?”有些模型认为克林顿有 90%的胜算。嗯,百分之九十,你是怎么想的?我说,“每四年有一次总统选举。10%意味着大约每 10 次选举就会发生一次,也就是每 40 年一次。
安德鲁:我记得大约 40 年前,在 1980 年的选举中,本来应该是非常接近的,但后来又相差了 7 个百分点。所以,这是一个很大的惊喜。所以,是的,我认为这是可能的。当然可以。实际上,克林顿的表现非常接近她的民意调查,她应该得到两党 52%的选票,而她得到了 51%。所以,现在的民意调查更好,在某些方面,现在的预测比 1980 年更好。但是,我就是这样校准十分之一的。作为一名政治科学家,我经常说我不喜欢 95%的区间。因为 95%的区间在 20 次总统选举中有 19 次是正确的,而这 20 次总统选举耗时 80 年。我认为试图做出一个在 80 年内都有效的声明是荒谬的,因为政治在 80 年内都会发生变化。
安德鲁:现在,我关于内特的故事是在 2012 年,他四处走动,他说,“奥巴马有 65.8%的机会连任”,然后下周他会说是 63.2%,然后是 67.1%,它会四处跳跃。毫无意义。你可以说他有 60%的机会,但要说 65.1%,你可以做一点数学计算。你能做的就是说让我们预测一下他的投票份额。让我们假设他预计会获得 52%或 53%的选票,这是不确定的。你有一个小小的钟形曲线,如果它小于 50 %,让我们暂时忘记选举团,这不是我们真正关心的。关键是,如果他的选举人票预计少于 50%,那么他就会输,否则他就会赢。
安德鲁:让我们假设你说概率是 65.8%。这将对应于一个特定的钟形曲线,他的预期票数和不确定性。结果是,如果你想把这个比例从 65%提高到 66%,那就相当于把他的预测投票比例从 52%提高到 52.01%,我记不清具体数字了。诸如此类的小事。所以,这是一个没有意义的数字。这就像说斯蒂芬·库里身高 6 英尺 3.81724 英寸。
安德鲁:所以,我接了内特的案子,我说,“我明白,内特,你想,你需要眼球。你每周都需要新闻。消息不多。预计奥巴马会赢,但他可能不会。每周,奥巴马都领先,但他可能会输。这就是我们所知道的。这很难,创造新闻的一种方式是关注这些噪音波动。”所以,如果他转而说四分之三的机会,我认为这是一件好事。他可能会因此失去一些点击量,但我多年来一直钦佩内特的一点是他的正直。我不认为他会希望人们被噪音愚弄。所以,他这样做是一件非常好的事情。
什么是轮询?
雨果:那么,我们来谈谈投票吧。投票通常被认为与选举预测有关。我想知道什么是投票,更一般地说,它能告诉我们什么类型的事情。
安德鲁:调查抽样就是当你想从一个部分了解整体的时候。血液测试就像一个调查样本。他们取了你的血样,这应该是你血液的代表。如果我在街上采访人们,问他们将如何投票,那应该是代表了一般人群。嗯,可能不是。他们随机拨号,这是人口的一种代表,除了不是每个人都接电话。实际上,大多数人都不接电话。所以,它根本不能代表人口。
安德鲁:我在课堂上说我认为做民意调查而不给人报酬是有点不道德的。你做一个调查,你从你的调查中赚钱,很多民意调查者都这样做。在线调查小组付钱给人们,但你的很多电话调查只是给人们打电话,你这样做有点滥用人们的善意。然后有人说,“但是,那种只会参与你付钱的调查的人呢?他们不具有代表性吗?”我说:“你认为什么样的人会免费参加调查?他们有点奇怪,是吧?大多数人不会。大多数人会挂掉民意测验专家的电话。”所以,调查对象不具有代表性。
安德鲁:我们做了很多工作来调整样本以适应总体。我们需要这样做,因为回复率很低。但是,无论如何,这不仅仅是选举投票,这可能是公众意见,血液测试,这可能是企业,他们审计自己的记录,如果他们想做审计,他们会随机抽取记录样本,然后审计随机样本,并使用它来得出关于整个企业的结论等等。
Hugo:所以,在我们更详细地讨论投票之前,我想知道,你能告诉我们投票为什么如此重要吗?
安德鲁:嗯,乔治·盖洛普,他是民意调查的创始人,写了很多关于这个的东西。他认为投票有利于民主。有两种说法。伟大的棒球分析师比尔·詹姆斯曾经说过这样的话,“好的统计数据的替代品不是没有统计数据,而是坏的统计数据。”他认为有些棒球运动员被高估了,然后他引用了一些体育作家的话,“这个比尔·詹姆斯·克朗彻什么都不知道。这面糊太棒了。他有 300 个,所有这些时间,他得到了所有这些……”比尔·詹姆斯指出,让我们看看体育作家是怎么说的。他有什么证据证明这个人是如此伟大的运动员?这是一堆统计数据。他只是天真地使用统计数据,但这家伙不是定性先生,他开始谈论棒球运动员如何达到 300。
安德鲁:现在,类似地,假设你是一名立法者,你想了解公众意见。我觉得,第一,舆论相关。我们并不总是喜欢政客们过多地追随公众意见,但我认为我们喜欢他们了解公众意见。所以,如果他们没有民意测验,他们会怎么做?他们很可能会进行非正式的民意调查。溃疡。这过度代表了某些类型的人。这并不代表他们很难接触到的人。盖洛普的观点是,民主最终是建立在民意基础上的,在两次选举之间了解民意很重要。出现了很多问题,这应该会让政治家们做得更好,这在我看来是合理的。
安德鲁:当然,除此之外,调查在市场营销中一直被使用。所以,商务人士不必为想知道客户想要什么而道歉。所以,这样做是有意义的。营销调查非常有趣,部分原因是你会陷入这样一个问题,即把观察到的测量结果与你真正关心的事情联系起来,因为营销调查有多现实?所以,如果我给你打电话说,“你愿意为这种电动汽车支付 3 万美元吗?”你可以说是或不是,这并不意味着它真的会走出展厅,因为调查是不现实的。
安德鲁:政治调查更容易一些。你打算投谁的票?这几乎等同于在该死的投票站投票。因此,政治调查的真实性比某些市场调查的真实性更接近。
雨果:我不知道这种情况持续了多久,但我们肯定看到了民意调查的影响...在政治、投票和选举过程中有一个反馈回路。我想是的,初选,辩论,你在台上的位置,你是否在辩论中,实际上取决于你在民意调查中的表现,对吗?
安德鲁:对,还有唐纳德·特朗普,当他在初选中发表演讲时,他会谈论他的民调支持率有多高。
雨果:直到他们不是,然后他说他们不科学。
安德鲁:嗯,是的,但我不是在说他的支持率,而是说他们会投票给他的人的百分比。因此,即使外界观察者似乎没有给他太多机会,他的支持率还是很高。所以,是的,有反馈。我就说一件事,有一个有用的反馈,至少对民意调查者来说是这样的。有时问题出现了,为什么人们要对民意调查者说实话?有时你会得到,权威人士会说,“嘿,让我们都对民意测验专家撒谎。让我们搞砸他们。我不喜欢民意测验专家。告诉他们你所想的反面。”然而,人们不会这样做。这有几个原因。
安德鲁:首先,正如我所说的,民意调查是自愿的。没有人强迫你做民意调查。所以,如果你真的讨厌民意测验专家,很可能你一开始就懒得去做。但第二件事是,我认为人们认为民意测验就像一种投票方式。那么,如果我调查你,你对唐纳德·特朗普的工作表现满意吗?你认为这可能会在某个地方出现在新闻中,你会受到激励:如果你同意,你会受到激励说是,如果你不同意,你会受到激励说不。在你的回答中有一个真诚的直接激励。同样,并非所有的调查都是如此。如果我问你,你服用违禁药物吗?你可能有各种动机不诚实地回答这个问题。
雨果:我也不能在直播中回答这个问题。
安德鲁:嗯,这是不对称的。如果你的答案是否定的,你可以回答,如果你愿意,你可以在节目中回答,我不是在问你。我只是说这很复杂。所以,关于政治民意测验,有一点并不总是很好理解,那就是激励机制实际上是为了鼓励调查回应的真诚性。那是非常重要的。
舆论存在吗?
Hugo:现在,你提到的另一件事,我想简单谈一下,就是民意调查的想法,衡量公众意见,这更多的是在唱反调,而不一定是故意***难。我只是在想,公众意见通常是在普通大众中普遍存在的观点。公众舆论存在吗?
安德鲁:这就像海森堡的测不准原理。所以,衡量观点就是改变它。你知道如何测量一个粒子的位置,你必须看着它,看着它意味着从它身上反弹一个轻粒子,这增加了能量,它改变了它的位置和动量?因此,类似地,如果你想知道某人的想法,你必须问他们,然后改变它。你并不总能观察到他们的行为。还有其他方法。
安德鲁:我有一个学院,马特·萨尔加尼奇,他是普林斯顿的社会学家,他最近写了一本关于社会科学数据收集的书,他谈到了...你可以调查人们,可以询问他们,也可以观察他们。那些是不同的。有时候,你可以观察一个人,但这不会改变他的行为。亚马逊可以查看你是如何购买的。可以说,一旦你知道亚马逊正在寻找,那么你可能不会购买某些东西或不搜索某些东西,因为你不想让他们知道。在那之前,你可以观察他们。
安德鲁:同样,你公寓外面的摄像头。如果你不知道它在那里,那么它正在很好地观察你。因此,在这个意义上,如果你认为我们被衡量,我们就像是在和那些试图衡量我们的社会科学家玩一场猫捉老鼠的游戏。他们试图用不打扰我们的方式来衡量我们,我们可能想知道我们是如何被衡量的。
Hugo:现在我想直接进入投票环节,这是大家都知道的。我要引用你的话,因为你在 Slate 杂志的一篇文章中说得很好,我将在节目笔记中链接到你的文章。你写道,“传统民调的统计理论令人惊叹。理论上,一千人的随机样本足以在正负三个百分点的误差范围内估计民意。”你能告诉我们这到底是什么意思吗?
安德鲁:这是从瓮中取球的数学方法。所以,如果你有一个装满球的大瓮,55%的球是绿色的,45%是黄色的,你随机画一个球一千次,那么最有可能的是,你会得到 52%到 58%的绿色球。所以,它是瓮中的 55 %,你画一千个,每次你画一个球,把它扔回瓮中,然后洗牌,再画一个,然后概率数学告诉你,你最可能看到的是 55%的绿色球,但也可能是 52%到 58%之间。大概有 95%的可能性在这个范围内。所以,我们称之为误差幅度。如果你真的可以对人们进行采样,比如从瓮中抽取,你就可以非常准确地了解公众舆论。
雨果:但是,当然,这是理论上的,对吗?该理论的一部分是它是一个随机的代表性样本。我想知道与这个理论相关的实际问题和挑战是什么。
安德鲁:实际上,你不能从骨灰盒中随机抽取人,因为没有人的名单。你可以随意拨打电话号码,不是每个人都有电话,有些人有两部电话,有些人从来不接电话,等等。此外,如果你画一个球,你可以在骨灰盒模型中看到它,但是,当你对人们进行抽样调查时,你画一个球,如果他们不想回答你的调查呢?那你就看不到了。
安德鲁:所以,我们的调查在总体上不具有代表性。所以,我们要做的是调整样本和总体之间的已知差异。所以,我们的人口中有 52%是女性,但是我们的调查中有 60%是女性,我们对此进行了调整。我们的调查得到了太多的老年人,太多的白人,太多来自一些州的人,而不是其他州的人。不同的调查有不同的偏向。有人告诉我,出口民调倾向于过度抽样民主党人,也许这与谁愿意与出口民调采访者交谈有关。愿意接电话的那种人可能不一样。
安德鲁:然后,另一件事是你需要担心得到诚实的回答或调整调查回答中的不准确性,就像我说的,这对于政治投票来说不是一个问题,但在其他调查中也会出现。
雨果:我对给人们打电话的想法很感兴趣,因为从传统上来说,很多人都有固定电话,你可以这样做。现在已经不是这样了,我的理解是,有法律规定你不能自动拨打手机,对吗?
安德鲁:我不知道关于你能做什么和不能做什么的法律到底是什么。这只是一扇窗户。当盖洛普开始做民意调查时,他们会挨家挨户敲门,因为那时很多人没有电话。所以,有一段时间很多人都有电话。在其他国家,也不是每个人都有电话。但是,再说一遍,即使你可以打电话给所有人,那又怎么样?回答者不代表人口。
Hugo:所以,调整过程也是非常关键的。
安德鲁:对,两者都有。你必须设法得到一个有代表性的样本,即使你不会得到它,因为你希望你的偏见是可纠正的。所以,如果我的偏见是我有太多的女人,我可以纠正。还是老人太多。如果我的偏见是我有太多的保守派,我能纠正吗?嗯,也许因为你可以问人们他们的党派归属,然后你可以把它与人们的党派登记数据进行匹配。这是更多的工作,对不对?如果我问的是医疗保健,而我的偏见是有健康问题的人更有可能回答调查。我能调整一下吗?嗯,那可能更难。
安德鲁:所以,即使你不能到达那里,也要努力获得完美的样本,以此为目标,这是有意义的。
Hugo:这些修正和调整方法在统计学上相对复杂吗?
安德鲁:随着我们的数据变得越来越糟糕,他们变得越来越复杂。所以,简而言之,他们需要变得更复杂有三个原因。一个是调整不准确的回答,但正如我所说的,我不会真的专注于此。其次是样本和总体之间的差异。你要适应很多因素,不仅仅是性别、年龄、种族、党派身份,还有很多因素。所以,当你想调整更多的东西,那么简单的调整方法,简单的加权方法,不要做这个工作。我们使用一种叫做多水平回归和后分层的方法,还有其他的方法,但是你需要更多的技巧来调整更多的变量。
安德鲁:然后,第三件事是我们从调查中问得更多。因此,我们可能不仅想知道公众的意见,不仅想知道人们是否愿意投票给他们的民主党人或共和党人,还想知道这种投票在所有 435 个国会选区中是如何分布的?所以,即使我有大数据,我也不一定有每个国会选区的大样本。所以,你想做统计分析来得到那些更集中的推论。所以,这就是为什么我和我的同事花了很大力气来模拟调查结果,以便能够估计人口的子群体,比如不同州的富人选民和穷人选民。
雨果:太棒了。据我所知,你的工作是跳出框框思考,如何让人们参与调查,这是一个无意的双关语,但是,因为你实际上使用了游戏技术和 box 来获得调查反馈,对吗?
安德鲁:是的,我在纽约微软研究院的同事做过。微软研究院有一些社会科学家和我的同事 David Rothschild 和 Sharad Goel,他们当时在那里工作,设计了一个调查,所以他们说服微软的人在 2012 年总统选举的最后几个月在 Xbox 上放一些东西,让人们投票并说出他们想投谁的票。所以,每隔一段时间,你就会收到提醒,说你愿意参加我们的投票吗?然后你会给出一些统计数据,说你想投谁的票。我们有一个巨大的样本量,几十万个回答,非常没有代表性。
安德鲁:这是一项不寻常的调查,因为它过多地代表了年轻男性,而大多数调查都过多地代表了老年女性。但经过调整后,首先我们能够很好地估计公众意见,事实上,我们能够比公众民调聚合器更稳定地估计公众意见。这是好消息。坏消息是,我们在 2012 年收集了数据,实际上我们直到后来才进行分析。因此,理论上,它可以实时完成,但实际上,这是一个研究项目,我们后来发表了它。
安德鲁:所以,当它发生的时候,我们没有击败民意调查。不仅如此,我们实际上还学到了一些政治学和公共舆论的知识。正如我所说的,我们的估计比报纸和网上的民意调查综合估计更稳定更好,结果是民意调查中大约三分之二的变化,像罗姆尼做得很好,或者奥巴马做得很好的波动,这些波动,大约三分之二的波动实际上是由于不同的无反应。因此,当罗姆尼有一些好消息时,共和党人更有可能回答这个调查。有道理,对吧?你想参加民意调查吗?如果我的候选人是个笑柄,也许不是。如果我的候选人做得很好,是的。
安德鲁:所以,有这个正反馈机制...负反馈稳定,正反馈放大波动。因此,一个积极的反馈机制是,如果一个候选人做得很好,更多的支持者会对投票做出回应,这意味着他们看起来做得更好。所以,你每周都会有很大的波动,但是当你真的考虑到党派偏见时,你会发现结果要稳定得多。我们发现在 2016 年。你可能会说,嗯,也许人们的党派偏见也在波动,但我们有证据表明那并没有真正发生。当我们写论文时,有各种各样的遗留问题和项目,所有这些都来自于与微软这些人的合作。
雨果:我很高兴你提到了 2016 年,因为,正如你之前所说的,大众投票,民意调查做得很好,在百分之一以内,对吗?民意测验专家说是 52 而不是 51。但是,当然,在选举团投票中,情况相对不同,我认为你写的一些东西可能是因为在几个关键州,投票给特朗普的人不一定在投票中做出回应。是这样还是我记错了?
安德鲁:没有回应的人太多了,问题更多的是州民调,而不是全国民调。也就是说,有一些人,在选举后,一些民意测验专家,加里·兰格和他的一些同事写了一篇论文,他们按州分析了他们的全国民意测验,他们实际上发现州一级的全国民意测验分析相差不远。但是,在密歇根州和其他州的一些州民意调查,没有做好足够的工作来调整无回应,所以它似乎。发生了很多事情,但部分原因是无反应调整并不完全。这是一个问题。调查回复率持续下降,因此原始调查数据,甚至是稍加调整的调查数据,并不总是足够的。
雨果:在我之前提到的同一篇 Slate 文章中,你还写道,“我们不应该把注意力集中在选举上,而应该把民意调查和公众意见更多地看作是理解政策的一个连续过程。”我觉得这很有吸引力,我只是想知道你是否能阐明这一点,并告诉我你的意思是什么?
安德鲁:嗯,我认为这在奥巴马政府中尤其明显,有各种各样的问题,如刺激计划、医疗保健计划,公众意见似乎非常重要。双方都在聚集公众舆论,以影响国会中某些摇摆不定的选票。现在就没那么好了。现在,这就像共和党人控制了众议院、参议院、总统和最高法院,所以,该做什么取决于他们。公众舆论似乎并没有直接影响事情。他们似乎愿意做各种不受欢迎的事情来利用他们所拥有的多数。
安德鲁:但是,大多数时候,政治是在立法层面上的,更多的是事务性的。有摇摆不定的选民,当然,如果一个政党控制了众议院,一个政党控制了参议院,那么你就会得到更多的权力给各种摇摆不定的选民。在这一点上,公众舆论可以有所作为。所以,这不仅仅是你要投票给谁的问题,而是人们一旦就职后会如何投票的问题。因此,民意调查者在整个过程中都会对公众意见感兴趣,因为这不仅仅是关于你打算投票给谁,而是关于你对各种问题的看法,无论是外交政策、医疗保健、移民、贸易还是其他。
党派忠诚是如何发挥作用的?
雨果:那么政党忠诚在其中扮演了怎样的角色呢?
安德鲁:哦,政党忠诚度非常重要,有很多证据表明选民会根据他们政党的言论改变立场。如果你看看像支持战争这样的事情,基于执政党有很大的跳跃。如果你是一个民主党人,那么你会支持共和党人不会支持的政策,反之亦然。或者事物是如何被标记的。就像经济学家说的,这是外来的。民意调查者在衡量意见,但与此同时,政治家们也在试图利用这些意见。
安德鲁:我的同事,政治科学系的鲍勃·夏皮罗,他和一位同事写了一本名为《政治家不要迎合》的书,这本书是基于他对各种政治斗争的研究,不是选举,而是立法斗争。他认为政治家认为公众舆论是一种工具...有一种天真的观点认为政客们想做公众想做的事情,但实际上政客们通常非常自信,他们觉得他们可以左右选民,他们认为公众舆论是他们可以操纵的。所以,双方都在做。就个别国会议员和参议员的参与程度而言,你还需要了解当地的公众意见,而不仅仅是全国的。
投票的未来是什么?
Hugo:那么,Andy,你认为投票的未来是什么样的?
安德鲁:我对未来没有太大的感觉,如果你从传统的角度来看,你会说更低的回应率是未来,付钱让人参与,在线小组。我想,也许,总的来说,我们应该把对调查做出回应的人看作更多的参与者,就像医学统计学一样。我们不应该认为我们在测量人,评估药物的效果,而人只是被移动的计数器,我们应该实际上认为病人参与了研究,真正地参与了进来。不仅仅是因为你想得到更多的服从,还因为人们有很多私人知识可以分享,如果他们有更多的联系,人们应该更有动力去帮助。
安德鲁:所以,对我来说,未来将是一个更加合作的时代。另一方面,会有很多被动的测量,比如亚马逊测量你的点击量。这也像投票一样。所以,那是从相反的方向。所以,或者,如果它是侵扰性的,我认为人们应该更多地参与进来,或者它根本就不是侵扰性的。
最受欢迎的数据科学技术
Hugo:那么,Andrew,我的最后一个问题是,你最喜欢的数据科学和统计技术或方法是什么?
安德鲁:我最喜欢的事情是我从没做过的事情,但我读到过。大概是 10 年前,有人造了一台机器,你可以把它放在某人的办公室里,然后,如果他们在打字,10 分钟后它就可以成为键盘记录器。据推测,它是如何工作的,你的键盘上大约有一百个键,所以它会听声音,并使用某种分类算法将这些键的声音分类成一百个簇,然后,完成后,它会使用简单的代码破译技术来估计哪个是空格键,哪个是回车,哪个是字母 E,等等。当然,它不必是完美的,你可以使用统计工具,然后它可以计算出你在键入什么。
安德鲁:所以,我一直想建造它。现在,那种东西我不知道如何建立,它还涉及到有一个麦克风和做声音分析。我只是觉得那会很酷。这些事情非常贝叶斯,你使用了很多先验信息,尤其是第二步,密码破解步骤。当然,艾伦·图灵在二战中用贝叶斯方法破解了英格玛密码。这是我最喜欢的例子,尽管我从未见过。我只是觉得这是最酷的。不过,这不是我能做的事。
安德鲁:如果你想谈论我能做的事情,那么我最喜欢的技术是多级回归和后分层,因为这是我们用来评估州级公众意见的方法。这就是我们在红州、蓝州做的调查,以及对美国不同地区不同收入人群的看法的评估。它允许我们尽最大努力调整样本和总体之间的差异。我们可以在斯坦做。所以,我会推那个。
雨果:太好了。所以,多层回归和后分层,我们会在展示笔记中包括一些链接。它也被称为 MRP 或 P 先生,对吗?
安德鲁:没错。最近我开始称之为正则化预测和后分层,因为严格来说,它是模块化的。所以,第一部分是你拟合一个模型来做调整,第二部分是做了这些之后,你对人群做推论,这叫做后分层。因此,多级回归是建立模型的一种方式,但通常情况下,您可以使用术语正则化预测,其中包括所有其他方法。
雨果:很高兴你能来参加这个节目。
安德鲁:我也是。
Angela Bassa 讨论了管理数据科学团队等内容。
DataCamp 播客 DataFramed 的主持人 Hugo Bowne-Anderson 最近采访了 iRobot 的数据科学主管 Angela Bassa。
下面是播客链接。
介绍安吉拉·巴萨
雨果:你好,安吉拉,欢迎来到 DataFramed。
安琪拉:谢谢,谢谢邀请我。
Hugo:很高兴你能来参加我们的节目,我很高兴今天能和你谈论数据科学团队的管理,以及你在 iRobot 的工作。但是,在我们开始谈话之前,我想了解一下你。我想也许你可以从告诉我们你在数据社区中以什么闻名开始。
安琪拉:当然。我以这个名字从事数据科学已经四五年了。我所做的大部分贡献,你知道我没有以我的名字命名的包裹,或者类似的东西。但是,我已经谈了很多关于如何在企业数据科学的业务环境中进行数据科学研究,以及如何培养技能以在更大的组织中成为成功的数据科学家。我想那些关心我要说的话的人,可能会关心这些。
雨果:当然。我认为这真的很重要,特别是在数据科学发展的这个阶段,考虑商业环境中发生的事情,因为我认为很多人都在谈论最先进的技术,以及我们听到的所有术语。但是,我们确实需要记住,组织内的数据科学是为了在决策过程中提供一组输入,对吗?
安琪拉:对,没错。有许多公司的产品是数据科学或算法,但在业务环境中执行的大部分数据科学实际上是为业务服务的,而不是包装成自己的产品。从成功的角度来看,真正理解这一点在更大的组织中的战略意义非常重要。
你是怎么进入数据科学的?
雨果:对,这也是我们在这次对话中要谈到的一点。不过,在我们到达那里之前,我想了解一下您最初是如何进入数据科学领域的。
安琪拉:简单的回答是我真的很幸运。我不能说我上学的最终目标是成为一名数据科学专业人士,尽管我真的真的很高兴事情变成了这样。我读的是本科,我去的是工程学校,所以很明显你在工程学校做的不是工程。我本科学的是数学,他们在华尔街大量招聘数学专业人员。不是这样,就是学术界,我真的不想加入学术界,所以我去了华尔街。我讨厌它。这是如此糟糕的性格契合。但我确实开始处理数据。我的职责是进行数据分析,监控市场中的数据活动。我真的很喜欢那部分。不是反对金融界,我在那里还有朋友。只是不适合我。
雨果:那是什么时候?
安吉拉:哦,天哪,那是 15 年前的事了。
雨果:好吧。
安吉拉:离开后,我开始做战略咨询,因为这是你不做投资银行的另一件事。你一般做策略咨询。那时我才真正开始接触数据,尤其是建模,而不仅仅是监控。我做了很多药物策略。有很多统计数据涉及到如何建立一个控制实验,一个随机控制实验,这样你就可以测试不同治疗的效果。我们为大型制药公司、生物技术公司和医疗技术公司做了很多这样的咨询。我这样做了大约八年。
安琪拉:我离开了那个行业,加入了一家大型营销服务机构。我就是在那里接触到大数据的。真正的大数据。我是说,那时我们从可以在一台机器上运行的东西。我的意思是,机器可能会挂起一点,但它肯定会在 RAM 中运行,对于计算,你真的需要理解如何运行计算,就像你需要理解计算是什么一样。虽然这很令人兴奋,但风险真的很低。我是说,如果你搞砸了,有人就得不到优惠券,对吧?实际上,在我所在的波士顿地区,我参加了一些社区活动,聚会等等,最后我遇到了一些来自一家名为 EnerNOC 的公司的人。它们后来被收购了。
安琪拉:那是伟大成果真正出现的地方,我在那里以那个名字做数据科学。风险足够高,所以如果你搞砸了,你可能会导致停电,或停电,或类似的事情,人们真的依靠我们的分析能够省钱,省电。我真的很喜欢在这方面工作,但是过了一段时间,iRobot 的伟大的人找到了我,作为一个书呆子,有机会做我喜欢的事情,数据科学,但是,也和机器人一起工作,这是-
雨果:那太酷了。
安吉拉:...是啊,很难通过。真的很难通过。
你在 iRobot 做什么?
雨果:你现在在 iRobot 做什么?
安琪拉:我是 iRobot 的数据科学主管。我认为我的工作有两个方面。一方面是管理团队,一个由数据科学家、分析师、实习生和承包商组成的团队,他们帮助我们实现目标。另一部分是设定这些目标,并了解我们如何为公司带来最大利益。
雨果:太好了。你能告诉我们一些关于 iRobot 的事情吗?
安琪拉:当然。iRobot 是排名第一的消费机器人公司。当然是在美国,我很确定这也是世界。我们是消费机器人的制造商,你们可能知道并喜欢,比如 Roomba 和 Braava。这两个分别是机器人吸尘器和机器人拖把。我认为这真的很棒,因为机器人技术很难。这是一家公司,它已经知道如何在这种非常困难的环境中运营,制造价格低廉的机器人,并且能够帮助拥有这些工具的人们做更多的事情。真的很刺激。
Hugo:现在我想深入研究一下数据科学管理。众所周知,通向数据科学的道路有很多,我相信也有很多通向成为数据科学经理的道路。也许你能告诉我们你实际上是如何进入这个职位的,或者一般来说是如何进入数据科学管理的?
安琪拉:对。我认为很多进入技术领域管理的人都有相似的背景。也就是说,你通常作为个人贡献者表现出色,然后被提升到这个完全不同的学科。这很有趣,因为很多让你成为一个真正优秀的个人贡献者的启发法,在你进入管理层时并不一定适用。作为个人贡献者,你回答问题,并提出问题。作为一名经理,你真的是在衡量人。它本身是一门完全不同的学科。要真正精通它需要时间和努力,我认为第一步是理解这是一份不同的工作。
雨果:一份你不一定会被训练去做的工作,在你的专业领域成为一名成功的个人贡献者,对吗?
安琪拉:对,没错。作为一名个人贡献者,你可能会尝试提供指导,或与实习生密切合作,并帮助他们从这些关系和实习中获得最大利益。但是,从个人贡献者到管理者,你必须记住你的目标不是回答问题,你的目标是让人们回答他们的问题。
雨果:你的旅程是怎样的?
安琪拉:我想是我最后进入管理层的方式...嗯,很有意思。当我第一次有机会管理团队中的另一个人时,我们面试了几个候选人,以及最终得到这份工作的人。我认为有些沟通不畅,因为我没有博士学位,我只有本科数学学位,我认为这对我开始做数据分析师很有帮助。回到黑暗时代,在 Hadoop 存在之前。
安琪拉:我们雇用的人有博士学位。他刚刚毕业。从第一天开始,他发现他直接为我工作,而不是和我一起工作。那天他最终辞职了。
雨果:哦,哇。这是你第一次管理人吗?
安琪拉:是的,没错。
雨果:哇。
安琪拉:那留下了一个标记,所以我没有结束-
雨果:嗯嗯(肯定)。
安吉拉:...最后,每当我得到类似的机会时,我都找到了一个不接受的方法。
雨果:当然。
安琪拉:在-
雨果:第一印象持续。
安吉拉:...我知道。然后几年后,它变得有点明显,这是什么需要发生在这种情况下,我在的背景下。我当时真的很谨慎,也很担心,也不想放弃个人贡献者的角色。一些我充满激情的事情,我...如果可以的话,我认为我真的很擅长,而且我很喜欢。我担心职业发展的道路在于转换轨道,跳到管理层。情况并不总是这样,但当时它看起来确实像是向我敞开的大门。
安琪拉:我很谨慎,有一点...感觉苦乐参半。但是,在此之后,管理一个人,并有第二次迭代工作得更好。我想可能是因为我更有自知之明,而我管理的那个人也更有气质。在那之后,我结束了我们两个一起工作的整个项目。从那时起,它就一直在增长,我在那里管理一个小团队,然后最终管理职能部门,即组织内的数据科学学科。这是一种进化。
数据科学团队模型
雨果:对,有意思。就需要为企业提供价值的数据科学团队而言,我们需要考虑数据科学如何嵌入到组织中。我想知道,在您看来,组织中存在哪些不同的数据科学模型,哪一个是您最喜欢的,或者您有哪一个,或者哪一个目前对您有用?
Angela:我个人曾在几个不同的部门从事数据科学工作。例如,我的团队隶属于组织结构图的运营部门、财务部门、财务运营部门、IT 部门、工程部门或专门的 R&D 组织。显然,这是一个很大的组织结构,所以有几个重组。我甚至参加过几次重组,我注意到的一件事是,数据科学团队总是易手,总是改变组织结构图的分支,每次有重组,我都是其中一员。我认为这说明了数据科学可以为组织带来的价值。似乎公司的不同部门都希望能够利用这一真正强大的学科。
Angela:我认为确保该职能在组织内成功的关键是,无论它位于何处,是否位于产品管理部门(通常在开发产品功能时),或者是否位于运营部门,以便将价值回馈给企业。我认为最重要的是让功能真正成熟。通常在公司,尤其是数据科学不是产品的公司。因为,否则在那些情况下,数据科学是创建的一部分,对吗?你需要它来实现商业提议。
Angela:但是,在其他情况下,在大型企业中,在寻求采用工具集的传统公司中,通常有几个人在交付工具集,他们真的需要时间在组织中作为一个学科成熟起来,成为战略专家,组织的目标是成为数据和工件方面的专家,并将其带回来。这是我想说的一件事,在组织环境中,其他一切都不重要。但是,重要的是让团队经历几次迭代的能力,这样他们就到达了一个他们已经探索过的点。
重要的管理策略
Hugo:我认为让团队变得成熟和发展的想法非常重要,我们会回头再讨论这个问题。你刚才提到的一些事情让团队也有时间理解数据,并成为专家。我认为这是促进的方向,允许团队向组织交付尽可能多的价值。我想知道,总的来说,作为一名经理,确保你的团队能够交付尽可能多的价值的最重要的策略是什么?
安吉拉:...我想我喜欢想象的比喻是,你必须原谅我,因为我是巴西人,所以我认为是足球,而不是橄榄球。但是,在美式足球中,有这样一个概念:边线员创造空间,这样四分卫就可以发挥作用。我想很多时候我们喜欢把经理当成四分卫,我认为这是不对的。我认为个人贡献者,对于他们特定的项目,对于他们的任务,是他们自己的四分卫。经理的角色是真正创造口袋,创造空间让他们可以思考,创造空间让他们可以看到整个领域,他们可以看到机会,他们可以看到答案。
安琪拉:这是我的心态。我指导我的团队能够做到的是成为数据专家。我认为,如果你被要求进行分析,或者回答一个问题,很多时候发生的情况是,提出问题的人不一定有想象力想象答案可能是什么样子,或者可能是什么,对吗?他们有这种狭隘的观点,因为他们是其他方面的专家。他们非常聪明,但是他们聪明的地方和我们聪明的地方不同。当他们问一个问题时,有时这个问题水平太低,或者水平太高。
安吉拉:数据科学家的部分职责就是成为治疗师,准确地提出问题,这样你就能真正了解提出问题的人想要什么。有时他们甚至不知道他们想要什么,或者他们甚至不知道有什么可能得到答案。因此,作为创造空间的前锋,四分卫可以做他们的事情,制定策略,并找出如何回答问题,这就是我认为如何让球队发挥最大价值的方式。
雨果:里面有那么多东西。我在倾听时想到的两点是,管理两方面的期望,什么是可能的,什么是可行的。但是,这种翻译行为,也有助于将业务问题转化为数据问题。然后,进行相反的翻译,将数据答案转化为业务答案。
安吉拉:我认为这基本上是数据科学家的工作。因为,每个人...我是说,现在是 21 世纪了。每个学科都有数据,每个人都有信息,他们用这些信息来做决策。数据科学的独特之处在于我们有能力提出一个业务问题,并正式表述它,以一种我们可以使用统计工具的方式正式阐明它,并在软件开发中创建一个可重复、可复制、可解释、适合目的、回答问题的解决方案。因为,很多时候,可能发生的情况是,数据科学家会变得如此迷恋一种特定的方法,以至于当它不太适合时,他们可以尝试将它用于任何事情。或者,他们迷恋一个数据集,他们使用它是因为他们可以,而不是因为他们应该。这一转化步骤,从业务到数学,到技术组件,再回到业务,确实是伟大的数据科学家发挥作用的地方。
团队成长
Hugo:到目前为止,这个对话中反复出现的主题是数据科学团队的成熟,以及团队的发展。如你所说,你开始管理一个人。我想知道,随着您的团队规模随着时间的推移而增长,数据科学经理需要考虑哪些关键方面?
安吉拉:我认为随着时间的推移会发生一些事情,所以我是 EnerNOC 的第一任数据科学经理,在 iRobot 之前我就在这家公司工作。我是 iRobot 的第一任数据科学主管,所以这是我从零开始成长起来的两个团队。最开始发生的事情,有这么多的潜力,但也有这么多低挂的水果。拥有一个能够灵活交付几个...我不会称之为必然的登月,但在几个高能见度,高度复杂的答案,开始说明什么是可能的,对不对?这项新功能能带来哪些令人惊叹的东西?
安琪拉:但是,还有那个低垂的果实。最快速的价值评估方法是剔除这些,取而代之的是简单的东西,并且比任何人都能更好地回答它们,用一个能照顾好自己的架构,这样它需要最少的监控。你只需要开始向管道中添加东西,解决那些本身很小的问题,但是却可以节省大量的时间。然后,这些加起来。拥有这种灵活性意味着在最开始,你有一种无差别的天赋,对吗?你有引用/未引用,“独角兽。”我讨厌这个词。
Hugo:那么,某种数据科学通才?
安琪拉:没错,是的。拥有基本工具集的人,在一点点指导下,可以扮演所有这些角色。但是我认为,医学科学中的人们所说的一些真正相关的东西,是个体发育重演了系统发育。我认为这句话的意思是,生物体的发展方式,从受精到怀孕或孵化,模拟了动物远祖的进化阶段。这是一个非常随机的类比,但我认为它与此相关的方式是,数据科学团队的发展方式也模拟了公司发展的各个阶段。因此,就像一家初创公司一样,一个崭露头角的数据科学团队拥有许多无差别和灵活的人才,团队经历了几个“支点”,他们试图建立自己的价值,他们的冠军是谁,以及与其他内部客户互动的理想方式。当他们只是小团队时,他们是初级的,他们是多能的,对吗?它们有点像干细胞,对吗?他们可以发育成任何东西。
Hugo:随着数据团队的成熟,会发生什么?安吉拉:当你在团队中变得成熟时,那就是你开始专业化的时候,那就是你开始差异化的时候。这时,你开始拥有真正擅长可视化的人,或者在数据平台工程或可靠性方面真正有天赋的人。擅长 QA 的人,他们有这样的个性,对细节的关注充满热情。当数据科学团队所做的工作类型达到足够大的规模时,我才认为开始让那些专门的辅助团队解放数据科学家,让他们真正专注于科学部分(即假设检验)是有意义的。
雇佣和建立团队
雨果:一旦你进入这个阶段,你会如何考虑招聘,或者围绕不同的技能建立一个团队?正如你所说,你不一定需要数据科学通才,但你需要一个团队,他们的技能、提问和好奇心相互补充,对吗?
安琪拉:对。我认为当你开始的时候,你希望有全面发展的人。但是,你走得越远,我认为拥有一个代表你的最终用户的团队是很重要的,不管他们是谁。我认为,特别是在产品是数据科学的公司,你要确保你的数据科学团队看起来像使用你产品的人,这样你就有不同的视角,你可以提出不同的问题。而且,每个人看起来都不一样,使用同样的工具,问同样的问题。我认为全方位的多样性非常重要。我认为年长的人和年轻的人,我喜欢从无知的角度来思考一些事情。也就是说,团队中的下级可以问一些“愚蠢”的问题,对吗?引号里的笨蛋,因为他们不笨。它们是不受阻碍的。他们不受我们忘记自己所做的假设的束缚。它们不受我们开发的启发法的阻碍,这些启发法可能并不适用于任何地方。
安吉拉:他们有能力挑战那些资历更老的人完全有能力挑战的假设,但是你开始忘记了。你听到马蹄声,你会想到马,而不是斑马。嗯,越年轻的人会说,“如果是斑马呢?”他们挑战这一点,迫使你思考为什么要做某些决定。
Hugo:我很喜欢,我也很喜欢你用我们随着时间的推移发展起来的启发法来描述它,因为我们知道当我们开始大量使用启发法时,它们也会伴随着某些偏见。所以,拥有一个新的观点,不受启发法的阻碍,也会让我们认识到自己的偏见,希望如此。
安琪拉:当然。不要敲启发式,他们是伟大的,他们的存在是有原因的。
Hugo:嗯嗯(肯定)而且必要。
安琪拉:我们建造它们是因为它们创造了捷径,让我们更有效率,对吗?这是关于快速思考和慢速思考的全部内容,以及我们的大脑如何运作,以及我们如何创建自己的贝叶斯先验,并从它们开始。但是,我认为让不同背景的人参与到对话中来,真的会丰富对话。
Hugo:你之前提到了数据科学团队可以思考的问题类型,或许也应该思考。你真的...我们以后可能会谈到这个问题,最近你发给我一篇你为《哈佛商业评论》写的文章的草稿,你很好地区分了团队可能能够回答的问题空间和团队能够并且应该回答的问题空间。鉴于此,我想也许你可以说点什么。
安琪拉:对。我认为这是一个完美的选择。就通常会发生的事情而言,很容易。我也犯过这样的错误,你可以访问数据,所以你开始关联。你开始探索,你开始计算会发生什么。我认为,当你开始对这些数据工件建立自己的试探法时,没有方向的探索肯定有价值。我认为,如果可能的话,无论何时,更重要的是首先考虑目标可能是什么,并在你开始通过数据进行“洞穴探险”时拥有北极星。当你思考向你提出的问题是什么时,很多时候很容易想到,“哦,好吧,我没有这个问题的完美答案,但我有其他数据集,我敢打赌是相关的。”所以,你开始去那里。
安吉拉:我认为谦逊也是造就一名优秀数据科学家的要素之一。谦逊地知道也许这不是它的意思。我的意思是,有时答案就在某个地方的电子邮件线程中,你无法访问,你没有参与,你不知道。但是,答案在别处。我认为有自我意识去询问,成为一名专家是非常重要的,不仅仅是通过数据的探索,而是通过组织的探索,对吗?与组织中的其他人建立联系,并真正了解数据是如何生成的,它用于什么环境,它能否被重新利用,重新利用可能会产生什么问题?
Angela:所以,真正弄清楚什么样的问题可以被回答是很好的,但是我认为什么样的问题应该被回答是一个组织内的数据科学家能够很好地提问的事情,也许比其他任何人都更好。
权衡取舍
Hugo:现在,我认为这是一种交易。我想知道,作为一名数据科学经理,您需要做出哪些类型的权衡,以及如何做出正确的选择?
安吉拉:哦,我认为在任何学科中做一名管理者,尤其是在数据科学领域,我认为这些权衡就是一切。数据科学与其他类型的工作略有不同,因为你不仅仅是回答问题。很多时候你都在考虑一个问题是否可以回答,对吗?不仅仅是“如何”或“什么”,还有“如果”。搞清楚这些权衡,很多其他学科有不同的权衡。但是,很多权衡也非常相似,比如你要花多少时间来了解某个学科的最新发现、最新应用、最新方法,还是销售某个学科、在内部销售、让法律、销售和运营部门的人参与进来。让他们知道,如果他们有问题,他们可以使用这种资源,他们希望有更多的信息和数据来帮助他们做出决策。
安琪拉:你花了多少钱做这件事?通常我会制作幻灯片,或者写备忘录,或者想清楚每个人的需求,表达出来,然后写下来。相对于教练,相对于壮大你的团队,确保他们得到他们所需要的,并确保他们接触到战略,以便他们可以在轮到他们时做出最好的发挥。除了计划、制定战略、确定我们需要与谁交谈、我们需要在什么时候交付产品、我们需要在什么时候进行路演,以及展示我们的一些发现,让人们知道我们是组织中可以利用、可以带来价值的可信部分。
安琪拉:我认为所有这些都是你作为一名经理不断尝试处理和优化的事情。此外,还有很多额外的问题。你把谁带进你的团队,你如何确保每个加入团队的人都允许你从这种扩张中获得网络效应,这样你就不只是有一个加号,而是有 N 个加号,因为那个人在所有方面改进了团队,并覆盖了盲点?
雨果:你如何看待两者之间的权衡...我的意思是,当招聘数据科学职位时,你可以聘用具有非常强的定量和数据科学技能的人。但是,我想,你也可以着手做这件事,就某个可能有其他专业知识的人而言,并且在这个过程中也可以学到一些数据科学,对吗?
安琪拉:对。我是数据科学训练营的忠实粉丝。不是所有的,但我认为有几个对那些有抱负,有能力学习技能的人来说是很棒的,对吗?我认为数据科学的某些部分是无法教授的,对吗?你不能教一个人想要正确地回答一个问题。但是,我认为怎样是可教的。我认为有很多人正在进入数据科学领域。我的意思是,不同的研究所和大学才刚刚开始有引用/未引用,“数据科学项目。”我的意思是,在过去五年中,几乎所有进入数据科学的人都做了一些其他的培训。
安琪拉:这里有一个完美的例子。在 iRobot 的团队中,我们有一位数据科学家,他最初是作为海洋生物学家接受培训的。你会想,“一个海洋生物学家在机器人消费公司做什么?”你会感到惊讶的,因为事实证明在她的领域有很多研究。她所做的是,她对野生海豚进行了大量的研究。她真的到处旅行,我有点嫉妒。事实证明,当你想到一队机器人,以及这些机器人的行为时,这种建模的专业知识真的很有用
雨果:哦,哇。
安吉拉:...独立地,和依赖地。在某些情况下,你可以把一队机器人想象成一群海豚。显然,这不是一个完美的模拟,但许多建模变得非常方便。知识存在于这个世界上,问题是你如何知道去那里寻找它?
雨果:是的。
安吉拉:她给我们带来了那种水平的专业知识。她是一位了不起的数据科学家。从技术上讲,她具备成为一名出色的数据科学家的所有条件。但是,她也带来了这个额外的维度,帮助我们以不同的方式解决问题,我认为更好。
雨果:对,当然,作为学术研究或科学研究人员,我知道如何提出正确的问题。但是,如果她做了很多旅行,数据收集,这类事情,思考数据生成过程,数据是如何生成的,以及如何建模,这也是做这类工作的关键部分。
安琪拉:没错,是的。这也是我热衷于实习项目的原因之一,因为它看起来像是繁重的工作,但它非常重要,我想我们都做过。我是说,我在华尔街的时候也这么做过。当我建立我的数据集,我建立这些被监控的数据库时,我非常清楚我做设计选择时的意思,以及我的设计选择如何向下游传播,这样什么样的问题更容易回答,什么样的问题更难回答,为什么?我的治理模式是什么,对吗?当我开始的时候,我没有词来形容这些事情,但这就是它们。
Angela:在我们的实习项目中,我们的员工变得非常熟悉数据收集、数据摄取和数据管理,我认为这极大地帮助了他们,因为他们能够更好地理解背景,理解尊重这些设计决策的重要性,而不是将数据集用于一件事,当它们实际上是用于另一件事时,并对此负责。
雨果:对。很快,对于那些真正喜欢这次谈话和你在 iRobot 的工作的听众来说,他们可以在网上查看实习项目或类似的东西吗?
安琪拉:哦,是的,当然。如果你去我们的职业页面搜索数据科学实习,是的,如果你感兴趣,请申请。
雨果:太棒了。如果你申请了,一定要提到你是在播客上听说的。
安琪拉:当然,是的。
与利益相关者的数据集成
Hugo:Angela,你提到的是,在组织内部销售数据科学在某种程度上是一种要求。我真正感兴趣的是,我们将如何看到我们的数据素养在组织中传播,而不仅仅是在数据科学团队中。我想知道您是否能与利益相关者进行最好的对话,他们需要多少数据才能说话,或者您是否认为未来首席执行官和其他利益相关者会说更多的数据,变得更懂数据?
安琪拉:哦,我想是后者。我认为,不能以一种数据素养的方式可信地讨论你的产品或你的战略,将会变得更加困难。我认为市场有这样的期望,我认为它正在成为赌注。此外,能够确保您的战略决策基于您有远见地收集的信息,以便您能够做出正确的决策。
数据科学经理的常见陷阱
雨果:你对数据科学经理有哪些常见的陷阱或警告?
Angela:我最讨厌的事情之一是,数据团队不知道哪些数据是可用的,这些数据意味着什么,以及如何使用这些数据。我认为你需要做的第一件事是开一个大型的探索性数据分析派对,你知道吗?
雨果:太棒了。数据党,我爱死了。
安吉拉:...是的。每周花一些时间,也许每个人 10%的时间专注于迷失在数据中,真正理解它,并与组织中的其他人一起喝咖啡,这样你就可以提出关于数据是如何设计、创建、收集、存储和标记的问题。我认为这非常重要。当人们认为这是浪费时间时,我真的很生气,因为这是无方向的,我认为如果你要成为公司数据的专家,你就是公司数据的专家,这是非常有价值的。
安琪拉:我认为另一件事是不要承诺太多。容易发生的事情之一是,人们知道什么是可能的,所以他们描绘了一幅图画,但他们忘记了如何务实地执行。因此,不要过度承诺是巨大的,但也不要承诺不足。我认为沙袋适得其反,我认为你需要能够准确地承诺。然后,兑现它。这不仅仅是因为它让你远离了过分/过分乐观的情况,还因为它建立了信誉。如果你能准确地评估你的结果将会是什么,我认为这也给实际结果增加了可信度。
安吉拉:我认为达到你可以承诺然后兑现的一个方法是诚实和透明。也许比其他学科更透明一点,因为数据科学家接受过询问数据和询问情况的训练。他们将能够看出你什么时候承诺过多,什么时候承诺不足,或者什么时候你不确定目标是什么。这一点非常重要,并且在团队和组织内部进行沟通。
组织中数据科学的未来
雨果:太好了。我认为这是一次关于当今数据科学管理状态的精彩对话,尤其是关于您的实践。我想知道数据科学在组织中的未来,特别是与决策功能相关的未来,这对您来说是什么样的。
安琪拉:是玫瑰色的。我认为数据科学有工作保障。这无疑是不同组织结构中越来越根深蒂固的东西。我觉得这就是为什么要看情况。与使用数据科学服务于其他事物的公司相比,将产品用于数据科学或算法的公司的未来将会有所不同。我还认为,无论团队是公共组织、初创公司还是大型组织的一部分,未来看起来都是不同的。还有,时间范围。这是一个专门从事研究的团队吗,他们正在研究登月?相比之下,一个更具操作性、面向企业、帮助公司优化自身运作的团队。
安吉拉:我认为所有这些都有不同的曲线,但我认为,从任何方面来说,我看不到未来我们会越来越多地依赖那些了解如何操作数据的人的专业知识。
行动呼吁
Hugo:对于我们所有的听众,无论他们是数据科学家,还是有抱负的数据科学家,甚至是渴望进入数据科学管理领域的人,你有一个呼吁他们行动起来的号召吗?
安琪拉:嗯,我很高兴你提到了这一点,实际上在我们之前的谈话中你也提到了这一点。我真的很兴奋,我刚刚为 HBR 写了一篇文章,它实际上是他们正在整理的一个系列的一部分,叫做“管理数据科学”这是一份为期八周的简讯,他们正在整理,重点是让分析和人工智能为每个人的组织服务。我有一篇文章要发表,所以当这个播客上线的时候,我想它已经有两三周了。我鼓励你和你的听众去看看。
雨果:太棒了,我们还会在节目笔记中加入一个链接。
安琪拉:太棒了,谢谢你。
雨果:安吉拉,很高兴你能来参加我们的节目。
安琪拉:哦,这是我的荣幸。谢谢你让我这个书呆子出来。
宣布免费周恢复
原文:https://web.archive.org/web/20221129040116/https://www.datacamp.com/blog/announcing-free-week-redux
你没看错标题。我们再次免费开放 DataCamp,这是世界上首屈一指的数据科学、数据工程和分析在线学习平台。从现在起到 9 月 9 日,你可以随心所欲地选择课程,我们甚至不会要求你提供信用卡。你只需要一个电子邮件地址就可以开始了。
在我们最后一周的自由活动中,来自世界各地的 135,000 名新学员加入了我们的行列。但是在过去的三个月里发生了太多的变化。越来越多的人需要新技能来确保职业发展。同样重要的是继续需要在家安全有效地学习——但许多人现在没有资源投资教育。
这就是为什么我们在免费周中再次消除了所有的进入障碍。无论您是刚刚涉足数据世界,还是一头扎进去,您都必须在 9 月 9 日之前在 DataCamp 上建立新的数据技能。
利用这一有限的时间,通过 DataCamp 的课程、项目和评估最大限度地发挥您的潜力。你甚至可以访问我们最新的课程,比如Power BI 简介和Python 中的气流简介。如果你现在开始,你甚至可以完成一些我们最受欢迎的技能课程,比如 R 编程或者 Python 基础。别担心——在自由周期间,你仍然可以获得每门课程的成绩证明。
我们希望你能加入我们的使命,为自己尽一份力,让数据科学教育民主化。与你的同事、朋友和家人分享我们的免费周新闻。如果这是你第一次回来,欢迎回来。你可以从你停下的地方继续。帮助我们第二次突破 200,000 名新学员——现在就在 datacamp.com/freeweek报名吧!
宣布我们与 Degreed 的合作关系!
DataCamp 很高兴地宣布,我们已经与 Degreed 合作,为组织提供免费的数据素养培训,无论他们是否已经订阅了 DataCamp。
谁被授予学位?
财富 50 强中有三分之一的公司使用 Degreed,它是一个劳动力技能提升平台,将您的所有学习、人才发展和内部流动机会与您的企业下一步需要的技能情报联系起来。Degreed 根据学习者的优势、职业抱负和当今企业所需的技能,推荐培训内容,从而个性化地为学习者提供服务。
关于提供的课程
我们通过 Degreed 提供的三门课程如下:面向所有人的数据科学,面向所有人的机器学习,以及面向所有人的数据工程。这些不需要任何以前的数据科学经验或知识,也不涉及任何编码,因此它们是您开始迈向组织范围内数据流畅的绝佳方式。
-
面向所有人的数据科学 是我们总是建议初次接触我们网站和数据科学的人开始学习的地方,因为它解释了数据科学的基础知识以及该领域中的不同角色。
-
面向所有人的数据工程 专注于这些领域中的一个,一个近年来需求特别旺盛的领域。了解数据工程师如何为数据科学奠定基础。
-
面向所有人的机器学习 在这里,你将学到你一直不敢问的关于机器学习的一切,并向你介绍人工智能和机器学习的热门话题。
在这三门课程结束时,您的员工将了解核心数据科学概念,并能够与这些领域的专业同事进行更深入的交流。
我们为什么要合作?
我们的伙伴关系可以用三个词来解释:共同的使命。DataCamp 的重点一直是数据科学及其民主化,Degreed 的重点是提供最新、最优质的学习体验。随着数据科学越来越多地改善日常生活,我们看到了帮助企业克服数据技能差距的机会,方法是将 DataCamp 的实践学习方法与 Degreed 10 多年来在其技能提升平台中支持职业发展和商业机会的经验相结合。
不用说,我们对此很期待!
有兴趣了解更多信息吗?联系,了解如何解锁我们的免费数据扫盲课程,并解答您的问题。
申请数据科学工作以及如何让自己脱颖而出
介绍
2012 年,《哈佛商业评论》将数据科学家评为 21 世纪最性感的工作。十年后,尽管出现了 AutoML 平台(如 AWS Redshift ML 和 Google Cloud AutoML)以及疫情时代的放缓,数据科学家仍然是最受欢迎的角色之一。事实上,数据科学家是科技行业薪酬最高的职位,平均年薪为 15 万美元。
尽管他们的具体职责可能因行业和公司而异,但大多数数据科学家都肩负着帮助组织从数据中创造价值的使命。他们通过探索大量数据中的模式和趋势,将结果传达给广泛的利益相关者,并建立和维护模型以实现自动化决策来实现这一点。因此,成为一名数据科学家需要一套独特、多样化的技能,涵盖统计、编码、商业意识和沟通,所有这些都将通过一系列面试问题和带回家的挑战来展示。
在这篇博客文章中,我们想从申请人和面试官的角度分享一些技巧,以帮助你在数据科学家面试中脱颖而出,获得你梦想中的工作。
秘诀 1:熟悉这个角色和公司
如上所述,“数据科学家”是一个模糊的术语,可以指任何围绕数据的角色。来自不同公司或不同行业的两位数据科学家可能会发现自己从事完全不同类型的任务。因此,通读职位描述中的职责部分是很重要的,或者问面试官:“这个职位的一天会是怎样的?这个角色会把大部分时间花在探索和可视化数据,或者构建模型上吗?”你对这个职位了解得越多,你就能越快知道这个职位是否符合你的个人资料和兴趣。这有助于你锁定更适合的职位,增加你得到真正想要的工作的机会。
你可以在像 indeed 和 linkedin 这样的职业网站上找到关于如何提高个人品牌和个人资料匹配的有用建议。如果你正在寻找为数据科学和分析量身定制的职业建议,data camp的职业服务将非常有帮助-在这里你可以找到这一领域专业职业教练的个性化课程。
一旦你确定了适合自己的角色,下一步就是向公司展示你对他们业务的热情。对于那些刚开始做数据科学家或想转行的人来说,这可能有点棘手,因为在你申请的行业中,你可能没有太多解决业务问题的经验。
我们发现很有帮助的一件事是做一些与目标行业相关的项目,并在简历和面试过程中提到它们。例如,如果你从未接受过金融方面的培训,但想申请一家投资银行的数据科学家职位,那么参与像这样的指导项目在 DataCamp 上模拟美国债券收益率的波动可以帮助你了解从事金融工作的数据科学家应该解决什么样的商业问题。
Kaggle 也是一个很好的平台,在这里你可以找到很多有趣的比赛和数据集。通过参与这些项目,并在面试中谈论它们,你不仅会积累该行业的基本知识,还会向公司表明你对他们的业务非常感兴趣,以至于你会利用业余时间探索他们的用例。
技巧 2:让你的技术专长在带回家的挑战中发光发亮
通常,数据科学家的招聘流程包括一个带回家的挑战,给候选人一个或多个数据集,以及一些要解决的业务问题。尽管提交的要求可能不同,但是候选人通常被期望共享代码、模型和分析输出。
许多候选人认为这是展示他们技能的绝佳机会。 R 和 python 是主要的数据科学语言,它们都有自己的必备包,用于数据争论、统计建模和机器学习,例如 Python 的 pandas、sklearn 和 statsmodels,以及 R 的 tidyr、dplyr 和 caret。如果您是数据科学新手, 建议参加一些类似 DataCamp 上的职业跟踪课程:使用 Python 的数据科学家和使用 R. 的数据科学家除了广泛的课程外,Datacamp 还提供了一个工作空间,人们可以在那里使用预先编写的代码模板和预先配置的数据集进行练习,以便那些希望获得一些实践经验来缩小学习和实践之间的差距。
有时可能被低估的是数据叙事的作用。优秀的数据科学家也是有效的故事讲述者,他们能够很好地交流他们的模型输出,足以说服利益相关者,从而推动真正的变革。俗话说“一图胜千言”。因此,请确保在您的分析报告中包含直观的数据可视化,以帮助面试官了解您如何发现数据中的模式,以及展示您的模型如何创造价值。除了常见的软件包如 matplotlib (Python)、seaborn (Python)和 ggplot2 (R), plotly 是一个值得尝试的图形库,如果你想建立一个基于网络的交互式仪表板。这个关于 DataCamp 的课程可能会有帮助:用 Python 中的 Plotly 介绍数据可视化。
或者,你可以尝试无代码 BI 工具,如 Tableau、Power BI 和 Google Data Studio。这些工具给了你两个优势。一方面,它们是流行的可视化工具,被大多数非技术利益相关者使用,比如数据分析师和产品经理。因此,掌握这些工具表明您可以轻松地与公司使用的数据分析堆栈集成。另一方面,它们比 Python 或 R 包提供了更多的定制,这允许您轻松地构建幻灯片风格的交互式分析报告。如果你是这些工具的新手,DataCamp 上的这个Tableau入门课程是一个很好的起点。
最后但同样重要的是,代码的交付也很重要。除非另有说明,在 Git 上构建您的解决方案,并将所有的依赖项整合到您的代码中总是一个好主意。没有什么比当面试官收到一个 zip 文件并试图运行代码时,却只能看到“找不到 XYZ 包”这样的错误消息更让他们沮丧的了。与此同时,确保你的代码带有干净、适当的文档,这样人们就能很容易地理解你的思路。
技巧 3:在分享你以前的项目经验时,记住数据产品的生命周期
大多数情况下,申请数据科学工作的候选人需要分享他们以前的项目经验。一个常见的陷阱是花太多时间描述技术工作,例如,他们如何清理数据和微调(超级)参数。这可能会让你的面试官得到他们可能无法完全理解的信息,同时分散他们发现你的商业头脑和利益相关者管理技能的有限时间。
因此,我建议在准备关于您之前项目的面试问题时,确保您的回答遵循 STAR 框架,并涵盖数据产品生命周期的所有阶段,即使您没有直接参与所有这些领域:
- 业务目标和问题:您的项目试图解决什么业务问题?您的项目有助于实现什么目标或 KPI?
- 数据收集:你在收集数据时遇到了什么挑战,你是如何应对的?
- 探索性数据分析:你如何向非技术利益相关者展示你的分析结果?他们提出了哪些问题或批评,你是如何回应的?
- 建模和逻辑:你为什么选择最终实现的模型(讨论技术和非技术动机)?你的方法的主要限制是什么?
- 测试和部署:你是如何测试和部署你的模型的?
- 监控:您选择了什么度量来评估模型性能?你学到了什么?你是如何根据你学到的知识改进模型的?
Figure 1. Data Product Lifecycle
此外,不要忘记突出所涉及的不同角色(例如,产品经理、数据分析师、数据工程师、QA 和业务运营经理)、他们的职责以及您如何与他们互动。听到这些,你的面试官可能会对你的商业意识和团队合作印象深刻。
结论
通过这篇博文,我们了解了最近对数据科学家需求的增长。然后,我们讨论了一些技巧,可以帮助您解决数据科学家面试中的技术和非技术问题。如果你渴望在未来获得一份数据科学家的工作,你可能会有兴趣尝试这些技巧,或者从认证的数据科学课程开始,朝着你的梦想迈进。
Arnaub Chatterjee 讨论了医疗保健中的人工智能(AI)和机器学习(ML)。
DataCamp 播客 DataFramed 的主持人 Hugo Bowne-Anderson 最近采访了麦肯锡&公司制药和医疗产品部门的高级专家兼合伙人 Arnaub Chatterjee 。
下面是播客链接。
介绍阿诺·查特吉
Hugo: Arnaub,我真的很高兴今天你能来谈谈人工智能、数据科学和机器学习在医疗保健中的作用,以及哪些成功了,哪些失败了,但在我们到达那里之前,我想让你介绍一下你自己的旅程,让我们知道你最初是如何进入数据科学的。
阿诺:谢谢你,雨果,也谢谢数据营今天邀请我。我进入数据科学的想法是非常偶然的,就像生活中的许多事情一样,是在正确的时间和正确的地点。我认为在医疗保健领域也有一个并行的运动,数据科学在过去 10 年里真正起飞了,所以随着许多完美风暴的工作,所有这些因素都对齐了。我认为我的职业生涯有点曲折,因为我在咨询行业担任过角色,在技术和政策领域为前任政府工作,然后在制药行业,现在又回到了咨询行业。围绕我如何工作的中心主题或精神一直围绕着数据科学和数据科学的共同线索和一些链接。
Arnaub:给你一个简短的背景,我在研究生院毕业后开始了我的职业生涯,成为一名顾问,最初专注于制药跨国公司,但后来在 ACA 时代之前,平价医疗法案时代,帮助艾滋病充斥的健康数据基础设施。这实际上让我去为奥巴马政府工作。我过渡到最初从事一些围绕医疗欺诈和滥用的数据科学工作,不仅思考政策,还思考如何利用这些数据,并预测谁更有可能实施欺诈和欺骗政府。
Arnaub:从这个角度来看,事情变得更像是一个技术平台。然后我有机会与 HHS 的一些技术官员一起工作,当时托德·帕克和布莱恩·西瓦克正在围绕开放数据创建一个新的运动,并建立 API 和平台来访问政府掌握的大量数据,所以非常非常幸运地遇到了两个硅谷的家伙,他们把他们的 DNA 带到了政府,并启动了许多倡议,如健康数据倡议。我们正在 fda.gov、clinicaltrials.gov 建立平台,开放 API。这也是非常正确的时间和正确的地点,能够向那些在私营部门以技术思维做这件事的人学习。然后是制药方面,由于政府的原因,我最终转到了制药行业,并跟随一些曾在政府部门工作过一段时间的人,在默克建立了一个专注于数据科学的团队。我们在默克所做的事情主要是关于我们如何利用和识别新的数据集,这可能包括流氓数据之类的声明,但也可能包括临床和基因组和社交媒体以及审查员。它真正利用并思考了我们如何展示默克产品的临床和经济价值。这是一种全新的思考方式,以不同的方式定位药物,并思考数据科学中新方法的出现,以支持和巩固药物的价值。
Arnaub:我这样做了很多年,并与各种学术机构合作,研究不同的机器学习方法和不同的数据科学方法。所有这些最终把我带到了麦肯锡,也就是我现在的位置。在这个职位上,我不仅与制药公司的客户打交道,还与科技公司的客户打交道,了解他们如何进入医疗保健行业。我觉得以这种身份,我很幸运地站在不同公司如何在各种不同环境中部署机器学习和数据科学的第一线。希望我们今天会谈到很多。
雨果:当然。正如你所说,它需要许多移动部件,或者它几乎是你的兴趣和技术的意外收获的完美风暴,新兴的数据科学堆栈和所有可用的数据使你的职业道路成为现在的样子。我们会看到这种情况也发生在这个领域。这实际上需要很多移动部件、可用性和大规模数据的生成、计算能力、统计洞察力,这使得数据科学在健康和其他方面得以发展。
你是如何学习数据技能的?
Hugo:我还对你在研究生院就开始考虑这类事情的事实感兴趣,那是你开始处理数据的时候。你当时需要的和现在需要的处理数据的技能,这些技能是你在工作中学到的,还是你专门接受过这类工作的培训?
阿诺:这是个有趣的问题。我想在研究生院我花了一些时间在生物统计学和流行病学上。我的背景是商业方面的医疗保健,还有健康政策方面的。关于数据科学有趣的事情是,如果你问医疗保健领域的许多人,他们会告诉你,数据科学家是加州的统计学家,他们基本上会说,随着方法和机器学习的出现,这个概念和术语已经发生了很大变化,真正扭曲了这个定义的含义。
Arnaub:在某种程度上,我认为从事传统索赔数据工作并拥有流行病学、生物统计学等技能的人本身就是数据科学家。我认为,正如你提到的,现在发生变化的是更大的数量和不同类型的数据。有不同的方式处理和理解我们如何使用它。我的训练从那里开始,现在我想,像许多人一样,我必须根据许多学科正在融合的事实来发展和学习。计算机科学家和现在实际上有数据科学学位的事实,教授使用数据的不同方法的项目,这些都与人们使用医疗保健数据的许多旧的学校方法相融合。这就是我现在的处境。
Hugo:很好,我很高兴你提到了不同类型的数据,因为我认为数据的异质性是如此丰富,实际上,当人们问我这种情况发生在哪里时,我首先提到的临床环境是,除了来自扫描的成像数据之外,你还可以从实验和控制中获得表格数据,这一点我们将会得到,除此之外,还有来自医生对患者文件的笔记等类似内容的自然语言。
医疗保健中的人工智能
雨果:我认为这是进入这场关于人工智能在医疗保健中的应用的对话的绝佳时机。正如我们所知,围绕机器学习在人工智能和医疗保健中的使用有很多炒作。我想知道,从你的角度来看,这一领域实际上有哪些成功之处?
阿诺:是的,这是一个非常重要的问题,我认为当我们谈论什么实际上有效时,我认为知道这是一个非常进化的空间是很重要的,所以在某些情况下,陪审团仍然不知道。在其他情况下,我们开始看到非常有希望的迹象。只是为了承认炒作,我想在我个人看来,我们正处于医疗保健领域人工智能资金的黄金时代。我想我最近看到的统计数据是,自 2016 年以来,仅医疗保健领域就有 300 家人工智能创业公司涌现出来。这些公司涵盖了从减少保险和结算公司的行政工作,到实际创造新的药物和授权化合物开发。我认为重要的是,我们现在开始看到对人工智能的许多关注正被推向哪里,以及媒体的注意力正走向哪里。风险资金正流向那些也在精简大量运营和效率任务的公司,比如医疗保健领域的管理效率任务。他们还流向那些大胆渴望颠覆已经发生了几十年的流程的公司。
阿诺:我们试图辨别的是一个成功的结果是什么样的,我们如何思考更大的愿望是什么,我们在哪里可以看到医疗保健的切实改善,我们如何思考病人结果的改善?这次谈话,不是要泼冷水或给正在进行的伟大工作泼冷水。这只是为了试着理解,就像你在对话开始时提到的,很多关于这一点的讨论都发生在我们看到承诺的地方。
Arnaub:让我来举几个不同的例子,在我认为这已经奏效的地方,我们可以就此进行更深入的讨论。您提到的第一件事是关于成像,特别是在诊断成像和医疗保健领域,这是一个基础。我认为非常重要的是要记住,人工智能在其他行业的开创性用例实际上是从回读图片和查看照片中的人脸、图案和物体的能力开始的。这与医疗保健领域的情况非常相似,我们在其中看到巨大成功的许多灯塔使用案例正在开始发生。
Arnaub:为了让你对这个市场的增长有一点了解,人工智能辅助诊断成像到 2023 年应该是一个 20 亿美元的产业。这只是 570 亿美元的整个医学成像市场的一小部分。570 亿美元包括设备,包括软件和服务,所以这是一个巨大的市场,在医疗保健领域已经有一段时间了。我认为我们现在看到的是来自许多方面的共识,无论是医院还是技术公司,人工智能都将改变诊断成像行业,无论是提高生产力,还是提高准确性,个性化治疗计划,所有这些功能都有待实现。
Arnaub:在这一点上,为什么成像是我们看到改进的第一个地方,首先,医院每年产生大约 50pb 的数据,其中 90%的数据来自医学成像。我们讨论的是 MRI 扫描、PET 扫描、CT 扫描,所有这些也都嵌入在电子病历中。我认为这是一个原因,这种数据的可用性和普遍性。
Arnaub:我认为第二个原因是,现在医疗保健领域确实有许多令人信服的使用案例。为了挑选谷歌已经完成的一些伟大的工作,谷歌大脑在 JAMA 上发表了他们非常强大的论文,他们与来自一个眼科研究所的 13 万名患者一起工作,他们观察视网膜眼底图像。他们能够做的是提出一个更复杂的卷积神经网络,能够预测糖尿病视网膜病变,这是全球失明的主要原因之一。大约有 4 亿人患有这种疾病。
阿纳布:他们有效地做的是利用这 13 万张图像的子集,提出了一个更精确的版本,在理解视网膜病变发生在哪里以及如何实际描述背景线索方面,他们胜过了由八名眼科专家组成的小组。他们的 F 分数是 0.95。事实上,他们有一个调整后的 AUC,事实上,它是在 JAMA。有一个非常强有力的临床论点,如果我们获得更多这种类型的数据,我们能够将它构建到不同的工具和流程中,以及眼科医生如何看待他们的患者,我认为这只是一个开始。Deep Mind 在视网膜空间内有一个非常相似的研究。光是这两个例子,我认为就很有说服力。您不仅在眼科看到了这一点,而且在皮肤病学和病理学中也开始看到这一点,作为您的下一组 lighthouse 用例。
什么类型的公司取得了进步?
雨果:这让我觉得很有趣,我想知道你是否感兴趣,在这种情况下,是像谷歌这样的公司,在医疗保健领域传统上不为人知,却取得了这样的进步。
Arnaub:是的,我认为你开始看到许多拥有世界级机器学习和医疗保健机构的公司之间有趣的合作。硅谷的另一边是脸书。脸书刚刚宣布了他们与 NYU 医学院的合作,在那里他们利用人工智能来加快核磁共振扫描的识别速度。对你们感兴趣的人,这个项目叫做快速核磁共振成像。它最初观察大约 300 万张膝盖、大脑和肝脏的图像,并观察大约 1 万个不同的病人病例。这是最近刚刚宣布的。我们会看到劳动的成果是什么。
阿诺:我不认为这有什么好惊讶的。我认为计算能力,现在谷歌有责任弄清楚他们如何思考应用程序在哪里,用例在哪里,我认为这是你开始把成像视为他们的第一个初始灯塔的地方,因为他们可以,令人信服地...他们已经在其他行业做到了这一点,现在他们也有能力在医疗保健数据上做到这一点。
人工智能在医疗保健中的用例
Hugo:所以你打算告诉我们更多关于眼科和皮肤科的使用案例。
阿诺:是的。我认为我们开始看到类似的情况...眼科显然是视网膜疾病的例子。我们已经开始看到不同的乳腺癌病例。Kaggle 和英特尔以及一家名为 MobileODT 的公司之间的合作是一个很好的例子,他们开发了一种算法,可以准确识别女性的子宫颈,以及我们如何更好地筛查和治疗女性的宫颈癌。该数据由大约 10,000 个标记的子宫颈图像组成,并且它具有一型、二型和三型宫颈癌。这是一个 50 层卷积、神经网络、深度学习模型,可以准确分割子宫颈类型识别的不同部分。这是另一个例子,这个算法,仅仅通过利用群众的力量,它甚至没有受过学术训练或临床训练的人,他们能够在 75%的时间里捕捉并准确识别子宫颈类型。
Arnaub:我认为值得注意的是,这些 CNN 实际上是可复制的。你不必每次都重新组装轮子。我认为这就是你将开始看到巨大改进的地方,你将开始看到在我们如何进行成像识别和再现这些算法方面的许多增强。
阿诺:我认为第二件事是这些主要的合作伙伴关系,你开始看到科技公司与眼科研究所和拥有成像数据的大公司合作。这将是非常引人注目和强大的。
Hugo:那么当你说可重复时,你是指在迁移学习意义上的可重复使用吗?
阿诺:是的,我想我们稍后会谈到这一点,但人工智能的一大挑战是让它在医疗保健中重现。最大的障碍是医疗保健系统的许多不同部分的数据是不同的。你在加利福尼亚看到的病人将与你在得克萨斯、南卡罗来纳或波士顿看到的病人大不相同。我认为,我们试图更好地理解的是,你如何对一种可能已经在美国人口或全球人口的某一部分中使用的算法创建一种概括能力。那么能够始终如一地提出这些算法就是一个挑战,因为也有不同的方式来描述这一点,我稍后会花一些时间来讨论这一点。
阿诺:特别是对于放射学,你所寻求的结果是不同的。你可能会看到病变的概率,也可能会看到肿瘤的特征。你可能会看到肿瘤的位置。你必须一遍又一遍地用不同类型的成像数据做同样的练习,这样算法才有可能重现。我认为这就是我们开始看到的,我们必须不断地证明这个算法是准确的,可以用其他数据设置来识别。
其他示例
Hugo:听着,老实说,这次谈话让我更加意识到消除这些事情的神秘性是多么重要,特别是因为有这么多接触点,对吧,人工智能可以在健康方面产生影响,正如你提到的,从行政任务到 scut 工作,保险业,到所有这些诊断。在我们继续之前,我想知道您是否还记得其他例子或超级有趣的用例?
阿诺:是的。绝对的。第二,我认为,我们经常看到的是诊断预测。你如何看待那些你还没有从数据中挖掘出来的可能有助于治疗进展的新变量?
Arnaub:实际上,我们现在正在与这个领域的几个客户合作,提出可能导致疾病进展的新的预后变量,也许可以预测疾病的早期发作。我认为令人信服的是仍然有大量的误解,仍然有大量未满足的需求,我们没有在我们的患者群体中描述出来。如果我们能够使用机器学习方法更好地了解那些病人可能是谁,我们可能能够在如何让他们进出医院,更快地看医生方面做一些令人难以置信的事情。
Arnaub:一个很好的例子是:Emory 刚刚发布了一项关于脓毒症的研究,他们观察了 42000 名患者,他们观察了 65 种不同的测量方法,这些方法可能预测脓毒症的发作。他们在不同的时间间隔内观察,比如 4 小时、6 小时、8 小时和 12 小时内。最酷的是,他们能够提出与医生相同的模型和相同的准确性水平来预测脓毒症,在医生和工具之间有一个验证队列,算法基本上是不可区分的。这是一个非机器对医生的例子。更重要的是,我们不仅有能力确认和证实医生的发现。如果我们不断完善这一点,我们可能会发现更多的措施,更能预测脓毒症。
Arnaub:我想和你分享的另一个例子实际上是上周刚刚发表的,发表在美国医学协会杂志上,这是一个非常顶级的出版物。这是对 500 名患者和一些葡萄球菌感染患者的随机试验。他们在六年的时间里观察病人,他们发现一种算法在建议如何用抗生素治疗他们方面做得和医生一样好。真正令人信服的是,他们能够说接受某些抗生素治疗方案的患者在一定天数内服用了某种药物。他们可能在更短的时间内服用了一定数量的药物。你基本上是在看我们如何考虑抗生素方案,以及让患者留在医院内外的最佳做法。我认为这是你开始看到许多令人信服的证据的地方,鉴于这现在出现在顶级医学杂志上,这不是未来的事情。这些就是现在正在发生的事情。
雨果:你已经暗示过几次了,我们不一定...本质上,人类和机器之间有一个错误的二分法,对吗?
阿诺:是的。
人工智能在医疗保健中的未来
Hugo:我认为更有趣的是人类算法互动的想法。人工智能和机器学习模型与人类在一起的想法。你认为这是人工智能未来在医疗保健中的一部分吗?
我猜这是你的机器人和医生的对话?
雨果:当然。
阿诺:是的,我想有一些...我会给你两个有趣的轶事来证明我们是否...我们听到很多关于内科医生是否会被医生取代的说法。一个例子是,据报道,医科学生实际上并不专攻放射学,因为他们担心就业市场在 10 年内将不复存在。
阿诺:另一个例子是,中国有一家非常有趣的公司,叫做科大讯飞,这是一家相当大的中国人工智能公司。这是第一台通过医学考试的机器,它的得分大大高于学生群体。当你听到这些类型的陈述,然后你看到所有的 JAMA 证据或新英格兰杂志证据表明医生与机器处于同一水平时,将会有很多对话。它还展示了机器学习实际上已经走了多远。
阿诺:我想有几件事让我相信,我们还没有到医生被取代的地步。一个是,许多这些人工智能系统,就像你举的放射学例子,它们执行所谓的狭义人工智能。这些是单一的任务,它们正在被编程,深度学习模型正在为特定的图像识别任务设置,因此检测结节或查看胸部 CT 并寻找出血。这些是 N 个任务中的一个,它们是二元的,要么是要么不是。我认为如果我们将任务保持在这个狭窄的检测范围内,我们将会发现许多有趣的事情,但这意味着这些将会是增强工具。他们将帮助医生提高诊断的准确性,但众所周知,医生要做相当多的工作。医生如何诊断病人需要大量的脑力劳动。
Arnaub:从短期来看,我认为我们正在寻找人工智能来为许多解决方案提供动力,这些解决方案可以降低成本,提高准确性,并增强医生的决策能力。我看不出它会很快取代医生或我们的提供者所做的大量工作。
Hugo:是的,我喜欢你提到狭义人工智能,正如你所说,它是算法,人工智能模型,用来解决特定的任务。我觉得在文化意识里当人们听到 AI 的时候,他们不会想到狭隘的,弱小的 AI。他们认为一个强大的人工智能在某种意义上反映了人类的认知,这甚至不一定是我们在大多数地方想要的和我们正在努力的。对吗?
阿诺:嗯嗯(肯定)。是啊。没错。没错。它必须更加广阔。我认为另一件值得一提的事情是...我们已经讨论过这个问题,但是模型中的一致性和可移植性必须发生。我们离将此整合到医生决策中还有很长的路要走。我认为不同的供应商专注于不同的深度学习算法和各种不同的用例。甚至某些东西,我们会谈到这一点,他们是由美国食品和药物管理局批准,但他们有完全不同的焦点。直到我们可以开始标准化很多,这将需要一些时间。至于你对人工智能的狭隘和更广泛的思考,这也是等式的一部分,然后我们如何实际上使其可复制。
数据科学、ML 和 AI 在医疗保健领域是如何发展的?
Hugo:你多次提到的一点是,我们现在看到的很多力量都来自深度学习。你提到了卷积神经网络的使用。我将稍微后退一点,对于那些想要深度学习去神秘化的人来说,深度学习是...如果我说错了,请纠正我...是机器学习的一个子类,主要是在监督学习中,你试图预测一些事情。这种特殊类型的监督学习模型,是从我们的生理系统和大脑中的神经网络中得到启发的。Hugo:卷积神经网络本质上是一种非常擅长挑选图像模式的网络。它使用卷积技术来做到这一点。当然,人工智能先于卷积神经网络,尽管它们目前非常强大,但我相信你已经看到了趋势的出现和消失。我只是想知道你是否可以谈谈自从你在医疗保健领域工作以来,数据科学的移动部分 ML 和 AI 在医疗保健领域是如何发展的?
阿诺:是的,我认为如果我们要把它推广到医疗保健,有相当多...有各种各样不同的模式,这些模式的复杂性被用来解决不同的问题。我认为在非常基础的层面上,人工智能在医疗保健中的许多早期应用都集中在诊断和药物治疗之间的关系上。一些更基本的技术,如关联规则挖掘或监督学习,旨在发现和提取重要的关联。这些方法有很多局限性,所以我认为如果你看看我们的方法,它们只是在项目级的共现。它们并不是真正的更高层次的抽象。对于数据探索或临床决策支持来说没有太多用处。
Arnaub:我认为,如果你看看监督学习技术,他们正在从预测的角度解决这些问题。如果我们有正确的数据水平,我们可以提出更多的非预测性应用。比如疾病分类或者病人分类。随着数据变得更加有用,可能会发生一些事情,我想,没有更好的词了。我认为这就是我们实际上能够看到监督学习变得更加适用的地方,从很少观察的小数据集到更大规模的例子。这是一项伟大的工作,例如斯坦福和 UCFS 大学正在做的工作,他们在 10 年的时间里观察了数十万名患者,进行了数十亿次观察,并提出了复杂的深度学习神经网络。我认为这就是你开始看到人工智能深远应用的地方。
阿诺:在其他情况下,我们仍在解决数据问题,也就是说,我们获得了足够的数据,使这变得有趣,但某些模型或方法的复杂性可能不存在,因为坦率地说,数据不是那么好。
在你看来,医疗保健中的数据科学、ML 和 AI 的未来是什么样的?
Hugo:话虽如此,在你看来,数据科学、人工智能和人工智能在医疗保健领域的未来是什么样的?
阿诺:是的,所以我认为还有很多应用我们还没有谈到。我认为我们选择了两个简单的方法,一个是已经发生的事情,另一个是正在进行的工作——疾病诊断预测,然后是成像。我认为在药物开发方面有很多工作要做。我们现在关注公司的事实...有一些令人兴奋的初创公司正在这样做,他们专注于药物再利用等事情,他们使用真实世界的数据和机器学习算法来探索药物分子和疾病之间的关系。这是非常令人信服的。这就是你开始看到大量资金进入的地方,特别是来自生物技术和制药公司,有像 BenevolentAI 和 Numerate 等公司正在使用深度学习来挖掘大量数据,以查看科学论文、临床试验等一切,他们实际上只是试图了解哪些化合物在靶向疾病方面更有效。
阿诺:我认为这些类型的事情得到了相当多的投资,但是我们还没有看到劳动的成果。我提到了仁慈。他们开始确定 ALS 治疗的假设,你知道这只是一个开始,但它开始缩小药物靶点或化合物的范围。它不仅为生物技术和制药公司节省了大量时间,还加快了药物开发过程。我认为这是一个例子。
Arnaub:确实有一些有趣而强大的基因组数据的例子,我们还没有谈到,所以 DeepVariant,如果我回到谷歌一秒钟,DeepVariant 是一个开源工具,它是谷歌大脑和谷歌生命科学部门 Verily 之间大约两年的工作。他们能够有效地做的是提出一种更复杂的统计方法来发现突变并过滤掉错误。DeepVariant 所做的是,它改变了变体调用的整个任务,即试图找出哪些碱基对是你的一部分,而它们不是某种处理工件的一部分。它把它变成了一个图像分类问题。Deep variant 开始取代并超越这些基本的生物学工具,如 GATK 和 SAM 工具,并将错误数量减少了 10 倍。
阿诺:我认为,这只是开始阶段。即使像谷歌这样的公司也会告诉你,他们的基因组学工作还需要几年时间,考虑到这项工作花了两年时间。但是我对这种潜力感到非常兴奋。还有其他关于医生倦怠和医疗保健中语音技术出现的例子,我们开始了解医生在 EHR、电子健康记录数据输入上花费了大量时间,如果我们能够在未来使用机器学习和自然语言处理以及语音技术,那么我们将开始自动填充记录中的结构字段,减轻医生的工作负担,减轻医生的文档负担。这是我认为处于前沿的三个用例。在这些领域,有很多炒作和兴趣,也有非常惊人的工作正在发生,但这只是我看到的未来走向的一个简短列表。
观众的提问
责任
雨果:太好了。在我继续之前,实际上有几个有趣的问题,Gamal 问了一个问题,关于责任呢?实际上,我想从医疗保健中数据科学、人工智能和人工智能的未来的角度来思考这个问题,特别是我们讨论的许多算法本质上都是黑盒算法,很难理解它们为什么会做出这样的预测。因此,就可解释性与黑盒而言,也许你可以讨论一下,我想,我们作为数据科学家建立的模型的责任。
阿诺:是的,我认为这是一个非常重要的问题。我想谈的一件事是未来的政策空间。FDA 批准的算法的概念实际上正在开始发生。我们现在看到的是当前模型中缺乏一致性和可转移性,因为它们关注不同的端点,它们是在黑盒设置中完成的,在那里输入数据,我们不确定会输出什么。我认为这意味着监管机构将进行干预,尽管是以积极的方式。
Arnaub:作为一个例子,美国放射学院实际上正在帮助供应商在算法上市前验证算法的有效性。我认为这是一个例子。另一个例子:关于接受算法和批准它们是诊断的一部分。他们对使用神经血管疾病算法的决策支持工具投了赞成票。他们在 4 月份对糖尿病视网膜病变做了同样的事情,然后他们为一种计算机辅助工具做了一些事情,这种工具有助于成年患者的手腕骨折。这些都是 FDA 允许市场开放的。他们允许算法实际上以一种受监管的方式帮助提供商。
阿诺:事实上,白宫和众议院监督信息技术委员会内部正在发生非常酷的事情。如果你们非常无聊,你应该读一读众议院监督委员会刚刚发布的名为“机器的崛起”的报告。这基本上是 NIH 如何确保算法的标准化。白宫也是如此。他们从政府那里推出了一个非常有趣的计划,以一种道德的方式来建立人工智能。我认为黑匣子问题会继续发生。我们已经看到这对于一些大公司来说是个问题。我们需要能够解决这个问题,虽然我们不喜欢政府干预,但我认为这是一个实例,我们实际上看到了很多积极的事情。
数据科学中的伦理问题对医疗保健中的人工智能有更大的影响吗,在这个领域有没有为研究人员制定伦理指南的举措?
Hugo:接下来,我们实际上收到了听众中一个叫 Daniel 的人提出的一个关于伦理问题的很好的问题:数据科学中的伦理问题对医疗保健中的人工智能有更大的影响吗?在这个领域有没有为研究人员制定伦理指南的举措?你已经说过了,我们各自自上而下。我还想知道数据科学社区内部的实践。什么类型的利益相关方会让数据科学家承担责任?同样,事实上,在市场营销中,或者广告中...如果你给某人看了错误的广告,这并没有给某人错误的诊断那么重要,对吗?健康领域有没有特别有价值的东西?
阿诺:是的,所以我认为我们看到的是我们如何标准化疾病的本体,这是一个不断发展的问题。有一些学术团体致力于复制这些表型。所以表现型基本上就是我们如何描述一个病人和他们各自的疾病。如果学术团体和组织走到一起说这是一个普遍接受的算法,这是我们如何避免错误的癌症治疗建议,或者这是我们如何看到这是一个不安全或不正确的治疗建议,我认为这将实际上迫使更多的人在某些参数内工作,并建立符合指南和实践的算法。否则,在大量健康数据噪音中找到信号是非常容易的。我认为,有些公司在这方面经历了一些惨痛的教训。我认为,只要我们与试图这样做的组织合作,这就是解决这个问题的一种方式。
阿诺:我认为另一件事是健康数据难以置信的不一致,有一个名为 HL-7 的国家小组委员会,这是一个健康数据标准委员会。他们真的在大力推动一种叫做 FHIR 的东西,这就是快速医疗保健互操作性资源。它试图创建一个标准,让数据不再是某个人的竞争优势,而是每个人都可以使用的东西,并且是为每个人标准化的东西。你看到的不仅仅是不一致的标准。
Arnaub:医疗保险/医疗补助服务中心真的在努力推动标准的本体论。我认为 FHIR 和其他组织正试图在所有的混乱和噪音背后创造一种一致性。雨果:太棒了。这实际上回答了我们从观众那里得到的下一个问题,这个问题来自 David,他关注人工智能在医疗保健中的政策含义的研究,特别是 FHIR 是否会对人工智能的实施产生任何影响。很好,你能在我框住它之前回答这个问题。Hugo:另一个问题,我要提醒今天在这里听和看的人,一想到问题就在聊天中提出来。我从威廉那里得到了一个非常有趣的问题,我们之前已经暗示过了,但是威廉说“我注意到很大一部分炒作都集中在医疗保健的 R&D 方面。比如图像分析,药物发现。什么是炒作,更重要的是,在制造方面有前途的应用?”
阿诺:对,这是个好问题。我想这与药物开发有关,抱歉,是在药理学范围内?
雨果:对,没错。
阿诺:是的,所以我认为我们开始在这个领域看到很多活动。这有点微妙,但就制造业如何试图解决这个问题而言,我认为我们现在有能力标准化并更好地理解药物循环是如何发生的,供应链可以优化。例如,我认为这就是像 BERG 这样的公司不仅在研究应用中使用人工智能,而且在制造中使用人工智能的地方。这是我很少遇到的东西,但仍然很受欢迎。我认为有一些方法可以考虑无监督学习方法,比如我们如何试图理解药品流通,以及我们可以在哪里改进我们的供应链工作。
Arnaub:实际上,英国皇家学会正在研究机器学习在生物制造中的作用。我们真的能帮助优化时间因素吗,比如帮助制造商减少生产药物的时间,降低成本,提高复制能力?是的,仍然是一个非常受欢迎的话题。这不是我们一直回避的事情,但我现在已经看到很多资金和兴趣流向了探索。
鉴于人工智能的黑箱性质和工业的专有性质,如何评估算法的外部验证和可重复性?
Hugo:我想,我们有几个关于在医疗保健中使用人工智能、人工智能和数据科学的道德本质的问题。我想问你的第一个问题来自一位名叫詹姆斯的听众。詹姆斯说,鉴于人工智能的黑箱性质和工业的专有性质,如何评估算法的外部验证和可重复性?他还说,基本上,开放科学在商业人工智能领域中处于什么位置?
阿诺:对,这是个好问题。我认为我们需要做的是提出一种跨学科、多利益相关方的方法来评估进入市场的不同算法。像 FDA 这样的大型自上而下的机构正在评估医生在实践中运用算法的能力。我认为,在学术层面上,还有其他更跨学科的组织。一个伟大的团体叫做 OHDSI,它是观察健康数据科学和信息学团体。他们试图做的是,这实际上是制药公司、学术界和创业公司之间的合作。我认为他们所做的一件事非常重要,那就是他们为医疗保健创建了一个通用的数据模型。他们查看了不同的观察性医疗保健数据库,认为电子病历对于支持临床护理非常重要。像 clean data 这样的数据库对于报销很重要,但它们都有不同的用途。我们需要创建一个通用的数据模型来容纳这两种不同类型的数据。
Arnaub:这个 CDM,通过一个叫做 OMOP 的伙伴关系,代表观察医疗结果伙伴关系,它基本上是试图从随机编码系统中提取所有这些噪音,并创建一个标准化的本体和词汇。这是试图从其他人、多个玩家、跨学科玩家那里获得买入的一种方式。我认为,这有助于应对道德挑战。
阿诺:OHDSI 是一个实际上致力于复制和出版所有这些研究的组织。所有这些都是开源的。他们创造了许多软件工具,如 Atlas 和 Achilles,它们是描述不同数据和数据质量的标准化数据库。这不是我们一夜之间能解决的事情。我认为监管机构会非常明智地决定批准什么,不批准什么。医疗保健行业往往会发生的情况是,一旦出现某种不良事件,或者出现某种临床错误,你就会看到整个行业都受到打击。没有人希望这种情况发生。我认为这是抑制创新的原因。
阿诺:我们希望尝试...这很奇怪,在我们现在所处的世界里,我们试图尽可能多地获得与人工智能相关的工作,同时也非常注意到,一旦它进入医生的手中,或者它开始成为病人护理的一部分,它的成功部署是非常具有挑战性的。这就是所有这些东西的下一步发展,是将这些算法非常仔细地实施到临床决策模型中。
它是否足以证明算法或模型的有效性,或者是否需要一个完整的、全功能的描述?
Hugo:我很高兴你在这里提到了监管,因为我们有一个来自 Stephen 的相关问题,这个问题是从监管的角度来看的,它是否足以证明算法或模型的功效,或者是否需要一个完整的、全功能的描述?
阿诺:是的,我不知道我们是否有适当的指导。我认为有很多组织正试图揭开人工智能的神秘面纱,或者 FDA 应该如何思考这个问题。一些标准的东西,比如你需要证明什么。一个是你的基准数据是什么?你在吸毒吗...你用的是地面真实数据吗?意思是它是一个可信的索赔数据源吗?它是 EHR 数据的标准化本体吗?我认为公司努力选择各种不同的数据来源和收集方法。然后他们意识到他们的算法并不是那么好,或者他们希望它被认可。什么是地面真理有很好的定义。这是创建一个真正强大的模型的一种方式。
Arnaub:我认为,对于算法的预期用途,还有其他的思考方式。我们如何看待这种与医生的互动?它对下游患者有影响吗?会不会出现算法偏差?意思是你要拒绝对某一特定人群的治疗吗?这是食品和药物管理局根据它认为道德与否来考虑的事情。
阿诺:那么我认为改装模型有一整套监管方法,这样他们就能不断学习。主管 FDA 的 Scott Gottlieb 谈了很多关于患者将如何发展,以及我们如何思考公司何时必须对模型进行改装,以及如何对其进行验证。什么才是正确的改装节奏?是每小时吗?是六个月吗?是每年一次吗?我觉得一些组织已经尝试创建这些指导性的问题列表,这些问题可以帮助我们提出一个好的模型,而不是一个不合格的模型,一个更有可能被临床社区实施和接受的模型,而不是那些有很大发现但可能有一些漏洞的模型。
由于医疗保健是一个受监管的领域,你认为人工智能和医疗保健将是只有像谷歌和脸书这样的大公司才能取得进展的重点领域吗?还是觉得小公司有空间?
雨果:在监管方面,我们也收到了 Harsh 的一个很好的问题。Harsh 问道,由于医疗保健是一个受监管的领域,你是否认为人工智能和医疗保健将是只有像谷歌和脸书这样的大公司才能取得进展的重点领域?还是觉得小公司有空间?你之前提到,这个领域已经有数百家初创公司。也许你可以多说一点?
阿诺:当然。我认为这是一个非常有趣的问题。我认为...我给你举一个例子,我认为这个例子令人惊讶。你对谷歌这样的大型科技公司的看法。脸书实际上在今年早些时候宣布,他们正在研究使用人工智能来监控自杀,并了解他们的哪个用户更有可能实施自杀事件。对于一家科技公司来说,这是一个极具道德挑战的领域。
阿诺:我认为大型科技公司虽然有很棒的应用程序和很棒的计算机科学,但他们非常谨慎,因为他们意识到这不是你可以轻易涉足的事情。我认为他们在进入这个市场时实际上有巨大的组织风险。第一,因为病人护理和卖广告完全不同。我认为他们运用科学和计算能力的能力面临着巨大的风险。他们要评估是否值得,但他们都想让这个世界变得更好。这是他们的愿望。
阿诺:和其他公司一样,有很多强大的科技公司。我提到了这个领域的语音技术。像虚拟助手和语音技术这样的公司将成为这个领域的主要参与者。我不只是指亚马逊,我是指像 Orbita 和其他公司正在做令人难以置信的工作,Robin AI,他们基本上是在试图帮助减轻医生的文件负担。这些都是资金充足、资本充足、得到大力支持的创业公司,正在做着伟大的事情。有患者数据和风险分析。有一些公司,像叙事者,正在做非常引人注目的工作。他们直接与医疗保健系统合作,以安全和合规的方式做到这一点,所以我不认为大型科技公司是唯一可以在这一领域发挥作用的公司。
阿诺:我认为,如果你非常有计划,有条不紊地进入一家初创公司,如果你加入了正确的伙伴关系...我的意思是,有相当多的初创公司在这个领域取得了很大进展,在药物研发领域。这些创业公司已经筹集了数亿美元,现在运作得非常好,非常成功。制药公司正在对 Numerate 和 BenevolentAI 等公司进行多年投资,并投入了大量资金。这不再仅仅是一个大型科技公司的空间。
医疗保健中人工智能采用率的主要限制是什么?
Hugo:实际上有大量的精彩问题,但是我们需要在接下来的 10 分钟左右结束。我还有两个问题。第一封来自克里斯托弗,我对此非常感兴趣。Christopher 问医疗保健中人工智能采用率的主要限制是什么?
阿诺:是的。这个问题问得好。我们谈了一点什么是政策障碍,我们谈了我们如何考虑方法。我认为医疗保健中最大的限速步骤将是无处不在的高质量数据。这是最大的挑战,我认为这已经困扰了医疗保健几十年了,就是一旦一个新的数据集被发布到医疗保健界,每个人都会对此感到非常兴奋。一旦政府为 EHR 电子健康记录制定了标准,EHR 就成了任何拥有该记录的组织的竞争领域。挑战在于获取这些数据。现在基因组学也是如此。我们开始看到生物银行和拥有基因测序数据的能力,基因测序数据。这是下一个领域。这就是人们试图达到的目标,但这些都不重要,除非数据是可链接的,除非有一个标准,除非有标记的数据。我们今天谈论了很多关于成像的问题,但放射科医生苦于成像数据存储在这些 pax 仓库中,pax 是归档系统,然后它们没有被标记。我们不知道我们在看什么。所有这些都表明,在医疗保健中采用人工智能的最大障碍是高质量的数据,这就是为什么我提到了 FHIR 等标准,这些标准试图在一个非常混乱的世界中创建数据的某种和谐和一致性。
阿诺:我认为另一件事是,医院和其他拥有数据的组织非常愿意与玩家合作,但在公司承诺的方面有相当多的重叠。我们开始看到许多公司涉足不同的领域,并声称他们正在进行化合物开发,或者他们正在研究分子识别或目标验证。他们试图成为万事通。我认为这混淆了公司实际做的事情。
阿诺:我的建议是,要非常清晰、精炼地专注于你认为自己在做的事情和你擅长的事情,而不是试图涉入许多其他的浑水。也就是说,我的意思是,市场现在非常火爆,你会看到大量的合作伙伴和创业机会。最大的限制步骤是访问数据,找到正确的合作伙伴,能够演示一个用例,然后在临床实践中应用该算法。
你认为人工智能会使医学民主化吗?
雨果:我还有一个听众的问题,然后我会问你最后一个问题。这是来自 Gamal 的,这是一个相对普遍的问题,我希望你以任何你认为合适的方式来解释。你认为人工智能会使医学民主化吗?
阿诺:哦,有意思。我想我们会到达一个地方...我会对世界民主化的使用持开放态度。我认为这意味着让人们能够获得医疗服务,或者这就是我们将选择使用的定义。我认为患者正越来越多地以不同的方式与卫生系统互动,事实上,大多数,绝大多数的患者上网查找健康信息,现在几乎 90%。事实上仍然有...现在有很多方法可以让病人与医生和科技公司分享他们的数据。我们都知道苹果在健康工具包和研究工具包方面所做的工作,试图获得更多的数据。我认为人工智能会发挥更大的作用,也许技术会帮助人们获得医疗服务。希望我是在回答你的问题,但请随意改变措辞。
与此同时,美国正遭受巨大的地方性卫生政策挑战,我认为人工智能无法解决这些挑战。我认为人工智能将实现并帮助某些事情。它可能会为诊断提供动力。也许随着时间的推移,它会改善健康状况。仍然有很大一部分人永远无法实现人工智能,因为缺乏更好的词,或者无法获得医疗保健资源。我认为这是我们系统中最大的障碍。
行动呼吁
雨果:这确实回答了问题。我最后一个问题是:对于我们所有的听众,你有最后一个行动号召吗?
阿诺:是的。我想我们已经谈了很多关于挑战的问题。我们也谈了很多关于承诺和行业发展方向的话题。我认为这个解决许多容易解决的问题的概念,我们选择了许多更性感的东西,如药物开发,但我们的医疗保健系统遭受了巨大的浪费。这些都是巨大的问题,人工智能可以解决很多这样的事情,比如保险和账单索赔。我以前的导师曾经说过,医疗保健中很多最赚钱的工作也是最不性感的,是后台应用类型的工作。
Arnaub:如果我们能够预测更好的浪费或欺诈,或者如果我们能够改善计费和文件流程,这些都是非常重要的问题,我认为这是有意义的。你应该用人工智能和你的能力去解决它们。
阿诺:我认为另一件事是,这些问题不应该孤立地解决,或者孤立地解决。你将会看到许多不同的,也许是独一无二的医疗保健合作伙伴关系的出现。医院、科技公司和与创业公司合作的病人团体。我认为整个模型都颠倒了。我鼓励每个人在如何与不同党派合作的问题上发挥创造性。有很多非传统的人正在进入医疗保健领域,所以要想一想交叉点在哪里,交叉功能在哪里。在那里,你通常会找到更有创造性的解决方案,而不是通过相同的渠道工作。
雨果:谢谢,阿诺。
阿诺:是的,谢谢你,雨果。感谢 DataCamp 抽出时间。我真的很感谢这个机会。雨果:当然。好吧。
阿诺:谢谢你。
使用 DataCamp Signal 评估您团队的 Python、R 和 SQL 技能
数据技能对于任何组织在 21 世纪保持竞争力都是必不可少的,但如果没有可扩展的技能评估方法,就很难知道自己的地位。data camp Signal通过帮助您了解技能如何在您的组织内分布——跨部门、团队和个人——来解决这个问题。
引导式学习过程
Signal 使用来自适应性测试和心理测量的最先进技术来帮助团队和个人快速了解他们在 Python 和 r 方面的技能水平。它通过指导学习过程来实现这一点。
当学习者完成评估时,他们会收到一个分数(0-200)、一个百分位(0%-100%)和一个基于其表现的相关知识水平(初级、中级、高级)。通过诊断学习者最突出的优势和技能差距,Signal 能够提供一系列个性化的学习建议来解决他们的差距。随着时间的推移,学习者通过完成建议来提高他们的技能,他们可以重新参加评估来衡量他们的进步。
引导式学习包括三个步骤:(1)评估学习者的技能;(2)为他们提供后续步骤;(3)完成至少一个推荐的内容项目,并且随着他们随着时间的推移取得进展,用另一个评估重复该循环。
它是如何工作的
信号技能评估建立在一个世纪以来对测试理论的研究基础上,重点是建立统计模型来回答三个关键问题:
1.哪些问题能提供关于学习者的最多信息?
Signal 不同于其他测试:它使用项目反应理论(IRT)来评估问题的难度,如何有效地区分初学者和专家,并最终评估个人学习者的技能水平。这意味着学习者除了完成多项选择题之外还要编写实际代码,评估的难度会根据表现自动调整。
2.随着评估的进行,我们如何适应性地选择更好的问题?
Signal 使用计算机化自适应测试(CAT)来评估评估者在评估过程中的技能。这意味着问题的信息量越来越大,因此在不到 10 分钟的时间内,Signal 就能够获得关于学习者技能水平的高度信息。
3.我们如何使用来自许多评估的数据来提高它们的整体有效性?
最后,通过使用来自数千名 DataCamp 学习者的评估数据,Signal 能够改进其对技能水平问题难度和识别能力的估计。Signal 使用这些信息来标记可能不代表技能的问题,并报告学习者相对于其他学习者的地位。
衡量合适的技能
Signal 专注于核心数据技能,以消除您的团队需要了解的内容中的猜测成分。例如,我们在两种最流行的数据科学技术(Python 和 R)中提供涵盖数据科学工作流所有方面的评估,以及 SQL 评估:
- 编程;编排
- 导入和清理数据
- 数据操作
- 数据可视化
- 机器学习
- 数据分析
- 理解和解释数据
为您的组织创建技能矩阵
我们的客户发现最有用的技术之一是使用所谓的技能矩阵来广泛盘点他们的内部数据技能。这有许多不同的形式,但通常涉及可视化组织、部门、团队或个人级别的优势和技能差距。
寻求可扩展且可靠的方法来评估整个组织的数据技能的客户使用信号结果作为其技能矩阵的输入。我们目前正在为自动化这一过程打下基础,以便企业管理员可以按需获取这些信息。
帮助您的团队制定个性化的学习计划
Signal 根据学习者的优势和技能差距提供个性化的课程建议,帮助他们充分利用在 DataCamp 上学习的时间。您可以探索详细的结果,以查看每个学习者的信号分数是如何计算的,查明他们在哪里犯了错误,并跟踪一段时间的进展。
要进一步探索,请阅读我们关于Signal 如何成为有效可靠的数据技能评估工具的详细白皮书。
成为数据科学家(抄本)
这是播客的链接。
介绍蕾妮·蒂特
Hugo:你好,René,欢迎来到 DataFramed。
雷尼:你好,雨果。很高兴来到这里。
Hugo:很高兴你能来参加我们的节目,我很高兴能和你谈谈我们今天要谈论的所有事情,你做了这么久的播客,成为数据科学家的想法,以及你的旅程和过程,但在此之前,我想先了解一下你。也许你能告诉我们一些你在数据社区中的名气。
蕾妮:当然。我想我因你提到的播客而出名。这叫成为数据科学家。我采访了一些人,询问他们在数据科学之旅中是如何到达目的地的,以及他们是否认为自己是一名数据科学家。我计划很快重新开始。我想这就是我最初出名的原因,但是很多人也在 Twitter 上关注我,他们可能是也可能不是最初的播客听众。我有一个名为 BecomingDataSci 的 Twitter 账户,我的名字是 Data Science Renée。我试图帮助那些正在向数据科学职业过渡的人找到学习资源和灵感。我建立了一个名为 DataSciGuide.com 的网站,收集学习资源,人们可以去那里评价它们。我希望最终能把它变成学习路径之类的东西。我有一个名为 NewDataSciJobs 的 Twitter 帐户,在那里我分享需要不到三年经验的工作,我试图分享关于学习数据科学和进入这一领域的文章,以帮助人们过渡。
René:最重要的是,我分享我自己的数据科学挑战和成就,并试图鼓励和激励他人,这样他们就可以看着我做什么。我真的很高兴,特别是在我感觉的最后一年,看到各种各样具有不同教育背景的人想要进入这个领域,所以我打算帮助他们也成为数据科学家,因为我认为这个领域的人的背景越广,情况就会越好。我想这就是我出名的原因,播客和推特占了大部分。
雨果:当然。我认为,我们在 Data Camp 非常认同的一条极好的主线是降低希望从事分析和数据科学的人的准入门槛。我认为你的一个很好的方法是,你知道你在播客上说你甚至会问你的人他们的旅程,但他们是否认为自己是数据科学家,这个术语是什么意思,以及他们的实践如何应用于它。它在某种程度上揭开了数据科学作为一个整体的神秘面纱,我认为这可能是一个非常难以接近的术语,周围还有许多看门人。我认为你所做的工作与我们在 Data Camp 中思考方法的方式非常相似,所以这真的很酷。
蕾妮:太好了。我绝对以此为目标。
你是怎么进入数据科学的?
Hugo:你最初是如何进入数据科学的?
蕾妮:这是我最喜欢的问题,因为这是我们在我的播客中一直谈论的问题,所以希望我不会说得太长,不过我会给出详细的答案。我的整个职业生涯都和数据打交道。你可以称我为数据通才。大学一毕业,我就去了弗吉尼亚州哈里逊堡的詹姆斯·麦迪逊大学,我现在还住在那里,我的专业是集成科学与技术。这是一个非常广泛的专业。在很多话题上,它的广度大于深度。我们涵盖了从生物技术到制造和工程到编程的所有内容,但你可以尝试所有内容,并找出你喜欢和不喜欢的内容。它有许多实际操作的项目,我们在 ISAT 项目的编程课程中学到的一件事是关系数据库设计。这是我以前从未做过的事情,但是当我在班上的时候,我意识到,嘿,我很擅长这个。我明白了。对我来说很有意义。大学一毕业,我就开始做这类工作。我设计数据库,构建数据驱动的网站,设计表格和报告来与数据交互。我做了大量的 SQL 工作,帮助设计了一个报告数据仓库,并构建了交互式报告,人们可以在其中与数据进行交互,我对此做了一些分析。
蕾妮:我想让我的职业生涯更上一层楼。当时,我认为系统工程硕士学位将填补我知识上的许多空白,所以在我的本科课程中,我在数学或编码方面没有太多深度。我只是上了一些入门课。这个项目是在弗吉尼亚大学,它有模拟和建模课程,最优化,统计学,那时我有点害怕数学。为了申请这个硕士项目,我不得不在社区大学的暑期课程中学习线性代数。这是本科毕业八年后。我早该知道它会比我原先想象的更加数学化,但是我发现系统工程项目中每一门课程的标题都有点像另一种数学的代码。这是非常数学密集,但我需要它。如果我全靠自学,我就不会学到这么多东西。
雨果:我有一个问题,作为一名教育工作者,我学到了很多,那就是要成为一名有效的数据分析师或数据科学家,人们需要了解多少线性代数?
蕾妮:我认为了解基本情况是有好处的。它让你了解这些算法背后发生了什么,了解数据是如何转换和处理的,然而,如果你真的要成为一名应用数据科学家,而不是像机器学习研究员那样,你不必真正了解所有这些错综复杂的事情。我很高兴我有 it 方面的背景,所以我知道这些事情是如何工作的,但我不会在日常工作中使用这些技能。它们就像是将所有这些都抽象化的软件包,所以作为一名数据科学家,我不必每天都做这些类型的计算。我会说,掌握它很好,感觉你理解了概念,但你不需要自己掌握实际的计算。我是说这就是电脑的用途。他们可以为你做很多。
雨果:对。我完全同意,我确实认为学习这些类型的东西有很多焦虑,线性代数,我想特别是多元微积分。我也鼓励人们努力一点,坚持一点,因为挑战的一大部分是语言和符号。很多概念并不一定很难,但是当你写一大堆矩阵之类的东西时,你会很快变得很难理解。
蕾妮:对。当我看到某些描述...就像你说的多元微积分和矩阵微积分。它看起来如此势不可挡,乐谱仍然吸引着我,所以我有那种感觉。
雨果:对。
蕾妮:但我很高兴我理解了它背后的概念,尽管每次看到这些我还是会不寒而栗。
雨果:是的,你可以用一些疯狂的符号来表示,它实际上指的是沿着表面的方向流动,或者类似的东西,直观上很容易理解,但是我们有很多古老的符号。
蕾妮:对,甚至不一致。我参加了一个项目,有来自不同大学不同系的教授,我丈夫是一名物理学家,有一门课,我真的很难理解这种特殊类型的计算和符号,他看着它,好像你上学期才学过。我好像从来没见过这个。他说不,这是同一个概念,只是不同的符号。那是我真正开始理解的时候,比如说数学家和工程师可能会对同一件事使用不同的符号。事情变得复杂了。我确实认为,如果你要成为一名机器学习研究人员,或者进入一个博士项目,或者你正在围绕数据科学的前沿开发东西,并真正推动该领域的发展,建立其他人将使用的算法,那么你需要真正理解这些东西,但如果你主要应用的是已经建立的算法,你就不必那么深入。对于统计学,我认为你真的需要一个坚实的统计学基础。我会说相反的话。每个从事数据科学的人都需要很好地理解基础统计学。
雨果:太好了。那么在你做这个节目的时候或之后,你的旅程中发生了什么?
蕾妮:对。当我参加这个项目的时候,弗吉尼亚大学的数据科学研究所成立了。我在任何地方都听说过数据科学,我有点想转到那个项目中去,但是如果不完全重新开始,我做不到。他们在他们的项目中有点像一个团队,所以我发现我可以选修一门机器学习课程,所以我开始选修,只是因为我想知道它是关于什么的,以及它与我已经在做的事情有多接近。感觉我的整个职业生涯都在向数据科学发展,而我从来没有听说过它。在这个机器学习课程中,它从大量的数学开始,进展非常快,老实说,我期中考试考砸了。我真的认为我会不及格,但我决定继续下去,因为课程的前半部分是数学,后半部分是编码和应用部分,这是我所期待的,所以我想即使我成绩不好,我也想学习我应该在这门课程中学习的东西,所以让我坚持下去。
雷尼:就像你说的,我甚至很难理解教科书上的抽象符号和东西,但是在课程的最后一部分,我们从头开始构建这些机器学习算法。哦,顺便说一下,所有的例子都是用 C++写的,但是教授让我们使用我们想用的任何编码语言,所以我从那时开始学习 Python。我没有很好地掌握 C++。我大部分时间都在学习 visual basic。直到那时,我还不知道 SQL 和 Python,但是我想这是我学习它的机会,所以我在学习的同时也学习了 Python,这可能是我在课堂上挣扎的部分原因。最后我们有了这个项目。那时,我对 Python 和机器学习有了一些了解。我边工作边去学校兼职,所以我问我的经理我能不能把我们在工作中使用的数据应用到我在学校做的这个项目中。他说是的,那很好。
蕾妮:所以我在 JMU 大学的进步部工作,这基本上是大学的筹款部门。在我的项目中,我预测了下一财年哪些校友最有可能成为捐赠者。教授很喜欢它,甚至提到这是我将来可以发表的东西。我想那个项目比我在课程的数学部分的表现更重要,因为我最终在那门课上得了 A,这让我大吃一惊。
雨果:太不可思议了。
蕾妮:我当时想,好吧,这是我应该做的事情。
雨果:当然。在你继续之前,我想提醒你,你实际上已经提出了一个令人难以置信的观点,那就是你并没有在真空中做项目。你正在处理对你有意义的数据,对你的雇主有意义的数据,并且实际上给了一群利益相关者一些重要的见解。
蕾妮:对,我们在课堂上已经准备好了数据集,它们都是数字列表。他们甚至和现实世界一点关系都没有。这位教授选择了这些数据集,因为答案会以某种方式出现,所以深入到一些未知的东西,至少在我们的大学里没有人真正看过,并找到一些我可以分享的见解,并实际上使现实世界发生变化,这为我将所有这些联系在一起。
Hugo:在学习过程中,做一些对你有意义并且你感兴趣的事情是非常重要的。
蕾妮:哦,当然。我总是鼓励人们找到他们感兴趣的数据集,并在整个学习过程中使用它们,因为当事情变得艰难时,它会让你保持兴趣,而且如果它是你有背景甚至感兴趣的东西,你会更好地理解输出。如果你对体育感兴趣,使用体育数据集,因为你会更好地意识到你的模型的输出在体育环境中是否有意义。
雨果:我总是说,现在很多人都戴着健身追踪器,他们可以获得自己的锻炼和睡眠模式等数据。他们可以快速对生理上发生的事情进行简单的分析或可视化。
蕾妮:对。这是一个很棒的想法,我绝对会鼓励。
雨果:太棒了。那么在你的旅程中接下来发生了什么?
蕾妮:在我的最后一节课上,我在研究生院做的大部分项目都是在线的。它是同步的,所以我实际上是在网上观看直播的讲座,那里有一门课,但上学期我通勤到校园,对我来说是一个小时。我开始听很多数据科学播客,因为那时我知道我对这个东西感兴趣。当时我在听偏导数和会说话的机器以及 O'Reilly 数据秀,线性离题,数据怀疑论,所以我只是吸收了所有这些数据科学信息,我知道这是我想做的。一毕业,我就开始钻研有关数据科学的书籍,自学在这个领域找到工作并继续前进所需的知识,当时我是一名数据分析师,我想成为一名数据科学家。我接下来就是这么做的。
蕾妮:然后我申请了一系列不同的工作,当时我刚刚开始熟悉数据科学,所以我不一定想要一份数据科学家的工作,但是我想确保这是一份朝着那个方向发展的工作,因为我的工作没有给我很多机会来真正锻炼这些新技能,并在工作中进行机器学习。我知道我擅长设计分析报告。我知道我擅长 SQL。我刚刚获得了系统工程硕士学位,但我想成长为一名数据科学家。我开始申请一些不同的工作,这些工作部分涉及数据科学,但我知道我已经具备了提供价值的技能。我最初申请的几个职位都没有拿到,但我开始通过面试了解他们会问什么,我的知识有哪些缺口,这样我就可以回去了解更多。
蕾妮:当时,有两家不同的初创公司,分别位于美国的两侧,显然需要那种既能做后端数据工程又能做 SQL 工作的通才,并进入预测建模领域。我同时收到了两份工作邀请。他们都是远程角色,就像是数据分析和入门级数据科学的结合。我不需要为他们中的任何一个做白板面试或编码面试,这很好,因为我不认为我当时做得很好,但他们需要像我这样有背景和数据库经验的人,以及善于与利益相关者沟通的人。我认为这帮助我脱颖而出,我想我们稍后会对此进行更多的讨论。
雨果:当然。
蕾妮:但是那两份工作邀请中有一份是和我以前一起工作过的人。我在罗塞塔石碑公司担任数据分析师,这家初创公司的很多人都来自罗塞塔石碑公司。我更喜欢那一个,并接受了那一个,并能够在工作中建立我的数据科学和机器学习技能。那家公司叫 HelioCampus。我们处理大学数据,如果我们感兴趣,我可以告诉你更多,但我作为数据科学家已经担任这个角色大约两年了。
雨果:太棒了。这说明你做的项目最初确实涉及到校友数据,当你第一次学习的时候。
蕾妮:对。在日光校园,我们有点...这让我进入了一个新的领域。这仍然是大学的数据,但我们在学生成功数据和录取等方面做了很多工作。我想我会简单介绍一下公司。在大学里,他们有数据库,就像各种各样的数据,当你在这所大学申请和注册的时候,你可能都想不到。会有一个招生和申请系统。通常有一个独立的系统来管理注册、课程和教员,然后他们有另一个系统来管理工资和财务,然后他们会有另一个系统来管理筹款和校友信息。他们在整个校园里都有这些数据库,领导们希望有一个大的画面,看看学生在申请、上大学和成为校友的整个经历中的轨迹。
René:要获得整个系统的指标,你必须综合这些数据。我们将它合并到一个数据仓库中,并在 Tableau 中提供指向该数据的报告。我们有一些固定的报告,然后我的工作是与最终用户合作,进行尚未建立的分析,以回答他们关于学生的问题,并进行一些预测建模。一个例子是招生组,我们有...我们将看看所有被大学录取的学生,并尝试预测他们中有多少人会被录取,或者哪些人可能处于有时录取有时不录取的学生类型的边缘。例如,他们可能需要一些额外的外联活动,以便学校引起他们的注意,或者需要额外经济援助的学生。我们通过预测模型帮助他们了解学生的整体情况,除了来他们的大学,他们还能找到什么类型的学生,以及我们对他们未来入学趋势的预期。这只是我们在 HelioCampus 与大学合作的许多不同方面的一个例子,但这正是我现在正在做的工作。
Hugo:这听起来是非常有趣和令人满意的工作,尤其是你作为一名教育工作者和投资于学习者的浓厚兴趣和使命。
蕾妮:对,绝对是。
有抱负的数据科学家需要思考哪些问题?
Hugo:再次发现你成为数据科学家的旅程真是太棒了,当然你会通过你的播客,通过许多不同的媒体坚持认为这只是一次旅程,每个人的旅程,特别是成为数据科学家的旅程,有许多不同的路径,没有一种适合所有人的方法来成为数据科学家,在真正决定一条路径之前,人们需要弄清楚他们在哪里,他们需要去哪里,并以某种方式将这些点连接起来。所以:我想知道的是,当有抱负的数据科学家弄清楚他们的旅程从哪里开始时,他们需要考虑哪些问题?
蕾妮:对,绝对是。这实际上是我开始我的播客的原因,因为我在听所有这些展示数据科学家正在做的很酷的东西的播客,但是没有一个专注于他们是如何做到的?他们做了什么?我开始问问题,我意识到的一件事是,无论你有哪种不同的教育背景或职业背景,你都必须评估你的起点。你需要问的那种问题来规划你的数据科学学习之路,就像你以前编码过吗?你以前用什么语言编写过代码?数据科学家通常学习 R 或 Python,经常需要了解 SQL。你对数学和统计学有多熟悉,你是否需要温习这些东西并重新学习?也许你需要从你现在的位置提升到一个新的高度?你曾经提出过基于数据的报告吗?你以前在专业场合做过分析吗?有没有用数据回答问题的?这些都是你需要的基本要素。
蕾妮:那你可能会在某个特定领域工作,你知道那个领域的行话吗?你知道在那个领域有哪些与数据相关的职业道路吗?您如何专注于数据科学学习,以实现其中一条职业道路。您可能希望与该领域的数据科学家或分析师交谈,了解常见问题和他们正在解决的问题以及他们正在询问的问题的艺术状态,这样您就掌握了这种语言。它是这些常见数据科学维恩图的所有不同部分的基线,你可以看到还有多少部分需要填充。你只是在评估你的起点,然后下一步你会看看你想去哪里,这样你就知道如何规划学习路径。
数据科学简介
雨果:对。因此,概括地说,本质上我们有编码印章,你是否能编程,什么语言,数学和统计的舒适,然后沟通技巧和实际演示我想说的是基于数据的报告,但我真正的意思是基于数据的报告,然后领域知识。我认为这些绝对是你自己实践中非常重要的方面,当你弄清楚你从哪里开始的时候,当然,正如我们都说过的,你需要知道你想要在哪里结束。这可能是一个相对模糊不清、不断变化的概念,但我们看到人们最终会成为什么样的典型数据科学特征呢?
蕾妮:对。正如你提到的,数据科学可能意味着很多事情。我注意到在数据科学中似乎有这些专业的分组。有一种数据科学的分析师类型:这些人通常与最终用户或领导者或业务中的其他人一起工作。他们了解可以提出的问题类型,并弄清楚如何将这些问题转化为数据问题,并确定“您是否有可用于回答这些问题的数据?”进行分析,然后展示结果,并自豪地为这些事情开发数据可视化。有工程师类型的数据科学家,他们做大量的后端工作,编码,处理数据库和数据仓库,可能做一些功能工程,处理大数据系统和可以处理大规模数据集的技术,建立支持分析的数据管道。
Renée:然后是我之前提到的研究型数据科学家:他们正在改进那些尖端的算法,开发新的工具和技术,所以这是数据科学的一个不同的焦点。我会说,大多数人最终会做这些事情的一些组合,但你最终会专攻分析部分、工程部分或研究部分。在我目前的角色中,我做了很多后端工程工作,因为我有这样的背景,但也主要专注于分析任务,并与大学、机构研究人员和决策者沟通,他们将使用我正在做的事情的结果。
个人应该走什么路?
雨果:是的,很好。我们已经确定了三个原型,分析师、工程师和研究员作为终点或者至少是职业道路。知道我们需要思考我们在哪里的方式,知道我们可以在哪里结束,你会推荐什么样的路径?推荐的路径本质上是什么样的?
蕾妮:是的,我希望将来能根据我在《数据科学指南》上收集的信息来更正式地阐述这一点,不过这真的取决于个人。你所评估的起点,你想要结束的终点,你喜欢自学还是参加课程,网上学习,决定你是否需要回到学校。我确实认为成为数据科学家需要博士学位是一个神话。我没有。我认识的很多数据科学家都没有。我会说,如果你觉得自学数学不舒服,需要别人帮助你理解基本概念,那就回到学校。与和你有相似背景并且已经成为数据科学家的人交谈,或者在 Twitter 上寻找那些似乎在遵循你喜欢的道路并且你想要遵循的人。
雷尼:然后像你说的那样进行基于项目的学习。找到包含您感兴趣的信息的数据集,无论是体育、统计、政治数据,还是地理空间图像、医疗数据或娱乐数据。有这么多不同类型的数据,你可以找到你真正感兴趣的东西。问一个你可以用数据回答的问题,然后学习任何你需要学习的技巧来回答这个问题。我认为项目导向学习真的很有价值,但是确切的路径和你使用的资源,我真的很难推荐任何一件事情,因为不同的事情适合不同的人,尽管我会建议继续尝试不同的事情,直到你找到适合你的事情。如果你拿起一本很多人都说很流行很棒的书,但你并没有真正理解它,它也没有让你陷入困境,不要气馁。试试别的吧。不要放弃,说哦,我不适合这个,因为这本流行的书对我来说没有意义。
雨果:对。里面有很多很棒的建议。一些我事先没有想到的事情是与有相似背景的人交谈,本质上是寻找像你这样的人。我认为这真的很酷,因为在你完成了确定你在哪里,你想去哪里,或者你想在什么时间框架内去哪里的工作后,我认为很容易忘记或认为没有像你一样的人,你在这个旅程中是孤独的,特别是在一个发展如此迅速的领域,以至于在他们的职业生涯中找到像你一样的人, 这种类型的社区在以后提供建议或成为导师或学员,这种类型的事情,是一个不可思议的想法。
蕾妮:对。我认为我刚刚想到的另一件困难的事情是,甚至定位术语。即使你在外面寻找像你一样的人,就像在数据科学中使用了很多奇怪的词,起初可能会令人困惑,你真的不知道那个人是不是在做我认为我想做的事情。我的博客上有一篇文章,讲述了我是如何使用 Twitter 做到这一点的。像你这样的播客在这方面很棒,只是听人们谈论数据科学,了解数据科学家需要考虑什么样的事情。当我准备进入这个职业生涯时,我得到了这本书。凯西·奥尼尔和蕾切尔·舒特称之为“做数据科学”。这对我来说很好,因为我对这是什么、我需要学习什么以及一些基本术语有了一个大致的了解,它还为你提供了其他学习资源。
蕾妮:对,只是去适应人们说话的方式...数据科学中重要的是,也许有些东西你其实已经知道了,但数据科学家称之为其他东西。数据科学是已经存在了一段时间的领域的结合。是的,学习这些术语,倾听数据科学家的意见,在 Twitter 上关注他们,阅读文章,找出你还不知道的东西,这是重要的第一步。
针对初学者的特定学习任务
Hugo:就成为数据科学家的旅程而言,你能为初学者建议一些学习任务吗?
蕾妮:对。我会说写一份报告。就像你说的,也许用你自己的合适的数据或类似的东西。只是探索一个数据集,做一些基本的统计总结,然后练习交流这些结果。当你学习的时候,你将会使用不同的工具和技术,但是你想确保结果总是可以理解的,所以看看你是否能在你学习的过程中弥补这个差距。实际上,我认为当你正在学习的时候,这是一个很好的时机,因为那时候对你来说也是新鲜的,所以你可以在技术分析和使用这些信息做决策之间架起一座桥梁,并与不太懂技术的人交谈,让他们理解你的观点。不断写博客是一个很好的方法。与朋友或你所在领域的人交谈是一个很好的方式,只需解释你所做的分析,但要让人们感到舒服,你知道你在说什么,然后让这些信息变得可用,而不用进入太多背后的统计数据。
雨果:当然。我确实认为处理与你相关的数据集非常重要。即使你认为泰坦尼克号和虹膜数据集与你相关,它们也不算数。
雨果:我们需要搬走。我认为你非常重要地消除了你需要一个博士学位来做这种事情的神话。我想知道你对旅途中的人们还有哪些潜在的陷阱或警告。
蕾妮:我认为对于你需要学习多少知识存在一些误解。一个陷阱是当你学习的时候很容易气馁。在数据科学的保护伞下有如此多的主题,以至于你很容易被淹没,不知道该去哪里,特别是在自主学习的情况下。你必须在学习和胜任你想要的工作之间找到平衡,但不要过度计划或过度学习,以至于你开始感觉完全偏离了轨道,让自己紧张起来,感觉自己永远都不会成功。
蕾妮:在我的一次演讲中,我说得好像你在计划一次旅行。你可以一圈一圈地计划,打印出方向,准确地知道你要转到哪里,以及每个转弯处会是什么样子,但你仍然希望随身携带 GPS,因为如果你遇到意想不到的交通堵塞或道路封闭,你必须绕过它。在某些时候,你会感到迷失在学习中,或者像你完全碰到了一个路障,但你可能只需要回去找其他资源让你对这个话题更舒服,然后再继续前进或决定我真的需要学习这个吗?也许你可以跳过这部分,等你有了更好的理解再回来。不要停滞不前,等着你面前的事情变得明朗,而要准备好改变路线。通往数据科学职业的道路有很多,只要做好改变方向的准备就行了。
雷尼:我认为很多人会看那些糟糕的招聘信息,这些信息就像是公司希望数据科学家能够做的所有事情的愿望清单,他们基本上是在一个招聘信息中描述整个数据科学团队。人们认为为了得到那份工作,他们需要学习所有这些东西,所以我会说不。学习一些真正重要的东西。练习将你所拥有的知识应用到现实世界的问题中,这样你就有了在实际工作中克服挑战的经验,这也将帮助你在面试中讲述你是如何克服困难并最终获得有用结果的故事。我想我想说的是不要让自己脱轨,不要觉得为了成为一名数据科学家,你必须学习你在数据科学中听说过的一切。我们中没有人知道如何做每件事。你只需要知道足够多的基础知识,这样你就能牢固地理解这些知识,并且有信心在你需要的时候学会其他的工具和技术。我想说的是学习基础知识,然后学习几个可能让你脱颖而出的专业项目,或者是你想进入的领域特有的项目。这些沟通技巧也非常重要,不仅仅是工具和技巧。
雨果:当然。在此基础上,你之前暗示的事情是出去做一些工作面试,了解市场情况和面试官想要什么,并向他们提问,找出你可能存在的差距,而不是抽象地了解你认为就业市场可能需要什么。
蕾妮:对。找不到工作可能会令人沮丧,但我记得有一次我确实找到了一份数据科学的工作,回想起来,我说所有那些我没有得到的工作,它们根本不适合我,所以我为什么要为没有得到它们感到难过呢?我不适合这份工作,或者这家公司不适合我,所以一旦我找到了一份合适的工作,我感觉很好,我喜欢我的工作,所以回想起来,我意识到如果你一直被拒绝,有时真的会感到沮丧或沮丧,但数据科学工作有这么多种不同的类型。我认为每个人都可以找到一个符合自己技能的工作,尽管这可能需要一段时间。
雨果:是的,我确实认为连续找不到一堆工作令人沮丧和恐惧。我给你的建议是,你只需要一次打击,但我觉得我自己很难接受。你在一堆机会中寻找一个成功的机会,那些没有成功的机会也可能是令人难以置信的学习经历。这并不能减少被拒绝的痛苦。
蕾妮:对。直到事后,你回首往事,才意识到你学到了多少,那些拒绝是多么有价值。
雨果:对。没错。谈到雇主在寻找什么,我认为当我们抽象地思考数据科学时,我们可以忘记的一件事是,很多时候它是用来解决业务问题的。您有一张很棒的幻灯片,演示了数据分析和科学如何从本质上作为从业务问题到业务答案的中间步骤,因此,从业务问题到业务答案的这一转变是通过数据科学来实现的。我想知道这个概念对你对数据科学整体的理解有多敏锐。
蕾妮:是的,我在我的第一次数据科学演讲中创造了这个,以说明我认为的数据分析过程是什么。我得到了很好的反馈,人们真的很喜欢它,所以我现在经常重温它。如果有人没看过,它有四个小短语,中间有箭头。它从业务问题开始,然后是数据问题,然后是数据答案,最后是业务答案。我会逐一介绍。
蕾妮:关于业务问题,我指的不一定是销售和营销类的业务,而是领域问题,你所在领域或业务的决策者可能会问的问题。作为一名分析师,你的工作就是把它转化成一个数据问题。为了回答这个问题,需要哪些数据?我们有吗?为了得到那个答案,我们可能必须先回答哪些相关的问题?需要做什么样的分析才能得到有用的答案?然后你必须做分析,这就是数据的答案。这种类型的分析将取决于您所处的领域、您的角色和技能以及可用的数据,因此分析类型会有所不同,但基本上是将数据问题转化为您正在进行分析的数据答案。
雷尼:然后你必须接受调查结果,并将其转化为商业答案。很少有人会想听你的数据回答。你必须能够用非数据科学家也能理解的术语进行交流,以便他们知道数据告诉他们什么,并能利用这些信息做出商业决策。你必须能够用商业术语传达统计结果和不确定性,并解释你的分析意味着什么和不意味着什么,这样就不会被误用。当我们谈论构建报告时,在现实世界中,最终结果通常不是某种带有模型评估指标的统计读数。这就像是对非数据科学家的人清晰可用的结果的展示。
雨果:当然,我认为记住我们总是试图回答商业问题或在这种情况下发展商业洞察力是非常重要的。我想稍微改变一下。我们有很多有抱负的数据科学家和学习者。我想知道你对人们可以在哪里学习有什么看法,特别是人们可以学习成为数据科学家所需的技能和知识的地方。
雷尼:就像我说的,我很难给出具体的建议,因为这太私人了,不过我当然听说过关于 DataCamp 的好消息。它实际上是 DataSciGuide 上评分最高的课程系统,所以使用 DataCamp 的人似乎真的很喜欢它。
雨果:太好了。我个人也是数据营的超级粉丝。我不知道这里是否有任何偏见。
蕾妮:我不是说只是为了拍马屁。真的是...人们喜欢它。还有数据查询。有可汗学院教授一些基本技能。外面有很多书。人们往往真的很喜欢奥莱利的书,还有一些其他的最爱。同样,我不太愿意给出具体建议,因为它们差异很大。如果你在寻找某种资源,可以从你现在的位置开始,人们可以发微博给我,通常我会转发,很多关注我的人会帮助回答。这确实是一种个性化的回答,但我只想说有大量的资源,很容易被这些资源淹没,所以不要害怕去问什么可能最适合你,如果有人推荐了一些东西,而你真的不喜欢它,也不要为此感到难过。继续下一件事。
雷尼:我的意思是我的网站 Data Sci Guide,我在努力收集数据科学学习者的评论,这样我们就可以知道在使用这些资源之前你需要知道什么,因为我在学习某些资源时经常犯错误,我开始时非常兴奋,好像我正在学习,然后五节课就完全不知所措,想放弃了。我认为那是危险的。是的,也许可以与在学习道路上领先于你的人交谈,找出是什么帮助他们迈出了从你所处的位置到他们所处的位置的第一步,也许不要接触已经在从事数据科学家工作的人,而是其他数据科学学习者。
推特
Hugo:Rene,我们一直在谈论 Twitter,它对有抱负的数据科学家来说是一个非常好的资源,所以你可以告诉我更多关于它的信息。
蕾妮:是的,除了喜欢书籍、课程和教程之外,我还经常使用 Twitter 来了解数据科学的术语。Twitter 上有一些很棒的社区,你通常可以通过搜索某些标签来使用它们。我给你几个。对于 Python 的人来说,有 pydata,pyladies,p4ds。对于学习 R 的人,有 Rstats 和 Rladies,R4ds。这些都是你可以搜索的标签。其中很多也有松弛的渠道。有一个数据科学学习俱乐部 slack 频道,是我的一些追随者根据我的播客学习活动创建的。有一个叫做民主数据的网站,是为那些想了解政治数据的人准备的。有一个关于数据伦理的标签,所以我相信在其他社交媒体上也有类似的小组,如脸书和 LinkedIn,但我主要在 Twitter 上,所以我有一篇关于使用 Twitter 学习数据科学的完整博客文章,如果你开始搜索与你所学相关的标签,你通常会找到这些社区的领导者或中心,你可以通过关注他们学到很多东西。然后,如果你问一个问题并使用这个标签,你通常会得到一个答案。挺酷的。
雨果:太棒了。我们还将在展示笔记中链接到您关于如何使用 Twitter 学习数据科学的文章。那么对于学习者来说,他们如何知道自己什么时候准备好真正成为一名数据科学家或者开始面试呢?
蕾妮:对。我认为,人们在感到完全准备好进行这一跳跃之前,就已经准备好开始申请工作了。不要等太久才开始寻找。就像我们说过的,做这些采访也很有指导意义,但我要说的是,当你对这些基础知识足够自信时,你就准备好了,这样你就知道如何做探索性数据分析和做一些统计总结。你知道基本的特征工程,如何使数据集成形,你可以用它来进行机器学习。你知道如何做一些预处理和清理。您可以构建一个良好的报告和数据可视化,并交流结果。也许你已经使用了一些基本的常用机器学习算法,如逻辑回归和随机森林,所以你对这些基础知识有足够的信心,你知道你不会在工作中完全挣扎。
蕾妮:一旦你觉得你对机器学习的工作原理有了坚实的理解,并且可以应用它,你可能还想加入一些让你脱颖而出的特定技术,或者是你觉得自己擅长的东西。也许你真的很擅长构建易读的可视化效果。也许你真的很擅长后端数据工程。当你申请工作时,你可以说这是你的专长,但你不需要核对所有的算法、工具和技术。
蕾妮:我面试过的工作包括我在职业生涯中已经掌握的、我有信心掌握的技能,还有一些我还在学习的技能。如果我知道我能理解人们想要什么,我有足够的信心在这个过程中学会那些新的工具和技术,那么我意识到在我认为自己准备好之前我就找到了一份工作,至少我希望并且我已经被告知我在那里做得非常好。如果你掌握了基本知识,你可以边走边学很多东西。不要觉得你必须成为每个领域的专家。没有人是。开始申请,你会意识到为了得到一份特定类型的工作,你还需要学习什么,但是不要等太久。
雨果:我认为这个领域非常广阔,而且有如此多的技术和新技术不断涌现,如果你试图尽可能全面地了解,你总会觉得有更多的东西要学习,而且你永远不会离开那里。
蕾妮:是的,不管你申请的时候有多高级,你都要在工作中学习。现在对拥有数据技能的人有很大的需求,所以即使你得到了一种过渡性的数据分析师类型的角色,你可能不会马上有数据科学家的头衔,但如果这是一个为你提供一些机器学习可能性的角色,是的,你可以在工作中成长。
最大的道德挑战
雨果:我想稍微改变一下。最近你做了一个名为“机器会是种族主义者还是性别歧视者”的演讲。使用你提出的这个问题作为跳板,你能说出你认为数据科学和数据科学家作为一个群体面临的最大的伦理挑战吗?
蕾妮:对,所以我们可以做一整集关于这个的节目。我会把你和一些我认为可以就这个话题进行广泛讨论的人联系起来,但我做这个演讲的主要目的是让人们明白,即使你使用这些数学算法和计算机来得到一个结果,这并不意味着数据科学产生的东西是无偏见的。偏见有很多种方式,也许你会说是种族主义或性别歧视,我说的是一种制度,所以不是有人在街上对某人大喊大叫,而是历史上的种族主义,它被融入到制度中。我有系统工程硕士学位,我认为我一直是一个系统思考者,所以我很快就明白了这一点,并试图与其他人分享。你可以链接到我整个演讲的所有幻灯片。我真的很难把我想举的例子都塞进去,因为这里真的有太多东西要学了。有了机器学习,你真的在做模式匹配。这就是那些算法正在做的,在数据中寻找模式,这很像刻板印象。你必须意识到哪些数据将用于做出这些决定,并确保你理解模型的输出,而且它不完全是一个黑匣子,你不理解当人们的生活受到影响时,模型为什么会做出特定的决定。在这一发展过程的每一步都可能引入偏见。数据可能一开始就被错误地记录了。它可能不能代表全部人口。这可能是一个有限的样本,你在训练你的模型,假设它会泛化,也可能不会。
雷尼:你的数据可能包含历史偏见。例如,犯罪数据库将只包含被监管地区的犯罪记录。如果某个地点的犯罪没有被警方观察到或者没有被记录到系统中,你训练的算法会认为那里没有犯罪,并做出相应的预测,所以你只是在编码,而不是真实世界中发生的事情,但你在捕捉人们捕捉到的关于你所看到的系统的信息。在进行预处理和模型训练时,某些技术可能会放大偏差。
蕾妮:有一个问题是,你到底在优化什么?例如,YouTube 就有这个问题,他们在优化观看时间。他们想让你关注他们的广告。如果某个东西特别疯狂或令人毛骨悚然或令人兴奋,人们会看得更久一点,所以那些真正极端的视频会出现在顶部,并被推荐给更多的人,因为当你观看它们时,你可能会被它们迷住并看得更久。这可能会让人们变得激进。人们可能会说到点子上,尤其是我认为的孩子们,你不一定能从不断出现在你面前的虚构故事中分离出真相,因为虚构故事令人兴奋和有趣,会让你看得更久。
雷尼:你在优化什么,会有什么样的效果是很重要的。你怎么决定什么时候停止优化或者你的模型的结果是好的?这是一个需要人工参与的决定。你如何知道你的模型的结果是否被正确地使用,并且没有被误用或曲解?在模块化开发过程的每一步都有人在做决策,所以你不能说这是自动化和计算机化的。不存在偏见。每一步都可能引入偏差。
Hugo:这些问题中有很多也是文化问题,作为一个数据科学家群体,我们现在才真正开始,之前已经在这方面做了一些工作,我不想忽视这一点,但我们现在才真正开始集体思考如何解决这些问题。
蕾妮:对,绝对是。是的,这是公司运营的文化,这确实需要我们这些数据科学家来决定我们愿意做什么。很多这样的模型都是在截止日期的压力下建立和推出的,你可能甚至不知道它最终是如何被使用的,但意识到我们正在建立的这些东西的影响是很重要的。我喜欢 Susan Etlinger 在 TED 演讲中的这段话。她说,与过去相比,我们有可能更快、更有效地做出糟糕的决定,并产生更大的影响。我们真的只是在加速这些决定。我们不一定会让它们变得更好,除非我们努力去做,所以我们必须确保作为数据科学家,我们不会造成伤害,我们现在的需求很高,所以我们很幸运,我们可以选择我们愿意为哪种企业工作,我们愿意为哪种产品做出贡献。我们可以改变我们的未来,并希望它比娱乐界想象的或者我们可以想象的更少一点反乌托邦,只要意识到这一点,并有意识地决定我们愿意建设什么。
行动呼吁
雨果:我完全同意。蕾妮,你对我们的听众有什么最后的呼吁吗?
蕾妮:是的,我知道有很多人在听这些刚刚进入数据科学领域的播客,但是有些人已经在 Twitter 上潜伏了很长时间,听了很长时间的播客,读了很多书,所以我呼吁他们采取行动。找一个数据集。开始使用它。如果你需要帮助,发微博给我。我将为您联系一个在线社区,帮助您入门。不要延迟实际使用真实数据。
Renée:我对不熟悉数据科学的人的行动呼吁是,我会鼓励你仔细阅读数据伦理,以便你理解你在这一领域所做的工作如何影响现实生活。现在有很多很棒的书,所以当这一集出来时,有人提醒我,我会在推特上列出一个清单,分享我收集的一堆书,这些书要么我已经读过,要么在我的 kindle 中等待阅读,因为我对这个话题非常感兴趣,这对我很重要,我认为我们行业的人应该很好地意识到这一点,所以这将是我对已经是数据科学家的人的行动呼吁。
雨果:太棒了。蕾妮,很高兴你能上节目。
雷尼:非常感谢你邀请我,雨果。我已经听了很长时间了,能站在这里真的很令人兴奋。
雨果:你能来真是太好了,因为我听了你很长时间的播客,这真是一次有趣的经历。
蕾妮:太好了。
Transamerica 数据转型的幕后
数据营的常驻数据布道者里奇·科顿(Richie Cotton)最近采访了 ML&AI atTransamerica的数据和分析高级总监瓦妮莎·冈萨雷斯 。
介绍凡妮莎·冈萨雷斯
里奇·科顿:欢迎来到数据框。我是里奇,今天我们要谈论的是数据转换程序。每当我与 data camp 的客户交谈时,最常见的对话之一是这样的。嘿,我们知道我们需要更好地处理数据,我们的首席管理人员也终于明白了这一点。所以现在我们要做一个数据转换程序,但是有点难,我不确定我们到底需要做什么。
因此,在 DataCamp,我们花了大量时间指导组织了解谁需要什么样的数据技能来实现数据现代化。我认为罗宾必须一次告诉一个组织。让我们来听一个经历过这一转变过程的人的故事,并讲述她的战争故事。
今天的嘉宾是 Vanessa Gonzales,她是 Transamerica 机器学习和人工智能数据和分析高级总监,同时也在帮助 Transamerica 完成他们的数据转换计划。Vanessa 也是一名高级数据经理,所以我期待一些伟大的领导见解。
你好,凡妮莎。谢谢你今天和我在一起。我很高兴能和你聊聊你在泛美公司的近况。首先,也许你可以给我们一点背景,关于什么是泛美航空公司。
瓦妮莎·冈萨雷斯:你好,里奇。非常感谢你。所以泛美是一家金融机构。我们做退休,我们做员工福利。当你听说一家公司,例如,当你开始在那里工作,他们给你一个 401k,他们给你一些福利,你可以从中选择,这就是 Transamerica 所做的。
另一方面,Transamerica 可以直接向客户销售一些产品和年金福利。所以我们做了一点。我们在退休方面确实很出名,但我们也进入了许多其他产品,如员工福利和保险。
里奇·科顿:太棒了。所以你的职位是 ML 和 AI 的数字和分析。所以也许你可以多解释一下你的团队是做什么的。
Vanessa Gonzalez:我有一个数据科学家团队,我的团队中还有一个业务系统和分析师,我与工程师和架构师密切合作。但是我们真正做的是。想想我们该如何帮助我们在那里的生意?这非常令人兴奋,有许多不同的主题,我们有许多不同的方式来做这件事。
但是我们所做的是,我们使用机器学习。我们使用人工智能为我们的业务创造更多价值。我们帮助他们解决问题,并确保通过这样做,他们可以更好地完成工作。他们也是,我们可以更好地与客户相处,让他们有更好的服务。
里奇·科顿: 你的团队遇到过什么特殊的业务问题吗?
瓦妮莎·冈萨雷斯: 是的,我们从事许多不同的工作,而我们工作的有趣之处在于它永远不会是一样的。所以如果你今天问我,一年后问我,这些项目将会完全不同。但是,为了让您对我们的工作有所了解,我们重点关注四个不同的领域。因此,我们所做的一切都是为了增加客户的保留率或创造增长。
因此,真正发展我们的业务或改善客户服务。因此,它可能来自呼叫中心,也可能来自我们如何处理流程以及我们如何实现某些事情的自动化。如减少,您在电话上等待的时间,例如,或,或者如果您的呼叫被路由,则被路由到正确的位置。我们还努力降低业务成本。
因此,根据我们的合作对象,我们会做不同的事情。我们所做的一切都将有一个机器学习模型,它将驱动这些有助于我们业务的预测,然后我们将它们集成到我们现有的系统中。举个例子,如果我们想让我们的顾问知道谁更有可能被留用。
我们通过给他们一个预测来帮助他们,然后他们可以打电话给这个人,和他们交谈,想出我们如何帮助他们解决他们可能遇到的问题。这就是我们做的事情。我们还做了很多其他的模型来区分优先级。
例如,如果我们想知道哪些索赔可能是欺诈性的,我们可以看到,好吧,这 10 个索赔看起来更像欺诈。所以我们也可以为此做模型。
泛美的团队结构
里奇棉: 那真是太迷人了。您提到,您有一些数据科学家和您的团队数据架构师和工程师。所以也许你能告诉我这些人是如何一起工作的。你的团队是如何构成的?
瓦妮莎 确定。因此,我的直接团队更多的是数据科学家和业务分析师,但我们与数据工程团队、第三个体系结构团队和一个 BI 团队密切合作。所以,我们做这件事的方式是,正如我们常说的,机器学习是一项团队运动,所以你需要与所有这些团队合作才能让它工作。
因此,你要构建的每个模型或每个解决方案都有三个部分。你将有一块你把数据带进来,然后我们,我们需要那里的架构师和工程师把数据带到云中,让我们可以访问它。
然后我的团队中有数据科学家,他们将开发这些模型。他们会把数据带来。操纵数据。他们将与它一起工作,训练模型,开发它们。一旦他们准备好进行部署,我们就需要与 DevOps 团队合作,以确保我们将如何部署解决方案。
我们需要将这种模式从开发一直带到。将环境提升到生产的全过程。然后还有另一部分。我们需要将这些模型的结果或这些模型的输出整合到解决方案或应用程序中。Salesforce 也可能是,它可能只是云上的一个红移表。
我们也可以在科尔中心使用 Call Miner 等其他解决方案。这取决于我们希望输出的时间和位置。然后,我们将不得不与他们合作,我们再次需要工程师、DevOps 和建筑团队来帮助我们。这就是我们如何互动的地方。
因此,我们可能不会让每个人都在同一个团队中,但我们必须与所有这些团队合作才能实现这一目标。当然,业务是最重要的部分,或者说是最重要的团队,因为我们真的在努力让他们解释他们在处理什么,他们有什么问题,他们在整个过程中也帮助我们获得反馈,我们给他们的结果是什么。
然后我们调整我们的模型,然后我们能够在那里做更多的事情。
里奇·科顿: 这真的就像许多不同的团队参与进来,只是为了得到这些数据问题的答案。不仅仅是数据科学在孤立地工作。我喜欢那个
瓦妮莎 一点不错。所以,当你想到一个数据科学家,如果你认为他们只是躲在房间里工作,做他们的事情,嗯,不是真的。他们需要与其他团队进行大量的交流。他们需要大量的合作。所以对阿达来说,一个好的数据科学家应该是喜欢合作,喜欢在团队环境中工作的人。
如果没有,他们将无法开发出与你整合所有这些团队时同样高质量的模型。
推荐给数据科学家的技能
里奇·科顿:我 认为那是,那是真正有用的建议。确实需要这些沟通技巧。实际上,也许只是那件事的延续。你认为对于数据科学家来说,有没有像沟通这样的特殊技能或者其他软技能很重要?
瓦妮莎·冈萨雷斯: 是的,当然。所以有一项技能不容易找到,而且非常非常重要,那就是不仅要知道如何沟通,还要知道如何翻译。非常技术性的工作,因为你将不得不与 B 一起工作,与从未见过模型或不知道它如何工作的商务人士一起工作。
因此,你需要能够来回交流,理解他们想要告诉你什么,同时也能够用同一种语言分享你的发现和你想要告诉他们的事情。那个翻译,看起来很容易,其实没那么容易。有时候,你必须用非常简单的方式解释一个非常非常复杂的模型,有时候,业务必须解释他们的流程,对于数据科学家来说,这些流程可能非常明显,他们从未接触过这些流程,所以这并不像人们想象的那么明显。
所以,沟通技巧,绝对重要。
里奇·科顿: 你有在你的组织中做得非常好的成功案例吗?或者任何不太成功的灾难故事?
瓦妮莎·冈萨雷斯: 不,绝对是。对于数据科学家来说,你知道我们总是说,哦,这是召回,这是我们模型的精确度。嗯,这对业务没有太大帮助,因为他们不知道什么是回忆,什么是精确。或者如果我们在谈论任何人的准确性或 F 分数,我们在谈论什么?
因此,我的团队中有一位数据科学家,他令人敬畏。与他们的交流。因此,他可以说,他可以告诉企业,而不是使用真正的数据科学术语。在这种情况下,它是一个,一个与自然语言处理有关的模型。我们讨论了有多少,比如,模型如何识别通话中的主题,以及转录。
这样他才能够真正地向业务上解释。这个模型有多精确?通过使用一些更简单的术语,比如说,好吧,每 100 次呼叫中,模型将能够正确地告诉我们 20 次主题是什么,然后在另一个 20 到 20 次中就不那么确定了。但在五次中,他们很好,所以他们,他真的能够解释。
我们试图用模型的结果或模型的度量标准来表达什么,以某种方式让企业理解并说,哦,82%的情况下猜测主题对我们有好处。这甚至比我们从自己人那里得到的还要好。所以我们对这个数字非常满意。
然后我们就离开了,谈话就从那里开始了。所以那将会是一个非常成功的时期。我们曾经尝试过给出指标和。房间里鸦雀无声。所以当你知道你必须用不同的方式解释,让房间里的每个人都明白我们想说什么的时候。
还有你们,他们不应该知道机器学习。所以我们必须能够说,我们会增加什么价值,以他们更多的条款和方式去做。所以这总是一个有趣的对话,但你学习它,你会变得很好,通过练习和关注,你真的可以把翻译做得很好。
里奇科顿: 这看起来确实很重要。我认为你的观点之一是,如果业务人员不理解你在说什么,那么它对组织的其他部分没有影响。
瓦妮莎 一点不错。
Transamerica 的数据转换程序
里奇棉: 好极了,妙极了。所以,你一直是泛美大数据转型项目的一部分。
或许你可以简单地告诉我这个数据转换计划的目标是什么。
瓦妮莎·冈萨雷斯: 是的,当然。因此,当我们谈到数据时,我们需要随着时间的推移,我们需要大量的数据,但我们需要以一种更简单的方式来访问这些数据。我们需要。快速访问它。我们需要能够在一个地方找到数据,我们需要确保或知道我们将用于任何用途的数据是准确、完整和及时的。
所以,我们是一家已经存在了很多很多年的公司,我想有一百多年了。它也是通过收购形成的,并以多种方式发展。它已经进行了多次重组。因此,我们有许多数据来源,我们需要确保我们可以访问我们拥有的所有数据。
此外,想想像我们这样的公司,我们做退休。如果有人在 30 多岁时开始使用 401K,他们可能要到 30 年后才开始使用。所以你有已经和我们在一起 30 年或 35 年的客户,这意味着我们必须保留所有的数据,所有他们在这段时间的计划中所做的交易,或者如果他们可能已经结婚,然后离婚,然后他们有了孩子。
随着时间的推移,他们的所有受益人都发生了变化。所以有很多数据。因此,我们在数据转型方面所做的实际上是将所有数据从本地服务器转移到云上,我们正在努力实现现代化,以确保我们将所有数据放在一个地方,所有数据都经过管理,可访问,真正做到。
安全方面也受到良好的监控。我们想保护我们的顾客。我们不希望他们的数据到处都是,所以我们必须确保我们做了所有这些事情。因此,通过进行数据转换和数字转换,我们可以做得更好、更仔细,并以更好的方式使用数据。
当我们将数据转移到云中时。我们还确保它的质量,确保我们正在查看我们是如何使用的。如果我们在七个地方有相同的,呃,某人的记录,我们知道那个人的七个记录是同一个人。因此,我们在那里进行控制和身份解析,最重要的是,我们试图为我们的客户提供可用且不安全的数据。
这只是我们为什么要进行数据转换的一些例子。但是你可以想象,这是一个巨大的项目,也是一个非常令人兴奋的项目。
小齐棉: 绝。我是说,我会考虑这些数据。我们在 Data Camp,这个公司已经存在了差不多 10 年了。我们已经有来自这么多不同地方的这么多不同来源的数据,所以,你所说的某人有人寿保险或退休保险,你必须在他们开始使用它之前管理数据完整性 30 年,这看起来是一个巨大的挑战。
你能不能跟我说说,你一开始是从哪里开始这个项目的,你在所有不同的地方都有数据,你试图管理这些数据。那么第一步是什么?
Vanessa Gonzalez: 所以,这方面的第一步甚至在我开始在 Transamerica 工作之前就已经开始了,我们开始思考,好吧,我们需要做些什么才能变得更现代。为了保护我们的数据安全,把它放在一个正确的地方。所以,第一件事是,决定这是我们想要的。
这对我们很重要。这将是我们战略的一部分。然后从那里,我们开始思考,好的。我们要怎么做?因为它很大。这是一个巨大的工程。这不是你能在一天内完成的事情,也不是我们能说的事情,好吧,每个人都停止他们正在做的一切。
我们会等一两年再做,然后继续做生意。我们必须让生意继续下去。对吗?所以你必须让这两件事同时发生。这也是很棘手的,所以,所以第二件事,比如首先你开始战略,你开始考虑你要怎么做,然后做的第一步是,创建那个架构,那个基础,那个,呃,就像你要放这些东西的小盒子,对吗?
所以你必须弄清楚你在云中的架构是什么?你要怎么做,你要怎么做?你会带申请表吗?你只带数据吗?你两个都要带吗?就我们而言,我们两者都在做。我们的想法是,在一年左右的时间里,我们会把所有东西都放在云端,可能在一两年内。
因此,我们已经将许多应用程序引入了云计算。现在我们带来了数据。我想说,我们大约有 25%的数据已经在云中,今年我们将在云中引入大量数据。我们的东西太多了,你带进来的时候要开始思考,好吧,我要清理什么?我要从一台服务器上下载数据,然后关掉服务器?
但是有多少流程会受到影响?通过移动这些数据。所以就想着报道吧。如果您将数据从 A 点移动到 B 点,则使用 A 点数据的每个报告都必须重构到 B 点。因此,这是同时发生的许多事情,您必须确定优先顺序,然后是什么先来,什么后来,以及您如何引入数据、应用程序和其他一切的顺序。
因此,第一步是准备好架构,准备好开始移动东西的地方,确保您拥有所需的安全性。你将如何访问这些数据和应用程序?就像你真的开始思考那个建筑。所以我们的建筑团队在思考这个问题上做了一件了不起的工作,获得了很多知识。
确保他们设置架构的方式对我们公司有用。因为每个公司都很不一样。所以我们不能说,哦,也许索尼是这样做的。我们也应该这样做。我们必须想出一个适合我们的架构,这个架构要适合我们的客户、我们合作的代理商以及我们合作的公司。
所以有很多不同的运动部件。一旦这样,你就开始把东西搬进来,你开始考虑,好的,我怎样把它们搬进来,我把它们都保留多久,或者在什么情况下我只是移动它们?我如何测试它?我如何访问这些新作品?一旦我们拥有了这一切,你就要开始考虑如何关掉旧的和遗留的东西,只保留新的。
按值排列数据优先级
里奇·科顿: 你提到了优先化,因为你需要决定将数据转移到云中的顺序。我在想你是如何区分轻重缓急的。首先是高价值数据,因为这是最重要的,还是低价值数据,因为风险较小?还是按团队做?或者怎样?对此你怎么看? 你如何分清主次?
瓦妮莎·冈萨雷斯: 这是个很好的问题。因此,我们一直在做的是,在我们进行数据转型的同时,我们也在进行转型,以成为一家更好的公司。我们正在采取许多措施,努力做到更好,销售更多,更好地对待我们的客户。因此,所有这些新举措,我们正在做的是,我们认为。
这些计划需要数据,例如,我们正在改进我们的网站。嗯,网站需要这些类型的数据,所有这些片段,所以让我们把这些片段带到云上。因此,当我们创建这个新网站时,它将使用来自云的数据,而不是来自本地的数据。因此,我们根据引入新内容所需的数据进行优先级排序。
我们正在利用来自云端的数据来完成这一切。然后,我们开始思考我们在大多数系统中使用最多的数据是什么,在大多数情况下,报告我们的数据对我们来说非常重要。这也是一个数据。因此,我们正在引入我们拥有的第一组计划,我们看到了我们需要的数据。
然后我们看到,我们使用最多的最繁忙的数据库是什么?我们的退休数据库?我们引入了这一点,然后在接下来的几年里,我们将会关注,好的,在接下来的几年里,我们将会致力于什么样的计划?他们需要什么数据?我们在云中还没有哪些我们需要的数据?
然后我们把它带进来。实际上,最少使用的数据,或最少被系统列出的人,这些程序,是最后出现的一个。在一个完美的世界里,我们希望一切都在云端,这就是我们的前进方向。但是有些事情需要一点时间。我们一定要好好的。
这是一段旅程。这不会在白天发生。所以你必须有耐心,你必须坚持下去,坚持下去,让它发生。
里奇棉: 这个观点很好。我注意到,嗯,基本上在我工作过的任何地方,管理层对这些真正长期的技术项目都缺乏耐心,除非他们在早期看到了某种好处。那么,有没有什么地方,你认为你已经轻松获胜,或者你已经能够通过这种数据转换计划展示一些价值,而不是等到最后?
瓦妮莎·冈萨雷斯: 是的,没有。所以我们有一些增值的方法。你完全正确。你必须表现出一些附加值,因为如果没有,这就像投入了很多钱,然后你看不到任何结果。从来都不顺利。因此,我们正在做的是,当我们为引入这些数据建立基础时,我们开始,就像我们已经有了几个机器学习模型一样。
只是使用,就像我们所有的数据都已经在云端。还有一些其他的计划,比如我们有一个,做了一些客户掌握和数据,它已经在云中。我们制作的母版,还有一些其他的大计划,与我们的网站以及与客户的互动有关,这些都是云中所需的数据。
所以我们提前吃了一些。但是我们会继续前进,并在前进的道路上赢得更多的胜利。因此,我们的想法是,当我们创建所有这些计划时,这就是我们优先考虑这种方式的原因,这样我们就可以通过将这些数据存储在云中来获得附加值。
里奇科顿: 因此,对于这些大型技术项目,有时会感觉像是一种远离客户的后端工作。我只是想知道到目前为止对你的客户有什么影响?
瓦妮莎·冈萨雷斯: 所以我们的客户不需要或者不应该知道,他们不应该关心我们的数据在哪里。他们想要的是。数据不错吧?他们有,他们想准时举行。他们希望在需要时能够看到数据,他们希望有更好的数字资产或与我们的互动,对吗?
这就是他们看到我们正在做的事情的结果。他们不知道为什么,但是突然网站运行得更快了。或者,举例来说,突然呼叫被路由到一个更好的。他们真的不需要知道。数据从 A 点到 B 点的确切位置和方式,以及为什么需要更长或更短的时间。
但是他们看到了其中的好处。正如我在一开始所说的,通过我们所做的,通过数据转换,通过机器学习和人工智能的应用,我们所做的真的是。改善我们的客户服务,然后这样做,那么我们也能够发展我们的业务,也让我们的客户和他们保持满意,对不对?
并且,降低我们的成本,这样我们就可以。把那个也传下去。所以一切都很好。。你看,除此之外没什么不好的。这需要时间和大量的工作。我认为,当公司经历这些数据转换时,这是一件很棒的事情,我一次又一次地听到,每个人都在这样做。这有点像我们现在必须做的事情。
我们可以呆在家里,等着,对吗?我们必须尽我们所能去一个更好的地方,这就是我们。
小齐棉: 绝。所以我很好奇时间尺度超越了什么。这是一段很长的时间,所以这个项目什么时候开始,你认为你什么时候会结束?
Vanessa Gonzalez: 我想这是几年前开始的,我们希望能在几年内完成,所以我想这可能需要大约四年的时间,或者说有些作品是随着我们的进展开始的,然后它们会在稍后结束,但是,我认为这或多或少是从开始到结束的时间框架。
这是一个非常酷的转变。我认为 19 是它开始的时间,然后应该在 2023 年底或 2024 年上半年完成。在那里的某个地方。
里奇·科顿:我们永远不知道 如果一切都按计划进行,2023 年底,更现实地说,稍微晚一点。好吧。我想谈一谈使用的技术,很明显,你们正在采用一些云工具。除此之外,作为这一转变的一部分,您的技术体系有任何变化吗?
瓦妮莎·冈萨雷斯: 是的,当然。所以我们几年前就已经在使用云了。但不是,没有那么多。所以我们在开发机器学习的模型,我们使用像 Domino 这样的工具,我们使用 Hadoop 和 Bitbucket。现在,我们转向 aws,这是我们正在使用的云技术。
我们正在 SageMaker 环境下进行机器学习开发。所以我们用现在的 SageMaker,我们用红移和 S3 桶。那些,那些,那些碎片。但我们也使用投标袋,所以我们的工具堆栈它。改变一点点。这个想法是,随着我们将更多的数据转移到云中,运行我们正在运行的模型将变得更加容易,并且越来越多地实时运行它们。
嗯,现在我们做批量生产,我们批量生产品牌。所以它,它变了。我们不得不为我们开发新的基础设施,因为正如你所想象的,像每个公司一样,也必须研究他们的安全和它是什么,什么有效等等。所以你必须把已经出来的东西混合起来。然后你安装自己的护栏,并遵循你为公司制定的良好实践。
所以我们整合了这些,我们非常兴奋,因为我们完成了我们的平台,现在我们正在那里开发。在我的团队里,我们会越来越有效率。所以这是一个非常激动人心的时刻。
里奇棉: 妙不可言。嗯,因为这是一项巨大的工作,除了你的分析和机器学习团队之外,还有哪些团队参与了这项工作?
Vanessa Gonzalez: 因此,数据转换是一项巨大的工作,整个公司都在发展。我们在业务和 IT 方面的领导,我们的 CTO 在这方面发挥了重要作用。如果你,如果你想所有的团队一样,他们是需要的。你需要制作团队。
你需要战略团队。您需要开发运维团队,如架构、工程团队,因为有很多团队需要致力于这种数据转换。有些人会研究如何建造基础设施。其他人会研究我们如何带来数据,数据。治理数据质量和数据科学团队在这里很重要。
业务团队和业务分析团队也很重要,因为他们必须设定在这种环境下他们需要什么才能进行商业智能和报告。嗯,他们需要真正参与支持的业务,因为现在他们从服务器上获取数据的所有流程,现在他们将从云中获取数据,这打开了许多可能性。
但在支付方面也有很多挑战,比如确保他们参与进来,这样他们就可以准确地告诉我们,哦,这个过程正在从这个地方获取数据。让我们确保,当我们迁移到云时,我们可以继续进行这一过程,并且我们指向了正确的位置。这就是数据转换的美妙之处和挑战所在,它需要每个人,而你不能只靠自己或在孤岛中完成,因为那样做是行不通的。
所以,你还必须进行大量的协调、合作和妥协。你必须开始真正思考别人需要什么,而不是你需要什么,然后找出两者之间的平衡点。所以有很多不同的团队在努力,但绝对值得。
里奇·科顿: 好的,我知道这是很多团队之间的合作。通常是非常非常困难的事情。所以我想知道你是如何管理所有这些需要相互沟通和协作的团队的?
Vanessa Gonzalez: 所以你说有些流程,你说领导必须要对齐,所以。它始于领导层真正参与进来,让我们的首席执行官、首席信息官和首席技术官都以同样的方式思考,思考我们要去哪里。那是一块。另一件事是,当你开始更多地了解我们如何完成工作时,我们会在几个团队之间召开大量会议。
举个例子,为了计算出我们将引入什么数据,我正在非常接近那个数据。我组织了一次会议,邀请了架构、工程、业务、项目管理办公室以及我们的数据和分析团队。这样我们就明白了,好吧,数据的要求是什么?
这些流程的业务所有者。那么已经存在的数据是什么呢?因此,我们与建筑、工程以及其他领域进行了交流,我们将如何引进这些技术?所以我们也要和他们谈谈。治理真的可以帮助我们,好吧,我们该如何治理这些数据呢?
助理牧师,我们要怎么治疗?当我们考虑质量的时候,我们会关注什么?什么是正确的来源?这不仅仅是把数据带到那里,然后把它扔在那里。你。弄清楚如果你是,如果你想像名字一样,我们从这个数据库,从这个数据库,从这个数据库把名字带到哪里。
哪个是正确的名字?所以我们必须在那里做一些控制。所以这些团队之间有很多合作。我们所做的是,我们定期见面,然后把它分成碎片,对吗?他们说,你怎么吃大象?一次一口。那么,如何进行数据转换呢?一次几个数据项。
你只是开始喜欢把小块小块的东西放进去,然后移动这些东西,确保你做的每件事都遵循那个目标,你用同样的方式去做,这样就更容易到达你想去的地方。
里奇棉: 我用程序想象。一定是什么地方出了问题。所以我想知道你发现了什么具有挑战性的事情,或者有什么你希望一开始就知道的事情吗?
瓦妮莎·冈萨雷斯: 所以我认为这是一件非常具有挑战性的事情,而且我们已经了解到,在每件事情的开始,你都需要非常好的要求。你必须确保。当你把你的需求放在一起的时候,你不能跳过任何,任何部分。例如,如果你有一个项目,你要从许多不同的地方带来数据,如果你忘记了几个片段,当你遇到他们时,他们不在那里,这是很难把这些片段带进来的。
当你提前计划,然后说,好的,这些是我需要的零件时,事情就简单多了。这些是我需要做的变换,这是从 A 点到 B 点到 C 点的地方,这是它离开的最终位置。我打算这样策划。比带八成容易多了。
还有这样子的,那 20%。哦,我们还需要另一块,但是不够。因此,我认为这是一件具有挑战性的事情,在开始移动数据以真正满足这些明确的要求之前花些时间确实是有意义的。那是一块。另一个类似的挑战是,你必须继续做你正在做的事情,并为新的事情腾出空间。
所以你必须确保你是。做你的日常工作,对吗?与此同时,你必须把重点放在新的东西上,这意味着更多的工作,意味着更多的努力。完全值得,但你必须小心如何,如何去做。因此,你不会像往常一样不做你在 BAU 的工作和业务,同时,你也在创造新的东西。
然后你从什么时候开始从旧的走向新的。考不好还得真的考好。你能想象吗?你没有旧的,新的不工作,这将是非常非常糟糕的。所以我认为这是我们都学到的东西,在某些时候,当我们认为我们将投入生产时,它并不像我们想象的那样工作,因为我们错过了一些东西。
所以你有 B 计划总是好的,好的,如果我在投入生产之前,我会测试它,确保它能。然后你,你把两者都保留一会儿,然后你,你取消旧的。这些都是挑战,但绝对是我们必须思考的事情。
永远考虑 A 计划、B 计划和 C 计划,以防事情按计划进行。因为当你计划的时候,做最坏的打算,期待最好的结果,或者类似的话,俗话说,我不确定,但是你最好做好一切准备
小齐棉: 好了,。是啊。所以这看起来真的很重要,尽量避免引入新的错误。就像你移动数据一样。所以我很好奇,对于我们如何进行测试,你还有什么要说的。
瓦妮莎·冈萨雷斯: 所以,是的,所以我们有一个非常好的项目来测试。比如机器学习方面我可以多说一点。我们确保在自己的环境中进行测试。我们有一个专业的研究环境,因为我们使用专业的数据训练,但是我们。同时在一个开发环境中。
所以我们做了所有的测试,检查我们的模型是否正常。我们确保我们得到的输出是我们所期望的。一旦从那里,然后我们把它带到所有的环境。因此,我们从那里开始,进入开发模式,然后将其移至测试模式,再将其移至模型模式,然后移至专业模式。
所以在所有这些工作中,我们。一次又一次地检查一切是否正常,我们没有影响任何其他流程或任何其他部分。我们为测试做的另一件事是,我们的生产团队有一个生产流程,你必须经历它,当我们在环境中移动时,他们检查他们的扫描。
他们确保如果东西坏了,如何修复?到了生产的时候,我们很放心我们所做的是我们所期望的,不会有任何问题。我们总是有 B 计划,如果有一些问题,解决这些问题的方法是什么?
我们总是做好准备,以防万一。
Richie Cotton: 除了这种多层测试之外,你还可以找到诊断问题的方法,并制定备份计划,以备不时之需
瓦妮莎·冈萨雷斯: 是的,我们知道,好吧,如果我们突然丢失了一两天的全部数据会怎么样?嗯,我们有,哦,我们可以用这个备份,我们可以用这个。就像总有一个 B 计划来减轻我们可能遇到的问题。根据问题的严重性或重要性,有多少系统会受到影响?
然后我们。备用系统。如果出了问题,后备力量就会介入。所以我们确保我们总是在一个好的地方。所以这是一些公司做的事情,包括我们的,以确保我们满足援助,任何,任何可能发生的问题。对吗?所以这样的话,就像你想象如果,如果公司不这样做,那么你将什么也做不了,对吗?
就像你的银行突然倒闭,你什么也做不了。那不会持续很长时间。
里奇棉: 耶。当所有这些系统都瘫痪时,很难赚钱。呃。好吧。我想谈谈技能。这看起来像是因为一切。变化相当快。在您的团队中,更广泛地说,在您的组织中,这如何改变了您在团队中寻找的技能组合?
Vanessa Gonzalez: 就技能而言,我们真正寻找的是数据科学家和他们愿意学习的人。因为事情会不断变化。几年前是什么样子,是某种编程语言,后来我们改变了。然后 Python 就变成了我们现在用的这个。但是,如果您正在使用,如果您在云中,他们需要了解一点如何在云中部署。
然后视乎,所以一切都变了,对吧?工具组可能会再次改变。因此,当我为我的团队寻找人才时,我不只是寻找他们所知道的,而是。他们学习的意愿有多好,因为这是我认为数据科学家最重要的一点,至少对于机器学习和人工智能来说,你必须为变化做好准备。
我们现在可能有 Salesforce 作为 crm,但谁知道呢,也许两年后我们会改变。所以你必须准备好以一种非常开放的方式思考我们如何整合我们的输出。如果我们改变系统,或者如果我们带来一个不同的应用程序,我们不能,我们甚至不知道存在,对不对?
因此,也许两三年后,情况会完全改变。所以我们必须在技能规模上做好准备。对于我的团队来说,我一直在寻找一种强烈的统计学和数学意识。对你如何思考的科学的理解。我会有一个假设,然后我会证明它,然后我会这样做。
就像对如何解决问题有一个非常有条理的想法。我认为这非常重要。和语言,我们可以学习它们。新的软件,我们可以学习它,但是我们,难教的是学习的能力。这就是我一直在寻找的。
小齐棉: 好吧。当然,技术变化很快。你将要使用的软件每隔几年就会发生变化。这真的引起了我的共鸣。但是,是的,我喜欢这个想法,你总是需要愿意学习新事物。因此,就这一点而言,实际上,当你发现你的团队中存在技能差距时,你是在内部培训员工,还是从组织外部雇佣员工?
瓦妮莎·冈萨雷斯: 所以我们两方面都做了。就像有时我会让那些有 D 类技能的人带来他们自己的技能。其他时候我也是,我们的团队非常支持学习新技能的培训。例如,我的一个团队成员,他对自然语言处理非常感兴趣。他做到了,我们在这方面提供了很多培训,他在工作中也学到了很多。
对。在其他情况下,我的一个数据科学家,一个统计学家,带来了很多关于统计的知识。所以我认为,对于机器学习和人工智能团队来说,这是非常重要的,或者至少我认为这是非常重要的,有不同的背景,数据科学的魅力之一就是你可以成为物理学家、统计学家或计算机科学家。
就像有很多不同的背景,你如何到达那里。对我们来说,当这种情况发生时,我们会感到很惊奇,因为。我们,他们带来了不同的技能,他们可以分享和教授给团队。因此,我们做的事情和我们非常有目的的事情是,我们有很多关于分享的会议,以便他们可以互相帮助,互相学习。
要成为一个成功的数据科学团队,你需要能够做到这一点,因为没有人会具备所有的技能。这是不可能的。即使在你自己的团队中,诺博,也不是所有人。我可以拥有所有的技能。所以你需要有人在一个领域有很强的技能,其他人在另一个领域也有很强的技能,然后他们互相分享,互相教导,互相帮助。
那是我最看重的东西。我知道他们参加了数据营,并且不时会有人研究深度学习。另一个可能会调查另一个。所以根据他们想学的东西,他们会向不同的方向发展。
这也取决于他们目前专攻什么。他们不得不做的事。
Richie Cotton: 我喜欢你的团队使用 data camp 进行持续学习,并提高他们的技能。那太好了。你谈到了你的团队需要擅长翻译技术。商业人士可以理解的问题,学习心态的重要性,理解统计学和假设检验的重要性。
你认为团队中还有其他什么能让人们成功的因素吗?
瓦妮莎·冈萨雷斯: 所以我认为创造力是非常重要的,因为并不是所有的事情都像我们希望的那样发展,而且要有找到解决方案的积极态度。我们没有机会说,哦,不,这不可能。就像我们更关心如何让它工作?数据不在完美的地方。
嗯,我们让它工作。我们必须适应这种做事方式,因为。它会保护我们数据的安全。好吧,我们适应并让它发挥作用。所以在我的团队里,对我来说,这非常非常重要。当他们看到一个问题时,他们很有创造力,会找到解决方法,不会放弃,就像找出解决方法一样。
对我来说,这个解决方案非常有价值。而且发生的次数不止你一个,不止一件事。你去学校,他们给你完美的数据集,他们说,建立这个美丽的模型。它总是有效的,对吗?所以你会想,哦,是的,我,我尝试了这五种不同的技术,哦,工作真的很美。
你走进现实世界,感觉就像,嗯,我该从哪里开始呢?数据真的真的很诡异。所有这些作品都很有创意,会让你成功的。所以,呃,要满足创造力和积极的态度,那才是真正能让它发生的。
小齐棉: 绝。我喜欢这样。好了,最后,在机器学习和人工智能的世界里,有什么是你真正感到兴奋的吗?
瓦妮莎·冈萨雷斯: 所以我,我,我不得不说我热爱这一切,这让我在这个世界上感到兴奋。这真的是改变的可能性。我喜欢这种模式,当你创造它们时,你有一个输出,这个输出以一种客户甚至不需要知道的方式被使用。
或者,在这种情况下,我们的商业客户,比如我们的业务部门,你在许多方面让他们的生活变得更轻松,他们不必为此担心。这就像是自动的,AIP 做规定的事情和做决定。对我来说,这是非常令人兴奋的,令人兴奋的,能够使用实时数据,实时运行模型。
我认为这是让我每天都非常兴奋的事情,我期待着并尽可能多地努力。
里奇棉: 妙不可言。是的,所以我认为人工智能和。呃,自动驱动决策。听起来太棒了。是的,还有实时分析。美妙的东西。那么,对于其他试图开始数据转换计划的公司,你有什么最后的建议吗?
我想说的是,不要去想它有多复杂或者有多大,而是去想你会从中得到什么。所以我认为我最大的建议是,当你玩得开心的时候,这并不容易,而且很漫长,时间过得很快。所以享受旅程,让它发生吧。我想这就是我要说的关于数据转换和机器学习和人工智能,我只是。
无论你在哪里,我们都可以做很多事情,你也可以做很多改变。你是什么行业,什么类型的企业,真的不重要。总有一种方法可以帮助人们,帮助其他人,让他们的生活变得更容易,这是我们可以利用的。所以这就像,如果那是你所关心的,那是一种很棒的感觉。
里奇·科顿: 让别人的生活更轻松。听起来很棒。太好了。好吧。非常感谢瓦内萨抽出时间。那真的,真的很有启发性。非常感谢。
Vanessa Gonzalez: 非常感谢你们邀请我,并祝大家好运,他们正在数据科学、机器学习和数据转换领域建立职业生涯。超级有趣的事情。
设计仪表板的最佳实践
随着全球数据量的快速增长,将这些信息识别、处理和可视化为易于理解和共享的形式,从而使其具有可操作性变得越来越复杂。这就是仪表板的用武之地。
仪表板是分析过程中的一个关键组件,因为它们以易于理解的形式为各种利益相关者提供了信息的简要概述。仪表板的最终目标是帮助用户做出最佳决策,并利用这个不断增长的数据池。
本文将深入探讨设计高质量仪表板背后的艺术和科学——并概述您现在就可以开始使用来部署仪表板的工具。
仪表板有哪些不同的类型?
选择正确的仪表板对于提供有效的数据洞察至关重要。然而,随着不断增加的数据量和复杂性以及各种不同的受众希望使用仪表盘来消费数据,人们很自然会对如何设计仪表盘感到不知所措。构建仪表板时,了解哪一类仪表板最适合您的特定受众至关重要。最常见的仪表板类型如下:
1.运营仪表板
运营仪表板监控实时数据,跟踪各种业务运营的端到端性能,并通过清晰的数据可视化交流见解。这些仪表板旨在用于日常工作流,并提供对时间敏感的见解和实时发展的警报。运营仪表板持续更新,有助于一目了然的决策。这些仪表板的主要受众是经理和运营团队。例子包括
- 营销仪表板—网站绩效指标,如跳出率、用户终身价值、平均会话时间等。
- 软件开发 — 系统崩溃分析、正常运行时间监控、云服务计费监控等。
2.战略仪表板
战略仪表板主要由 C 级主管、董事或企业所有者用来监控公司的长期 okr 和 KPI。它们对整个组织或部门的绩效提供高层次的更新。这些控制面板更新数据的频率低于设计为每天查看的操作控制面板。战略仪表板的创建非常复杂,因为它们需要准确地跟踪可以在不同数据源中找到的组织范围的指标。此类仪表板的示例包括
- 组织范围内的—跟踪收入和公司 okr,一目了然。
- 部门范围—跟踪从采购到购买的营销漏斗。
3.分析仪表板
顾名思义,这些仪表板用于分析和使用大量复杂的数据。现代仪表板工具为消费者和从业者提供了下钻选项、广泛的过滤器和处理大量数据的能力等特性。有了分析仪表板,人们可以不仅仅浏览指标,还可以调查数据本身背后的驱动因素和动态。
分析仪表板的主要受众更具有技术头脑,可以是数据科学家和分析师等从业者,也可以是希望挖掘洞察力的经理。分析仪表板的示例包括:
- 财务—财务绩效仪表板,能够按渠道、产品、资产等细分收入
- 营销 —Google analytics 仪表盘提供高级指标,并能够深入了解渠道、推荐、流量来源等
如何创建优秀的仪表板
仪表板的主要目的是降低复杂性和提供清晰性。一个好的仪表板通过简单明了的数据可视化简化了复杂的信息。以下是一些仪表板设计的最佳实践,可以有效地与您的受众交流见解:
设身处地为观众着想
如果你想创建一个有影响力的仪表板,你应该对使用你的仪表板的观众产生深深的共鸣。这意味着要很好地理解你的听众的专业领域和技术知识水平。而且,你在设计你的仪表盘的时候,要深入思考他们最关心的洞察是什么。例如,营销分析师会更关心报告特定营销活动的仪表板。相反,营销领导会更关心一个报告整个营销漏斗的仪表板。这可以说是最重要的步骤之一,因为它将保证您的仪表板的采用。
清理杂物
仪表盘可能会很乱。尤其是因为它很容易让观众随意使用各种类型的图形、图表和表格。为了避免让仪表盘变得不可读、混乱,问问自己你所包含的内容是否与受众相关,并尽可能删除不必要的元素。此外,要认识到构建仪表板是一个迭代的过程。因此,在构建仪表板时,请牢记受众的反馈。
使用网格布局功能
在设计仪表板时,您应该考虑使用网格布局。根据 Tableau 的技术传道者和仪表盘大全的合著者 Andy cotgreve 的说法,人类天生习惯于从左向右和从上到下看东西。使用网格布局有助于您的受众独立、直观地导航仪表板。在实践中,这意味着从左上角的高级指标开始,并在网格的右侧向下深入数据。
注意字体
尽管使用不同的字体和大小很有诱惑力,但一般来说,坚持使用不超过 3 种不同大小的字体。你应该遵循字体层次结构,保持标题大于正文,并使用粗体突出关键元素和标题。改变字体大小和效果也是一个很好的工具,可以将观众的注意力吸引到仪表板的特定元素上。然而,确保你适度使用它。
创造性地使用颜色
公平地说,颜色是任何数据可视化或仪表板中最引人注目的方面之一。因此,在选择数据可视化的配色方案时要花很多心思。这意味着在可视化中使用一致的调色板,并系统地使用颜色来区分组、重要性级别和不同种类的信息层次。
快速加载时间是一个胜利
在数码产品中,加载时间就是一切,仪表盘也不例外。无论你的仪表盘有多么丰富的信息和吸引人的视觉效果,如果它的加载时间很长,它将很难被采用。由于大量数据、仪表板内发生的转换、大量过滤器以及需要花费时间呈现的高度复杂的可视化,可能会出现较长的加载时间。减少装载时间的一个好方法是减少混乱,并确保复杂的数据转换存储在数据库的视图中。
测试您的仪表板的可用性
设计仪表板最重要的元素之一是它需要被测试。一旦你建立了一个原型,你需要站在你的观众的角度考虑他们是如何理解和使用你的仪表盘的。记下这些活动,看看如何让你的仪表板更有效率和效果。对于一个成功的项目,测试是关键。你要了解你的仪表板是如何被人感知的。这允许你基于这个测试反馈来迭代你的设计。
迭代和协作
如果你不能一步到位,这是完全可以接受的。创建仪表板是一个漫长而复杂的过程,您必须慢慢来。为了展示您最好的仪表板,您需要给自己时间来检查它,并获得更好的视角。最好的仪表板也要经历大量的迭代,每天不断改进它们需要时间——这是完全可以接受的。
创建出色仪表板的工具
仪表板很容易上手,有许多工具可供使用。然而,由于选项过多,很容易陷入分析瘫痪。在这一节中,我们将分解数据从业者目前可以用来创建仪表板的最常用工具。在评估使用哪些数据工具来创建仪表板时,请考虑以下功能:
- 数据源连接器:将一个工具连接到不同的数据源有多容易?
- 协作功能:某工具是否提供评论、编辑、分享、托管等协作功能?
- 渲染速度:一个仪表盘渲染加载要多快?
- 易用性:是需要编程知识,还是入门门槛低的拖拽式界面?
- 成本:是开源框架还是需要购买许可证?
以下是功能丰富的工具列表,可帮助您开始构建出色的仪表板和数据可视化:
1.功率 BI
微软的 Power BI 是最受欢迎的商业智能工具之一。由于其简单的界面和提供的广泛功能,它已经成为数据从业者和商业用户的默认选择。它有一个精致的拖放界面,搭配一个庞大的数据源连接器列表,帮助您从一开始就构建生产就绪的仪表板。Power BI 使与其他团队成员的协作变得非常容易,允许您无缝地构建、编辑和共享—这种体验类似于使用任何其他微软产品,如 SharePoint。
主要特征
- 直观的用户界面:Power BI 中的界面确实很直观,尤其是对于习惯了微软套件的人来说。
- 低成本:与其他全功能 BI 解决方案相比,价格合理
- Azure 集成:与 Azure 云服务集成得非常好,如 Azure Data Factory 、 Azure Synapse 和其他数据连接器
- AutoML 特点: Power BI 轻松集成来自 Azure 机器学习的自动化 ML 构建模型。
Power BI 仪表盘示例
2.(舞台上由人扮的)静态画面
Tableau 是当今功能最丰富的商业智能工具之一。它于 2003 年在加州山景城成立,现已成为现代分析师事实上的商业智能工具之一。它提供了一个拖放界面,使非编码专业人员能够轻松创建仪表板。 Tableau 支持最高数量的数据源连接器,所以从不同的数据源获取数据不成问题。它提供了项目协作的能力,并允许您使用 Tableau Server 共享和托管仪表板。通过正确的规划、对内存数据存储和数据提取的支持,可以优化渲染速度。Tableau 建议使用这些性能技巧来获得惊人的渲染速度。
Tableau 还有一个非常强大和活跃的社区,它得到了成千上万用户的支持,并且可以免费访问 Tableau Public 。与其他 BI 工具相比,Tableau Desktop 专业版的价格处于高端。
主要特征
- 快速渲染:在内存存储和数据提取的支持下,Tableau 在处理大型数据集时非常出色
- 社区:它有一个非常活跃的社区,可以激发灵感和解决问题
- Tableau 自 2003 年以来一直在迭代和改进,因此使用它的体验非常流畅,没有任何错误。
- 可定制性:多种可视化、字体、颜色大小、行、列、网格、屏幕大小等特性可帮助您制作高度可定制的仪表板
- 数据源连接器:您可以使用内置的 tableau 数据连接器连接存储在不同地方的各种数据
Tableau 仪表盘示例
3.Python 的 Dash 包
Dash 是由的创作者 Plotly 制作的开源库。它让您无需学习 HTML、CSS 和 JavaScript 就可以构建交互式 python 仪表盘。这是一个免费使用的软件包,你可以很容易地安装。Dash 提供了一种代码优先的方法来构建图表和仪表板,而不是拖放式 GUI。它面向更具技术性的受众,如数据分析师、数据科学家、ML 工程师、python 开发人员和数据工程师。要连接到不同的数据源,您可以依赖现有的 python 包,但是您需要使用代码来配置它们,这是一种开销。
因为这个解决方案是基于 python 的,所以它允许更大的灵活性来构建高度可定制的仪表板。然而,对于不熟悉 python 及其不同包的人来说,有一个陡峭的学习曲线。由于您是独自管理事物,可视化大数据集有时会变得滞后。此外,发布使用 Dash 构建的仪表板并不像点击一个按钮那么简单——它需要你将其打包并部署在 AWS、Heroku、GCP 等云服务上
主要特征
- 基于 Python:虽然基于 Python 意味着 Dash 比拖放工具有更陡峭的学习曲线——它也可以被认为是一大优势——因为它提供了高度的灵活性
- 版本控制:作为一个代码优先的工具,您可以使用 Git 等版本控制工具来存储和保存 Dash 仪表板的不同迭代
- 开源:这是一个开源包,意思是免费使用。
- 可定制:在可定制性方面名列前茅,这从他们的仪表盘图库中可以明显看出
仪表板示例
4.Python 的 Streamlit 包
Streamlit 是另一个完全开源的 python 包,它更侧重于创建和部署机器学习重数据应用。然而,它也是一个很好的仪表板工具。这个可视化包是为了迎合数据科学家而设计的,对于 python 用户来说,学习曲线相当低。Streamlit 有预定义的方法来构建简单的可视化。如果你知道使用熊猫的基本数据操作,这个库很容易上手。它提供了一些功能,如后台刷新、加速前端的数据缓存,以及用于共享的屏幕录制功能。
主要特征
- 基于 Python:类似于 Dash,它提供了高度的灵活性
- 低学习曲线:构建 streamlit 仪表板类似于在 jupyter 上使用熊猫,因此它为任何 python 用户提供了低学习曲线。
- 版本控制:作为一个代码优先的工具,您可以使用版本控制工具(如 Git)存储和保存 Streamlit 仪表板的不同迭代
- 开源: Streamlit 免费使用
Streamlit 仪表盘示例
5.r 的闪亮包装
可以说是 R 的杀手级应用之一, Shiny 是最好的基于编码的仪表板工具之一。Shiny 允许从业者在没有任何 HTML、CSS 或 JavaScript 知识的情况下用 R 开发成熟的 web 应用程序。自 2012 年发布以来,Shiny 已经经历了十年的迭代和改进,这使得它成为一款极其稳定、功能丰富的开源仪表板工具。与本文中其他基于编码的工具类似,它提供了高度的灵活性和可定制性,并且与其他 R 包配合得非常好。
主要特性:
- 与列表中的其他编码工具相似,它提供了高度的灵活性
- 版本控制:作为一个代码优先的工具,您可以使用版本控制工具(如 Git)存储和保存 Streamlit 仪表板的不同迭代
- 开源:这是一个开源包,意思是免费使用。
- 可定制:在可定制性方面名列前茅,这从他们的仪表盘图库中可以明显看出
闪亮仪表盘的例子:
打破规则
没有比以用户为中心的设计和高质量数据可视化的仪表板更好的数据交流方式了。每个仪表板在目标、需求和限制方面都是不同的。然而,有一个共同的因素推动着他们每一个人的成功,这是一个积极的迭代过程。请记住,没有一个仪表板第一次是完美的。不断的反馈和改进是让您的仪表板更加高效和直观的唯一途径。
此外,仪表板不一定要完全实用。美学和功能性之间的权衡常常是一个错误的二分法。因此,只要你记住你的观众,以及他们如何与你的作品互动,你就可以不遵循严格的指导方针,尽情享受你的仪表盘和可视化效果。
有关数据可视化、仪表板和数据故事讲述的更多资源,请查看以下故事:
黑历史和数据科学的未来圆桌会议
2022 年 2 月 15 日星期二,DataCamp 的社会影响经理 Nathaniel Taylor-Leach 主持了一场现场圆桌讨论,以纪念黑人历史月。我们邀请了三位科技和慈善领域的黑人领袖加入对话:
-
STEM 教育学院的总裁兼创始人尼基莎·阿尔金多尔
-
Sean Burrowes,ingress For Good的首席执行官兼联合创始人
-
罗杰·罗曼,非洲街区的首席执行官兼联合创始人
直播的目标是“黑人历史和数据科学的未来”,旨在强调黑人社区在过去一个世纪对计算机和数据科学的贡献,同时确定当今有色人种年轻人面临的挑战,这些挑战使这些高利润和有影响力的职业变得不那么容易获得。
我们的嘉宾谈到的一个重要主题是,人工智能和人工智能行业迫切需要更多的黑色和棕色数据科学家,以便明天的算法不会不公平地延续今天的无意识偏见和负面刻板印象。观众提出的问题也促使我们的专家小组推荐非营利组织、公司和政府可以通过投资学习发展、内部晋升、带薪实习生等方式促进团队内部的多样性、平等和包容。
以下是我们的小组成员分享的资源集合,以了解更多关于直播期间讨论的有影响力的个人和主题:
数据、计算机和教育领域的黑人先锋
-
《费城黑人》作者 W.E.B .杜波依斯,1899 年
-
玛丽·梅纳德·戴利,科学历史研究所,2018 年
-
卡特·g·伍德森,全美有色人种协进会,2022
-
Arturo Schomberg:他的生活和遗产
-
凯瑟琳·约翰逊,多萝西·沃恩和玛丽·杰克逊
-
隐藏的人物,导演:西奥多·梅尔菲,2016
-
美国宇航局真实“隐藏人物”的故事伊丽莎白·豪厄尔,《科学美国人》,2017 年
当今数据科学中的黑人领袖和资源
-
蒂姆尼特·格布鲁,分布式人工智能研究院(DAIR) 创始人兼执行董事
-
面部识别是准确的,如果你是一个白人,Timnit Gebru,纽约时报,2018 年
-
“我们正处于多样性危机中”:人工智能领域 Black 的联合创始人,关于什么在毒害我们生活中的算法,作者 Jackie Snow,麻省理工技术评论,2018 年
-
黑中艾,2022
-
乔伊·波伦维尼
-
美国国税局应该停止使用面部识别
-
诗人的代号,2022
-
现在是什么在驱动数据科学的薪酬Alex Woodie,Datanami,2016
-
高科技的多样性——执行摘要,美国平等就业机会委员会,2015 年
-
Jeremy b . Yoder&Allison Mattheis(2016),《同性恋杂志》,63:1,1-27
-
朱莉娅·安格温、杰夫·拉森、苏亚·马特和劳伦·基什内尔的《机器偏见》, ProPublica,2016 年
-
压迫的算法:搜索引擎如何强化种族主义。NYU 出版社,2018
黑人领导的数据科学非政府组织
关于小组成员
Nikisha Alcindor 是商业银行 Riverside Management Group 的董事总经理,也是巴鲁克学院 Zicklin 商学院 Narendra Paul Loomba 管理系的博士生。她是城市大学研究生中心研究员和教务长增强研究员。她专攻战略管理,研究领域是并购。Nikisha 有兴趣通过将人工智能和机器学习应用于决策和风险分析来研究并购交易的成功率。她在企业金融、医疗保健和资产管理方面有着广泛的背景。在加入博士项目之前,她曾在 Apax Partners、辉瑞公司、强生公司&、高盛公司和哥伦比亚大学实习。她是上曼哈顿授权区的董事会成员。Nikisha 拥有埃默里大学的化学学士学位和哥伦比亚商学院的 MBA 学位,是里昂库珀曼奖学金获得者。
DataCamp 与 Nikisha 的非营利组织 STEM 教育学院(SEI)合作。SEI 提供的课程为代表性不足的高中学生提供了进入当今劳动力市场所需的技术技能,同时积累了一代人的财富。通过与几家公司合作,该计划旨在为组织提供多样化的人才渠道,并创造代际财富。
Sean burrows 是ingresive For Good(I4G)的联合创始人,该公司的使命是在未来五年内培训 100 万名青年,并帮助 5000 人找到工作,从而提高非洲科技人才的赚钱能力。自 2017 年加入 Ingressive 集团以来,Ingressive 已从尼日利亚扩展到肯尼亚、加纳、南非和卢旺达。Sean 利用十年的国际运营经验,将其应用于影响青年主导的计划、企业家、数字媒体平台和非洲技术生态系统的项目。他致力于通过提供平等的技术获取途径来建设新非洲叙事所需的社会经济基础设施。
肖恩毕业于杰克逊州立大学,是运营咨询公司 Burrowes Enterprises 的首席执行官。他的首要目标是发现和创造必要的操作流程,在非洲和非洲移民社群之间架起一座经济桥梁。通过与 DataCamp Donates 合作,Ingressive For Good 团队为非洲成千上万的弱势群体提供了免费的数据科学教育。
罗杰·罗曼(Roger Roman)是一名企业家、天使投资人和技术驱动型初创公司的营销顾问。他是两次创业的创始人,在过去的五年里,他一直担任增长型营销和业务发展咨询机构 Push Consulting & Marketing 的管理合伙人。Roger 被《纽约时报》、《Venture Beat》、《黑人企业》、LinkedIn 和其他媒体视为数字营销和创业成长方面的权威。他曾指导羽翼未丰的初创公司从启动到收购,并帮助华特·迪士尼、环球音乐集团和苹果等老牌公司推动在线知名度和增长。
罗杰是全球泛非洲自由职业数字市场 AfriBlocks 的首席执行官和联合创始人,该市场正在为非洲未来的工作建设技术基础设施。AfriBlocks 旨在创建一个由合格的&技术熟练的非洲专业人士组成的多元化网络,并将他们与来自世界各地的远程工作联系起来。在与 DataCamp Donates 的合作中,他帮助向非洲和美国的数百名自由职业者提供了免费的无限数据科学教育。
我们希望听到您的反馈!
感谢我们的小组成员和世界各地收看节目并提问的所有观众!如果你喜欢这个直播,我们希望收到你的来信!在 【邮件保护】 给我们发邮件。要了解更多关于 DataCamp 的社会影响计划,请访问 datacamp.com/donates。
在整个新加坡开拓人工智能扫盲的道路
两年半前, AI Singapore (AISG)选择 DataCamp 作为您首选的在线培训合作伙伴。自那时以来,已经达到了哪些里程碑?
自 2018 年 8 月宣布 DataCamp 合作以来,面向学生的人工智能(AI4S)计划已覆盖超过 21,000 名学生,面向行业的人工智能(AI4I)计划已让超过 5,000 名工作专业人员受益于 DataCamp 这一学习资源,以提高 Python 和编程基本人工智能和数据应用的熟练程度。与传统的学习方式相比,DataCamp 的自我导向学习模式非常适合职业人士,尤其是在当今的数字经济时代。
新冠肺炎疫情对 AISG 学习者的在线学习有什么影响?
我们看到了三个方面的影响:
- 在疫情的早期阶段,访问 AI4S 的请求有所增加。
- 工作专业人士的参与率也很高,因为在新加坡的 COVID 锁定(断路器)期间,许多人在家工作。
- 在成功方面,我们看到前四批 AI4I 参与者的完成率高达 45%。这一比例远高于【MOOC 平均完成率。
你喜欢 DataCamp 的什么?
首先,DataCamp 的教学方法是两到三分钟的短视频,然后是作为 AI4I 作品的一部分嵌入的动手编码练习,它推动了高完成率。我们喜欢 DataCamp 模块有一个非常用户友好的界面,并且对学习者来说是交互式的和有吸引力的。DataCamp 集成了 LMS(学习管理系统),并拥有一个沙盒环境,可增强动手实践环节。
课程结构简洁明了,它有助于以一口大小的格式提供内容,使学习者易于消化。其他值得一提的内容包括一整套可用的课程、定期添加的新课程和更新、访问来自数据科学和分析社区的专家,以及供学习者使用的真实数据集。
所提供的课程迎合各种各样的学习者;特别是,它们与工作专业人员相关。由于可以在线访问,忙碌的专业人士可以按照自己的节奏学习,只需要留出一两个小时来学习,与必须花时间从一个地方通勤到另一个地方相比,节省了更多的时间。
我们尤其喜欢课程的游戏化,它提供了一种极好的、体验性的学习方式,从而帮助学生在不同的难度水平上取得进步。
自从实施 DataCamp 以来,您看到了哪些非凡的成果?
与其他内容类型相比,DataCamp 是我们学员的首选平台。迄今为止,反馈非常积极。用户报告说,他们继续使用 DataCamp 作为一个有用的学习和参考工具,以保持更新。
这里有两个例子:
学生人工智能(AI4S)
该课程通过让中学生和大学生掌握编程和数据技能,将他们带入数据流畅性的下一阶段。为了支持他们的学习之旅,教育部公立学校的教育工作者可以利用 AISG 与 DataCamp 的合作伙伴关系,利用后者的学习平台进行教学。学生还可以在 AI4S 下的课程中开始独立学习,包括学习 Python 编程和 Git,这是开始使用人工智能的必要技能。
自 2018 年 11 月推出 AI4S 以来,它已覆盖新加坡公立学校的 21,000 多名学生。
来自教师和学生的反馈
工业人工智能(AI4I)
该课程面向行业专业人士,如技术主管、经理和开发人员,以及本科生。AI4I 向参与者介绍人工智能概念和用例,并为他们提供构建数据和人工智能应用程序的编程技能。它托管在 AISG 的在线人工智能创客空间平台上,并利用 DataCamp 获得参与者完成该项目所需的学习资源。
AI4I 参与者的反馈
你会对考虑与 DataCamp 合作的其他人说些什么?
行动起来,立即加入 DataCamp 平台!数据营是正确的选择。对于任何想要建立或加深数据技能的人来说,这是一个很好的学习平台。它根据您的需求量身定制,您可以按照自己的节奏学习。
如果您有兴趣了解更多关于艾新加坡和我们的人才计划,请访问https://www.aisingapore.org/talentdevelopment。
用数据素养弥合沟通鸿沟
数据素养的真正商业价值来自于让组织成员能够理解数据并从中提取真知灼见。当数据素养融入公司文化时,它可以作为一个强大的工具来打破分析孤岛,并在整个组织中实现可扩展的数据故事。
在本次网络研讨会期间,Marc 将探讨构建数据素养组织的一些关键要素,以及主题专家开始思考“数据素养”需要了解的内容。以下是对预期结果的分析:
-
如何可视化数据:如今,公司处理大量数据,分析师很容易在噪音中迷失信号。因此,你有选择地在你的想象中包含什么是至关重要的。数据可视化结合了艺术和科学的技能来表达正确的信息,同时使非技术团队成员可以轻松获得数据见解。要构建清晰高效的数据可视化图,需要时间、耐心和提出正确问题的能力。在构建您的图之前,您应该总是从询问关于您的数据的正确问题开始,例如:“这个可视化的目的是什么?”。
-
了解数据类型和数据流:为了选择正确的可视化方法,了解您正在处理的数据类型是至关重要的。很好地理解各种各样的数据类型可以帮助您执行更好的探索性数据分析(EDA)和构建适当的数据模型。
-
从数据中提取洞察:很多组织都会产生大量的原始数据;然而,他们未能有效地利用其业务应用。因此,建立一种文化,让大多数团队成员能够理解和区分数据见解,这在当今世界至关重要。了解不同的数据类型并选择合适的图表或可视化方法,有助于传达您的数据见解。在本次网络研讨会期间,Marc Wintjen 将分享不同的技术,这些技术将使您的团队能够从数据中提取可操作的见解。
如果你想在竞争中保持领先,从数据中提取可行的见解是必要的,而不是可有可无的。因此,建立一种数据文化,使您的团队能够生成、捕获和分析数据,这将使您的企业在市场中获得巨大的竞争优势。
要详细了解如何在您的组织中采用数据文化,并帮助您的团队做出更好的数据驱动型决策,请参加我们与彭博风险分析架构师 Marc Wintjen 的网络研讨会。
使用 IPTOP 构建可扩展的数据策略:基础设施、人员、工具、组织和流程
如今,许多组织正在将数据科学实践作为其数字化转型计划的一部分。然而,如果没有数据战略和清晰的组织内扩展数据科学的蓝图,他们中的大多数人不会收获挖掘数据的回报。麦肯锡发现1000 家进行数字化转型的公司中只有 8 家能够将数据科学扩展到少数试点项目之外。
此外,虽然大多数组织了解数据驱动的价值,但许多组织将数据科学视为一个孤立的集中式支持功能,它根据不同团队的请求工作。这与数据科学的本质是不一致的,数据科学是实现业务目标的一种手段。正如 Anaconda 的首席执行官王蒙杰所说,数据科学是在商业世界中导航的“一种调查和探索模式”。
正如物理学家使用数学来推理自然世界一样,数据科学家利用数学和计算工具来推理商业世界。—王蒙杰,Anaconda 首席执行官
这种孤岛效应因一个错误的前提而加剧,即数据科学的最终目标应该始终是能够自动化或简化组织内主要垂直生产的人工智能模型。寻求直接投资回报的公司失望地发现,事实往往并非如此。
这种狭隘的数据科学观将其价值归因于相对难以实现的预测分析(即利用数据预测未来的能力)。它还忽略了大规模执行机器学习所需的基础设施工作。然而,数据科学的大部分价值来自于实施相对简单的描述性分析(描述数据并将其置于正确手中的能力)和规定性分析(做出数据驱动的决策)。
完成成功的数字化转型需要培养数据科学和分析方面的组织能力。这需要构建和执行一个智能的、包容的、可扩展的数据策略。
这就是我们的 IPTOP 框架的用武之地。IPTOP 是一个建立五大支柱(In 基础架构、 P 人、 T 工具、 O 组织、 P 流程)到可扩展地执行您的数据策略来完成一次成功的数字化转型的框架。加入我们即将举办的网络研讨会系列了解更多信息。
**## 基础设施
任何数据策略的目标都是将原始数据转化为洞察力和决策。这要求组织安全高效地收集、记录和存储数据,以便所有人都能访问。但是数据通常以不同的形式、形状和大小收集。有助于这一过程的各种数据库、数据湖、数据仓库、脚本和仪表板构成了数据基础设施。构建健壮的数据基础架构需要了解最佳实践。
人
将数据科学视为实现更好决策这一最终目标的一种手段,可以让组织根据他们所需的技能来构建自己的团队。基于角色的方法需要用实现业务目标所需的技能来识别、评估和映射绩效目标,例如预测流失或使用仪表板可视化数据。这导致每个角色都有专门的学习途径。
一个很好的例子是 Airbnb 的数据大学,这是他们的专有培训计划,旨在让每位员工掌握做出数据驱动型决策所需的技能。通过让非数据科学家的员工成为能够做出明智决策的公民数据科学家,数据科学团队可以腾出时间从事更具战略性的项目。
工具
虽然基础架构使组织能够从数据中获得洞察力,但工具可以促进和激励整个组织采用通用的数据语言。使用工具进行数据访问、分析、可视化和仪表板可以让组织变得更加高效,从而缩短获得洞察力的时间。这些工具包括从 Python、R 和 SQL 等开源编程语言到 Power BI、Tableau 和 Excel 等基于点击的工具。
在这些工具的基础上构建简化数据访问的特定于组织的框架,可以大大降低扩展数据科学的门槛。在 DataCamp,我们有专有的 Python 和 R 包,它们抽象出连接到数据湖、查询数据以及使用简单的命令聚合数据。任何人都可以回答类似于“过去 Y 周课程 X 的评分是多少?”用一两行代码。同样, Airbnb 有一个 R 包,可以根据他们想要的美感来方便地查询和可视化数据,这消除了猜测,以确保整个组织内一致的数据分析和可视化。
组织
数据战略的一个重要方面是如何组织数据专业人员。鉴于在大多数公司中,报告结构和议程推动工作,组织结构必须为你的公司建立可持续的成功。在数据科学家属于一个数据科学团队的集中式模型和数据科学家嵌入不同部门的分散式模型之间存在权衡。
在集中式模型中,中央数据科学团队对来自其他部门的信息请求进行优先排序和处理。在这个模型中,问题进来,答案期待出来。这使得数据科学团队成为一个卓越的中心,在这里,数据科学家在一个战略方向下协作和共享知识。然而,这种做法孤立了数据科学团队及其工具,使得数据科学家与其他部门的协调和沟通变得复杂。
在分散模型中,数据科学家被嵌入到组织内的不同部门。随着数据科学家获得成功所需的领域知识,这为数据科学提供了影响其部门战略方向的席位。然而,由于它们是分散的,由业务团队经理管理,缺点是它以牺牲数据科学家的成长、学习和发展以及协作能力为代价。
这两个模型应该被看作是一个光谱的两个相反的末端。有许多混合模型结合了集中式和分散式模型的元素,以不同的方式对部门进行分组和捆绑,以最大限度地发挥数据科学的价值。
处理
最后,构建可扩展的数据策略需要在约定、最佳实践和流程上保持一致。促进一致性对于促进协作和避免孤立的组织至关重要。这允许所有团队无缝地一起工作,并在一种公共的数据语言下进行交流。
开始在流程上建立一致性的一个简单方法是创建一个预定义的项目结构和模板,其中分析项目的不同任务和子任务被提前用它们的需求映射出来。微软已经采用团队数据科学流程,该流程允许任何利益相关者清楚地了解项目需求,利用模板进行数据分析和计算能力访问,并确定谁拥有流程的不同阶段。
根据您的组织和行业,预定义的项目模板可能受特定法规要求的约束,并且可能需要复杂的流程。您可以利用开源工具来设置项目结构模板,以增加团队和数据专业人员之间的一致性。
这只是我们在组织内扩展数据科学的 IPTOP 框架的皮毛。如果您想了解更多信息,请参加我们将于 8 月 20 日、8 月 27 日和 9 月 3 日举办的由三部分组成的网络研讨会系列。
在星巴克培养数据素养
DataCamp 播客 DataFramed 的主持人 Adel Nehme 最近采访了星巴克数据素养和知识管理总监 Megan Brown。
介绍梅根·布朗
Adel Nehme:今年早些时候,在我们的 2022 年趋势报告中,我们讨论的第一个趋势是组织将如何加快数据、文化和扫盲计划。有一件事证明了这一点,即组织内专门的数据角色的兴起,如数据、文化主管或数据素养总监,他们纯粹专注于数据素养和文化对话。
除了梅根·布朗,还有谁能更好地帮助我理解这些角色呢?Megan 是星巴克分析和洞察团队的数据扫盲总监。她成立了数据素养团队来推动分析、产品采用,并为业务利益相关者翻译复杂的概念。
在我们的谈话中,我们谈到了她的经历,推出了数据素养功能,以及她如何定义数据素养。作为她的计划的一部分,她希望改善的主要杠杆是什么,高管赞助、宣传和营销的重要性,数据扫盲计划,如何实现人工智能和数据科学的人性化,等等。
如果你喜欢这个播客,请确保订阅并评价这个节目,但只有当你喜欢它的时候,现在让我们开始吧。梅根。很高兴你能上节目。谢谢你邀请我来。今天能和你聊天,我真的很兴奋。你是真正站在数据素养对话最前沿的人,你为组织内的专业数据素养职能铺平了道路。
能否简单介绍一下你的背景,以及你将如何描述你目前在星巴克的角色?
梅根·布朗:当然。我是通过“为我而教”从一名五年级教师做起的。我没想到我会教五年级。我以为我会在高中教些东西,但我学到的是我非常擅长设计课程。
对于数学,但是对于英语语言艺术,最佳实践并不像我被告知的那样有效。所以我去了研究生院学习阅读理解,因为你要做的是研究最难的问题。获得了认知实验心理学博士学位。我工作的实验室做的是以前所知的神经网络模型。
现在深度学习语料分析。现在 NLP。然后是实验,当然,因为我们是心理学,你必须在我在的时候做实验。我也花了很多时间学习更多的 quant 方法。计量经济学,寻找我们正在建立的神经网络模型和结构方程模型之间的相似之处。
所以很有意思。那是我的爱好。2008 年后的某个时候,我的朋友们开始离开去做数据科学家。我就想,哦,这对我没用。我不一样,不管怎样。从某种程度上来说,很明显他们有更多的。工作中的乐趣。他们正在解决具有挑战性和有趣的问题,他们的发展速度比学术界快得多。
所以我穿越过来,开始做一个围绕人的数据科学家,数据科学。所以一开始,我的主要工作是为员工和大公司提供预测性流失模型,试图通过给他们一些预期,比如为什么那个人可能有风险,来帮助他们的经理更好地领导。
从那以后,我做了一些不同的事情。所以我进入了市场营销,数据科学,然后营销分析,我一直在疫情的人,领导。所以我转到了,我想我应该说现在我是知识管理和数据素养团队的一员。我的组织第一次做这样的事情。
那么,如果你想一想,知识管理正在使我们在过去三、四或五年中产生的作品变得非常容易找到。数据素养确保发现它的人知道如何使用它。
Adel Nehme:那真是太棒了。教学学术和应用数据科学的背景非常适合领导数据素养职能。
我想为今天的对话搭建一个舞台,并从某种程度上解开和分解在一个组织内推动他们的读写能力意味着什么。所以让我们从基础开始。你如何定义数据素养?
梅根·布朗:在星巴克,我们有一系列处理数据的技能。有些人对此相对紧张,而其他人只是每天都在数据中。
无法想象没有它做决定。我们的观众中有许多天才。因此,实际定义数据素养有点困难,因为有些人只是想使用仪表板。告知他们的决定。你想让其他人用正确的指标定义,对正确的数据进行编码并实际运行某种简单、直接的分析。
所以要看观众。这个回答很糟糕但是。所以在某种意义上,这是一个技能的连续体。因此,自从你的部门成立以来,你和你的团队一直致力于启动和迭代数据扫盲计划。因此,我很想了解数据素养策略的主要组成部分在哪里,以及您是如何着手设计您的程序的?
我们真的以为我们要去教授课程,对吗?这就是我们认为第一个月要做的事情。事实证明,在你可以向人们教授你的作品之前,你必须让他们能够接触到你的作品。所以我们遇到了这个问题,人们把项目藏了起来。他们从来没有正确地发射它们。
所以我们知道他们,因为我们在组织里,我们想把他们带进一个班级,但是我们没有我们需要的东西来很好地整合它。所以我们在知识分钟上投入了大量的时间。这实际上是在清理我们分享工作的习惯。
有时候,数据科学家可能对大型演示有点害羞,所以他们倾向于避开演示和发布。他们认为,像 Tableau 上的甲板或发射将跨越业务的鸿沟。但并不总是成功。我们开发了一个工具,我们称之为探路者。所以这是一个非常非常简单的搜索。
这是一个非常数据科学的知识管理问题的解决方案。你有一张桌子,上面有一个仪表板,允许人们搜索。我们做了一些发射训练。我们列出了所有的发射习惯。我们的组织为人们制作了一份菜单,这样其他人做得很好的事情就变得很明显了。
我们还涉足标准化数据工程过程,标准化我们共享代码的方式等等。这是我们第一次面对内部。我们目前的方法。所以我们认为我们要教的这些大班将会非常令人兴奋。我认为在疫情有一件事情变得非常明显,那就是人们厌倦了屏幕,对吗?
所以我们就像,好吧,我们要做的有点不同。现在我们已经两年了,我们要和团队一起努力。我们正在试行一个项目,这是一个为期六到八周的教育迷你课程,15 分钟的数据课程。我认为我们主要关心的一个问题是,点估计到底是什么?点估计是什么意思?围绕这一点的所有其他数据呢?所以深入研究一下为什么我们要用平均值。这就是使用平均值的问题?诸如此类的事情。这在团队层面非常重要,因为我们知道我们可以得到他们领导的认可,然后我们就是优秀的数据科学家,他们会衡量所有的东西。
Adel Nehme:那真是太棒了。总之,如果我一开始说错了,请纠正我,这些工作实际上是围绕构建数据团队如何与更广泛的组织进行沟通。然后你开始关注星巴克其他人的实际数据技能。
对吗?
梅根·布朗:是的。我发现,在我们倡导彼此的工作和采用之前,我们必须彼此分享我们所拥有的,即使是在组织内部。
Adel Nehme:关注打包、数据团队的输出和关注组织技能的其余部分之间的优先化过程是怎样的?
梅根·布朗:当然。我真的有点不耐烦了,所以这是我的风格。我是一个解决问题的人。如果你有问题来找我,我会努力解决,这可能是一个数据问题,一个数据科学问题。这也可能是一个文化问题。我意识到我陷入了越来越小的内部问题中,在这些问题上,我们无法获得我们第一次获得的回报。
要出去。所以我们决定转向。所以我们花了一点时间来摆脱内部的清理和组织,但是工作。但是我们已经在路上了。您在这里提到,策略的一部分是组织数据团队正在创建的知识,并使其可访问。
探路者
Adel Nehme:你称之为 Wayfinder 的工具,你介意告诉我 Wayfinder 是如何工作的吗?你在这个内部数据门户的工作中学到了什么?如我所说,这是一个非常合适的数据科学解决方案。我们创建了一个表,并在其上放置了一个仪表板。所以这是目前最棒的了。
梅根·布朗:随着时间的推移,我们越来越多地采用 API。从人们只是放信息的地方获取数据,并在后台将它们折叠到那个表格中。所以,如果你想一想你的利益相关者,他们在星巴克关心什么,他们会关心套牌,他们关心演示和发布视频。
他们会关心季度总结视频。他们可能会关心白皮书。他们肯定普遍关心仪表板。这些是我们在探路者中内置的第一批东西。我们还对 Wayfinder 进行了补充,这是一个分析和见解库,用于一些更具技术性的内容。
这是我们做的第二件事,从我们的代码共享平台和技术文档平台中提取。天哪,我们还能在里面找到什么?我们的售票平台也是如此。所以你可以开始看到所有的。我们项目的各个部分汇集在一起,但是我们的利益相关者不一定能够访问这些信息。
Adel Nehme:随着时间的推移,当你扩大推广时,组织的反应如何?
梅根·布朗:这让我们的差距变得明显,这是解决问题的一部分。如果你找不到关于这个项目的信息,你必须去找。希望当你和人们争论的时候,他们把他们的信息放入一个系统,你可以从这个系统中为我们的利益相关者提取信息。
我们在星巴克有这种叫做沉浸的东西。这是你认识整个组织的人的地方。你不需要一个官方的理由来沉浸,但有半个小时的时间来谈论你做什么,他们做什么,他们的狗做什么,所有这些东西。所以在紧急情况下,我会经常提起它,看看他们是否听说过它。
有一半时间人们会说,哦,我喜欢。我可以找到任何东西,然后马上应用到我正在做的事情中。这太简单了,比以前简单多了。这让我非常非常开心。其他时候我向他们介绍它。我希望下一次我和他们交谈时,他们会对此感到非常兴奋。
它确实激发了星巴克技术的一些工作,叫做搜索和发现。所以想想看,这只是为了分析。所以我们不会分享来自其他组织的东西。在这个疫情的世界里,未来我们要么是远程的,要么是混合的,我们一直在招募新人。
为什么他们必须在 70 个平台上搜索才能找到一个东西?这就是根本问题?我们如何能使这变得更容易?有趣的一点是,指标和指标定义最终成为了它的核心,因为这是要展示的东西。在其他方面,你可以谈论你的销售和交易指标,以及它显示的任何资料或视频,你应该能够将它们联系在一起。
星巴克的学习计划
Adel Nehme:当然,如果没有数据技能和教育,我们就不会谈论数据素养。你能告诉我你是如何在星巴克建立学习计划的吗?你最初的学习目标是什么?
梅根·布朗:所以我们有一个非常非常实用的重点。我们的主要目标是推动我们的工具和资源的采用。因此,虽然一个学习和发展组织可能关注的是,这是一个发行版和所有这些通用的东西,但我们非常关注的是,就像你在市场营销中一样。这是你的仪表板。让我们讨论一下这些仪表板中有什么,以及您可能做出的决定。
有了这些信息。这就是我们工作的核心,我们将做一些基本的数据素养构建。例如,我们将围绕机器学习做一些概念,但最终真的是服务。让人们使用我们的工具,在日常工作中做决定。
Adel Nehme:与营销团队的对话是什么样的,您如何调整您的计划的学习目标,以适应任何给定团队的业务成果或业务目标?
梅根·布朗:所以我们,我们现在只是试点。我要说的是,我们知道每个团队都有不同的需求。所以现在,在我们的试点项目中,我们正在与领导者合作,找出他们认为他们团队的机会在哪里。在未来,为了扩大规模,我们实际上需要把它变成我们自己。
Adel Nehme:我认为公司在设计数据技能计划或数据素养计划时,有时会陷入分析瘫痪,因为要教授这么多级别的能力,你需要考虑不同的角色需要不同的技能,等等。你能告诉我你是如何管理这种复杂性的吗?谁是你学习的主要角色?
梅根·布朗:我们根据人们的角色、兴趣、技能和学习方式开发了一些基于面试的人物角色。所以我们关注的基本角色是我们称之为顾客的东西。
这些人通常会带着请求来找我们,但有时在他们的工作中可能会也可能不会使用这些请求的输出。所以我们有这些合并的 8%。他们从各种各样的人到建筑商、倡导者和领导者,从那些实际上让我们的业务保持运转的人,到那些可能不使用数据的人,因为他们可以避免使用数据。
他们可能会使用一些数据,因为他们知道数据在哪里,但他们不知道其余的数据在哪里。然后也许还有。就像一个分析数据的分析师。他们知道它在哪里。他们已经问了足够多的问题来得到他们需要的一切。他们可以很容易地操纵仪表板。因此,他们已经提高了他们的技能,我们可以让他们学习其他东西,比如机器学习,让他们真正兴奋起来。
这就是,这就是我们所做的。所以我们选择了一两个人物角色来追踪。这就把空间缩小了不少。我要说的是,当我们为我们的技术人员、建造者和倡导者组织信息时,我们真的在挖掘星巴克的大部分企业人口
Adel Nehme:当接近这些不同的人群时,你是采用工具不可知的方法,还是专注于特定工具的技能提升?
梅根·布朗:我们追求星巴克使用的特定工具,我们必须非常非常实用。这对我们的许多合作伙伴和员工来说都是非常令人沮丧的。被告知事情是可能的,却没有被告知存在的事情。如果我们告诉他们事情是可能的,那会更糟。
然后他们实际上是这样的。
Adel Nehme:没错。我认为应用方法的真正美妙之处在于,你能够在人们已经熟悉的工具上获得灵感。那就是。我以前见过你讨论这个问题,你提到高管培训是如何在他们的团队中播下加速数字素养的种子的。
您能描述一下通过与高管进行这些学习会议来培养数据素养冠军的过程吗?
梅根·布朗:我认为一个组织不会改变,除非他们的领导人真的想要改变。还有。几乎可以说,我更愿意与领导喜欢的组织合作,是的,我的员工需要使用更多的仪表板来做出决策。
他们的衡量标准在每次演示中都是不同的。我从来不知道他们从哪里得到的数据。让我们解决其中的一些问题。然后,然后是一个领导者,对,数据。太酷了。所以说实话,当谈到喜欢与我们合作的团队时,我们确实会选择一些容易实现的目标,因为我的团队相对较小,我们需要在我们认为会产生影响的地方投资。
Adel Nehme:这总是来自愿意在这些数据转换项目上与您合作的领导层。
梅根·布朗:是的。如果领导不愿意对他们的团队说,使用数据做决策很重要。然后以某种方式激励,无论是社会还是积极的方面,激励人们真正转向使用数据来做决策,那么你不会得到你想要的改变。
你基本上会得到早期采用者,而不是其他人,因为其他人都像他们一样忙于自己的工作。
获得领导的认同
Adel Nehme:您能为我们介绍一下与一位犹豫不决并投资于团队数据技能的领导者进行的艰难对话吗?你是怎么开始那次谈话的?
梅根·布朗:我想说实际上更难的对话是人们说他们是支持的。这种情况在星巴克并不多见。他们说他们支持,但实际上,他们并不想投入时间来帮助他们的组织。所以它不会出现在第一次对话中。
没错。因为他们会说,哦,是的,数据素养。太好了。我上周在这篇文章里读到过,不管怎样。但是当你真的要求他们团队的时间时,我的心理学家就出来了,我谈论那些学习实际上发生了,行为改变实际上是如何发生的。
这就是,我想这就是我赢得人们的关键,如果他们没有实践他们日常使用的东西,这需要时间,那么他们永远不会改变他们的习惯
。对于许多商业领袖来说,在短期商业目标和长期积累利益的技能投资之间经常存在权衡。
Adel Nehme:你如何说服利益相关者投资一个长期项目,比如扩大规模?
梅根·布朗:所以我们在尽可能接近短期商业目标方面犯了错误。如果我们这周能改善人们的工作,我们真的很高兴。特别是,假设您从事营销工作,他们有,我们有三个营销仪表板,我们知道您只使用其中一个。
因为我们追踪用户。我们可以把你介绍给另外两个人。我们可以简单地谈谈这些概念,并让你使用它们。我认为我们要努力的方向实际上是拥有一群想要更多的人。那么第二层次的教育是什么样的呢?我们还不确定,但我们希望更多的拥护者向我们的分析和见解团队提出更难的问题。
所以,就像更具体的问题,不仅仅是数据透视表,可能有一个模型的东西,要达到这个模型,我们需要超越应用,但应用才是现在需要的。你在这里提到了营销,我认为在成功的数据、文化或数据素养项目中,一个未被充分讨论的杠杆是在营销中宣传的重要性,即获取数据技能的价值。
挑战和最佳做法
Adel Nehme:您能向我介绍一下您在 start 推广和宣传数据素养计划的过程中遇到的挑战和获得的最佳实践吗?
梅根·布朗:数据科学家不一定是营销人员。我们在第一季度了解到的第一件事是,嗯,也许我们目前的渠道不起作用。所以我们开始拓展现有的渠道。我们已经做了很多,在我们提出新的解决方案之前,我们使用了大量的用户研究,包括内部和外部。我们提出的一个问题是,你如何获得数据信息。有时答案并不令人满意。有时他们无法从数据中获取信息,这很有挑战性,因为我知道星巴克内部有很多人试图将信息传播到世界各地,但这意味着我们没有正确的渠道。
我认为我们已经建造了很多。我们有一份非常棒的组织时事通讯,很多人都收到了,我试着让我的团队在时事通讯中加入一些东西。每次出去的时候。当前的挑战之一是疫情人民的习惯已经改变。所以,在星巴克,时事通讯曾经非常有效。
我觉得有点累了。人们一天要开几个小时的会,不一定有时间深入阅读。所以我们的信息变得更短了。驱使人们去寻找资源,但我认为我自己也有一个未解决的问题,我认为不同组织的人们正在不同的地方获取我们无法获取的信息。
所以我的部分问题是,好吧,这些地方在哪里?他们例行检查什么?作为一个局外人,我如何接触到他们?我怎么才能把我的信息放进去?所以感觉更分散一点。那是在开始的时候,很有挑战性。我们有一群只在星巴克工作过的新人。
在以前,星巴克是一家非常注重关系的公司,你可以通过关系获得很多信息,我们真的希望打破这种权利,让它脱离关系,让它成为人们可以很容易找到的系统化的东西。从没去过支持中心的人。
Adel Nehme:那真是太棒了。我认为,从你们在这里的谈话中可以看出沟通的复杂性,即大规模的矩阵组织。那么如何处理通信和大型组织的复杂性呢?
梅根·布朗:我的意思是,即使在我们自己的组织内部,也有两种主要的沟通渠道。一种是面向业务的人和担任领导职务的人使用的。另一个是技术职位较高的人使用的。因此,即使在我们自己的组织内,如果我们有什么想说的,我们必须把它放在两个地方。然后,我们可能还得把它放到我们周五的咖啡品尝会上,就像你在星巴克做的那样,我们可能还得把它放到我们所有人的手里,因为。
人们很忙。他们现在不一定接受大量的信息。所以,我们真的可以在世界上尽可能多的地方获得信息,获得有趣的信息。感觉和其他人有点不同。那么,你认为高管对你的工作的赞助有多重要呢?
疫情发生了巨大的变化。所以我要说的是,大辞职实际上首先打击了领导力。所以我们的道路非常非常清晰,然后变得不那么清晰。没错。因此,我们发现,我们认为可以成为冠军的人不再是冠军了。
不幸的是,我们真的发现自己常常是从零开始,但这就是当变化真正接管时所发生的事情。
Adel Nehme:从战略角度来看,高管赞助如何帮助您打破这些孤岛?甚至,在大辞职之前?
梅根·布朗:我们参与了一些对话,并能够向观众演示,否则我们将无法获得这些演示。
是啊,真的。我们当时的 SVP,利用他和其他人的关系让我们进入房间。我的意思是,这是令人愉快的,我们正在雇用一个新的 SVP。因此,在某种程度上,我希望再次利用这一点。
自动化
Adel Nehme:那么当在组织内宣传数据科学时,您是否发现更广泛的人群中存在焦虑?这需要缓和。例如,数据科学、数据技能、机器学习往往与自动化和失业联系在一起。然而,证据往往指向增强而不是自动化,你如何有效地传达信息,即数据技能增强工作,但不一定使它们自动化?
梅根·布朗:我认为实际上这是我们有时使用说明性分析的地方之一,这种方式真的会激怒人们。因为如果你开了处方,而他们在这个过程中不能像人一样做出决定,他们就会拒绝。我认为在某种程度上,我们需要讨论的是投资组合方法。
这也是来自教育。所以你的投资组合中需要数据。当你做决定时。每个决定都有它自己的一套东西。人们当然有很多经验。他们有很多我们没有的相关业务信息。我们的模型可能不会浮出水面。因此,一切都需要在上下文中进行,这是一门艺术,最难的部分是让业务人员熟练掌握如何将数据纳入他们的投资组合,或者咨询数据或决策科学家以将数据纳入他们的投资组合。然后,我们还必须与我们的数据和决策科学家合作,提高讲故事的能力和商业敏锐性,这样他们就可以成为投资组合的一部分,而不会有太多需要交叉的语言争论。
Adel Nehme:您是如何围绕自动化展开这些对话的?
梅根·布朗:我的意思是,我经常开玩笑说机器人将取代我们的工作,但老实说,也许它们会先出现。嗯,
我知道。我用了很多幽默。我认为我们在文化上也有点害怕数学。就像我在小学时约会过的那些为了逃避数学考试而把订书钉穿过拇指的人。所以数字不一定是我们感觉最强烈的地方。所以部分原因是他们担心自己的职业生涯会保不住。
随着他们对数据分析和机器学习的需求。这也是我们交流的一部分。如果我们不关注业务环境,而我们和业务受众一起深入事物的技术层面,他们不是真的在听,我们是在自言自语。
这只会增加对数学的恐惧。然后我认为围绕数据科学有太多的炒作。机器人即将到来。我们将不再需要人类来做这些决定,但事实上,叙述应该是,我们正在增加你的工作。我们可以做出这些让你很烦的非常基本的决定,我们可以帮助你做出这些决定,你可以检查我们所有你想检查的东西,但是你可以做出这一层的决定,就像,我们还没有能力推荐。
也许不应该。
Adel Nehme:我完全同意将数据科学和人工智能人性化,并使用幽默和朴实的语言来描述机器学习和数据科学。我认为数据科学家在交流中有时会犯错误,因为他们采用了技术帽子,这加强了他们对数学和许多听众的恐惧。
现在,当然,通过项目内部的交流和积极参与,你也一定会收到很多关于如何改进项目本身的反馈。所以你能告诉我们。比如数据扫盲计划。在寻求改进时,你优先考虑的主要输入是什么?
梅根·布朗:正如我之前所说,我们做了大量的用户体验研究。在过去的一年半,两年里,我们学会了用一些线框来表达一个想法,更广泛地谈论它,使用它,帮助我们做决定,然后得到。因为我们是第一个以这种特殊方式在星巴克这样做的人。
我们真的不知道。我们不知道人们是否想在团队里上很多课。我们不知道他们是否想要三个小时的时间来学习数据科学和机器学习的概念。所以我们真的会互相竞争。我们有满意度指标,喜欢人们是否喜欢它,但我们也有。
考验人。我们考他们是因为我们想看他们做我们教他们做的事情。否则我们喜欢,不管他们有多喜欢。所以,所以我们试着对它非常友好和轻松,但是我们绝对要求他们向我们展示他们刚刚学到的东西。
构建数据文化和数据素养
Adel Nehme:现在,展望未来。我认为你的角色非常迷人,因为你坐在一个融合了数据科学和学习变革管理的职位上。只专注于构建内部数据、文化和数据素养。我的一部分感觉数据素养角色正在经历,或者数据科学家角色在 10 到 15 年前经历过。我现在更经常地看到组织真正投资于数据文化经理或他们的素养经理。所以我想知道,随着时间的推移,你如何看待这个行业内的角色或职能的演变?
梅根·布朗:以我的经验来看,很多数据科学和组织都犯了错误。很明显,在某种程度上只是技术性的,就像你有你的领导一样,但团队中的绝大多数角色都是数据科学、决策科学家和数据分析师。我认为将会发生的是,一些数据科学家真的很棒,并且对向企业推销很感兴趣。
凭经验,随着时间的推移,他们会做得越来越好。有些人不是。所以,我认为最大的问题是,如果一个组织发现他们有一个技术人员,而这个技术人员只是想做技术方面的东西,他们将如何翻译呢?没错。又信任谁来翻译呢?
因为我觉得气氛很紧张。我经历了很多紧张,即使作为一名数据科学家,围绕着谁该为谁说话。如果,当他们做报告时,他们一直在深入技术领域。这如何影响到业务?这就有点像我们期望数据科学家讲多少故事?
这是一个大问题。我有我的答案,但其他人有其他答案。我认为我们也有丰富的经验,我在三家相当规模的公司工作过。如果人们不了解数据,他们会将他们的数据问题外包给分析团队,这些问题往往非常低级,而不是分析团队真正想花时间解决的问题。
所以真正把它们拉平。所以我们得到了更多有趣的问题,然后试图找出我们该怎么做?我们围绕讲故事做些什么?谁讲故事?我们如何把人们从细节中拉出来?我认为。对于很多数据科学家来说。我记得不久前经历过这种情况,当你向企业推销时,你已经忽略了数据的所有缺陷和特征。
建模决策。您已经忽略了特性决策。你真的只是在讲述一个非常非常高水平的故事。当你已经工作了两个月的时候,你会觉得很不满意。变成那个东西。但是如果你深入细节,也许那东西不会被使用
Adel Nehme:从某种意义上来说,您是否看到数据科学在组织中分裂开来,有些团队专注于应用数据科学,有些团队专注于数据科学的采用?
梅根·布朗 31:43
我,我愿意。我认为这取决于我们期望人们做多少数据科学,以及人们做多少交流权重。我想我们现在对此还非常不清楚。总会有人为产品编码。数据科学和那里的人需要投球,但他们不需要一直投球。
但是,你越接近业务和直接的业务需求,你就越需要沟通,也越需要更好的沟通,
给任何试图进入数据的人的建议
阿黛尔·奈姆:我想我们会有大把的时间去寻找答案。现在,当我们结束时,您对试图在自己的组织内参与数据、文化和数据素养对话的人有什么建议?
梅根·布朗:我是那种最后总是以失败告终的人。不管我的工作是什么,我总是以教书结束,因为这不是火箭科学。我生来就不懂分析。我不是天生就懂数据科学的。所以我只是觉得这是可以分享的东西。所以我会说第一步是尝试教学,对吗?
如果有人进入你的公司,然后辞职,他们对此一无所知,你知道,你的价值不仅仅在于你的知识。你的知识非常重要。你的知识深度非常重要。如果你花足够的时间,你很容易成为 SMI,但我不会囤积知识。
我会确保你在分享它,确保你周围的人知道你在分享它,确保你的领导知道你在分享你的信息。这是团队成员的标志。这是好公民的标志。这也意味着你没有不安全感,对吗?你不担心那个人能和你跑一样的模式,因为你在不断学习自己。
Adel Nehme:太棒了。梅根,我聊得很开心。在我们结束今天的节目之前,你有什么行动要求吗?
梅根·布朗:我发现最有价值的事情之一是花几天时间与我们的利益相关者在一起,观察他们如何使用我们的仪表板,他们通过什么工具获得信息,他们忽略了什么,因为他们在那里,他们错过了信号。
我们发出去是因为我们没有把它们放在正确的地方。因此,如果你注意到你已经建立了一个仪表板,有两个人在使用它,去问那两个人,还有谁应该使用它,问你是否可以跟踪他们。因为这样你就能准确地发现你的仪表盘缺少了什么,或者你在关于仪表盘的沟通中缺少了什么。
这会阻止其他人使用它。
Adel Nehme:谢谢你的到来,data friend。
梅根·布朗:是的。很高兴感谢你。
你一直在听数据,由数据营组织播客。通过在您最喜欢的播客播放器中订阅节目,与我们保持联系。请给我们一个评价,留下评论并分享您喜欢的剧集,这有助于我们不断提供对所有事情的见解。数据。谢谢收听,下次再见。
构建高性能数据团队
DataCamp 播客 DataFramed 的主持人 Adel Nehme 最近采访了 Gojek 的数据科学副总裁 Syafri Bahar。
介绍 Syafri Bahar
Adel Nehme:大家好,我是来自 DataCamp 的 Adel Nehme,欢迎来到 DataFramed,这是一个涵盖所有数据及其对世界各地组织的影响的播客。无论是在网络研讨会、白皮书还是播客中,我们总是会想到 DataCamp 的一个问题是组织的数据成熟度,以及数据驱动型组织的标志是什么。
Adel Nehme:通常是基础设施、技能、工具、组织模型和流程的组合,能够实现大规模的数据驱动决策。这就是为什么我很高兴今天的节目能邀请到 Gojek 的数据科学副总裁 Syafri Bahar。Gojek 是一款印度尼西亚超级应用,提供 20 多种支持数据的数字服务,如食品配送、运输、商业、支付等。就此而言,这是该国第一个独角兽和十粒玉米,Syafri 监管着一个大型数据产品组合,并管理着各种数据角色。
Adel Nehme:在这一集里,Syafri 讨论了他的背景,高影响力数据团队的标志,他如何衡量数据活动的 ROI,每个成功的数据团队所需的技能,数据成熟组织的最佳组织模式是什么?新冠肺炎如何影响 Gojek 的数据团队。他对数据素养和数据治理的想法。数据科学和人工智能的未来趋势,以及为什么数据科学家应该在日益自动化的时代提高他们的数学和机器学习技能。
Adel Nehme:此外,我们非常欢迎您对我们如何让 DataFramed 为您提供更好的节目的反馈,以及您认为我们应该在节目中邀请哪些嘉宾。我在剧集描述中留了一个调查链接,请务必填写,我非常感谢。Syafri,很高兴你能上节目。
Syafri Bahar:是的,当然。非常感谢,事实上,我很高兴参加这个播客。
Adel Nehme:我很高兴与您讨论数据科学推动 Gojek 以及您在这样一个数据成熟的组织中开发的领先数据科学的所有最佳实践。在我们开始之前,你能简单介绍一下你的背景和 Gojek 的使命吗?
是的,所以我的名字叫赛法里。我已经在 Gojek 工作了大约三年。所以在此之前,我花了...就像我职业生涯的大部分时间实际上是在金融机构做模特一样。银行、资产管理、保险。我正在从一种风险跳到另一种类似的风险。我认为这很好,因为每种风险类型实际上都包含了不同的数学模型。所以这也让我接触到了很多不同的定量技术。
Syafri Bahar:然后,是的,现在我和 Gojek 在一起。所以,我实际上是在监督整体数据。因此,我在 Gojek 监管一个与消费者科学和分析相关的投资组合。我基本上监督几个工作阶梯。在 Gojek,我们有数据科学、决策科学和商业智能。所以,是的,这是我的一点点。我相信你也对 Gojek 很好奇。
Syafri Bahar:我认为 Gojek 本身就是一个超级应用,就像按需应用一样。尤其是与 Tokopedia 合并后,我们现在肯定是印度尼西亚最大的公司。然后加上 Gojek,我们有大约 20 多种产品,实际上,你能想到的都有。所以我们有打车服务,我们有送餐服务,我们有物流服务,实际上甚至还有流媒体服务。所以还挺多的。
Syafri Bahar:这些是我们可以向印度尼西亚客户提供的不同产品。我认为每四个印尼人中就有一个安装了 Gojek。所以这是件好事。就我们的司机而言,我们有大约 250 万名司机。所以基本上这是相当大的一笔,我想加上我们的新朋友,Tokopedia,我们已经贡献了印尼 GDP 的 2%左右。所以它相当大。是啊。
Adel Nehme:是的,这是巨大的。我认为对于我们的西方观众来说,如果我没有弄错的话,与 Gojek 最相似的可能是微信。因此,考虑到 Gojek 提供的各种工具和服务,我确信数据科学在不同 Gojek 产品和服务的价值链中扮演着重要角色。您介意简要概述一下为 Gojek 带来价值的数据科学的一些关键领域吗?无论是给客户还是内部使用?
Syafri Bahar:是的,当然。所以我认为,特别是我真正喜欢 Gojek 的地方,因为数据科学在我们提供的不同产品中发挥着核心作用。基本上,如果我们观察客户的整个生命周期,从获得、激活、保留、最大化,对吗?从他们的预订价值,甚至客户服务。我们有许多机器学习系统实际上在为这些用例提供动力。所以其实挺宽泛的。
Syafri Bahar:但如果我能说出其中的一些,那么我肯定认为 Gojek 的数据科学的第一个用例将是我们的匹配引擎。基本上,这是一个负责匹配司机和订单的引擎,对吗?我认为,从商业角度来看,它真正的好处在于它是一个多目标的项目。因此,人们实际上可以指定企业想要优化什么样的目标。然后系统会自我学习,然后给出最佳分配,这是第一点。
Syafri Bahar:你也可以在我们的搜索和推荐引擎上看到标准、简单、普通的用例。所以我们也申请那里。我认为 Gojek 最大的机器学习系统之一叫做[Gobstopper]。所以 gobstopper 本质上是一个推广分配引擎,对吗?因此,它基本上负责公司 80%的需求生成预算,这实际上是一笔巨大的预算。
Syafri Bahar:所以这个引擎要做的就是将正确的凭证分配给正确的客户。现在,我们基本上将反事实机器学习与一些抽象类型的优化相结合,以实现这一点。所以它是多种事物的结合。所以我对此非常兴奋。
Adel Nehme:是的,这是一个非常大的投资组合。一定很刺激。我想为今天的谈话做个铺垫。你现在是 Gojek 的数据科学副总裁。Gojek 是一个相当成熟的数据组织。它诞生时就考虑到了数据,许多组织将 Gojek 这样的公司视为他们想要成为的黄金标准或北极星。
高绩效数据团队的标志或特征是什么?
Adel Nehme:因此,成功实现数据转型和培养高绩效团队有很多方法。高性能数据团队是其中非常重要的一部分。我想知道你认为高绩效数据团队的标志或特征是什么?
Syafri Bahar:我认为,对我来说,是高绩效团队,但我描述高绩效团队的方式有几个特征,对吗?所以第一,他们需要被授权。我认为管理层的赞助在其中起了很大的作用。因为再一次,如果你看机器学习投资,有时需要几年。
Syafri Bahar:甚至不是几个月,它需要几年才能体现为可以测量的东西,对吗?因此,有一个执行赞助商是非常重要的,绝对是第一位的。这将确保团队感到被授权。我认为,授权也意味着团队应该有相对的自由去尝试不同的方法。我认为,特别是在 Gojek 内部,我们总是鼓励我们的数据科学家尝试最新的技术、最新的堆栈。然后他们带着实验结果回来给我们。
Syafri Bahar:这也非常有趣,因为这也是我们在公司层面上尝试做的事情。因此,当我们与高管交谈时,高管们已经预料到我们尝试了所有这些不同的东西。然后,当我们进行对话时,这不是关于我们是否可以开始调查它,而是,“嘿,这些是我们已经尝试过的一些新方法。这是结果,我们应该扩大规模吗?是还是不是?”
Syafri Bahar:但我认为这也影响到我们的数据科学家团队。所以赋权真的很重要。因此,能够非常敏捷地使用方法和进行实验、测量,就像非常快速的迭代一样。与赋权相关的是要有快速失败的勇气,但也要从中学习。所以这非常重要。
Syafri Bahar:第二,我认为一切都需要是可测量的。我想我们稍后会讨论它,关于可测量性。所以在我们拥有的所有不同的机器学习系统中,第一个问题是产品工程是我们想要集成的系统吗?它是否有足够的能力进行测量?我们希望在我们实际参与任何机器学习系统项目之前,确保这一点已经到位。
Syafri Bahar:所以,这也非常重要。当然,第三,我认为团队也需要被授权去做分散的决策。这也是授权的一部分,因为能够自己做决定,当然,使用科学的方法,我们将能够再次授权团队做出正确的决定,而不需要非常复杂的决策结构。是啊。
Adel Nehme:你在这里提到了产出的可测量性。我看到你们讨论的一件事,也是你们在这里提到的,就是确保高杠杆团队提高团队中每个数据科学家的投资回报率的重要性。其核心是衡量影响的能力。我认为许多数据领导者都很难量化他们的工作,尤其是在业务领导者关心的指标方面。那么,你能描述一下,为了让你的团队产出的量化值达到如此高的透明度,你必须跨越哪些步骤吗?
Syafri Bahar:是的,我认为进行数据驱动型对话的一个非常重要的因素,特别是与高管的对话,是通过问正确的问题开始一切,例如,影响是什么?在哪里可以找到数据?我们作为北极星使用的测量方法是什么?我认为这些对话实际上会渗透到团队层面的执行,对吗?所以,这绝对是第一要素,得到管理层的赞助。如果我看一下我们的首席执行官 Kevin,他在 Gojek 之前曾是 Zalora 的 BI 主管。
Syafri Bahar:当时他和另一位高级数据主管 Crystal 在一起,实际上他们建立了数据组织。因此,我们真正理解了拥有适当的数据提出正确的问题的价值。拥有正确的北极星度量标准也非常重要。因为使用这个度量标准,实际上,我们可以让每个人朝着同一个方向前进,对吗?所以毫无疑问,这是一个非常关键的问题。第二件事,比如有合适的工具也很重要。拥有合适的基础设施来进行测量。例如,我不得不说,拥有成熟的 A/B 测试能力非常重要。
Syafri Bahar:配置管理真的很重要。实际上,我们能想到的所有这些不同的基础设施,到位是非常重要的。这是第二层的数字。第三层是能够采用正确的方法进行测量,因为不是每个人都能通过 A/B 测试,对吗?这也是为什么我们有专门的工作阶梯的原因。我们称之为决策科学,实际上,他们基本上结合了许多统计技术,以真正回答我们在公司内部遇到的一些最大的问题。
Syafri Bahar:例如,我们如何衡量忠诚度的影响?你不能真的 A/B 测试忠诚度,对不对?然后我认为为了这个目的,我们求助于许多因果推理技术,为了能够做到这一点。然后,再一次,有如此多的选择,它们真的取决于我们试图回答的用例或问题。但是我想我想说的是,有一个真正合适的科学方法是非常重要的,这样才能提出问题,衡量它们,并且真正有意识地去做。有一个真正研究这个问题的专家,因为它本身就是一门学科,实际上对于达到那个阶段会有很大的帮助。
投资数据解决方案
Adel Nehme:既然您非常强调创建这种基础架构,并采用这种多层方法来衡量数据解决方案的影响,那么这在您的决策过程中会起到什么样的作用呢?您会进一步投资哪些数据解决方案呢?
Syafri Bahar:是的,是的,它确实影响了我们的很多决策,对吗?因为还是那句话,机器学习投资,或者说数据科学投资,总的来说,是相当昂贵的。因此,在我们开始任何机器学习项目之前,能够确定市场规模真的很重要,对吗?我们需要能够识别,我的意思是,如果我们比较五个用例,例如,我们谈论的是 1 美元对 100 美元的影响吗?或者我们说的是 40 美元,60 美元的影响。
Syafri Bahar:所以我认为这非常重要。毫无疑问,我们确实使用所有这些不同的基础设施来真正成为我们在公司内部进行各种对话的基础。这就是能够进行这种测量并能够使用它来进行正确投资的重要性。不仅如此,实际上,我在说...我是说,这还是第一层。所以第一层实际上是关于我们想投资是还是不是?
Syafri Bahar:第二层问题可以是,“好的,现在,如果我想解决这些问题,我有 10 种不同的解决方案,不同的数据科学,会有不同的方法来构建这些问题,对吗?”例如,我可以把它框架为无监督的,监督的,强化学习。每一种都有自己的复杂程度。我认为能够衡量这种努力是非常重要的;真的要衡量努力和影响之间的权衡,放入尼斯象限,然后真的,“好吧,这是我们想要做的方法。”这就是我们进行决策的深度,基本上使用所有这些不同的基础架构来对我们的数据科学项目进行决策。是啊。
Adel Nehme:你在这里提到了决策科学家的使用。因此,从技能的角度来看,考虑到 Gojek 内部数据科学的流行程度和多样性,您认为每个数据团队应该雇佣哪些不同的角色和不同的技能组合?
Syafri Bahar:是的,实际上这是一个有趣的问题。首先,我们想要一个,和这个播客特别相关的是数据科学家。好吧,所以我认为对于我们 Gojek 的数据科学家来说,他们擅长构建可扩展的机器学习系统。因此,从本质上来说,Gojek 的数据科学家有望成为全栈科学家,并且能够在构建这个机器学习系统时应用良好的软件工程原则。
Syafri Bahar:这就是数据科学家,如果我说得对的话,我会说得更清楚,Gojek 的数据科学家专门帮助公司快速、频繁地做出微观决策。好吧。现在,轮到决策科学家了。所以决策科学家,如果我想和数据科学家对比的话。决策科学家将专门帮助制定不太频繁的重大决策,这本质上需要大量类似的统计知识,以便能够找到问题并应用正确的技术。
Syafri Bahar:基本上我们还有商业智能。因此,商业智能在 Gojek 中的作用实际上是确保你有一个单一版本的真理,我们在这个版本中看待事物。然后,他们还负责定义正确的指标,确保数据可用。在某种程度上,他们也做[听不清]。能够绘制我们拥有的不同业务流程,并将其转化为我们拥有的表格。
Syafri Bahar:只是为了确保我们有一个合适的数据模型。因为我认为这也是非常重要的,因为如果你没有非常坚实的数据基础,我们就不能真正做很多我们想做的高级分析,对吗?拥有单一版本的真相真的很重要。拥有每周不会中断一次的可靠数据非常重要。所以是的,这些是不同的角色。当然,你也可以操作我们在 Gojek 内部雇佣的机器学习工程师。
Adel Nehme:当我们谈到数据团队时,我很高兴能够对此进行更多的讨论。通常,经历数据或数字化转型的组织都在努力寻找组织其数据人才的最佳方式。一些组织倾向于集中式卓越中心模式,其他组织则倾向于嵌入式模式,在这种模式下,数据科学家被整合到职能团队中。Gojek 的数据人才是如何组织的?
是的,我认为对我们来说,这也是一种进化。所以我们实际上尝试了各种不同的模型。我们从度量组织开始,我认为这对一个非常小的团队很好,因为我们想确保每个人都遵循相同的实践。因此,在我们应该如何做事的问题上,需要有一个集中的声音。
Syafri Bahar:基本上,我们当时所做的是,我们有一个中心团队,我们将他们分派到不同的产品上。但那时我们几乎是在扮演顾问的角色。但是随着团队的成长,随着 Gojek 内部用例的增加,这种模式不再可持续。所以我要说,我们现在所做的是根据联邦系统来运作的。
sy afri Bahar:Gojek 的每个数据主管或数据负责人都有自己需要关注的领域,我们在业务团队和产品团队中非常深入,只是为了确保我们真的感受到压力,就像我们真的投入了一样,我们也参与到了这场游戏中。这也让我们能够思考比我们试图解决的问题更大的问题。
Syafri Bahar:这也非常重要,对吗?为了确保我们在实践和职业道路等方面的一致性,我们在 Gojek 的数据领导者中成立了一个委员会,以确保我们也遵循相同的实践和标准。但目前,我们已经完全融入了业务团队和产品团队。
Adel Nehme:那么您认为随着组织数据成熟度的提高,运营模式需要随着组织的数据能力而发展,并转向更加混合的方式吗?
Syafri Bahar:是的,我会说,即使这是不可避免的,我会说。因为否则,组织会变得太复杂而难以管理,对吗?对于职能部门的领导者来说,这也是非常困难的。尤其是在数据科学领域,对吗?这就像,如果你想进行有意义的对话,数据领导者需要有两到三个层次,更深的背景深度,基本上是为了能够与团队和他们的业务领导者进行有意义的对话。
Syafri Bahar:然后,如果我们这样说,在这里很难保持知识,比如有一个背景,特别是在 Gojek 的各个领域。我认为这种模式是不可避免的。
Adel Nehme:正如你所说,游戏中的皮肤非常重要,因为否则,数据科学家只是在特定或运动的基础上创建分析,这不一定会使影响最大化。
Syafri Bahar:正确。我想我还想鼓励的一件事是,我试图鼓励传统的数据人员,一般来说,数据专业人员,被视为服务提供商,但我试图在组织中树立的是,数据人员不是服务提供商,我们是思想伙伴,对吗?这意味着我们需要在问题形成的最开始就参与进来。因为这样我们才能给出一份好的推荐信。我们在游戏中有一个皮肤,等等,等等。我认为这样做有很多好处。
结合商业智慧和数据
Adel Nehme:那么你是否认为数据科学家最终往往没有真正打造出商业敏锐感或对他们正在研究的用例的理解?你认为数据团队应该专注于向他们的数据团队灌输商业智慧吗?
是的,我也这么认为。我认为,让我们的数据团队了解全局对我们来说非常重要,这也有助于我们超越给我们的预定义问题陈述。所以,是的,但我认为这真的很重要。我并不是说所有的组织都是这样工作的。我认为这真的取决于我们解决的问题的类型。我认为对于一个非常超优化类型的问题,这是有意义的,对不对?
Syafri Bahar:第一,我们只是基本上坚持问题,我们真正深入问题 100 层,然后真正解决它。但特别是对于有很大程度模糊性的问题,我认为参与对话真的很重要,对吗?因为它可以走向多个方向,特别是在我们想要解决的目标中,所以我认为这就是我如何区分何时特别是数据团队需要从一开始就参与。
Syafri Bahar:或者也可以是问题陈述非常清楚,对吧?我们希望优化转化,例如,通过建立我们的推荐引擎,然后很明显,我们需要高度关注这个问题。
Adel Nehme:作为一名数据领导者,作为一名管理多个数据团队的人,这些团队负责不同产品和服务的组合,我确信新冠肺炎·疫情极大地影响了您的团队以及您所从事和维护的不同数据科学解决方案。你介意向我们介绍一下你是如何处理影响你的模型的概念漂移的,更重要的是,你是如何在巨大的不确定性和压力下设法维持高绩效的数据科学家的?
Syafri Bahar:所以我主要从两个角度来阐述这个问题。第一,这就是疫情对我们团队的影响。所以我认为,就疫情本身的影响而言,或者更具体地说,我们需要远程工作的事实,它并没有对我们的团队产生太大影响,因为即使在疫情之前,我们已经是一个分布式团队了。所以我们的团队其实分布在几个城市。我们在新加坡、泰国、越南和班加罗尔都有团队。例如,我们的一些同事甚至也在亚洲以外的地方工作。所以这对我们来说不是问题。
Syafri Bahar:我们加倍努力的一件事是我们需要非常擅长文档。每个人都需要非常擅长文档,因为每个人都需要远程工作,这意味着一个强大的通信手段将是通过文档。所以我们非常重视文档,这是肯定的。我们总是在 confluence 上更新,只是为了确保模型有适当的文档,它可以被遵循。有链接到我们的数据源,到 GitHub,和许多其他东西,对不对?这是第一点。
Syafri Bahar:第二,对模型的影响。我认为,即使在疫情会议之前,如果你看看市场,我们也承认并意识到我们已经在不稳定的环境中工作。尤其是我们在一些市场占据主导地位的事实,这意味着我们对模型所做的任何改变都有可能改变客户的行为,这意味着还有很多反馈回路,对吗?这意味着市场无论如何都会改变。然后我们需要像往常一样处理这件事。不是作为一种现象,对吗?
Syafri Bahar:但是我们总是需要确保我们的特征没有漂移。我们需要确保我们有一个频繁的培训。我们越来越意识到,我们需要在建模中采用更多的适应性学习技术,以便能够捕捉不断变化的市场形势。所以我认为对我们来说,现在可能只是总结一下,一切如常。但当然,就业务本身而言,它在很大程度上受到了疫情的影响,对吗?所以这是肯定的。我们看到了。但是就我们如何工作,以及我们基本上如何创建和监控我们的模型而言,没有什么显著的变化。
Adel Nehme:是的,我认为这就是 Gojek 的数据成熟度发挥作用的地方。我认为,许多组织今年意识到,他们确实需要投资于 MLOps 以及在生产中监控和更新模型的能力。这在 Gojek 可能不是问题,因为这是你们已经具备的能力。
Syafri Bahar:对,没错。我还必须称赞数据科学平台团队。我认为他们做得很好,为我们提供了我们需要的所有不同的基础设施,以便通过反馈回路、部署技术等来实时监控模型性能。所以他们很棒。
一个数据成熟的组织有什么特征?
Adel Nehme:太不可思议了。我很乐意将我们的对话扩展到创建高影响力团队之外。正如我们在本集前面所讨论的,Gojek 是一个真正高度数据成熟的组织,它生活和呼吸着数据。您认为在高影响力团队之外,数据成熟组织的特征是什么?
Syafri Bahar:我认为它不仅在于我们可以看到和触摸到的有形的东西,而且我认为,在精神上,它也是非常重要的。我认为,一个特征是,这与数据团队关系不大,但它只是整个组织。我们需要生活、呼吸,然后我们需要在日常对话中使用这些词汇,对吗?
Syafri Bahar:我们真的需要问一下相关性与位置、偏差、值、贝叶斯漂移是什么?我认为这应该是日常对话的一部分,这样一个组织才能被贴上数据成熟组织的标签,对吗?所以这是文化中固有的。我认为这不仅仅是工具和仪表板。我认为这确实是一个特征。
Syafri Bahar:我认为这也非常重要,我怎么强调都不为过,你的领导要树立榜样,对吗?因为一切都始于向产品团队和数据团队提出正确的问题。因为这些问题实际上会影响很多事情。我也许可以举一些早期的例子,当我们说,“嘿,我们想衡量一下,例如,拥有一定的忠诚会员会有什么影响,对吗?”
Syafri Bahar:这让我们想到,“嘿,我们还没有任何基础设施来测量这些东西。所以我们需要开发更多的东西,对吗?”然后我们开始探索,我们看到,“嘿,也许我们可以使用工具变量。比如随机鼓励,对吧?”这也引发了我们围绕这一点构建能力。比如,“嘿,作为一家公司,我们可以产生哪些工具变量来帮助我们衡量某一现象的边际影响,而这种影响无法用传统的 A/B 测试来处理,对吗?”
Syafri Bahar:我想再次说明提出正确的问题是多么重要,特别是对于数据成熟的组织,因为这将揭示我们需要从数据角度构建的所有流程。是啊。
Adel Nehme:当谈到创建数据驱动的组织时,我完全同意精神和文化的重要性。我真的认为这是主要的区别。你在这里提到了基础设施。关于 Gojek,令人印象深刻的一点是基础设施如何适应创建高影响力的数据科学。
Adel Nehme:我看到你在其他采访和小组讨论中谈到了这一点,这也是 Gojek Medium 博客中的重点内容。您介意向我们介绍一下 Gojek 为了促进高效数据科学而采用的不同技术和基础架构级别的创新吗?
Syafri Bahar:对。所以我认为有几个...所以我们可以从 MLOps 的角度来谈。我们也可以从我们现有的下游数据工程堆栈来讨论它,对吗?因此,我认为我真正喜欢 Gojek 的一点是,我们喜欢开发自己的解决方案,尤其是当我们认为第三方解决方案实际上无法满足我们的需求时,对吗?所以我们实际上也开发了很多内部系统。
Syafri Bahar:它是必不可少的,也像包装最近的一些技术,例如,我们谈论存储轨道,例如。所以我们围绕它做了很多包装。仅举一个例子,为了帮助我们将数据从一个地方移动到另一个地方,我们在 Gojek 内部构建了大约 20 到 30 个数据工程工具。我们希望得到不同的转换,例如,数据编目,我们也有一个解决方案。
Syafri Bahar:例如,我们还构建了 Optimus,这是用于进行数据转换的 CLI。所以我们制造了相当多的工具,对吗?这只是从数据工程的角度来看。所以 20,30 个工具。当我们看 MLOps 团队时,数据科学平台实际上已经为我们构建了相当多的工具。我也许能告诉他们中的两三个。
Syafri Bahar:比如梅林。所以 Merlin 是数据科学家用来部署模型的工具。过去部署一个模型需要两到三周时间,现在我们只需 10 分钟。我们需要做的就像保存 pico 文件一样,二进制文件。然后,我们将 MLFlow、Kubernetes deployment、Docker 等不同的技术结合在一起,实际上将它们整合为一个简单的数据科学抽象。
Syafri Bahar:所有这些都由我们的数据科学平台团队管理。以 Merlin 为例,数据科学家只需保存来自 scikit-learn 或 PyTorch 的二进制文件,例如 TensorFlow,然后放入它,现在我们需要调用某个 API 链接。它会自动上传它部署在 Kubernetes。集群,它将创建测井系统,监测系统,以及漂移监测。就像一气呵成。挺好看的。
Syafri Bahar:我们也有,例如,Feast 是我们的另一个重要产品,我们与谷歌共同开发,现在也有几家公司在使用它。因此,Feast 基本上允许我们分离特征冲浪和模态冲浪,基本上只需为培训创建一个层 00:30:47]。
Syafri Bahar:例如,我们可以使用相同的抽象来服务模型。它还提供了一些很好的特征注册的可发现性,例如,能够进行历史冲浪或历史批量计算,或者像在线实时冲浪一样,对吗?只是使用一个通用的抽象。所以这非常非常酷。我们做了很多事情。当然,我们也有图灵,还有很多其他的东西,比如发条,这也是另一个产品。但是我建议观众们去看看我们的博客,看看我们制作了哪些不同的工具。
Adel Nehme:是的,我强烈建议大家去看看 Gojek 博客,这是一个展示团队开发的令人惊叹的专有技术和工具的真正橱窗。这些解决方案是开源的吗,Syafri?
Syafri Bahar:是的,我想大部分人现在都知道了。是啊。所以我认为尤其是我们的数据工程工具。我想就在最近,大概一两个月前,我们开始开源我们自己开发的工具。是啊。
数据治理
Adel Nehme:显然,以上我们都没有谈到。到目前为止,如果没有高水平的数据清洁度、质量和组织范围的数据治理,您介意描述一下数据治理对于扩展数据成熟度有多重要吗?
Syafri Bahar:是的,当然。实际上,我认为数据治理经常被忽视。人们通常认为这是理所当然的。嗯,对我们来说,这真的很重要,因为特别是,如果你看看印度尼西亚的监管框架,我们基本上是非常严格的。我们真的也想保持消费者对我们的信任。因此,我们实际上非常重视数据治理,甚至我们有自己的数据保护官。我们有一个数据治理委员会,它决定谁应该访问哪个列。
Syafri Bahar:在我们进入 NDA 之前,我们需要签署任何文件。最近,你们还推出了一个名为[海洋]我们的数据仓库的工具。新的数据仓库工具。有了海洋,我们基本上可以分离实体,我们真的可以治理,例如,我们可以在表示层和数据标记层之间进行分离,并提供非常具体的访问权限。
Syafri Bahar:所以我认为对我们来说,我想说的基本上是,这对我们来说是非常重要的事情。我们确实有一个委员会,我们确实有一个关于如何利用现有数据的管理流程。当然,我们内部也开发了各种工具来帮助解决这个问题。我认为我们的工作方式总是首先,我们讨论在拥有适当的数据治理和数据保护方面我们需要什么,然后我们会根据这些要求构建工具。
Adel Nehme:您认为在整个组织中实现高质量数据时,数据领导者的角色是什么?您能简要描述一下 Gojek 的数据治理计划的一些特点吗?
Syafri Bahar:事实上,这非常重要,因为我认为数据领导者在整个纵向数据治理中扮演着几个角色。我认为第一点就是设定期望值。我认为这很重要,对吗?
Syafri Bahar:因为没有明确的预期,这是一个有时被人们忽视的领域。所以设定期望值是一回事。第二,也是关于教育,关于我们为什么需要教育,对吗?例如,为什么一家公司在上市前需要适当的数据治理。
Syafri Bahar:所以我认为这是第二件事。我认为第三件事是需要在各利益相关方之间架起一座桥梁,基本上是在数据治理方面,对吗?因为我们需要从监管角度和消费者角度沟通多个利益相关方。消费者也是我们的利益相关者,但也喜欢不同的功能,不同的产品。所以我觉得搭桥也很重要吧?这实际上是三件事。设定期望,桥接,第三个是认证。
Adel Nehme:就工具而言,您在 Gojek 使用哪些工具进行数据治理?
Syafri Bahar:我们在内部开发了许多这些功能。我们围绕它创建了许多包装器。还有创造,例如,能够真正显示数据谱系的工具。并且也要理解,例如,这是否来自我们也定期维护的可靠的表。因为从历史上看,从我们拥有的超增长遗产来看,我们有数据有机增长的问题,真的就像它无处不在。
Syafri Bahar:例如,我们从派生表创建一个派生表。所以你最终创造了一个桌子的森林。所以我们也在清理过程中。所以,是的,但我认为就工具而言,我们试图在内部开发许多这样的功能,对吗?我们可能会使用第三方工具,但老实说,我对此知之甚少。
数据素养
Adel Nehme:我想重点讨论一下组织数据素养。作为一名数据科学高管,你的角色包括获得高管的认同,证明资源分配的合理性,以及所有这些有趣的事情。您认为高管需要具备什么样的数据素养才能在这些对话中富有成效,并批判性地评估数据项目计划的成功?
Syafri Bahar:但我认为这是我们无法真正控制的事情。我认为,总的来说,如果你看看这些公司,对吗?尤其是,当你看到不同类型的公司时,会有不同类型的领导。这些公司的领导层也将来自不同的背景,对吗?所以这有点像我们无法真正控制的事情。但我认为,这真的取决于数据领导层能够向他们清楚地表达这一信息...
Syafri Bahar:我真的希望有一些基础知识,至少在数据方面。但是,假设基础已经存在,就他们希望如何基本上尝试在数据方面提出某些议程而言,这实际上取决于数据领导者,以便迎合他们的受众。这作为一个例子,如果例如,如果我想为数据科学推动更多的资源,那么我会做什么,只要同行是理性的,我们基本上可以进行基于事实的对话。
Syafri Bahar:我会带着我的数据说,“嘿,这就像是三个人的团队,我们为每个用户,每个数据科学,实际上已经产生或者节省了这么多钱……”因此,我们实际上可以将其归一化为每数据科学的收益。然后,是的,我可以用它作为论据来推动更多的资源。所以这只是在数据科学的背景下。但是我认为在项目的背景下,比如在数据治理中,我认为,尤其是在数据治理方面,这正是我们需要做的事情。这是卫生用品,对吗?所以真的没有其他方法可以不这样做。说实话。
Syafri Bahar:我认为,为了在这个问题上进行富有成效的对话,我认为对方肯定需要对数据有一定的了解。我认为,特别是对于领导层,他们基本上是在上个世纪形成的,所以我要说,我认为他们在数据方面的素养应该没问题。
Adel Nehme:太好了。在我们的交谈中,您多次提到了数据文化、数据精神以及这一点的重要性。我相信这也与在组织内创建非常强大的自助服务分析能力有关。您认为数据团队在更广泛的组织中创造和打造这种文化以及使用自助分析方面的角色是什么?你在 Gojek 采取了哪些最佳实践来保持这一点,你有什么经验可以分享吗?
Syafri Bahar:是的,实际上这是一个非常好的问题。因此,在自助服务分析方面,我们正在尝试做几件事情。所以第一件事就是要有一个正确可靠的数据。这确实是第一位的。所以我们做的第一件事实际上是,我们试图先解决基本问题。你可能还记得过去成千上万的有机增长的表的所有这些不同的问题,对吗?
Syafri Bahar:我们试图先整理一下,对吗?首先要确保它是可靠的,基于可靠的数据来源,然后能够在此基础上创建适当的数据标记。所以这绝对是我们需要注意的基本问题。然后,当我们进行信息检索时,我们基本上会尝试做几件事情。
Syafri Bahar:所以第一,也鼓励我们的分析师或商业智能人员能够创建更动态的仪表板。因此,我们使用像 Streamlit 这样的工具,例如,能够创建一个复杂的可视化效果,以便能够满足商业人士的需要,例如,如果他们想创建一个故事,只需点击几次,就足够直观了。
Syafri Bahar:例如,一旦他们对某个领域感兴趣,按钮就会出现。只是为了帮助他们利用我们在 Gojek 获得的各种信息。这是我们尝试做的另一件事。另一件事是,我们试图开发另一个内部工具,基本上,也许我现在不能具体说明名称和它的作用,但基本上我们需要的功能是定义尺寸和测量,然后是过滤器。所以企业只需要知道三件事。
Syafri Bahar:所以他们可以拖放东西,他们可以增加尺寸,他们可以增加尺寸,然后里面的需求可以很好地产生。但这也需要我不是说我们 100%在那里,而是因为它需要大量的标准化。特别是考虑到我们有大约 20 多种产品,这不一定是最容易做的工作。能够标准化一切以达到那种状态。是的,但这些是我们目前正在思考和积极做的一些事情。
Adel Nehme:在消费者方面,数据教育在更广泛的组织中处于什么位置?在 Gojek,他们的文化教育有多重要?
Syafri Bahar:是的,这是一个有趣的问题,对吗?因为我们也意识到我们的许多消费者来自不同的背景。因此,我们也在积极推动数据扫盲。我可能会提到一个项目。我们有一个名为[数据英雄]的项目。因此,这实际上是一个旨在从根本上教育数据消费者的计划,教他们 SQL,教他们数据的基础知识。
Syafri Bahar:什么是你的数据仓库,数据集市,数据湖,和类似的东西,基本上是为了帮助他们自助。所以,这真的很重要,我认为你在创造这种意识。当然,这也很有帮助,因为我们的大多数领导(如果不是全部的话)都有很高的数据素养,对吗?因此,高层领导总是鼓励他们不断向下属询问数据,这样人们就会意识到进行数据驱动的对话有多么重要。这也给他们自己创造了教育自己如何正确使用数据的紧迫性。
趋势和见解
Adel Nehme:太好了。我想通过讨论一些趋势和见解以及你对数据科学和人工智能在未来扮演的角色的看法来结束我们的谈话。因此,Gojek 通过其技术在印度尼西亚和其他地方产生了如此大的影响,您如何看待人工智能和数据科学的进步进一步推动了 Gojek 客户的价值?你最感兴趣的进步是什么?
Syafri Bahar:是的,我认为有一些事情是正确的。所以我对因果机器学习的使用感到非常兴奋。因为我们做的很多事情都是固有的,例如,查看推广优化引擎的特定领域,对吗?把它框架为因果问题实际上是非常自然的,只是给你一个例子,例如,如果你想做流失预防,预测流失不会很有用,因为它会造成恶性循环,对吗?你预测那些天生就很难约束的人。
Syafri Bahar:所以我们需要做的是能够预测它们何时会被搅动,然后了解哪些治疗方法最有效地防止它们被搅动,对吗?所以能够以这种方式表达出来。我想我真的很高兴,特别是在最近几年,我们能够将因果推理重新构建到机器学习中,这样就可以利用机器学习在处理高维数据等稀疏数据方面的优势。这非常重要。
Syafri Bahar:在过去,我们需要手动指定混杂因素,但现在随着因果机器学习的最新进展,我们只需将数据放在那里,然后就可以获得边际影响估计。这个算法基本上会学习哪些是最可能的混杂因素,如果你在技术中使用混杂因素的话。
Syafri Bahar:这是第一条规则。我认为第二点,我也看到强化学习类型的算法有一个很有前途的未来。实际上我对此非常兴奋。如果你愿意的话,再深入一点,特别是关于马尔可夫决策过程,我认为它也有很好的应用前景,尤其是在动态市场的背景下。因为我们希望能够拥有可以在线学习的算法,基本上,我们不需要先下载它,进行动态训练,然后再将其推向生产。因此,我们希望尽可能地推进这种状态,基本上就像是一种自我学习。
Syafri Bahar:特别是在行为建模领域,特别是在营销和促销优化引擎的背景下,我们至少可以探索很多领域的潜在应用。所以,我也很兴奋。当然,最近的进展也在 GPT-3,你提到了与 AutoML,对不对?我认为这也是一个非常令人兴奋的发展,在这个领域也是如此。尤其是 GPT-3,我认为,我们仅仅是抓了抓我们能做的。
Syafri Bahar:是的,我认为我看到了一个数据科学解决方案将被商品化的世界,将会有许多开箱即用的解决方案,这样,作为数据科学家或数据专业人员,无法取代的将是真正的创新部分。因此,我强烈建议,尤其是那些有抱负的数据科学家,要真正提高解决问题的技能,比如创造力,要能够使用这些不同的工具。因为同样,我们可能只在一次点击中估计模型,但仍然需要对数学和统计学的深入理解,以便能够解释那些模型,那些解决方案,并能够从中做出决策。
Adel Nehme:是的,我知道你是一个超级数学迷,我也看到你争论为什么数据专业人员应该对他们正在处理的模型进行更深入的技术理解。您如何将这种世界观与数据科学家日益增长的自动化技术相协调?
Syafri Bahar:顺便说一下,我认为它有一个很好的目的,有各种不同的优化。它的基本目的是让机器学习和人工智能民主化,对吗?我认为对于某些特定的问题领域,这是有意义的。因为它基本上会特别是在重复性的东西上。我想我还记得吴恩达引用的话,所有可以在一秒钟内完成的事情,现在实际上就像是机器学习或人工智能的主要用例,对吗?
Syafri Bahar:但我认为也有越来越多,我们也发现了许多不同类型的问题,这些问题无法在一秒钟内真正解决。这些都是非常模糊的问题,例如,分发代金券,如何将用户发展到更成熟的状态。所以这是一个非常棘手的问题,对吗?所以,我想说的是,它有一个好的目的,但它可能无法解决我们目前面临的所有行业问题,特别是在可以产生很大影响的各个领域。这是第一点。
Syafri Bahar:第二,我认为,即使将来会有很大程度的自动化。但我认为,理解这些自动化解决方案背后的机制也是非常重要的,实际上,对于人类来说,能够就如何正确使用它做出明智的决定。例如,能够解释那些估计的副产品也是非常重要的;如何,而不是喜欢盲目套用。但是,在某些领域,我们可以轻松做到这一点。但也有另一个领域,你不能只是盲目地应用一些力学,对不对?因此,理解其机制并真正理解其功能非常重要。
行动呼吁
Adel Nehme:太棒了。最后,Syafri,在我们今天结束之前有什么行动要求吗?
西亚夫里·巴哈:对,我认为有很多...我也想和机器学习自动化的进步有一点点联系。我想有些人可能会想,“嘿,我们的工作将被取代,它将不再性感。”但我认为相反,我会说,未来将会需要越来越多不同种类的数据科学家;能够运用第一原则解决问题的人,他们试图将各种可用的解决方案结合起来,并能够决定哪些解决方案实际上能够解决特定的问题。
Syafri Bahar:所以这是一句鼓励的话,基本上,仍然要投资于该领域,特别是在一些新兴国家,如印度尼西亚,我们几乎没有注意到我们在影响方面可以做什么。尤其是如果你看到其中一些国家的结构性低效,数据专业人员就有巨大的机会在那里创造影响。
Adel Nehme:是的,非常感谢你的真知灼见,Syafri。我真的很感激。
Syafri Bahar:是啊,不客气。
Adel Nehme:今天的 DataFramed 节目就到这里了。谢谢你和我们在一起。我非常喜欢 Syafri 关于数据科学驱动 Gojek 的见解。如果你喜欢这个播客,一定要在 iTunes 上留下评论。下一集,我们将采访渣打银行前集团首席技术官、TruEra 现任首席战略官 Shameek Kundu。我希望这对你有用,我们下次在 DataFramed 上再见。
建立对人工智能的信任以加速其采用
金融服务业坐拥大量数据。难怪这个行业充满了有前途的人工智能和机器学习用例。根据麦肯锡的估计,如果成功推出,人工智能可以在银行业产生高达 2 万亿美元的价值。在最近的一次网络研讨会中,渣打银行前 CDO 集团、TruEra 现任首席战略官 Shameek Kundu 概述了如何加速人工智能在金融服务中的价值。
Shameek 解释说,数据科学和人工智能在金融服务中的价值可以分为三大类:
- 通过更好的客户体验和更好的决策提高收入
- 通过更有效的风险管理和更高的运营效率降低成本
- 发掘未实现的潜力和商业模式。
人工智能在金融服务中的应用很广泛,但很肤浅
今天,金融服务中的许多人工智能项目仍处于起步阶段,由于各种原因,无法达到全面部署的最终目标。这些问题包括数据可用性和质量有限、部署人工智能系统的技术瓶颈等技术问题,以及缺乏数据人才和对人工智能系统的信任有限等非技术障碍。
解决人工智能系统中缺乏信任的问题
虽然复杂的机器学习模型,如深度学习模型可以为以前难以解决的问题,如蛋白质折叠提供深刻的解决方案,但它们并不擅长解释它们的预测。
如果这些黑箱的结果被盲目地应用在高风险决策中,如反洗钱和信用评分,它们会带来社会风险。不知道黑箱模型如何得出他们的预测,最终用户发现很难相信他们的输出,特别是考虑到高调的偏向人工智能系统的事件。
根据 Shameek 的说法,三个关键行动可以培养对人工智能的信任。
通过教育揭开机器学习的神秘面纱
全民教育教育是解决对人工智能恐惧的长期策略。随着内部利益相关者、监管者和客户对人工智能如何影响他们有了大致的了解,他们变得更有可能接受人工智能。
旨在解决技能差距的专业教育技术人才的缺乏阻碍了公司大规模实施人工智能系统。因此,旨在从人工智能系统中提取价值的公司必须愿意雇佣数据人才或提供专业培训来提升现有员工的技能。
为人工智能系统设置内部护栏
内部护栏是实现、评估和监控人工智能系统的指导方针。
这些护栏有三个主要部件。
- 一套指导原则定义了人工智能在公司内部可以做什么的界限。
- 内部利益相关者的促成因素促进人工智能的安全实施
- 标准工具和技术评估人工智能系统的公平性
使用工具和技术提高人工智能质量
人工智能生命周期中的差距导致质量问题蔓延到人工智能系统中。幸运的是,有工具可以减轻它们。
解释黑盒模型可解释人工智能领域仍然是一个活跃的研究领域。它有望打开黑匣子,揭开预测生成过程的神秘面纱并建立信任。
解决数据和标签质量低的问题学生可能在一个不熟悉的话题上考试不及格;如果在错误的数据上训练,机器学习模型可能表现不佳。如果用于训练人工智能系统的数据与它在部署中看到的数据截然不同,人工智能系统可能会失败。微软的 pythonResponsible AI Widget可以帮助识别和解决这类问题。
测试模型的透明度和公平性由于用于训练模型的数据中存在隐藏的偏见,模型可能会对某个群体产生不公平的偏见,如少数民族或特定性别。像 fairlearn 和 IBM 的 AI Fairness 360 这样的开源解决方案可以帮助解决这些差距。
结论
在公司内部建立对人工智能的信任需要协作和时间。组织需要提升人工智能人才的技能,并建立人工智能安全的保障措施,而人工智能从业者需要充分利用他们可用的工具,使人工智能对所有人公平。只有当人工智能成功赢得用户的信任,人工智能系统才能被广泛采用。
如果你对人工智能在金融服务中的应用感兴趣,请务必查看 Shameek 的点播网络研讨会“在金融服务中扩大人工智能的采用”。它提供了对人工智能应用的见解和加速其采用的实用建议。
数据能帮助你申请 H-1B 签证吗?
如果你想获得 H-1B 签证,你应该在 3 月份通过位于纽约市的印度外包公司获得签证认证,雇佣程序员分析师,支付超过 75,000 美元的基本工资。或者至少,这是对来自 h1bdata.info 的数据的分析所表明的。
在当选总统唐纳德·特朗普(Donald Trump)以非法移民为中心的竞选活动之后,废除 H-1B 签证的声音和对 H-1B 签证改革程度的猜测越来越强烈,不仅在美国,在印度也是如此。距离唐纳德·川普就任美国第 45 任总统还有 15 天,现在是时候看看过去几年已经认证的 H-1B 签证了。
第一个发现是,获得签证的前 15 家公司大多是外包公司。尤其是总部设在印度的公司,如 InfoSys、Tata Consultancy Services 和 Wipro,占据了大部分份额:
其他印度外包公司,如 Tech Mahindra Americas,总部设在其他国家的公司,如埃森哲,总部设在美国的外包公司,如 Cognizant Tech Solutions,或总部设在美国的其他公司,如德勤,通常较少依赖 H1-B 员工。
这与其他消息来源非常一致,即如果 H-1B 改革通过,外包公司将是第一个接受更严格审查的公司。这些公司显然是所谓的“低垂的果实”:它们充分利用了当前的 H-1B 政策。然而,即使实施任何改革,仍然会对总部设在美国的其他 6 家公司产生影响。
但是,这不是外包与其他公司的问题,这 15 家拥有 H-1B 认证工人的公司表明,技术行业将受到影响:这些是信息技术或技术公司的名称。
抛开对行业的影响不谈,数据还显示,该州人口越多,需要 H-1B 签证的工作机会就越多:大多数申请人位于加利福尼亚州、新泽西州、纽约州和得克萨斯州。分析中突出的城市是纽约、休斯顿、亚特兰大、芝加哥和圣何塞。这些州认证最多的工作机会是程序员分析师。接下来是持有 H-1B 签证的软件工程师、计算机程序员、系统分析师和软件开发人员。
有一个问题是 H-1B 是否是一个廉价劳动力项目。数据显示,事实上,被拒绝的 H1B 申请的薪水更低。此外,75,000 美元以上的工资有更好的机会获得认证。乍一看,这似乎不一定适用于上面提到的工作:
很明显,超过 75,000 美元的基本工资对大多数 H-1B 员工来说是无效的:中位数大约在 60,000 美元以上。将这些工资与可以在 PayScale 等网站上找到的工资相比,这并没有给人一种廉价项目的初步印象。这是需要在进一步分析中解决的问题。
h1bdata.info 数据还表明,三月是 H1B 应用获得认证的高峰。这意味着大部分人在一月份前已经申请了签证。但是,一般来说,申请人不必担心你的 H-1B 申请获得认证:在我们的数据集捕捉到的所有申请中,只有 5.13%没有获得认证。这个比例看起来很高,考虑到这个签证是给从事特殊职业的工人的(如上所述),以及要求,也许确实如此。这肯定是要重新考虑的事情,因为保护和增加美国就业法案似乎证明了取消硕士学位豁免的提议。
下图总结了上述调查结果。它显示了前五名 H-1B 工作的认证签证。不同的颜色表示签证的起始年份,圆圈表示基本工资:
研究数据以帮助你的 H-1B 应用程序可能会有所帮助,但只是在一定程度上。目前,我们只知道这一点:我们不确定川普和他的政府将如何打击 H-1B 签证,但上面已经给出了一个好主意:外包公司可能是 H-1B 计划改革的第一批解决对象,从更高的层面上说,人口更多的州的科技行业是第一个感受到影响的。此外,对候选人的要求可能会变得更加严格。
你想亲眼目睹这一切吗?
你自己去分析数据吧!DataCamp 讲师 Ted Kwartler 将通过一系列 R 教程来指导您完成它!
- 在 R | Exploring H-1b Data Pt 中进行 Web 抓取和解析数据。1 :在系列教程的第一部分,你将学习如何通过 R. 收集 H1B 签证的数据。
- 使用 R 探索 H-1B 数据:第 2 部分:您将在收集的数据的基础上进一步构建,并了解如何为探索性数据分析(EDA)工作添加更多视觉效果并引入一些新功能。你可以在这里找到教程。
- 使用 R 探索 H-1B 数据:第 3 部分:了解如何通过 API 对经纬度坐标位置进行地理编码,如何创建数据地图,了解 H-1B 软件开发人员的顶级雇主,并比较他们每年的工资。进入本页开始教程。
案例研究:数据现代化计划如何帮助转变您的公司文化
根据我们最近进行的一项调查, 81%的公司专注于实施流程重新设计和文化变革,以建立数据流畅性。但是说起来容易做起来难。
对于许多公司,尤其是大型企业来说,有许多移动部分—常见的挑战包括遗留平台、繁琐的内部流程、抵制变革的文化以及不具备适当技能的员工。这些公司可能会受益于指导其数据转换的现代化计划。
“我的公司所做的最佳实践是定义他们的愿景,并成立一个委员会来监督这一转变。”—制造业总监
让我们看看我们的一个客户,一家全球保险提供商,如何从建立现代化委员会和精算学习支持小组中受益。
建立精算科学现代化委员会
精算师为保险公司分析金融风险,在美国等许多国家,他们必须通过一系列严格的专业考试,就像律师和医生一样。在他们的日常工作中,他们使用数学和统计学来评估保险和金融的风险。
精算行业在使用数据科学方面相当成熟,但这并不意味着每家保险公司都完全精通数据。许多公司希望在人工智能和机器学习方面进行创新并实施最先进的举措,但仍处于商业应用的早期阶段。
“保险是监管最严格的行业之一,保持正常运营需要付出很大努力。很多精算师很少有时间考虑未来。”—精算现代化经理
虽然我们的客户长期以来一直是保险领域的专家,但他们认识到需要跟上行业领先的趋势,如自动化和人工智能定价。因此,他们创建了一个精算现代化委员会,使精算师能够利用工具和技术来充分发挥他们的能力。
该委员会支持公司的所有精算师,帮助他们建立广泛的数据技能基础。它目前有大约 30 名成员,包括有经验的员工和新员工。他们的重点是通过推动数据和技术计划来扩展业务专长,特别是 Python,这是一种通用语言,能够解决几乎任何编程挑战。
使用 DataCamp 边做边学
该委员会与一个跨职能学习支持小组合作,通过 DataCamp 对员工进行 Python 培训。他们发现 DataCamp 的边做边学方法对概念的实际应用很有用。7 月,学习支持小组建立了一个新的结构,成员在三到四周的冲刺阶段完成选定的数据营课程,并每周会面以练习和分享知识。
自 5 月份以来,33 名个人学习者在平台上花费了几乎 800 个小时,完成了 10,000 多次练习,完成了 53%的课程,这对于一个在线学习平台来说是一个很高的完成率。他们学习了 Python 的数据操作和可视化等技能,处理包含字符串和数字数据(包括时间序列数据)的真实数据集。许多学习者也在利用 DataCamp 的 R 课程来准备精算科学预测分析考试。
为了跟上数据和技术的不断变化,公司必须拥有重视持续学习的文化。有远见的公司不仅仅是雇佣数据人才,他们还在培养一种让员工保持学习热情的公司文化。投资于持续学习的文化创造了一个良性循环,因为这些公司正在吸引和留住顶尖人才。
您可以以我们的客户为榜样,通过 DataCamp 采用数据科学和分析来实现公司的现代化。让我们来帮忙。了解如何在datacamp.com/business或安排我们平台的演示。
Cassie Kozyrkov 讨论决策和决策智能!
数据营播客 DataFramed 的主持人 Hugo Bowne-Anderson 最近采访了谷歌首席决策科学家 Cassie Kozyrkov。
下面是播客链接。
介绍凯西·科兹尔科夫
雨果:你好,凯西,欢迎来到 DataFramed。
凯西:嗨。谢谢你,雨果。很荣幸来到这里。
雨果:很高兴你能来参加我们的节目。我真的很高兴你们能在这里谈论数据科学、决策、决策科学和决策智能。但在此之前,我想先了解一下你。首先我想知道你的同事会怎么说你。
凯西:哦,天哪。嗯,我想这取决于同事。但我认为他们的共识是,我在应用数据科学方面有一些专长,尤其是。我帮助谷歌团队和我们的云客户有效地应用机器学习。
应用数据科学
雨果:太好了。你能告诉我应用数据科学对你意味着什么吗?
凯西:是的,所以当谈到数据科学时,让我们从数据科学的含义开始,然后我们会深入了解它。因此,对我来说,数据科学是一个伞状学科,其下有统计推断、机器学习和分析或数据挖掘。对我来说,这三者之间的区别不在于它们使用的算法,因为如果你聪明,你可以对它们使用任何算法。也不是因为工具,而是因为在不确定的情况下,你想用工具做出多少决定。有了数据挖掘,你真的想得到启发。还没有你想要的具体决定,但是你想看看你的数据激发你开始思考和梦想什么。统计推断是在不确定性下的一些真正重要的决策,然后机器学习和人工智能,它们归结为重复决策的处方。很多很多不确定的决定。
凯西:实际上,我认为数据科学是一门决策学科,将信息转化为行动。现在,这是应用还是研究方面的事情?研究人员更关注启用其他人将用来解决业务问题的基本工具。而应用人员会去寻找可用的工具,他们需要什么来解决这些问题。所以我不关注如何开发一个新的神经网络架构。我更关注的是,在商业领袖身上似乎有这种想法的萌芽。我们如何实现它,让它成为现实,建立一个团队来完成这项工作,然后确保从开始到结束的整个过程都经过深思熟虑并得到执行,最后,有一个安全可靠的结果。
你是做什么的?
Hugo:我认为,将这种形式的数据科学和应用数据科学作为一个分支学科,就像决策一样,是我们在这次对话中会越来越多地展开的内容。所以这真的很好地设置了场景。所以你说你的同事会将你视为应用数据科学的专家,并思考如何有效地使用机器学习。现在,你实际上是做什么的?他们对你所做的事情很满意吗?
凯西:他们很接近了。但我认为我关心的核心是统计学中第三类错误的概念。对于那些不记得你的错误的人,让我们快速提醒一下。第一种错误地拒绝了一个零假设。第二类错误地拒绝了无效假设,第三类正确地拒绝了错误的无效假设。或者,如果你更喜欢对同一件事的贝叶斯陈述,这是解决完全错误的问题的所有正确的数学。
雨果:太好了。你能给我举个第三类错误的例子吗?
凯西:是啊。因此,这是一个数据科学家小心翼翼地钻下去的兔子洞,小心翼翼地回答一个不需要回答的问题。因此,这可能是一些数据科学家听起来很熟悉的事情,我希望你不要太痛苦,因为这有点像新手抓住你,但它是这样的:你在那里,完成了本周的大部分工作。这可能是一个周五的下午 4 点,你为一个美好、自由的周末而兴奋,因为这是进入工业界而不再是学术界的全部意义。对吗?开玩笑的。不管怎样-
雨果:你一点也没开玩笑。
凯西:我是...好吧。我是开玩笑的。
雨果:当然。一点点。
凯西:是啊。好吧。
雨果:太好了。继续,继续。
凯西:好吧。我一点也没开玩笑。所以你在那里,你正准备回家,说一个产品经理来找你。带着这种紧迫感,他们想从您这里得到一个具体的测量值。或者回答的某个具体问题。你对自己说,“我的天哪。但这很难。那至少要花掉我整个周末。一直到深夜。我首先要想办法获取数据,然后我必须与数据工程师保持同步。我得在教科书上查找所有这些方法。这将是一件困难的事情。但你看,我是一个伟大的数据科学家,我可以做到这一点。我可以正确地做到这一点,我可以确保所有的统计假设都得到满足。到了周一早上,我会完美地交付这个东西。”所以在周一早上,你跪下来,向产品经理汇报这个结果。他们伸出头看着你,说,“哦。我甚至没有意识到这就是我所要求的。”
凯西:所以你在那里,一丝不苟,非常正确地解决了这个问题,但也相当无用。它没有任何发展,产品经理没有使用 ut 做任何事情,它只是被遗弃在丢失结果的沙发后面。这是第三类错误。
沟通和流程
雨果:那你怎么阻止这种事情发生呢?大概是在周五下午。大概涉及到沟通。对吗?
凯西:沟通是其中之一,但也是过程。因此,数据科学团队应该知道他们所依赖的其他利益相关者负责什么,以及这些工作看起来如何才能正确完成。所以我想谈谈这种数据科学的广度和深度方法。因此,一个严格的方法与一个更肤浅的,收集灵感的方法。第二个总是好的,只要你不会在上面浪费你的数据,希望你能尽快提醒我。但是,只要你有分配给灵感的数据,轻松、温和地查看它总是一个好主意。把你的眼睛放在那些数据上,看看它能激发你思考什么。它帮助你构建你的想法。
雨果:所以在这种情况下,我们正在考虑某种快速原型制作,以便-
凯西:我们在考虑一些更基本的东西。我们在考虑策划这件事。这与对一个具体而重要的目标的非常谨慎、严格的追求是分开的。首先,把这两者分开,说前者,那种宽泛的,浅显的方法,总是...这对每个病人都适用。我们就这么说吧。医生总是这样规定。只要你有多余的数据,就去做吧。但是不要把自己的结果看得太重,也不要做得太细致。
凯西:另一方面,这种更严格的方法需要付出很多努力。这不仅需要数据科学团队付出大量努力。这种情况下,问题是如何提出的,什么样的假设是可以接受的,等等,这实际上是决策者,商业领袖的责任。他们必须恰当地做好自己的工作,才能让这项细致的工作有意义。因此,如果你要去做一些严谨的事情,你需要确保这项工作是为你设计的。
雨果:对。因此,在这种情况下,数据科学家花了一个周末来解决这个问题,做了产品经理认为他们不会做的基本工作,解决这个问题的方法是做一些快速数据可视化,探索性数据分析,然后与产品经理就他们真正想要的进行对话。
凯西:我会说,事实上,正好相反。先和产品经理谈谈他们真正想要的是什么。如果他们想要的是情感上的东西,去感受一些东西,那就需要多打开一点,也许他们想要的是可能的,也许不是。也许看一看这些数据会产生他们想要的东西所需要的灵感。也许他们希望数据科学家是神灯中的精灵,可以实现不可能实现的愿望。因此,与他们交谈并弄清楚他们想要什么实际上应该是第一步。但比这更好的是,一个没有这种敌对关系的组织,假设产品经理不知道他们的角色。更好的方法是给项目配备训练有素、技术娴熟、知道如何做好本职工作的决策者,而数据科学家只需检查传入的请求。如果请求具有某种特征,他们会倾向于不做工作或做轻松的工作,如果请求具有不同的特征,他们会按照熟练的业务领导者所要求的严格和复杂程度,仔细、严谨和一丝不苟地做事。
雨果:我喜欢。因此,我们实际上是在明确地谈论,定义角色和定义围绕工作的流程-
凯西:当然。所以这可能会变得非常大和有趣,关于你如何安排这些团队,以及你如何安排这些过程。在最简单的形式下,它可以是谁以什么顺序与谁交谈的问题,但它可以比这大得多。
浪费数据
雨果:太好了。这是我们将在稍后的对话中深入探讨的,是这类工作的常见组织模式。但在此之前,我想提醒你一下,你之前提到的浪费数据的想法。或许你可以告诉我你这么说是什么意思。
凯西:当然。嗯,我们都在统计学和数据科学课上学到了一些相当简单明了的东西。不幸的是,我们最终有点忘记了。这是我们真的不应该忘记的事情。那就是,一个数据点可以用来激发灵感,或者严谨,但如果你在处理不确定性,如果你想超越你的数据,就不能两者都用。因为当你进行评估时,不管你的观点是否在现实和总体上成立,你都需要确保你检查了你的观点,而不是你用来形成观点的东西。因为我们人类是那种能在一片吐司中找到猫王的脸的生物。如果我们用同一块吐司来启发思考吐司是否看起来像猫王,然后回答吐司是否,总的来说,看起来像猫王,我们就有问题了。你需要去吃不同的吐司。
凯西:所以你可以用数据来获得灵感或严谨,但不能两者都用。所以,如果你用你所有的数据来获得灵感,找出你想问的问题,那么你就没有数据来严格地回答它们了。
Hugo:我认为可以对零假设显著性检验进行类似的比较。对吗?例如,你会做探索性的数据分析,开始注意到一些东西,然后在那里做一个测试,因为你在原始数据的零假设和替代假设中受到启发,你可能实际上过度拟合你的世界模型到那个数据集。
卡西:是的,我认为这种事情在现实世界中实际上会发生,因为学生在课堂上被教导的方式。所以在课堂上,让你看看一个玩具数据集的条件是有意义的,看看在那个数据集中什么样的假设可能成立,什么样的假设不成立,然后看看当你把一个特定的方法应用到那个数据集时是什么样子。这个可怜的玩具数据集会被撕成碎片,而你实际上可以合理地从中学习到什么,被学生和教授成千上万次地折磨这个可怜的小数据集。但这没关系,因为你在课堂上应该做的就是看看数学是如何与数据互动的。但是你会习惯这个想法,你首先被允许查看和检查这个数据集,然后你被允许对它应用算法或统计测试。
凯西:然而,在现实生活中,你最终会遇到这个问题,在这个过程中,你会使自己的结论无效。您真的不应该将同一个数据集用于这两个目的。你不应该选择你的统计假设,并当场测试它。我的意思是,像这样考虑一下:你在这里,有 x 变量和 y 变量,很好的散点图。你拿着这个小数据集,把它画出来,在你刚刚画出来的这个点云中,你会看到一个向上的,向上的,向右的上升的影子。你刚刚看到了这个,所以你问自己,"也许我可以画一条直线,看看我是否在统计上有显著的正相关。"恭喜你,你将会得到这样的结果,是的,你确实在统计学上有显著的正相关性,因为你首先被这些特殊的点是如何落在你的散点图上的启发而提出这个问题。你得出的结论可能与现实完全无关。如果你受到这个数据集的启发,去从物理现实中的相同过程中获得另一个数据集,并确保你的灵感在那里成立。
凯西:我们人类,我们确实看到方便、有趣的模式,无论我们对什么感兴趣,并且可能根本不触及现实。
Hugo:我们有几种方法来解决这个地方性的问题。当然,你提到的一点是,在对你的数据集进行探索性分析并提出假设之后,然后去收集更多的数据,这些数据是由相同的过程生成的。另一个当然是在开始查看任何数据之前的预注册技术。我想知道你有没有想过,或者你认为值得讨论的其他方法来帮助应对这个挑战。
凯西:实际上,问题在于数据分析的心理因素。你在找什么东西。当你寻找东西的时候,你的大脑是如何欺骗你的。数学技术应该帮助你做一些事情,比如在极端情况下用交叉验证进行验证,这些真的很容易被打破。从心理上来说,它们实际上并不能保护你不去做错误的事情。
凯西:所以我建议人们开始思考这个问题时,如果你与一个绝对想把你引入歧途并欺骗你的数据科学家竞争,当你给他们的过程施加某些约束时,他们还能给你一个坏结果吗?他们还能惹你吗?他们还能骗你吗?这些方法中的大部分...事实上,我想不出一个不是这样的,他们中的大多数人都容易受这种胡闹的影响。不幸的是,作为一名优秀的数据科学家,你可能会以同样的方式欺骗自己。
雨果:这非常有趣,因为我认为这暗示了一个事实,即由于我们的认知和心理偏见,我们不一定有好的技术。我们需要开发流程,但是我们还不一定有好的技术来处理这个问题。
凯西:当你谈到一项研究的预注册时,这与其说是一种技术,不如说是一种声明,即在这些数据中,你不会去调整你的观点和问题。所以你是说,在收集和处理这些数据之前,无论你的假设来自哪里,它现在都是固定的。不管怎么说,应该是这样的。所以即使你提出这个问题,把两者分开,实际上也是在说同一件事的两个方面。如果你想形成一个假设,去探索数据,但如果你打算去做一些严格的过程,你打算认真对待自己,就从轨道上抛弃数据集。你应该有你的整个问题,所有的假设,甚至所有的代码,最好在数据收集之前提交,但是一定要在数据碰到代码之前。
什么是决策智能?
Hugo:现在我想谈谈决策智能,你是谷歌云的首席决策科学家,你在决策智能领域工作。我想知道你能否为我们框定,决策智能实际上是什么,以及它与数据科学在整体上有何不同?
凯西:所以我喜欢把决策智能看作是数据科学,再加上社会和管理科学。专注于解决实际业务问题并将信息转化为行动。所以它以决策为导向。如果我们必须重新开始设计这样一门学科,我们会问每一门科学,这门科学对我们如何将信息转化为行动有什么看法?因为我们是一种动物,我们实际上是如何做到的呢?如果我们想要为一个特定的目标建立一个可靠的系统或可靠的结果,我们如何以一种实际上达到目标的方式去做,而不是走一条讨厌的弯路?
凯西:所以它非常面向过程。它非常注重决策。当然,其中很大一部分是应用数据科学。
为什么选择 data science plus plus?
Hugo:那么你能告诉我为什么数据科学 plus plus 吗?为什么这里有两个加号?
凯西:啊,我想是升级版的 plus plus。和语法中一样,你会得到 I+plus。我想,那只是一些可爱之处。但是想象一下这样的升级:一个数据科学家被教导如何分析调查数据,如何仔细思考大量的数学问题,如何处理如果他们的数据是连续的,如果他们是分类的,会发生什么。如果这个人使用了滑动标尺,等等呢?有多少问题?我们如何纠正这么多问题?诸如此类的事情。但是在他们的培训中,没有直接教给他们的是,如何构建这个调查?你如何确保调查最大限度地减少,比如说,回答偏差,也就是用户或参与者对你撒谎,给你错误的答案?你认为这项调查的最初目的是什么?我们为什么要这样做?调查是正确的方式吗?我们如何决定什么是值得衡量的?这些东西通常不会教给数据科学家。
凯西:所以,如果数据科学家希望他们的工作有用,那么有人,无论是他们自己还是队友,谁有能力彻底思考这些东西,就必须参与进来。
雨果:对。数据科学家参与从数据收集、实验设计、问题设计到实际决策过程的每一步,这重要吗?或者说,这是最好的情况吗?
凯西:那取决于你的预算是多少。对吗?如果你有无限的钱,也许你可以雇佣一个非常非常罕见的独角兽,他真的考虑过所有的事情,并且精通所有的事情。没有那么多这样的人。如果你打算雇佣他们,你必须付钱给他们。因此,打算以这种方式为你的项目配备人员,难怪你会抱怨人才短缺。所以事实是,你将不得不与跨学科团队合作。此外,即使你有一个人什么都懂,在一个大规模的项目中,仍然有比某人一天中几个小时所能做的更多的工作。那么,如果他们在任何情况下都必须在流程的不同部分工作,为什么你真的需要这些完全知识工人的完全相同的副本呢?因此,数据科学家将技能提升到极致,然后拥有一切,这是一个美好的梦想,但听起来不太现实。
凯西:相反,我认为他们最适合他们花了最多时间学习的部分。他们真正应该更担心的是,如何从负责流程其他部分的同事手中接过接力棒,并拥有检查该部分是否做得足够好的技能,以确保他们自己的工作是值得的。因为不幸的是,数据科学正处于这个过程的中间。它依赖于书挡。如果书立,比如决策方面、产品领导方面和社会科学方面,如果没有正确完成,或者如果在下游,你没有办法把它可靠地投入生产,即使原型有漂亮的数学,它在实践中实际使用起来也太乱了。那么数据科学家的工作就没有意义了。这就变成了第三类错误。
凯西:所以他们可能会和一个跨学科的团队合作。他们应该把重点放在能产生最佳影响的部分。
组织模式
雨果:太好了。所以就决策而言,我想了解这些团队。我喜欢你对我之前问题的回答是,“现实情况是……”我想更多地了解现实,我想更多地了解数据科学家及其工作如何被纳入或嵌入决策过程的实际性质。那么,你能告诉我一些最常见的组织模式吗?数据科学家是如何参与其中的?
凯西:是的,当然。一个显而易见的方法是收集大量的数据科学家,并将他们放在一个集中的数据科学团队中,这往往由他们的数据科学总监谨慎地指导,他将他们从最恶劣的第三类错误请求中缓冲出来,并确保组织的其他人将他们用于良好的目的,或者至少用于最有影响力的业务目的。这种结构中的初级数据科学家不需要驾驭政治。
凯西:还有另一种模式,就是在一个大型工程团队中安插一名数据科学家,让他们变得有用。
凯西:还有决策支持模型。在这种情况下,您可以将数据科学家添加到领导者中,数据科学家可以帮助领导者做出决策。
凯西:当然,还有数据科学家拥有大部分流程,尤其是决策。因此,在这里,数据科学负责构建决策环境,找出哪些问题甚至值得问,然后负责回答这些问题。
Hugo:我们有纯粹的数据科学团队、嵌入式工程、决策支持和作为决策者的数据科学家。我认为-
凯西:第五个将是决策智能选项,这是没有这些。
雨果:我期待着讨论这个问题。一般来说,数据科学家的决策顺序似乎是从少决策到多决策。这样说公平吗?
凯西:啊,很公平。
雨果:那么在这个光谱的不同点上有什么好处和坏处呢?
凯西:超级集权的一个明显的缺点是,如果你是一个小而杂乱的组织,那就忘了它吧。你不可能有这么大的数据科学组织。另一个不利之处是,他们倾向于做企业已经知道值得去做的事情。所以从某种意义上来说,这是一个亲。他们将与业务中最微妙或高价值的问题联系在一起。缺点是,可以灵活地帮助更广泛的组织抓住不寻常的机会,因为所有的请求都是通过这种单点发出的。这有助于使请求变得更加一致。这也意味着个体数据科学家与决策功能的接触非常少。那可能对他们有利。对于一个初级数据科学家来说,这可能是一件压力很大的事情。但是他们的工作和贡献很难通过这种方式得到关注。
凯西:所有这些真的都在数据科学领导的掌握之中。因此,如果他们的数据科学主管不知道他们在做什么,我们就有麻烦了。该行业确实面临着数据科学领导者短缺的问题。有些人自称为数据科学领导者或分析经理,但这些人可能并不真正知道如何玩组织政治。他们可能没有良好的商业意识。或者也许他们主要是领导者,他们拥有所有这些...他们渴望影响力,但他们不明白如何让数据科学团队变得高效。所以这可能会有一些问题。
凯西:嵌入工程:专业是你可以影响工程。然而,你最终会完成各种各样的任务,这些任务可能与数据科学有关,也可能无关。通常,工程团队并不真正知道你是哪种动物,也不真正知道你是干什么的,不知道你是否有用。他们认为你是一个不怎么样的程序员。“你怎么了?你一直在白板上忙乱的东西是什么?”你可能不被认为是非常有用的,你可能会发现自己承担了你可能不想做的产品管理任务,你不认为你将不得不做,你没有接受过培训。因此,你最终只能完成非专业的任务,而且没有针对你的政治缓冲。
Hugo:随着我们越来越多地向从事决策支持和决策者工作的数据科学家靠拢,这种情况也会发生吗?
凯西:这里也有一些元素。有了决策支持,领导者,一个好的领导者会很快想出如何让你变得有用。所以你不用花太多的时间四处游荡,甚至不去想如何在第一时间做出贡献。现在,你最好的贡献可能与你在研究生院花了这么多年学习的复杂方法无关,你的数据科学任务可能最终会被你可能正在做的其他事情冲淡。但是在这种情况下,你的价值会得到更好的保护。
Hugo:那么作为实际决策者的数据科学家呢?
凯西:当然,好处是在数据科学、工程和决策功能之间转换不会有这种损失,因为数据科学家拥有所有这些东西。缺点是,为了做到这一点,你需要真正获得几个黑带。如果你没有它们,你可能会认为你是有用的,但你可能弊大于利。因此,也许你认为你擅长理解业务影响,但实际上,你更擅长的是计算。你最终会把组织推入兔子洞,比没有你的时候更糟糕。所以你真的需要这些多重黑带,你需要明白你必须为这些事情分别培训。因为一个标准的培训计划并不能让你成为二合一或三合一的工人。
凯西:所以实际上,这是一种稀有动物。
作为决策情报人员的数据科学家
Hugo:当然,你提到的第五个模型,我现在想重点介绍一下,是作为决策情报人员的数据科学家。这里发生了什么?
凯西:所以将会有一些时间和人力资源分配到数据科学的分析或数据挖掘方面。因此,将对公司进行持续的暂停检查。因此,这种广泛的轻度接触分析将一直存在,无论谁最擅长在数据科学下工作,都会这样做,这在一定程度上是由领导层的需求驱动的,但也是由探索而不是利用的态度驱动的。
凯西:然后,如果需要其他的东西,为了完成这项工作,项目生命周期中会有一些必须完成的阶段。因此,这有点像这两种模式的结合,在这两种模式中,你被嵌入到工程中,或者你被嵌入到决策中,但是这种匹配发生在一个集中的劳动力池中,并且它发生在以所需的方式构建项目的基础上。例如,当你在一个项目中需要统计帮助时,你可能有决策支持框架。为了做到这一点,必须有一些特定的步骤,比如选择,如果你要走频繁主义的道路,选择默认的行动,决策者默认想要做什么,了解如何说服他们,他们的衡量标准是什么,这有点像通过社会科学的功能。他们在考虑什么样的人口。他们愿意处理哪些假设。这将是来自社会科学或数据科学的人与决策者一起工作,帮助他们构建决策环境。
凯西:一旦这些都准备好了,你就可以给项目配备真正能做繁重工作、计算和数据工作的员工。当然,您还需要为该项目配备数据工程人员。所以大家走到一起,就知道自己在那里是为了什么。
雨果:这实际上是一种更广泛的挑战。我的意思是,我们以前讨论过这个问题,但这种想法是,很多人在知道他们想回答什么问题之前,就想雇用数据科学家或进行机器学习或最先进的深度学习或人工智能。对吗?
凯西:是啊。所以你应该做的是...这是我给大家的建议。如果你不知道你想要什么,就把你的数据想象成阁楼上的一大堆旧照片。将分析或数据挖掘想象为将要进入阁楼的人或职能部门,他们实际进入阁楼查看数据的机会将得到数据工程的支持。他们会去阁楼,他们会把地板上那些大盒子的照片倒过来。他们会查看这些照片,然后向耐心等待的人总结他们所看到的,并询问这些人是否考虑用它做更多的事情。这种方法总是有意义的。你永远不会知道这堆照片里有什么。你永远也不会知道是否值得用它做任何严肃的事情。还因为这是一堆照片,你不知道是谁拍的,也不知道是出于什么目的,所以除了照片之外,你不应该了解任何东西。
凯西:所以,作为公民,我们已经知道如何思考一堆照片,或者你在路边发现的一张照片。你唯一能合理解释的是,“嘿,这就是这里的东西。”这启发了我吗?它让我做梦了吗?它让我想问关于这个世界的其他问题吗?当然可以。也许吧。但是我会认真对待这些吗?不,当然不是。这是一些照片,众所周知,数据科学本质上是 Photoshop,我们不太清楚那张照片是如何拍摄的,也不知道为什么拍摄。我们不能据此做出严肃的决定。但是看一看总是有意义的。只要你继续合理地思考它,就像你思考那些照片一样。所以这对每个项目都有好处。如果任何团队,任何组织说,“我想多了解一点我的数据。我想挖掘我的数据,看看我的数据,找出里面有什么,”这总是一件好事。
凯西:但是现在,如果你不能真正控制这些数据的质量,你可能会非常小心、严格地处理这些数据。照片都是空白的。对吗?没有任何意义。或者也许它们都是以一种完全不可靠的方式拍摄的,对于你想要回答的问题,因为你实际上没有计划数据收集,所以如果你看我在旅行中拍摄的照片,你会注意到所有这些超级旅游地标。然而,不知何故,我是唯一一个在那个地标拍照的人。根据我的一堆照片,你无法断定有多少人会去这些地标。但是你仍然可以看一看,只要你不把它们看得太重,然后你可能会开始考虑你可能想用它们做的事情。当你开始弄清楚你可能喜欢做什么时,你就开始朝着那个目标计划整个过程。然后开始考虑雇佣能做额外工作的人是有意义的。
为什么如此多的组织无法正确使用数据科学?
Hugo:那么 Cassie,考虑到在决策过程中嵌入数据科学家的各种不同模型,我想知道为什么这么多组织未能使用数据科学来正确和可靠地制定决策。
凯西:嗯,这归结为一个将信息转化为行动的问题,以及决策者如何组织和培训来做到这一点。因此,这可能是因为决策者实际上不知道他们自己在流程中的角色是什么,他们不知道如何正确地为数据科学项目构建决策环境,而不仅仅是数据挖掘和分析,这种广泛而肤浅的方法。在没有决策者控制过程的情况下,有意义的是一个好的、肤浅的、广泛的数据挖掘方法。挖掘一切寻找灵感,不要太把自己当回事。不要花费太多精力。如果你只是坚持这一点,你真的,真的不把自己看得比你应该的更重要,最大的危险是在人事上超支。也许你已经雇佣了一群教授,现在你已经用他们完成了一些任务,这些任务在他们看来太简单了,因为他们受过严格的训练。
凯西:但是,往往会发生的是,决策者最终没有正确地深入细致、严谨的工作。所以,也许他们只是雇了一群数据科学家,然后把他们留在一个房间里,独自一人。他们没有给他们任何指示,然后当从那个房间出来的唯一东西是研究白皮书时,他们感到惊讶。也许有这样一种情况,所有那些为了追求研究和严谨而追求研究的人,因为这是最舒适的事情,他们在研究培训中的舒适模式,这些人并不真正有资格诊断什么对业务有用,决策功能只是让他们自己去做。
凯西:这可能是整个组织不理解灵感和严谨之间的区别,以及如何在这些事情上使用数据,以及每个需要多少努力的情况。所以另一个失败是你得到相反的结果。你最终使用数据来获得灵感,然后你认为你已经做了一些严谨的事情,而你实际上并没有。你开始把这些结果看得比你应该的更严重。你变得过于自信,一头撞墙。
凯西:组织面临的另一个问题是,使用数据科学工作的成果作为一种在会议上打击决策者的方式非常方便。所以每个人都想就一个无法用数据解决的问题进行辩论并提出自己的个人观点,真的。这可能与组织的战略有关,而不是谦逊地坚持,拥有你不知道的东西,并使用争论来与你的决策者同事讨论下一步应该做什么,你带来一些高深莫测的报告,这些报告被方程覆盖,你说,“因为我的神奇数据科学家说过,这是事实。”但是,你知道统计推断,你知道问题几乎比答案更重要。如果你所做的只是带来一个答案,那么,这个答案可能是,也可能不是,其他所有人都在问或假设的问题的答案。这就像道格拉斯·亚当斯的事情,你只是把 42 带到会议上,你说看看所有这些让我们达到 42 的方程。因为上面写着 42,所以我是对的。其实没多大意义。需要很大的努力。而且浪费了很多时间。
凯西:此外,还有一个错误的决策责任委派的因素。在这种情况下,有些人希望承担决策责任,他们希望严格地制定决策,但他们希望更多的决策超出他们实际上有时间处理的范围。因此,他们有点自欺欺人,认为自己可以成为决策者,而无需花时间来实际构建决策环境、通过假设进行思考、与数据科学团队合作等等。所以最终发生的是,职位比他们低的人最终篡夺了这些角色,并以他们自己的方式做出决定。也许他们做得很严谨,也许没有,然后花费数据科学团队的所有精力来说服或说服这个假装的决策者,这实际上是他们的想法。现在,有一个大惊小怪的因素,如果决策责任被适当地委派,这是可以避免的。没必要搞这种篡夺的东西。如果你没有时间付出必要的努力,那么把这个决定交给有时间的人,如果他们打算以这种密集的统计方式仔细、严格地追求它。或者说,“我们将基于灵感。这将是一个轻松的分析和策划案例,但我们不会让自己变得比我们的方法更自信。”
凯西:所以,实际上,大多数脱节要么与被雇佣的人有关,要么与决策者自己不知道他们自己的角色是什么有关,因为他们是启动整个过程的人。他们有能力做到这一点真的很重要。
数据素养
Hugo:关于一个组织中有多少人能说数据,是否存在另一种脱节,即数据素养和数据流畅性不一定在组织中传播或分布。我想我的问题是:在你见过的组织中,数据素养是如何在组织中传播的,你希望看到这种变化是怎样的?
凯西:所以我在这里不会特别针对谷歌。我要说得更笼统一些,一次说我们所有人。
凯西:在这个世界上,数据素养处于一种令人遗憾的状态。至少从我的角度来看,我真的希望我们在这方面做得更好。我们惊人地擅长通过照片数据进行思考。我们很讲道理,很讲道理...我们仍然可能做一些愚蠢的事情。但是我们对此是相当合理的。我们相当合理地笑着说,“哦,哈哈,书里说的并不意味着这是真的。”但不知何故,当它涉及到数学和数据时,我们开始用大写的 D 来读数据,好像它是一些客观真理的来源,与最初决定收集它的人类完全无关,并决定他们将如何收集它以及为什么收集它。所以数据素养处于一个令人遗憾的状态。我在这个世界上不断看到的是,我们缺乏谦逊地说,“嗯,如果我们的团队中没有人可以扮演这个角色,没有人有能力承担决策者的角色,那么我们就不应该太把自己当回事。”
凯西:相反,你在野外看到的是,这些团队配备了非常细致的数学头脑和不熟练的决策者,整个团队,整个团队...因此,我看到世界上缺少的是谦逊地说“认真对待我们自己实际上需要工作,需要技能”的团队。如果我们缺乏这些技能,我们将无法做到。我们能从中获得的最好的东西与我们从一堆照片中获得的东西是一样的。”这实际上还是有意义的。令人惊讶的是,我们有能力拿一个 SD 卡,当它放在你的手掌中时,对你来说毫无意义,你把它插到你的计算机上,你使用一些可视化软件,我不知道,微软画图,或其他东西,现在你可以得到灵感,看看那里有什么。这是一件非常强大的事情。这对每个人都有好处。每个人都应该在更多的数据类型上做更多的工作。
凯西:但不要以为任何旧数据加上非常复杂的数学就能无中生有。例如,不确定性中的确定性。缺乏基本初始技能的良好决策过程。我喜欢说灵感是廉价的,但严谨是昂贵的。如果你不愿意付钱,不要指望有什么神奇的公式会给你。没有数据素养,请不要尝试做非常复杂的事情。
数据科学和决策科学的未来
Hugo:对,这就是数据科学、决策、决策智能和数据素养的现状。在你看来,数据科学和决策科学的未来以及它们的交集是什么样的?
凯西:随着我们开始用数据做更多的事情,我希望看到这个世界提高决策技能的质量,启动并指导这些项目,不断发展。我们真的承受不起大规模数据自动化,以及基于糟糕的决策技能的一切。这对做这件事的公司来说将是一场灾难。因此,我们必须更加认真地对待这些技能,而不是仅仅把它视为你有天赋或才能的东西。但是,即使我认为无论我们现在学习还是以后艰难地学习,这些技能都会变得更好,但它们不一定要完全由目前授予他们决策责任的人来承担。还有另一个选择。
凯西:另一个选择是雇佣一个能帮你进行严谨思考的助手。科学决策的一部分可以由科学家来完成,帮助拥有直觉和政治等相关部分的决策者。所以,如果你不想亲自去学习,你可以雇一个帮手来提升你的技能。但我确实认为,总的来说,未来需要我们更加认真地对待第一点。
行动呼吁
雨果:那么在未来,我的最后一个问题是:你对我们的听众有最后的行动号召吗?
凯西:是的,两个。第一,是时候把我们的注意力从单纯的研究转移到选择你是想做研究,还是想做应用的东西。这两者都是同等有价值的重要方法。其中一个现在人手严重不足。我可以说两者都是,如果你想进入这个领域,这是一个非常令人兴奋的时刻,因为随着研究人员制造的通用技术变得更容易应用,这将变得越来越重要。对此我有一个类比,研究人员可能是制造微波的人,新的更好的微波。而应用型人才考虑的是大规模的厨房和食谱创新。我想指出的是,如果你想说,创建麦当劳,仅仅因为你不必为你自己的微波炉布线并不意味着这很容易。因此,对于一个新的研究领域和新的学科来说,这是一个激动人心的时刻。
凯西:我想留给你们的另一件事是,这个世界正在产生越来越多的数据。我们真的应该让这些数据变得有用。在第三种错误上浪费我们所有的时间和资源是一件非常可悲的事情。所以我们真的是时候认真对待这个问题了,因为我们已经有太多了。让我们用它做些有益的好事。
Hugo:我很喜欢这一点,因为这真的让我们的对话进入了一个完整的循环,在我们的对话开始时,你说你所做的很大一部分工作是帮助团队避免或降低数据科学中第三类错误的发生率。实际上,我们已经兜了一圈。这是行动的号召之一。对吗?我们一起工作,使用数据和建模技术,质疑我们越来越降低第三类错误的能力。
凯西:是的,当我回想我们的谈话时,我认为我对决策智能整体的伤害是,我真的和你谈了很多关于数据科学家的事情。我讲了很多关于决策者的内容。我隐约提到了社会科学家。但这是一个更加多样化的游戏。我真的忽略了所有其他应该参与的人。工程师,可靠性专家,伦理学家,设计师。在这个领域有许多重要的工作要由各种各样的人来做。我想请那些因为这不适用于他们而正在考虑溜之大吉的人重新考虑一下。决策对我们所有人都很重要。如果我们要认真和大规模地做这件事,那么如果你对把信息转化为行动有什么要说的,每个人都可以发挥作用。
雨果:我完全同意。凯西,很高兴你能来参加这个节目。
凯西:非常感谢你。
庆祝我们的 50+数据营捐赠合作伙伴
DataCamp 捐赠规模翻倍!
在我们的上一次 DataCamp 捐赠更新中,我们宣布我们已经向非营利组织捐赠了超过 10,000 份高级 DataCamp 订阅,以帮助全球弱势学习者。我们还承诺捐赠 25,000 份订阅的更大目标。
六个星期后,我们兴奋地报告说,DataCamp 捐赠计划的规模几乎翻了一番!我们现在已经向 50 多个非营利合作伙伴承诺了 20,000 份订阅。由于我们合作伙伴的外联和参与努力,DataCamp 捐赠订阅已分发给各大洲 60 多个国家的学习者。
欢迎新伙伴
是什么导致了免费数据营访问的爆炸?我们的一些最新合作伙伴,如 Code for Nepal 和 Open Knowledge Nepal 正在合作开展大型活动,以使偏远社区数字化和数据流畅。我们的许多合作伙伴组织,如数据科学 Fem 和 Ingressive For Good ,正在走出自己的国家,寻找在当今严峻的经济形势下需要帮助的全球学习者。DataCamp Donates 已经扩展到公立高中,为高中黑客马拉松的参与者提供免费订阅,如 MakeSPP 和 CincyHacks 2021 。更多的合作伙伴已经将我们的计划传播给了他们社区中的其他非营利组织,产生了积极变化的滚雪球效应。
但最重要的是,这些组织和他们的学习者正在发现 DataCamp 平台对于在家工作时的职业发展和工作安置是多么有益。有了这样的成功案例,我们相信 DataCamp 的捐赠可以填补日益增长的全球技术技能缺口。
注册数据营捐赠!
你知道任何公立高中或非营利组织可以从与 DataCamp 的合作中获益吗?我们还有 5000 多份套餐可以赠送—请在 【电子邮件保护】 申请!
呼吁世界各地所有学生、失业者和低薪的有志数据专业人士:我们的数据营捐赠合作伙伴可能能够为您提供一年的免费数据营,如果您满足他们的会员资格要求,这因组织而异。访问我们的常见问题解答找到离您最近的组织,并直接联系他们以获取更多信息。
用数据营的捐赠改变世界各地的生活
https://web.archive.org/web/20220705001852if_/https://www.youtube.com/embed/75KN2vENEMQ?start=230
作为 DataCamp 的社区伙伴关系经理,我坚信 DataCamp 捐赠是为弱势社区服务的学校和非营利组织教授数据素养的最佳方式。
3 月 26 日星期五,我有幸与以下小组成员讨论了 DataCamp 捐赠在美国、尼日利亚、巴基斯坦、瑞典和菲律宾的影响:
- Zeeshan Usmani ,数据科学,AI 伦理学&区块链思想领袖在巴
- Isabel Sieh,女孩将在菲律宾编码的创始人兼执行董事
- 肖恩·布伦斯,尼日利亚公司的联合创始人兼首席执行官
- Mari Haraldsson ,项目经理,瑞典超级岛的数据分析师项目
- Kelsey Wu,哈佛广场数据分析集团首席战略官,世界银行数据政策
- Felix Ayoola ,品牌、产品&体验设计师,非统组织学生,尼日利亚数据营布道者
收听我们的对话,了解他们的社区如何利用免费的 DataCamp 访问来培训和雇用全球数千名学习者。
机器学习中的分类:导论
如今,许多行业都在处理不同类型的大型数据集。手动处理所有这些信息可能非常耗时,甚至从长远来看可能不会增加价值。从简单的自动化到机器学习技术,许多策略正被应用于更好的投资回报。这个概念博客将涵盖一个最重要的概念;机器学习中的分类。
我们将从定义什么是机器学习中的分类开始,然后明确机器学习中的两类学习者以及分类和回归的区别。然后,我们将介绍一些可以使用分类的真实场景。之后,我们将介绍所有不同类型的分类,并深入探讨一些分类算法的例子。最后,我们将提供一些算法实现的实践。
机器学习中的分类是什么?
分类是一种受监督的机器学习方法,其中模型试图预测给定输入数据的正确标签。在分类中,使用训练数据对模型进行全面训练,然后在用于对新的未知数据执行预测之前,对测试数据进行评估。
例如,一种算法可以学习预测给定的电子邮件是垃圾邮件还是 ham(没有垃圾邮件),如下所示。
在深入分类概念之前,我们先来了解两类学习者在分类上的区别:懒惰型和求知欲型学习者。然后我们会澄清分类和回归之间的误解。
懒惰的学习者与渴望的学习者
机器学习分类中有两种类型的学习者:懒惰型和渴望型学习者。
渴望学习者是机器学习算法,首先从训练数据集建立模型,然后对未来数据集进行任何预测。他们在训练过程中花费更多的时间,因为他们渴望在训练过程中通过学习权重得到更好的概括,但是他们需要更少的时间来进行预测。
大多数机器学习算法都是积极的学习者,下面是一些例子:
- 逻辑回归。
- 支持向量机。
- 决策树。
- 人工神经网络。
另一方面,懒惰的学习者或基于实例的学习者不会立即从训练数据中创建任何模型,这就是懒惰方面的来源。他们只是死记硬背训练数据,每次有需要做预测的时候,就从整个训练数据中搜索最近邻,这使得他们在预测的时候非常慢。这类例子有:
- k-最近邻。
- 基于案例的推理。
但是,一些算法,如 BallTrees 和 KDTrees ,可以用来改善预测延迟。
机器学习分类与回归
机器学习算法主要有四类:监督、非监督、半监督和强化学习。
尽管分类和回归都属于监督学习的范畴,但它们并不相同。
- 当目标变量离散时,预测任务是一个 分类 。应用是对一段文本的潜在情感的识别。
- 当目标变量连续时,预测任务是一个 回归 。一个例子可以是给定一个人的教育程度、以前的工作经验、地理位置和资历水平来预测其工资。
如果你有兴趣了解更多关于分类的知识,关于 scikit-learn 的监督学习和 R 中的监督学习的课程可能会有所帮助。它们让您更好地理解每个算法如何处理任务,以及实现它们所需的 Python 和 R 函数。
关于回归,R 中的回归介绍和 Python 中的【statsmodels 回归介绍将帮助您探索不同类型的回归模型以及它们在 R 和 Python 中的实现。
现实生活中机器学习分类的例子
监督机器学习分类在我们日常生活的多个领域中有不同的应用。下面是一些例子。
卫生保健
基于历史患者数据训练机器学习模型可以帮助医疗保健专家准确分析他们的诊断:
- 在新冠肺炎疫情期间,机器学习模型被实施来有效地预测一个人是否患有新冠肺炎。
- 研究人员可以使用机器学习模型来预测未来更有可能出现的新疾病。
教育
教育是处理最多文本、视频和音频数据的领域之一。这种非结构化信息可以在自然语言技术的帮助下进行分析,以执行不同的任务,例如:
- 按类别对文档进行分类。
- 在申请过程中自动识别学生文档的潜在语言。
- 学生对教授反馈意见的分析。
运输
交通运输是许多国家经济发展的重要组成部分。因此,各行业正在使用机器和深度学习模型:
- 来预测哪个地理位置的车流量会上升。
- 预测由于天气条件在特定地点可能发生的潜在问题。
持续农业
农业是人类生存最有价值的支柱之一。引入可持续性有助于在不破坏环境的情况下提高农民的生产力:
- 通过使用分类模型来预测哪种类型的土地适合特定类型的种子。
- 预测天气,帮助他们采取适当的预防措施。
机器学习中不同类型的分类任务
在机器学习中有四种主要的分类任务:二进制、多类、多标签和不平衡分类。
二元分类
在二元分类任务中,目标是将输入数据分为两个互斥的类别。这种情况下的训练数据以二进制格式标记:真和假;正反;o 和 1;垃圾邮件和非垃圾邮件等。这取决于要解决的问题。例如,我们可能想要检测给定图像是一辆卡车还是一艘船。
逻辑回归和支持向量机算法本来就是为二元分类设计的。然而,诸如 K-最近邻和决策树的其他算法也可以用于二进制分类。
多类分类
另一方面,多类分类具有至少两个互斥的类标签,其目标是预测给定输入示例属于哪个类。在下面的例子中,模型正确地将图像分类为平面。
大多数二元分类算法也可以用于多类分类。这些算法包括但不限于:
- 随机森林
- 朴素贝叶斯
- k-最近邻
- 梯度推进
- SVM
- 逻辑回归。
但是等等!你不是说 SVM 和 Logistic 回归默认不支持多类分类吗?
→没错。然而,我们可以应用二进制转换方法,例如一对一和一对全部,以使本地二进制分类算法适应多类分类任务。
一对一:这种策略训练与标签对一样多的分类器。如果我们有一个 3 类分类,我们将有三对标签,因此有三个分类器,如下所示。
一般来说,对于 N 个标签,我们将有 Nx(N-1)/2 个分类器。每个分类器在单个二进制数据集上训练,并且通过所有分类器之间的多数投票来预测最终类别。一对一方法最适合 SVM 和其他基于内核的算法。
One-versus-rest :在这个阶段,我们首先将每个标签视为一个独立的标签,而将其余的标签组合起来仅视为一个标签。对于 3 类,我们将有三个分类器。
一般来说,对于 N 个标签,我们会有 N 个二元分类器。
多标签分类
在多标签分类任务中,我们试图为每个输入示例预测 0 个或更多个类别。在这种情况下,不存在互斥,因为输入示例可以有多个标签。
这种情况可以在不同的领域中观察到,例如自然语言处理中的自动标记,其中给定的文本可以包含多个主题。与计算机视觉类似,图像可以包含多个对象,如下图所示:模型预测图像包含:一架飞机、一艘船、一辆卡车和一只狗。
不可能使用多类或二元分类模型来执行多标签分类。然而,用于这些标准分类任务的大多数算法都有其用于多标签分类的专用版本。我们可以举出:
- 多标签决策树
- 多标签梯度增强
- 多标签随机森林
不平衡分类
对于不平衡分类,示例的数量在每个类中分布不均匀,这意味着在训练数据中,一个类可能比其他类更多。让我们考虑下面的 3 类分类场景,其中训练数据包含:60%的卡车、25%的飞机和 15%的船。
不平衡分类问题可能出现在以下场景中:
- 金融行业欺诈交易检测
- 罕见病诊断
- 客户流失分析
使用传统的预测模型,如决策树、逻辑回归等。在处理不平衡数据集时可能无效,因为它们可能偏向于预测具有最多观察值的类,而将那些数量较少的类视为噪声。
那么,这是否意味着这些问题已经被抛在脑后了呢?
当然不是!我们可以使用多种方法来解决数据集中的不平衡问题。最常用的方法包括采样技术或利用成本敏感算法的力量。
取样技术
这些技术旨在通过以下方式平衡原件的分发:
- 基于聚类的过采样:
- 随机欠采样:从多数类中随机剔除样本。
- SMOTE 过采样:从少数类中随机复制样本。
成本敏感算法
这些算法考虑了错误分类的代价。他们的目标是最小化模型产生的总成本。
- 成本敏感的决策树。
- 成本敏感的逻辑回归。
- 代价敏感支持向量机。
评估机器学习分类算法的度量
既然我们对不同类型的分类模型有了一个概念,那么为这些模型选择正确的评估指标就变得至关重要了。在本节中,我们将涵盖最常用的指标:准确度、精确度、召回率、F1 评分、ROC(受试者操作特征)曲线下面积和 AUC(曲线下面积)。
深入研究分类算法
我们现在已经有了所有的工具来实现一些算法。本节将介绍四种算法及其在贷款数据集上的实现,以说明一些之前介绍过的概念,尤其是对于使用二元分类任务的不平衡数据集。为了简单起见,我们将只关注四种算法。
我们的目标不是要有最好的模型,而是说明如何训练下面的每一个算法。源代码可以在 DataCamp 工作区上获得,在这里你可以一键执行一切。
数据集中贷款的分布
- 查看数据集中的前五个观察值。
import pandas as pd
loan_data = pd.read_csv("loan_data.csv")
loan_data.head()
- 数据集中的借款人资料。
import matplotlib.pyplot as plt
# Helper function for data distribution
# Visualize the proportion of borrowers
def show_loan_distrib(data):
count = ""
if isinstance(data, pd.DataFrame):
count = data["not.fully.paid"].value_counts()
else:
count = data.value_counts()
count.plot(kind = 'pie', explode = [0, 0.1],
figsize = (6, 6), autopct = '%1.1f%%', shadow = True)
plt.ylabel("Loan: Fully Paid Vs. Not Fully Paid")
plt.legend(["Fully Paid", "Not Fully Paid"])
plt.show()
# Visualize the proportion of borrowers
show_loan_distrib(loan_data)
从上面的图表中,我们注意到 84%的借款人偿还了贷款,只有 16%没有偿还,这使得数据集非常不平衡。
变量类型
在此之前,我们需要检查变量的类型,以便我们可以对那些需要编码的变量进行编码。
我们注意到所有的列都是连续变量,除了需要编码的目的属性。
# Check column types
print(loan_data.dtypes)
encoded_loan_data = pd.get_dummies(loan_data, prefix="purpose",
drop_first=True)
print(encoded_loan_data.dtypes)
将数据分为训练和测试
X = encoded_loan_data.drop('not.fully.paid', axis = 1)
y = encoded_loan_data['not.fully.paid']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30,
stratify = y, random_state=2022)
抽样策略的应用
这里我们将探讨两种采样策略:随机欠采样和 SMOTE 过采样。
随机欠采样
我们将对多数类进行欠采样,它对应于“完全支付”(类 0)。
X_train_cp = X_train.copy()
X_train_cp['not.fully.paid'] = y_train
y_0 = X_train_cp[X_train_cp['not.fully.paid'] == 0]
y_1 = X_train_cp[X_train_cp['not.fully.paid'] == 1]
y_0_undersample = y_0.sample(y_1.shape[0])
loan_data_undersample = pd.concat([y_0_undersample, y_1], axis = 0)
# Visualize the proportion of borrowers
show_loan_distrib(loan_data_undersample)
SMOTE 过采样
对少数类执行过采样
smote = SMOTE(sampling_strategy='minority')
X_train_SMOTE, y_train_SMOTE = smote.fit_resample(X_train,y_train)
# Visualize the proportion of borrowers
show_loan_distrib(y_train_SMOTE)
应用抽样策略后,我们观察到数据集平均分布在不同类型的借款人中。
一些机器学习分类算法的应用
本节将对 SMOTE 采样数据集应用这两种分类算法。同样的训练方法也可以应用于欠采样数据。
逻辑回归
这是一个可以解释的算法。它通过使用 sigmoid 函数模拟数据点属于给定类别的概率来对数据点进行分类。
X = loan_data_undersample.drop('not.fully.paid', axis = 1)
y = loan_data_undersample['not.fully.paid']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.15, stratify = y, random_state=2022)
logistic_classifier = LogisticRegression()
logistic_classifier.fit(X_train, y_train)
y_pred = logistic_classifier.predict(X_test)
print(confusion_matrix(y_test,y_pred))
print(classification_report(y_test,y_pred))
支持向量机
该算法可用于分类和回归。它通过使用最大化边缘原则来学习绘制超平面(决策边界)。这个决策边界通过两个最接近的支持向量来绘制。
SVM 提供了一种称为内核技巧的转换策略,用于将非学习者可分离的数据投影到更高维空间,使它们线性可分离。
from sklearn.svm import SVC
svc_classifier = SVC(kernel='linear')
svc_classifier.fit(X_train, y_train)
# Make Prediction & print the result
y_pred = svc_classifier.predict(X_test)
print(classification_report(y_test,y_pred))
这些结果当然可以通过更多的功能工程和微调来改进。但是它们比使用原始的不平衡数据要好。
XGBoost
这个算法是一个著名的梯度提升树算法的扩展。这是一个伟大的候选人不仅打击过度拟合,而且速度和性能。
为了不让它变长,可以参考 Python 中的基于树的模型的机器学习和 R 中的基于树的模型的机器学习。从这些课程中,您将学习如何使用 Python 和 R 来实现基于树的模型。
结论
这篇概念性的博客涵盖了机器学习中分类的主要方面,也为你提供了一些它们应用于不同领域的例子。最后,在执行欠采样和 SMOTE 过采样策略以生成用于模型训练的平衡数据集之后,介绍了逻辑回归和支持向量机的实现。
我们希望它能帮助你更好地理解机器学习中的分类这个主题。你可以通过跟随拥有 Python track 的机器学习科学家来进一步学习,它涵盖了监督、非监督和深度学习。它还很好地介绍了自然语言处理、图像处理、Spark 和 Keras。
SVM 流行的核有线性核、多项式核、高斯核、径向基函数(RBF)、拉普拉斯 RBF 核、Sigmoid 核、 Anova 核、贝塞尔函数核。
分类是一种有监督的机器学习方法,用于预测给定输入数据的正确标签。
我们可以使用 SVM 和神经网络。
有多种算法,但最流行的包括 k 近邻、决策树、朴素贝叶斯、随机森林和梯度推进。
当处理小数据集时,逻辑回归、支持向量机和朴素贝叶斯往往具有更好的泛化能力。
教师如何组织数据营课堂:团队和作业
创建团队
作为一名 DataCamp 组管理员,您拥有多种能力。其中之一就是创建团队来组织你的成员。管理许多学生可能会有压力,因此在团队功能的帮助下,您可以在平台本身中创建小组,并组织您的课堂。在那里,您可以查看各自团队中的所有学生,并为他们分配活动。
例如,如果你在一周的不同时间给三组不同的学生教同一门课,你可以为每组学生组成一个小组。或者同一班级内的小组项目呢?问题解决了。你甚至可以创建任意多的团队。教室管理怎么样?
创建不同学生的团队再简单不过了。一切都从你第一次拥有自己的教室开始。教师可以通过访问 DataCamp 教室网页申请教室。你所需要做的就是填写申请表,一旦他们被批准,就可以免费使用 DataCamp 六个月!
现在你已经准备好创建团队了。选择您的 DataCamp 教室组,并导航到左侧边栏上的团队选项。你可以给你的团队一个名字和一种颜色。您的团队现已创建。
创建团队后,现在是邀请学员的时候了。您可以通过键入成员的电子邮件地址来邀请他们,或者如果您的学术机构共享一个电子邮件域,您可以创建一个邀请链接。您还可以在 members 部分向任何团队添加预先存在的成员,个人可以加入多个团队。
如果你有很多学生和团队,指派团队经理会很有帮助。团队经理还可以专门为自己的团队创建任务,并查看团队成员的活动——非常适合教学助理!
分配任务
作业给你的学生提供了要完成的目标,也给你,他们的老师,提供了对他们进步的全面了解。在左侧的同一个侧边栏中,Assignments 为您提供了为您的班级创建的所有作业的视图。通过点击“创建任务”按钮,您可以创建不同类型的任务。你可以让你的学生获得一定数量的经验值,或者让他们完成一个技能轨道,比如 Python 中的金融基础。一旦你选择了要分配的作业类型,就要设定一个截止日期,并给你的学生一个个性化的信息。一旦任务完成,你就可以积极地监控全班的成绩状况,看看谁迟到了,谁准时了。
在 DataCamp 教室中创建作业是跟踪学生数据科学学习进度的最有效方式。设置作业时,您可以对发送给学生的电子邮件进行个性化设置,以便为他们提供所需的所有信息。
通过在 DataCamp 上分配内容,您可以实时查看哪些学生已经完成或仍在完成作业。临近到期日时,系统会自动向学生发送电子邮件提醒。
在指定时间段结束时,您将访问显示学生提交内容的指标,分为三组:已完成、迟交和未交。这些数字总结在你的完成率中。此外,如果你分配一项技能评估任务,学生的总体分数将显示为新手、中级或专家。
使用我们的内置功能分配 DataCamp 内容不仅对您有帮助,对您的学生也有帮助。学生可以使用他们自己的学习仪表板来查看他们已完成和待完成的作业。
针对所有数据营管理员
管理你的班级并不困难,因为这些方法可以让你的学生体验个性化。这些功能也适用于 DataCamp 团队和企业帐户的所有管理员!像这样有组织的设置可以帮助您的学员找到成功之路,并充分利用 DataCamp 的平台。
以您喜欢的任何方式使用这两项功能,为您的学习者打造更加个性化和独特的数据科学之旅。
今天就开始打造你的教室
世界各地的大学、学院和学术机构的教师都有资格通过 DataCamp 教室免费获得六个月的 DataCamp 访问权限。美国、英国、比利时、波兰和澳大利亚的高中教师和学生也可以使用 DataCamp 教室,更多国家也将陆续推出。
今天就申请以正确的方式开始你的秋季学期!
面向数据科学家的云计算和架构
超越本地机器的可扩展数据科学
数据科学是一个代表许多重要事物的交集的术语。在我的一篇题为什么是数据科学,数据科学家做什么?,我讨论我称之为的数据科学专业知识的支柱。
这些专业支柱包括:
- 商业领域
- 概率与统计
- 计算机科学和软件编程
- 书面和口头交流
第三个所谓的支柱是对计算机科学和软件编程的理解。
虽然对于后起之秀的数据科学家来说,这可能不是显而易见的,但这一领域通常还包括 devops、云计算、数据管道、数据工程、查询不同类型数据库的专业知识、构建和部署生产软件解决方案等等。
此外,数据科学家需要培养扎实的编程技能,但他们在计算机科学、编程概念或一般生产软件架构和基础设施方面的教育和经验可能不如训练有素或经验丰富的软件工程师。当任何人开始学习数据科学时,他们会发现自己在本地计算机上安装 Python 和/或 R,然后在本地集成开发环境(IDE)中编写和执行代码,如 Jupyter Notebook 应用程序或 RStudio。
此外,随着高级分析变得越来越普遍,数据科学团队不断壮大,对提供洞察、预测分析、推荐系统等的协作解决方案的需求也越来越大。可重复的研究和笔记本工具与代码源代码控制相结合是协作解决方案的一部分,同时在另一方面利用基于云的在线协作工具和平台。
协作需求还扩展到包括数据科学团队以外的人员,特别是因为数据科学主要是为了实现业务目标而部署的。因此,数据科学项目的利益相关者可以包括高管、部门领导和其他数据团队成员,如架构师、数据工程师、分析师等。
本文旨在让数据科学家了解本地笔记本电脑或台式机之外的东西,特别是在将数据科学解决方案投入生产的背景下,或者在扩展您的计算能力方面。根据您对这些特定主题的体验,这些内容应该与所有技能水平的数据科学家相关。
我们开始吧!
云到底是什么?
啊,对了,臭名昭著且仍不为人所知的云。除了听起来非常假设和抽象,云实际上在它的预期意义上是非常具体的。在讨论云的概念之前,让我们先定义一些关键概念。
连接在一起共享资源的计算机被称为网络,互联网本身就是计算机网络的最大和最著名的例子。家庭网络是另一个例子,例如局域网(LAN)或 WiFi 服务集标识符(SSID ),其中连接了多台计算机,尽管它们小得多。这里描述的资源可以包括网页、媒体、数据存储、应用服务器、打印机等。
网络中的计算机通常被称为节点,它们使用定义良好的协议相互通信,如超文本传输协议(HTTP)、传输控制协议(TCP)/互联网协议(IP)等。这些通信可以用于状态更新、监控、请求/响应以及许多其他用途。
此外,计算机通常不位于内部,这意味着应用程序和数据通常托管在位于数据中心的计算机上。这些地方提供所有必要的基础设施,如电力、冷却、安全、灾难保护等。用于维护和成功运行公司或外部世界可访问的大量计算机。
因为随着时间的推移,计算机和存储变得相对便宜,所以现在许多解决方案采用多台协同工作的计算机,这些计算机的扩展成本不会太高,这与通过购买一台超级强大且非常昂贵的计算机来扩展解决方案相反。这种“协同工作”的一部分是为了确保即使其中一台计算机出现故障,解决方案也能继续自动运行,并且系统能够自动扩展以处理任何强加在系统上的负载。
Twitter、脸书、Instagram、Snapchat、网飞和 YouTube 是基于云的应用程序的完美例子,这些应用程序需要以这两种方式进行扩展。他们的应用程序完全“宕机”的可能性极小,而且他们还能够处理每天数百万的用户使用他们的平台。
当某一组计算机连接到同一个网络并一起工作来完成相同的任务或一组任务时,这被称为集群。一个集群可以被认为是一台单独的计算机,但是与一台单独的机器相比,它可以在性能、可用性和可伸缩性方面提供巨大的改进。这些好处将在本文后面讨论。
术语 分布式计算 或 分布式系统 是指为利用集群执行特定任务而编写的软件和系统,如 Hadoop、Spark 和 MapReduce。
最后,谈谈云的定义。除了上面描述的共享资源,其他重要的解决方案资源可以包括服务器、服务、微服务、网络等等。云描述了一方拥有、管理一组联网计算机和共享资源的情况,这些计算机和资源通常用于托管和提供基于软件的解决方案。根据这个定义,虽然互联网肯定被认为是一个网络,但它不是云,因为它不是由一方所有。
要深入了解云计算,并讨论创建可扩展软件和大数据架构的关键概念,请查看我关于该主题的三部分深入系列。
云中的数据科学
这篇文章已经足够深入地讨论了云计算和其他相关概念,希望能够阐明相关概念。如果您在这一点上对软件架构和工程的接触仅限于本地开发,您可能会奇怪为什么这些都与数据科学家有关。这是接下来要讨论的内容。
如果您熟悉数据科学流程,您会知道大多数数据科学工作流通常是在数据科学家的本地计算机上执行的。计算机上安装了各种语言,比如 Python 和 R,还有数据科学家喜欢的 IDE。另一个主要的开发环境设置是通过像 Anaconda 这样的包管理器或者通过手动安装单个包来安装相关的包。
一旦开发环境设置好并准备就绪,典型的数据科学工作流或过程就开始了,数据是大部分情况下唯一需要的东西。迭代工作流步骤通常包括:
- 获取数据
- 解析、管理、争论、转换和净化数据
- 分析和挖掘数据,例如探索性数据分析(EDA)、汇总统计,...
- 构建、验证和测试模型,例如预测、建议,...
- 注:如果不构建模型,那么识别模式或趋势,生成可操作的见解,提取有用的信息,创建报告,等等。在这里,本教程将考虑“创建可交付成果”的任何一种情况。
- 调整和优化模型或交付物
然而,有时在自己的本地开发环境中执行所有数据科学或大数据相关任务并不实际或不可取。以下是一些主要原因:
- 数据集太大,不适合开发环境的系统内存(RAM)用于模型训练或其他分析
- 开发环境的处理能力(CPU)无法在合理或足够的时间内执行任务,或者根本无法执行任务
- 可交付成果需要部署到生产环境中,并可能作为一个组件合并到一个更大的应用程序中(例如,web 应用程序,SaaS 平台,...)
- 最好使用更快、更强大的机器(CPU,RAM,...)并且不会给本地开发机器带来必要的负载
当这些情况出现时,有多种选择。人们通常不使用数据科学家的本地开发机器,而是将计算工作卸载到本地机器或基于云的虚拟机(例如,AWS EC2、AWS Elastic Beanstalk)。使用虚拟机和自动扩展虚拟机集群的好处是,它们可以根据需要启动和丢弃,还可以定制以满足计算和数据存储需求。
在将可交付成果部署到生产环境中作为更大的应用程序或数据管道的一部分的情况下,有许多选项和挑战需要考虑。对此的进一步讨论超出了本文的范围。
除了定制开发的基于云或生产数据科学的解决方案和工具之外,非常著名的供应商也提供了许多基于云和服务的产品,这些产品通常可以与 Jupyter 等笔记本工具配合使用。这些主要作为大数据、机器学习和人工智能 API 提供,包括 AWS 人工智能平台、Databricks、谷歌云平台 Datalab 和机器学习等选项。
有关生产与开发中的数据科学和高级分析的更详细、更深入的讨论,包括对语言、包、框架和平台的建议,请查看我关于该主题的三部分系列。我的可扩展软件和大数据架构系列也是对云计算的一个很好的补充。
软件架构和质量属性
软件架构包括设计一个软件系统,通常基于云,代表一个产品、服务或基于任务的计算系统。你可能也听说过术语系统架构或软件架构,这两个术语的意思差不多。
设计软件架构的一部分是选择适当的编程语言和技术(也称为堆栈)、组件、包、框架、平台等等。这可能需要很多考虑,尤其是围绕系统的预期目的和任何其他重要的权衡。软件架构的这一方面需要一个人,比如软件架构师,随着时间的推移而获得的技能、知识和经验。
系统和软件架构和工程的另一个关键方面是所谓的质量属性或非功能需求。对于现实世界的生产解决方案来说尤其如此。
非功能性需求通常包括以下内容:
- 有效性
- 表演
- 可靠性
- 可扩展性(向上和向外)
- 展开性
- 可用性
- 模块性
- 复用性
在本文中,您将简要了解其中最重要的四个方面,即可用性、性能、可靠性和可伸缩性。请注意,讨论是高层次的,并不涉及这些质量属性的基于度量的定义或需求。
可用性顾名思义,系统是可用的,或者换句话说,系统正常运行。这可能意味着很多事情,并且也严重依赖于可靠性和可伸缩性。“正常启动和运行”意味着系统能够按照预期的方式在需要的时候正常工作。这可以是终端用户尝试使用系统,例如脸书或网飞,或者可以是一组用于处理数据的基于云的服务。
可靠性是一个术语,表示系统正常运行和工作而不出现故障或错误的能力。一个系统越能以这种方式运行,这个系统的容错能力就越强。因为很难事先想到并测试所有可能的使用和边缘情况,所以很难实现 100%的可靠性。此外,失败的原因有很多,包括代码错误、环境问题和有限的资源(CPU、RAM、磁盘内存,...)是一些主要的罪魁祸首。
性能是一个术语,用来描述系统执行任务的速度,或者换一种方式来思考,就是系统执行一个特定任务所花费的时间。以 YouTube 为例。您希望在观看视频时,视频会在合理的时间内加载并开始播放。谷歌让 YouTube 的性能越好,视频加载和开始播放的速度就越快,YouTube 的用户就越高兴,他们放弃这个应用程序的可能性就越小。相反,如果 YouTube 运行速度非常慢,以至于不值得受益,因此人们停止使用它。幸运的是,大多数时候是前者,而不是后者。
最后,可扩展性对于某些应用程序来说至关重要,它是一个术语,用来表示系统在系统负载不断增加的情况下保持一定性能水平(如上所述,也是高水平)的能力。负载是一个术语,用来表示对系统的并发或同时请求的数量。
需要可伸缩性的一个很好的例子是当一个受欢迎的运动队或表演音乐艺术家的门票第一次出售时。根据受欢迎程度的不同,在 Ticketmaster 这样的网络应用程序上购票的并发请求数量在门票首次发售时可能会达到数十万。根据系统的扩展能力,这可能会大大降低其性能,也可能会导致系统完全关闭。这两种情况都不好。
为了满足这一要求,使用了一些技术来纵向扩展或横向扩展系统。向上扩展是指系统中的计算设备被更强大的(CPU、更多内核,...)和具有更大资源(如系统内存或 RAM)的可靠机器。像这样的机器可能很贵。
另一方面,横向扩展是指使用低成本的商用机器,这些机器单独使用时功能不是特别强大,但是作为一个组使用时,能够处理系统上的负载。由于使用这种技术的解决方案需要多台计算机,因此设置系统来自动处理一台或多台计算机(节点)出现故障或崩溃(故障转移)等情况非常重要。
结论
希望这篇文章有助于阐明数据科学在本地开发之外的许多重要方面,以及现实世界的生产解决方案。当处理生产数据解决方案或需要额外的计算能力和资源时,理解基于云的计算和架构概念非常重要。
请在下面的评论中分享你的想法。如果你想了解更多,你可以在 Twitter 上关注 @innoarchitech ,注册 InnoArchiTech 简讯,看看 InnoArchiTech 博客。也可以看看我的目标驱动的人工智能和机器学习课。
机器学习中的聚类:5 种基本的聚类算法
介绍
聚类是一种无监督的机器学习技术,在模式识别、图像分析、客户分析、市场细分、社交网络分析等领域有很多应用。从航空公司到医疗保健等等,很多行业都在使用集群。
这是一种无监督学习,意味着我们不需要聚类算法的标记数据;这是聚类相对于分类等其他监督学习的最大优势之一。在本集群教程中,您将学习:
-
什么是集群?
-
集群的业务应用/用例
-
5 种基本的聚类算法
-
k 均值
-
均值漂移
-
DBSCAN
-
分层聚类
-
桦树
-
关于集群的常见问题
什么是集群?
聚类是以这样的方式排列一组对象的过程,即同一组(称为聚类)中的对象彼此之间比任何其他组中的对象更相似。数据专业人员通常在探索性数据分析阶段使用聚类来发现数据中的新信息和模式。由于聚类是无监督的机器学习,它不需要标记数据集。
聚类本身不是一个特定的算法,而是要解决的一般任务。您可以使用各种算法来实现这一目标,这些算法在理解构成聚类的内容以及如何有效地找到它们方面有很大的不同。
在本教程的后面,我们将比较不同聚类算法的输出,然后详细讨论当今工业中使用的 5 种基本和流行的聚类算法。虽然算法本质上是数学,但本聚类教程旨在建立对算法的直观理解,而不是数学公式。
聚类分析的关键成功标准
与分类或回归等监督学习用例不同,聚类不能完全实现端到端自动化。相反,这是一个信息发现的迭代过程,需要经常使用领域专业知识和人类判断来对数据和模型参数进行调整,以实现期望的结果。
最重要的是,因为聚类是无监督学习,不使用标记数据,我们无法计算精度、AUC、RMSE 等性能指标。,比较不同的算法或数据预处理技术。因此,这使得评估聚类模型的性能变得非常具有挑战性和主观性。
聚类模型中的关键成功标准包括:
- 它是可解释的吗?
- 聚类的结果对商业有用吗?
- 你是否在数据中学习到了新的信息或发现了新的模式,而这些是你在聚类之前没有意识到的?
构建聚类背后的直觉
在深入研究算法细节之前,让我们用一个水果数据集的玩具例子来建立一个聚类背后的直觉。假设我们有一个巨大图像数据集集合,包含三种水果(I)草莓,(ii)梨,和(iii)苹果。
在数据集中,所有图像都混在一起,您的用例是将相似的水果分组在一起,即创建三个组,每个组包含一种水果。这正是聚类算法要做的事情。
图片来源:https://static . Java point . com/tutorial/machine-learniimg/clustering-in-machine-learning . png
集群的商业应用
聚类是一种非常强大的技术,在从媒体到医疗保健、从制造到服务行业以及任何有大量数据的地方都有广泛的应用。让我们来看看一些实际的使用案例:
客户细分
根据客户的购买行为或兴趣,使用聚类算法对客户进行分类,以开展有针对性的营销活动。
想象一下,你有 1000 万客户,你想开展定制或有针对性的营销活动。你不太可能开发 1000 万的营销活动,那我们怎么办?我们可以使用聚类将 1000 万客户分成 25 个群,然后设计 25 个营销活动,而不是 1000 万。
影像来源:https://miro . medium . com/max/845/1 * rfatwk 6 twbrdj 1 或 1rz 8w . png
零售集群
零售企业集群有许多机会。例如,您可以收集每家商店的数据,并在商店级别进行聚类,以根据客流量、平均商店销售额、SKU 数量等属性,得出哪些位置彼此相似的见解。
另一个例子是类别级别的聚类。在下图中,我们有八家商店。不同的颜色代表不同的集群。本例中有四个集群。
请注意,商店 1 中的除臭剂类别由红色聚类表示,而商店 2 中的除臭剂类别由蓝色聚类表示。这表明商店 1 和商店 2 的除臭剂品类目标市场完全不同。
临床护理/疾病管理中的聚类
医疗保健和临床科学又是一个充满机会的领域,在该领域确实非常有影响力。一个这样的例子是 Komaru & Yoshida 等人在 2020 年发表的研究,其中他们收集了 101 名患者的人口统计数据和实验室数据,然后将他们分成 3 组。
每个聚类由不同的条件表示。例如,群组 1 具有低 WBC 和 CRP 的患者。聚类 2 具有高 BMP 和血清的患者,聚类 3 具有低血清的患者。考虑到血液透析后 1 年的死亡率,每个聚类代表不同的生存轨迹。
图象分割法
图像分割是将图像分类成不同的组。在使用聚类的图像分割领域已经做了很多研究。如果您想要隔离图像中的对象以单独分析每个对象来检查它是什么,这种类型的聚类非常有用。
在下面的示例中,左侧表示原始图像,右侧是聚类算法的结果。您可以清楚地看到有 4 个集群,它们是图像中基于像素(老虎、草、水和沙子)确定的 4 个不同的对象。
| 想要启动你的职业生涯掌握作为机器学习科学家的基本技能吗?看看 DataCamp 机器学习科学家用 Python 和机器学习科学家用 R 开设的这些令人惊叹的课程。 |
不同聚类算法的比较
在 Python 中流行的机器学习库 scikit-learn 中实现了 10 种无监督聚类算法。每种算法在数据集中确定和分配聚类的方式都有根本的差异。
这些算法在数学形式上的潜在差异可以归结为四个方面,我们可以在这四个方面比较和对比这些算法:
- 模型所需的参数
- 可量测性
- 用例,
- 几何,即用于计算距离的公制。
让我们来关注一下这些算法的输出。在下图中,每一列代表不同聚类算法的输出,如 KMeans、Affinity Propagation、MeanShift 等。共有 10 种算法在同一个数据集上进行训练。
一些算法已经产生了相同的输出。请注意凝聚聚类、DBSCAN、光学和光谱聚类都产生了相同的聚类。
但是,如果您注意并比较 KMeans 的输出和 MeanShift 算法的输出,您会注意到这两种算法产生了不同的结果。在 KMeans 的情况下,只有两个组(集群:蓝色和橙色),而在 MeanShift 的情况下,有三个组,即蓝色、绿色和橙色。
图片来源:https://sci kit-learn . org/stable/_ images/sphx _ glr _ plot _ cluster _ comparison _ 001 . png
不幸的是(或者幸运的是),聚类没有对错之分。确定并做出类似“X 算法在这里表现最好”这样的陈述是如此简单
这是不可能的,正因为如此,集群是一项非常具有挑战性的任务。
最终,哪种算法工作得更好并不取决于任何容易测量的指标,而是取决于解释和输出对于手头用例的有用程度。
5 种基本的聚类算法
k 均值
K-Means 聚类算法无疑是最流行和最广泛使用的任务聚类算法。这主要是因为直觉和易于实现。这是一种基于质心的算法,用户必须定义想要创建的簇的数量。
这通常来自业务用例,或者通过尝试不同的集群数量值,然后评估输出。
K-Means 聚类是一种迭代算法,它创建非重叠的聚类,这意味着数据集中的每个实例只能专门属于一个聚类。获得 K-Means 算法直觉的最简单方法是理解下面的示例图中的步骤。你也可以在我们的 Python 中的 K-Means 聚类教程和 R 中的 T2 K-Means 聚类教程中获得这个过程的详细描述。
- 用户指定簇的数量。
- 基于簇的数量随机初始化质心。在下图的迭代 1 中,注意三个质心被随机初始化为蓝色、红色和绿色。
- 计算数据点和每个质心之间的距离,并将每个数据点分配给最近的质心。
- 基于所有分配的数据点重新计算质心的平均值,这将改变质心的位置,正如你在迭代 2 - 9 中看到的,直到它最终收敛。
- 迭代继续进行,直到质心的均值没有变化或者达到参数 max_iter,这是用户在训练期间定义的最大迭代次数。在 scikit-learn 中,max_iter 默认设置为 300。
图片来源:https://www . learnbymarketing . com/WP-content/uploads/2015/01/method-k-means-steps-example . png
均值漂移
与 K-Means 算法不同,MeanShift 算法不需要指定聚类数。该算法本身会自动确定聚类的数量,如果您不确定数据中的模式,这相对于 K-Means 是一个相当大的优势。
MeanShift 也基于质心,并迭代地将每个数据点分配给聚类。MeanShift 聚类最常见的用例是图像分割任务。
均值漂移算法基于核密度估计。类似于 K-Means 算法,MeanShift 算法迭代地将每个数据点分配给随机初始化的最近的聚类质心,并且每个点基于最多点的位置在空间中迭代地移动,即模式(在 MeanShift 的上下文中,模式是该区域中数据点的最高密度)。
这就是为什么均值漂移算法也被称为模式搜索算法。均值漂移算法的步骤如下:
- 选取任意一个随机点,并在该随机点周围创建一个窗口。
- 计算该窗口内所有点的平均值。
- 按照模式的方向移动窗口。
- 重复这些步骤,直到收敛。
DBSCAN
DBSCAN 或Den sity-BasSpartialClustering ofAapplications withNoise 是一种无监督聚类算法,其工作前提是聚类是由低密度区域分隔的区域中的密集空间。
与 K-Means 和 MeanShift 相比,该算法的最大优势在于它对异常值具有鲁棒性,这意味着它不会在任何聚类中包含异常值数据点。
DBSCAN 算法只需要用户提供两个参数:
- 围绕每个数据点创建的圆的半径,也称为“ε”
- minPoints 定义了在该圆内将该数据点分类为核心点所需的最小数据点数。
每个数据点都被一个半径为ε的圆包围,DBSCAN 将它们识别为核心点、边界点或噪声点。如果围绕一个数据点的圆具有由 minPoints 参数指定的最小点数,则该数据点被视为核心点。
如果点的数量低于所需的最小值,则认为它是边界点,如果在任何数据点的ε半径内没有额外的数据点,则认为它是噪声。噪声数据点不会被归类到任何聚类中(基本上,它们是异常值)。
DBSCAN 聚类算法的一些常见用例有:
- 它在分离高密度和低密度的集群方面表现出色;
- 它对非线性数据集非常有效;和
- 它可以用于异常检测,因为它分离出噪声点,并且不将它们分配给任何聚类。
比较 DBSCAN 和 K-Means 算法,最常见的差异是:
- K-Means 算法对数据集中的所有实例进行聚类,而 DBSCAN 不会将噪声点(异常值)分配给有效的聚类
- K-Means 对非全局聚类有困难,而 DBSCAN 可以顺利处理
- K-Means 算法假设数据集中的所有数据点都来自高斯分布,而 DBSCAN 对数据不做任何假设。
你可以在我们的教程中了解更多关于 Python 中的 DBSCAN。
图片子:https://miro . medium . com/proxy/1 * TC 8uf-h0 nquflc 8-0 uinq . gif
分层聚类
分层聚类是一种构建聚类层次结构的聚类方法。这种方法有两种。
- 这是一种自下而上的方法,在开始时,每个观察都被视为自己的聚类,当我们从下往上移动时,每个观察都被合并成对,而对又被合并成聚类。
- divided:这是一种“自上而下”的方法:所有的观察从一个集群开始,当我们从上到下移动时,分裂被递归地执行。
在分析来自社交网络的数据时,层次聚类是迄今为止最常见和最流行的聚类方法。图中的节点(分支)根据它们之间的相似程度进行相互比较。通过将彼此相关的较小节点组链接在一起,可以创建较大的分组。
层次聚类最大的优点是易于理解和实现。通常,这种聚类方法的输出在如下图像中进行分析。它被称为树状图。
您可以在我们的 Python 中的聚类分析课程中了解更多关于层次聚类和 K-Means 聚类的信息。
桦树
BIRCH 代表基于平衡迭代层次的聚类。它用于 K-Means 不能实际扩展的非常大的数据集。BIRCH 算法将大数据分成小簇,并试图保留尽可能多的信息。然后对较小的组进行聚类以获得最终输出,而不是直接对大型数据集进行聚类。
BIRCH 通常用于通过生成其他聚类算法可以利用的信息摘要来补充其他聚类算法。用户必须定义训练 BIRCH 算法的聚类数,类似于我们在 K-Means 中定义它的方式。
使用 BIRCH 的一个好处是它可以渐进地动态聚类多维数据点。这样做是为了在给定的内存和时间限制下创建最高质量的集群。在大多数情况下,BIRCH 只需要在数据库中进行一次搜索,这使得 BIRCH 具有可伸缩性。
BIRCH 聚类算法最常见的用例是,它是 KMeans 的内存高效替代方案,可用于对由于内存或计算限制而无法通过 KMeans 处理的大型数据集进行聚类。
结论
聚类是一种非常有用的机器学习技术,但它不像一些监督学习用例那样简单,如分类和回归。这主要是因为性能评估和评估模型的质量很难,而且有一些关键参数,如用户必须正确定义的聚类数,以获得有意义的结果。
然而,在广泛的行业中有大量的集群用例,即使对于数据科学家、机器学习工程师和数据分析师来说,这也是一项重要的技能。
如果您想了解更多关于聚类和无监督机器学习的知识,并学习使用 Python 和 R 语言实现,下面的课程可以帮助您取得进步:
- https://www.datacamp.com/courses/cluster-analysis-in-python
- https://www.datacamp.com/courses/cluster-analysis-in-r
- https://www . data camp . com/courses/unsupervised-learning-in-python
- https://www.datacamp.com/courses/unsupervised-learning-in-r
聚类是一种无监督的机器学习技术。它不需要用于训练的标记数据。
不,聚类算法不需要标记数据。如果您已经标记了数据,则需要监督分类算法。
是的,就像有监督的机器学习一样,如果你的数据中有分类特征,你必须用 one-hot-encoding 这样的技术对它们进行编码。一些算法,如 K-Modes,被设计成直接接受分类数据而不进行任何编码。
没错,聚类就是机器学习。具体来说,就是无监督的机器学习。
聚类可用于描述性和预测性分析。它更常用于探索性数据分析,即描述性分析。
没有一种确定的方法来衡量聚类算法的性能,就像在有监督的机器学习中一样(AUC、准确度、R2 等)。).模型的质量取决于对输出和用例的解释。但是,有一些工作区指标,如同质性得分、轮廓得分等。
是的,聚类算法根据数据集中的组来分配标签。最终,它是数据集中的一个新的分类列。因此,聚类通常用于监督学习任务中的特征工程。
2022 年商业分析师薪酬完全指南
当你在找新工作时,你首先想到的可能是:他们会给我多少薪水?如果你正在寻找一个商业分析师的机会,那么有大量的职位可以提供有竞争力的薪水。
美国劳工统计局预测,2019 年至 2029 年间,对商业分析师的需求将增长 11%,高于所有职业的平均水平。商业分析师的需求量已经很大了,而且似乎需求只会随着时间的推移而增加。
新冠肺炎疫情催化了数字革命,这是推动商业分析师需求的一个重要因素。由于在疫情期间增加了对商业分析的投资,各种行业都在建立自己的数据分析团队和部门,以随着数字革命的发展而发展。
然而,缺乏具有分析能力的候选人来担当这样的角色——仅在美国就短缺 14 万到 19 万人。对分析师的热需求使 BAs 在赚取高薪方面处于有利地位,在其他技术职业中具有竞争力。
业务分析师支持企业的许多功能,他们的工资会根据他们的具体角色、技能、经验水平、地点甚至他们所在的行业而有所不同。
本文将研究这些标准如何影响 2022 年商业分析师的工资。我们的概述基于几个就业门户网站的数据,包括 Glassdoor 和 PayScale ,来自美国劳工统计局的公开数据,以及就业调查,如奥赖利数据科学工资调查。这一重点将涵盖美国、英国、欧盟和加拿大,无论您身在何处,都能获得深刻的见解。
按经验列出的业务分析师薪金
商业分析师的平均工资
商业分析师的平均收入是多少?根据 Glassdoor 的数据,在美国,BAs 的平均基本工资是每年 77218 美元。对这个数字的信心估计非常高,他们基于超过 65,000 的报告工资。
入门级业务分析师工资
然而,商业分析师的工资会随着经验的不同而不同。继续关注美国,我们可以看到,作为一个进入商业分析师领域的人,你可能期望每年赚 55,793 美元。
高级商业分析师工资
而如果你是一名高级商业分析师,你的经验会给你 101,277 美元的平均年薪。显而易见,商业分析师的薪酬确实会随着资历的增加而增加。
从 PayScale 看这张图表,我们可以看到一份更详细的报告,说明工作年限如何直接影响薪酬水平。根据他们的数据,入门级的 BAs 可以期望获得 6.1 万美元的收入,而有 20 年或以上工作经验的 BAs 可以获得 9.2 万美元的收入。
按地点列出的业务分析师薪金
位置是另一个会改变你预期收入的变量。让我们来看看这些领域的细分情况:
美国商业分析师的薪水
根据 Zippia 收集的数据,商业分析师在华盛顿、加利福尼亚、新罕布什尔、新泽西和俄勒冈赚得最多。在薪酬最高的华盛顿,商业分析师的平均薪酬为 93,191 美元。而 Floria 的商业分析师平均工资最低,为 63,126 美元,仍然高于全国各行业的年薪。
*地图上较暗的区域显示了全美 50 个州中商业分析师收入最高的地方。
英国的商业分析师工资
在英国,文学学士的平均工资为 42,768 英镑,远低于美国分析师的基本工资。此外,在英国,文学学士的工资轨迹并不是一条稳定的上升曲线
在成为高级分析师之前,初级 BA 的工资差别不大,他们的年薪约为 56,950 英镑。这显示了一些改进;然而,它没有美国的工资有竞争力。
欧盟的商业分析师工资
欧盟有 27 个成员国,因此薪酬差距很大。我们将举几个例子来说明整个欧洲的工资范围。
在欧盟,商业分析师最赚钱的地方之一是德国。在德国,学士学位的平均年薪为 5.5 万欧元,这被视为平均工资。作为一名高级学士,这一数字平均每年高达 77,008 欧元。
同样,在阿姆斯特丹和荷兰,高级分析师的基本工资预计为 52,645 欧元,最高可达 71,603 欧元。
在法国,平均薪酬基础略低,为每年 42308 欧元,与入门级求职者的薪酬差距不大。地中海的其他地区,如西班牙和意大利,商业分析师的工资要低得多。平均而言,你在西班牙的工资是 32,868 欧元,在意大利是 27,500 欧元。
加拿大的商业分析师工资
与美国非常相似,加拿大可以为商业分析师提供丰厚的薪水。平均而言,这看起来约为 71,011 美元。一名高级分析师的收入最高可达 88,143 美元左右。
按职称列出的业务分析师薪金
“业务分析师”是一个涵盖从初级 IT 业务分析师到业务智能分析师等多种不同角色的职称。在这里,我们对 BA 下的一些职位的平均薪酬进行了细分,最低和最高薪酬职位之间的差距约为 30,000 美元。
商业分析师的资历和对技术的参与通常会提供更高的报酬。(美国的职位数据,通过薪级表)。
商业管理分析师工资
利用 Oracle 等各种工具,为开发复杂的报告和分析商业智能(BI)解决方案提供高级分析专业知识。必须有丰富的管理和分析经验。
平均工资 60428 美元。
业务绩效分析师工资
评估系统的性能和结果。使用强大的研究和分析技能,绩效分析师跨团队工作,并在领导下优化客户增长。
平均工资 60678 美元。
二级业务分析师工资
为潜在的业务拓展收集和分析数据。业务分析师 II 需要精通统计,通过 SQL 等程序的认证,并能够承担领导角色。
平均工资 64981 美元。
商业智能分析师工资
将技术能力与商业敏锐性相结合,为业务各个方面背后的驱动力提供有价值的见解。执行竞争对手和行业分析,以确保业务的长期生存能力。BI 分析师需要具备一系列技能,包括统计学、数据可视化和管理、计算机编程等。许多公司会要求初级 BI 分析师拥有数年数据分析师或相关职位的经验。
平均工资 66791 美元。
应用业务分析师工资
作为组织的 IT 团队的一员,承担分析角色,以确保所使用的计算机应用系统满足组织的需求。应用分析师需要具备技术技能,包括对计算机语言的理解。
平均工资 66882 美元。
技术业务分析师工资
监督和实施技术项目和解决方案。主要目的是将业务需求转换成开发和技术团队容易理解的技术规范。这需要大约 3 年以上的数据分析经验,以及理解商业智能工具和编程语言。
平均工资 71489 美元。
敏捷业务分析师工资
在使用各种数据管理工具和流程方面为各种业务提供指导和建议。他们通常需要几年的案例建模经验,以及敏捷和 Scrum 方面的扎实经验。
平均工资 74000 美元。
商业解决方案分析师工资
在数据科学驱动的环境中,提供行业领先技术、报告工具、数据管理方法、基础架构和最佳实践方面的领导地位和专业知识。这个职位需要几年的金融解决方案经验。
平均工资 75243 美元。
系统业务分析师工资
帮助企业 IT 和软件的技术集成。他们需要业务系统分析方面的技术背景和强大的沟通技能,以解决客户业务的技术和非技术方面的差距。
平均工资 78095 美元。
高级 IT 业务分析师工资
负责提高 IT 产品和服务的质量,分析数据为业务决策提供信息,并找到满足业务需求的技术解决方案。
平均工资 90201 美元。
值得注意的是,PayScale 给商业分析师的平均基本工资比从 Glassdoor 收集的数据略低。然而,与职位相对应的工资范围与 Glassdoor 的调查结果显示的趋势相匹配。
自由职业者的商业分析师工资
随着在家工作的好处越来越多,越来越多的人想知道现在是否是尝试自由职业的合适时机。数据专业人员也不例外。最近几个月,热门自由职业者平台(如 Upwork)上的商业分析师职位数量激增。
如果你正在考虑这个选择,你可能想知道自由职业商业分析师挣多少钱。据 Glassdoor 报道,他们在美国的平均工资是 85796 美元。但是,没有足够的数据来显示一个工资范围。
无论如何,很难提供一个明确的估计,因为自由职业商业分析师的收入高度依赖于他们的技能、经验和评论等因素。
各行业的商业分析师薪酬
来自 PayScale 和 T2 的数据显示,医疗保健行业提供了一些最高的起薪。对于金融公司和软件应用程序,商业分析师的最低工资(年薪)估计分别在 40,471 美元和 40,293 美元之间。
医疗保健:商业分析师平均工资
金融:商业分析师平均工资
制造业:商业分析师平均工资
技术:商业分析师的平均工资
保险:普通商业分析师薪水
总体而言,在计算机行业(如计算机硬件、云服务、网络安全或软件开发)工作的数据专业人员报告的薪酬最高,平均薪酬从 171,000 美元(计算机硬件)到 164,000 美元(软件)不等。该数据还显示,除计算机行业外,包括银行、零售、时尚和保险在内的其他行业的薪酬极具竞争力(超过 10 万美元)。这与美国劳工统计局发布的最新职业数据一致。
按技能列出的业务分析师薪金
由于业务分析师身兼数职,掌握一系列技术和软技能非常重要。商业头脑和技术知识之间的平衡因职位和公司而异。然而,一些非常有价值的技能可以激发你的收入潜力。
业务分析、需求分析、项目管理和数据分析方面的技能与高于平均水平的薪酬相关。
PayScale 的数据揭示了特定技能如何直接影响你作为商业分析师的薪水,尤其是在技术技能方面。例如,使用 Oracle 电子商务套件可以让你的薪水增加 51%。
你能做些什么来增加你的薪水
正如本指南中所讨论的,业务分析师负责许多任务,因此需要各种技能,包括硬技能和软技能。
考虑到不断发展的数字环境,业务分析师不断提高技能以满足行业需求至关重要。考虑到这一点,持续培训对于数据专业人员来说至关重要这不仅是为了跟上创新的速度,实现加薪或升职。
考虑一下如何通过以下建议提高你的薪水:
高级学位
获得数据科学或相关学科的硕士或博士学位可以增加你在组织中的晋升机会。大多数大型科技公司都鼓励员工参加这类项目。
通过课程提升技能
使用像 Datacamp 这样的平台来提高你的编程语言素养等等。不要错过探索我们庞大的课程目录的机会,或者报名参加我们的技能课程以拓展您的专业领域。
获得认证
获得认证是获得或提高新的业务分析师技能的最快方法之一。根据 O'Reilly 2021 年数据/人工智能薪酬调查,云认证,特别是 AWS 和微软 Azure,与薪酬增长最相关。对于业务分析师来说,如果你是一个更有经验的 BA,也可以考虑特定业务的认证,比如 IIBA 业务分析能力认证(CCBA)或者 IIBA 认证业务分析专家(CBAP)。DataCamp 提供行业公认的数据分析师认证,帮助你在求职过程中脱颖而出。
管理经验
寻找在工作中担任管理或领导角色的机会。例如,如果你管理更多的初级商业分析师,这种经验可以验证专业知识和资历,从而增加获得更多收入的可能性。
更换雇主
考虑跳槽到一个愿意为你的技能付更多钱的新雇主。
重新安置
其中一个更激烈的举措,但肯定会有戏剧性的效果,是转移到一个领域,有一个更高的商业分析师的工资率。
探索不同的行业
正如我们所看到的,不同的行业 BA 的工资会有所不同。考虑将你的技能和经验转移到一个能提供更多回报的行业。
未来趋势
Linkedin 2021 年的就业报告显示,对数字技能的需求正在增加,而且没有放缓的迹象。该报告预测,未来五年,全球将新增 1.5 亿个科技相关工作岗位。 Emsi Burning Glass 预测,尤其是商业分析师职位在未来 10 年将增长 5.9%。
在疫情期间,随着对数据和数字世界的依赖,对数据和分析的投资增加了。根据 EY 的一项研究,93%的公司表示他们计划继续增加在数据和分析领域的投资。根据联合市场研究的 2021 年报告,大数据和数据分析市场在 2020 年的价值超过 1980.8 亿美元,预计到 2030 年将增长到 6841.2 亿美元。
随着市场的增长,对数据分析的投资也在增加,因此对 BA 专业人员的需求也在增加。企业间招聘商业分析师的竞争将会加剧,促使它们以更高的薪酬激励应聘者。
如果您正在考虑在数据世界中开始新的冒险,Datacamp 是开始的最佳地方。查看我们的课程目录,立即开始您的学习之旅。
通过混合学习创建数据驱动的员工队伍
随着组织产生更多数据并将产品和流程数字化,数据驱动的员工队伍变得前所未有的重要。这就是为什么学习和发展已经成为业务战略的核心,尤其是专注于跨组织构建数据科学能力的计划。
下周,DataCamp 的数据科学布道者 Adel Nehme 将与彭博大学的全球数据技术培训师谢尔·纳伊克举办一场网络研讨会,讨论彭博如何使用混合学习来教授 Python 的数据分析,以及这些分析技术如何用于评估行为变化和技能提升计划的成功。
彭博大学的混合学习
彭博的数据驱动型员工利用数据科学制定数据驱动型业务决策,利用数据改进流程,并创作数据驱动型新闻故事。谢尔·纳伊克领导着一个公司范围的混合学习计划,该计划侧重于使用 Python 进行数据分析,其中包括每个季度通过 DataCamp 进行的 12 到 20 小时的学习,由技术专家领导的三次 1.5 小时的现场课堂会议,以及一个使用彭博数据作为最终交付成果的最终项目。
网上研讨会将深入探讨混合学习的优势。DataCamp 课程和虚拟现场课堂相结合,可以提高跨区域和时间安排限制的一致性和灵活性,并增加全球班级的容量。
评估技能提升的成功
评估培训项目直接投资回报的方法是 Kirkpatrick 评估模型。简而言之,Kirkpatrick 模型提出了四个不同的评估级别:培训计划后的最初反应、学习评估、行为变化以及所获技能的业务影响。
在 11 月 4 日的网络研讨会上,Sheil 将深入探讨彭博如何通过测量和评估项目中所有学员的培训后行为变化来实施 Kirkpatrick 评估模型。
获得数据提升的好处
这只是触及了 Adel 和 Sheil 关于创建数据驱动的劳动力的讨论的表面。要了解您的组织如何扩展个性化学习、评估培训成功以及将培训与业务目标联系起来,请参加我们 11 月 4 日的网络研讨会。
职业成功的数据分析师技能
目录
-
简介:数据分析师角色
-
朝九晚五:2022 年数据分析师的一天
-
数据分析师最常用的工具
-
在那里你可以学到这些技能
-
数据分析师成功职业生涯的其他重要技能
-
简历和面试:数据分析师求职准备
-
建立职业生涯
-
今天就开始
数据分析可以为你提供工作保障,远程工作的潜力,高薪和有趣的挑战…感兴趣吗?
在过去的 5-10 年里,数据分析行业因为这些原因变得非常受欢迎。虽然分析师已经在组织中存在多年,但新的技术工具和组织中数据收集的大量涌入重新点燃了人们对这一职业道路的浓厚兴趣。
从跟踪销售和订单,到客户和利益相关者管理,数据是每个组织不可或缺的一部分。“企业对分析的使用可以追溯到 19 世纪;“然而,随着世界上越来越多的人上网,让数据变得有意义已经成为大多数现代企业生存的关键部分。
这种新环境,加上大规模开放在线课程(MOOCs)和其他开放课程的兴起,为数据分析职业创造了一个新的市场。虽然研究生课程和证书迅速出现,但专业人士仍然有机会通过使用开放式课件和在线自定进度材料,从不同学科进入该领域。
2021 年美国数据分析师的教育构成:
来源: zippia
各种背景的专家通过关注解决商业问题所需的核心技能,并支持非技术经理,在该领域找到了有利可图的机会。
虽然这一角色仍在快速发展,但许多事情仍保持不变:批判性思维的需求、与不同受众协作并向其展示的能力、主题专业知识,以及对数据分析流程每一步的基本需求的理解。我们将在本文的其余部分详细讨论所有这些领域。
朝九晚五:2022 年数据分析师的一天
选择自己的冒险!大多数现代数据分析师的角色分为两类:你要么是非技术部门的“数据人”,要么是专注于技术数据的部门的分析师,与其他分析师、工程师和科学家一起工作。根据你是哪种类型的数据分析师,你的日子看起来会很不一样。
当你是一个非技术部门的“数据人”时,你每天都会与你的经理和同事协作。从收集、清理和分析数据,您将支持他们做出数据驱动的决策。这些角色通常非常关注报告和可视化,所以你可能会管理一个仪表板或者定期向经理或非技术同事演示。这些角色的目标是优化现有的数据流,以增加主题专业知识。
虽然这一角色在商业和其他组织中已经存在了几十年,但越来越多的管理层开始优先考虑这些招聘。在一个有经验的经理的直觉曾经占主导地位的地方,可论证的证据现在是重要决策的标准。你对组织的动机了解得越多,你在这个职位上就越成功。
批判性思维、专注于管理大型数据集可视化的技术技能,以及基础统计知识都是这类角色的关键技能。这也是最具协作性的数据分析角色之一,因此外交、战略思维和项目管理技能也是有益的。
您的每一天都将被这些对话和协作所填满,您的首要任务是拥有和维护相关的核心数据集,这些数据集为您部门的行动提供信息。这种类型的数据分析师角色非常适合学习更多关于组织如何运作的知识,并深化您的特定主题专业知识。由于它严重倾向于更传统的业务或管理职能,这些角色将遵循组织趋势:预计在你的同事离开时离开(下午 5 点),关系和管理知识对你的职业发展比对增加的技术技能更重要。
当你在一个核心数据团队中时,生活会看起来非常不同。这些团队倾向于管理整个组织的数据,并直接向高层领导汇报,他们可能具有前瞻性思维和精通技术的视角。
通常,这些团队充当组织其余部分的顾问:收集需求,开发数据管道,并为这些非技术团队中的分析师提供仪表板工具进行管理。工作可能是适应遗留系统的混合,以及尖端技术的实验。您的工作将侧重于了解数据存储、管道和分析最佳实践,以便在整个组织中保持一定的一致性。SQL 技能在这种类型的角色中是必不可少的,因为你将被视为特定数据集和整个组织的整体系统的专家。能够快速验证非技术利益相关者的想法或顾虑将使你在这个团队中脱颖而出。
如果你在一个大型组织中,你会发现自己学到了很多关于数据库的知识,以及将遗留工具与现代系统和期望相结合的挑战。在这些团队中,您的关键利益相关者将是:解决方案架构师,他们管理组织的整体数据存储;系统分析师和软件工程师;以及 SCRUM 或其他类型的项目经理。由于这个角色在技术方面出错,你的职业发展将在很大程度上依赖于特定技术(很可能是 SQL)的高级技能,以及优秀的人员和项目管理技能。
虽然这两个描述涵盖了大多数数据分析师角色的经历,但仍有少数小众数据分析师的生活更加不同:营销数据分析师、金融数据分析师和产品数据分析师。
数据分析师最常用的工具
在大多数组织中,高级 Excel 技能永远不会过时。不管你的公司有多高科技或创新,电子表格永远不会停止成为你工作流程的一部分。这是一种与非技术同行共享数据的简单方式,并且可以即时进行一些有意义的分析。微软提供高级 Excel 技能认证,并有在线课程为必修考试做准备。在线课程和认证是学习 Excel 最重要和最常用功能的好方法。
接下来,[结构化查询语言(SQL)](https://web.archive.org/web/20220522145100/https://searchdatamanagement.techtarget.com/definition/SQL#:~:text=SQL (Structured Query Language) 是你作为数据分析师将要编写的最重要的代码。SQL 经受住了时间的考验,多年来一直是数据检索的核心工具。当你刚开始学习的时候,一些方法是选择、连接和拥有。
持续的报告和可视化是大多数数据相关工作的关键。 Tableau 、 Looker 和 Power BI 是一些通用工具,可用于跨组织的最常用 KPI。它们都有强大的技术能力,但对于非技术经理来说足够用户友好。它们按照价格从高到低排列。在预算较少的部门或组织中,你经常会发现漂亮和有权力的 BI。
当数据变得太大太乱的时候, Python & Jupyter 笔记本是数据分析师的另一个工具。借助这些工具,我们几乎进入了数据科学的领域——大多数数据分析师的工作不会以这种方法为中心,因为这需要高水平的技能才能使 python 比上面列出的工具更有价值。然而,通过使用 jupyter 笔记本电脑或 google colab,您可以更好地与他人合作,进行更复杂的分析,并在一个地方演示整个分析和可视化过程。您可能会看到营销数据分析师角色所需的这些工具,这些工具往往侧重于 A/B 测试。
虽然许多人声称对于哪种语言最适合数据分析仍有争议,但无论是总体上还是在私人领域, Python 一直超过 R 成为最受欢迎的语言。
然而,如果 R 看起来更有吸引力,或者你在学术界工作时有使用它的经验,你仍然不会出错。如果你精通一种语言,用另一种语言编程是一个小小的挑战。在为数据分析选择编程语言时,最重要的考虑是你觉得舒服,并且能够完全投入其中。为了让这些工具在工作场所或你的职业生涯中发挥作用,你需要很强的熟练程度和导航结果的知识。
在那里你可以学到这些技能
数据营是一个很好的起点。
Data Camp 有技能和职业跟踪,可以指导您通过所有必要的工具和最佳实践进入数据分析职业生涯:R 的数据分析师、Python 的数据分析师和 SQL 的数据分析师。
否则,你可以从以下几个地方开始你的学习之旅:
数据分析师成功职业生涯的其他重要技能
尽管这份职业伴随着各种技术,但数据分析要取得成功,需要的不仅仅是专业的计算机技能。能够通过组织知识、关系建设和商业最佳实践成功地融入一个机构将有助于你避免停滞。几个关键领域包括:
简历和面试:数据分析师求职准备
以下是数据分析师职位面试中一些最常见的主题:
-
SQL 技能
-
准备在许多技术面试中接受基础测试
-
理解连接、拥有等。
-
(舞台上由人扮的)静态画面
-
准备好被问到你以前创建的仪表盘——准备一份包含几个例子的 Tableau Public 个人资料一定会给你的面试官留下深刻印象
-
关于您的体验的问题:
-
描述一个你不得不与非技术利益相关者合作的项目
-
描述一种情况,其中数据质量很低,但是利益相关者仍然希望完成分析/一个你不能给出的决定性结果
-
描述您过去工作过的数据工作流程(工具、流程、利益相关者、可视化等)。)
像所有的面试一样,星方法是对你所有回答的可靠方法。由于这是一个技术性的角色,你必须不断地学习新的工具和流程。承认你不知道一些事情,但愿意找到答案,表明你了解数据分析师的日常工作需要什么。
许多大公司雇佣经验丰富的 Excel 和 SQL 开发人员并支付高薪。这是一些永远不会过时的核心技术。有些数据分析师已经成为这两种工具的专家,并为自己建立了非常成功的职业生涯。
不管你用什么方法,一定要列出所有你了解或有经验的技术,这样你的面试官就知道问你任何相关的问题。仅仅因为他们现在没有使用特定的技术,并不意味着他们在不久的将来也不会,反之亦然。对你的技能保持透明,向他们展示你的能力。
建立职业生涯
选择现在就开始数据分析师的职业生涯是一个很好的选择。我们的世界正处于主要经济体之间的大规模人工智能“军备竞赛”中,对精通数据的专业人士的需求只会越来越多。
如果你对在私营部门工作不感兴趣,还有很多其他机会将你的技能应用到更有意义的事情上。这里有几个例子:
今天就开始
如果解决问题、与不同的人合作以及在你所在的任何组织中有所作为的想法激励着你,考虑成为一名数据分析师。
从批判性思维到数据库知识和强大的人际交往能力,你将投资于一个具有无限潜力的高价值职业。学习这些技能需要投入和专注。新技术在不断发展,但专注于本文提到的核心技能将确保你有一个强大的基础和长期的职业生涯。
我们最好的建议是利用现在网上的资源。有一些优秀的项目,如 Data Camp,是由直接面对这些挑战的专家和经验丰富的专业人士开发的。相信他们和学习过程,你一定会找到你的成功。祝您好运,我们期待在数据分析师社区见到您!
数据分析师与数据科学家:比较指南
互联网的出现和技术使用的增加导致了数据量的指数增长。企业越来越依赖于数据驱动的决策,这使得他们不得不争夺最佳人才库,以便从相关和可靠的来源高效地获取数据、存储数据并将其用于业务。
随着企业不仅在建立数据基础设施方面,而且在获得合适的人才库方面继续进行巨额投资,数据分析师和数据科学家的角色已经成为两个最受欢迎的角色。他们的流行源于几乎每个行业对这些数据专家的需求不断增长。
了解数据分析师和数据科学家之间的差异
数据分析师和数据科学家之间的区别源于他们所从事工作的性质。与数据科学家的实验性工作概况相比,数据分析师的概况主要是探索性的。
数据分析师和数据科学家之间的区别源于数据使用方面的专业知识水平。在这两者中,数据科学家应该更多地使用高级编程技术和计算工具。此外,数据科学家应该更擅长开发数据模型和算法。了解企业使用数据的不同方式有助于进一步明确各自的角色。
- 描述性分析:此类别的分析解决方案回答了业务问题的“是什么”和“为什么”部分。它们通过了解历史数据模式、趋势和异常情况提供可操作的见解。例如,确定多年来客户参与度的变化及其背后的原因可以使用描述性分析来解决。
- 预测分析:顾名思义,这类解决方案采用机器学习模型,利用过去的数据趋势来估计未来。例如,基于客户的历史参与度计算向客户交叉销售产品的概率是使用预测分析完成的。
- 规范分析:规范分析使用描述性和预测性分析的结果来制定改进的业务战略。同样,利用历史参与度和交叉销售的可能性,企业可以为客户确定最佳的产品组合。
数据分析师采用描述性分析来报告事实,有时还会基于这些见解通过建议的方式提供说明性分析。数据科学家负责整个分析之旅,主要关注预测分析,并利用数据为组织创造价值。
数据分析师与数据科学家:角色和职责的比较
数据分析师可能有许多其他的头衔,例如战略家、商业情报分析师、市场情报分析师或顾问,或者竞争情报分析师。无论确切的职称是什么,数据分析师通常被期望通过查询大量数据(主要是结构化的)然后将它们转换成对各种利益相关者有意义的报告来提供见解。因此,这个角色更多的是发现数据中的模式,生成数据可视化,并将这些见解传达给业务涉众。
相比之下,数据科学家执行的任务属于预测和说明性分析领域。例如,以打车软件服务为例,数据分析师将分析促销对打车活动的历史影响。另一方面,数据科学家可能会研究匹配算法,最有效地将司机与乘客匹配起来。
数据分析师和数据科学家的项目生命周期
数据分析师
下面详细介绍了由数据分析师处理的项目的生命周期通常是什么样子。
- 数据提取:数据提取仅限于较小的数据集,因为数据分析师主要关注特定的业务场景。
- 数据清理和准备:数据一旦提取出来,就以可视化的形式进行处理和总结,可以直观地突出基本事实、新兴趋势和异常现象。
- 数据探索:在此活动中,分析师开始探索在数据准备阶段观察到的各种趋势和异常背后的原因。
- 数据可视化和报告:接下来,分析师准备由业务评论组成的直观仪表板和管理报告,并与最终利益相关方分享。通常,一些自助式商业智能工具(如 Tableau 和 Power BI)用于此目的。
数据科学家
下面显示的流程图详细说明了数据科学家处理项目的各个阶段。
- 数据提取:这是数据分析师和数据科学家的常用步骤。然而,数据科学家的数据源不仅仅局限于一组小表,而是大部分都是巨大的。在这种情况下,数据科学家和数据工程师一起工作。
- 数据清理:在这一阶段,数据科学家花费大量时间深入了解数据,了解潜在问题,识别异常,并最终为下一阶段清理数据。
- 特征工程:在数据科学家开始研究预测模型之前,他们会进行特征工程。特征工程是使用干净的数据创建变量的过程,这些变量预期对目标结果具有更好的预测能力。例如,为了建立预测模型来预测个体患糖尿病的可能性,除了身高和体重之外,身体质量指数也可以用作模型的附加输入。在这里,身体质量指数是一个使用身高和体重计算的工程特征。
- 使用 AI/ML 技术的模型开发:数据然后被馈送到机器学习算法,以产生预测。有各种各样的机器学习算法,具有不同程度的复杂性和用例。阅读本指南,了解不同类型的机器学习算法之间的区别。
- 模型测试:在这个阶段,数据科学家验证模型输出。对于不满意的结果,科学家重新访问模型参数,并对它们进行调整以达到期望的结果。但是,如果模型调整失败,数据科学家会回到绘图板,重新设计特性以支持后续的模型构建。
- 生产模型:在模型开发和模型调整之后,软件工程和数据工程团队合作创建生产就绪的模型管道。这实现了与数据管道的无缝集成。最后一步,他们将代码形式化并部署到生产环境中。
现在,我们已经对数据分析师和数据科学家的角色和职责有了一个看法,接下来的问题是,哪些技能最能让你为承担这些角色做好准备?这里有一个关于这些角色技能要求的比较指南。
数据分析师与数据科学家:技能比较
这两个角色的技能要求非常相似。然而,每项技能的熟练程度差异很大。下表列出了数据分析师和数据科学家应具备的八项关键技能及其熟练程度:
| 技能对比指南 | | |
| 技能领域 | 数据分析师 | 数据科学家 |
| 数据工程 | 低的 | 中等 |
| 数据探索 | 高的 | 高的 |
| 数据可视化 | 高的 | 中等 |
| 工具和编程语言 | 中等 | 高的 |
| 数据建模和算法 | 低的 | 高的 |
| 商业领域知识 | 高的 | 高的 |
| 软件工程 | 低的 | 中等 |
| 沟通和展示 | 高的 | 高的 |
数据分析师
数据分析师的项目生命周期通常有两个阶段:洞察生成和洞察沟通。让我们了解一下每个阶段的技能要求:
- 洞察生成:为了生成可操作的、有影响力的洞察,数据分析师应该拥有足够的领域知识来有效地探索数据。任何一方面的专业知识不足都意味着对业务问题的理解不正确,并可能产生误导性的结果。考虑到当今组织中的技术环境,探索性分析要求分析师精通 SQL、Python 和 r 等编程语言。他们应该能够在函数式编程的范例中高效地编写代码。因此,掌握这些语言的工作知识至少可以更好地执行任何数据争论操作。精通数据工程可以极大地帮助数据分析师减少对数据团队的依赖。这对他们来说是一大优势。
- 洞察力沟通:能够有效地与高级利益相关者沟通并提出见解是一项重要的技能。为了提高效率,对 Tableau 和 Power BI 之类的数据可视化工具的良好掌握对数据分析师来说会很有用。由于洞察交流通常通过演示和仪表板进行,数据分析师很少需要生产代码。所以软件工程方面的知识一般都是退居二线。
数据科学家
尽管数据科学家处理的业务问题看起来五花八门,但他们管理的项目大体上都涉及建立预测模型并将其生产化。执行这些活动所需的技能如下:
- 预测建模:除了擅长数据探索和业务领域知识,数据科学家还应该很好地掌握各种数据建模技术和相关算法。因此,精通 Python 和 R 等开源语言是必要的。使用可视化工具是他们与各种利益相关者共享建模结果的先决条件。除此之外,数据科学家需要随意提取数据,并将数据管道需求有效地传达给工程团队。因此,拥有数据工程领域的技能是数据科学家的必备技能。
- 模型生产化:通常,来自数据模型的输出被输入到一个前端系统中,供一线用户访问。为了确保无缝集成,数据科学家需要开发 Restful APIs、JSON 提要和其他 web 服务。数据科学家在模型和 API 开发过程中编写的所有代码都需要为生产做好准备。因此,需要软件工程的工作知识来支持对面向对象编程的理解。
数据分析师与数据科学家:教育背景
本节将为您提供数据分析师和数据科学家通常拥有的教育资格、他们的研究领域以及一些关键的新兴趋势的高级视图。
学历的比较
根据 Burtch Works 2021 年的研究,数据分析师和数据科学家的教育水平对他们的薪酬有着重大影响,这一发现将在随后关于这两种角色的行业前景的章节中得到证实。
| 学历对比 |
| 学位等级比较 | 数据分析师 | 数据科学家 |
| 学士学位 | 14% | 7% |
| 硕士学位 | 67% | 44% |
| 博士学位 | 19% | 49% |
资料来源:【2021 年博奇工程研究
在接受调查的数据科学家总数中,49%拥有博士学位。然而,接受调查的数据分析师中只有 19%拥有博士学位
| 研究区域的比较 |
| 研究领域 | 数据分析师 | 数据科学家 |
| 数学/统计学 | 37% | 21% |
| 商业 | 21% | 8% |
| 工程 | 14% | 19% |
| 经济学 | 9% | 6% |
| 计算机科学 | 8% | 24% |
| 自然科学 | 5% | 21% |
| 社会科学 | 5% | 1% |
资料来源:【2021 年博奇工程研究
虽然计算机科学成为数据科学家最受欢迎的研究领域,但工程在这两种角色中的受欢迎程度正在逐渐提高。
主要趋势
根据Burtch Works 2021 年研究的研究,数据科学和分析出现的主要人口趋势是:
- 与前几年相比,拥有博士学位的专业人士数量有了显著增长,前几年的数字显示出对学士或硕士项目的偏好。例如,在数据科学家的样本研究中,拥有博士学位的人从 2020 年的 43%增加到 2021 年的 48%。
- 许多拥有博士学位的经验丰富的分析专业人士和愿意承担企业角色的学术专业人士正在成为数据科学职位的新宠,这些职位能够将他们的广泛研究转化为业务应用。
- 数据科学和分析方面的传统 MBA 课程已经让位于商业分析硕士或数据科学硕士等课程,因为它们有更高的量化重点。在数据科学家中,商业学位从 2019 年的 12%下降到 2021 年的 8%
随着学生和专业人士倾向于参加各种高级课程来提高技能和重新培训自己,在线课程是一个很好的选择,可以在传统的大学环境之外捆绑专业认证。
数据分析和数据科学课程
鉴于数据分析师和数据科学家的角色和职责有着明显的区别,DataCamp 为这两种角色提供了符合其特定技能要求的职业轨迹。
数据分析师职业轨迹
Python 数据分析师(课程内容:62 学时)
本专题讲座从用于数据分析的 Python 编程语言的基础开始。在介绍了基础知识之后,本专题将深入探讨数据争论和数据可视化技术。还要学习从不同的来源获取数据,比如 web、数据库和 JSON 文件。此外,本专题还概述了探索性数据分析技术,并提高了学员对关系数据库和 SQL 概念的理解。
数据分析师带 R (课程内容:77 学时)
这个方向的重点是与 R 编程语言工作的数据分析师所需的基本技能。它提供了全面的内容,涵盖了最常用的 R 包,如 tidyverse、ggplot 和 dplyr。与 Python 课程类似,该课程有助于建立对数据分析师技能的中级理解,如数据源、操作和可视化。
SQL 数据分析师(课程内容:41 小时)
这一职业方向有助于学习者深入理解 SQL Server、关系数据库的概念、它们的设计以及性能优化。
数据科学家职业轨迹
数据科学家的职业轨迹可以在 Python 和 R 中找到。它们帮助学习者深入 Python 的软件工程方面,如面向对象编程。他们也给出了统计和监督和非监督机器学习技术的概述。这些课程还提供每个里程碑的案例研究,让学习者实际接触现实生活中的问题。
使用 Python 的数据科学家(课程内容:88 小时)
本课程将带领学员踏上从初学者到数据科学家专家的旅程。除了介绍用于数据源、数据操作和数据可视化的 Python 之外,它还向学习者概述了函数式和面向对象的编程范例。该课程提供了对监督、非监督和聚类类别的机器学习算法的深入理解。除了学习数据科学概念,学习者还可以通过相关案例研究了解现实生活中的项目挑战。
数据科学家与 R (课程内容:88 小时)
对于使用 R 编程语言的数据科学家来说,这个职业跟踪深入研究 R,并向学习者介绍函数式编程方法。本课程还包括对机器学习算法的深入介绍,例如回归、分类和聚类等。
专业认证计划
以下认证有助于弥补就业市场中存在的数据技能差距。他们确保正确的技能遇到正确的机会,因为学习者可以展示他们的技能,而雇主在雇用正确的人才方面获得信心。该计划验证学习者在几个关键领域的能力,包括数据管理、探索性分析、统计实验、模型开发、生产环境编码以及沟通和报告。专家反馈和指导会议也有助于学习者获得为工作做好准备的信心。DataCamp 提供两种认证,一种是数据科学家认证,一种是数据分析师认证。
DataCamp 专业数据科学家认证分为四个阶段:
- 定时评估:确定学习者在编程和机器学习等主题上的熟练程度。
- 编码挑战:学习者的 R 或 Python 编码技能使用真实世界的数据集进行挑战。
- 案例研究:学员将像数据科学家一样展示他们的发现。
- 认证:完成上述三个阶段后,学习者将获得证书并进入职业服务团队。
DataCamp 专业数据分析师认证分为五个阶段:
- 数据分析基础:在这一部分,将测试你对专业数据分析师应具备的核心分析方法的理解。
- 探索性分析:处理一个问题,找到正确的数据,并通过 SQL 和 Python 或 r 中的编码挑战有效地格式化它。
- 编码挑战:通过实际操作的 SQL 挑战来证明您清理和处理数据的能力。
- 案例研究:通过与我们的认证团队进行记录案例研究,测试您分析和交流数据见解的能力。在这里,您需要分析一个业务问题,然后向特定的受众展示您的解决方案。
- 认证:完成上述四个阶段后,学习者将获得证书并进入职业服务团队。
点击此处了解更多关于 DataCamp 认证计划的信息:
数据分析师与数据科学家:行业展望
2021 年的 Burtch Works 研究回顾了数据科学和数据分析专业人员的工资。这项研究表明,数据科学和分析团队的招聘前景看好。该研究报告称,2021 年,73%的数据科学和分析团队计划在 Q1/Q2 招聘员工,而 2020 年 1 月这一比例为 67%。此外,大约 81%的数据科学和分析团队计划在 2021 年第三季度/第四季度进行招聘。与 2021 年上半年的数字相比,这是一个显著的增长。
下表按级别汇总了数据分析师和数据科学家的薪资趋势。这些趋势同时适用于个人贡献者和管理者。这些级别还从较高的层面概述了数据分析师和数据科学家的职业发展道路。
| 个人缴费者工资中位数比较(IC) | | |
| | 2021 年工资中位数(美元) | | | |
| 集成电路电平 | 数据分析师 | 数据科学家 | 工作职责 | 平均。多年的经验。 | |
| 一级 | Eighty thousand | Ninety-five thousand | 分析和建模的初级阶段和实践 | 0-3 岁 | |
| 第二级 | One hundred and three thousand five hundred | One hundred and thirty thousand | 中级专业知识,动手操作,可以协助培训分析师 | 4-8 年 | |
| 第三级 | One hundred and thirty-five thousand | One hundred and sixty thousand | 主题专家,可以担任导师角色,可以独立培训分析师 | 9 年多了 | |
资料来源:伯奇作品研究 202 1
| 经理工资中位数对比 | |
| | 2021 年工资中位数(美元) | | |
| 经理级别 | 数据分析师 | 数据科学家 | 工作职责 | |
| 一级 | One hundred and thirty-five thousand | One hundred and fifty thousand | 应该能够领导一个小团队,执行一个项目,并具有战术性 | |
| 第二级 | One hundred and eighty thousand | Two hundred thousand | 应该能够领导整个部门,管理一个中等规模的团队并执行战略 | |
| 第三级 | Two hundred and fifty thousand | Two hundred and fifty thousand | 担任高级/行政管理职位,管理大型团队并决定战略 | |
资料来源:伯奇作品研究 202 1
个人贡献者只对自己的表现负责。他们的工作不需要他们管理团队。然而,经理也监督其他员工的工作。
关键要点
数据分析师和数据科学家是相似的,因为他们都广泛地与数据打交道;它们只是在处理数据的方式上有所不同。一些关键的区分参数包括他们的教育背景、他们处理的数据量以及他们使用的编程水平。尽管数据科学家更有可能获得更高的薪水,但这一角色也承担着更大的责任和期望。如果您仍未决定走哪条路,您可能希望先尝试每条路的一两门课程,以便更清楚地了解您更喜欢哪种数据处理方式。
20 个各级数据分析项目
在学习了数据分析的基础知识之后,是时候通过参与项目来应用你的技能了。公司更喜欢招聘有多个项目经验的学生,他们正在寻找擅长数据摄取和清理、数据操作、概率和统计、预测分析和报告的员工。
这不是学习一门新的语言或工具。这都是关于理解数据和提取重要信息。您需要处理多个项目,以便更好地理解数据并为非技术人员生成报告。
这个博客将涵盖面向初学者、专业人士和毕业班学生的数据分析项目。此外,您将了解端到端项目,包括从数据导入到报告的所有基本步骤。
面向初学者的数据分析项目
作为初学者,您需要专注于数据的导入、清理、操作和可视化。
- 数据导入:学习使用 SQL、Python、R 或网页抓取导入数据。
- 数据清洗:使用各种 Python 和 R 库对数据进行清洗和处理。
- 数据操作:使用各种技术塑造数据集,用于数据分析和可视化。
- 数据可视化:使用绘图和图形显示数据。
数据导入和清理项目
探索纽约 Airbnb 市场
在探索纽约 Airbnb 市场项目中,您将应用数据导入和清理技能来分析纽约的 Airbnb 市场。您将接收和组合来自多种文件类型的数据,并清理字符串和格式化日期以提取准确的信息。
作者图片|项目代码
该项目非常适合希望获得数据导入和清理经验的初学者。您可以对这个在线售票数据集应用类似的方法,以便更好地处理数据。
通过参加短期课程了解有关数据导入和清理的更多信息:
古典小说中的词频
在经典小说中的词频项目中,您将使用requests
和BeautifulSoup
从古腾堡项目网站上抓取一部小说。在抓取和清理了文本数据之后,你将使用 NLP 来查找莫比迪克中出现频率最高的单词。该项目向您介绍了 Python web 抓取和自然语言处理的世界。
作者图片|项目代码
对于数据分析师和数据科学家来说,网络抓取是一项需要学习的基本技能。你可以参加一个简短的 Web Scraping with Python 课程来理解 HTML 网页的工具和组件。
数据操作项目
探索比特币加密货币市场
在探索比特币加密货币市场项目中,你将探索比特币和其他加密货币数据。您将通过丢弃没有市值的加密货币、将比特币与其他货币进行比较以及为可视化准备数据来清理数据集。
作者图片|项目代码
您可以将类似的方法应用于股票交易数据,并学习操纵数据进行数据分析。此外,你可以通过学习熊猫的数据操作课程来学习数据转换、聚合、切片和索引。
分析你的 Runkeeper 健身数据
在分析你的 Runkeeper 健身项目中,你将导入、清理、操作、分析 Runkeeper 七年的训练数据。对于学习复杂的数据过滤、转换和处理,这是一个完美的示例项目。此外,您将分析数据并提交一份详细的总结报告。
作者图片|项目代码
您可以将类似的方法应用到 NBA 投篮数据中,获得更多的数据操作和分析经验,或者您可以参加 Python 课程中的操作时间序列数据,以处理复杂的时间序列数据集。
数据可视化项目
想象新冠肺炎
在可视化新冠肺炎项目中,您将使用最流行的 R 库ggplot
可视化新冠肺炎数据。你将分析世界范围内的确诊病例,将中国与其他国家进行比较,学习对图表进行注释,并添加对数刻度。这个项目将教会你 R 程序员急需的技能。
来自项目的图像
您可以将 ggplot 方法应用于麻疹数据,获得更多数据可视化和分析的经验。此外,您可以通过 ggplot2 课程学习中级数据可视化,以了解最佳数据可视化实践。
Google Play 上的 Android 应用市场
在 Google Play 项目的 Android 应用市场中,您将导入、清理和可视化谷歌 Play 商店数据,以了解 Android 应用市场。
您将:
- 清理数据。
- 请更正数据类型。
- 探索应用类别。
- 了解应用评分、大小、受欢迎程度和价格的分布。
- 对用户评论进行情感分析。
来自项目的图像
您可以将从项目中学到的经验应用于类似的数据集:谷歌 Play 商店应用程序以获得更多可视化和探索数据的经验。
使用代码显示交互式数据可视化很容易,但是理解和解释数据很难。参加了解数据可视化课程,解释可视化分布并学习交流复杂数据的最佳数据可视化技术。
高级数据分析项目
对于更高级的数据分析项目,你需要掌握数学、概率和统计。此外,您将执行探索性数据和预测性分析,以详细了解数据。
- 概率&统计:对数据进行均值、中值、标准差、概率分布算法、相关性。
- 探索性数据分析:探索数据分布,了解各种类型的列,了解趋势和模式。
- 预测分析:使用机器学习算法执行回归、分类、聚类和预测。
概率和统计项目
来自社交媒体数据的实时洞察
对于来自社交媒体的实时洞察项目,你将使用各种统计工具深入挖掘 Twitter 的热门趋势。你将了解本地和全球模式和共同趋势,并执行频率和语言分析。
作者图片|项目代码
您可以在一个新的数据集上应用该项目中使用的类似方法:互联网新闻和消费者参与度,并了解更多有关分析新闻趋势和消费者行为的信息。
从情节摘要中寻找电影相似之处
在从情节摘要项目中查找电影相似性,您将使用 NLP 和聚类来查找电影情节之间的相似性。如果您希望将统计技术应用于文本数据,这是一个完美的项目。
您将导入两个数据集,合并它们,执行标记化和词干化,将单词转换为向量,并使用 KMeans 执行聚类。此外,您将使用 Matplotlib、Linkage 和 Dendrograms 计算相似性距离并可视化结果。
来自项目的图像
使用您从项目中获得的经验,并将它们应用到一个新的数据集:网飞电影数据,获得将统计数据应用到文本数据的经验。
如果您有兴趣了解最常见的统计技术、概率、数据分布、相关性和实验设计,请参加Python 中的统计学简介课程。
探索性数据分析(EDA)项目
分析国际债务统计数据
在Analyze International Debt Statistics项目中,您将使用世界银行的数据集编写 SQL 查询来探索和分析国际债务。SQL 是最流行和最基本的移动数据分析工具。
在项目中,您将会发现:
- 不同的国家
- 独特的债务指标
- 这些国家所欠的债务总额
- 债务最高的国家
- 跨指标的平均债务额
- 本金偿还的最高金额
- 最常见的债务指标
作者图片|项目代码
您将连接 World Nations MariaDB 数据集,并应用类似的查询来获得处理和分析 SQL 数据库的额外经验。此外,您可以在 SQL 课程中探索性数据分析,以提高处理各种 SQL 数据库的技术和查询。
在办公室调查网飞电影和客串明星
在调查网飞电影和《办公室》客串明星项目中,您将使用数据操作和可视化来解决现实世界中的数据科学问题。您将执行深入的探索性数据分析,并从详细的图表中得出结论。
来自项目的图像
您可以通过将类似的技能应用到新的数据集来处理投资组合项目:网飞电影数据。此外,您可以通过 Python 中的探索性数据分析,了解更多关于数据清洗和验证的知识,了解关系和分布,探索多元关系。
预测分析项目
食品价格预测函数
在食品价格预测函数项目中,您将对卢旺达的食品价格进行预测分析。您将使用 R 包导入、争论、操作和预测数据。它非常适合初学者和刚开始学习 R 语言和预测分析的专业人士。
来自项目的图像
您可以为贷款数据创建一个时间序列预测 R 函数,并使用 R 包更好地执行预测分析。此外,您还可以完成 R 课程中的产品需求预测,以了解更多关于时间序列需求预测、混合回归和分层预测的信息。
预测信用卡批准
在预测信用卡批准项目中,您将构建预测信用卡申请批准的最佳执行机器学习模型。
首先,您将了解数据并估算缺失值。之后,您将对数据进行预处理,并在训练集上训练一个逻辑回归模型。最后,您将使用网格搜索来评估结果并改进模型性能。
作者图片|项目代码
应用简单的机器学习算法是数据分析师生活中必不可少的一部分。您可以通过将类似的方法应用于新的数据集来获得更多经验:银行营销。
通过参加 scikit-learn 课程的简短监督学习,了解有关分类、回归、微调和预处理的更多信息。
面向最后一年学生的数据分析项目
最后一年的学生项目通常是研究基地,需要至少 2-3 个月来完成。你将在一个特定的主题上工作,并尝试使用各种统计和概率技术来改善结果。
注意:数据分析最后一年项目的机器学习项目有增长趋势。
降低美国的交通死亡率
对于降低美国交通死亡率项目,你会发现一个降低美国交通相关死亡的好策略。您将导入、清理、操作和可视化数据。此外,您将执行特征工程并应用各种机器学习模型(多元线性回归、KMeans 聚类)来得出庄严的和交流的结果。
来自项目的图像
如果你想了解更多关于无监督学习的知识,请查看 Python 课程中的聚类分析。
从音频数据中分类歌曲流派
在对来自音频的歌曲流派进行分类项目中,您将应用机器学习算法对歌曲进行流派分类。
您将:
- 准备数据集
- 将它们分成训练集和测试集
- 标准化数据
- 对缩放数据应用 PCA
- 训练决策树和逻辑回归比较性能
- 平衡数据以获得更好的性能
- 理解模型偏差
- 应用交叉验证来评估我们的模型
作者图片|项目结果
参加 Python 课程中的线性分类器,了解更多关于逻辑回归和 SVM 的知识。
世界人口分析
世界人口分析项目是执行深度探索性分析的最佳范例。您将探索各种列,可视化人口最少和最多的国家,并探索人口密度和增长率。此外,您将显示国家等级分布和相关图。
来自项目的图像
通过完成 Seaborn 的中级数据可视化课程,学习用 Python 绘制数据可视化的简单方法。
工业中的数据科学和 MLOps 前景
行业中的数据科学和 MLOps 前景项目是所有数据操作、可视化、探索性和地理空间分析的圣杯。你将学会有效地使用箱线图、甜甜圈图、条形图、热图、平行分类图、气泡图、漏斗图、雷达图、冰柱图和地图。此外,你将学会解释各种类型的图表。
来自项目的图像
参加 Python 课程中的使用 Plotly 进行数据可视化介绍,了解 Plotly 的高级特性和定制。
端到端数据分析项目
端到端项目对于您的简历和对数据分析项目生命周期的理解非常有用。
一般来说,你会:
- 处理多个数据集
- 了解数据分布
- 应用数据清理和操作
- 应用概率和统计技术
- 执行数据分析和可视化
- 使用机器学习模型进行预测分析
- 创建报告或仪表板
用随机森林预测出租车费用
在用随机森林预测出租车费用项目中,你将在纽约的出租车旅程中使用基于树的模型,根据位置、日期和时间来预测费用和小费的价值。此外,你将熟悉流行的 R 包dplyr
、ggplot2
和randomForests
。
您将清理数据并将其在地图上可视化以了解乘车热点,使用树和随机森林模型预测出租车费用,在地图上显示预测,并分析结果。
来自项目的图像
如果您是 R 语言基于树的模型的新手,请参加带 R 的基于树的模型的机器学习课程,成为专家。
用曲奇猫测试手机游戏 A/B
A/B 测试新功能和新产品是数据分析师工作的重要部分。在用 Cookie 猫进行手游 A/B 测试项目中,你将分析 A/B 测试的结果,Cookie 猫中的第一道门从 30 级移动到 40 级。
具体来说,您需要应用数据操作、统计、数据可视化和批判性思维来决定哪个版本是最好的。
来自项目的图像
如果您是 A/B 测试的新手,请尝试完成客户分析和 Python 中的 A/B 测试课程,以了解 KPI,探索和可视化客户行为和应用,并分析 A/B 测试的结果。
使用 Python 进行时间序列分析和预测的端到端项目
在时间序列分析和预测项目中,您将深入分析趋势,应用 ARIMA 模型进行预测,比较结果,并将结果可视化,以了解家具和办公用品的销售情况。
时间序列分析和预测项目在金融领域需求量很大,它们会帮助你找到一份高薪工作。你唯一需要做的就是解读各种趋势,准确预测数字。
注:财务分析和预测是一份高薪工作,但也是最辛苦的工作。
来自项目的图像
如果你正在努力分析和预测,尝试完成 Python 课程中的 ARIMA 模型,了解 ARMA 模型,拟合未来,选择最佳模型,以及训练季节性 ARIMA 模型。
构建多目标推荐系统
构建多目标推荐系统项目的目标是预测电子商务点击、购物车添加和订单。简而言之,您将基于用户会话中以前的事件创建一个多目标推荐系统。
完成项目后,您将掌握:
- 数据处理和分析
- 了解会话和事件
- 数据可视化和报告
- 处理时间序列数据
- 分析时间序列数据以探索用户行为
- 预测最高点击量、购物车和订单
来自项目的图像
结论
学习完基本技能后,你需要建立一个强大的作品集来展示你的知识。此外,你将学习对你的职业生涯有益的新工具、特性和概念。
在这篇文章中,我们了解了初学者友好项目、高级项目、毕业班学生项目和端到端数据分析项目。此外,我们还涵盖了数据接收和清理、概率和统计、数据操作和可视化、探索性数据和预测性分析等项目。
那么,下一步是什么?完成至少 12 个项目后,尝试获得专业数据分析师认证。这会增加你被雇佣的几率。你也可以查看我们关于如何成为数据分析师的帖子,了解更多职业建议。
数据营志愿者:2022 年第三季度
现场志愿服务
为了庆祝过去一周的国际志愿服务日,社会影响团队想向大家最后一次介绍我们在 2022 年的志愿服务。在过去的一年中,40 多名数据营员自愿提供了 100 多个集体工作时间,以支持全球弱势群体和个人的教育和就业能力。如果没有我们在 【百分之承诺】 的朋友们的组织支持,以及 14 个非常特殊的 DataCamp 捐赠非营利合作伙伴,这是不可能的。
我们的员工最满意的志愿者经历之一是与我们在 STEM 教育学院 的合作伙伴在一起,该学院为多个城市的高风险青少年提供免费的暑期数据分析和创业训练营。通过免费使用 DataCamp 课程和 Workspace 作为 DataCamp 捐赠的一部分,他们已经能够更有效地接触到更多的年轻人,并保留更多的发展资金,作为现金奖学金提供给他们的学生,用于他们的本科职业生涯。
新学年即将开始,我们在哈莱姆区的一个社区中心拜访了他们在纽约的学生,为他们提供从高中过渡到大学,然后进入科技行业的指导。我们分成小组,就移动应用创意的商业提案进行合作,以促进社会公益,从而结束了这一天。
我们在美丽的希腊雅典度过了自九月疫情以来的第一个公司工作周。我们为当地的非营利图书馆举办了一场图书推广活动,我们需要书,这是雅典唯一的多语言图书馆。我们鼓励每个人从家里带一本任何语言的书到希腊,结果我们捐了 50 多本!如果你曾经在雅典,需要一个舒适、安静的地方阅读和放松,我们不能推荐这个图书馆!
为我们的数据营付出更多努力捐赠合作伙伴
我们喜欢照顾我们的 DataCamp 捐赠合作伙伴组织,而不仅仅是为他们提供一年免费使用 DataCamp 的机会。DataCamp 员工还自愿参加了 18 个独立的志愿者活动,为我们的 DataCamp 捐赠合作伙伴及其学员服务。这些活动包括讲座、研讨会、问答会、行政协助和一对一辅导,影响了数千名学习者。
我们以最民主的方式选择哪些非营利合作伙伴来提供这种特别关注。一些 DataCamp 捐赠合作伙伴组织请求我们的一些专家到场,我们的社会影响团队将他们与最适合该请求的 DataCamp 员工联系起来。但是,我们的大多数志愿者活动实际上都是出于我们员工的愿望,即联系和帮助他们所关心的特定社区。志愿服务时,数据营员通常会选择他们想要帮助的特定非营利组织或地理位置。我们的合作伙伴组织遍布 80 多个国家,分布在世界各地的 DataCamp 员工总是有一组精彩的社区来支持,就像他们一样多样化。
感谢所有 DataCamp 捐赠合作伙伴组织,让我们的员工与他们的社区学习者互动,并帮助他们的生活发生切实的变化,包括:
| 积极进取 | 数据中的女性 | 叙利亚青年大会 |
| 贝鲁特艾 | 流行的开发者 | BeCode |
| 简单步骤 | 特征线 | 河流信托 |
更多来自 2022 年的志愿者故事
无法满足这些美好的感觉?查看我们上一篇关于志愿服务的博文,其中详细介绍了 DataCampers 如何帮助伦敦的中学生探索职业道路和预算,如何向比利时的难民教授基本的数字技能,以及如何指导纽约市的难民撰写简历和面试工作。
要阅读更多关于 DataCamp 在世界各地所做的好事的故事,请查看我们博客的 DataCamp 捐赠部分。我们的下一次志愿服务更新将在 2023 年的 Q2 举行。到时候见!
数据冠军:提升数据驱动型组织技能的秘密要素
业务数据是任何公司运营绩效的关键。然而,要确保收集、翻译和优化正确的数据,需要不止一个人的努力。越来越多的公司不再招聘新的数据导向型员工,而是转向提升技能,作为创造数据文化的一种手段。
作为 DataCampRADAR conference的一部分,Data camp 销售支持主管 Alina Georgescu 主持了“在海湾银行打造数据冠军:扩大内部数据人才流动”会议,海湾银行首席数据官 Mai AlOwaish 出席了会议。AlOwaish 向我们介绍了数据冠军的概念,并解释了海湾银行如何在公司培养数据文化。
在本帖中,我们回顾了 AlOwaish 的会议,在会议中,她分享了自己的经验,并为在贵公司营造数据文化提供了重要建议。
是什么造就了数据驱动型组织?两个不同营销团队的故事
并不是每个看数据的人都是数据驱动的,AlOwaish 通过她的两个营销团队的故事争辩道,他们必须在营销活动的五天内驾驭暴跌的购买量。
团队 A 只查看了去年的数据,决定停止该活动,并将预算重新分配给另一个表现良好的活动。虽然他们认为他们正在做出数据驱动的决策,但他们只关注静态数据,因此错过了一些重要线索。
相反,B 组更谨慎地研究数据,包括实时数据,并继续活动,注意到会员人数上升,非活动购买增加。像团队 A 一样,通过查看报告中收到的指标之外的指标,团队 B 能够做出真正由数据驱动的决策,从而改善结果。
“我们需要让团队能够通过分析真正实现自助服务,”麦说,他认为 B 团队比其对手更受数据驱动。她认为,团队应该能够在特定的基础上探索新的想法,试验和处理数据,并为最佳的预期用途导航数据。然而,要做到这一点,关键因素是数据文化。
你如何发展数据文化?根据 AlOwaish 的说法,可以从组织内部建立数据文化,从宣传数据驱动决策重要性的冠军网络开始。一旦冠军网络形成并建立起来,一个组织然后开始推出一个企业数据素养计划。
数据冠军网络如何在海湾银行打造数据文化
根据 AlOwaish 的说法,建立数据冠军有一个秘诀,所有关键因素都以社区和技能为中心。以下是这些成分的分类:
- 确保组织有一个支持数据冠军的结构,并有行政和管理支持,以便每个部门都有数据冠军和专家,让团队的其他成员受益。
- 一套学习课程,旨在帮助冠军提升技能,并加快自助分析的使用。
- 强调技能提升重要性的激励措施和实践社区——都围绕着回答“这对我有什么好处?”。
建立冠军网络后,下一个挑战是为组织的其他成员推出数据素养计划。正如 Mai 所说,数据创造者和消费者都需要认识到数据的重要性,它是每个人在海湾银行取得成功的资产。
此外,精通数据还意味着能够辨别哪些数据适合公司的预期用途,适合合适的受众,适合合适的时间。
海湾银行的数据大使计划如何加速数据扫盲
会议最后概述了数据大使计划,该计划于 2021 年至 2022 年在海湾银行实施。该计划是一个正式的数据素养计划,在海湾银行的每个部门提名数据冠军,并扩展到更广泛的组织。
在每个数据驱动的组织中,十分之一的人倾向于数据,这是创造可靠数据冠军的完美起点。因此,海湾银行从其总部的 1000 人中培养了 140 名数据大使。
“部门中任何接触数据的人都有资格成为数据大使,”AlOwaish 解释道,他还深入研究了冠军新获得的技能。海湾银行的技能提升项目提供了关于数据质量、数据可视化、自动化等方面的研讨会。数据冠军还被教授 Tableau 自助分析,直到一年后从该项目毕业。
从个人银行业务到人力资源、风险管理和 IT,这些冠军成为其部门数据的“关键人物”。
最后,为这些冠军举行了毕业典礼,并赠送了各种奖品和糖果,这进一步加强了该计划的社区方面。
除了数据冠军之外,其余的员工都参加了数据素养计划,以培养他们在数据方面的基本技能。
AlOwaish 坚信 EM Rogers 1962 年的创新扩散理论以及团队合作的积极但不断增加的影响,她在会议结束时分享了她最喜欢的一句话:“转型中人的因素与其基础设施相关因素一样是成功的基础,”作者是 Al Sumait、Helsper、Navarro、Al-Saif 和 Raut (2022)。
AlOwaish 解释说,人的因素是真正让数据文化在组织中扎根的因素。新的工具和工作流固然重要,但建立一个积极参与的冠军网络是一个组织在建立数据文化的道路上能够取得的最大胜利之一。
要观看麦的完整会话,请在这里收听点播记录。
数据去神秘化:不同类型的人工智能偏见
欢迎来到为期一个月的数据揭秘系列的最后一篇文章。作为数据扫盲月的一部分,本系列阐明了数据世界的关键概念,并试图回答你可能不敢问的问题。如果你想从头开始,请阅读我们系列的第一篇文章:什么是数据集?
在这篇文章中,我们将继续从之前的数据揭秘条目的主题,并讨论人工智能的潜在有害影响,它如何使对某些人群的偏见永久化,以及每个人都应该意识到的不同类型的人工智能偏见。
人工智能偏见的问题
今天大多数人工智能系统都利用了机器学习。根据的定义,机器学习应用先进的统计技术从过去的数据中学习模式,并对未来事件做出预测。
机器学习的广泛采用导致它做出有偏见的预测的案例急剧增加。有偏见的人工智能算法一直是人工智能社区的一个严重问题,是用于模型训练的数据的产物。偏见可以以多种形式表现出来——可能是社会的或结构性的,也可能存在于对特定性别、肤色、宗教或国籍的偏见中。
因此,人工智能算法在试图模仿人类判断时,会从训练数据中学习偏差。让我们回顾一些过去的例子,在这些例子中,有偏见的人工智能预测对社会和整个人类产生了负面影响:
性别偏见:亚马逊的招聘引擎
亚马逊开发了一个招聘引擎来自动筛选求职者的简历,以便进一步面试。然而,该算法反映了它从过去的数据中学到的偏见,最终只选择了男性候选人的资料。
种族偏见:PredPol 算法
PredPol,或预测性警务,建立了一个犯罪活动高发地区的热图,并将少数民族特定的地点确定为热点地区。该算法是在有偏见的输入数据上训练的,这些数据包括从这些地区报告的几起犯罪事件。
种族偏见:COMPAS 算法
惩教罪犯管理概况替代制裁(COMPAS)软件用于评估罪犯重复犯罪的可能性。然而,作为 2016 年调查的一部分,算法出现了偏差。该软件认为黑人罪犯比白人罪犯更有可能再次犯罪。
从上面的例子可以看出,机器学习算法除了从其他数据规律中学习偏差,还从训练数据中学习偏差。除非在源头进行处理,否则偏差会以多种形式出现在 AI/ML 管道中。随着人工智能在组织和社会中变得更加广泛,每个人都应该意识到人工智能系统不同类型的偏见。以下是人工智能中最常见的三种偏见。
人工智能偏见的三种常见类型
偏见
当训练数据反映现有的偏见、刻板印象和社会假设时,这些偏见会嵌入到学习模型中;这种偏见被称为偏见。例如,当您搜索“医生”时,搜索结果包含许多男性医生的图像。相比之下,对“护士”的类似搜索会得到女护士的图像。这充分说明了基于性别的社会陈规定型观念。
样本选择偏差
当训练数据不能代表所研究的人群时,就会出现样本选择偏差。一个例子是人工智能系统被训练来检测皮肤癌。如果原始数据集不代表更广泛的人群,则该系统对于数据集中代表性不足的群体的成员来说表现不佳。
测量偏差
测量偏差来自数据收集或测量过程中的误差。例如,如果来自用于为图像识别系统提供数据的照相机的图像质量差,这可能导致对特定人群有偏见的结果。另一个例子可以来自于人的判断。例如,医疗诊断算法可以被训练为基于替代指标(如医生出诊而不是实际症状)来预测疾病的可能性。
为负责任的人工智能开发数据素养
在整个这个月,我们强调了数据素养对个人和组织的重要性。数据素养允许非技术利益相关者与数据和人工智能专家交谈,并理解人工智能系统的局限性。更重要的是,它促进了主题专家和人工智能专家之间的双向对话,允许对人工智能系统的潜在危害进行深思熟虑的讨论。
为了让自己具备进行这些对话的必要知识,请参加我们的理解机器学习课程,开始您的数据素养之旅。有关更多数据扫盲和数据去神秘化的内容,请查看以下资源:
数据去神秘化:四种类型的分析
欢迎来到为期一个月的数据揭秘系列的第四部分。作为数据扫盲月的一部分,该系列将阐明数据世界的关键概念,回答你可能不敢问的问题,并在此过程中获得乐趣。如果你想从头开始,请阅读我们系列的第一篇文章:什么是数据集?
在本条目中,我们将探索不同类型的分析,从描述性到规范性,确定数据可以回答的不同类型的问题,概述示例等。
四种问题,四种分析
数据可以用来回答几乎无限多的问题,但我们可以将这些问题分成四类。这自然会导致不同类型的数据分析:每个问题类别都有相应的分析类型。
| 问题类型 | 分析类型 |
| 发生了什么事? | 描述性分析 |
| 为什么会这样? | 诊断分析 |
| 会发生什么? | 预测分析 |
| 我们怎样才能做到这一点? | 规定性分析 |
这四种类型的分析按复杂程度的递增顺序列出。根据数据项目的范围,完成一个完整的分析可能涉及几种类型的分析。
在深入研究不同类型的分析之前,让我们考虑一个现实世界中的病人去看医生。首先,医生将对病人进行检查,以获得对症状的描述。接下来,他们将试图诊断引起症状的医学问题。第三,他们将试图预测症状会随着时间的推移如何变化(病人会变好还是变坏)。最后,他们会为病人开出治疗方案。
描述性分析:理解发生了什么
描述性分析回答“发生了什么?”或者“发生了什么?”。
描述性分析中使用的主要技术是计算汇总统计和绘图数据可视化。汇总统计包括数据计数、平均值(如平均值和中值)以及变化度量(如范围和标准偏差)。
你可以在下一条描述性统计中了解更多关于汇总统计的信息。此外,您可以查看下面的备忘单,深入了解数据可视化。
描述性分析示例
让我们看一个例子。假设您想要了解贵公司的收入驱动因素。您对销售数据进行描述性分析,回答以下问题:
- 上个月销售了多少?(销售的计数。)
- 平均交易额是多少?(平均销售价格。)
- 每个商店的总销售额之间有多大的差异?(各店总销售额的标准差。)
- 每天的总销售额是多少?(总销售额对日期的折线图。)
诊断分析:了解原因
描述性分析通常会产生新的问题。在销售示例中,您可能会看到某个星期四的总销售额出乎意料地低。知道发生了什么是一个有用的起点,但这不是一个令人满意的分析结论。下一个显而易见的问题是,“为什么那个星期四销售额低?”。
这是一个需要诊断分析的问题。一般来说,诊断分析会回答“为什么会发生某些事情?”这种形式的问题。通常,某事物是一个出乎意料的高或出乎意料的低值,也称为异常值。
诊断分析通常包括以下步骤:
- 形成关于为什么会发生不寻常的事情的假设。
- 获取与可能原因相关的数据。
- 对数据子集执行描述性分析(“数据挖掘”)。
- 拟合统计模型,如回归来检查原因和异常事件之间的关系。
需要注意的一点是,在许多情况下,您只能确定您测量的内容和可疑原因之间的关系。你无法证明这真的是原因。在即将到来的数据去神秘化条目中,我们将涉及相关性与因果关系的陷阱。
诊断分析示例
回到我们的销售示例,在上个月的一个星期四发现总销售额出乎意料地低之后,您决定对销售数据执行诊断分析。
- 形成假设:你的第一个假设是,由于你的网站出现故障,阻碍了在线销售,导致销售额下降。
- 获取数据:获取网站性能数据。
- 描述性分析:你画了一个随时间变化的表现线图,但在那个周四看不到下跌。接下来,计算网上和店内的总销售额,发现某个国家/地区的店内销售额较低。
- 形成另一个假设:你回忆起那个国家的那个地区在那个星期四有一场恶劣的暴风雨,并且假设那可能赶走了顾客。
- 获取数据:检索每个商店位置的天气数据。
- 拟合统计模型:使用天气作为模型的输入,将时间序列模型拟合到总销售数据中。这表明恶劣的天气与较低的销售额有关。
预测分析:了解将会发生什么
数据分析不仅仅让你了解过去。第三种类型的分析是预测。这些可以是对未来的预测,其中的预测被称为预测,但这并不是必须的。预测还可以围绕客户是否符合特定的客户群或交易是否是欺诈性的。预测分析中涉及的主要技术是统计模型,尽管在预测的上下文中,它们通常被称为机器学习模型。
您可以在《数据去神秘化》的第三个条目中读到更多关于机器学习的内容,关于数据科学、人工智能、机器学习和深度学习之间的区别。
预测分析示例
在诊断出低销售额的问题后,您的老板现在担心下一季度,并想知道未来几个月的收入情况。因此,您使用与之前相同的时间序列模型来预测未来的销售额。
你的老板也想知道,根据谁最有可能买东西,他们应该瞄准哪些潜在客户。因此,你可以根据客户的属性,如他们以前的购买历史和估计收入,创建一个机器学习模型,来预测他们购买的概率。
规范分析:我们如何实现它?
数据分析的一大好处是,你可以用它来帮助你做出更好的决策。也就是说,你不是凭直觉,而是根据数据做出决策。规定性分析帮助你回答“我们应该做什么?”。
规范分析中使用的技术基于诊断和预测分析的机器学习模型,让您探索不同的场景。此外,说明性分析包括优化,以从各种选择中发现最佳可能方案。
说明性分析示例
你的老板左右为难。收入预测没有董事会希望的那么高,所以你的老板现在面临着压力,需要想办法增加收入。他们向您寻求数据驱动的解决方案。
- 在你和你的老板之间,你想出了一些改变店内/网上销售组合以及改变关键产品价格的可能方案。
- 您可以使用预测分析来预测每一种情况。
- 在发现一些有希望的场景后,您可以使用优化将场景优化为最佳结果。
想了解更多?
我们希望您喜欢这篇关于不同类型数据分析的简短介绍。在下一篇系列文章中,我们将更深入地探索描述性分析,并重点关注描述性分析中的统计技术。
数据揭秘:什么是 A/B 测试?
欢迎来到为期一个月的数据揭秘系列的第七部分。作为数据素养月的一部分,该系列将阐明数据世界的关键概念,回答你可能不敢问的问题,并在此过程中获得乐趣。如果你想从头开始,请阅读我们系列的第一篇文章:什么是数据集?
在这个条目中,我们将探索数据中的一个主要用例:A/B 测试。虽然你可能没有听说过它——如果你曾经使用过数字服务或网站——但很有可能你自己也参加过 A/B 测试。在整篇博文中,我们将概述什么是 A/B 测试,它们通常是如何设置的,以及 Airbnb、网飞和 Gojek 等热门服务中一些著名的 A/B 测试示例。
什么是 A/B 测试?
A/B 测试比较同一事物的两个版本的性能,通常是一个网页或一个数字产品。更广泛地说,A/B 测试是一个框架,它可以让您快速设置实验,使用统计分析来分析它们的结果,并根据您的结果做出决策。
A/B 测试帮助团队验证关键问题,例如“改变按钮的颜色会增加点击次数吗?”或者“使用一张或另一张电影海报会增加电影标题的浏览量吗?”。
A/B 测试确立了因果关系。如果一个带有红色按钮的主页比一个蓝色按钮驱动更多的点击——在其他条件不变的情况下——我们可以得出结论,红色按钮导致点击的增加。不用说,A/B 测试对于寻求优化产品的数据驱动团队来说是一个方便的工具。
A/B 测试是如何工作的?
A/B 测试可以创造奇迹,但前提是必须一丝不苟地遵循这些步骤。以下是设计成功的 A/B 测试的一些关键步骤:
1.阐明一个假设
假设说明了测试变量的变化如何影响总体的性能指标。假设的一个例子如下:
将“添加到购物车”按钮的颜色从蓝色更改为红色(测试变量)将提高所有桌面用户(群体)的转换率(性能指标)。
一个常见的陷阱是在一个实验中有多个测试变量,这使得很难梳理出每个变化对度量的影响。
2.创建测试变量的控制和处理版本
A/B 测试中的术语“A/B”指的是你正在测试的东西的两个版本。
通俗地说,控制是产品的“版本 A”或者你正在测试的测试变量的现有版本。而“版本 B”是您正在测试的测试变量的处理或新版本。
使用添加到购物车按钮的相同示例,控件(版本 A)是现有的蓝色添加到购物车按钮,而处理(版本 B)是新的红色按钮。
3.确定统计显著性的样本量
根据用例以及服务拥有的用户数量,不可能对所有人运行 A/B 测试。下一个最好的选择是在用户的子集或样本上运行 A/B 测试。为了做到这一点,从业者通常确定一个足够大的用户统计显著样本,以便他们对总体做出结论。
例如,当我们再次查看添加到购物车按钮的例子时,A/B 测试将在一部分桌面用户上运行,而不是在所有桌面用户上运行。
4.选择随机分组进行控制和治疗
实验中的每个用户要么看到版本 A,要么看到版本 b。我们如何决定一个用户是被给予控制还是治疗?
为了确保测试公平公正,从业人员通常将样本随机分为治疗组和对照组(如中所示,每个用户接受治疗或控制的概率相同)和相等(如中所示,治疗组和对照组的规模相同)。
5.运行测试,并分析结果
基础工作完成后,A/B 测试就可以开始了。一旦达到足够大的样本,就可以分析 A/B 测试的结果。
为了分析结果,我们计算了试验指标(转化率)在治疗组和对照组之间的差异。如果差异足够显著,我们可以自信地得出结论,一个版本确实比另一个版本更好。
6.迭代,迭代,迭代
如果在 A/B 测试中出现了一个明显的赢家,高级版本现在可以上线了!从业者还对数据进行深入研究,以更好地理解用户的行为。A/B 测试只是优化过程的一小部分。从运行 A/B 测试中提取的知识可以激发新的想法和假设,这些想法和假设的有效性反过来可以被测试。
A/B 测试示例
大多数科技公司对 A/B 测试并不陌生。事实上,你可能已经在控制组或治疗组中进行了你所使用的 A/B 测试。以下是一些著名的野外 A/B 测试的例子,来自当今最受欢迎的网站和服务之一:
1.Airbnb 的 A/B 测试
A/B 测试的几个优秀例子来自 Airbnb。Airbnb 一直有很强的实验和 A/B 测试文化。在这篇 2014 年的博客文章中,他们深入探讨了他们如何测试搜索页面上价格过滤器的最大值从 300 美元到 1000 美元的变化。
Airbnb 测试更改最高价格过滤器
在另一个例子中,该团队展示了一个重新设计的主页的例子,并讨论了它如何影响 Airbnb 平台的使用。虽然有点技术性,但这篇文章提供了一个很好的例子,说明 A/B 测试是如何帮助 Airbnb 作为一个产品取得成功的。
Airbnb 使用 A/B 测试来决定更好的用户界面
2.网飞的 A/B 测试
通过一系列的 A/B 测试,网飞为各种标题选择了最佳作品,并明显增加了流媒体播放的小时数。A/B 测试的一个很好的副产品是它们揭示了对用户行为和用户体验的深刻见解。例如,通过运行这个测试,网飞确定带有表情的面部情绪的艺术作品表现得非常好。
网飞的《坚不可摧的童菲·史密特》的艺术样本
3.Gojek 的 A/B 测试
在印度尼西亚无处不在的一体化应用程序 Gojek 使用 A/B 测试来找到在其主页上显示的最佳产品数量。然后,产品团队使用反馈来决定向所有用户推出哪个实验变体。这是在 Gojek 发现的众多 A/B 测试用例之一。你也可以通过收听这一集 DataFramed 来了解更多关于 Gojek 的数据文化。
Gojek 使用一个内部实验平台来决定他们的主页设计
立即开始使用数据
我们希望你喜欢这个关于 A/B 测试的简短介绍。在本系列的下一篇文章中,我们将看看数据可视化的世界,并分解如何解释当今最常用的可视化。
如果您想立即开始您的数据学习之旅,请查看以下资源。
数据工程与数据科学信息图
如果你对分析领域感兴趣,你可能听说过数据工程和数据科学这两个术语,但是你知道它们的区别吗?尽管历史上这两种职业有相当多的重叠,但它们都变得越来越不同。DataCamp 制作了一个信息图来帮助你理解每个角色的技能和职责。你也将有机会比较工资,流行的软件和工具,以及一些教育资源来帮助你开始!
2021 年的数据流畅度
原文:https://web.archive.org/web/20221129033105/https://www.datacamp.com/blog/data-fluency-in-2021
去年 8 月,DataCamp 的产品研究副总裁 Ramnath Vaidyanathan 主持了一个由三部分组成的网络研讨会系列,主题是利用我们的 IPTOP 框架扩展数据科学。IPTOP 框架打破了每一个组织层次,使数据科学民主化,并在组织范围内实现数据流畅。
IPTOP 代表基础设施、人员、工具、组织和流程。这个由三部分组成的网络研讨会系列详细介绍了组织如何利用这些手段来实现数据科学的民主化,并在此过程中实现数据流畅。下面是这些杠杆的细目分类:
1 -基础设施
任何数据策略的目标都是将原始数据转化为洞察力和决策。这要求组织安全高效地收集、记录和存储数据,以便所有人都能访问。因此,这涉及到理解支持数据访问的最佳实践和框架,确保数据治理,阐明数据谱系,等等。
2 人
可以说,人是框架中最关键的杠杆,因为如果组织成员不具备处理数据的技能,组织就不会充分利用他们的数据。这就是为什么培养组织中每个人的必要数据技能对于数据科学的民主化和数据的流畅是必不可少的。
3 -工具
虽然基础架构使组织能够从数据中获得洞察力,但工具可以促进和激励整个组织使用通用的数据语言。这就是为什么有必要了解可用于特定任务的可能工具的范围,并投资和构建降低数据科学工作准入门槛的工具。
4 -组织
扩展数据科学的一个重要方面是如何组织数据专业人员。鉴于在大多数公司中,报告结构和议程推动工作,组织结构必须为你的公司建立可持续的成功。因此,在组织内设置和组织数据科学人才需要仔细考虑。
5 个流程
最后,扩展数据科学需要在惯例、最佳实践和流程上保持一致。促进一致性对于促进协作和避免孤立的组织至关重要。这允许所有的团队在一个公共的数据语言下一起工作并无缝地交流。
上周,我们发布了 2021 年的数据趋势和预测。我们的预测触及了 IPTOP 框架中的每一个层面,从通过增加云采用和元数据工具(基础设施)实现更强大的数据访问,到对数据提升技能的更高承诺(人员),更协作和更强大的工具(工具),管理运营中的机器学习模型的新兴角色(组织),最后是数据讲述和可视化的最佳实践(流程)。
这就是为什么我们很高兴地重申我们的承诺,即带来数据科学从业者和领导者关于如何最好地扩展数据科学和实现数据流畅的最新和最重要的见解。
在 2021 年,我们将举办一系列月度网络研讨会,讨论不同行业如何利用数据科学,组织如何管理其数据并实现更好的数据访问,提升数据科学人才技能的最佳实践,如何降低使用现代工具处理数据的门槛,如何组织和雇佣最佳数据科学人才,以及如何设置流程以实现数据驱动,等等。
请关注我们的即将举办的活动页面,了解最新动态——2021 年再见!
实现组织卓越的数据洞察、趋势和最佳实践
您的组织是否希望成为数字趋势和创新的领导者?然后,您需要一个计划来实施一个成功的数据策略。我们最近发布了一些关于数据战略、趋势、组织等方面的精彩内容。在下面探索这些资源。
网络研讨会
在您的组织中扩展数据科学
在这个网络研讨会系列中,DataCamp 的产品研究副总裁 Ramnath Vaidyanathan 将介绍我们的 IPTOP 框架(基础架构、人员、工具、组织和流程),用于在组织内构建数据战略和系统地扩展数据科学。
- 第 1 部分概述了 IPTOP 框架,以及框架中的每个元素如何相互配合以实现可扩展的数据策略。
- 第 2 部分重点关注扩展和民主化数据科学所需的工具和基础设施,以及实施中的最佳实践。
- 第 3 部分深入探讨了采用不同组织结构的利弊、21 世纪的关键数据角色等。
与扎克·迪恩-梅耶尔的炉边谈话:关于数据科学、GPT-3 和自动机器学习
数据科学和机器学习从根本上改变了我们做出决策、构建产品以及自动化工作流和流程的方式。在这次炉边谈话中,DataRobot 数据科学副总裁 Zach Deane-Mayer 将向我们介绍数据科学和机器学习为组织带来最大价值的用例。他还将分享他对机器学习新发展的见解,如 Open-AI 的 GPT-3 模型和深度学习在表格数据中的应用,并通过他在 DataRobot 上的工作评论自动化机器学习的兴起。
【2021 年数据趋势和预测:数据流畅之年
数据科学革命使普及成为可能,使数据流畅的组织和社会成为可能,在这样的组织和社会中,每个人都具备了获得信息、成为公民和员工所需的必要技能。在本次网络研讨会中,DataCamp 的产品研究副总裁 Ramnath Vaidyanathan、课程架构师 Richie Cotton 和数据科学传播者 Adel Nehme 将探讨明年及以后数据基础设施、技能和工具的八大趋势。
数据科学如何驱动汽车的未来
汽车工业是现代世界最古老的工业之一,但它不仅仅是制造汽车。从制造到移动应用开发的每一项业务功能都存在于汽车行业中。在本次网络研讨会中,福特首席数据科学家 Michael Crabtree 将回顾各种数据科学使用案例,这些案例将激发您用创新的方式挑战旧行业中的想法,从而塑造制造业和移动性的未来。
在大型组织中运营数据
大型组织与年轻的创业公司,甚至是中型公司有着本质的不同。它们通常存在的时间更长,有更严格的合规要求,公司文化可以追溯到几代人以前。在本次网络研讨会中,圣地亚哥市前 CDO、世界银行发展数据伙伴关系首席数据工程师马克西姆·佩切尔斯基将揭开大型组织内运营数据科学的独特挑战,大型组织如何尽快开展数据科学实践,以及在大型组织内促进数据驱动文化的最佳实践。
使政府机构的数据民主化
“数据民主化”是围绕组织数据成熟度发展的最流行的术语之一。来自澳大利亚悉尼新南威尔士州政府的高级数据科学家 Alex Scriven 将为您解析数据民主化在政府环境中的意义。他还将提供具体的、可操作的政府数据民主化最佳实践,并概述一些有趣的案例研究,说明当政府民主化开始扎根时会发生什么。
与 Quinn Lathrop 的炉边谈话:DataCamp 的领先数据科学
数据科学和机器学习从根本上改变了我们做出决策、构建产品以及自动化工作流和流程的方式。在这次炉边谈话中,DataCamp 的数据科学和心理计量学负责人 Quinn Lathrop 向我们介绍了数据科学在教育中的使用案例,数据科学如何推动教育技术,平衡产品目标和研究目标时的最佳实践,数据团队在创建数据文化中的作用,以及数据科学推动 DataCamp 的概述。
讲述更有影响力的数据科学
当数据科学团队希望扩大他们在整个组织中的影响时,数据科学家通常会花很长时间来优化和完善模型。很多时候,他们最终忽略了扩展数据科学最重要的选择标准:最终用户的接受度。在本次网络研讨会中,我们概述了讲故事如何让数据团队将相同的事实带到桌面上,但提供了一个清晰的框架,有助于阐明他们工作中最具影响力的方面。我们用真实案例讲述了一些技巧和窍门,如何说服最怀疑的最终用户。
实现数据流畅的途径
在本次网络研讨会中,DataCamp 的产品研究副总裁 Ramnath Vaidyanathan 分解了组织将经历的数据成熟度的四个阶段,从数据反应到数据扩展、数据渐进和数据流畅。他还从基础设施、人员、工具、组织和流程方面揭示了数据成熟度每个阶段的定义特征。最后,他揭示了组织从一个成熟阶段过渡到另一个阶段需要采取的步骤。
L&D 领导需要了解的关于数据流畅性的知识
虽然数字化转型计划失败的原因可能有很多,但一个重要原因是没有认识到可持续的组织范围数据转型是成功数字化转型的先决条件。投资工具和基础设施来实现组织范围的数据转换相对简单,但要解决的最具挑战性的支柱是数据分析和数据流畅性方面日益增长的技能差距。在本次网络研讨会中,我们将探讨组织内所有关键的数据流畅性能力领域。我们还将分解在每个组织中发现的关键数据角色,允许学习和开发团队为他们的人员系统地扩展个性化学习路径。
培训您的员工,让他们在数据驱动的时代茁壮成长
工作的未来是数据。随着世界上的数据量呈指数级增长,学习数据科学技能对于所有行业的专业人员做出数据驱动的业务决策越来越重要。为了满足这一需求,学习专家需要快速开发可扩展的高质量数据科学培训计划,并使用数据来衡量其培训计划的有效性。了解彭博如何与 DataCamp 合作,提供一个混合学习计划,重点是向彭博全球数据组织在世界各地的数百名员工教授数据技术。
白皮书
【2021 年数据趋势和预测:数据流畅之年
今年,我们站在大加速的边缘。世界各地的组织都在寻求提高其数字弹性,并在此过程中变得更加以数据为导向。数据科学革命总是让不可能变成可能。然而,真正的数据科学革命使这种可能性广泛传播,使数据流畅的组织和社会成为可能,在这样的组织和社会中,每个人都具备了获得信息、成为公民和员工所需的必要技能。
我们的数据科学开源指南
在过去的几十年里,数字技术彻底改变了我们的生活方式。从我们的交流方式到我们开展业务的方式,软件已经颠覆了今天的价值生成方式。数字技术的采用和发展的最重要催化剂之一是开源软件,它将使组织能够充分利用数据,并利用机器学习和数据科学创造变革性的解决方案、流程和产品。在我们的独家新指南中,找到您需要了解的关于数据科学开源的所有信息。
颠覆者和在位者之间的关键区别不是基于技术,而是在他们的数据驱动文化中,他们在检查和迭代他们的服务时从数据中获得的洞察力,以及他们培养的数据流畅技能。为了实现数据流畅,组织正在进行数据流畅的技能提升,而 L&D 领导者正成为许多组织长期战略的一部分。在本白皮书中,我们揭开了数据专业人员在任何数据驱动型组织中使用的数据工具的神秘面纱,并提出了一个角色驱动的学习和发展战略,其中包括八个要考虑的关键角色。
数据领导者的技能提升指南
为了提高数据流畅性,组织正在提高数据流畅性的技能,而数据领导者是组织长期战略不可或缺的一部分。在本白皮书中,我们揭开了数据专业人员在任何数据驱动的组织中使用的数据工具的神秘面纱,并提出了一个角色驱动的学习和发展战略,其中包括八个关键角色,以提高数据角色的技能。
金融业的数字化转型:提升数据驱动时代的技能
虽然合规性、数据质量和基础设施是阻碍大规模运营数据科学的主要挑战,但没有比数据流畅技能差距更紧迫的挑战了。在本白皮书中,我们概述了提高金融业数据流畅度时面临的独特挑战、金融服务组织目前可以开始实施的最具影响力的数据科学使用案例,以及实现这些案例所需的技能。
数据湖与数据仓库
谈到存储大数据,两个最受欢迎的选项是数据湖和数据仓库。数据仓库用于分析归档的结构化数据,而数据湖用于存储所有结构的大数据。
在这篇文章中,我们将解开两者之间的差异。下表将它们的差异分为五类。
数据湖 | 数据仓库 | |
---|---|---|
数据类型 | 来自各种公司数据源的非结构化和结构化数据 | 为适应关系数据库模式而构建的历史数据 |
目的 | 经济高效的大数据存储 | 商业决策分析 |
用户 | 数据科学家和工程师 | 数据分析师和业务分析师 |
任务 | 存储数据和大数据分析,如深度学习和实时分析 | 通常是用于聚合和汇总数据的只读查询 |
尺寸 | 存储所有可能用到的数据—可能会占用数 Pb! | 仅存储与分析相关的数据 |
数据类型
清理数据是一项关键的数据技能,因为数据自然会以混乱和不完美的形式出现。未经清理的原始数据被称为非结构化数据——它包含了世界上大多数数据,如照片、聊天记录和 PDF 文件。经过清理以适应模式、组织成表并由数据类型和关系定义的非结构化数据被称为结构化数据。这是湖泊和仓库的根本区别。
数据湖存储来自各种来源的数据,如物联网设备、实时社交媒体流、用户数据和 web 应用程序交易。有时这些数据是结构化的,但通常情况下,这是非常混乱的,因为数据是直接从数据源获取的。另一方面,数据仓库包含经过清理以适应关系模式的历史数据。
目的
数据湖用于经济高效地存储来自多个来源的大量数据。允许任何结构的数据可以降低成本,因为数据不需要符合特定的模式,因此更加灵活和可伸缩。然而,结构化数据更容易分析,因为它更干净,并且有一个统一的查询模式。通过将数据限制在一个模式中,数据仓库对于分析特定数据决策的历史数据非常有效。
您可能会注意到,数据湖和数据仓库在数据工作流中是相辅相成的。摄取的公司数据将立即存储到数据湖中。如果出现特定的业务问题,就从湖中提取一部分被认为相关的数据,对其进行清理,并将其导出到数据仓库中。
用户
数据湖和数据仓库对不同的用户很有用。数据分析人员和业务分析人员通常在数据仓库中工作,这些数据仓库包含了为他们的工作而处理的明确相关的数据。数据仓库需要较低水平的编程和数据科学知识才能使用。
数据湖是由数据工程师建立和维护的,他们将数据湖集成到数据管道中。数据科学家与数据湖的合作更加密切,因为它们包含更广泛、更现代的数据。
任务
数据工程师使用数据湖来存储传入的数据。然而,数据湖不仅限于存储。请记住,非结构化数据更加灵活和可扩展,这通常更适合大数据分析。大数据分析可以使用 Apache Spark 和 Hadoop 等服务在数据湖上运行。对于深度学习来说尤其如此,深度学习需要在不断增加的训练数据量中具有可扩展性。
对于分析师用户来说,数据仓库通常设置为只读,他们主要是读取和聚合数据以获得洞察力。由于数据已经清理和存档,通常不需要插入或更新数据。
大小
数据湖的规模大得多并不奇怪,因为它们保留了可能与公司相关的所有数据。数据湖的大小通常是 Pb,也就是 1,000!数据仓库对存储什么数据更具选择性。
结论
当您决定使用数据湖还是数据仓库时,仔细检查这些类别,看看哪一个最适合您的用例。如果你有兴趣深入了解它们的区别或学习如何设计数据仓库,请查看我们的数据库设计课程!
不要忘记,有时你需要两种储物解决方案的组合。在构建数据管道时尤其如此。你可以在我们的数据工程简介和用 Python 构建数据工程管道课程中看到这一点。
新冠肺炎时代的数据隐私
DataCamp 播客 DataFramed 的主持人 Hugo Bowne-Anderson 最近采访了 Cape Privacy 的产品负责人 Katharine Jarmul。
介绍凯瑟琳·贾马尔
雨果·鲍恩·安德森:嗨,凯瑟琳。
Katharine Jarmul: Hi Hugo.
雨果·伯恩·安德森:你好吗?
凯瑟琳·贾穆尔:很好。你好吗
雨果·鲍恩·安德森:非常好。所以我要读你的简历,就像 Ryan 读我的一样,这样每个人都知道你是谁。凯瑟琳正在做一件让我非常兴奋的事情。她是 Cape Privacy 的产品负责人,这是一家建立系统以利用安全、隐私、保护机器学习和协作数据科学的公司。凯瑟琳从 2008 年开始使用代码,用她自己的话说,来解决和创造问题。2010 年,她在洛杉矶帮助演出了第一部《皮拉第斯》,并与人合著了一本奥莱利的书。她是数据营的教练。她喜欢关注机器学习、对抗性攻击、数据隐私和道德以及工作流自动化基础设施方面的最新发展,通常很健谈。健谈又暴躁,这是她的原话,再一次,跟上她最新的恶作剧,这是 @KJAM ,K-J-A-M。
Hugo Bowne Anderson: Katherine,正如我刚才所说,是一名数据营讲师。她有一门关于 Python 自然语言处理入门的课程。我忘了,直到我查了这个,你们还有一个项目叫做谁在发微博?特朗普还是特鲁多?在我推测的地方,人们做一些自然语言处理来找出谁的推文,我推测的是什么...抱歉,继续。
凯瑟琳·贾穆尔:不,说吧。是的,我们收集了特朗普总统和特鲁多之间的一些推文,我们基本上在那里训练了一个分类器。所以,如果你已经完成了我的课程,而你还没有完成这个项目,那就去看看这个项目吧。酷的是,在最后你会检查,它可能会有点欺骗如何工作。
Hugo Bowne Anderson:我们在这里讨论数据隐私和我们今天的处境。我想说的是,目前我们遍布全球。非常感谢你们全天收看。凯瑟琳目前在柏林,瑞安在佛罗里达,我目前在澳大利亚。因此,我们从全球各地为您带来这个,但我们今天在这里谈论的是数据隐私。凯瑟琳和我过去曾就数据隐私进行过多次交谈。如果你喜欢这个对话,你可以去听一听我们几年前关于隐私的对话,那时 GDPR 进来了,在 DataFramed 播客上。但我们在这里谈论的是数据隐私,但在冠状病毒时代,现在发生了什么变化?但在我们开始之前,我想,你知道,每个人在数据科学方面都有不同的起源故事,凯瑟琳,所以我想你可以告诉我们一些关于你最初是如何进入它的。
凯瑟琳·贾穆尔:是的,非常有趣的故事。所以。我从小就非常擅长数学和计算机。我并不认为作为一个小女孩在数学和计算机方面真的很先进很奇怪,我可以感谢我的父母对我的支持,以及一群非常棒的老师。然而,当我进入大学时,我第一次意识到这可能有点奇怪,因为我的新生中女性不到 1%。所以,这对我来说有点尴尬。我最终转行,成为了经济学和里坡科学的双学位,我觉得计算机科学不再适合我了。那时的数据科学除了我所学的统计学之外,已经完全死亡了,例如,在政治学和经济学中,数据科学实际上非常有用,是的。这是不久前的事了。那应该是,我在 2004 年毕业,然后我有点意外地陷入了数据科学。所以,我最终获得了新闻学硕士学位,当时我在《华盛顿邮报》工作,我将大量的数据可视化和其他东西与故事结合在一起。我们习惯称之为互动,我吸引了负责他们应用团队的人的目光,他说,“嘿,你想过来帮我们做些事情吗?”
Katharine Jarmul:然后我开始为记者建立数据库,为记者建立不同的互动和地图。我开始潜心研究统计学,从那以后我就一直这样做。那是在 2007 年到 2008 年之间,是的,从那以后我一直在做这件事。它时断时续,但的确如此,因为自 2010 年代初以来,机器学习确实发生了变化,带来了很多希望。所以,我真的很喜欢 DataCamp 和人们的自学。我想我仅仅通过提问、寻找好的导师和保持好奇心就学到了很多。所以,我真的很欣赏数据营任务中的那种元素。
雨果·鲍恩·安德森:太棒了。我们非常感谢。令我着迷的是,你很早就意识到了自己的数学和计算技能以及 ComSci 技能。然后你去了新闻业,然后你被数据库和系统管理之类的东西拖了回来。但你不仅仅是,这听起来很可怕我要说的是,我要说你不仅仅是一个数据科学家,而且你还可以实际操作计算机,但我真正的意思是,我认为一堆数据工程的东西,实际的计算机科学,和软件工程的技能,对不对?
凯瑟琳·贾穆尔:是的。是啊。我的意思是,在 2008 年和 2009 年,我认为大多数人认为数据科学是“你能建立一个图表来配合我的数据库吗?”我敢肯定,在我的圈子之外,这是更先进的,但这是我们在数据新闻领域的最大进步。然后,在我最初工作的一些初创公司,我有点沉迷于数据质量和数据争论,这种类型的事情,因为当时的大多数问题是正确回答问题,我们必须确保我们甚至收集了正确的数据,甚至在正确的地方寻找。
雨果·鲍恩·安德森:这仍然是个问题,对吗?当然你也是,你的奥赖利的书是关于数据争论的。它甚至可能被称为数据争论,我不记得了,但是-
凯瑟琳·贾马尔:是的。是啊是啊是啊。我是说,这是个不幸的案例。我认为情况正在好转,至少现在越来越多的人开始关注我们在数据质量方面存在的问题,这是一种理解和测试。我要为远大前程欢呼。他们在这个领域做了一些很好的工作,政府部门也是,数据从何而来?是在什么情况下收集的?我认为很多这样的事情有助于推动围绕质量的对话,也可以推动围绕隐私的对话,这就是我们今天要讨论的内容。
Hugo Bowne Anderson:非常正确,我认为数据测试,你绝对是对的,如果你有新的数据进来,你想保持你的模型,而不是假设它们以你认为的方式工作,那么数据测试会涉及模型漂移和概念漂移。
凯瑟琳·贾穆尔:是的。
海角隐私
雨果·鲍恩·安德森:所以,也许在我们开始之前,你也可以告诉我们一些关于海角隐私的事情。我做了一个非常简短的电梯间推介,但也许你可以告诉我们更多。
凯瑟琳·贾穆尔:是的,是的。六个月前我加入了 Cape Privacy。这是一个了不起的团队。他们在我加入之前就在一起了,他们真的专注于加密机器学习的研究。因此,真正确定的是,是否有可能以合理的方式在机器学习中使用一些加密方案。这是过程的一部分。他们建立了一个开源的 TF Encrypted,代表 TensorFlow Encrypted,它使用一种叫做安全多方计算的加密方案。你可能以前听说过安全计算。这是做 TensorFlow 的基础,如果你问我,我会觉得很酷。所以我联系了他们。他们正在寻找一个产品负责人,所以我加入了,这个探索的一部分是让这个惊人的团队以研究为导向,深度学习专业化,密码专家,许多在云架构和这些类型的事情上非常有深度的知识工程师,并让我们的思想集中起来,创造出人们可以使用的东西,是的,我们很兴奋。我们的首次发布将在六月底。
Katharine Jarmul:所以,请继续关注,这真的是关于协作数据科学的。那么,我们如何让不同的专家参与进来呢?也许安全专家或数据隐私或法律专家和数据科学家一起真正利用先进的隐私和安全技术。
Hugo Bowne Anderson:这听起来是非常令人兴奋的工作,也是一个非常令人兴奋的团队。你说张量流,对吧?
凯瑟琳·贾穆尔:嗯嗯(肯定的)。
Hugo Bowne Anderson:我不想太快陷入兔子洞,但是在开源软件包上进行安全的尊重隐私的机器学习的想法,有像谷歌这样的公司的治理,这是一个想法和可能的未来的网络,对吗?
Katharine Jarmul:是的,是的,是的,团队肯定有计划支持 Pytorch。PyTorch 也已经有一些工作了。当然,有人可能会说,as 也主要由一家更大的公司支持。考虑这些事情很有趣,比如我们需要与人们所在的系统集成,我们也在联邦空间中做一些事情。其中一些与其他联合学习平台重叠,如 TF Federated 或 TensorFlow Federated,还有一些可能是独立构建的,但我们是开放核心的。所以,总会有开源版本。我们非常期待社区的反馈。所以,如果你想玩它,请加入。
雨果·鲍恩·安德森:太棒了。所以,在我们进入隐私之前,我不想这样做,我可能会把事情搞砸。我最近一直在读你刚刚提醒我的这本书。这就像和雨果一起阅读时光。它变成了一个读书俱乐部,但它实际上是非常相关的。斯图尔特·罗素的《人类兼容》考虑了很多事情,包括隐私。所以,他说“隐私故事有多个层面。第一,如果私人助理对你一无所知,它真的有用吗?大概不会。”现在他开始挑衅了。然后他说,“第二,如果个人帮助不能从多个用户那里获取信息来更多地了解普通人和与你相似的人,他们真的有用吗?大概不会。那么,这两件事不就暗示着我们在日常生活中不得不放弃隐私才能受益于 AI 吗?”
凯瑟琳·贾马尔:哦,好的。好吧。
雨果·鲍恩·安德森:它说“原因是学习算法可以使用安全的多方计算技术对加密数据进行操作,这样用户就可以从共享中受益,而不会以任何方式损害隐私。”
凯瑟琳·贾穆尔:是的。这就是我们建造的。
雨果·鲍恩·安德森:哦,你要用脏话来解释,这肯定是不合适的,但原因之一,这是对话中真正令人兴奋的部分。我们真的不会谈论如何加密数据来开发有原则的机器学习算法,但在我读到的和我们一直在谈论的内容中,在便利性、实用性和隐私之间有一种假设的权衡,这可能是一个稻草人,我们将谈论的是我们不断被告知在隐私和安全之间有一种权衡,在危机时刻,为了安全,我们需要放弃隐私。我们也看到了 911 之后发生的事情,对吗?在那里,我们放弃了很多隐私,然后随着斯诺登的揭露,我们放弃了一大堆其他的隐私,它甚至没有该死的工作,对不对?就像我们放弃了很多东西,却不知道这些东西最终看起来毫无用处。所以,思考这是否真的是一个错误的二分法,我认为这将是非常有趣的。
凯瑟琳·贾穆尔:是的。是啊。
数据隐私空间的缩减
Hugo Bowne Anderson:所以,在进入新冠肺炎之前,也许你可以给我一个数据隐私领域的概述。我知道我们可能会花几天时间来讨论这个问题,但这只是你认为最大的挑战。
Katharine Jarmul:是的,最大的挑战之一,也是真正吸引我从事 Cape Privacy 工作的原因之一,是关于生产研究。因此,在数据隐私领域有着惊人的研究深度。几十年来,有人一直致力于隐私的计算或量化。例如,当我们看辛西娅·德沃克关于不同隐私的最初起源的工作时,对吗?所以,围绕着可量化的隐私,有所有这些惊人的理论和相当多的深奥的数学,然而,即使当我们在 NEURIPS 看到这样的事情时,也有一个关于生产中的差异隐私的很好的小组。大部分是,是的,有点。是啊,没关系。还没到那一步没关系,但我认为现在真的是时候让我们看看“我们能把研究生产化吗?”以及“我们真的可以用我们知道的和我们关心的真实世界用例和真实世界威胁来推动研究吗?”这意味着,当然,就像研究人员和工业人员之间的良好关系。我认为这是整个机器学习社区一次又一次提出的问题。
Katharine Jarmul:伦理学研究中还有一个问题,就是我们如何从理论的角度来看待我们所知道的,并为这种不完美的生产系统,或不完美的社会以及所有这些其他的事情创造它。
Hugo Bowne Anderson:Cynthia Dwork 在苹果公司做了一些工作,对吗?还是我瞎编的?
凯瑟琳·贾穆尔:她在微软做了一些,我不记得她后来去了哪里。苹果有一个差分隐私团队,致力于生产差分隐私。所以,他们发布了一篇论文,我想大约两年前,差不多,关于他们如何围绕你的键盘数据收集做不同的隐私保护。真的是一篇好文章。所以,他们在这方面也做了一些工作,我认为现在真正重要的一件事是,我希望继续重要的是,我看到越来越多的人提出问题,担心数据隐私。我从新闻媒体、Python 数据科学家、整个社区都看到了这一点,我认为,随着我们对 COVID 19 的反应越来越深入,我认为现在围绕其中一些主题有很多真正富有成效的公开对话,我希望这种对话能够继续下去,因为提问、获得信息和保持好奇心对于像这样的事情从理论到现实非常非常重要。
Hugo Bowne Anderson:我确实认为我们现在进行对话非常重要,我认为隐私、数据伦理和人工智能伦理的一扇窗户打开了,但不清楚这扇窗户会打开多久。所以,让我们开始工作吧。对吗?
凯瑟琳·贾穆尔:是的。是啊。我希望这不是一时的流行。我们真的会说,“哦,嗯,我从多方面关注这个问题。我想了解更多。”我不是说每个人都必须成为专家,但是我希望今天在这里的一些人会说,“哦,嗯,我对这个很好奇。我不想知道更多了。我想有所贡献。我想在自己的项目中尝试问一些这样的问题。”那会很有帮助。
雨果·伯恩·安德森:当然。那么,不要太专业,对于我们正在谈论的事情,解决方案空间中的一些可能性看起来像什么?
凯瑟琳·贾穆尔:是的。是啊。这有时取决于问题。因此,有许多不同的,我们经常提到的高级隐私技术或高级安全技术,包括各种安全计算或加密技术。像差分隐私这样的技术,我相信我们稍后会深入探讨。k-匿名化或其他匿名化方案,等等。还有一些技术可能更简单明了,比如混淆、散列、假名化等等。所以,有很多很多不同的工具。真正的问题是,或者说我在 Cape Privacy 的日常工作中肯定会思考的问题是:如果不是专家,你如何知道什么工具适合这项工作,然后你如何评估安全威胁模型是什么?或者从隐私的角度来看你真正关心的是什么?这真的很难,你不应该成为专家。无论你决定投身于数据科学的哪个领域,你都已经是专家了。
凯瑟琳·贾穆尔:你不能真的要求每个人都增加一个专业领域。因此,我们正在做的一些事情,我认为真正有助于解决方案空间的是更好的意识、更好的教育,以及让数据科学家能够说,“好的,我可以在这里参考,我可以看到有用的东西。我可以理解什么是真正的威胁,然后我可以轻松地实施一些东西,而不必成为隐私专家。”其中一些也是关于多个人的投入。因此,有时如果你有一个法律部门,也许他们应该以一种富有成效的方式成为对话的一部分。如果你有一个非常棒的安全团队,那么他们应该是这些对话的一部分。这是关于每个人都能够分享他们的专业知识。在座的各位,作为数据科学专家,以及他们各自领域内的其他人,我认为,如果你们有这种跨领域合作或跨学科团队,他们实际上可以达到另一个层次的理解,即解决方案适合问题。
雨果·伯恩·安德森:你看到了吗?我的意思是,公司并不总是有安全专家、法律团队或这些...
雨果·鲍恩·安德森:安全专家或法律团队或诸如此类的事情。我想知道您是否认为未来大多数公司都会有数据隐私团队、数据安全团队、数据风险团队或专家之类的团队?
凯瑟琳·贾穆尔:我认为总体来说,比如说消费者意识,我认为普通人对定期收集数据的意识正在提高。现在很多时候,当人们只想说,“嗨,你做什么?”我说我致力于隐私机器学习。
凯瑟琳·贾穆尔:他们会说,“哦,好吧,是的,我很担心。我家里有个 Alexa。可以吗?”
凯瑟琳·贾马尔:我说,“是的,希望如此。以下是一些需要考虑的事情。如果你想深入研究,这里有一些文章。”但我认为更多的时候,我挑战我的同行,我的数据科学家同事和机器学习人员说,当我们考虑系统时,我们需要考虑多少这些因素?
Katharine Jarmul:我认为在过去的八年左右的时间里,推动机器学习和数据科学的更道德的方法的运动,我觉得它也与数据隐私问题很好地结合在一起。因为实际上,在某种程度上,隐私就是同意。这是关于意识。这是关于理解和透明。其中一些与我们围绕伦理的辩论重叠得很好。
雨果·鲍恩·安德森:我喜欢。我喜欢你说的是关于什么而不是它是什么的原因,是因为我认为现在在很多方面这是一个模糊的术语。我们试图弄清楚隐私的真正含义。
Hugo Bowne Anderson:举个例子,我的意思是大约 10 年前,如果我们根据电子邮件中的关键词获得定向广告,我们中的任何人都会感到惊讶,对吗?然后突然几年,当那发生时,我们被激怒了。然后一两年后,它就像,“哦,不,这只是谷歌。”那只是谷歌。
凯瑟琳·贾穆尔:完全没问题。
雨果·伯恩·安德森:对吗?当然,在这个范围内,我们也有扎克伯格,他说,“隐私并不意味着,等等……”不管他说什么,对。我其实已经不听歌词了。但他确实说得有道理,在 Alexa 时代、智能手机时代以及诸如此类的时代,我们对隐私的观念已经发生了变化。但我们确实需要发展,这是你正在努力的许多事情,这些稳健的,有原则的方法,甚至如何进行这些对话,并授权个人用户,公民,消费者用户,无论我们这些天想称呼自己什么,来做出这些决定。
凯瑟琳·贾穆尔:是的,我的意思是,我认为这里也有一些关于集体行动的东西,对吗?还有关于不羞辱人。有时候,让我们说,从一个更深入的隐私社区或安全社区,人们可能会说,“嗯,如果你买了一个 Alexa,你值得它。”或者类似这样的。我认为实际上类似于你之前分享的那本书的引言,人们应该对拥有或尝试新事物持开放态度,但要围绕潜在的风险建立一些意识,特别是代表开发这些技术的团队和开发这些技术的公司建立责任,以实际思考和提出正确的问题,测试事物和创新,并尝试再次将研究生产化。
Katharine Jarmul:我认为这不仅是一个真正全面的技术挑战,这是我们经常进行的工作,而且也是我们为该领域本身设定的一个目标,还记得那些很难找出我们如何在机器学习系统中推理数据隐私的时候吗?那是过去的事了,现在我们有了如何做出选择的路线图。
雨果·鲍恩·安德森:没错,我认为你经常听到这样的话,“哦,你买了一台 Alexa,你知道你会得到什么。”这也是一种羞辱,尤其是当人们使用“你活该”这样的词语时。这让我想起当人们说,“你为什么关心隐私?你有什么好隐瞒的?”对吗?而且有这么多,我的意思是可以马上抓到你。但是把举证的责任放在那些想要保护自己隐私的人身上,我认为是极其荒谬的。
雨果·鲍恩·安德森:而且它甚至没有承认,历史上我们一次又一次地知道,处于权力地位的人滥用了接触他人隐私的权利。除了我们定义的事实之外,我的意思是我们发展了我们的身份感,并通过我们只了解自己的东西来定义我们自己,我们自己的很多东西是通过我们认为是私人的和我们认为是公共的东西来定义的,并对这些东西进行控制。那么当它丢失时会发生什么呢?
凯瑟琳·贾穆尔:是的,我真的很喜欢,当我想到隐私时,我喜欢引用达纳·博伊德的定义。她花了一些时间研究年轻女性如何与不同的技术互动,以及私人空间与公共空间相比的原因。这真的是关于期望,这是关于期望,比如说,当我在这里与你分享一些东西时,我不希望它是私人的,因为我在这里,我们都在一起交谈,我希望有一段美好的时光。
凯瑟琳·贾穆尔:但如果我们在打电话,我说,“嘿,”你知道,我在告诉你一些关于我生活的个人事情,这是一个共同的理解。我实际上通常甚至不需要告诉你,“嘿,请不要与任何人分享这个。”根据上下文,这是隐含的。所以困难的事情是我们如何在一个技术系统中实现那种环境和那种同意,对吗?这是一个很好的挑战。
雨果·伯恩·安德森:当然。我可以向任何对此感兴趣的人强烈推荐 dana boyd 的书《青少年的网络生活很复杂》。这是一项关于青少年使用大量社交媒体的技术社会学研究,非常令人大开眼界。太棒了,凯瑟琳。凯瑟琳,在这样一个危机时刻,围绕数据隐私的对话会有什么变化?为什么呢?我们看到了哪些变化,为什么会看到这些变化?我们需要思考什么?
凯瑟琳·贾穆尔:是的。现在发生了很多事情。这个周末,我花了很多时间阅读安全社区中围绕不同类型架构的辩论。这个,那个,所以我们可以更深入地从技术角度,更深入地讨论集中还是分散,联系追踪,等等,等等。
凯瑟琳·贾穆尔:但真正让我印象深刻的是我几周前读到的罗斯·安德森,他在安全工程领域很有名,他的文章名为“现实世界中的联系追踪”如果你没看过,我可以非常非常推荐。他拆穿了很多错误的论点,作为交换,你提到雨果,这是我们唯一能对抗冠状病毒的方法是立即放弃所有的隐私。从安全的角度和公民的角度来看,这可能不是一个很好的论点。我们以前见过这种情况。安全与隐私...巴尔,美国司法部长给了这个论点很多作为拥有加密后门的理由。
凯瑟琳·贾穆尔:如果我们少一些隐私,我们就会更安全,这是一个持续了几十年的论点,经常由已经掌握了我们大量信息的当权者提出。我认为,在这种时候,有时我们需要问一个问题,将更多的数据整合到一个地方意味着什么?
凯瑟琳·贾穆尔:当我们看到谷歌现在正在帮助 NHS 开发预测模型时,我们可以考虑一下这个问题。在最前沿,这似乎很好。但从数据隐私的角度来看,我们已经知道去年 Deep Mind 和 NHS 发生了什么,一堆数据在没有任何同意的情况下被共享,没有人被警告,没有人被赋予选择退出的能力。就像这些我们知道的基本步骤,我认为很多人会愿意提供数据,但从来没有人问过。当我们看到这些轻率的反应时,我认为这是一个很大的问题。更不用说追踪接触者是否是我们现在处理新冠肺炎危机的最好方法了。
Hugo Bowne Anderson:我认为有一个相关的问题,你知道,当然,也许我们可以放弃隐私的某些方面,但最好能看到数据将如何使用,模型将如何使用,如果有日落条款,它会保留在任何政府官员和谷歌员工都可以访问的数据库中吗?
雨果·鲍恩·安德森:事实上,我上周已经给你们讲过这个故事了。我要讲一个我被隔离期间的简短故事。所以对于我们所有的观众来说,一个月前我从纽约飞回澳大利亚,我被隔离了。这是一个政府授权的军队在一个酒店房间里强制隔离 14 天。酒店房间里有电话,就像酒店房间一样。这部电话有两三个用途。
雨果·鲍恩·安德森:第一,一个家伙从另一个房间打电话过来,他说,“你好,我是 1212 房间的本。”他说,“我要成立一个脸书小组,这样我们就可以抱怨这里发生的一切。”所以我加入了这个脸书小组,但是护士每天都打电话来,然后我接到一个女人的电话,她说她在新南威尔士工作...那是我所在的州,悉尼所在的州,新南威尔士州警察局,我说,你和新南威尔士州警察局合作是什么意思?她说,“我和他们一起工作。”
雨果·伯恩·安德森:我说,“你为他们工作吗?”
雨果·鲍恩·安德森:她说:“不,我不知道。”
雨果·伯恩·安德森:我问,“你为谁工作?”
雨果·鲍恩·安德森:她说,“很不幸,雨果,我无权说,我为政府工作,但我只能告诉你这些。”她说,"听着,我打电话是想知道你去哪儿了?你乘哪趟航班来的?之后你会去哪里?护照号码?出生日期?这类事情。”
雨果·鲍恩·安德森:我说,“哦,好吧,你打算怎么处理这些数据?”
雨果·鲍恩·安德森:她说,“我正在把它输入政府数据库。”
雨果·鲍恩·安德森:我说,“什么?谁能接触到它?”
雨果·鲍恩·安德森:她说,“哦,不,没关系。只是用来追踪接触者的。我要把它放进去。”
雨果·鲍恩·安德森:我当时想,“不,但是它会在那里呆多久?谁能接触到它?”
雨果·鲍恩·安德森:她没有说不要担心。我猜她被告知不要说别担心。但那是我得到的感觉。我什么都没告诉她。
雨果·鲍恩·安德森(Hugo Bowne Anderson):我说,“看,派一个带警徽的警察到我家门口,我很乐意和他们聊天。但我不会在电话里告诉你这些信息。”但我实际上意识到的是,她的工作也是在这个过程中与我建立一种小关系,并在许多方面让我感觉良好,以便获得她需要的信息,我认为这是出于一个良好的目的,但我不知道这些信息将在多长时间内、以何种类型的永久形式对任何人开放。我认为这就是我们正在处理的问题,对吗?
凯瑟琳·贾穆尔:是的。我的意思是,我们经常问的一个问题是,无论是在安全领域,还是我在 Cape Privacy 的一些工作中经常问自己的问题是,什么是信任关系,它们如何与我们的隐私概念互动?我认为这是一个很好的例子。
凯瑟琳·贾穆尔:所以当你友好时,有一种信任的纽带,作为人类,特别是作为信任、乐观、快乐的人类,我们希望这种联系,尤其是现在比以往任何时候都更需要,对吗?你可能在家里,你可能只和你的家人互动,你甚至可能独自生活。我们想要那些债券。当然是在酒店房间里,对吧?你想要那些债券,对吗?再说一次,这可能不是恶意的。她大概也想和别人联系吧?但这是关于我们是否理解风险,我们是否能真正评估与信任关系相关的风险?
凯瑟琳·贾穆尔:所以他们就像是手牵手在玩游戏,我们想要信任他人。信任他人的风险是什么?交出你的个人旅行细节有什么风险?有风险吗?如果没有,好吧,很好。但是我们真的能以一种有意义的方式评价它吗?作为人类,我认为我们经常低估隐私风险。我不认为我们被训练或教导过,或者我们学了很多关于如何,比方说,不向我们联系的人透露个人信息。
凯瑟琳·贾穆尔:我也不想让人们变得不可信,但这是关于我们能不能利用比如说科技?我们能否利用像 GDPR 和 CCPA 这样有权删除数据的法规,我们能否以有意义的方式强制执行这些法规,以便当你在电话中说,“嘿,这是一种信任关系,我可以理解风险的原因,哦,顺便说一下,他们可以给我发送删除确认,一旦这一切结束,他们就可以确认我的数据使用了什么模型。我可以看到,甚至有一天我可以同意我的数据被用于的每一项数据科学活动,因此我实际上可以对它进行推理,我可以想象它,我可以做出自己的选择,对吗?”
Katharine Jarmul:因为有些是关于授权和自我决定,一旦我们平等地获得信息,就如何使用和存储数据以及何时删除数据而言,对吗?
Hugo Bowne Anderson:你简要地提到了我们现在更多地考虑数据血统和数据来源。几乎就像一个未来的数据来源,了解数据的去向,而不是来源。
凯瑟琳·贾穆尔:完全正确。并且能够说,“这是我舒服的地方,这是我不舒服的地方。”在数据伦理社区或负责任的数据社区中,围绕数据信任有一个很好的概念,即我们可以集体汇集数据,并围绕它创建一个合同,“我们提取这些健康数据,以便可以用来对抗癌症,或绘制基因组或任何其他事情,但我们禁止它用于这些其他事情。”现在,如果我们对整个系统进行真正的治理,那么我们实际上可以在某种程度上实施这些类型的事情。
数据再现
雨果·鲍恩·安德森:所以我不想走得太远,但老实说,我控制不了自己。当谈到如何使用数据、数据信任、为某些用途而使用数据,以及删除的权利时,我们怎么能想到这些呢?在数据复制或复制数据的时代,我怎么能相信你告诉我你已经删除了我的数据,而你可以复制它一千次呢?对吗?
凯瑟琳·贾穆尔:是的。这是一个非常好的问题,例如,我们肯定会在 Cape Privacy 解决这个问题。例如,在 GDPR,它要求数据最小化,对吗?我们如何实施数据最小化,这实际上是为了避免大型组织中敏感数据的重复因素,但即使在较小的组织中,我们也能看到这一点,其中一些是关于定义系统的能力和定义系统中的规则的能力,对吗?
Katharine Jarmul:所以我们开始讨论系统工程,或者如果有人对这里的安全工程感兴趣,他们会开始说,“哦,好吧,我可以开始推理了。”我们一直在研究的一个问题是,是否有合法的删除证明?是否可以证明数据何时被复制?当然,还有一些技术方法,它们需要可见性,需要系统的透明性。他们要求你知道你的系统是如何工作的,也许你知道,也许你不知道。但我鼓励,尤其是我的自学数据科学的同事们,开始思考这个问题,我们如何验证我们是否删除了数据?我如何验证我们使用的模型,Hugo 的数据被删除了?我怎么才能找到使用 Hugo 数据的模型呢?我们越是开始思考如何去做这些事情,我们就越有机会去做。
Hugo Bowne Anderson:这实际上是一个很好的观点,考虑到使用我的数据的模型,事实上你可以删除我的数据,但你可以将它编码在一个预测模型中,对我进行预测,或者正如我们最近讨论的那样,你可以丰富我的数据,然后是你从我这里获得的数据,或者你实际上投入了大量资源和资本来丰富它。所以你拥有丰富的数据,对吗?
凯瑟琳·贾穆尔:是的。我的意思是,这是一个巨大的争论,即使是在法律领域,对于像 GDPR 这样的更大的法规,这意味着什么?我希望会有更多的后续跟进。我花了一周时间阅读数据伦理委员会的报告,该委员会是在德国成立的,旨在思考人工智能系统并思考其中的伦理问题。他们发布了那份报告。该报告将提交给欧盟政府,乃至整个欧盟,未来几年可能会有一些深入的对话,并可能提出一项以人工智能为中心的法规。
雨果·伯恩·安德森:太好了。在提到那份报告之前你提到了一些事情。也许我们一开始就不应该收集所有的数据,并假设它有价值,因为它是一个立法功能,本质上没有跟上现代 JavaScript 可以与一堆爬行软件一起发布的事实。
Hugo Bowne Anderson:我最近读了一篇关于 Stripe tracking 的文章,或者我猜是一篇 exposé,一篇文章,或者是一篇博客,如果你使用 Stripe JavaScript,它实际上会向 Stripe 发送一堆导航信息。甚至连运营网站的母公司也不知道,他们这样做是为了欺诈检测,可能有很多方面,比如,机器人在页面上的移动与人类非常不同,这类事情。所以可能是反机器人。然而,也有很多方法可以做到这一点,而不需要收集每个人的导航动作和历史。还有一部分原因是条款和条件不太清楚这是怎么回事。
凯瑟琳·贾穆尔:有些是关于记录事情,保持透明,有些也在问这是我们解决这个问题的最好方法吗?我认为这实际上与新冠肺炎的对话非常契合。就好像这是我们现在需要的最佳解决方案吗,或者这只是一个我们可以做的解决方案,因为我们听说过它,它听起来像一个好主意?
Hugo Bowne Anderson:我想马上去新冠肺炎,但是你提到的条款和条件可能不太清楚。谁阅读条款和条件?
凯瑟琳·贾马尔:是的。好像是啊,没人有时间,我有。
Hugo Bowne Anderson:同意和知情同意之间的区别是一个大问题。尤其是当跨国公司拥有擅长保护自己的大型法律团队时...我自己作为一个消费者用户,我没有获得这种类型的资本,对不对?还是那种类型的劳动?
凯瑟琳·贾穆尔:是的。我的意思是,在 GDPR 知情同意是一个巨大的推动,你应该能够对你同意的事情进行推理。《纽约时报》,我相信是《纽约时报》,有一个非常惊人的图表,展示了隐私政策随着时间推移的可读性。你可以看到样本,像谷歌的在一个时间点需要像博士水平几乎词汇理解,它花了 14 分钟阅读。是啊。
雨果·鲍恩·安德森:是的。它实际上将其与其他几本书进行了比较,包括伊曼纽尔·康德的《纯粹理性批判》的第一卷。它表明,有几个,像 Airbnb 或任何条款和条件,比像最密集的哲学文本人类有史以来产生的更难阅读。对吗?
凯瑟琳·贾穆尔:是的。德国哲学是相当臭名昭著的,所以是的。
Hugo Bowne Anderson:但是我记得,有人在 Twitter 上说,明确地说,康德的《纯粹理性批判》第一卷并不是最难的。我就想,来吧。但就像是四个或其他什么的,对吗?
雨果·鲍恩·安德森:那么科技如何帮助我们呢?科技能拯救我们吗,凯瑟琳?
凯瑟琳·贾穆尔:所以我的意思是单靠技术什么也做不了,对吗?只有技术擅长计算,擅长自动化和加速进程,我认为现在是一个很好的提醒,告诉我们不能用技术解决社会问题。
凯瑟琳·贾穆尔:冠状病毒是一种健康危机。这是疫情。这也是一个社会危机。这是一场正在世界各地发生的经济危机,我们不会用更好的机器学习模型来解决它。我们只需要深呼吸,然后说,没关系。我们实际上仍然可以使用我们在数据和机器学习方面的技能,以积极的方式做出贡献。这并不意味着急于下载数据集说,哦,我算出来了,发表出来,第二天发给每个人。这意味着真正退一步,问一些关键的问题。
Katharine Jarmul:新冠肺炎有很多问题都不存在,比如说,跟踪个人的运动或发布智能相机,可以通过告诉我是否发烧来跟踪冠状病毒。这些类型的事情都是仓促的解决方案,没有经过深思熟虑。
Katharine Jarmul:相反,有大量新的报告,例如,网络钓鱼攻击,垃圾邮件攻击,冠状病毒相关的网络安全威胁。这是机器学习还没有真正大规模渗透的一个领域,我们实际上可以在这方面提供帮助,对吗?医院的能力规划,不是从冠状病毒追踪的角度,而是从一个角度,让我们来思考这个问题...我知道你最近和致力于这个问题的人谈过话,对吗?我想你是在和负责产能规划和供应规划的人交谈。
Hugo Bowne Anderson:是的,我们和 Penn Medicine 一起举办了一个网上研讨会,他们开发了一个开源模型,比如计算出需要多少张床,多少个呼吸器,多少个人防护设备。
凯瑟琳·贾穆尔:是的。是啊。物流,就像在解决物流问题,操作,研究为什么我们供应不足的问题方面受过训练的人?我们能帮上什么忙?什么是物资的公平分配?再说一次,不仅仅是匆忙下载,而是花时间去问有需要的人什么是真正有益的?因此,从本地第一视角来看,这甚至是在你的社区内进行讨论,建立一些人们可以在线分享他们需要的东西的地方。你可以用一些你学过的自然语言处理方法,如果你上过我关于这些数据集的课,你可以说,“哦,是不是有这样的需求,我们可以一起分组,确保我们有一个大的分组,以最大限度地减少交付人员的暴露量。”
凯瑟琳·贾穆尔:食物银行,有很多当地的食物银行正在尝试做一些事情。当然,除了通过手机追踪他们的行动,还有许多其他方法可以帮助一线工作人员,对吗?
凯瑟琳·贾穆尔:最后,了解更先进的隐私和安全技术。如果你有一些额外的思维带宽,这没什么,如果你没有,但刚刚开始学习和谈论它们,思考它们,并在你自己的工作中应用它们,我认为,这已经是向前迈出的一步,你可以在这段时间内避免,再次,这种急于找出最简单的解决方案,整个锤子方法,如果你有一把锤子,一切看起来像钉子。
Katharine Jarmul:所以我认为有一些这样的问题,我鼓励人们走出舒适区,尝试在跨职能空间中思考,尝试与你通常不会思考数据科学问题的人一起思考,实际上接受他们的输入和反馈,并以此推动它,而不是“哦,我已经知道该做什么了。让我下载这个数据集,第二天我会给你一个模型。”
接触者追踪
Hugo Bowne Anderson:我们已经多次提到了很多人目前正在考虑的东西,联系追踪应用程序。我们被政府要求去应用商店把它们放在我们的手机上,对吗?因此,也许你可以给我们一些你对联系人追踪应用程序的看法,一个月前我在纽约,现在我在悉尼,它们是平坦曲线的非常不同的部分,数量和密度也非常不同。我想知道在这个时间点上接触追踪是否对所有城市都有意义。然后是这是否可行,我们需要记住什么,以及诸如此类的事情。我知道这里面有很多问题,但也许我们可以从接触追踪开始。
凯瑟琳·贾穆尔:是的。所以联系追踪,我们必须从多方面考虑,对吗?从技术角度来看,让我们先深入研究一下,因为这很有趣,我们现在有很多关于集中式和分散式收集方法的争论。支持集中化的理由通常是,你需要一个中央权威机构或某种验证,来证明你所拥有的数据是真实和正确的。也许有一些东西。但也有分散的论点,这是稍微更多的隐私保护,也许只有在使用某些数据隐私机制后才集中。
Katharine Jarmul:这让我想到一些事情,例如,我们在 Cape Privacy 工作的联合分析的概念,每个人都可以将更新发送到一个安全的聚合点,在那个时间点加密,然后将最终结果推送给所有参与者。
Katharine Jarmul:所以有一些方法可以考虑这个问题,也可以更好地了解和理解信息是如何被使用的。某种程度上的验证,当然,验证主要是关于我们能验证数据质量吗?当大多数人想到这些冠状病毒追踪应用程序时,有多少人会打开它,并开玩笑地报告他们生病了或类似的事情?会有一个非零的数字。
凯瑟琳·贾穆尔:另一个技术问题是蓝牙甚至 wifi 和 GPS 的使用是不精确的。它可以让我接近一个实际上在门的另一边的邻居。它可以让我在一辆经过某个地方的公共汽车上,或者一个人站在红灯前。从最近的科学研究来看,确定人们是否在一个封闭的空间里可能要好得多。这需要完全不同的传感器和测量方法。
Katharine Jarmul:最后,从技术角度来看,当我们看到苹果和谷歌的合作关系时,它并不适用于 20 亿台设备。因为他们年纪较大,旧设备更可能是低收入群体和老年人,他们实际上是更大的风险人群。那么,我们是否会提出一个纯技术解决方案,而您需要最新、最好的解决方案,但最脆弱的用户却没有最新、最好的解决方案。那我们的解决方案到底是什么?我们会给每个人发新的 iPhones 吗?这就是解决办法吗?我们必须在更高的层面上思考这个问题。
Katharine Jarmul:当然还有其他的问题,这是一个很大的接触追踪和平坦曲线是关于你附近的医院容量。我没看到有人问的一个关键问题不是这个,你为什么不呆在家里?顺便说一下,如果人们不在家,他们可能会去工作,他们可能会去工作,因为他们不能呆在家里养活自己,对吗?所以我们需要观察我们自己判断和批评别人,我们不是他们,我们不知道他们的需求是什么。
凯瑟琳·贾穆尔:其次,为什么我们的医院没有为流行病做好准备?即使从统计学的角度来看,我们知道它们不是不可能的或者非常不可能的。其中一些是关于思考我们医院的成本模式。一位法国官员曾说过这样一句名言,“即使大楼没有着火,我们也要付钱给消防员。”也许我们也需要考虑我们的医疗保健系统,即使没有疫情,我们也需要做好充分准备。
雨果·鲍恩·安德森:我想在那里谈很多事情。你提到了高危人群。与此相关的是,我认为我们正在看到,我们将看到不同的人口统计数据也将在尊重他们的隐私方面获胜。这是我们已经看到的事情。弗吉尼亚·尤班克斯写了一本很棒的书叫《自动化不平等》,这本书讲的是三个大规模的模型,它们决定了在洛杉矶无家可归的人们中,谁将得到住房,在哪里。它还决定谁有资格获得福利,我想是在宾夕法尼亚州,另一个模型预测哪些孩子处于危险中,我不记得在哪里,家庭暴力虐待和报告。
雨果·鲍恩·安德森:在所有这些案例中,尤班克斯一次又一次地创造了“数字济贫院”这个术语,它本质上是指大规模的监控系统,能够监视美国社会经济下层的人们。实际上,我认为创造数字济贫院这个术语是一个非常好的活跃的命名,因为它给了我们一个历史线索来思考当前正在发生的事情。
Hugo Bowne Anderson:但是我们确实看到所有我们先前存在的社会偏见被大规模的推理和决策系统所强化,对吗?我认为,我们会看到类似的事情发生在 COVID 的隐私方面,就像我们在身体健康方面一样。我的意思是,我们已经看到了美国有色人种的感染率和死亡率,对吗?
凯瑟琳·贾穆尔:是的。这里面有很多东西。我不确定我们是否有时间深入了解所有的内容;然而,今年夏天我在混沌交流营做了一个名为隐私即特权的演讲。我深入研究了许多不同的领域,当然弗吉尼亚·尤班克斯的工作也在其中,但它是关于隐私几乎不可逆转地与内部特权联系在一起的方式,比方说也像特别是现在联系紧密的社会,人工智能为你服务的能力与反对你的能力是其中的一部分,对吗?所以 Alexa 帮助了我。AI 是来帮忙的。数据收集可以提供帮助。
凯瑟琳·贾马尔:与囚禁我的人工智能对抗。AI 是来禁锢的。AI 是来致残或杀人的,对吗?当我们思考这个问题时,尤其是作为数据科学家,对吗?那些正在构建系统的人,我们也必须考虑谁会从中受益,谁会因此而遭受损失。
凯瑟琳·贾穆尔:如果我们不能思考这些问题,我们应该成立一个跨学科团队。结交在人道主义部门和人类服务部门工作的朋友,在那里开始更深层次的联系和更深层次的对话,你知道,向前迈出两步是很难的。很难。我是个乐观主义者。我总是想,“哦,事情会变得完美的。”
凯瑟琳·贾穆尔:但是我们周围也必须有人提醒我们,“嘿,事情不会总是完美的。”我们应该再次思考这些风险因素,思考这些信任因素,思考并准备好如何出错,以及它将如何与更大的社会系统互动,比如说,不平等和不平等的资源分配和压迫,对吗?
Hugo Bowne Anderson:所以,我想回到接触追踪,特别是,谈谈...哦...当我看到谷歌和苹果喜欢合作处理敏感、隐私的东西时,我想到了我的科技公司空间,他们如何看待隐私,我对他们看待隐私的方式有多满意。没有一个是好的,对吗?但当我看这个光谱时,苹果在一边,而谷歌在另一边非常非常远。所以我对这些公司的合作产生了认知上的不协调。你经历过类似的事情吗?或者你对此有什么想法?
凯瑟琳·贾穆尔:所以我首先要说的是,我认识并见过在苹果和谷歌从事数据隐私工作的人。我认为两家公司都有很多非常有想法的个人和研究人员,脸书现在也有一群非常活跃的人在研究隐私和数据科学。Snapchat 也是如此。因此,当你开始深入数据隐私时,比如说,在数据科学和机器学习中,在你可能意想不到的地方有这些玩家,这是令人惊讶的。
雨果·鲍恩·安德森:我同意,但是回到你之前的观点。
凯瑟琳·贾马尔:[相声]不踢那些人,因为我认为他们做得真的很好....是啊。
雨果·鲍恩·安德森:对不起,我只是想说这是一个如何部署的问题,对吗?
凯瑟琳·贾穆尔:没错。
Hugo Bowne Anderson:它是否与任何公司的商业动机一致?
Katharine Jarmul:是的,我对苹果-谷歌计划最大的担忧是,除了我们将如何处理旧设备之外,对我来说,这似乎是跳到一个我们不确定是否有效,也不确定是否需要的解决方案。
凯瑟琳·贾穆尔:这部分是因为它如何传播存在太多的不确定性,有不同的菌株吗?一个人康复后还能再得到它吗?所有这些事情仍然在不断变化,对吗?也就是说,我们不想构建一个解决方案,每个人都认为它可以解决一些问题,然后发现它甚至与真正的解决方案无关,对吗?
Katharine Jarmul:这是我的一些主要担忧,嗯,你知道,人们会想,“哦,我下载了应用程序,所以现在这意味着我是冠状病毒安全的,也许这是一种错误的安全感。然后,如果我们以一种非常严格的方式使用这个应用程序,比如说,你的雇主可能会看到,有多少人可能会失去工作或被告知留在家里,而他们实际上对冠状病毒并不呈阳性?
Katharine Jarmul:我们以一种无处不在的方式进行测试是多么不可预测。我们测试过所有有症状的人吗?我们也测试过大批没有症状的人吗?有一位统计学家在德国与罗伯特·科赫研究所一起工作,他一直在推动更大范围的测试抽样,因为仅仅是设立测试地点和让人们自我报告,你就可以想象会是有症状的人,也可能是那些在日常新闻中过度担心自己健康的人。还有比如我没去过我当地检测,所以不知道。我可能是无症状的吧?因此,从科学的角度来看,所有这些东西我们都不知道,我们不想在没有实际咨询正在研究这个问题的科学家之前就匆忙找到解决方案。你知道吗?
Hugo Bowne Anderson:我还读到我们可能有高达 30%的假阴性率,对吗?
凯瑟琳·贾穆尔:没错。是啊。
雨果·鲍恩·安德森:同样来自纽约,我不知道我是否告诉过你,我接受了测试,他们使用的语言非常棒。她说测试,医生说测试没有检测出存在...相反,结果是阴性的,我认为这真的非常非常酷。我告诉你吧,棉签真的粘满了。她把我的头靠在墙上,把这个东西直接推到那里。我同情那个测试老虎的傻瓜。我告诉你,凯瑟琳。
凯瑟琳·贾穆尔:是的,是的。我是说,有些也是。我的意思是,我一直在想的一些事情,有一篇来自深度学习人工智能通讯的非常棒的文章,就像没有伤害一样。比方说,它是关于发布基于不完整数据或不完整场景的模型。你说的话也让我想起了杰西卡·霍尔曼最近的一个数据怀疑论播客
Katharine Jarmul:她的团队研究数据科学中错误和不确定性的可视化。就像当我们谈论这些事情时,我的意思是,即使是我在报纸上或我一直在消费的其他媒体上看到的一些关于新冠肺炎的报道,也许我有一个水平,因为我有一些统计培训和背景。但是想想普通人,比如说,人类,以及他们的数学知识水平。他们能推断出感染的风险吗?他们能对这些测试的可验证性进行推理吗?他们能对建立在某一特定人群的有限或过采样数据上的模型的预测能力进行推理吗?
凯瑟琳·贾穆尔:我们必须负责任地报告这些信息和数据,因为我们是一群知道数据是关于什么的人的信任成员。因此,我们必须真正确保这一点非常清楚,并找出更好的方法来表示这一点,而不是像我们作为一个群体那样谈论错误或不确定性。
雨果·伯恩·安德森:当然。我确实记得在 2016 年总统大选后,人们出来说,“哦,预测是错误的。”这个陈述,本身,完全误解了,我理解,但是我完全误解了概率预测是什么。如果你说某件事有 10%的可能性,但它仍然发生了,那只是 10 分之一的事情发生了,对吗?
Hugo Bowne Anderson:实际上,Allen Downey 在这方面有一些精彩的帖子,当我在 DataFramed 上和他聊天时,他有一个想法,我很喜欢他的一个想法,就是报纸可以通过每天做模拟来报道这些概率预测,看看是什么和报道这个未来,以便让人们习惯-
雨果·伯恩·安德森:是的。Nate Silver 和 FiveThirtyEight 的人使用了一种更有原则,更有意识的语言,说这有五分之一的可能性会发生,有四分之一...相反,“这是 10%的可能性,”人们可能会以各种方式误解。但我们也渴望确定性,对吗?
凯瑟琳·贾穆尔:是的。
雨果·鲍恩·安德森:我们需要变得更加适应不确定性。
凯瑟琳·贾穆尔:是的,这是真的。确保人们知道或拥有,比如说,正确的思维框架,为他们自己和他们的社区做出负责任的选择,对吗?霍尔曼教授提到的一个图表是,我不知道你是否看到了,我想这又是纽约时报的一个,在那里你可以追踪并看到在美国,基于种族,某人生活在贫困线以上或以下的概率。仅仅通过创建一个图形,而不是大的条形图,实际上有,“一个人出生,他们结束贫困。一个人出生了,他们却没有,”通过视觉化的方式,比如视觉取样,人们更容易理解。围绕这一点,围绕我们如何让人们对系统进行推理,我们可以做更多的工作。我知道我们正在做的一些工作是我们如何允许人们合理地思考隐私和系统,对吗?
雨果·鲍恩·安德森:《纽约时报》在这方面做了很多很棒的东西。我的意思是,他们早期做的是互动的,像 3d 可视化之类的东西...我记得这是一个它有工作报告,它看起来像是在上升,但他们显示,如果它是静止的,所有不同的方式都可以基于采样。他们有一个类似的,这是一些选举投票,它报告某某领先,但它表明,作为一个抽样的功能,它可以解决所有不同的方法。它显示了互动。
凯瑟琳·贾穆尔:是的。我鼓励人们,我知道 DataCamp 有几门可视化课程。如果你没有用过,即使你想,“哦,我只是想建立 ML 模型,”即使当我们考虑机器学习时,也有很多有趣的可视化应用。所以,抓住机会投入到新的事物中。
不确定性和风险的区别
雨果·鲍恩·安德森:我认为另一件重要的事情是,人们开始更多地谈论不确定性和风险之间的区别。你可能会把这些称为风险方面的已知未知和不确定性方面的未知未知,但我认为这是当你在赌场玩的时候,或者说你在掷硬币或玩轮盘赌。你在玩轮盘赌,你知道几率,对吧?你在冒险。你知道确切的分布是什么,你知道所有可能的排列和你的机会是什么。
雨果·鲍恩·安德森:不确定的是,如果桌子被操纵了,而你不知道如何操纵。那么你实际上没有这方面的信息。所以想想你知道什么和不知道什么。我认为我们现在在全球经历的一个真正的、真正的、深刻的挑战是有太多的不确定性。这不仅仅是风险。我们其实,我们不知道,对吧?
凯瑟琳·贾穆尔:是的,我们现在有很多未知,谢天谢地,我认为更多的是未知,如果有人在双方都进行了已知对未知的练习,我们有很多未知的未知开始变成已知的未知,这很好。这是一个好的运动。希望最终他们会进入已知领域,但是,是的,我们需要对我们在生物科学和健康科学领域的朋友有一点耐心,想办法帮助他们的研究,这样我们才能找到应对当前危机的好办法。
行动呼吁
雨果·伯恩·安德森:没错。所以我想在一分钟后回答观众的问题。但在此之前,我很想知道你是否有最后的行动号召或你希望人们在未来几周或几个月关注或思考的事情?
Katharine Jarmul:是的,我会要求人们,不要过早地投入到技术解决方案中,而是把注意力放在你的当地社区,花时间接触当地社区领导人,在这个领域工作的社区团体,首先贡献你的时间,你的体贴和你的精力。也许其中一部分是教你自己和你周围的人一些关于隐私,关于机器学习,关于机器学习中的隐私的新东西。让我们试着对此采取一些集体行动。不是集体羞辱,而是集体授权。
凯瑟琳·贾穆尔:同样,我也想说,请专注于照顾好你自己。你不一定要成为英雄,如果你不能首先照顾好自己,你就不能成为英雄。所以我想说的是,现在我的许多朋友也觉得他们必须做些什么来帮助他们,你有没有问过自己你需要什么?在帮助别人之前,一定要戴上自己的面具。用航空公司的那个。我们走着瞧。但是首先真正照顾好你自己和你身边的人,然后开始考虑更大的社区。
问与答(Question and Answer)
Hugo Bowne Anderson:非常感谢你,Katharine,也谢谢你采取了这样一种有意识的、人性化的和感同身受的方法。我真的很感激。我们有很多很棒的问题。第一个,我们已经讨论过了,但是,我的意思是,我没有答案,所以我要问你。Rughavendra 问道:“我希望我对你的名字的发音有点正确,现在有没有一种解决方案可以检查你的数据是否被删除了?”
凯瑟琳·贾穆尔:不,不幸的是,没有通用的解决方案。是的,我想这是很多人都在做的事情。有一些系统是围绕这一点的。现在,我们可以讨论的是他们是否已经遍历了整个问题空间。因此,它可能已经确认它已从主数据库中删除,但它无法确认工件或中间数据源,或者数据集是否已下载到本地数据科学家的计算机上等等。所以这是一个开放性的问题。这不是一个可以解决的公开问题,但它还没有被积极部署。
Hugo Bowne Anderson:我仍然会回到复制这个概念。我是 90 年代中期的一名青少年,这意味着,不管是好是坏,我将承认轻微的非法活动。或者我会说我的一些朋友。我的一些同学-
凯瑟琳·贾马尔:你在 Napster 上吗?
雨果·鲍恩·安德森:他们会刻录光盘,凯瑟琳。他们会买下来带回家烧掉 20 个。我试图阻止他们,但他们每天都这么做。然后,当然,iPods 出来了,突然有点 torrenting 和所有这一切。比如,当你有这种类型的重复时,你怎么会想到验证删除呢?所以一堆其他的好问题。Andrew 问道,这太棒了,“为了登录某个英国酒吧或商店的 wifi”首先,谢谢你,安德鲁。我实际上在一家酒吧工作,在伦敦高霍尔本街的路易丝公主酒吧,我深深怀念那些日子。我和一群澳大利亚酒保住在一起,我和他们共用一个房间。听着,老实说,我现在很怀念英国的酒吧。但是 Andrew 问道:“为了登录这个 wifi,注册过程有时会要求输入出生日期。问题是,这合理吗?这是出于什么目的?还是为了收集信息而收集信息是一种滥用,储存多久?谁能接触到?又是出于什么目的?”安德鲁说,“我认为这是不合理的,但我会感谢你的想法,请。”
凯瑟琳·贾穆尔:是的,我的意思是,我们看到很多这样的同意...从监管的角度来看,当然有一些关于年龄的同意,对不对?有一个适用于未成年人的具体规定,这个定义在不同的司法管辖区是不同的。有些人可能会说,“哦,如果我们认为你不满 13 岁,我们就不会跟踪你,但如果你超过 13 岁,我们就有权跟踪你。”它藏在某个条款和条件里,很明显只有我读过。
凯瑟琳·贾穆尔:但是,人们问这个问题可能有一些法律上的原因。因此,他们不应该说一些迟钝的话,比如“请告诉我你的访问年龄”,而是应该直截了当地说,“这是我们网站的功能,这是数据访问的工作方式。如果你同意,你必须确认你已经超过 14 岁,“或者其他什么。不幸的是,我认为这就是我所说的同意屏幕的黑暗模式。
雨果·鲍恩·安德森:我完全同意。在此基础上,我认为我们在这个问题中看到的一些东西是,好吧,让我们只说访问互联网是一项基本人权。这是我所相信的。我知道谁知道,我知道谁不知道。这绝对是非常重要的事情,你可以认为有人要求你放弃信息,以获取某些情况下你有权获得的信息,作为某种赎金。从这种意义上来说,这确实是不公平的,这也是我鼓励大家团结起来反对的。
凯瑟琳·贾穆尔:是的。我的意思是,透明度,特别是在这种类型的隐性同意中,数据将在哪里使用,以及如何和什么第三方可能会或可能不会,比如说,跟踪你的数据访问。这也是我在隐私方面提到的事情,因为当你使用免费 wifi 时,特权往往是你在用数据交换服务。但并不是每个人都有家庭无线网络。所以我们也需要思考这些问题。
我们有一个来自 Orhn 的问题,O-R-H-N,Orhn 问,“嗨,Hugo 和 Katharine。感谢网上研讨会。”真可爱。"我一直在 DataCamp 上关注你的 Python 课程."太棒了。”“我的问题是关于健康垂直隐私的。我一直在咨询一家视频咨询初创公司,他们一直在努力扩展他们在不同国家的数据分析来源,因为不同的国家和卫生管理部门需要不同类型的隐私法规。国际上是否有数据隐私法规的集体信息来源?"
雨果·鲍恩·安德森:我将在此基础上继续努力。我想你和我在过去几年里已经讨论过这个问题了。举例来说,GDPR,如果你是一家小型创业公司,并试图弄清楚它到底意味着什么,那么你可能会招致的法律费用在很多方面都是真正的抑制因素。这项立法非常重要,但对于一家公司来说,在另一方面搞清楚它是一个巨大的挑战。所以我认为这个问题也更普遍地说明了这一点。
Katharine Jarmul:是的,我的意思是,这是我们目前正在努力解决的日常挑战的一个重要部分,即如何根据监管和其他风险(比如模型中的专有信息或可能没有完全信任的公司之间的数据共享)来确定利用哪些隐私技术。所以有些是关于建模的,比如我们想要建立的系统是什么,那里有什么风险和威胁?在这种情况下,风险可能是监管风险,对吗?所以完全可以理解这是一个困难的空间。
Katharine Jarmul:我在合规和监管领域跟踪了很多不同的人,试图跟上形势。尽管他们的总部设在美国,IAPP 有一个很好的...我认为所有的东西都是英文的,它不总是像,比方说,当我读德国的报道时那样具体。然而,IAPP 对许多不同的事物进行了令人印象深刻的比较。这是一个主要面向隐私专业人士的组织。因此,我可以建议你在那里检查一下,一定要关注我们在 Cape Privacy 建设的东西,因为它的一部分是让人们,让小型创业公司和其他团队在这些关键问题上工作,同时仍然符合监管要求,甚至可能在默认或设计的隐私空间内。再说一次,你不需要成为专家来做出正确的选择,不幸的是,现在看起来就是这样。
雨果·鲍恩·安德森:我们还有时间回答最后一个问题。不幸的是,我们还没有接触到所有人,但是请不要客气,在 Twitter 上联系凯瑟琳或者我自己,分别是 @KJAM 和 @hugobowne 。或者在 LinkedIn 上。我们可能需要一些时间来回复你,但是请保持联系。
雨果·鲍恩·安德森:好的,最后一个问题是,“嗨,凯瑟琳,”这是罗伯说的,“嗨,凯瑟琳。”嘿,罗柏。嘿,伙计。他是英国政府的数据科学家。所以我才叫他伙计。这是一个很棒的问题。Rob 说:“自然,公共数据信任是一个很大的兴趣领域。你,凯瑟琳,提到单靠技术不能解决所有问题。在你看来,公共数据信任领域的非技术优先事项是什么?”
凯瑟琳·贾穆尔:是的。非常非常好的问题。最大的问题之一是,或者说我从在该领域工作的人那里了解到的一个问题是,从法律的角度来看,我们能否在遵守法规的同时建立数据信任?因为当然有很多预防措施,比如说,尤其是围绕电子健康记录。正如前一个提问者所指出的,他们不是,比方说,在所有司法管辖区通用,所以我们很快遇到一个问题,如果我的 EHR,如果我的电子健康记录数据存储在加拿大的一个数据托管机构,但我是一个欧洲居民,那么它变得非常模糊,我必须对这些事情给予同意的类型。假设想要使用它的公司在巴西,那么我们就开放了一整套数据、许可和透明度等方面的国际管辖权。
Katharine Jarmul:所以从法律的角度来看,我知道围绕数据信任有很多可以深入探讨的地方。然后,我会从人道主义数据科学的角度挑战我们,如果我们的非技术方面是我们理解那里的问题吗?我们理解把一堆数据放在一起的问题吗?从这个角度来看,我们正在制造相当大的安全风险。然后,我们是否了解如何向人们传达数据是如何被使用的?这超出了它的实际用途,这当然是一个巨大的技术问题,也只是一个信任问题。所以这也是我的一个挑战,人们能思考隐私风险吗?如果机器学习对人们来说是新的,他们可以进行推理吗?人们能对不确定性、错误、统计数据进行推理吗?所以我们必须回答这些问题以及更大的技术问题。
Hugo Bowne Anderson:这是一个很好的问题,也是一个精彩的回答。我希望我们有更多的时间,但是我们现在不得不结束了。我们这里仍然有将近 1000 人,在这里逗留一个半小时来进行这样的谈话真是不可思议。我要感谢 Ryan,他是我们网上研讨会项目背后的超级明星之一,我还要感谢 DataCamp 的所有人,是他们让这些网上研讨会成为可能。
雨果·鲍恩·安德森:我们又一次收到了很多我们无法回答的问题。所以请随时在 Twitter 和 LinkedIn 上联系我们。网上研讨会的录音将在为期一周的网上研讨会结束后通过电子邮件发送出去。不要错过明天的网络研讨会,该研讨会将于美国东部时间上午 11:00 举行,主题是如何推出首个在线数据素养计划。再次感谢您的加入。最大的感谢当然,非常感谢你,凯瑟琳带来了你的-
凯瑟琳·贾穆尔:谢谢你,雨果。
雨果·鲍恩·安德森:...专业知识和精力。我邀请你来是因为我喜欢我们的每一次谈话,这总是一次疯狂的经历,这超出了我所有的期望。我得说实话。
凯瑟琳·贾穆尔:我也是。感谢每一个加入的人。请随意联系。我保证会对一些我们没有深入研究的主题进行一些解释,比如差分隐私和联邦学习。所以如果你想更深入地了解这个问题,可以在推特上联系我。
Hugo Bowne Anderson:我刚刚听说,Katharine 每天都会发推文解释所有这些技术概念。我期待着 180 年,无论他们增加了多少角色,或者更少。
Katharine Jarmul: 240?
雨果·伯恩·安德森:不管是什么。
凯瑟琳·贾穆尔:谢谢你,雨果。一如既往,和你聊天是如此的愉快。
雨果·鲍恩·安德森:太棒了。太感谢你了,凯瑟琳。谢谢大家。我只是对着墙说的,但是谢谢你。好吧。我要走了。
数据科学术语表:常用数据科学术语的定义
原文:https://web.archive.org/web/20221129050302/https://www.datacamp.com/blog/data-science-glossary
[假阳性(FP,I 型错误)](#false-positive-(fp,-type-i-error)
A
准确度分数
准确度分数是一种评估指标,用于评估机器学习模型的性能,并显示正确预测数与预测总数的比率。
激活功能
在人工神经网络(ANN) 中使用一个激活函数,该函数根据来自前一层(或输入层)的输入,通过计算其到下一个隐藏层(或输出层)的输出来确定是否激活一个神经元。激活函数负责神经网络的非线性转换。
算法
算法是一系列可重复的步骤,通常以数学方式表达,由人类编写并由计算机执行,以解决特定类型的数据科学问题。算法的范围从非常简单到极其复杂。不同的算法适用于不同的任务和技术。主要概念是算法接受一些输入并产生一个输出,相同的输入将总是产生相同的输出。在机器学习中,算法以数据和超参数的形式接受输入,从数据中识别和学习常见模式,并以预测的形式产生输出。
阿帕奇火花
Apache Spark 是一个开源的多功能并行处理框架,用于分析和建模大数据。Spark 允许您将数据和计算分散到具有多个节点的集群上(将每个节点想象成一台独立的计算机)。拆分数据可以更容易地处理非常大的数据集,因为每个节点只处理少量的数据。由于每个节点处理其自己的总数据子集,它还执行所需的总计算的一部分,因此数据处理和计算都与集群中的节点并行执行。事实上,并行计算可以使某些类型的编程任务更快。
应用程序接口
API 是应用程序编程接口的首字母缩写,是一种确保应用程序或计算机之间连接的软件中介。API 的一个例子是在 Rideshare 应用程序中嵌入谷歌地图。数据科学家通常使用 API 来访问数据(例如,下载推文的 Twitter API),或者打包他们制作的解决方案(例如,在生产中调用机器学习模型的 API)。
人工智能
人工智能是计算机科学的一个分支,涉及使用机器学习、编程和数据科学技术,使计算机能够智能地运行。人工智能系统是广泛的,具有不同程度的复杂性。它们可以是基于规则的系统,也可以是基于机器学习的系统,并且可以执行诸如欺诈检测、对象识别、语言翻译、股票价格预测等功能。
人工神经网络
人工神经网络是一种机器学习模型,它大致受人脑中生物神经网络的启发。神经网络由数百层称为神经元的互连单元组成。从概念上讲,人工神经网络有以下类型的层:输入层、输出层和隐藏层,用于过滤数据,用激活函数处理数据,并在输出端进行预测。人工神经网络是称为深度学习的机器学习子集的构建模块,深度学习提供复杂的输出,如图像或声音识别、对象检测、语言翻译等。
B
反向传播
反向传播是一种用于训练深度学习网络的技术,基于实现梯度下降来迭代调整权重和偏差,以提高网络的准确性。该算法在每次训练迭代中计算输出的误差,然后将其传播回网络,从而使其能够在未来的训练迭代中最小化误差。
贝叶斯网络
贝叶斯网络是显示不确定域的随机变量之间的关系的概率图,其中图节点表示这些变量,每对节点(边)之间的链接表示相应变量的条件概率。贝叶斯网络的一个例子是在医疗诊断中,研究人员预测健康结果,同时考虑所有可能影响结果的因素。
贝叶斯定理
贝叶斯定理是用于计算条件概率的数学等式,即,在相关事件 A 已经发生的情况下,事件 B 发生的概率。这个定理在数据科学中的应用之一是为大型数据集构建贝叶斯网络。
偏见
偏差是指模型对数据拟合不足的趋势,导致机器学习和数据科学中的预测不准确。这是在偏差-方差权衡中经常讨论的偏差定义。此外,偏见也可能意味着算法偏见——这是指机器学习模型通过基于受保护的属性(如种族、性取向、性别认同、年龄、怀孕、退伍军人身份等)不同地对待不同的个人群体来复制有害的社会偏见的倾向。
偏差-方差权衡
偏差-方差权衡是在创建机器学习模型时在偏差和方差之间的权衡。在创建机器学习模型时,偏差和方差是两种类型的预测误差,其中高偏差表示模型欠拟合,高方差表示模型过拟合。将这两个因素最小化到最佳水平会降低预测的总体误差。
大数据
大数据是围绕处理、处理和从数据集中提取信息的领域,这些数据集对于传统的数据处理工具来说太大或太复杂。大数据由五个 v 定义;速度——数据生成的速度;卷—生成的数据量;多样性—数据类型的多样性,例如文本、图像、表格数据等。;准确性——数据的质量和真实性;和价值—数据转化为有价值的业务见解的倾向。
二项分布
二项式分布是独立试验结果的离散概率分布,有两个互斥的可能结果(成功和失败),试验次数有限,成功概率恒定。简而言之,二项式分布可以被认为是重复多次的事件中特定结果(成功或失败)的概率(例如,在掷出 5 次的骰子中得到 3 的概率)。
商业分析员
业务分析师负责将数据洞察与可提高盈利能力或效率的可操作结果联系起来。他们对业务领域有深入的了解,经常使用 SQL 和非编码工具来交流从数据中获得的见解。
商业分析(文学学士)
业务分析是一个分析子领域,专注于使用历史和当前数据来发现有价值的运营见解,预测未来可能的趋势,并做出数据驱动的业务决策。商业分析的工具包通常包括统计分析、描述性分析和数据可视化,并且可能会交叉到预测分析和机器学习中。
商业智能(BI)
商业智能是一个分析子领域,结合了描述性分析、商业分析、数据可视化、统计分析、报告等等。旨在帮助组织做出数据驱动的决策。BI 通常利用 Tableau 和 Power BI 等非编码工具来探索历史和当前数据的趋势。与业务分析不同,BI 的主要焦点是描述性分析。
C
分类变量
分类变量是可以有有限数量的可能值(类别)之一的变量,不涉及任何内在排序。分类变量的一个例子是婚姻状况(例如,已婚、单身、离婚)。它也被称为名义变量或定性变量。
分类
当需要根据输入特征预测分类结果时,分类是一个监督学习问题。分类问题的例子是欺诈检测(例如,给定输入特征集,该交易是欺诈的吗?)和垃圾邮件过滤器(例如,这是否是垃圾邮件?).常用的分类算法有 k 近邻、决策树、随机森林等。
使聚集
聚类是一个无监督的学习问题,涉及根据一些共同特征的相似性对数据集的所有观察值进行分组。与分类问题不同,这些组(称为聚类)不是由人类预先定义的,而是由机器学习算法在学习输入数据时识别的。每个簇中的元素彼此相似,但与所有其他元素不同。常见的聚类算法有 k-means、层次聚类、谱聚类等..
计算机科学
计算机科学是一个多方面的研究领域,主要集中在数字计算机信息处理、计算机硬件和软件设计以及计算机应用的理论和实践方面。特别是,计算机科学涉及人工智能、计算系统、算法、数据结构、数据建模、安全、计算机和网络设计等..
计算机视觉
计算机视觉是计算机科学的一个领域,涉及使计算机能够从数字图像或视频中获得高级理解,接近人类可以看到的程度。随着深度学习的发展和大数据的积累,计算机视觉变得特别受欢迎。它的一些应用包括物体和面部识别、运动分析、自动驾驶汽车和光学字符识别。
混淆矩阵
混淆矩阵是说明分类模型的预测性能的表格。通常,为二进制输出创建混淆矩阵(即,仅具有两种类型预测的预测问题,例如,交易是否是欺诈性的),因此结果表是一个二乘二的表。混淆矩阵表示两个类别的预测与实际标签之间的关系。它很容易显示准确预测的数量(真阳性和真阴性),以及假阳性(I 型错误)和假阴性(II 型错误)的数量。
连续变量
连续变量是可以在特定范围内取无限多值的变量。连续变量的例子有身高和体重。
相互关系
相关性是两个或多个变量之间关系的强度和方向,用相关系数或皮尔逊系数来衡量。从统计学上讲,相关系数是两个变量的协方差与它们的标准偏差的乘积之比。它可以取从-1(完全负相关)到 1(完全正相关)的值。两个变量之间存在相关性并不意味着因果关系。
价值函数
成本函数是一种机器学习函数,用于测量训练集的预测值和实际值之间的平均差异,并且应该最小化。
协方差
协方差是两个变量之间关系的度量。与测量同一变量内部变化的方差不同,协方差显示一个变量的变化如何影响第二个变量的变化。协方差用于计算相关系数。
交叉验证(未验证)
交叉验证是训练机器学习模型时的一种重采样方法,它将标记的数据分成训练集和测试集。在交叉验证的每次迭代中,数据的不同部分用于训练和测试模型。训练集用于训练模型,测试集用于进行预测并将其与这些条目的实际标签进行比较。随后,计算总体准确性度量,以估计所得模型的预测性能。
D
仪表盘
仪表板是一个交互式的图形用户界面,用于可视化、汇总和报告关键绩效指标(KPI)、进度指标和业务流程相关信息,使目标受众能够轻松掌握许多层面上最重要的见解。仪表板是使用非编码工具(如 Excel、Tableau 或 PowerBI)甚至编码工具(如 Python 和 r)构建的。仪表板通常链接到定期更新的数据库和服务。
数据分析
数据分析是一门专注于清理、转换、可视化和探索数据的学科,目的是提取有意义的模式和见解,并将结果传达给相关方。数据分析通常是所有数据科学项目的第一个里程碑,但它也可以代表一个独立的项目。但与数据科学不同,它更多地处理描述性分析,而不是预测性分析。
数据分析师
数据分析师类似于业务分析师,数据分析师负责分析数据并报告他们的分析见解。他们对数据分析工作流有着深刻的理解,并使用编码和非编码工具的组合来得出和报告他们的见解。
数据库ˌ资料库
数据库是一个结构化的存储空间,其中的数据以某种方式组织在许多不同的表中,以便可以轻松地访问和汇总必要的信息。数据库通常与关系数据库管理系统一起使用,如 Oracle 或 PostgreSQL。用于与数据库中的数据进行交互的最常见的编程语言是 SQL。
数据库管理系统
数据库管理系统是一个软件包,用于轻松地对数据执行不同的操作:访问、操作、检索、管理和存储数据库中的数据。根据数据组织和结构的方式,有不同类型的数据库管理系统:关系型、图形型、层次型等..DBMS 的一些例子:Oracle,MySQL,PostgreSQL,Microsoft SQL Server,MongoDB。
数据消费者
数据消费者通常担任非技术角色,但使用数据专业人员提供的数据见解和分析来做出数据驱动的决策。数据消费者通常需要与数据专业人员进行对话,并且应该能够区分数据何时可以、何时不可以用于回答业务问题。
数据工程师
数据工程师是负责向数据科学家和数据分析师提供正确数据的专家。他们设计并维护存储基础架构和数据管道,这些数据管道将来自不同来源的大量原始数据放入一个集中的位置,其中包含与组织相关的干净、格式正确的数据。
数据工程
数据工程是专注于在组织内扩展数据访问的专业。数据工程师致力于数据采集、收集、管理和存储,以及建立数据管道并将数据转化为高质量、可供组织其他部门使用的数据。
数据丰富
数据丰富是增强、提炼和扩充原始数据的过程,以使其对组织更有用,从而获得更有意义的业务洞察力并优化预测分析。
数据帧
dataframe 是表格数据结构,带有潜在不同类型的标记轴(行和列)。
数据治理
DAMA 将数据治理定义为“对数据和数据相关来源的管理进行规划、监督和控制”。数据治理设置了角色、职责和流程,以确保数据的可用性、相关性、质量、可用性、完整性和安全性。数据治理包括治理机构、满足公司信息需求的规则和实践框架,以及执行这些实践的计划。
数据新闻
数据新闻是一种与处理和分析大量数字数据有关的新闻,目的是创造一个关于数据的故事,或从数据中获得的信息。这一角色的出现是由于持续增长的信息流以及现代新闻业与统计、IT 技术和数据科学等领域日益增加的互动。
数据湖
数据湖是一个单一的存储库,包含来自各种来源的大量未经处理的原始数据,这些数据还没有明确的用途。数据湖既包括不同结构的结构化数据(彼此之间没有任何关系),也包括非结构化数据(如文档和文本文件)。原始数据作为原始信息源保存,除非需要数据,否则没有必要对其进行结构化和争论。
数据素养
数据素养是对数据进行读取、写入、分析、交流和推理以做出更好的数据驱动型决策的能力。从组织的角度来看,它是一系列数据技能,从数据驱动的决策制定,到数据科学、数据工程和机器学习中的高级技术技能,使组织中的每个人都拥有相关的能力,并从大规模数据中产生价值。
数据挖掘
数据挖掘是从各种来源收集相关数据、清理数据并将其转换为正确格式、检测和提取数据之间有意义的隐藏趋势、模式和相互联系,以及传达可操作的见解以帮助组织做出数据驱动的决策和制定更好的战略的过程。为此,使用了各种分析和建模技术,包括统计分析、数据可视化、回归和分类。
数据建模
数据建模是开发整个 IT 系统或其中一部分的可视化表示的过程,用于交流数据点和结构之间的连接。数据模型展示了系统中使用和存储的数据类型、这些不同数据源之间的关系,以及如何根据不同的属性和特征对数据进行分组。在数据科学中,您可能会遇到一个稍加调整的数据建模定义:构建可靠的模型,将原始数据转化为预测性、一致性和可操作性的见解。主要目的是清楚地了解关键的业务需求、可用的数据源和截止日期,并提供一个相关的数据驱动和格式正确的框架来满足这些需求。
数据管道
数据管道是一组相互链接的数据处理脚本,从而使数据在组织中自动流动,在组织中,数据被提取、转换和加载,以便随时可以使用。
数据科学
数据科学是一个多方面的跨学科研究领域,它使用各种科学方法、高级分析技术和预测建模算法来从数据中提取有意义的见解,以帮助回答许多领域的战略业务或科学问题。它结合了广泛的技术和非技术技能,通常需要在其应用的特定行业中具有扎实的领域知识,以便能够正确地解释可用数据和获得的结果。
数据科学家
数据科学家调查、提取并报告组织数据中有意义的见解。他们将这些见解传达给非技术利益相关者,并对机器学习工作流以及如何将它们与业务应用联系起来有很好的理解。他们几乎只使用编码工具,进行分析,并且经常使用大数据工具。
资料组
数据集是一种或多种类型的数据集合,代表现实生活或合成生成的观察结果,用于统计分析或数据建模。数据集的数据可以从许多来源收集,通常存储在某种数据结构中,最常见的是表,其中列对应于不同的变量,行对应于不同的数据条目。
数据结构
数据结构是一种组织和存储数据的方式,以便可以有效地访问和处理数据。数据结构定义了数据和可以对数据执行的操作之间的关系。数据科学中常见的数据结构有数据帧、列表、数组等等。
数据可视化
数据可视化是一个跨学科的领域,它处理以可视格式压缩和表示信息。数据可以根据各种图表(如地图、直方图、条形图和折线图)进行可视化,并可以组合成信息图、仪表板等。数据可视化通常用于帮助目标受众更好地理解底层数据和获得的结果。
数据仓库
数据仓库是一个中央存储库,用于存储通过 ETL (提取、转换、加载)过程从多个来源收集的结构化、清理和转换的数据。数据专业人员可以通过商业智能工具、SQL 查询等轻松访问数据仓库中的必要信息。,并使用它进行进一步的分析和建模,以回答业务问题。
数据争论
数据争论也称为数据管理。数据争论任务涉及数据清理、重组、合并、聚合,以及为特定目的转换成适当的格式。总而言之,这是一个数据准备的过程,以便于进一步的访问和数据分析。
决策图表
决策树是一种受监督的机器学习算法,主要用于分类,但也用于回归问题。决策树对单个特征提出一系列 if-else 问题,目的是推断类别标签。决策树得益于可能的图形树状表示、对人类决策能力的模仿以及直观可理解的逻辑,但这种类型的模型往往会过度拟合。
深度学习
深度学习是基于多层人工神经网络(ANN) 的机器学习算法的子集,主要受大脑结构的启发。人工神经网络非常灵活,可以从大量数据中学习,以提供高度准确的输出。它们通常是一些数据科学和机器学习用例的背后,如图像或声音识别、语言翻译和其他高级问题。
降维
降维是减少训练集的特征数量的过程,只留下捕获大多数变化的最相关的特征,以便增强模型的性能。降维对于包含大量变量的大型数据集尤其有用。它有助于优化存储空间和计算时间,还修复了多重共线性问题。最流行的降维技术是 PCA (主成分分析)。
E
电子设计自动化(Electronic Design Automation)
EDA 是探索性数据分析的首字母缩写,指的是数据分析的第一阶段,侧重于对可用数据的基本探索;总结其主要特征,并找到初始模式和趋势、要解决的问题以及要进一步研究的问题。在这个阶段,数据分析师或数据科学家对数据有一个大致的了解,作为后续更详细的数据分析的基础。
英语教学
ELT(提取、加载、转换)是由数据工程师设计的数据管道系统,是更流行的方法 ETL (提取、转换、加载)的替代方案。在应用任何转换之前,原始数据被加载到数据湖,然后就地转换。与 ETL 相比,ELT 的优势在于它需要的时间更少,适合处理大型数据集,并且更具成本效益。
抽取、转换、加载至目的端(extract-transform-load 的缩写)
ETL (extract,transform,load)是由数据工程师设计的数据管道系统。从多个来源提取数据,将其从原始形式转换成适当的格式以与其他来源的数据保持一致,并加载到目标数据仓库。从这里,它可以用于进一步的数据分析和建模,以解决各种业务问题。
评估指标
评估指标是用于评估统计或机器学习模型性能的指标集合。评估指标的一些例子是准确度分数、 f 分数、召回和 RMSE 。
F
假阴性(FN,II 型错误)
当分类模型错误地预测二元目标变量的负面类别时,就会产生假阴性(例如,如果我们预测客户流失,假阴性会生成“不会流失”的预测,而实际标签是“会流失”)。
假阳性(FP,I 型错误)
假阳性是当分类模型错误地预测二元目标变量的阳性类别时的结果。例如,如果我们预测客户流失,误报会生成“将流失”预测,而实际标签是“不会流失”。
特征
特征是在机器学习模型中用作输入的独立变量。例如,如果我们使用身高、体重和糖摄入量来预测患糖尿病的可能性,身高、体重和糖摄入量都是特征。
特征工程
特征工程是使用领域知识和主题专业知识将原始特征转换成更好地反映潜在问题并且更适合机器学习算法的特征的过程。它包括从可用数据中提取新要素,或操作现有要素。例如,如果我们试图预测健康结果,如患糖尿病的可能性,使用身高和体重特征计算身体质量指数特征就是特征工程。
特征选择
特征选择是从数据集中选择与预测目标变量最相关的特征子集的过程。智能特征选择过程对于大型数据集尤其重要,因为它降低了模型复杂性、过拟合和计算时间,并提高了模型准确性。
f 分数
F-Score 是用于评估模型性能的评估指标,它结合了精度和召回。通常,使用 F1 分数,它是精确度和召回率的调和平均值。更一般的情况是 Fβ,其中额外的权重应用于精确度或召回率。
G
梯度下降
梯度下降是机器学习中使用的迭代优化过程,通过找到函数参数的最佳值来最小化成本函数。
H
Hadoop
Hadoop 是一个基于 Java 的开源软件框架,支持在许多计算机集群之间并行处理和分布式存储大数据。与仅使用一台计算机相比,Hadoop 可以节省时间并处理更大量的数据。
超参数
超参数是属于机器学习模型的属性,其值是在开始训练过程之前手动设置的。与其他参数不同,超参数不能直接从数据中估计或学习。调整超参数并估计最终的模型性能,我们可以确定它们的最佳值以获得最精确的模型。直观地说,调谐超参数类似于在试图获得完美信号时调谐收音机旋钮。超参数的一个例子是随机森林算法中的树的数量。
假设
假设是关于某个问题或事件的假设,这个假设必须被检验,并且根据实验的结果,被证明或被拒绝。
我
归罪
插补是填补数据集中缺失值的过程。插补技术可以是统计技术(均值/众数插补)或机器学习技术(KNN 插补)。
K
k 均值
K-Means 是最流行的聚类算法,它使用数据中的暂定坐标来识别 K 个聚类中心(称为质心),并基于其特征将每个观察值迭代地分配给质心之一,直到质心收敛。一个聚类中的数据点是相似的,而其他聚类中的数据点是不同的。
k-最近邻(KNN)
k-最近邻是监督学习算法,它根据观察值与其最近邻的相似性对观察值进行分类。可以调整的 KNN 最重要的参数是最近邻的数量和距离度量(闵可夫斯基、欧几里德、曼哈顿等。).
L
线性代数
线性代数是数学的一个分支,研究线性系统:直线、平面、向量空间、矩阵及其运算,如加法或乘法。线性代数在数据科学和机器学习中非常有用,因为数据集和许多机器学习模型可以用矩阵形式表示。
线性回归
线性回归是一种回归算法,用于处理连续目标变量与一个或多个连续特征之间的线性关系建模。使用线性回归的数据科学的一个典型例子是基于各种输入属性的价格预测。
逻辑回归
逻辑回归是一种回归算法,它对输入要素使用逻辑函数来预测类概率或直接预测目标变量的类标注。在第二种情况下,输出表示一组类别而不是连续值,这意味着逻辑回归在这里充当分类技术。逻辑回归的典型数据科学用例是预测客户流失的可能性。
M
机器学习
机器学习是人工智能(AI)的一个分支,它提供了一套旨在从历史数据中学习模式和趋势的算法。ML 的目的是预测未来的结果,并在没有明确编程的情况下对训练集的数据点进行归纳。有两种主要类型的机器学习算法:监督的和非监督的,每种算法都由适用于不同用例的众多技术来表示。
平均
平均值是一组数的算术平均值,即所有值的总和除以值的个数。它通常与其他统计数据一起使用,以获得对整个数据集的总体了解。
平均绝对误差
平均绝对误差(MAE)是预测值与实际值相比的所有绝对误差的算术平均值。
均方误差
均方误差(MSE)是预测值与实际值相比的所有误差平方的算术平均值。
中位数
中位数是一组按升序或降序排序的数字的中间值。如果集合中有偶数个值,则中位数是两个中间值的算术平均值。中位数通常与其他统计数据一起使用,以获得对整个数据集的整体了解,对于检测可能的异常值尤其有用。
方式
众数是一组数据中最频繁出现的值。
模型调整
模型调整是调整超参数的过程,目的是在不过度拟合的情况下最大化模型的精确度。
多元建模
多变量建模是对在特征选择步骤中定义的多个变量(预测值)和目标变量之间的关系进行建模的过程。
普通
朴素贝叶斯
朴素贝叶斯是一组基于贝叶斯定理和分类器中使用的特征之间的独立性假设的分类算法。尽管在现实中,特征并不总是独立的,朴素贝叶斯算法可以成功地应用于各种数据科学用例,如垃圾邮件过滤或情感分析。
自然语言处理
自然语言处理(NLP)是计算机科学的一个分支,致力于使计算机应用程序理解和分析书面或口头人类语言。NLP 技术获取输入文本数据(通常是非结构化的),将其转换为结构化形式,寻找语言和上下文模式,对它们进行分类,并从这些数据中提取有价值的见解。NLP 还涉及利用机器学习和深度学习来生成语言,对其进行分类,并使用语言完成其他认知任务。NLP 应用的一些例子是聊天机器人、语音到文本转换器、情感分析和自动翻译。
正常化
规范化是重新调整数据比例以使所有属性具有相同比例的过程。归一化对于在属性之间进行有意义的比较是必要的,并且对于一些机器学习算法也是必需的。
NoSQL
NoSQL 代表“不仅仅是 SQL”。一种数据库管理系统,用于存储和检索非关系(即非表格)数据库。非关系数据模型的一些例子是图形、文档和键值数据库。NoSQL 系统受益于高灵活性和操作速度,以及跨许多服务器扩展的可能性”。
虚假设
零假设是一种假设,它陈述了要检验的替代假设的相反情况,即两个变量之间不存在显著的统计关系,并且观察结果都是基于概率的。在统计实验中,可以拒绝或确认无效假设。
O
开放源码
开源是指可用于进一步修改和共享的免费许可软件和资源。开源工具促进了用户之间的合作,并且通常更加稳定,因为研究人员可以添加新的、有用的功能,或者修复社区报告的技术问题和错误。
序数变量
序数变量是一种变量,它可以具有有限数量的可能值中的一个,并包含内在的排序。一个例子是调查响应栏,其中响应按强度排序(例如,“强烈不同意”、“不同意”、“中立”、“同意”或“强烈同意”)。
局外人
异常值是数据集中与其余观察值相差很大的异常值。异常值可能是测量错误或异常事件的证据。
过度拟合
过度拟合指的是模型从训练集中学习了过多的信息,包括潜在的噪声和离群值。结果,它变得太复杂,太受特定训练集的限制,并且无法在看不见的数据上充分执行。过度拟合导致偏差-方差权衡的高方差。
P
参数
在编程和数据科学中,参数是传递给函数的命名变量。在机器学习中,参数是要从数据中学习的算法的内部组件。一些机器学习算法是参数化的,具有固定的参数集(例如,线性和逻辑回归),而其他算法是非参数化的(例如,k-最近邻)。
精确
精度是一种评估指标,用于评估机器学习模型的性能,显示正确预测的正例数与预测的正例总数的比率。
预测分析
预测分析是使用各种统计分析、数据挖掘、数据可视化和机器学习工具分析历史数据的过程,以预测特定业务中的未来事件。
主成分分析
主成分分析(PCA)是一种因子分析和降维的统计技术,将一组可能相关的初始特征转化为一组较小的线性不相关特征,称为主成分。通过这种方式,PCA 尽可能多地保留数据集中的差异,同时最大限度地减少特征的数量。
计算机编程语言
Python 是一种开源、面向对象的高级编程语言。Python 在数据科学领域非常流行,但也广泛用于计算机科学中的通用编程。它直观易懂,易于学习和使用,同时仍然是解决复杂问题的强大资源。Python 提供了广泛的标准库和许多额外的有用模块,并且在不断地开发、改进和扩展。
稀有
稀有
r 是一种流行的编程语言和免费软件,广泛用于解决数据科学和机器学习问题,尤其以其统计计算能力和令人敬畏的数据可视化解决方案而闻名。它包括许多数据科学工具和软件包,可以在许多操作系统中使用,并且有一个强大的在线社区。
随机森林
随机森林是一种用于回归或分类问题的监督学习算法,随机森林将许多决策树的输出组合在一个模型中。随机森林的预测基本上代表了所有决策树的平均结果,因此该算法提供了比单个决策树更准确的结果。
回忆
召回是一种用于评估机器学习模型性能的评估指标,显示正确预测的阳性病例数与实际阳性病例总数的比率。
回归
回归是一个监督学习问题,需要根据输入特征预测连续结果。回归模型学习一个或几个独立特征和目标变量之间的关系,然后使用建立的函数来预测看不见的数据。回归算法的例子有线性回归和岭回归。一个典型的回归问题是价格预测。
强化学习
强化学习(RL)是机器学习的一个独立分支(既没有监督也没有非监督),其中算法通过与环境交互来逐渐学习。RL 根据其过去的经验做出决策,决定哪些行动可以使其更接近既定目标。通过对正确行为的奖励和对错误行为的惩罚,该算法找出最佳策略来最大化其性能。RL 算法的例子包括玩游戏的机器学习系统,例如国际象棋引擎和视频游戏代理。
关系数据库
关系数据库是一种通过唯一的 id(键)将数据存储在几个彼此相关的表中的数据库,可以通过不同的方式从这些表中访问、提取、汇总或重组数据。
均方根误差(RMSE)
均方根误差(RMSE)是均方误差的平方根。这种评估指标比 MSE 更直观,因为使用与原始数据相同的测量单位,结果更容易理解。
S
抽样误差
抽样误差是数据的整个总体与其子集(样本)之间的统计差异,因为样本不包括整个总体的所有元素。
结构化查询语言
SQL(结构化查询语言)是一种编程语言,旨在与关系数据库管理系统交互。SQL 有几种风格,包括 SQLite、PostgreSQL 和 MySQL。其中一些是免费和开源的。所有的风格都有相当相似的语法,在附加功能上有微小的变化。
标准偏差
标准差是总体的方差的平方根。标准差显示值的离差量,比方差更直观,因为它与数据采用相同的测量单位。
监督学习
监督学习是机器学习的一个分支,涉及在历史数据的标记训练集上教授模型。监督学习学习输入和输出之间的关系,然后测量它预测具有已知实际输出的测试集的输出的准确程度。通过这种方式,以后可以使用它对全新的数据进行预测。监督学习算法包括线性和逻辑回归、决策树和 SVM。常见任务的例子包括预测房价和将消息分类为垃圾邮件或火腿。
SVM
SVM(支持向量机)是一种监督学习算法,主要用于分类,但也用于回归问题。在分类问题中,SVM 提供了一个最佳超平面,它将两个类别的观测值分开(在多类别分类的情况下,该算法将问题分解为一组二元问题)。在回归问题中,SVM 在定义的阈值内提供最佳拟合超平面。
综合数据
合成数据是人工创造的数据。合成数据通常反映了初始数据集的统计属性,因此它们可用于高隐私领域,如银行和医疗保健,或者用其他具有统计代表性的数据观察来扩充现有数据集。
T
目标变量
目标变量(也称为因变量)是通过使用特征在机器学习算法中预测的变量,例如,如果我们使用身高、体重和糖摄入量来预测糖尿病的可能性,糖尿病状态就是我们想要预测的目标变量。
测试装置
测试集是在建立模型之前隔离的可用数据的子集,通常占整个数据集的 20%到 30%。测试集用于评估适合训练集的模型的准确性。
时间序列
时间序列是在不同时间对一个变量进行的一系列观察,并按时间顺序排列。通常,时间序列测量是在连续的、等距的时间点进行的。时间序列的一些例子是股票市场价格或一段时间内的温度。
训练集
训练集是在建立模型之前隔离的可用数据的子集,通常占整个数据集的 70%到 80%。训练集用于拟合稍后将在测试集上测试的模型。
真阴性(TN)
真阴性(TN)是模型正确预测二元目标变量的阴性类别的结果(即,它预测“假”为假的实际标签)。
真阳性(TP)
真阳性(TP)是模型正确预测二元目标变量的阳性类别的结果(即,它预测实际标签为真的“真”)。
U
欠拟合
欠拟合是指模型无法从训练集中检测到模式,因为它建立在不充分的信息上。因此,模型过于简单,无法在看不见的数据上表现良好,训练集本身也是如此。欠装配模型具有高偏差。
单变量建模
单变量建模是对单个变量(预测值)和目标变量之间的关系进行建模的过程。单变量建模通常与时间序列一起使用。
非结构化数据
非结构化数据是不符合预定义数据结构的任何数据,例如数据库的典型行列结构。这种数据的例子是图像、电子邮件、文本文档、视频和音频。
无监督学习
无监督学习是一类机器学习算法,在没有提供目标变量的情况下学习数据集的底层结构。无监督学习用于发现数据中的常见模式,根据属性对值进行分组,然后对看不见的数据进行预测。最常见的无监督学习算法是 k-means。常见任务的示例有异常检测和基于常见特征的客户细分。
V
差异
方差是数学和统计学中单个值与整组值的平均值之间的平均平方差。换句话说,方差显示了值的分布情况。在机器学习中,方差是由模型对训练集中微小变化的敏感性引起的误差。高方差反映了模型从输入要素中获取随机噪声的趋势,从而导致模型过度拟合。
W
网页抓取
Web 抓取是从网站中提取特定数据以供进一步使用的过程。Web 抓取可以通过编写程序从网站上获取必要的信息来自动完成。
Z
z 分数
Z 得分(也称为标准化得分、标准得分或正常得分)是数据观测值高于或低于整组值的平均值的标准差单位数。z 得分等于 0 意味着数据观测值接近平均值。
银行业的数据科学:欺诈检测
原文:https://web.archive.org/web/20221129050302/https://www.datacamp.com/blog/data-science-in-banking
银行业是历史上收集大量结构化数据的幸运领域之一,也是最先应用数据科学技术的领域之一。
数据科学在银行业是如何运用的?如今,数据已经成为这个领域最有价值的资产。数据科学是银行跟上竞争对手、吸引更多客户、提高现有客户忠诚度、做出更高效的数据驱动型决策、增强业务能力、提高运营效率、改进现有服务/产品并推出新产品、增强安全性以及获得更多收入的必要条件。不足为奇的是,大部分数据科学工作需求来自银行业。
数据科学让银行业能够成功执行众多任务,包括:
- 投资风险分析
- 客户终身价值预测
- 客户细分
- 客户流失率预测
- 个性化营销
- 客户情绪分析
- 虚拟助手和聊天机器人
下面,我们将详细了解银行业中最常见的数据科学用例之一。
银行业中的数据科学用例:检测欺诈
欺诈活动不仅在银行业,而且在政府、保险、公共部门、销售和医疗保健等许多其他领域都是一个具有挑战性的问题。任何处理大量在线交易的企业都有很大的欺诈风险。金融犯罪有多种形式,包括欺诈性信用卡交易、伪造银行支票、逃税、洗钱、网络攻击、客户账户盗窃、合成身份、虚假申请和诈骗。
欺诈检测是一套主动措施,用于识别和防止欺诈活动和财务损失。其主要分析技术可分为两组:
- 统计:统计参数计算、回归、概率分布、数据匹配
- 人工智能(AI):数据挖掘、机器学习、深度学习
机器学习是欺诈检测的重要支柱。它的工具包提供了两种方法:
- 监督方法:k 近邻、逻辑回归、支持向量机、决策树、随机森林、时间序列分析、神经网络等。
- 无监督方法:聚类分析、链接分析、自组织映射、主成分分析、异常识别等。
欺诈检测没有通用可靠的机器学习算法。相反,对于真实世界的数据科学用例,通常会测试几种技术或它们的组合,计算模型预测准确性,并选择最佳方法。
欺诈检测系统的主要挑战是快速适应不断变化的欺诈模式和欺诈者的策略,并及时发现新的和日益复杂的计划。欺诈案件总是占少数,并且在真实交易中隐藏得很好。
准备数据集
让我们使用 Python 编程语言来探索信用卡欺诈检测的机器学习实现。我们将在 creditcard_data 数据集上工作,这是从关于信用卡欺诈检测的 Kaggle 数据集修改而来的样本。原始数据代表了 2013 年 9 月两天内欧洲持卡人的信用卡交易。
让我们导入数据并快速查看一下:
import pandas as pd
creditcard_data = pd.read_csv('creditcard_data.csv', index_col=0)
print(creditcard_data.info())
print('\n')
pd.options.display.max_columns = len(creditcard_data)
print(creditcard_data.head(3))
<class 'pandas.core.frame.DataFrame'>
Int64Index: 5050 entries, 0 to 5049
Data columns (total 30 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 V1 5050 non-null float64
1 V2 5050 non-null float64
2 V3 5050 non-null float64
3 V4 5050 non-null float64
4 V5 5050 non-null float64
5 V6 5050 non-null float64
6 V7 5050 non-null float64
7 V8 5050 non-null float64
8 V9 5050 non-null float64
9 V10 5050 non-null float64
10 V11 5050 non-null float64
11 V12 5050 non-null float64
12 V13 5050 non-null float64
13 V14 5050 non-null float64
14 V15 5050 non-null float64
15 V16 5050 non-null float64
16 V17 5050 non-null float64
17 V18 5050 non-null float64
18 V19 5050 non-null float64
19 V20 5050 non-null float64
20 V21 5050 non-null float64
21 V22 5050 non-null float64
22 V23 5050 non-null float64
23 V24 5050 non-null float64
24 V25 5050 non-null float64
25 V26 5050 non-null float64
26 V27 5050 non-null float64
27 V28 5050 non-null float64
28 Amount 5050 non-null float64
29 Class 5050 non-null int64
dtypes: float64(29), int64(1)
memory usage: 1.2 MB
V1 V2 V3 V4 V5 V6 V7 \
0 1.725265 -1.337256 -1.012687 -0.361656 -1.431611 -1.098681 -0.842274
1 0.683254 -1.681875 0.533349 -0.326064 -1.455603 0.101832 -0.520590
2 1.067973 -0.656667 1.029738 0.253899 -1.172715 0.073232 -0.745771
V8 V9 V10 V11 V12 V13 V14 \
0 -0.026594 -0.032409 0.215113 1.618952 -0.654046 -1.442665 -1.546538
1 0.114036 -0.601760 0.444011 1.521570 0.499202 -0.127849 -0.237253
2 0.249803 1.383057 -0.483771 -0.782780 0.005242 -1.273288 -0.269260
V15 V16 V17 V18 V19 V20 V21 \
0 -0.230008 1.785539 1.419793 0.071666 0.233031 0.275911 0.414524
1 -0.752351 0.667190 0.724785 -1.736615 0.702088 0.638186 0.116898
2 0.091287 -0.347973 0.495328 -0.925949 0.099138 -0.083859 -0.189315
V22 V23 V24 V25 V26 V27 V28 \
0 0.793434 0.028887 0.419421 -0.367529 -0.155634 -0.015768 0.010790
1 -0.304605 -0.125547 0.244848 0.069163 -0.460712 -0.017068 0.063542
2 -0.426743 0.079539 0.129692 0.002778 0.970498 -0.035056 0.017313
Amount Class
0 189.00 0
1 315.17 0
2 59.98 0
数据集包含以下变量:
- 数字编码的变量 V1 到 V28 是从 PCA 变换中获得的主要成分。由于保密问题,没有提供关于原始功能的背景信息。
- Amount 变量表示交易金额。
- Class 变量显示交易是欺诈(1)还是非欺诈(0)。
就其性质而言,在所有交易中,欺诈事件幸运地是极少数。然而,当数据集中包含的不同类或多或少同等存在时,机器学习算法通常工作得最好。否则,很少有数据可以借鉴。这个问题叫做阶级不平衡。
计算数据集中的欺诈
让我们计算欺诈交易占数据集中交易总数的百分比:
round(creditcard_data['Class'].value_counts()*100/len(creditcard_data)).convert_dtypes()
0 99
1 1
Name: Class, dtype: Int64
并创建一个图表,将欺诈可视化为非欺诈数据点:
import matplotlib.pyplot as plt
import numpy as np
def prep_data(df):
X = df.iloc[:, 1:28]
X = np.array(X).astype(float)
y = df.iloc[:, 29]
y = np.array(y).astype(float)
return X, y
def plot_data(X, y):
plt.scatter(X[y==0, 0], X[y==0, 1], label='Class #0', alpha=0.5, linewidth=0.15)
plt.scatter(X[y==1, 0], X[y==1, 1], label='Class #1', alpha=0.5, linewidth=0.15, c='r')
plt.legend()
return plt.show()
X, y = prep_data(creditcard_data)
plot_data(X, y)
使用 SMOTE 重新平衡数据
我们现在可以确认,欺诈交易的比例非常低,我们有一个阶级不平衡的问题。为了解决这个问题,我们可以使用合成少数过采样技术(SMOTE)来重新平衡数据。与随机过采样不同,SMOTE 稍微复杂一些,因为它不只是创建观察值的精确副本。相反,它使用欺诈案例的最近邻居的特征来创建新的合成样本,这些样本与少数类中现有的观察结果非常相似。让我们将 SMOTE 应用于我们的信用卡数据:
from imblearn.over_sampling import SMOTE
method = SMOTE()
X_resampled, y_resampled = method.fit_resample(X, y)
plot_data(X_resampled, y_resampled)
正如我们所看到的,使用 SMOTE 突然给了我们更多关于少数民族的观察。为了更好地了解这种方法的结果,我们将把它们与原始数据进行比较:
def compare_plot(X, y, X_resampled, y_resampled, method):
f, (ax1, ax2) = plt.subplots(1, 2)
c0 = ax1.scatter(X[y==0, 0], X[y==0, 1], label='Class #0',alpha=0.5)
c1 = ax1.scatter(X[y==1, 0], X[y==1, 1], label='Class #1',alpha=0.5, c='r')
ax1.set_title('Original set')
ax2.scatter(X_resampled[y_resampled==0, 0], X_resampled[y_resampled==0, 1], label='Class #0', alpha=.5)
ax2.scatter(X_resampled[y_resampled==1, 0], X_resampled[y_resampled==1, 1], label='Class #1', alpha=.5,c='r')
ax2.set_title(method)
plt.figlegend((c0, c1), ('Class #0', 'Class #1'), loc='lower center', ncol=2, labelspacing=0.)
plt.tight_layout(pad=3)
return plt.show()
print(f'Original set:\n'
f'{pd.value_counts(pd.Series(y))}\n\n'
f'SMOTE:\n'
f'{pd.value_counts(pd.Series(y_resampled))}\n')
compare_plot(X, y, X_resampled, y_resampled, method='SMOTE')
Original set:
0.0 5000
1.0 50
dtype: int64
SMOTE:
0.0 5000
1.0 5000
dtype: int64
因此,SMOTE 方法完全平衡了我们的数据,现在少数类的大小与多数类相等。
我们将很快回到 SMOTE 方法的实际应用,但是现在,让我们回到原始数据并尝试检测欺诈案例。按照“老派”的方式,我们必须创建一些规则来捕捉欺诈。例如,这些规则可能涉及异常的交易地点或可疑的频繁交易。这个想法是基于普通统计定义阈值,通常基于观察的平均值,并在我们的特征上使用这些阈值来检测欺诈。
print(creditcard_data.groupby('Class').mean().round(3)[['V1', 'V3']])
V1 V3
Class
0 0.035 0.037
1 -4.985 -7.294
在我们的特殊情况下,让我们应用以下条件:V1 < -3 和 V3 < -5。然后,为了评估这种方法的性能,我们将标记的欺诈案例与实际案例进行比较:
creditcard_data['flag_as_fraud'] = np.where(np.logical_and(creditcard_data['V1']<-3, creditcard_data['V3']<-5), 1, 0)
print(pd.crosstab(creditcard_data['Class'], creditcard_data['flag_as_fraud'], rownames=['Actual Fraud'], colnames=['Flagged Fraud']))
Flagged Fraud 0 1
Actual Fraud
0 4984 16
1 28 22
应用逻辑回归
我们检测到了 50 个欺诈案例中的 22 个,但无法检测到另外 28 个,并且得到了 16 个误报。让我们看看使用机器学习技术是否能击败这些结果。
我们现在将对我们的信用卡数据实施简单的逻辑回归分类算法,以识别欺诈事件,然后在混淆矩阵上显示结果:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)
lr = LogisticRegression()
lr.fit(X_train, y_train)
predictions = lr.predict(X_test)
print(pd.crosstab(y_test, predictions, rownames=['Actual Fraud'], colnames=['Flagged Fraud']))
Flagged Fraud 0.0 1.0
Actual Fraud
0.0 1504 1
1.0 1 9
值得注意的是,这里我们在混淆矩阵中要查看的观察值较少,因为我们仅使用测试集来计算模型结果,即仅占整个数据集的 30%。
我们发现了更高比例的欺诈案件:90%(10 起中有 9 起),而之前的结果是 44%(50 起中有 22 起)。我们得到的误报也比以前少得多,所以这是一个进步。
现在,让我们回到之前讨论的类别不平衡问题,并探索我们是否可以通过将逻辑回归模型与 SMOTE 重采样方法相结合来进一步增强预测结果。为了高效地一次性完成,我们需要定义一个管道,并在我们的数据上运行它:
from imblearn.pipeline import Pipeline
# Defining which resampling method and which ML model to use in the pipeline
resampling = SMOTE()
lr = LogisticRegression()
pipeline = Pipeline([('SMOTE', resampling), ('Logistic Regression', lr)])
pipeline.fit(X_train, y_train)
predictions = pipeline.predict(X_test)
print(pd.crosstab(y_test, predictions, rownames=['Actual Fraud'], colnames=['Flagged Fraud']))
Flagged Fraud 0.0 1.0
Actual Fraud
0.0 1496 9
1.0 1 9
正如我们所看到的,在我们的案例中,SMOTE 没有带来任何改进:我们仍然捕获了 90%的欺诈事件,而且,我们的误报数量略高。这里的解释是,重采样不一定在所有情况下都能得到更好的结果。当欺诈案例在数据中非常分散时,它们的最近邻居不一定也是欺诈案例,因此使用 SMOTE 会引入偏差。
结论
作为一种可能的方法,为了增加逻辑回归模型的准确性,我们可以调整一些算法参数。也可以考虑 k 倍交叉验证,而不仅仅是将数据集分成两部分。最后,我们可以尝试一些其他的机器学习算法(例如,决策树或随机森林),看看它们是否能给出更好的结果。
如果您想了解更多关于欺诈检测模型实现的理论和技术方面的知识,您可以探索 Python 课程中的欺诈检测的资料。
当今保险业中的数据科学
如今,高绩效的保险组织正在利用数据科学在竞争激烈的环境中推进其业务。在最近的一次网络研讨会中,安联比荷卢经济联盟的区域首席数据和分析官 Sudaman Thoppan Mohanchandralal 讨论了保险领域数据科学的现状以及该行业中令人兴奋的机器学习用例。
为什么数据科学在当今的保险行业很有价值
最近,该行业的需求已经转向更加个性化的服务,而不是那些吸引大众市场的服务。麦肯锡的这份报告描述了苏达曼提到的这种转变。它解释了如何通过战略性个性化营销和服务产品与大规模消费者建立深厚的一对一关系。
个人客户可用数据的大规模增长以及机器学习和资源的进步,使得需求和关系的这些变化成为可能。在本文的中,IBM 讨论了保险公司在创建相对于吸引大众的产品的个性化服务时,如何观察到盈利时间提高了 22-25%。这些产品只能使用机器学习进行规模化开发。
保险数据科学的现状
Sudaman 在网上研讨会中解释说,当机器学习用于预测而不是因果推理时,以及当问题足够独立时,它会提供价值。截至今天,当组织试图将这些算法用作水晶球或黑盒,而不是告知人类探索方向的工具时,机器学习失败了。以下是网上研讨会中涉及的一些使用案例:
1.保险索赔中的欺诈检测
机器学习在有大量数据的预测任务上表现非常好。因此,欺诈检测是训练和部署逻辑回归或决策树等分类算法的绝佳用例。这个系统可以用来标记看起来可疑的索赔。这使得欺诈预防对分析师来说变得更加易于管理,因为它将通过暴露最有可能是欺诈的索赔来增强他们的工作流程。
2.为保留活动识别客户
提高任何组织规模的另一个重要用例是提高客户保持率。机器学习可以帮助识别哪些客户有离开您组织的风险。从长远来看,大规模识别这些客户并为他们留下来提供激励将带来更好的客户终身价值,从而实现更深层次的个性化。
3.利用时间序列数据优化定价(风险溢价建模)
了解客户提出索赔的风险对于确定正确的价格和提供索赔的计划结构至关重要。所有的保险公司都在某种程度上这样做。随着可用数据的扩展,可以提高确定客户风险状况的模型准确性,从而为个人提供更具竞争力的价格。
4.未来疾病预测
与前面的用例类似,了解未来的疾病风险在投资组合优化和定价中至关重要。讨论保险业将如何支付超过 1000 亿美元的 COVID 相关索赔。虽然提前预测疫情具有挑战性,但了解和预测健康结果将使保险公司能够优先考虑和个性化他们的服务。
5.投资组合优化
我们将讨论的最后一个用例是投资组合优化。投资组合管理由几个步骤组成:识别要分析的有意义的风险分组,通知最优决策,以及识别机会。这些子任务都可以通过数据科学优化技术解决。
如果您想了解更多关于保险数据科学的未来,请点击此处收听网络研讨会。
营销中的数据科学:客户流失率预测
介绍
在过去的 10-15 年里,随着数字技术的进步,营销策略发生了很大的变化。知名品牌和较小的市场已经收集了大量关于交易、客户购买、偏好、购买力、购买活动、人口统计、评论等的数据。所有这些数据都可以帮助营销人员了解客户在不同阶段的行为,从购买意图到真正购买并成为固定客户。这就是数据科学发挥潜力的地方。
数据科学将营销大数据转化为可操作的见解,即使有时乍一看不太直观,例如,一些不明显的消费者行为模式和共现现象。因此,营销人员可以更清楚地了解他们的目标受众,吸引新客户并留住现有客户,优化他们的营销策略,提高公司的知名度,创建更成功的广告活动,涉及新的渠道,并反过来使公司的收入最大化。
营销中最典型的数据科学用例之一是客户流失率预测。让我们更详细地讨论这个话题。
营销中的数据科学用例:客户流失率预测
客户流失是指客户取消他们一直在使用的服务的订阅,并因此不再是该服务的客户。客户流失率是在预定义的时间间隔内流失客户的百分比。这与追踪新客户的客户增长率相反。
客户流失率是客户满意度和公司整体业务健康的一个非常重要的指标。除了在任何业务中都会发生的自然流失,或者某些服务的典型季节性流失,还有其他因素可能意味着公司出现了问题,应该加以解决。这些因素是:
- 缺乏或低质量的客户支持,
- 负面的客户体验,
- 转向条件或价格策略更好的竞争对手,
- 顾客的优先考虑改变了,
- 长期客户不会感到满意,
- 服务没有达到顾客的期望,
- 财务问题,
- 对客户付款的欺诈保护。
高客户流失率对任何公司来说都是一个严重的问题,原因如下:
- 它与公司的收入损失相关。
- 获得新客户比留住现有客户要花费更多的钱。对于竞争激烈的市场来说尤其如此。
- 在因为糟糕的客户服务而导致客户流失的情况下,公司的声誉可能会因为不满意的前客户在社交媒体或评论网站上留下的负面评论而严重受损。
对于所有基于订阅的服务来说,客户维系是业务战略的一个重要组成部分。为了预测客户流失率并采取相应的预防措施,有必要收集和分析有关客户行为的信息(购买间隔、成为客户的总时间、取消、后续电话和信息、在线活动),并找出哪些属性及其组合是有离开风险的客户的特征。提前知道哪些客户可能会很快流失,尤其是在高收入或长期客户的情况下,可以帮助公司准确地关注他们,并制定有效的策略来试图说服他们留下来。该方法可以包括给这样的客户打电话,提供礼物、折扣、相同价格的订购升级或任何其他定制的体验。
从技术上讲,客户流失预测是一个典型的机器学习分类问题,当客户根据是否有流失风险被标记为“是”或“否”时。让我们在真实世界的数据上研究一下 Python 中的这个用例。
我们将在电信业务模型中对客户流失进行建模,在这种模型中,客户可以在一个主协议下拥有一家电信公司的多种服务。该数据集包含已清理客户活动的特征和指定客户是否流失的流失标签。
让我们来看看数据,探索流失率分布:
import pandas as pd
telcom = pd.read_csv('telco.csv')
print(f'Number of customers: {telcom.shape[0]:,}\n'
f'Churn values: {set(telcom['Churn'])}\n\n'
f'Churn distribution, %:\n{round(telcom.groupby(['Churn']).size()/telcom.shape[0]*100).convert_dtypes()}')
Number of customers: 7,032
Churn values: {0, 1}
Churn distribution, %:
Churn
0 73
1 27
dtype: float64
27%的客户翻盘,这是一个相当高的比率。但是,与之前的数据科学用例相比,这个数据集似乎没有严重的类别不平衡问题。
现在,我们将对数据进行预处理,以便进一步应用机器学习技术来执行流失预测。这包括将数据分成训练集和测试集,并提取特征和目标变量:
from sklearn.model_selection import train_test_split
target = ['Churn']
custid = ['customerID']
cols = [col for col in telcom.columns if col not in custid + target]
X = telcom[cols]
y = telcom[target]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25)
我们将用于预测流失标签和估计结果准确性的第一个建模算法是一个简单的逻辑回归分类模型:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
lr = LogisticRegression()
lr.fit(X_train, y_train)
predictions = lr.predict(X_test)
print(f'Test accuracy: {round(accuracy_score(y_test, predictions), 4)}')
Test accuracy: 0.8009
接下来,让我们向我们的逻辑回归模型添加一个功能,即在 L1 正则化的缩放数据上运行它,以在模型构建的同时执行特征选择。C 参数(正则化强度的倒数)的不同值对模型精度有影响。现在,让我们将 C 值设置为 0.025:
lr = LogisticRegression(penalty='l1', C=0.025, solver='liblinear')
lr.fit(X_train, y_train)
predictions = lr.predict(X_test)
print(f'Test accuracy: {round(accuracy_score(y_test, predictions), 4)}')
Test accuracy: 0.7969
现在,我们将调整 L1 正则化的 C 参数,以发现降低模型复杂性的最佳值,同时保持良好的模型性能指标。为此,我们将遍历不同的 C 值,在每个值上构建逻辑回归实例,并计算性能指标。
列表 C 是预先用参数的可能值创建的。l1_metrics 数组由 3 列组成,第一列是 C 值,接下来的两列是非零系数计数和模型精确度分数的占位符。让我们试试这种方法:
C Non-Zero Coeffs Accuracy
0 1.0000 23.0 0.801479
1 0.5000 22.0 0.799204
2 0.2500 21.0 0.802048
3 0.1000 20.0 0.802617
4 0.0500 18.0 0.802048
5 0.0250 13.0 0.796928
6 0.0100 5.0 0.790102
7 0.0050 3.0 0.783276
8 0.0025 2.0 0.745734
我们可以看到,较低的 C 值减少了非零系数(即,用于建模的特征)的数量,从而降低了模型的复杂性,但是它们也降低了模型的准确性。似乎 0.05 的 C 值是最佳值:它将特征的数量减少到 18 个,同时给出比非正则化模型中略高的准确度分数。
现在,让我们尝试另一种建模算法—决策树模型:
from sklearn.tree import DecisionTreeClassifier
clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)
predictions = clf.predict(X_test)
print(f'Test accuracy: {round(accuracy_score(y_test, predictions), 4)}')
Test accuracy: 0.7275
为了选择更精确的模型,同时避免过度拟合,我们可以尝试调整树深度(max_depth 参数)并确定其最佳值。从技术上讲,这个过程与上面选择逻辑回归模型的最佳 C 参数的过程非常相似:在这里,我们将遍历 max_depth 参数的多个值,为每个值拟合一个决策树,然后计算性能指标。
已经预先用参数的可能值创建了列表 depth_list。depth_tuning 数组由两列组成,第一列填充深度候选值,另一列是准确度分数的占位符。让我们应用这种方法,找到最佳树深度:
depth_list = list(range(2, 15))
depth_tuning = np.zeros((len(depth_list), 2))
depth_tuning[:, 0] = depth_list
for index in range(len(depth_list)):
clf = DecisionTreeClassifier(max_depth=depth_list[index])
clf.fit(X_train, y_train)
predictions = clf.predict(X_test)
depth_tuning[index, 1] = accuracy_score(y_test, predictions)
col_names = ['Max_Depth', 'Accuracy']
print(pd.DataFrame(depth_tuning, columns=col_names))
Max_Depth Accuracy
0 2.0 0.756542
1 3.0 0.783276
2 4.0 0.782708
3 5.0 0.791809
4 6.0 0.778157
5 7.0 0.780432
6 8.0 0.757110
7 9.0 0.762230
8 10.0 0.763936
9 11.0 0.752560
10 12.0 0.745165
11 13.0 0.732651
12 14.0 0.727531
因此,准确度分数首先随着深度增加而增加,然后开始下降。在 max_depth 为 5 时,树显示最高的准确度分数,因此我们可以将该值视为最佳树深度。
在确定逻辑回归和决策树模型的最佳参数值后,让我们重新构建这些模型,然后检测和解释推动客户流失上升或下降的主要因素。
对于逻辑回归模型,我们将提取并研究结果系数的指数:
# Reconstructing the best model
lr = LogisticRegression(penalty='l1', C=0.05, solver='liblinear')
lr.fit(X_train, y_train)
predictions = lr.predict(X_test)
# Combining feature names and coefficients into one dataframe
feature_names = pd.DataFrame(X_train.columns, columns=['Feature'])
log_coef = pd.DataFrame(np.transpose(lr.coef_), columns=['Coefficient'])
coefficients = pd.concat([feature_names, log_coef], axis=1)
# Calculating exponents of the coefficients
coefficients['Exp_Coefficient'] = np.exp(coefficients['Coefficient'])
# Removing coefficients that are equal to zero
coefficients = coefficients[coefficients['Coefficient']!=0]
print(coefficients.sort_values(by=['Exp_Coefficient']))
Feature Coefficient Exp_Coefficient
21 tenure -0.907750 0.403431
4 PhoneService_Yes -0.820517 0.440204
17 Contract_Two year -0.595271 0.551413
8 TechSupport_Yes -0.418254 0.658195
16 Contract_One year -0.414158 0.660896
5 OnlineSecurity_Yes -0.412228 0.662173
6 OnlineBackup_Yes -0.143100 0.866667
3 Dependents_Yes -0.039299 0.961463
7 DeviceProtection_Yes -0.017465 0.982687
11 PaperlessBilling_Yes 0.071389 1.073999
1 SeniorCitizen_Yes 0.097904 1.102857
19 PaymentMethod_Electronic check 0.188533 1.207477
22 MonthlyCharges 0.901454 2.463182
我们可以看到,对变动几率影响最大的特征是任期。一般来说,系数指数低于 1 会降低赔率,而高于 1 会增加赔率。
对于决策树模型,我们将提取并绘制 if-else 规则:
# Reconstructing the best model
clf = DecisionTreeClassifier(max_depth=5)
clf.fit(X_train, y_train)
predictions = clf.predict(X_test)
from sklearn import tree
import graphviz
# Exporting a graphviz object from the trained decision tree
exported = tree.export_graphviz(decision_tree=clf,
out_file=None,
feature_names=cols,
precision=1,
class_names=['Not churn', 'Churn'],
filled=True)
graph = graphviz.Source(exported)
display(graph)
我们获得了一个好看的决策树可视化,可以解释为一组从顶部开始的 if-else 规则。我们再次看到,客户任期是推动客户流失的最重要的变量。决策树可以构建成更多层,这将提供对其他变量的更多洞察。
作为潜在的前进方向,我们可以尝试进一步调整模型参数,使用不同的训练/测试分割方法,应用和比较其他机器学习算法,并分析各种分数类型来评估模型性能。
如果你想更深入地研究客户流失率预测和数据科学在营销中的其他应用,这门关于用 Python 进行营销的机器学习的课程可能是一个很好的起点。
销售中的数据科学:客户情绪分析
数据科学用例几乎可以与任何积累了大量数据的行业相关。商店和电子商务网站是被营销活动吸引的人们的真实客户体验发生的地方,也是收集特定品牌或公司的有价值的购买数据的地方。在这里,人们做出最终决定,他们是否真的想购买某种产品,他们是否有兴趣购买他们之前没有计划的其他东西,他们准备支付多少钱,他们是否会回到这家商店,以及他们会留下什么关于他们的客户体验的评论。
事实上,客户评论构成了分析和理解在整个销售过程中可以改变或加强的数据的坚实来源。以这种方式分析数据可以降低成本、提高运营效率、改善客户体验、发现新机会、发展业务并最终增加收入。让我们仔细看看如何使用数据科学算法对这些宝贵的信息进行分析和建模,以获得隐藏的见解,并从每个客户那里捕捉整体信息。
销售中的数据科学用例:分析客户情绪
客户情感分析是在客户使用某家公司的服务或产品时,识别客户情感的自动化过程。这通常是从在线调查、社交媒体、支持票、反馈表、产品评论、论坛、电话、电子邮件和聊天机器人中收集的非结构化文本数据。在机器学习中,客户情绪分析是通过自然语言处理(NLP)进行的,NLP 应用统计和语言方法直接从文本数据中提取积极、消极和中性的情绪。本质上,它输出两个参数:
- 极性:表明一种情绪是积极的还是消极的。
- 数量:表明该情绪的强度。
客户情绪分析是任何现代企业的一个关键工具,因为它有助于获得可操作的见解,发现并解决让客户感到不愉快的关键重复问题,强化导致客户积极情绪的产品或服务功能,并在整体上做出更有效的数据驱动型决策。在更精细的层面上,客户情绪分析使我们能够:
- 改善客户服务,从而改善客户体验,
- 提高客户忠诚度,
- 降低流失率,
- 及时升级产品和服务,
- 优化营销活动,
- 预测新的趋势和市场,
- 维护我们公司的高声誉,
- 增加利润。
与任何文本分析任务一样,在进行客户情感分析时会遇到一些陷阱。例如,NLP 算法没有捕捉到一些评论中的讽刺,并将它们错误地分类。它有时也无法破译非常具体的缩写或很少使用的俚语。
准备数据集
让我们使用 IMDB 电影评论数据集来探索客户情绪分析在实践中是如何工作的:
import pandas as pd
movies = pd.read_csv('movies.csv', index_col=0).reset_index(drop=True)
print(f'Number of reviews: {movies.shape[0]:,}\n')
print(movies.head())
Number of reviews: 7,501
review label
0 This short spoof can be found on Elite's Mille... 0
1 A singularly unfunny musical comedy that artif... 0
2 An excellent series, masterfully acted and dir... 1
3 The master of movie spectacle Cecil B. De Mill... 1
4 I was gifted with this movie as it had such a ... 0
我们有两列:一列是每个评论的文本,另一列是对整体情绪的估计:正面(1)或负面(0)。
让我们来计算正面和负面评论的百分比:
round(movies['label'].value_counts()*100/len(movies['label'])).convert_dtypes()
0 50
1 50
Name: label, dtype: Int64
因此,我们有几乎相等比例的正面和负面评论。
运用弓法
我们的下一步将是将文本数据转换为数字形式,因为机器学习模型只能处理数字特征。特别是,我们将创建计算每个单词在各自的评论中出现的次数的功能。用于此目的的最基本和最直接的方法被称为词袋(BOW ),它建立文档中出现的所有词的词汇表,并统计每个词在每个评论中的频率。因此,我们将获得新的特征,每个单词一个,具有相应的频率。
让我们将 BOW 方法应用于我们的数据集:
from sklearn.feature_extraction.text import CountVectorizer
# Creating new features
vect = CountVectorizer(max_features=200)
vect.fit(movies.review)
X_review = vect.transform(movies.review)
X_df = pd.DataFrame(X_review.toarray(), columns=vect.get_feature_names())
# Combining the new features with the label
movies_bow = pd.concat([movies['label'], X_df], axis=1)
print(movies_bow.head())
label 10 about acting action actors actually after again all ... \
0 0 0 0 0 0 0 0 0 0 0 ...
1 0 1 0 1 0 1 0 0 0 3 ...
2 1 0 0 0 0 0 0 1 0 0 ...
3 1 0 0 0 1 0 0 0 0 0 ...
4 0 1 0 0 1 0 0 0 0 3 ...
will with without work world would years you young your
0 0 1 0 0 0 1 0 0 0 0
1 2 7 1 0 0 2 0 3 0 2
2 0 2 0 0 0 0 0 0 1 0
3 0 0 0 0 0 0 0 1 1 0
4 0 2 0 1 0 0 0 0 0 0
[5 rows x 201 columns]
上面,我们应用了一个可选参数 max_features,只考虑 200 个最常用的单词,避免潜在的模型过拟合。
使用监督机器学习模型来预测情感
现在,我们将使用监督机器学习模型来预测情绪。因为我们想要基于已经标记的评论来估计来自新评论的情感是属于积极的还是消极的类别,所以我们不得不再次处理分类问题。同样,让我们使用逻辑回归算法并测量模型准确性:
Accuracy score: 0.754
Confusion matrix:
[[37.62772101 13.23856064]
[11.32829853 37.80541981]]
我们看到,该模型将所有积极的评论中的 11%标记为消极的,将 13%标记为积极的,尽管它们是消极的。作为提高模型准确性的可能方法,我们可以考虑排除停用词(即,出现太频繁的低信息量词,例如“about”、“will”、“you”等)。)和增加词汇量。
当我们应用 BOW 方法时,我们可能会在我们的数据框架中有数百甚至数千个新特征。这会导致创建一个过于复杂的模型:过度拟合,有太多不必要的特征和参数。解决这个问题的一个方法是使用正则化,正则化会限制模型的功能。这里要调整的参数是 C,代表正则化的强度。让我们测试这个参数的两个值:100 和 0.1,看看哪一个在测试数据上给我们最好的模型性能:
lr_1 = LogisticRegression(C=100)
lr_1.fit(X_train, y_train)
predictions_1 = lr_1.predict(X_test)
lr_2 = LogisticRegression(C=0.1)
lr_2.fit(X_train, y_train)
predictions_2 = lr_2.predict(X_test)
print(f'Accuracy score, lr_1 model: {round(accuracy_score(y_test, predictions_1), 3)}\n'
f'Accuracy score, lr_2 model: {round(accuracy_score(y_test, predictions_2), 3)}\n\n'
f'Confusion matrix for lr_1 model, %:\n{confusion_matrix(y_test, predictions_1)/len(y_test)*100}\n\n'
f'Confusion matrix for lr_2 model, %:\n{confusion_matrix(y_test, predictions_2)/len(y_test)*100}')
Accuracy score, lr_1 model: 0.753
Accuracy score, lr_2 model: 0.756
Confusion matrix for lr_1 model, %:
[[37.53887161 13.32741004]
[11.32829853 37.80541981]]
Confusion matrix for lr_2 model, %:
[[37.67214571 13.19413594]
[11.19502443 37.93869391]]
当使用参数 C 的选定值时,模型精度的差异是不明显的。通过进一步试验这个参数的更多值,我们可能会找到一个更能提高模型性能的参数。然而,这里我们只有 200 个新特征,所以我们的模型并不复杂,正则化步骤在我们的例子中并不真正需要。
可以使用 predict_proba 来预测情感概率,而不是使用 predict 函数来预测标签 0 或 1。这里,我们必须记住,我们不能直接将准确度分数或混淆矩阵应用于预测的概率,因为这些度量标准只对类有效。因此,我们需要将它们进一步编码为类。默认情况下,大于或等于 0.5 的概率转换为 1 类,否则转换为 0 类。
lr = LogisticRegression()
lr.fit(X_train, y_train)
# Predicting the probability of the 0 class
predictions_prob_0 = lr.predict_proba(X_test)[:, 0]
# Predicting the probability of the 1 class
predictions_prob_1 = lr.predict_proba(X_test)[:, 1]
print(f'First 10 predicted probabilities of class 0: {predictions_prob_0[:10].round(3)}\n'
f'First 10 predicted probabilities of class 1: {predictions_prob_1[:10].round(3)}')
First 10 predicted probabilities of class 0: [0.246 0.143 0.123 0.708 0.001 0.828 0.204 0.531 0.121 0.515]
First 10 predicted probabilities of class 1: [0.754 0.857 0.877 0.292 0.999 0.172 0.796 0.469 0.879 0.485]
结论
还有许多其他有用的方法可以应用于我们的数据集,以进行更精细的情感分析:
- 使用 n 元语法(单词的组合)而不仅仅是单个单词来保留上下文,
- 排除停用词,
- 基于较高或较低频率值限制词汇的大小,
- 创建描述每个评论的长度或标点符号数量的数字额外特征(后者有时可以与情感的大小相关联),
- 排除数字,某些字符,一定长度的单词,或者考虑更复杂的单词模式,
- 应用词干化和词汇化,即将单词简化到它们的词根,
- 使用更复杂的方法而不是 BOW 来创建词汇表,例如 TfIdf(术语频率逆文档频率),其说明一个单词相对于其余评论在评论中出现的频率。
- 使用一些专门为情感分析设计的库,如 TextBlob、SentiWordNet、VADER(价感知词典和情感推理器)。
如果你有兴趣探索这些和其他有用的技术来进行深刻的情感分析,请查看 Python 中的情感分析课程。
“数据科学家”头衔之外的数据科学角色
2011 年,《哈佛商业评论》称数据科学为“21 世纪最性感的工作”。此后,对数据科学的需求不断增长。《财富》报道称,自 2016 年以来,数据科学家的职位空缺增加了 480%。这种增长如此巨大,以至于到 2020 年仍然缺少 25 万名数据科学专业人员。
不幸的是,那些渴望在数据科学中发挥作用的人可能会发现自己受到了打击。浏览一下数据科学的工作描述就会发现一系列令人生畏的技能。数据科学职位的激烈竞争也让一些申请者被他们梦想的工作拒绝。
然而,许多人没有意识到数据科学家的职业轨迹可能是非线性的。没有“数据科学家”头衔的工作也能让一个人具备宝贵的数据科学技能!这些技能包括统计学、数据处理、机器学习、编程、商业敏锐度和讲故事的技能——所有这些对于数据科学家来说都是必不可少的。
这里有几个角色可以成为你成为数据科学家的垫脚石。这些技术性和非技术性的角色可以帮助你打入这个行业。
非技术数据角色
数据/分析翻译
被麦肯锡称为“新的必备角色”的分析翻译器帮助企业领导人优先考虑他们的业务问题,然后将这些业务目标传达给数据专业人员。分析翻译得到业务领导的认可,并确保数据团队构建的解决方案产生商业价值。
“你不断打破技术概念,让每个人都说同一种语言,”Fortive 的技术分析师 Gruschow 说,她描述她的角色。根据麦肯锡的说法,一个优秀的分析翻译候选人应该具有企业家精神、良好的项目管理技能和一般的技术流利性(尽管编程专业知识是可选的)。如果你有这些技能,分析翻译的角色可能会适合你。
数据科学产品经理
数据科学产品经理(PM)拥有数据科学产品从概念化到发布的路线图。他们与业务团队合作,确定数据科学如何解决业务难题。然后,项目经理与数据专业人员和开发人员密切合作,制定产品需求,监督产品开发,并定义成功标准。
一个产品经理经常与各种各样的利益相关者沟通(来源 )
每个公司都有自己独特的数据科学产品。商业智能公司的数据科学产品经理可能监督数据可视化工具的开发,而流媒体公司的另一位产品经理可能拥有应用内推荐功能的路线图。那些对利益相关者管理有诀窍并且对数据科学有广泛理解的人适合这个角色。
数据战略顾问
数据策略顾问设计、构建和实施提高业务绩效的数据策略。顾问与企业领导者合作,评估公司的数据能力,并为数据驱动型组织提出路线图。
一名顾问确定了公司如何利用数据技术来解决他们的问题。根据公司的成熟程度,战略可能会有所不同。对于一个年轻的组织,顾问可能会建议实施数据管理和治理工具。对于成熟的组织,顾问可能会建议使用创新的云解决方案。那些有咨询背景的人可能会觉得这个职位很有吸引力。最重要的是,那些对各种数据框架(如数据治理、数据管理、商业智能、高级分析、机器学习和云平台)有一些实际知识的人被认为非常适合这个角色。
技术项目经理
技术项目经理计划、组织和指导技术数据科学项目。项目经理管理项目可用的资源,确保项目在预算范围内按时交付。
当项目经理从概念到启动监督一个项目时,他们的角色相当多样化。他们计划项目大纲,安排项目任务,评估项目阶段,与利益相关者沟通,并管理产品愿景。为了管理跨职能的项目团队,他们使用像 Scrum 和 Agile 这样的开发方法。
敏捷方法论(来源 )
技术项目的角色适合那些有管理经验的人。拥有数据科学、软件工程或 UI/UX 技术背景的候选人很可能在获得技术项目经理的职位方面具有优势。
技术作家
随着数据科学产品数量和规模的增长,对技术文档的需求也在增长。正确而简洁的文档是开发人员向最终用户传达指令的最佳方式之一。
Twilio 的技术文件示例(来源 )
技术作家通过提供入门指南、深入的产品文档和关于技术产品的 API 参考资料来填补这一空白。他们还与开发工程师、产品经理和项目经理密切合作来设计文档。技术作者应该有技术背景,这样他们就可以很容易地与技术团队互动。如果你对技术写作感兴趣,在开始找工作之前,你可能想在你的文件夹中包含份你的技术写作样本。
技术数据角色
商业智能分析师
商业智能分析师使用数据分析和可视化来帮助组织做出数据驱动的业务决策。商业智能分析师的日常工作包括解释关键数据以获得洞察力。为了传达这些见解,BI 分析师以仪表板或演示幻灯片的形式维护指标和可视化。因此,BI 分析师精通数据库工具(SQL)、商业智能工具(如 Tableau)和电子表格工具(如 Excel)。
BI 分析师的一个令人兴奋的项目是自动化现有的报告流程。例如,HelloFresh 的 BI 分析师通过创建实时仪表板消除了手动数据报告的需要。然后,营销团队利用这些报告优化营销活动,进而提高客户保留率。
power bi 仪表板示例
数据分析师
数据分析师与 BI 分析师有许多相似之处。像 BI 分析师一样,数据分析师负责提供准确的业务指标,并为业务利益相关者提取可操作的见解,以做出数据驱动的决策。
在一些公司,数据分析师可能会参与高级分析项目。此类项目可能需要数据分析师与产品、业务和工程团队合作,以推动关键的业务决策。例如,数据分析师的任务可能是创建一个客户细分,这可以用来制定特定于细分的策略。
数据分析师可以执行客户细分( 来源 )
根据工作范围的不同,数据分析师可能不仅需要了解 SQL、BI 工具和电子表格工具,还需要了解编程语言(如 Python 或 R)。在从事高级分析项目时,扎实的统计知识也将有助于数据分析师。
市场部分析师
营销运营分析师实施营销流程并分析营销绩效。此类流程可以包括使用 CRM 软件的销售线索管理和客户参与。营销分析师分析客户和供应商数据,以发现机会并优化营销流程。例如,分析师可能会进行漏斗分析,以找到客户转化过程中最薄弱的环节。
漏斗分析示例(来源: Clevertap )
此外,营销运营分析师可以执行假设测试来优化营销绩效。通过适当的 A/B 测试,分析师可能会发现电子邮件标题中的表情符号会显著提高年轻受众的点击率。这个角色对于那些擅长营销的人来说是一个很好的敲门砖。它也是应届毕业生的理想选择,因为 NCSU 报告称,高达 45%的营销运营分析师职位要求不到两年的工作经验,80%的职位要求学士学位。
金融分析师
财务分析师检查财务数据,识别投资机会,并评估业务建议的结果。具体来说,他们分析宏观经济因素、微观经济条件和公司基本面之间的相互作用。金融数字是金融分析师的饭碗。为了评估一家公司的健康状况,他们会检查毛利率、净利润率、增长率、股本回报率和每股收益等指标。
分析师还使用统计方法(如回归分析)和高级财务模型(如贴现现金流分析)对公司的未来业绩和价值进行预测。
财务分析师执行的简单回归分析示例(来源 )
据 Investopedia 称,拥有学士学位(最好是会计、经济学、金融或统计学)或 MBA 学位的人很有可能成为金融分析师。
机器学习工程师
根据 LinkedIn 的数据,MLE 是 2022 年增长最快的 25 个职位之一。MLEs 设计、构建和生产机器学习模型。因此,他们精通设计模型架构,编排机器学习管道,以及监控生产中的 ML 解决方案。
例如,在打车公司工作的 MLE 可能会监控其生产匹配人工智能将司机与骑手匹配起来所用的时间。MLE 与数据科学家合作,确保时间不超过预定义的阈值。MLE 角色适合那些具有强大编程能力的人,比如软件工程师或数据工程师。MLEs 还应该有很强的数学和统计学基础,对机器学习模型有很扎实的理解。
打造您的数据职业生涯
专注于数据科学家这一角色的热切求职者可能会在求职过程中忽略这些头衔。我们的建议?如果你能在工作中学习数据科学技能,不要害怕追求数据科学家以外的职位。正如史蒂夫·乔布斯优雅地说的,“你不能向前看把点点滴滴连接起来…所以你必须相信这些点点滴滴会在你的未来以某种方式连接起来。”
本文最初发布在 DataCamp 认证社区上,这是一个专为所有成功完成 DataCamp 认证的学员提供的平台。要访问该社区以获取更多有助于您站在数据行业前沿的内容, 立即获得认证 !
Raven is DataCamp’s Certified Community Manager. As a trained anthropologist and a lover of people, Raven believes in the power of coming together to foster connections, learning, growth, and belonging.
2022 年数据科学薪资预期
原文:https://web.archive.org/web/20221129041532/https://www.datacamp.com/blog/data-science-salaries
在寻找新的工作机会时,薪资预期始终是一个关键因素,如果你正在考虑进入数据科学领域,这里有一个好消息:数据科学家以及其他与数据相关的工作在科技行业中拥有最高的薪资。
根据 2020 LinkedIn 美国新兴工作报告,数据科学近年来经历了大规模的持续增长。几乎在每个行业,组织都在争夺数据科学专业人员,以利用他们的数据并推动明智的业务决策。然而,由于数据专业人员的供应尚未赶上需求,与其他科技行业相比,公司之间在招聘这些专业人员方面的竞争非常激烈。因此,雇主愿意向有才华的数据科学家支付高薪。
尽管这一领域正在经历有利可图的蜜月期,但值得注意的是,数据科学专业人员的薪酬差异很大。雇主在决定支付多少薪酬时会考虑几个因素,包括经验、技能、职称或公司规模。
在本文中,我们将提供 2022 年数据科学薪酬的概述。我们将根据几个工作门户网站(如 Glassdoor 和 PayScale)的数据、美国劳工统计局的公开数据以及工作调查(如 O'Reilly Data Science 薪资调查)来研究影响薪资的不同标准。为了缩小我们的主题,我们将只关注美国的薪酬状况。
数据科学经验工资
一个数据科学家平均收入多少?根据 Glassdoor 的数据,美国数据科学家的平均基本工资是每年 117,212 美元。这一估计的可信度很高,因为它是根据 18,000 份薪金样本计算的。
来源:Glassdoor
从 PayScale 的数据来看,这个数字有点低,根据 7280 份薪资档案,这个数字给出的平均年薪估计为 97318 美元。
资料来源:薪级表
但是,一个数据科学家的平均工资是随着经验的高低而变化的。根据 PayScale 的报道,如果你是一名有抱负的数据科学家,正在寻找你在该领域的第一份工作,你可以期望平均工资为 85,000 美元。另一方面,具有 1-4 年经验的数据科学家可以期望获得 9.6 万美元的总薪酬,而 5-9 年的经验意味着平均薪酬在 11.1 万美元左右。工资只会随着资历的增加而增加。例如,拥有 20 多年经验的数据科学家的平均工资可以达到每年 13.6 万美元。
资料来源:薪级表
工资中位数随着经验水平的变化而变化,这并不奇怪。根据 PayScale 的报告,一名初级数据科学家(经验不足一年)的平均工资为 85,096 美元。另一方面,拥有 1-4 年经验的数据科学家可以预期总薪酬中位数为 95,067 美元,而 5-9 年的经验意味着收入为 109,743 美元。然而,高级数据科学家的平均年薪超过 121,759 美元。
这些估计与 O'Reilly 2021 数据/人工智能薪酬调查的结果一致,该调查估计,数据科学/人工智能领域过去三年的平均薪酬变化为 9252 美元,相当于每年增长 2.25%。
按职位分类的数据科学工资
数据专业人员是一个包含多个角色的称谓,包括数据科学家、数据工程师、数据分析师和机器学习工程师。这些专业人士的职责、资格以及最终的薪水差别很大。一般来说,数据科学专业人员承担的管理责任越多(例如,领导团队项目和直接与客户沟通),薪酬就越高。
根据 Glassdoor 的数据,以下是数据科学专业人士的薪资范围和平均值列表,按平均薪资排序:
-
数据科学经理。她有一个涉及决策的管理角色。她负责项目运营,充当分析师、科学家和数据架构师团队与客户之间的中间人。她也了解这项技术,尽管她并不负责这项技术的开发。平均薪资:16.1 万美元。薪资范围:11.3 万美元至 23 万美元。
-
机器学习工程师。机器学习工程师是高度熟练的程序员,他们开发使用大型数据集来研究、开发和生成可以学习和进行预测的算法的模型。这是数据科学中最复杂、最赚钱的职业之一。首先,我们强烈建议注册我们的机器学习科学家 Python 职业跟踪。平均薪资:13.1 万美元。薪资范围:88K-195K 美元。
-
数据科学家。数据科学家研究、提取并报告数据中有意义的见解。为此,数据科学家使用计算机和编程语言来处理所有信息,进行复杂的计算,创建有用的数据可视化,并获得结果。你想成为一名数据科学家吗?Datacamp 有很好的职业道路成为其中之一,无论是与 Python 还是 R 。平均薪资:11.7 万美元。薪资范围:82K-167 美元。
-
数据工程师。数据工程师负责为组织中数据的获取、存储、转换和管理奠定基础。这是数据科学领域最受欢迎的职业之一。平均薪资:11.2 万美元。薪资范围:7.6 万美元到 16.6 万美元。
-
云工程师。云工程师是处理云相关工作的数据专家。通常,这包括云系统的管理、规划、架构和监控。越来越多的公司转向云服务。如果你想开始学习这个备受追捧的学科,我们的课程了解云计算是一个很好的起点。平均薪资:11.1 万美元。薪资范围:7.3 万美元至 16.9 万美元。
-
数据分析师。他们负责处理公司已经拥有的数据。他们的常规任务之一是使用数据库制作报告和仪表板。如果你对成为数据分析师感兴趣,请查看我们的数据分析师 Python 职业轨迹。平均工资:7 万美元。薪资范围:46K-106K 美元。
-
数据管家。该专家负责确保数据的质量、安全性和可用性。数据管家是管理和监控组织的数据资产的关键角色,有助于为业务人员提供可访问性高的高质量数据。平均工资:6.5 万美元。薪资范围:37K-112K 美元。
按公司规模划分的数据科学薪酬
公司的规模是影响数据科学薪酬的另一个相关因素:一般来说,组织越大,薪酬越高。 O'Reilly 2016 年薪资数据科学薪资报告阐明了这一因素。
根据他们的出版物,在员工超过 1,000 人的公司工作的数据科学家的工资中位数在 9 万美元到 11 万美元之间,而在中型公司(26 到 1,000 名成员)工作的数据专业人员的工资中位数在 8 万美元左右。在小公司和创业公司(2-25 名成员)工作的员工往往具有较低的中位数工资,约为 6 万美元。
来源:奥莱利
自由职业者的数据科学薪水
随着在家工作的好处越来越多,越来越多的人想知道现在是否是尝试自由职业的合适时机。数据专业人员也不例外。最近几个月,在流行的自由职业者平台上,如 Upwork ,数据科学工作的数量激增。
如果你正在考虑这个选择,你可能想知道自由数据科学家赚多少钱。据 Glassdoor 报道,他们在美国的平均工资是 122778 美元。但是,没有足够的数据来显示一个工资范围。
无论如何,很难提供一个明确的估计,因为自由职业数据科学家的收入高度依赖于他们的技能、经验和评论等因素。因此,初级和高级数据科学家之间的工资差距非常大。例如,这项基于 Upwork 数据的研究显示,一名新手自由职业数据科学家每小时收费 50 美元,而一名经验丰富的数据科学家每小时收费高达 150-200 美元。
各行业的数据科学薪酬
几乎每个行业都需要数据科学家,但有些人有更大的需求,并愿意提供更有吸引力的薪水。同样,O'Reilly 2021 数据/人工智能薪资调查是比较各行业薪资的有用资源。
总体而言,在计算机行业工作的数据专业人员,如计算机硬件、云服务、网络安全或软件开发,报告的平均薪酬最高,从 171,000 美元(计算机硬件)到 164,000 美元(软件)不等。尽管如此,该数据还显示,除计算机行业外,包括银行、零售、时尚和保险在内的其他行业的薪酬极具竞争力(超过 10 万美元)。此图与美国劳工统计局发布的最新职业数据一致。
来源:奥莱利
数据科学技能工资
数据科学是一个快速发展的领域。新技术和软件不断涌现。这使得培训不仅是赶上创新的一个重要方面,也是与更高的工资、被雇用的能力和工作保障密切相关的一个因素。
总的来说,一些罕见的、受欢迎的能力允许数据科学家大幅提高他们的工资要求。计算机编程、掌握大数据工具、云计算和数据可视化是最有价值的技能。同样,科学好奇心、商业头脑、沟通技巧和领导力等个人品质也能大幅提高薪酬。根据工资等级,你可以在下面找到影响数据科学家工资的技能列表:
资料来源:薪级表
根据 O'Reilly 2021 年数据/人工智能工资调查,云培训,尤其是亚马逊网络服务(AWS)和微软 Azure 的云培训,是与更高的工资增长最密切相关的技能。受访者提到的其他重要技能是机器学习、容器技术(如 Docker 和 Kubernetes)、MLOps 和数据科学管道工具,如 Kafka。关于编程语言,调查显示,数据科学中不太常见的语言,如 Rust、Go 或 Scale,也与高工资密切相关。
问题:未来一年,哪些技术对薪酬的影响最大?
来源:奥莱利
按地点列出的数据科学工资
数据科学的薪水也很大程度上取决于地理位置。美国劳工统计局的数据显示,美国国内的平均薪酬差别很大。
总体而言,东西海岸各州的平均工资往往较高,平均工资最高的是华盛顿(133,900 美元)、加州(133,110 美元)、特拉华州(127,810 美元)、纽约州(122,540 美元)和新泽西州(120,240 美元)。
这并不令人惊讶:引用的州与美国一些最大的科技热点地区一致,包括圣何塞(也被称为硅谷之都)、旧金山、西雅图和纽约,在这些地方,数据科学专业人员通常可以获得六位数的高薪。
资料来源:美国劳工统计局
你能做些什么来增加你的薪水
数据科学本身是一个充满活力和高度破坏性的领域。生态系统正在快速变化,新技术、工具和软件不断推出,这使得预测 10 年后的情况变得非常困难。
在这种环境下,持续培训是数据专业人员的关键不仅要跟上创新的速度,还要实现加薪或升职。事实上,学习新技能和提高旧技能被认为是晋升的最佳途径之一。此外,鉴于合格的数据科学专业人员的短缺,投资培训项目是雇主在内部发展数据科学和机器学习团队的首选和最可行的策略。
提高技能的最佳途径是什么?根据你的时间和你的公司愿意在你的教育上投资多少,你可以考虑以下选择:
-
数据科学的正式学位。参加高级教育计划,比如数据科学或相关领域的博士或硕士学位,是提升组织级别的好方法。大多数大型科技公司都鼓励员工参与这类项目。
-
数据科学平台。如果你想成为一名学科专家,提高你的编码技能,或者学习新技术,你可能正在寻找一门课程。有很多选择,包括 DataCamp。不要错过探索我们庞大的课程目录的机会,或者报名参加我们的技能课程以拓展您的专业领域。
-
数据科学认证。获得认证正成为获取或提高新数据科学技能的最常见、最快速的方式之一。认证列表正在快速增长,从一般的数据科学认证到特定于供应商和特定于技术的认证。根据 O'Reilly 2021 年数据/人工智能薪酬调查,云认证,特别是 AWS 和微软 Azure,与薪酬增长最相关。
未来趋势
数据科学生活在一个黄金时代。各行各业的公司都迫切需要能够利用数据的力量来推动明智决策的数据专业人士。根据 LinkedIn 2021 年关于就业增长的报告,2019 年至 2020 年期间,数据科学家和机器学习职位的招聘分别增长了 46%和 32%。
然而,数据专业人员的供应尚未赶上需求。合格数据科学家的短缺转化为公司之间的激烈竞争,这些公司提供极具竞争力的薪酬来获得难以聘用的人才。
在未来我们能期待什么?最有可能的是,在 10 年后,对数据专业人员的需求将显著增加。这一预测的一个重要因素是新冠肺炎疫情,它加速了各个行业和国家的企业数字化转型。这意味着现在每个公司都有在线业务,每个公司都需要一名熟练的数据专家来帮助他们存储和处理数据,以便做出明智的决策。随着增长步入正轨,具备适当技能和能力的数据科学家很容易在未来几年获得六位数的薪水。
结论
我们希望你喜欢这篇文章。数据科学正在蓬勃发展,对于那些有兴趣进入该领域的人来说,机会很多,利润也很高。如果您正在考虑在激动人心的数据世界中开始新的冒险,Datacamp 是开始的最佳地方。查看我们的数据科学课程目录,立即开始您的学习之旅。
数据科学使用案例指南
数据科学:定义和实际应用
数据科学是一个相对较新但发展迅速的多方面研究领域,应用于许多领域。它使用各种高级分析技术和预测建模算法从数据中提取有意义的见解,以帮助回答战略性业务或科学问题。数据科学结合了广泛的技能,从技术(编程、线性代数、统计和建模)到非技术(结果的有效表示和交流)。此外,根据应用数据科学的行业,有必要具备扎实的领域知识,以便能够正确解释可用信息和获得的见解。
数据科学算法可以成功应用于收集或可以收集大量数据的各种环境:金融、商业、营销、项目管理、保险、医学、教育、制造、人力资源、语言学、社会学等。实际上,任何行业或科学都可以从收集、收集、分析和建模他们的数据中受益匪浅。
什么是数据科学用例?
数据科学用例是使用可用数据解决的具体现实任务。在特定公司的框架中,在公司特定行业的背景下,使用数据科学技术来分析许多变量。数据科学用例可以是待解决的问题、待检验的假设或待回答的问题。本质上,做数据科学就是解决真实世界的用例。
尽管每个用例的内容可能会非常不同,但有一些共同的事情要始终记住:
- 数据科学用例规划是:概述明确的目标和预期结果,了解工作范围,评估可用资源,提供所需数据,评估风险,并将 KPI 定义为成功的衡量标准。
- 解决数据科学用例最常见的方法是:预测、分类、模式和异常检测、建议和图像识别。
- 一些数据科学用例代表不同领域的典型任务,您可以依靠类似的方法来解决它们,例如客户流失率预测、客户细分、欺诈检测、推荐系统和价格优化。
我如何解决数据科学案例研究?
这个问题的答案是非常具体的案例,由公司的业务战略驱动,并取决于案例研究本身的核心。但是,概述任何数据科学使用情形都要遵循的一般路线图可能会有所帮助:
- 提出正确的问题。这第一步非常重要,包括审查可用的文献和现有的案例研究,修改最佳实践,阐述相关的理论和工作假设,以及填补领域专业知识的潜在空白。因此,我们应该在感兴趣的案例研究中提出一个需要回答的明确问题。
- 数据收集。在这一步,我们执行数据清点和收集流程。在现实生活中,我们经常会遇到不具代表性、不完整、有缺陷和非结构化的数据,也就是说,远远不是一个易于阅读和分析的完整信息表。因此,我们必须搜索和识别所有可能对我们的主题有用的数据源。必要的数据可以在公司的档案中找到,从网上搜集,或者从赞助商那里获得,等等。
- 数据角力。这通常是任何数据科学项目中最耗费时间和资源的部分。评估所收集数据的质量和代表性,并进行初步数据探索。对数据进行清理、预处理、转换、操作,并将其从原始形式映射为更合适的格式。
- 数据分析和建模。清理后的数据从其当前状态的角度进行分析,然后适合选定的预测统计模型。评估模型精度,如果不满意,则尝试其他建模方法。重复这一过程,直到获得以最高精度预测未来情景的模型。因此,这个过程和前面所有的过程一样,可能是反复的。
- 结果沟通。与前面的步骤相比,这一步需要更多的沟通和软技能,而不是编程和技术专业知识。它包括与管理层、股东和任何其他相关方分享最重要的发现和最终结论。这些见解通常以报告、文章和演示幻灯片的形式呈现,概述潜在的前进方向。
按行业划分的数据科学使用案例
数据科学用例几乎可以与任何积累了大量数据的行业相关。在本章中,我们将讨论以下需求最大的领域中的一些典型数据科学用例:物流、医疗保健和电信。我们要考虑的一些用例是跨学科的,很容易在其他领域遇到。这使得它们更加通用和适用,因此了解解决它们的总体方法是值得的。此外,对于每个选定的行业,我们将概述一些可以用数据科学方法建模的其他可能的主题。
医疗保健中的数据科学
在前三章中,我们讨论了数据科学方法如何帮助不同行业的公司增加收入。就医疗保健而言,正确使用和解释可用数据不仅有利于该领域的营销人员,而且有助于及时诊断严重疾病,甚至挽救人们的生命。
医药和医疗保健提供商从众多来源收集大量数据:电子健康记录(EHR)系统、可穿戴设备数据、医学研究和账单文档。利用创新的数据科学和数据分析技术正在逐步革新整个医疗保健行业,为其未来发展提供最有前途和最有影响力的解决方案。特别是,一些高度专业化的医疗保健领域,如遗传学、生殖医学、肿瘤学、生物技术、放射学、预测诊断学和药剂学,由于释放了数据的全部潜力,已经发展到了一个全新的水平。
为了更好地理解数据科学在医学中的价值,让我们来关注一个最经典的用例。
医疗保健中的数据科学用例:乳腺癌预测
根据世界癌症研究基金会的数据,乳腺癌是女性中最常见的癌症,也是第二常见的癌症。及时诊断乳腺病变(良性或恶性)极其重要,因为它显著增加了成功治疗的机会和存活率。这就是数据科学的用武之地。
数据挖掘方法与机器学习算法相结合的进展,使得预测乳腺癌的风险,在早期阶段检测任何潜在的异常,估计其动态,并因此制定最佳计划来对抗该疾病成为可能。本质上是典型的机器学习的分类问题。好消息是,由于这种类型的肿瘤在世界各地都很常见,因此世界各地都进行了大量的彻底调查,结果,从全球各地的患者那里积累了大量的数据。
在分类器中使用这种数据集的主要问题是它们可能非常不平衡。例如,在结果以癌症/非癌症的形式表示的情况下,具有病理(属于少数类的那些数据集条目)的概率显著低于没有任何病理(属于多数类的条目)的概率。因此,该算法倾向于将新病例归类为非病理性病例。因此,为了更有效地评估这种模型的准确性,应用 F1 分数作为评估度量是有意义的,因为它估计假阳性(I 型错误)和假阴性(II 型错误),而不是算法正确分类条目时的情况。
让我们来看看来自美国一个州的关于乳腺癌的真实数据集。文档中详细描述了这些特征,但简而言之,它们是显示女性乳腺肿块细胞核的每个数字化图像的属性的平均值、标准误差和最大值。来自数据集的每个条目对应于患有恶性或良性肿瘤的女性(即,所有被讨论的女性都患有某种肿瘤)。这些属性包括单元半径、纹理、平滑度、紧密度、凹度、对称性等..
import pandas as pd
cancer_data = pd.read_csv('data.csv')
pd.options.display.max_columns = len(cancer_data)
print(f'Number of entries: {cancer_data.shape[0]:,}\n'
f'Number of features: {cancer_data.shape[1]:,}\n\n'
f'Number of missing values: {cancer_data.isnull().sum().sum()}\n\n'
f'{cancer_data.head(2)}')
Number of entries: 569
Number of features: 33
Number of missing values: 569
id diagnosis radius_mean texture_mean perimeter_mean area_mean \
0 842302 M 17.99 10.38 122.8 1001.0
1 842517 M 20.57 17.77 132.9 1326.0
smoothness_mean compactness_mean concavity_mean concave points_mean \
0 0.11840 0.27760 0.3001 0.14710
1 0.08474 0.07864 0.0869 0.07017
symmetry_mean fractal_dimension_mean radius_se texture_se perimeter_se \
0 0.2419 0.07871 1.0950 0.9053 8.589
1 0.1812 0.05667 0.5435 0.7339 3.398
area_se smoothness_se compactness_se concavity_se concave points_se \
0 153.40 0.006399 0.04904 0.05373 0.01587
1 74.08 0.005225 0.01308 0.01860 0.01340
symmetry_se fractal_dimension_se radius_worst texture_worst \
0 0.03003 0.006193 25.38 17.33
1 0.01389 0.003532 24.99 23.41
perimeter_worst area_worst smoothness_worst compactness_worst \
0 184.6 2019.0 0.1622 0.6656
1 158.8 1956.0 0.1238 0.1866
concavity_worst concave points_worst symmetry_worst \
0 0.7119 0.2654 0.4601
1 0.2416 0.1860 0.2750
fractal_dimension_worst Unnamed: 32
0 0.11890 NaN
1 0.08902 NaN
让我们删除只包含缺失值的最后一列:
cancer_data = cancer_data.drop('Unnamed: 32', axis=1)
有多少女性确诊患有癌症(恶性乳腺肿瘤)?
round(cancer_data['diagnosis'].value_counts()*100/len(cancer_data)).convert_dtypes()
B 63
M 37
Name: diagnosis, dtype: Int64
37%的受访者患有乳腺癌,因此数据集实际上相当平衡。
由于诊断变量的值是分类的,我们必须将它们编码成数字形式,以便在机器学习中进一步使用。在此之前,让我们将数据分为预测要素和目标变量诊断:
X = cancer_data.iloc[:, 2:32].values
y = cancer_data.iloc[:, 1].values
# Encoding categorical data
from sklearn.preprocessing import LabelEncoder
labelencoder_y = LabelEncoder()
y = labelencoder_y.fit_transform(y)
现在,让我们创建训练集和测试集,然后扩展功能:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)
为了对我们的数据进行建模,让我们应用以下建模算法及其默认参数:k-最近邻(KNN)和逻辑回归:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
# KNN
knn = KNeighborsClassifier()
knn.fit(X_train, y_train)
knn_predictions = knn.predict(X_test)
# Logistic regression
lr = LogisticRegression()
lr.fit(X_train, y_train)
lr_predictions = lr.predict(X_test)
我们之前看到,我们的数据集相当平衡,因此我们可以使用准确性得分评估指标来确定最准确的模型:
from sklearn.metrics import accuracy_score
print(f'Accuracy scores:\n'
f'KNN model:\t\t {accuracy_score(y_test, knn_predictions):.3f}\n'
f'Logistic regression model: {accuracy_score(y_test, lr_predictions):.3f}')
Accuracy scores:
KNN model: 0.956
Logistic regression model: 0.974
基于我们的数据,当对检测到任何性质的乳腺病变的妇女预测恶性/良性乳腺肿瘤时,逻辑回归模型表现最佳。
作为潜在的前进方向,考虑到逻辑回归算法没有任何要调整的关键参数,我们可以尝试不同的方法来训练/测试分裂和/或各种预测建模技术。
医疗保健领域的其他常见数据科学使用案例:
- 监控来自可穿戴设备的实时数据
- 预测分析
- 医学图像分析
- 药物发现
- 遗传学研究
- 虚拟助手
- 客户数据管理
运输和物流中的数据科学
物流是将产品从一个地方交付到另一个地方的过程的组织,而运输意味着运输客户或货物的行为。根据公司活动的概况(例如,午餐递送、邮件服务、国际货运、航空公司以及出租车或公共汽车服务),数据源可以用时间表、时间表、路线详细信息、仓库库存明细、报告、合同、协议、法律文件和客户反馈来表示。数据本身可以是结构化或非结构化的,包括时间、路线、路线、坐标、客户数据、商品详情、成本和价格等信息。
供应链和运输部门的业务效率并不总是一帆风顺的,它取决于许多因素:不可预见的交通问题、路线质量、天气条件、紧急情况、燃料价格波动、仓库库存短缺、技术损坏、与安全有关的运输延误、政府法规和制裁以及许多其他因素。此外,近年来市场上出现了许多新公司,这个行业的竞争变得相当激烈。因此,为了跟上竞争对手并提高运营效率,分析大数据并将其转化为有意义的见解已成为每个物流/运输公司的必备条件。
数据科学对运输和物流行业究竟有什么帮助?以下是其潜在应用的不完整列表:
- 全程跟踪整个运输过程,
- 使所有活动完全自动化和透明,
- 准时交货,
- 路线优化,
- 动态定价,
- 维持供应品的库存,
- 保护易腐烂的货物,
- 监控车辆状况,
- 改善生产网络,
- 改善客户服务。
运输和物流中的数据科学用例:确定出租车车辆的最佳位置
优步技术公司,或优步,是一家提供各种物流和运输服务的美国公司。在本案例研究中,我们将对优步拼车 GPS 数据进行聚类,以确定出租车车辆的最佳位置。特别是,它可用于以下目的:
- 每个新的乘车请求都被分配到最近的聚类,因此优步会将该聚类中最近的汽车发送到客户的位置。
- 从工作负荷的角度分析确定的集群,可选地按小时或星期几,优步可以提前重新分配车辆,并将它们发送到客户需求最大的战略位置。
- 根据不同集群中的需求/供给比率,公司可以动态调整价格费率。
我们将使用 2014 年 4 月在纽约优步旅行的五月三十八日的数据集:
import pandas as pd
uber_data = pd.read_csv('uber-raw-data-apr14.csv')
print(f'Number of trips: {uber_data.shape[0]:,}\n\n'
f'{uber_data.head()}')
Number of trips: 564,516
Date/Time Lat Lon Base
0 4/1/2014 0:11:00 40.7690 -73.9549 B02512
1 4/1/2014 0:17:00 40.7267 -74.0345 B02512
2 4/1/2014 0:21:00 40.7316 -73.9873 B02512
3 4/1/2014 0:28:00 40.7588 -73.9776 B02512
4 4/1/2014 0:33:00 40.7594 -73.9722 B02512
考虑到经度对应于 x 轴,纬度对应于 y 轴,让我们以示意图方式显示所有拾取点:
import matplotlib.pyplot as plt
plt.scatter(uber_data.iloc[:, 2], uber_data.iloc[:, 1])
plt.show()
为了对这些数据进行聚类,让我们使用一种叫做 k-means 聚类的机器学习无监督算法。这种方法背后的思想是将所有的数据样本分成几个方差相等的组。本质上,它接受集群的数量 n_clusters(默认情况下为 8)并相应地分离数据。为了计算出最佳的集群数量,使用了一种图形肘方法。它包括以下步骤:
- 用不同数量的聚类训练几个模型,并收集每个模型的 WCSS 值(在聚类平方和内),这意味着从其最近的聚类质心的观察值的平方距离之和。
- 相对于相应的集群数量值绘制 WCSS 值。
- 选择发生 WCSS 显著降低的最低数量的聚类。
from sklearn.cluster import KMeans
wcss = []
for i in range(1, 11):
kmeans = KMeans(n_clusters=i, random_state=1)
kmeans.fit(uber_data[['Lat', 'Lon']])
wcss.append(kmeans.inertia_)
plt.figure(figsize=(12, 5))
plt.plot(range(1, 11), wcss)
plt.title('Elbow Method', fontsize=25)
plt.xlabel('Number of clusters', fontsize=18)
plt.ylabel('WCSS', fontsize=18)
plt.xticks(ticks=list(range(1, 11)),
labels=['1', '2', '3', '4', '5', '6', '7', '8', '9', '10'])
plt.show()
在我们的例子中,最合适的集群数似乎是 7。让我们使用该值来拟合模型,并预测每个拾取点的聚类数。此外,我们将再次以图形方式说明数据条目,这次添加了七个群集质心的位置:
kmeans = KMeans(n_clusters=7, random_state=1)
kmeans.fit_predict(df[['Lat', 'Lon']])
plt.scatter(uber_data.iloc[:, 2], uber_data.iloc[:, 1])
plt.scatter(kmeans.cluster_centers_[:, 1], kmeans.cluster_centers_[:, 0], s=100, c='lime')
plt.show()
现在,我们将提取所有质心的精确坐标,并单独显示它们,不包括数据本身:
centroids = pd.DataFrame(kmeans.cluster_centers_)
centroids.columns = ['Lat', 'Lon']
print(centroids)
plt.scatter(centroids['Lon'], centroids['Lat'])
plt.show()
Lat Lon
0 40.688588 -73.965694
1 40.765423 -73.973165
2 40.788001 -73.879858
3 40.656997 -73.780035
4 40.731074 -73.998644
5 40.700541 -74.201673
6 40.971229 -73.611288
在纽约市地图上显示这些质心更能说明问题:
import folium
centroids_values = centroids.values.tolist()
nyc_map = folium.Map(location=[40.79659011772687, -73.87341741832425], zoom_start=50000)
for point in range(0, len(centroids_values)):
folium.Marker(centroids_values[point], popup=centroids_values[point]).add_to(nyc_map)
nyc_map
使用我们的模型,我们可以预测用地理坐标表示的纽约任何位置的最近的聚类。实际上,这意味着优步将从最近的地点派出出租车,更快地为客户服务。
让我们在曼哈顿区寻找距离林肯表演艺术中心最近的集群:
lincoln_center = [(40.7725, -73.9835)]
kmeans.predict(lincoln_center)
array([1])
皇后区的霍华德海滩:
howard_beach = [(40.6571, -73.8430)]
kmeans.predict(howard_beach)
array([3])
作为潜在的前进方向,我们可以考虑应用其他机器学习聚类算法,分析不同的数据片段(按一周/一月中的小时/天),找到负载最多和最少的聚类,或者从数据帧中找出已识别的聚类和基本变量之间的关系。
运输和物流领域的其他常见数据科学用例:
- 供求动态价格匹配
- 预估需水量
- 手动操作的自动化
- 自动驾驶车辆
- 供应链可见性
- 损伤检测
- 仓库管理
- 客户情绪分析
- 客服聊天机器人
电信中的数据科学
在过去的几十年里,电信技术以令人难以置信的速度发展,并进入了一个新的发展阶段。如今,我们被各种各样的电子设备所包围,许多人已经变得依赖互联网,特别是社交网络和信使。有时,这种设备成瘾被批评为取代了真正的面对面交流。然而,我们不得不承认,电信使我们的生活变得更加容易,让我们在几秒钟内就能与世界各地的人联系起来。
在新冠肺炎疫情时期,当许多公司和学校采用远程工作或学习计划时,这一点变得尤其真实。在这样一个快速变化的现实中,数字连接的质量和流畅度在所有领域都具有前所未有的重要性。封锁期使得人们有必要比以前更频繁地给同事、亲戚和朋友打电话和发短信。所有这些新趋势导致了电信量的巨大增长,这反过来又导致了该行业中大量数据的产生。
使用数据科学方法处理积累的数据可以在许多方面帮助电信行业:
- 简化操作,
- 优化网络,
- 过滤掉垃圾邮件,
- 改善数据传输,
- 执行实时分析,
- 制定有效的商业策略,
- 创造成功的营销活动,
- 增加收入。
让我们更详细地探讨一下电信行业中一项常见的数据科学任务,即检测和过滤掉不想要的消息。
电信领域的数据科学用例:构建垃圾邮件过滤器
垃圾邮件过滤是所有现代书面沟通渠道的重要功能,因为它保护我们免受试图诈骗我们钱财的日常电子邮件的轰炸。从技术上讲,这是分类问题的另一个例子:根据历史数据,每个新输入的消息都被标记为 ham(即正常消息),然后它直接到达收件人,或者作为垃圾邮件,然后它被阻止或到达垃圾邮件文件夹。
为此,一种流行的监督机器学习算法是朴素贝叶斯分类器。它基于概率论中的同音异义定理,而“天真”是基于每条消息中的所有单词都是相互独立的假设。这种假设并不完全正确,因为它忽略了自然单词嵌入和上下文的不可避免的存在。然而,在大多数低数据文本分类任务中,这种方法似乎工作得很好,并且做出准确的预测。
朴素贝叶斯分类器有多个版本,每个版本都有自己的适用情况:多项式、伯努利、高斯和灵活贝叶斯。对于我们的情况(垃圾邮件检测)最好的类型是多项式朴素贝叶斯分类器。它基于代表每封邮件字数的分类或连续特征的离散频率计数。
让我们将多项式朴素贝叶斯垃圾邮件过滤应用于来自 UCI 机器学习库的垃圾短信收集数据集。
import pandas as pd
sms_data = pd.read_csv('SMSSpamCollection', sep='\t', header=None, names=['Label', 'SMS'])
print(f'Number of messages: {sms_data.shape[0]:,}\n\n'
f'{sms_data.head()}')
Number of messages: 5,572
Label SMS
0 ham Go until jurong point, crazy.. Available only ...
1 ham Ok lar... Joking wif u oni...
2 spam Free entry in 2 a wkly comp to win FA Cup fina...
3 ham U dun say so early hor... U c already then say...
4 ham Nah I don't think he goes to usf, he lives aro...
有 5572 条人类分类信息。其中有多少(百分比)是垃圾邮件?
round(sms_data['Label'].value_counts()*100/len(sms_data)).convert_dtypes()
ham 87
spam 13
Name: Label, dtype: Int64
13%的短信被人工识别为垃圾短信。
要为多项式朴素贝叶斯分类准备数据,我们首先必须完成以下步骤:
- 将标签从字符串编码为数字格式。在我们的例子中,标签是二进制的,因此我们将它们编码为 0/1。
- 提取预测变量和目标变量。
- 将数据分成训练集和测试集
- 对来自预测器训练集和测试集的 SMS 列的字符串进行矢量化,以获得 CSR(压缩稀疏行)矩阵。
第四步需要一些更详细的解释。在这里,我们创建一个矩阵对象,将其与词汇字典(预测器训练集的所有消息中的所有唯一单词及其相应的频率)相匹配,然后将预测器训练集和测试集转换为矩阵。结果将是预测器训练集和测试集的两个矩阵,其中列对应于来自预测器训练集的所有消息的每个唯一单词,行对应于相应的消息本身,并且单元格中的值对应于每个消息的词频计数。
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
# Encoding labels
sms_data = sms_data.replace('ham', 0).replace('spam', 1)
X = sms_data['SMS'].values
y = sms_data['Label'].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)
# Vectorizing strings from the 'SMS' column
cv = CountVectorizer(max_df=0.95)
cv.fit(X_train)
X_train_csr_matrix = cv.transform(X_train)
X_test_csr_matrix = cv.transform(X_test)
接下来,我们将使用默认参数构建一个多项式朴素贝叶斯分类器,并检查其准确性:
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, f1_score
clf = MultinomialNB()
clf.fit(X_train_csr_matrix, y_train)
predictions = clf.predict(X_test_csr_matrix)
print(f'Model accuracy:\n'
f'Accuracy score: {accuracy_score(y_test, predictions):.3f}\n'
f'F1-score: {f1_score(y_test, predictions):.3f}\n')
Model accuracy:
Accuracy score: 0.990
F1-score: 0.962
因此,我们获得了高度准确的垃圾邮件过滤器。
此处的潜在前进方式可以是尝试其他训练/测试分割方法,通过调整其众多参数中的一些参数(例如,垃圾邮件和业余爱好者邮件中过于频繁的词的截止值)来改善矢量化过程,并检查分类器错误检测邮件的极少数情况,并尝试了解其发生的原因。此外,我们可以使用诸如词云的方法(在初步数据清理并排除所有停用词或低信息量词之后)来可视化垃圾邮件和业余爱好者消息中最频繁出现的词。最后,我们可以应用其他机器或深度学习算法(支持向量机、决策树、神经网络),并将结果与朴素贝叶斯方法进行比较。
电信行业中其他常见的数据科学使用案例:
- 客户细分
- 产品开发
- 呼叫详细记录分析
- 推荐系统
- 客户流失率预测
- 目标营销
- 欺诈检测
- 网络管理和优化
- 提高网络安全性
- 价格优化
- 客户终身价值预测
数据科学案例研究:课程
迄今为止,我们已经走过了漫长的道路,并详细探索了数据科学在不同领域的众多应用。现在,如果您想学习更多基于真实数据集的数据科学使用案例,并能够应用您的新知识和技术技能来解决您所在领域的实际任务,您可能会发现以下关于各种数据科学案例研究的初学者友好型短期课程很有帮助:
-
案例研究:利用 Python 中的机器学习进行学校预算。在本课程中,基于 DrivenData 上的一个机器学习竞赛的案例研究,您将探索一个与学区预算相关的问题,以及如何让学校更容易、更快地与其他学校比较支出。应用一些自然语言技术,您将准备学校预算并构建一个模型来自动分类他们的项目,从简单的版本开始,逐渐进行到更高级的版本。此外,您将能够查看和分析竞赛获胜者的解决方案,以及查看其他参与者的提交内容。
-
用熊猫分析营销活动。Pandas 是最受欢迎的 Python 库,使用它的工具包开发扎实的技能是任何数据科学家的必备技能。在这门实践性很强的课程中,您将在在线订阅业务中使用一个虚假的营销数据集,以 Python 和 pandas 基础知识(添加新列、合并/切片数据集、使用日期列、在 matplotlib 中可视化结果)为基础。你将练习将典型的营销问题转化为可衡量的价值。你需要回答的一些问题是:“这个活动表现如何?”,“为什么某个渠道表现不佳?”,“哪个渠道推荐的用户最多?”等。
-
用 Python 分析美国人口普查数据。在本课程中,您将学习如何轻松浏览十年一次的人口普查和年度美国社区调查,并从中提取各种人口统计和社会经济数据,如家庭收入、通勤、种族和家庭结构。您将使用 Python 从 Census API 和 pandas 库请求不同地理位置的数据,以操作收集的数据并从中获得有意义的见解。此外,您将练习使用 geopandas 库进行制图。
-
案例研究:R 中的探索性数据分析。如果您已经对 r 中的数据操作和可视化工具有了一些基本的了解,那么这个短期课程将是您的理想选择。学习本课程的材料后,您将在真实数据集上实践您的技能,探索联合国大会的历史投票数据。特别是,你将分析不同国家、不同时间和不同国际问题的投票倾向。本案例研究将允许您从头到尾进行探索性数据分析,获得更多关于 dplyr 和 ggplot2 包的实践,并学习一些新技能。
-
人力资源分析:探索 R 中的员工数据。众所周知,r 比 Python 更适合于统计分析。在本课程中,您将利用 R 的这一优势对一系列人力资源分析案例研究进行操作、可视化和执行统计测试。数据科学技术最近才出现在人力资源部门。然而,如今它们代表了一个非常有前途的方向,因为许多公司越来越依赖于他们的人力资源部门使用他们的员工数据库来提供可操作的见解和建议。
-
SQL 中的数据驱动决策。在本课程中,您将学习如何使用 SQL 来支持决策并向管理层报告结果。感兴趣的案例研究集中在一个在线电影租赁公司,该公司有一个关于客户数据、电影评级、演员背景信息等的数据库..一些任务将应用 SQL 查询来研究客户偏好、客户参与和销售发展。您将了解用于在线分析处理的 SQL 扩展,它有助于从复杂的多维数据中获得关键见解。
无论您想要成为数据科学领域的高级专家,还是您的意图只是学习有用的编码技能以提取自己研究领域中有价值的数据驱动洞察,上面的资源都是一个很好的起点。
结论
总之,在本文中,我们从多个角度研究了什么是数据科学,它与数据分析有何不同,它适用于哪些领域,什么是数据科学用例,以及成功解决它的一般路线图。我们讨论了数据科学如何在一些需求行业的实际任务中发挥作用。在概述许多现有和潜在应用的同时,我们重点关注了每个热门领域中最常见的使用案例,并展示了如何使用数据科学和数据分析算法解决每个问题。如果您想了解更多其他行业的用例,请查看我们在银行、营销和销售中的用例文章。最后,我们回顾了一些有用的在线课程,以便更深入地研究其他一些数据科学案例。
最后一个有趣的观察:我们在这项工作中考虑的领域没有一个是全新的。事实上,其中一些,如医药和销售,已经存在了几个世纪。在他们的整个历史中,远在我们全球数字化的新时代开始之前,这些行业的数据也以这样或那样的形式被收集;写在书和文件里,保存在档案馆和图书馆里。近年来,随着新技术的出现,真正发生巨大变化的是对隐藏在任何数据中的巨大潜力的基本理解,以及正确注册、收集和存储数据的至关重要性。应用这些努力并不断改进数据管理系统,使得积累所有行业的大数据以进行进一步分析和预测成为可能。
数据科学家 vs 数据工程师
关于数据科学角色的讨论并不新鲜(记得 DataCamp 在 2015 年推出的数据科学行业信息图):公司对获取数据科学人才的日益关注似乎与一系列全新的数据科学角色和职位的创建齐头并进。在第一篇文章发表两年后,这种情况仍在继续!
最近,有很多关于不同数据科学角色之间的区别的文章,更具体地说,是关于数据科学家和数据工程师之间的区别。也许兴趣的激增是因为这些年来观点确实发生了变化:几年前,人们更关注从数据中检索有价值的见解,而数据管理的重要性已经慢慢开始在行业中深入人心。因为最终,“垃圾进,垃圾出”的原则仍然适用:你可以建立最好的模型,但是如果你的数据不是定性的,你的结果将会很弱。
数据工程师的角色逐渐成为人们关注的焦点。
今天的博客文章将展示数据科学家和数据工程师之间最重要的区别,重点是职责、工具、语言&软件、教育背景、薪水&招聘、工作前景和资源,您可以使用它们开始数据科学或工程工作!
如果您更喜欢看可视化演示和参考资料,请务必查看相应的信息图“数据工程与数据科学”。
责任
数据工程师的职责
数据工程师是开发、构建、测试和维护架构的人,例如数据库和大规模处理系统。另一方面,数据科学家是清理、处理和组织(大)数据的人。
您可能会发现动词“按摩”的选择特别奇怪,但它更多地反映了数据工程师和数据科学家之间的差异。
一般来说,双方为获得可用格式的数据所做的努力是相当不同的。
数据工程师处理包含人为、机器或仪器误差的原始数据。数据可能未经验证,并且包含可疑记录;它是无格式的,可以包含特定于系统的代码。
数据工程师需要推荐并有时实施提高数据可靠性、效率和质量的方法。为此,他们需要使用各种语言和工具将系统结合在一起,或者尝试寻找机会从其他系统获取新数据,以便特定于系统的代码可以成为数据科学家进一步处理的信息。
与这两者密切相关的事实是,数据工程师需要确保现有的架构支持数据科学家和利益相关者(业务)的需求。
最后,为了将数据交付给数据科学团队,数据工程团队需要为数据建模、挖掘和生产开发数据集流程。
数据科学家的责任
数据科学家通常已经获得了通过第一轮清理和处理的数据,他们可以使用这些数据来输入复杂的分析程序和机器学习及统计方法,为预测和说明性建模准备数据。当然,为了构建模型,他们需要研究行业和业务问题,并且他们需要利用来自内部和外部来源的大量数据来满足业务需求。这有时也包括探索和检查数据以发现隐藏的模式。
一旦数据科学家完成了分析,他们将需要向关键利益相关者展示一个清晰的故事,当结果被接受时,他们将需要确保工作自动化,以便可以每天、每月或每年向业务利益相关者提供见解。
很明显,双方需要共同努力来争论数据,并为关键业务决策提供见解。技能组合有明显的重叠,但这两者在行业中逐渐变得更加不同:数据工程师将使用数据库系统、数据 API 和工具进行 ETL,并将参与数据建模和建立数据仓库解决方案,而数据科学家需要了解统计、数学和机器学习以建立预测模型。
数据科学家需要了解分布式计算,因为他需要访问已经由数据工程团队处理过的数据,但是他或她还需要能够向业务利益相关者报告:关注讲故事和可视化是必不可少的。
就关注数据科学工作流程的步骤而言,这意味着什么,您可以在下图中看到:
语言、工具和软件
当然,这种技能上的差异会转化为双方使用的语言、工具和软件的差异。下面的概述包括商业和开放源码的替代品。
尽管双方使用的工具在很大程度上取决于角色在公司环境中的构想,但您会经常看到数据工程师使用 SAP、Oracle、Cassandra、MySQL、Redis、Riak、PostgreSQL、MongoDB、neo4j、Hive 和 Sqoop 等工具。
数据科学家将利用 SPSS、R、Python、SAS、Stata 和 Julia 等语言建立模型。毫无疑问,这里最受欢迎的工具是 Python 和 R。当您使用 Python 和 R 进行数据科学研究时,您最常求助于 ggplot2 之类的包,以便在 R 或 Python 数据操作库 Pandas 中实现令人惊叹的数据可视化。当然,当您在从事数据科学项目时,还有许多软件包会派上用场,如 Scikit-Learn、NumPy、Matplotlib、Statsmodels 等。
在这个行业中,你还会发现商业 SAS 和 SPSS 做得很好,但其他工具,如 Tableau、Rapidminer、Matlab、Excel、Gephi 也将成为数据科学家的工具箱。
你再次看到数据工程师和数据科学家之间的一个主要区别,对数据可视化和讲故事的强调,反映在提到的工具中。
你可能已经猜到了,双方共有的工具、语言和软件是 Scala、Java 和 C#。
这些语言不一定同时受数据科学家和工程师的欢迎:你可以说 Scala 更受数据工程师的欢迎,因为与 Spark 的集成对于设置大型 ETL 流特别方便。
Java 语言也是如此:目前,它在数据科学家中的受欢迎程度正在上升,但总的来说,它并没有被专业人员广泛地用于日常生活。但是,总的来说,你会看到这些语言出现在这两个职位的空缺职位上。对于双方可能共有的工具也可以这么说,比如 Hadoop、Storm 和 Spark。
当然,工具、语言和软件方面的比较需要在您工作的具体环境中以及您如何解释所讨论的数据科学角色中进行;在某些特定的情况下,数据科学和数据工程可以紧密地结合在一起,在这种情况下,数据科学和数据工程团队之间的区别确实很小,有时,这两个团队会被合并。
这是否是一个伟大的想法是足够的材料进行另一场讨论,这不是今天的博客的范围。
学历
除此之外,数据科学家和数据工程师可能还有一些共同点:他们的计算机科学背景。这个研究领域在两种职业中都很受欢迎。当然,你也会看到数据科学家经常学习计量经济学、数学、统计学和运筹学。他们通常比数据工程师更有商业头脑。你经常会看到数据工程师也有工程背景,而且更多的时候,他们已经接受了一些计算机工程方面的教育。
然而,所有这些并不意味着你找不到从以前的研究中积累了运营知识和商业头脑的数据工程师。
您必须认识到,一般来说,数据科学行业是由来自各种不同背景的专业人士组成的:物理学家、生物学家或气象学家找到数据科学之路并不罕见。其他人的职业转向了数据科学,他们来自 web 开发、数据库管理等领域。
薪资和招聘
谈到工资,数据科学家的中等市场平均年薪为 135,000 美元。最低为 43,000 美元,最高为 364,000 美元。对于数据工程师来说,中型市场稍低一些:他们的平均收入为 124,000 美元,他们的最低和最高工资也低得多:最低为每年 34,000 美元,最高为 341,000 美元。
薪酬差距的确切来源尚不完全清楚,但这可能与空缺职位的数量有关:根据 indeed.com 的数据,数据工程师的空缺职位约为 8.5 万个,而市场上数据科学家的空缺职位约为 11 万个。
目前希望聘用数据工程师的公司有 PlayStation、纽约时报、彭博和威瑞森,但在过去,Spotify、脸书和亚马逊等公司也聘用过数据工程师。另一方面,数据科学家目前在 Dropbox、微软、德勤和沃尔玛等公司都很受欢迎。
就业前景
如前所述,角色和头衔的创建需要反映不断变化的需求,但其他时候,它们是作为一种区别于其他招聘公司的方式而创建的。
除了对数据管理问题的兴趣增加之外,公司还在寻找更便宜、灵活和可扩展的解决方案来存储和管理他们的数据。他们希望将数据迁移到云中,为此,他们需要构建“数据湖”,作为对现有数据仓库的补充,或者作为运营数据存储(ODS)的替代。
在未来几年中,数据流将需要被重定向和替换,因此,招聘数据工程师的职位发布的关注和数量在这些年中逐渐增加。
自从炒作开始以来,数据科学家的角色就一直很受欢迎,但如今,公司正在寻求组成数据科学团队,而不是雇佣拥有沟通技能、创造力、聪明、好奇心、技术专长等的独角兽数据科学家。对于招聘人员来说,很难找到体现公司所寻找的所有品质的人,而且需求显然超过了供应。
你可能会认为“数据科学家泡沫”已经破裂。也可能以后还是会爆。
有一件事将贯穿始终:对热衷于数据科学主题的专家的需求将一直存在。这些专家的工作前景非常乐观:据麦肯锡(McKinsey)称,2018 年,美国可能会缺少 14 万至 19 万名具有深度分析技能的人,以及 150 万名知道如何利用(大)数据分析做出有效决策的经理和分析师。
数据工程和数据科学入门
你看,有足够多的理由开始使用数据。:)而这恰恰是不会成为大问题的事情。
在 DataCamp,如果你想开始学习数据工程,我们有理想的课程,例如,DataCamp 的在 Python 中导入数据和在 R 中导入数据课程。
但是,当然,对于那些想要开始学习数据科学的人来说,还有探索性数据分析、数据科学的R 简介、机器学习工具箱和数据科学的Python 简介课程。
今天就开始互动学习吧!
数据工程师是开发、构建、测试和维护架构的人,例如数据库和大规模处理系统。数据工程师处理包含人为、机器或仪器错误的原始数据,他们的主要职责之一是清理数据,以便数据科学家可以对其进行分析。
美国空军的数据转换:来自 AFORS 的亮点
拉斯维加斯发生了什么...
上个月,我参观了在拉斯韦加斯内利斯空军基地举行的美国空军作战研究研讨会(AFORS)。该会议是空军分析师社区的年度聚会,超过 200 名与会者谈论运筹学、机器学习和数据科学主题。
空军一直在大力投资现代化其工具和培训,以处理数据,我在那里举办了一个关于使用 DataCamp Workspace 的代码研讨会。
数据转换的五个关键领域
研究、分析和评估的技术主管安吉拉·吉丁斯博士总结了空军围绕其数据转换计划的目标。她指出,最大的问题是搞清楚运筹学分析师如何成为空军其他部门的力量倍增器。传统上,运筹学一直是空军内部的一个非常学术的团体,但这种模式在当前的服务中不再可行。
吉丁斯博士列出了转型的五个关键领域。
- 确保项目对实际问题产生影响
- 确保在结果仍然相关的情况下交付结果
- 针对正确的问题使用正确的数据
- 从数学中获得洞察力
- 利用可视化
有趣的是,所有这些领域都反映了世界各地的组织所面临的挑战,无论它们是否在军队中。
招聘挑战
高级官员反复提到的一个主题是,雇佣和留住顶尖数据人才极具挑战性。研究、分析和评估主任 Wayne Schatz 先生和空军首席分析师 Ron Annaballi 上校都谈到通过使中队成为工作的好地方来解决这一招聘挑战,而培训和工具是这方面的关键因素。除了内部培训,空军还可以访问三个在线教育平台——data camp、Coursera 和 PluralSight。通过广泛访问 Python、DataBricks、Tableau、Plotly、Dataiku 和 Palantir,正在开发一个现代数据堆栈。
令人印象深刻的技术演示
在技术演示中,我对美国空军项目的范围印象深刻。优化飞行员训练是一个反复出现的主题,我看到了不止一个而是两个演示,涉及到飞行员的心率、眼球追踪和其他传感器,以试图确定哪些飞行动作最具认知挑战性或最可怕。
我看到的其他演讲包括基本的商业问题——MSgt Nathan Shaw 谈到了使用情绪分析来分析调查反馈,以及我从来不知道存在的奇怪问题 Tyler Danley 博士和 Brian Morrison 少校谈到了如何安排训练飞行以减少蝙蝠袭击的次数,以及科幻小说——Cdt Victor Rae 讨论了优化卫星星座的大小和位置以获得任务的最佳覆盖范围。
对我来说,大会上最好的技术报告是由 2Lt 本杰明·麦克洛斯基发表的。无人驾驶飞行器使用对其相机数据的机器学习来检测其视野中的建筑物和车辆。根据 2Lt McCloskey 的说法,有一个问题是,大多数模型训练数据都是在天气良好的白天捕获的。这意味着在夜间任务或恶劣天气下,真实任务的性能会更差。
他的解决方案是使用一种名为“生成敌对网络”的深度学习技术来修改现有的相机图像,使它们类似于夜间或恶劣天气。本质上,他创造了卫星数据的“深度假货”,以提高物体探测模型的准确性。
数据营培训带来了新的数据产品
最后,我看到了多明尼克·斯佩兰萨上尉关于基于数据营的培训项目结果的精彩陈述。该计划的目标是拥有更广泛的技能,从飞机仪表数据创建数据产品。培训计划包括一系列精心策划的 DataCamp Python 课程,随后是关于飞机仪表数据的内部培训。完成培训的顶点项目要求参与者创建一个数据产品。这些数据产品的例子包括一个用于确定 F-22 战斗机仪表数据质量的异常检测系统和一个用于简化飞行员汇报会议的自动报告生成器。
总结
由于布赖恩·法甘少校的出色组织,整个会议进行得很顺利。(我早该猜到运筹学的人会擅长运筹学!)听到所有这些伟大数据项目的例子后,我很高兴看到美国空军数据转换计划的进展。
Richie 帮助组织从模糊的“嘿,我们应该更好地使用数据”转变为现实的计划,成为成功的数据驱动型组织。在数据科学被称为数据科学之前,他就是一名数据科学家,已经写了几本书,并创建了许多关于该主题的数据营课程。
2021 年数据趋势:数据流畅之年[信息图]
过去的一年是动荡不安的,许多教训今天仍在揭示。新冠肺炎危机加速了数字化转型,迫使现有组织对其流程进行数字化,对其业务模式进行现代化,支持数据访问,并提高其员工的技能以适应数据驱动的时代(微软)。像 Zoom、亚马逊和 PayPal 这样的数字化、数据驱动型组织受益于这种新常态(《金融时报》),并巩固了它们在各自市场的领导者地位。新冠肺炎危机也证明了每个人都需要成为数据流畅、知情的公民(数据大学),因为数据可以用来告知和误导我们疫情的状况。
今年,我们站在大加速的边缘。世界各地的组织都在寻求提高他们的数字弹性,并在此过程中变得更加数据驱动。数据科学革命总是让不可能变成可能。借助数据科学方法和技术,专业团队致力于解决自动驾驶汽车、算法交易程序和蛋白质折叠等重要问题。然而,真正的数据科学革命使广泛传播成为可能,组织中的每个人都可以理解数据,交流来自数据的见解,并利用数据做出更明智的决策。这是关于创建数据流畅的组织和社会,其中每个人都具备了他们需要被告知的必要技能,公民和雇员。
在接下来的一年甚至更长的时间里,我们将会看到在数据流畅性方面更好的工具,对技能的更高重视,以及在整个组织中对数据更丰富、更容易的访问。
如果您想深入了解我们的 2021 年趋势,请下载我们的白皮书。
数据营 2.0
原文:https://web.archive.org/web/20221129034451/https://www.datacamp.com/blog/datacamp-20
七年前,DataCamp 成立,目标是通过构建一个经济实惠、引人入胜且可扩展的数据科学教育平台,让世界变得更加数据流畅。如今,100 多名员工共同承担着消除数据文盲的使命。随着全球许多国家的教育成本飙升,经济机会越来越依赖于对数据的理解和利用,我们的使命变得前所未有的重要。在一个数据是新黄金的世界,数据技能给人们和组织提供了前进的机会,在 DataCamp,我们希望将这种机会扩展到每个人。
我们亲眼目睹了对数据科学教育的惊人需求,因为 DataCamp 的增长超出了我们最大的预期:我们现在正在帮助超过 1,600 家企业和 150,000 名个人订户培养数据技能。今年,超过 200 万门课程将在 DataCamp 上完成,DataCamp 的收入在过去三年中增长了惊人的 1,232%,使我们在 2019 年和 2020 年进入德勤科技 500 强排名的前 100 名!
但是我们相信我们可以做得更多。
在通往更加流畅的数据世界的征途上,仍有许多重大障碍。
我们认为 3 个最大的障碍是:
-
劳动力市场效率低下——
劳动力市场中存在巨大的供需不平衡(从数据工程师或数据科学家等技术性很强的职位到技术性较低的公民数据职位)。此外,许多申请人很难表明他们的技能水平,许多组织也很难找到合适的人才。DataCamp 能够帮助学习者找到适合他们的工作,并帮助组织找到合适的数据人才,从而很好地应对这一劳动力市场挑战。提供可扩展、负担得起且值得信赖的资格认证是解决劳动力市场效率低下的一个重要方面。 -
大多数数据工具缺乏协作—
协作是理解和利用数据的核心。但是,尽管数据专业人员的数量正在快速增长,但他们缺乏能够随着数据团队的增长而轻松扩展并有助于促进和鼓励协作的工具。因此,来自数据团队的见解通常分散在各种工具中,分析是重复的,等等。此外,在许多组织中,作为数据科学家或分析师开始工作并不容易。您可能会浪费时间访问数据、查找数据、重复分析、使用损坏或有错误的仪表板等。这种分散的方法和知识库不仅效率低下,而且威胁到数据工作的质量控制、数据人才的低生产率以及组织的巨大财务成本。 -
缺乏数据流畅技能—
为了确保更多的人能够获得数据技能,我们必须拥有可扩展的、吸引人的和负担得起的教育工具。拥有超过 700 万注册学习者的 DataCamp 在提供最好的边做边学学习产品方面取得了长足的进步,是当今的市场领导者。也就是说,我们相信还有很大的改进和创新空间,因为我们希望接触到更多的学习者。例如,有机会免费或以极低的价格向全球低收入客户提供 DataCamp 学习产品。
我们相信,我们可以通过解决这三个挑战中的每一个来创造一个良性循环,从而战胜数据盲。
这是我们对未来几年我们的产品发展的设想:
在消费者方面,学习者正在加入 DataCamp 以提高数据流畅性。我们使他们能够通过评估跟踪他们的进展,通过项目获得真实世界的经验,并最终为他们提供获得认证并使用该证书找工作的选项。与此同时,我们让学习者能够轻松地开始在云中进行数据分析和数据科学,并让他们能够创建自己的数据科学工作组合,与同事、朋友和潜在雇主分享。
在组织方面,学习产品有助于提升组织的数据流畅性,而评估工具允许他们了解整个组织中人员的技能水平及其随时间的演变。此外,资格认证可以是一种简单的工具,可以明确技能水平,并帮助组织评估和找到合适的人加入组织。随着组织的数据流畅性的提高,任何人都可以访问具有所有关键见解的知识库,并能够有效地协作和利用这些见解。
团队成长和领导变化
DataCamp 2.0 愿景是与客户、员工、领导成员和投资者对话的结果;令人兴奋的是终于可以公开分享了。
作为这一新愿景的一部分,我们正在重组我们的管理团队。我将重回首席执行官的位置。作为 DataCamp 的创始人之一,我很高兴能够再次领导 DataCamp,因为我们正在努力通过数据科学的民主化来创建一个数据流畅的世界。Martijn 将成为首席运营官,最初的工作重点是发展 B2B 业务,而 Dieter 将作为新产品主管领导我们围绕数据团队和职业服务的协作平台的创新工作。我们在董事会和所有主要投资者的全力支持下做出了这一决定,我们很高兴能够推进这一愿景。
为了实现 DataCamp 2.0,我们计划在明年雇佣 50 多名新的 DataCamp 人员。如果你有兴趣加入我们,并对我们未来的道路感到兴奋,请确保关注我们的职业页面。
—乔纳森
DataCamp 和 Tableau 合作,教年轻人数据可视化
2022 年 3 月 21 日更新:课堂 x Tableau 教学推广数据营已经结束。感谢所有申请的老师。原公告如下:
DataCamp 自豪地宣布我们与 Tableau 的合作伙伴关系,让世界各地的教师和学生都能广泛使用世界一流的数据科学软件和教育。每位拥有 DataCamp for Classrooms 帐户和 Tableau for Teaching license 的教师都可以申请来为自己和学生免费访问 DataCamp 的交互式 Tableau 课程。我们认为这是一个重要的机会,与我们一样致力于数据科学民主化的合作伙伴一起,将 STEM 教育全面带入 21 世纪。
数据正以天文数字的速度被消耗,但是所有的学生都有同样的机会看到和理解数据吗?教师是否有容易获得的资源来培养下一代学生?可悲的是,答案是响亮的不。
“Tableau for Teaching 对与 DataCamp 的合作感到兴奋,”Tableau for Teaching 的高级经理杰西卡·莱昂斯(Jessica Lyons)说。“为学生和教师提供创建数据素养世界所需的资源,这一使命与 DataCamp 的目标完全一致。”
这种感觉是相互的。在 DataCamp,我们将 Tableau 视为让高中生和大学生对数据感兴趣的理想平台。没有其他数据可视化工具能像 Tableau 一样灵巧地满足新手和专家的需求。拥有这些资源的教师将使他们的学生能够更好地理解和分析生活中的数据,为未来的数据驱动型行业做好准备。只要具备一些 Excel/电子表格的基础知识和良好的数据集,年轻人就可以创建对他们最重要的数据的强大而有吸引力的可视化。
教师如何申请?
对于合格的教师来说,在 DataCamp 上申请 Tableau access 只需简单的三个步骤:
DataCamp 和 Tableau 的代表将在提交日期的一周内审查所有申请人,以核实他们在两个项目中的状态。经过验证后,Tableau training 被添加到您的 DataCamp 组后,您将收到一封确认电子邮件。所有你邀请进入教室数据营账户的用户都可以立即免费使用我们的 Tableau 课程。
DataCamp + Tableau 让学生和老师得到了什么?
DataCamp for Classrooms 为您和您的学生在 DataCamp 上学习提供免费的无限专业许可。这意味着可以访问 R、Python、SQL、Git、Scala、电子表格、Excel 等 350 多门课程,以及我们所有的项目、练习模块、移动应用等。此外,教师还可以获得一个小组仪表板,其中包含了成功运营课堂所需的所有功能:创建团队、分配任务和监控进度的能力。来自世界各地的学院/大学教师以及美国和英国的高中教师都有资格申请。
通过成为 Tableau 教学的接收者并完成此表格,教师将获得我们在 Tableau、上的六门优秀课程,包括 Tableau 简介、连接 Tableau 中的数据和分析 Tableau 中的数据—您和您的学生从新手到专家所需的一切。就像我们所有的其他课程一样,它们可以完全在浏览器中运行(不需要额外的软件),或者用户可以下载数据集并在他们基于桌面的 Tableau 客户端上运行我们的练习。这些受欢迎的课程以前是为高级和企业数据营客户保留的,将彻底改变世界各地的教育工作者教授学生 Tableau 的方式。
如果你是一名教师,今天就申请这些革命性的教育技术项目吧(学生们,请向你的 STEM 老师推荐这个项目)!这是按照你自己的速度免费学习成为一名舞台艺术大师的唯一方法。
要通过教室数据营申请免费 Tableau 课程,点击此处。
要申请一个免费的教室数据营账户,点击这里。
要申请教师执照的免费表格,点击这里。
DataCamp 获得 ISO 27001:2017 认证
DataCamp 很荣幸获得 ISO 27001:2017 认证,这是一项全球信息技术安全标准。这反映了 DataCamp 团队的辛勤工作,以及我们在信息安全领域对最佳实践和高标准的执着追求。
ISO 27001:2017 是国际公认的信息安全标准,规定了信息安全管理系统的要求。为了获得认证,一家公司必须证明它有一个系统的和持续的方法来管理敏感的公司和客户信息。只有经认可的独立审计师才能授予 ISO 27001:2017 认证。DataCamp 的外部审计由品牌合规部进行。
在当今的数字世界中,我们的企业客户理所当然地对信息的可靠性和安全性有了更高的期望。我们希望向我们的客户保证,DataCamp 已经过独立审计和认证,我们的信息安全管理系统符合 ISO 27001:2017。
这一认证不仅是我们骄傲的时刻。这表明我们致力于保护我们的数据和客户数据的机密性、完整性和可用性;以及确保我们系统的稳健性。
数据营教室登陆澳大利亚高中
我们正在为澳大利亚的所有中学教师和学生启动数据营教室。继美国、英国、比利时和波兰之后,我们将推出第五个为所有 16 岁及以上学生提供免费数据科学教育的国家。世界各地的大学教师和学生仍然可以使用 DataCamp 教室。
什么是 DataCamp 教室?
DataCamp 教室为教师提供 6 个月的可更新免费访问我们全面的数据科学学习平台的机会。您和您的学生可以访问我们的所有课程和工具,如工作空间、认证和工作,以提高您的学生的职业准备。申请简单快捷。访问https://www.datacamp.com/groups/classrooms,点击“创建我的免费课堂”。您将被重定向到页面底部的表单。填写所需信息。确保使用你学校的电子邮件域名和教员网页的链接,证明你是你所指学校的老师。当您的申请被接受后,您的 DataCamp 教室将可以通过您在“组”部分的帐户进行访问。在那里,你可以邀请你的学生加入这个账户,并关注他们在这个学期的进展。
为什么是澳大利亚?
DataCamp 的社会影响团队每天都在带头开展 DataCamp 捐赠和课堂项目。我们将活动重点放在大规模推广和交流上,让弱势群体意识到他们可以免费受益的奇妙资源,并发展这些项目。但我们也花时间与这些社区保持直接联系。通过我们的 【电子邮件保护】 电子邮件地址,我们收到了无数关于我们的项目以及人们如何参与其中的请求。我们将每个人都视为独一无二的,并希望为他们提供足够的支持。
两个月前,澳大利亚一所高中的电子教学负责人 David Fenwick 联系我们,询问高中免费使用 DataCamp 的事宜。尽管当时澳大利亚的中学还没有 DataCamp 教室,但这并不意味着我们不会提供帮助。我们收到的每一条消息都是发现我们的社区并让他们参与我们传播免费数据素养教育的使命的巨大机会。要在一所中学启动 DataCamp 教室,我们需要知道该国所有高中的名称和私人电子邮件域。这是我们告诉大卫的。当大卫很快带着需要的数据回来时,我们都很高兴。我们感谢他的支持,并将这篇文章视为向他和所有参与 DataCamp 社区的成员表达谢意的一种方式。我们非常感谢他的支持,并且知道分享他对该计划的参与将激励许多人为我们的使命做出贡献。
你们也可以把数据营教室带到你们国家的高中
我们想分享这个故事来激励你用一个简单却极具影响力的行动为你的社区做出有意义的贡献。如果您与我们分享一份 excel 列表,您也可以免费为您所在国家的数百万人推动数据科学教育的民主化:
- 学校名称
- 私人/独特的电子邮件域(gmail,雅虎,hotmail…不接受)
- +其他可选数据(学校地址、私立或公立……)
这很容易,但对高中生和未来几代人来说也是一种转变。我们已经有许多其他国家将在今年年底公布。然而,你仍然有机会为这个项目做出贡献,并对你的国家产生重大影响。我们缺少许多国家的高中数据。您可以在向全球所有高中推广免费数据科学教育方面发挥重要作用。
请在 【电子邮件保护】 将您的高中名单发送给我们!
特别鸣谢
我们要感谢大卫对这个项目的巨大贡献。他提供给我们的列表对我们今天发布的公告产生了重大影响。感谢所有已经在使用 DataCamp 教室的教师和学生,感谢他们帮助我们在全世界传播免费的数据科学教育。点击此处https://www.datacamp.com/groups/classrooms了解更多信息并申请 DataCamp 课堂。如果您有任何问题,请访问我们的常见问题解答。
data camp Digest 2021 年 4 月:为您的数据团队提供动力的技术
Gartner 的 2021 年魔力象限提到了数据科学领域的“创新过剩”和 ML | Venture Beat
Gartner 表示,随着数据科学和机器学习平台继续获得牵引力,该行业充满了创新和有远见的路线图。这篇文章分解了这个领域的挑战者、领导者和梦想家。
2021 年 AI 指数报告 |斯坦福大学
这份报告试图捕捉人工智能在不同地区和行业的发展状况。它提供了人工智能研究和开发、技术进步、伦理挑战、教育等状况的全景。
新的可能:人力资源如何帮助建立未来的组织 |麦肯锡
在这份报告中,麦肯锡分析了人力资源在帮助组织在大流行后的世界中茁壮成长的重要性。它涵盖了广泛的主题,从技能提升和再技能,采用新的组织模式,适应公司文化,等等。
新冠肺炎怀疑论背后的数据可视化 |麻省理工学院可视化小组
麻省理工学院可视化小组的团队分析并可视化了超过 50 万条推文和 41,000 个表达新冠肺炎怀疑论的可视化内容。看看他们的仪表板。
您的数据团队使用的是:分析堆栈 | Justin Gage
从数据收集到仓储、转换和洞察,对分析堆栈中使用的各种工具进行了非详尽但简明的细分。
我们未能建立一个数据目录 3x。这就是为什么
随着数据团队的成熟和组织利用的数据量的增加,创建用于数据可发现性的工具势在必行。查看 Atlan 团队在创建自己的数据目录时学到的经验教训。
营销优化的数据科学 Airbnb、Lyft 和 DoorDash 的案例研究 | Drazen Zaric
通过数据成熟公司的案例研究,了解数据科学如何优化营销活动支出、提高转化率和增加客户终身价值。
优步迈向更好数据文化的旅程 |优步工程
在这篇博客文章中,优步工程团队概述了数据团队在扩展数据科学时面临的挑战,以及他们如何解决这些挑战。
应用机器学习资源 |尤金·严
这是一套全面的论文、文章和博客,介绍了成功的数据成熟组织如何解决应用机器学习问题,包括数据质量、数据工程、创建特征存储、建模等。
砰然一声
Ploomber 是一个 Python 包,用于为数据科学和机器学习构建数据管道。在给定的管道中,任务可以是 Python 函数、笔记本、Python/R/Shell 脚本和 SQL 脚本中的任何内容。
网络研讨会:讲述更有影响力的数据科学
在本次网络研讨会中,德勤的 Gert de Geyter 和 Bhavya Dwivedi 概述了数据科学的讲故事技术,以围绕数据项目和计划获得更好的组织一致性。
博客:数据科学如何改变医疗保健
这篇博客文章概述了在医疗保健中实施数据科学时面临的主要挑战和机遇,以及数据培训对于医疗保健组织如何成为数据驱动型组织至关重要。
数据营文摘 2021 年 2 月:新常态趋势
欢迎来到全新的 DataCamp Digest:数据领域关键主题的月度综述。本月将涵盖新常态的趋势,2020 年人工智能的状态,open-AI 的新 DALL。e 算法、数据质量最佳实践等等。
下一个常态的趋势 |麦肯锡
2020 年和疫情改变了一切。2021 年将是过渡的一年,从一种“正常”到另一种“正常”。从加速的数字化转型到工作未来的曙光,将塑造新常态的趋势是什么?
2020 年全球人工智能状况调查 |麦肯锡
随着整个组织越来越多地采用人工智能,今天哪些业务领域获得了最大的价值?是什么将领导者与该领域的其他人区分开来,在企业中扩展机器学习仍然存在哪些挑战?
现代数据堆栈的过去、现在和未来 | DBT
在过去的十年中,我们看到了现代数据堆栈中工具的爆炸式增长,使数据科学家和分析师能够更快地从数据获得见解。本文将仔细研究数据工具栈的历史、它的缺点,以及如何在考虑数据民主化的情况下设计下一代数据工具。
达尔。e:从文本中创建图像
OpenAI 推出了一种基于 GPT-3 的新深度学习算法,经过训练可以从文本描述中生成图像。看看它在文章中的表现,以及人工智能生成的“穿着芭蕾舞裙遛狗的小萝卜”看起来是什么样子。
提升技能共享繁荣 |世界经济论坛
随着我们向未来工作的过渡,技能提升变得前所未有的重要。这份世界经济论坛报告概述了对主要技能提升计划的需求、跨广泛行业和地区的技能提升的经济案例,以及组织目前可以做些什么。
人民+人工智能指南 |对
这本谷歌开发的指南为产品经理、项目经理和设计师提供了一系列关于界定和评估人工智能项目的最佳实践的资源。—配对
Airbnb 的数据质量 | Airbnb
在这一系列文章中,Airbnb 数据科学团队概述了其数据质量计划,以及它如何能够为整个组织的数据质量定义一个共享的黄金标准。这一系列文章提供了如何在整个组织中增加对数据的信任的极好概述。
risk ified 的数据科学团队如何选择研究内容
在本文中,Riskified 的数据科学副总裁 Elad Cohen 概述了 Riskified 的数据科学团队如何确定和优先考虑研究和产品开发的新方向。
使用 Python 进行最佳机器学习 | Lukas Masuch
这个 GitHub 知识库是一个每周更新的列表,包含 840 多个 Python 开源项目和数据集,涵盖 32 个不同的类别,从机器学习、数据可视化、推荐系统、数据管道、流等等。
机器学习操作 | INNOQ
想了解更多关于 MLOps 的信息?了解 MLOps 的动机、管理端到端机器学习工作流时的最佳实践以及当今 MLOps 中的工具状态。
SQL 异常检测 | Haki Benita
本文深入探讨了如何构建一个简单的异常检测系统,该系统仅使用高中级别的统计数据和 SQL。
【2021 年数据趋势:数据流畅之年
阅读我们的白皮书,了解数据科学如何走向进一步民主化,以及 2021 年及以后将如何由数据流畅性来定义。如果你更喜欢视频而不是阅读,你可以观看我们的网络研讨会。
捐赠 25,000 份 DataCamp 订阅
我们加倍承诺为那些受疫情影响最严重的人捐赠免费的 DataCamp 订阅。在这篇博文中找出你能帮上什么忙。
data camp Digest 2021 年 7 月:AI 法规?沙盒似乎是解决方案
DataCamp Digest 是我们的时事通讯,旨在提供所有数据科学方面的最新见解和新闻。在本期时事通讯中,我们讨论了算法招聘的阴暗面、合规创新的人工智能沙箱的兴起、我们人工智能的未来等等。
人工智能会给我们带来渴望已久的悠闲生活吗? |播客:以斯拉·克莱恩秀
山姆·奥特曼是 OpenAI 的首席执行官,该研究实验室开发并推出了 GPT-3。山姆是摩尔定律的忠实信徒,该定律认为,尽管计算机成本不断下降,但计算能力每两年翻一番..奥特曼预测,由 GPT-3 预示的高度智能代理的出现,将产生一个“万物的摩尔定律”,解锁更高质量和更实惠的住房,医疗保健,教育,你能想到的。请收听该节目,了解更多关于奥特曼对人工智能未来的看法。
为了规范人工智能,尝试在沙盒里玩游戏
人们越来越有兴趣使用“监管沙箱”来管理人工智能,而不妨碍创新。这使得组织可以在向公众推广新技术之前,在低风险、受监控的环境中开发和测试新技术。这将如何改变人工智能的格局?多读点了解一下。
谷歌人工智能设计的芯片告诉我们什么是智能的本质 | TNW 神经
谷歌的人工智能研究团队建立了一个强化学习模型,帮助该公司设计更高效的芯片。随着芯片中元件的增长,为每个元件找到最有效的位置是一个重大挑战。了解谷歌如何利用人类和人工智能来解决这个问题。
麻省理工科技评论
在这段播客中,ZipRecruiter 的首席执行官和 LinkedIn 算法职位匹配系统的设计师之一讨论了算法招聘实践的优势和劣势。尽管软件可以加快招聘过程,但算法可能会根据种族、性别,至少在一种情况下,根据你是否在高中打过曲棍球,得出有偏见的结果。
人工智能现在可以用一个单词模拟图像中的文字风格了 |脸书人工智能
脸书人工智能的团队开发了一种自我监督学习算法,可以仅使用一个训练样本来模拟照片中文本的风格。很快,编辑图像中高度风格化或手写的文本将像复制粘贴一样简单。
全球人工智能活力工具 |斯坦福大学以人为中心的人工智能
全球人工智能活力工具是一种交互式可视化工具,允许对多达 26 个国家的 22 项指标进行跨国比较。该工具根据研究、经济和包容性等广泛类别,对各国的相对地位进行透明评估。
Airbnb 如何大规模标准化公制计算第一部分| Airbnb 科技博客
随着数据仓库的不断扩大,在不同部门和团队之间创建、管理、计算和分发数据的挑战也在不断增加。了解 Airbnb 为什么要建立 Minerva,以及该软件如何让他们将数据转化为可操作的策略。确保你读了故事的第二部分。
组织应遵循的 9 条人工智能伦理原则 |世界经济论坛
越来越多的组织开始制定伦理章程和原则来指导他们的人工智能发展。在这篇文章中,普华永道负责任的人工智能团队列出了开发人工智能的 9 条道德原则,可供当今任何组织利用。
探索网飞的数据 |网飞科技博客
为组织中的各种数据角色提供对相关数据的轻松访问绝非易事。在这篇文章中,网飞大学的团队概述了他们如何使用内部数据资源管理器工具扩展数据访问,以及他们如何开源该工具供全世界使用。
IVY:模板化的深度学习框架 |深度学习周刊
Ivy 是一个模板化的深度学习框架,通过包装现有框架的功能 API,最大化深度学习代码库的可移植性。目前支持 Jax,TensorFlow,PyTorch,MXNet,Numpy。
Orbit,一个用于时间序列干扰和预测的开源包 |优步工程
Orbit 是优步团队新开发的贝叶斯时间序列建模软件包。Orbit 背后的目标是创建一个易于使用、灵活、易集成和高性能的工具,同时允许简单的模型说明和分析,但不局限于模型的一个小子集。
Gradio:为您的 ML 模型原型创建快速 ui| Gradio 团队
创建用于测试机器学习模型的用户界面有时会很耗时。Gradio 是一个开源工具,可以让您创建简单的界面来演示您的模型。
网络研讨会:发展人工智能文化国家
在这次炉边谈话中,人工智能创新总监 Laurence Liew 和人工智能新加坡公司人工智能创新高级副总监 Koo Sengmeng 将深入探讨人工智能新加坡公司的使命以及它如何在全国加速人工智能的采用。
白皮书:负责任的人工智能的数据素养
在这份与 DataRobot 的可信人工智能团队共同撰写的白皮书中,我们概述了开发负责任的人工智能的重要性、数据团队和组织可以采用的实用解决方案,以及数据素养在扩展负责任的人工智能时发挥的关键作用。
播客:#64 通过数据可观察性建立对数据的信任
在这一集的 DataFramed 中,Adel 采访了蒙特卡洛首席执行官兼联合创始人 Barr Moses,探讨了数据质量的重要性,以及数据团队如何利用数据可观察性来建立对数据的信任。确保收听和订阅你最喜欢的播客应用程序。
数据营文摘 2021 年 3 月:面向未来的组织的特征
DataCamp Digest 是我们的月度综述,旨在提供所有数据科学方面的最新见解和新闻。在本期中,我们将讨论为何难以实现数据驱动、面向未来的组织的特征、如何采用产品思维来构建仪表盘等。
为什么成为一家数据驱动的公司如此困难? |哈佛商业评论
2021 年,做一个成功的公司,就是做一个数据驱动的公司。这就是为什么大多数财富 1000 强企业都在投资数据和人工智能计划的原因。尽管进行了投资,但只有少数公司报告了实际的业务影响。了解数据文化和技能如何成为利用数据科学扩展价值的主要障碍,以及如何应对。
如何在你的公司培养数据素养 |麻省理工学院斯隆管理学院
与构建数据文化的主题一致,本文深入探讨了在组织中构建数据素养计划。从评估数据技能到建立学习文化,找出成功的数据素养计划的关键要素。
面向未来的公司的九大特征 |麦肯锡
一个有趣的交互式信息图,展示了面向未来的组织的主要特征。提示:数据和学习是面向未来的组织加速发展的基本支柱。
为什么视频通话这么累?你可能会误读文化风格 |溢出
本月我们最喜欢的读物之一,这篇文章深入探讨了不同的沟通方式,以及它们如何改善或恶化远程工作。
一个问题让您的数据项目价值提高 10 倍 |旁白
通过询问一个重要问题,了解如何推动更好的一致性并影响数据分析请求。
如何使用产品思维方法制作仪表盘 | Shopify
仪表板是在组织中构建的最简单、最有影响力的数据产品之一。在这篇文章中,Shopify 数据科学家 Lin Taylor 概述了一种产品思维方法,以在为组织开发仪表板时最大化影响。
为什么外部数据应该成为您数据战略的一部分 |麻省理工学院斯隆管理学院
随着组织开始充分利用他们的数据进行分析和机器学习,他们将需要开始利用外部数据集来完善他们的模型和分析输出。在本文中了解更多关于外部数据集的重要性。
数据可观察性:使用 SQL 构建数据质量监视器 |巴尔·摩西&瑞安·卡恩斯
在这一系列文章中,Barr Moses 和 Ryan Kearns 概述了如何在 SQL 中构建数据质量监视器来识别新鲜性和异常(第 1 部分),并提取这些数据异常的根本原因(第 2 部分)。
可解释的机器学习 |克里斯托夫·莫尔纳尔
在本书中,Christoph Molnar 详细介绍了可解释的机器学习的重要性,数据团队今天可以采用的技术,以及机器学习可解释性的未来。
白皮书:我们的数据科学开源指南
正如软件开发一样,开源将使组织能够充分利用他们的数据,并利用机器学习和数据科学创造变革性的解决方案、流程和产品。在我们的独家新指南中,找到您需要了解的关于数据科学开源的所有信息。
网络研讨会:数据流畅之路
数据驱动的转型是一个漫长的过程,需要组织经历不同的数据成熟度阶段。在本次网络研讨会中,我们概述了这些数据成熟度阶段,以及从一个数据成熟度阶段发展到另一个阶段可以采取的步骤。
数据营文摘:人工智能在国家安全中的未来
DataCamp Digest 是我们的时事通讯,旨在提供所有数据科学方面的最新见解和新闻。在本期时事通讯中,我们将讨论聊天机器人技术的最新进展、人工智能在政府中的未来、疫情之后的数字化转型等等。
数字化转型后的疫情 / 麻省理工学院斯隆商学院
新冠肺炎疫情暴露了许多关于数字化转型的过时假设。技术公司一夜之间转向支持远程工作、远程学习和其他计划。在本文中,了解在疫情之后保持数字化转型需要关注的四个关键计划。
用 AI 取胜是一种心态 / 麦肯锡分析
从在小团队中进行人工智能(AI)实验到大规模获取长期价值,需要在转变思维模式和组织文化方面进行投资。了解如何实现这一转变,成为一个真正由人工智能驱动的组织。
AI 在政府中的未来 / 德勤洞察
当提到人工智能在政府中的使用时,事情会变得有点紧张,特别是在国防领域。在本期播客中,美国前国防部副部长鲍勃·沃克(2014-2017)讲述了奥巴马和特朗普执政期间对人工智能的认知和使用。
在人工耳蜗中应用高级语音增强 / 谷歌人工智能博客
助听器可以帮助减轻重听的症状,但是放大声音有时是不够的。在这篇文章中,谷歌人工智能团队讨论了人工耳蜗如何结合使用人工智能的语音增强功能,进一步为听力障碍者提供更好的生活质量。
为什么人工智能难以识别社交媒体上的有毒言论 / 斯坦福海
如果人工智能警察如此高效,比人眼更聪明,更快,为什么我们仍然无法从社交媒体帖子中删除假新闻和有毒消息?在斯坦福以人为中心的人工智能研究所的深度潜水中了解更多。
DeepMind 表示将公布科学界已知的每一种蛋白质的结构 / 麻省理工科技评论
当 DeepMind 通过使用 AlphaFold 预测蛋白质结构解决了一个 50 年的挑战时,它震惊了生物界。现在,这家总部位于伦敦的公司已经开放了其 AlphaFold 算法,并宣布已经用它来预测人体内的几乎每一种蛋白质,这将使生物学家更好地了解疾病并开发新药。
构建数据平台的快速指南 / 蒙特卡洛数据
在当今快速变化的行业中,构建数据平台不再是一件美好的事情,而是一件必须要做的事情。蒙特卡洛首席执行官巴尔·摩西(Barr Moses)加入了我们的数据框架播客,讨论了构建数据平台所需的六个层次。
数据工程师聚焦(网飞) / 网飞科技博客
网飞的数据工程师凯文·威利分享了他从 MySpace 到加入网飞的历程。凯文在网飞的故事始于设计网飞娱乐知识图表的任务,以管理一个拥有不同背景和技能的伟大团队。
用 ML 管理供需 / Doordash 工程博客
在当今的按需经济中,为了管理不确定性和提高产品的可靠性,持续监控需求峰值非常重要。Doordash 的机器学习模型使他们能够在本地化水平上优化供应和需求,以实现收入最大化。
Airbnb 如何衡量未来价值以标准化权衡/Airbnb 科技博客
随着组织的成长,决策制定可能会变成一系列的权衡,对某些利益相关者有利,而对其他人不利。了解 Airbnb 如何实施分数匹配模型来优化组织的决策流程。
赋予聊天机器人长期记忆,深入探究 BlenderBot 2.0 / 脸书 AI
Blender 1.0 最初于 2020 年开源,显示出在单个系统中结合对话技能(如个性、移情和知识)的突破性能力。现在,脸书发布了 BlenderBot 2.0,它建立在 BlenderBot 1.0 的基础上,具有长期记忆和在互联网上找到相关答案的能力。
OpenAI 发布面向 AI 工作负载优化的编程语言 Triton/VentureBeat
最近的人工智能模型通常涉及自然语言处理、计算机视觉和其他领域。这些模型严重依赖合适的多核硬件,如 GPU,这使得运行这些模型既昂贵又低效。OpenAI 发布了 Triton,这是一种开源的类似 Python 的编程语言,使您能够为 AI 工作负载编写高效的 GPU 代码。
网络研讨会:学习领导者的数据流畅性指南
在本次网络研讨会中,DataCamp 的数据科学传播者 Adel Nehme 解释了什么是数据流畅型组织,并探讨了组织应该培养哪些数据流畅型能力领域。观看点播网络研讨会,了解如何扩展您的数据人才转型计划。
播客:#66 构建数据文化之路
在本期 DataFramed 中,安联比荷卢经济联盟区域首席数据和分析官 Sudaman Thoppan Mohanchandralal 探讨了在您的组织中构建数据文化的重要性,以及如何实施数据文化转型计划。
网络研讨会:利用数据科学防止欺诈和促进电子商务
在本次网络研讨会中,我们与数据科学和 Riskfield 副总裁 Elad Cohen 讨论了如何实施不同的模型来帮助您防止电子商务网站上的欺诈,同时让您的消费者安全地进入结账页面。
数据营捐赠 Q1 2022 文摘
今年年初是加速 DataCamp 捐赠计划的绝佳时机。事实上,世界慢慢开始从 COVID 中复苏,非营利组织需要额外的支持,以最好地装备他们的员工和成员迎接未来。此外,出现了新的国际紧张局势,DataCamp Donates 希望支持直接参与全球人道主义救援的新合作伙伴。
新的合作伙伴和许可证:打破记录
在 Q1 2022 中,我们加入了 32 家组织,这是有史以来单季度加入 DataCamp 捐赠的合作伙伴组织数量最多的一次。
我们自豪地欢迎了 29 位新面孔和 4 位回归的合作伙伴:
- 总计超过 4500 个许可证
- 与 2021 年第四季度相比,许可证数量增加了 74%。
| 归来的伙伴 |
| | | |
| 新伙伴 |
| 180 度咨询 | 后鲁汶 | 【巴西课件】 |
| 码社@ VCE | 代号 | 数据点亚美尼亚 |
| 快速数据科学社 | 弗雷德·布兰登火焰基金会 | Gaari 天赋 |
| | 这一来学院 | GDSC |
| | GDSC | GDSC |
| GDSC 图普马尼拉 | 海天教育&领导力项目 | |
| 哈佛广场数据分析集团 | 【激励一代人与人性支持基金会】非洲 | 它步柬 |
| 朝鲜科学文化教育社团联合会 | 妈妈们码社区 | PyData 内罗毕 |
| | 图灵俱乐部 | WiDS 哥斯达黎加 |
他们对我们的评价:给予的艺术
GBIF
我们很荣幸与全球生物多样性信息中心 GBIF 合作,帮助他们的成员成为数据专家。一个由世界各国政府资助的组织,旨在提供关于地球上所有类型生命的数据的方便和开放的访问。他们的任务一年比一年更加重要,全球变暖的后果也更加明显。
subhiksha
Sushiksha 为刚开始职业生涯的康卡尼学生提供支持。康卡尼人是印度的一个少数民族语言群体。我们很高兴能帮助他们的社区取得成功,最终让他们的文化在他们的国家和世界范围内得到更多的关注。
Gaari Talent
Gaari Talent 赋予索马里妇女数据科学技能,使她们融入国家劳动力队伍,并帮助她们突破就业玻璃天花板。索马里妇女从事全职工作的可能性比索马里男子低七倍。她们仅占索马里劳动力的 31%,相比之下,撒哈拉以南非洲地区妇女的平均比例为 45%。由于 DataCamp,Gaari Talent 向索马里妇女提供了数百份数据奖学金,并与乐施会合作,向这些妇女提供免费电脑。
回复:编码
Re:coded 始于 2016 年,数百万伊拉克人因 ISIS 的崛起而流离失所,住进难民营。他们组织了一个编码训练营来培训伊拉克人,提高他们在东道国的就业能力。今天,他们扩展到也门和土耳其,95%的成员在完成他们的数据科学计划后找到了工作。DataCamp 很荣幸第二年与 Re:coded 合作,帮助他们支持全球数百名校友。
国际扩张:说“嗨!”去 3 个新的国家
DataCamp Donates 尽可能广泛地传播其根基,因为数据科学挑战现在在全球范围内变得更加相关,因为我们应该致力于平等地为每个国家服务。在 Q1 2022 年,我们迎来了来自 22 个不同国家的组织,而捐赠计划首次在 3 个新国家开展:索马里、哥斯达黎加和亚美尼亚。
DataCamp Donates 目前在 90 多个国家开展业务。
接下来会发生什么?将 DataCamp 捐赠的影响力提升到 Q2 的新高度
支持乌克兰难民
自俄罗斯入侵乌克兰以来,DataCamp 的社会影响小组一直在加倍努力,与向乌克兰难民提供直接支持的主要组织合作。
我们很高兴与世界领先的人道主义救援组织之一的直接救援组织合作。迄今为止,直接救济已经为乌克兰难民提供了价值超过 2 亿美元的医疗和必需品。 DataCamp 将使直接救援的团队能够提高救援和反应的准确性和有效性。
我们不会就此止步。我们已经与其他应该欢迎乌克兰难民的非营利组织建立了合作伙伴关系,如 Niya 和 PowerCoders,以及欧洲教师的其他私人努力。此外,由于波兰欢迎大部分乌克兰难民,我们优先考虑将 DataCamp 用于波兰所有中学的教室,并自豪地宣布,自 2022 年 5 月 8 日起,所有波兰高中和大学的教师和学生都可以免费访问 DataCamp。
申请延期至 2022 年 5 月 31 日
DataCamp 捐赠申请截止日期延长至 2022 年 5 月 31 日!全世界的非营利组织都有资格免费使用 DataCamp。成为当地英雄倡导全民数据扫盲并加入全球数据营社区捐赠合作伙伴,如直接救济、CDP、叙利亚青年大会、护理权利、数据中的妇女、海地教育和领导计划等。
现在就在这里申请:https://www.datacamp.com/donates/apply,或者通过 【电子邮件保护】 联系我们,这样我们可以帮助您并回答您可能有的任何问题。
DataCamp 捐赠摘要 Q3
原文:https://web.archive.org/web/20230101103145/https://www.datacamp.com/blog/datacamp-donates-digest-q3
我们的目标是什么?
这件作品的主要目的是以一种健康的方式展示我们的合作伙伴所做的出色工作。在一个好的场景中,这些故事会提到数据科学,在一个理想的场景中,直接应用在 DataCamp 中学到的技能,但这不是一个硬性规定。只要他们与 DataCamp 合作,就可以认为他们已经从我们这里学到了知识,并在一定程度上应用了这些知识。第二,通过展示我们关注我们的合作伙伴在做什么,并偶尔给出这种“做得好”的信息,我们展示了与他们的良好关系——就像在社交媒体上分享他们的帖子一样。这不仅会提高 DataCamp 的品牌形象,还会鼓励更多人申请 DataCamp 捐赠。
对我们许多人来说,2021 年第三季度是期待已久的“回归常态”,这在去年占据了头条新闻。2020 年是 DataCamp 捐赠的丰收年,因为我们的使命是让教育经历充满挑战的时期,本季度我们很高兴看到许多合作伙伴组织继续开展慈善活动。他们利用 DataCamp 的内容来提高员工和志愿者的技能;他们从著名的来源获得了资金;他们宣布了新的伙伴关系;许多人做了惊人的工作,向我们无法接触到的群体传播数据知识。
季度回顾
DataCamp Donates 自豪地与 100 多家组织合作,从学生俱乐部到国际非政府组织,通过这些组织,我们向那些可能没有机会学习数据科学的人免费提供我们的内容。
仅在第三季度,我们就共同取得了一些令人印象深刻的统计数据:
- 20 多个新组织加入了我们的合作伙伴名单
- 迄今为止,已向 29 个不同国家的学习者捐赠了 3,763 个许可证,DataCamp 捐赠学习者投入了大量的工作:
- DataCamp 向学员捐赠了 226,000 小时的学习时间
- 已完成 52,000 多门课程,Python、SQL 和 R 是最受欢迎的三大技术
- DataCamp 进行了 8,200 多项技能评估,并捐赠给学员
在本节中,我们将为您呈现一系列来自合作伙伴组织的成就和成功案例!
https://web.archive.org/web/20220524193002if_/https://www.youtube.com/embed/liqsegAtzi0
美国有线电视新闻网的采访
Blossom Academy 旨在提升加纳专业人士技能的使命最近在 CNN 的《大创意是什么》专题中被特别报道。
碳披露项目| 任命为欧盟委员会 CDP 负责人
CDP Europe 的政策参与总监 Mirjam Wolfrun 最近被任命为 EFRAG(一个致力于实现欧盟可持续发展报告标准的特别工作组)的成员,这是他们向帮助企业披露其环境影响信息的使命迈出的一大步。
学习是有回报的:通过创造就业的数据技能培训加速柬埔寨后 COVID 时代的崛起
DataU 最近与美国国际开发署合作,在为柬埔寨弱势青年提供数据科学教育方面取得了又一重大进展。
FareShare | 年度慈善
FareShare 被慈善时报奖评为今年的年度慈善机构!通过与英国大型连锁超市 ASDA 的合作,FareShare 将数十万份原本会被送去垃圾填埋场的饭菜重新分发给有需要的人。
加沙天空极客| 与谷歌合作
加沙天空极客最近获得了一笔赠款,让他们的学生获得谷歌认证。这一举措得到了雇主的认可,将对培养巴勒斯坦的年轻技术人才产生巨大影响!
地面真相解决方案| 返回中非共和国
本季度中非共和国安全局势的改善意味着“地面真相解决方案”能够恢复其在那里的工作,以评估公众对新冠肺炎人道主义反应的看法。
开放知识尼泊尔| 协助尼泊尔的跟踪和追踪系统
新冠肺炎疫情对尼泊尔的打击很大,在图尔西布尔镇,当地政府很难掌握病例的数量和严重程度。尼泊尔开放知识组织被选中参与一个项目,该项目收集病例数据,并利用这些数据对医疗资源需求提出建议。他们的博客详细描述了所发生的事情,以及他们从中学到了什么。
里弗斯信托| 里弗斯信托的创始人受到女王的表彰
河流信托基金的创始人 Arlin Rickard 最近被授予英国皇家颁发的一项著名奖项 OBE,以表彰他们数十年来为当地社区和野生动物改善英国河流健康状况的工作。
她代号非洲| 我们今天 5 岁了!
祝 She Code Africa 五周年快乐(姗姗来迟),这五年来,她一直致力于增强非洲女性的科技能力!
简单步骤社区联系| 顾问成为松下首席执行官
Megan Myungwon Lee 是 Simple Steps Community Connection 的顾问,最近被任命为松下北美公司的首席执行官。怀着为美国女性移民人才赋权的共同热情,李为 SSCC 提供了宝贵的指导,并与他们一起主持了一场网络研讨会。
可持续有机综合生计| 海地地震后的重建
2021 年夏天,海地南部遭受地震重创,超过 65 万人需要援助。SOIL 开始向需要临时住所的人运送帐篷和氯片等物资,以净化被污染的水,最近他们将重点转向重建人们的房屋。
此外,本季度我们还分享了一些自己的成功案例!
- 是通过美国和英国的老师免费提供给高中学生的——我们希望将来能在全世界推广!
- DataCamp for Mobile 是超过四分之一的发展中国家用户访问我们内容的主要途径——我们最近发表了一篇文章,详细介绍了如何改进我们的应用程序,该应用程序旨在为“午休学习者”,即有五分钟空闲时间的人,扩展到扩展整体数据素养。
- DataCamp 最近与 Omdena 合作,提升他们全球团队的技能。Omdena 是一个人工智能工程师组织,旨在将他们的技能用于社会公益,如改善粮食安全或规划自然灾害后的资源分配。他们在 DataCamp 上的学习帮助他们提高了机器学习、编程和数据处理的技能。您可以在我们新的案例研究中了解更多关于我们合作关系的细节!
2021 年第 3 季度的新合作伙伴和回归合作伙伴
伙伴 | 伙伴 |
---|---|
10 学院 | 美国青年领袖联盟(AYLUS) |
百花学院 | 隔断线教育 |
创造编码职业 | 好奇的休息室 |
请注意 | aydinga 基金会 |
GDG 伊斯兰堡 | 绿林项目 |
国际咨询网(图标) | 启动代码 |
妈妈重启 | 质押百分比 |
按奖学金 | 伪实验室 |
河流信托 | 创业社区服务 |
SET.hacks() | 简单步骤社区连接 |
斯里曼信托公司 | 可持续有机综合生计(土壤) |
数据中的女性 | - |
最后,我们从合作伙伴那里收到了一些可爱的“谢谢”!
“大数据是当今席卷全球的所有变革驱动力的核心,从社会经济到智能手机到云计算再到游戏。感谢 DataCamp 为学习数据技能的应用程序提供了如此巨大的框架。” — 尼泊尔代码
“感谢数据营#数据营捐赠人相信我们的使命,即激励更多女性投身数据科学。” — 数据科学领域的女性麦德林
“在 Women in Data,我们将教育视为我们的核心支柱之一,因此,由于 DataCamp 的捐赠,我们很高兴为我们的所有成员提供为期 12 个月的免费 DataCamp 访问!DataCamp 让每个人都可以轻松地学习特定于其角色或目标职业的新技能。”——赛迪·圣劳伦斯,女性数据公司的创始人兼首席执行官
我们的使命是让数据素养民主化:你可以在我们的合作伙伴页面上申请加入数据营捐赠活动。我们还为大学讲师以及英国和美国的高中教师免费提供课堂的数据营——如果你在这些行业工作,你今天就可以申请。或者,通过告诉你的老师/讲师这个计划来传播这个消息!
DataCamp 捐赠是向数据分析师职业过渡的最佳方式
尽管年轻的专业人士被告知这些花言巧语,职业道路和面试过程是最远离线性的事情。这更像是第一次坐过山车:充满了曲折、急转弯、山丘、令人惊讶的大落差和环路,有时会让我们回到起点。这适用于我的职业道路和我在过渡到科技行业时面临的求职过程,但在 Breakline 和 DataCamp 捐赠的帮助下,旅程似乎顺利得多。
研究生一毕业,我就开始了金融职业生涯,这个领域对我来说是陌生的,超出了我以为大学毕业后等待我的范围。市场运行的方式毫无意义,我总是想象华尔街只对极其富有的人开放。我尽了最大努力来运用我的数学和编程技能,但总是不满意,不被赏识,也不承担我的责任。这对我投入的时间和精力几乎没有影响,所以我决定重新开始找工作。
LinkedIn 和我建立的个人关系是我在数据科学领域确定职位的第一选择。定量分析和数据科学之间的联系似乎是合乎逻辑的。几个月过去了,数百份申请都没有回音,我越是看不到任何希望,就越是绝望地想要找到一份工作。直到有一天,暴线教育的一名代表向我介绍了他们的项目,该项目帮助女性、POC 和退伍军人将职业生涯转移到科技行业。隔断线帮助你写简历,执行完美的电梯推销,回答行为问题,谈判工资,等等,来描绘你的技能如何符合工作描述的画面。这个令人惊叹的项目增加了我进行对话和进入面试的信心,但对我来说最大的困难是面试的技术筛选和案例研究部分。
拥有数学学位,人们会认为我不会害怕技术问题,但当我面对技术筛选时,面试官会问我:“1+1 是什么?”经过一番摸索后,我的答案是三。无论我做了多少练习题,读了多少书,看了多少视频,似乎都没有帮助或给我信心在这一阶段取得成功。在表达了这些担忧之后,Breakline 与 DataCamp Donates 合作,为其参与者提供免费访问这个在线平台的机会,我是第一批获得访问权的人之一。
从第一天起,我就迷上了数据营,因为我有太多的活动可以选择:课程、评估和项目。职业生涯让我致力于构建和巩固我的 R 和 SQL 知识,同时提高我的 Python 技能。每天,当我坐在沙发上,和我的伴侣一起看电视时,我会把我的笔记本电脑放在我的膝盖上,花一个或四个小时进行编码。晚上躺在床上,我会在手机应用程序上完成多项选择知识练习。该平台使学习变得有趣和互动,与我尝试过的其他项目相比,它通过慢慢增加练习题的难度来让你进行批判性思考。
增加我的知识很重要,因为我是终身学习的倡导者,而排行榜更是激励我这样做的原因。一旦我找到了排行榜,我的竞争天性就爆发了,我需要粉碎竞争。在学习成为一名成功的数据科学家所需的技能的同时,参加比赛并保持领先是一件非常有趣的事情。这让我对自己的能力更加自信。我为接下来的技术面试做好了准备。对我来说幸运的是,这次面试是在谷歌,一家我对有机会为之工作感到兴奋的公司,但实际为之工作的前景似乎难以置信。
随着面试的临近,DataCamp 继续很好地为我服务。我练习统计测试和机器学习算法,以确保我的假设检验、p 值、对数回归和 k 均值聚类的知识在我的头脑中根深蒂固。对于我知道我将在面试中面对的案例研究来说,无指导案例研究是极好的练习。这些作业有助于确保我的 R 和 SQL 知识为技术筛选做好准备。我准备好了,有史以来第一次,我走出面试时没有感到失败的恐惧,而是胜利了,因为我尽了最大努力来展示我的技能。DataCamp 帮助我在面试中感到自信,当我开始在谷歌工作时,它继续帮助我取得成功。无论我的职业道路接下来会把我带到哪里,我知道我会有 DataCamp 作为辅助工具,帮我度过过山车。
数据营捐赠 Q2 2022 文摘
随着今年第二季度的结束,DataCamp 与新老合作伙伴的捐赠继续保持强劲势头。我们欢迎 25 个新的非政府组织加入该计划,以及 11 个熟悉的非政府组织,他们非常愿意重新点燃自己的使命,向其成员传播数据素养。总的来说,我们已经加入了 36 个组织,这是 DataCamp 捐赠计划的季度最高纪录。
说到季度新高,仅在 2022 年的 Q2,我们向有需要的人提供的许可证就超过了 DataCamp 捐赠计划第一年的总数!这要感谢我们出色的合作伙伴。
| 阿杜尼数据 | 加纳的 AIESEC | 应用数学&数据科学俱乐部 FTU2 | 明爱 | 伤害预防中心&控制(CIPC) |
| 百合文化中心和 edilbot montemayor segue | 直接卸压 | EnFocus | Fiuba 咨询俱乐部 | Fundapi |
| 巴赫利亚大学谷歌开发者学生俱乐部 | 突尼斯的 GDSC 国家工程学院 | GDSC 黎巴嫩大学 | GDSC 维多利亚大学 | 一代英国 |
| Pathcehck 基金会全球健康研究所 | 获奖者科学创新与教育中心 | MLSA 苏库尔律师大学 | 尼娅 | QSIDE 研究所 |
| 印度尼西亚 RISTEK Fasilkom 大学 | 释迦牟尼 | 技能实验室 | STEM 教育学院 | 菲律宾大学统计学会 |
回归合作伙伴:让数据科学教育更上一层楼
| |
| 贝鲁特艾 | CDP | 为妇女基金会 | GDSC 费聿锋大学 | GDSC·赫尔万 |
| 陪同人员 | 功率编码器 | 她代号非洲拉各斯大学 | 叙利亚青年大会 | Z 轴 |
在 Q2 会议结束时,我们有 122 个活跃的合作伙伴组织,使用了 32,000 个许可证!这表明 DataCamp 捐赠继续增长,并为数据扫盲建立了一个更广泛的社区。没有他们的帮助,扩展到世界的不同角落是不可能的,因此我们要感谢每一个合作伙伴在向他们的学习者传播高质量数据科学教育方面发挥的独特作用。
但是这还不是全部!我们与世界各地的社区建设组织的合作并不仅限于发放许可证。随着这些许可证的使用,我们也取得了巨大的成功,看到了成功故事的实现。
合作伙伴亮点-值得期待的一年
RISTEK Fasilkom UI
Ristek Fasilkom UI 是印度尼西亚大学的学生组织,从 1989 年开始培养学生对科学技术的兴趣。多年来,他们开发了大量的项目组合,因为他们的价值观是通过创新和包容来创造影响。作为我们在印度尼西亚的第一个学生组织,我们非常高兴能够帮助该组织的学生学习所有关于数据科学的知识,为他们未来的职业生涯做好准备。
Fiuba 咨询俱乐部
Fiuba Consulting Club 是一家由来自阿根廷布宜诺斯艾利斯的学生和应届毕业生创办的组织,旨在弥合理论与实践之间的差距。他们利用咨询的概念,使学生更接近现实世界的问题,并鼓励他们跨学科和创造性地解决这些问题。我们很高兴与他们合作,帮助这些学生提高数据科学技能。哦,我们很高兴通过这次合作来到阿根廷!
技能实验室
来自尼泊尔的 Skill Lab 旨在通过提高大学生的技能、技能或再技能来开发他们的潜力,并缩小学术界和产业界的差距。他们通过为不同类型的工作角色提供高水平的实践培训,并在此过程中整合必要的软技能,来发展学生的技能。我们期待着这一合作伙伴关系带来更多令人兴奋的故事,因为我们的目标是为他们的成员提供必要的数据技能。
为 12,000 名非洲年轻人提供改变人生的数据营奖学金
Q2 2022 成为我们迄今为止最好的一个季度的一个重要原因是我们与我们在 的朋友们重新建立了最富有成效的合作伙伴关系,这是对 的一种永远的侵蚀。I4G 引领了新一代以数据为中心的非洲人。通过向超过 12,000 名非洲人颁发 DataCamp 捐赠奖学金,来自非洲各地的成员可以免费访问 DataCamp,开始学习更多关于数据科学的知识。我们被 I4G 团队和他们所有的学习者带给这项变革计划的热情所震撼。 在这里阅读全文 !
每天一台笔记本电脑,消除技能差距——data camp 向 STEM 教育学院捐赠笔记本电脑
虽然随着我们在该计划中的发展,我们向外看,但我们永远不会忘记我们办事处所在国家的合作伙伴——美国、英国和比利时。社会影响团队和其他 DataCampers 成员一起,自愿抽出时间,用我们捐赠的笔记本电脑指导纽约 STEM 教育学院的学生,帮助这些孩子在 DataCamp 中学习。请继续关注关于这一合作关系的更多令人兴奋的消息!
data camp 的社会影响经理 Nathaniel Taylor-Leach 与 Nikisha 和 Franz Alcindor 一起,他们收到了为参加 STEM 教育学院的哈莱姆青少年捐赠的 20 台笔记本电脑。
谁在统治世界?哥斯达黎加教数据科学的女孩!
哥斯达黎加数据科学妇女组织的成员通过使用 DataCamp,帮助大学和高中学生为下一代女性数据科学家提供适当的教学和工具,以迎接数据驱动的未来。在他们的帮助下,哥斯达黎加妇女有希望获得更好的就业机会。在这里阅读更多关于 的文章!
芝加哥高中的优等生通过格林伍德项目学习数据科学,为未来的金融科技职业做准备
来自绿林项目的金尤美·a 凭借她在数据营学习的经验,获得了一份金融服务行业的实习工作。格林伍德项目是一个非营利组织,旨在通过与公司合作,找到招聘、保留和晋升的公平解决方案,为黑人和拉丁裔学生创造职业道路。 看她有什么要说的!
DataCamp 教室再次扩展到更多的高中
DataCamp 致力于最大限度地利用一切机会,为学校提供最好的数据科学教育和通往成功的自然之路。在短短一年多的时间里,我们为美国、英国、比利时和(最近)波兰的高中教师提供了 130 多间免费的 DataCamp 教室。
自大规模乌克兰难民危机以来,波兰接收了大量寻求庇护的难民。在这些寻求庇护者(尤其是年轻人)规划自己的未来之路时,让他们掌握正确的技能和资源是确保他们获得所需成功的一个好方法。我们一直在寻找各种方法,在不增加全球教育成本的情况下,为人们提供 DataCamp 捐赠等机会。
今天就申请 DataCamp 捐赠,成为你所在社区的英雄
如果您有兴趣加入日益壮大的合作伙伴社区,他们都分享为每个人民主化数据技能的相同阶段,请查看我们的 DataCamp 捐赠页面 此处 。非营利组织有资格获得一年免费访问 DataCamp 的机会,并使其弱势群体能够在我们这个数据驱动的世界中竞争、合作和创造。
代表 https://www.datacamp.com/donates/apply的非政府组织立即申请,或通过 【电子邮件受保护】 联系我们,以便我们可以帮助您解决任何问题。您的数据科学之旅只是一个开始。那里见!
DataCamp 捐赠聚光灯:积极进取
我们非常感激菲利克斯·阿尤拉给我们介绍了《永远的入侵》(I4G)。我们很荣幸能够帮助 I4G 实现其培训 100 万非洲青年并帮助 5000 人找到工作的使命。
你能描述一下你作为 DataCamp 捐赠合作伙伴的经历吗?
Sean Burrowes,联合创始人:I4G 与 DataCamp 建立了合作关系,为我们的社区提供他们的平台。这个过程非常棒。我对 DataCamp 的高度参与印象深刻。对数据营奖学金的需求甚至超过了我们最大胆的估计。这就是为什么我们非常感谢 DataCamp 将他们的承诺从 1,500 个许可证增加到 6,000 个。我希望其他 edtech 公司注意到贵公司的极端慷慨及其产生的巨大积极影响。
祝福传播总监阿本:已经很神奇了。这种合作是天衣无缝的。这个过程非常简单明了。
项目协调员 Haneefah Abdurrahmna Lekki:我们可以很容易地跟踪成员的学习进度。考虑到许多人因为新冠肺炎疫情而失业,DataCamp 的捐赠来得正是时候。我们在科技界的许多社区成员需要提升他们的技能或者完全学习新的技能。
您的社区成员如何看待 DataCamp?
巴:大多数人通过电子邮件和社交媒体分享惊人的反馈。他们太棒了。大多数人都非常满意。
您如何评价他们与 DataCamp 的合作?
哈尔:非常好的婚约。
巴:甚至可以说是非同寻常。
DataCamp 将数据教育民主化的使命如何与贵组织的目标相契合?
HAL:数据在跟踪我们的目标和成功率方面一直很重要。这完全符合我们的目标和目的。
巴:是的。我们都相信,为了更安全的未来,每个人都应该获得高质量的教育和数据技能发展。特别是,我们的目标是让有需要的非洲年轻人掌握技术技能,帮助他们影响和促进非洲的社会和经济发展。通过我们与 DataCamp 的合作,对技术感兴趣的年轻人现在可以获得由行业专家策划的专业技能和职业学习课程,以帮助他们提高数据技能,并向技术职业迈出下一大步。
SB:数据是新的石油。这将使我们能够为未来的技术和第四次工业革命定位我们的非洲技术人员社区。
这种合作关系对您的组织有什么好处?
SB:它增加了社区内的整体参与度和可货币化的技能组合。
巴:这种伙伴关系帮助我们的社区成员提高了技能,这以其自己的方式帮助我们增加了非洲青年的赚钱能力。
你如何看待 DataCamp 上的学习体验?
哈尔:我喜欢用户界面。它非常容易导航。
巴:超级有效。我们的许多社区成员已经在实施 DataCamp 并练习新技能。他们获得了自信来推销自己的工作。
使用 DataCamp 与面对面教育相比如何?
巴:只要你下定决心去做,效果是一样的。
DataCamp 上最有用的功能和工具是什么?
到目前为止你最喜欢的课程是什么?
BA: 电子表格中的财务分析。互动性超强。
你会向其他非政府组织推荐 DataCamp 吗?
哈尔:当然。DataCamp 是全球社区成员学习和提升技能的绝佳平台。
巴:是的。DataCamp 是一个拥有优秀员工的组织,他们会竭尽全力确保高效入职。他们的流程旨在确保两个组织的成功。
是的,我会的。DataCamp 团队太棒了。他们为你提供支持和激情,让你感受到自己的价值。社会影响可能是一个艰难的空间,DataCamp 捐赠无疑使支持那些最需要它的人变得更加容易!
DataCamp 向非营利组织、公立学校和政府机构捐赠合作伙伴,为弱势群体提供一年的免费 DataCamp。我们最近承诺捐赠 25,000 份订阅,许多订阅仍然可用!如需代表组织申请,请通过 【邮件受保护】 向团队发送邮件。有关更多信息和资格要求,请查看我们的常见问题。
课堂数据营现在对比利时中学教师和学生免费开放
当我们敞开心扉去建立一个社区时,在短短的五年里我们所能取得的成就是惊人的。例证:我们现在已经向全球超过 650,000 名教师和学生提供了免费的数据科学教育。这相当于 30 多个麦迪逊广场花园或 O2 体育场的容量(或者 15 个国王巴多因体育场,对于我们在比利时的朋友来说)。
比利时所有中学教室的数据营
说到比利时,我们将教室数据营带到了它的中学!现在,比利时的任何高中教师都可以快速、轻松地申请教室数据营,获得批准后可以免费使用我们的整个课程六个月(包括 Tableau!并邀请他们所有的学生来参加这个有趣的活动。
除了世界各地的学院和大学之外,DataCamp for Classrooms 现在还可以在 DataCamp 设有办公室的每个国家的高中使用:美国、英国,现在是比利时。我们期待将这一服务扩展到全球更多的中学教师和学生。我们的社会影响团队目前正在努力将我们的平台扩展到乌克兰和邻国正在处理难民危机的中学。
如何申请
如果你在这些国家的 32,000 多所高中中的一所教书,你和你的学生可以免费访问 DataCamp 提供的所有内容。课堂数据营你已经覆盖了。您可以在浏览器中学习数据科学概念,并将其应用于个人或学校计算机上的真实数据集,而无需下载任何软件。我们有没有提到你也不需要信用卡?用你学校的电子邮件地址在五分钟内申请。
没错,这不是免费试用。我们不希望教师或学生为数据营自掏腰包。现在不会,以后也不会。我们认为教育是一项基本人权。这就是为什么教师可以每六个月向 DataCamp 重新申请教室,以更新访问权限。我们永远不会向他们要信用卡。不仅如此,他们可以接触到无限量的学生。*
老师们——不要等到秋季学期才开始为数据驱动的未来训练自己。今天就向 DataCamp 申请教室开始学习!只要你是中学、学院或大学的合格教师,DataCamp 将为你和你的年轻学者的整个学术生涯提供支持。
*学生必须年满 16 岁才能在 DataCamp 上注册帐户。在美国,13 至 15 岁的学生,一旦他们的老师得到学生家长或监护人的书面同意,就可以创建免费的数据营账户。很抱歉,12 岁及以下的学生目前无法在 DataCamp 上创建帐户。
教室数据营现在对波兰中学教师和学生免费开放
DataCamp 继续将其全球数据扫盲民主化努力扩展到新的领域。在本书出版时,我们已经通过 DataCamp for Classrooms 让全球超过 700,000 名教师和学生接受了免费的数据科学教育。这个重要的里程碑是我们为全球教师和学生带来数据素养的众多使命之一。
今天,我们很高兴地宣布,我们已经进一步拓展了我们计划的范围。通过我们在各地建立一个数据素养个人社区的坚定愿景,我们正在将课堂数据营带到波兰的中学!
假设您是一名教师,有大量新生涌入,需要一种快速免费访问可靠的数据科学内容的方法。波兰的高中老师可以在不到 5 分钟的时间内轻松申请教室数据营!这使他们能够充分利用我们为他们和他们所有 16 岁及以上的学生提供的全部课程。招聘人员最好为这些学生做好准备,因为他们即将闯入充满创意和活力的科技行业。
教师和学生从课堂数据营中获得了什么?
- 包含超过 380 门课程的综合数据科学课程可以让任何人从新手到专家,从基础理论课程到所有突出的编码技术,如 Python、SQL、R 等等。
- 数据科学项目使用真实世界的数据集和场景,让学生体验向最终目标应用新技能的过程。
- 一个易于使用的平台,无需下载任何软件即可访问全功能浏览器。
- 练习练习通过快速的日常挑战来提升您的数据科学技能。
- 我们所有课程视频的波兰字幕和最佳辅助选项。
- 作业和报告工具,增强您的课堂管理能力。你会确切地知道哪些学生完成了你的作业,什么时候完成的。我们甚至会给你看他们的技能评估的结果。
- 高成就者可以获得行业认可的数据科学家和数据分析师认证,并访问我们的工作平台,开始他们的职业生涯。
- DataCamp Workspace ,这是一个创意空间,允许教师定制作业,并允许学生分享他们的数据驱动工作组合。
- iPhone 和 Android 上完整的 DataCamp 应用程序。
- 我们甚至允许您和您的学生下载我们的课程内容进行离线学习。
- 所有这些都是免费的!
如果您是来自波兰的教师或学生,希望从我们的课程中了解更多关于数据科学的知识,DataCamp 是免费的。没错——对全国 2500 多所学校中的任何一所学校的学生都是免费的。拥有波兰中学、学院或大学官方学校电子邮件地址的教师有资格申请。
为什么是波兰,为什么是现在?
针对中学教室的 DataCamp 已经在 DataCamp 设有办事处的国家/地区推出:比利时、英国和美国。我们优先考虑将波兰加入候选名单,因为波兰在乌克兰难民危机中做出了巨大努力,已经接纳了超过 300 万人。此外,我们的几名远程员工居住在该国。现在,来自乌克兰和波兰的年轻人比以往任何时候都更应该受益于免费和可靠的数据科学教育,这正是 DataCamp 的用武之地。波兰的每所中学都有自己的网站和电子邮件域,这使得我们可以相对容易地将 DataCamp for Classrooms 带到这些学校。再加上他们在接纳大多数离开该国的乌克兰寻求庇护者方面发挥的不可或缺的作用,扩大对波兰的准入显然是一个决定。
你会问,为什么这是免费的?在 DataCamp,我们认为数据教育是一项基本人权。像所有的基础教育一样,每个人都应该得到基础教育,不管他们是谁,来自哪里。对于生活被战争打乱的学生和教育工作者,DataCamp 将继续尽我们所能加快他们的免费访问。教师可以每六个月重新申请,继续使用我们的课程,布置作业,并为学生接受高等教育和进入就业市场做准备。他们不需要信用卡,他们可以邀请所有的学生加入他们的账户。*
如果你是波兰的一名教师,你还在等什么?老师们,现在就开始申请吧!不要等到下一学期或下一学年才开始提升学生的学习。给他们一些工具,让他们在这个夏天扩展自己的知识。只要你是中学、学院或大学的合格教师,DataCamp 将在你的整个学术生涯中为你和你的年轻学者提供支持。
*美国以外的学生必须年满 16 岁才能在 DataCamp 上注册帐户。在美国,13 至 15 岁的学生,一旦他们的老师得到学生家长或监护人的书面同意,就可以创建免费的数据营账户。很抱歉,12 岁及以下的学生目前无法在 DataCamp 上创建帐户。
移动数据营:最佳移动编码
我们的移动应用程序已经改头换面了!
DataCamp Mobile 拥有全新的、经过改进的用户体验。移动学习不再是完成为台式电脑设计的完整课程,而是围绕课程进行组织,所以你一眼就能看到你将学到什么。即使你只有五分钟的空闲时间,你也能衡量自己取得了多大的进步。这对于学习者的动机是一个很大的进步,因为你可以用更短的单元取得进步。
我们已经推出了一系列关于 SQL、R 和 Python 的新课程,包括 SQL 入门和 R 入门的完整教程。
https://web.archive.org/web/20220524175951if_/https://www.youtube.com/embed/dir9FHN80ag
在您的移动设备上运行真实代码
我们的移动课程给你完整的编程体验——它们完全等同于我们的官方课程。当您打开移动应用程序时,您将访问完整的编辑器,我们将启动一个服务器,让您运行真正的代码并看到真正的结果。你在手机上编写代码是为了获得完全交互的体验——这不仅仅是多项选择。在移动优化代码编辑器(包括自动完成)的帮助下,移动学习从未如此有效。
最后,一个真正让编码变得有趣的应用。—Navistonv
从任何地方无缝学习
现代学习需要灵活性和便利性,这正是我们独立的移动应用程序所能提供的。通过 DataCamp for Mobile,我们提供了一个全面的学习解决方案。DataCamp 课程的所有进度都会无缝同步到您的帐户。你可以在你的桌面上开始一门课程,然后在我们的移动应用程序上重新开始。这是一种真正移动友好的学习方式。
现在事情应该这样做!—pyggh
保持技能敏锐的有趣方法
熟能生巧,你会想养成锻炼新技能的习惯。这就是我们将学习游戏化的原因,这样学习就不会像工作一样。您将积累经验点并获得实时反馈。挑战你的朋友或同事,看看你能持续学习多少天。
出色的移动实践。—灰色 0417
开始
开始使用移动设备我们的 Python 数据科学家、R 数据科学家和 SQL 基础课程,更多课程即将推出!
DataCamp 是德勤科技快速 500 强中增长最快的 100 家公司之一
DataCamp 自豪地宣布,我们已经连续第二年获得德勤的 Technology Fast 500,这是北美发展最快的 500 家技术、媒体、电信、生命科学、金融科技和能源科技公司的排名。DataCamp 今年排名第 94 位,在 2016 年至 2019 年的三年期间增长率为 1,232%,是增长第二快的教育科技公司。
DataCamp 首席执行官兼联合创始人 Martijn Theuwissen 将我们的增长归功于我们平台和课程的发展,以及在线学习在数字化转型计划中的重要作用。
“我们很高兴连续第二年被德勤评为北美发展最快的公司科技 500 强,”Theuwissen 说。“DataCamp 拥有近 700 万名学习者和 1,600 多家企业客户,可帮助企业建立大规模的数据流畅度。数据技能不再只是技术角色的专利,最成功的公司都知道,如今,每个人都需要数据技能来有效地完成工作。
“除了提供一流的学习解决方案来培养这些数据技能之外,DataCamp 还允许公司跟踪其团队的技能进步,衡量项目采用和参与情况,将他们的进步与行业同行进行比较,并确定组织优势和技能差距。我们知道数据是当今每个企业的核心,这就是为什么我们致力于为公司和个人学习者提供世界上最好的平台来实现数据流畅。"
我们的平台和课程
面向企业的数据营
我们帮助组织根据其团队的技能和期望的学习成果创建定制的学习之旅。数据驱动型组织渴望在各个层面上保持数据流畅,这意味着每个人都有能力用数据来回答业务问题。数字化转型计划的成功取决于整个组织是否拥有适当的数据技能。
DataCamp for Business 使公司能够在每个角色和每个技能水平上培养这些数据技能。任何规模的团队都可以轻松实施和管理,管理仪表板支持基于角色和部门的定制学习路径,高级企业报告用于衡量在线学习的影响,来自专门客户成功经理的专家指导,以及无缝 SSO 和 LMS 集成。我们正在为组织奠定基础,通过自动化技能矩阵来大规模可视化其团队的优势和技能差距。
数据技能培训最有效的平台
DataCamp 成熟的学习方法帮助公司和个人系统地建立和应用他们需要的数据技能,以做出更好的商业决策。
评定
有效的学习始于评估学习者的技能,以确定优势和技能差距。组织可以利用data camp Signal来提供个性化的学习建议,通过准确识别每个学习者需要改进的内容来节省时间,并专注于实现其业务目标所需的技能。
我们现在有 14 个关于 Python、R、SQL 以及理解和解释数据的主题的评估,还有更多正在进行中。进一步了解Signal 成为应用数据技能评估黄金标准背后的方法论。
学习
我们扩展了我们的课程,以涵盖广泛的技术和主题,包括面向需要能够分析和解释数据并与数据专业人员更有效地合作的非技术人员的新内容。我们创建了关键主题的内容,如面向所有人的机器学习和面向所有人的数据可视化,以及技能课程,如面向企业的数据技能和数据素养基础。我们还增加了以商业智能工具为中心的内容,如 Tableau 、 Power BI 和 Excel ,并扩大了我们对数据工程的关注,以帮助您收集、清理和分类您的业务数据。我们还通过九种新语言的字幕让学习变得更加容易!
我们的互动课程库从 2015 年 1 月 1 日的仅一门课程发展到今天的 340 多门课程,我们 60%的平均课程完成率远远高于仅 15%的行业平均水平。
实践和应用
DataCamp 移动应用现已全面优化,通过自动完成等功能在移动设备上提供最佳编码体验,使学习如何在移动设备上编码变得前所未有的简单。移动学习体验现在也是围绕课程而不是完整的课程来构建的,这样更容易在较短的单元中取得进展。
无指导项目提供了一种新的方式来应用专业的数据科学技能,并建立学习者在现实世界中独立编写代码所需的信心。无指导项目是为想要解决开放式数据科学问题而不需要循序渐进的任务的中级和高级学习者设计的。如果他们遇到困难,学习者可以跟随实时代码视频,看看我们的专家教师如何找到许多可能的解决方案之一。
我们的客户
我们的使命是让全球数百万人和企业都能获得流畅的数据。我们的学习者已经增长到近 700 万人,拥有超过 1600 家企业客户,包括谷歌、英特尔、汇丰、易贝、贝宝、优步等等。通过课堂数据营,我们为来自 180 个国家的 350,000 多名学生提供了免费访问数据营的机会。
我们的伙伴关系
DataCamp 致力于支持全民数据教育。作为我们让每个人的数据技能民主化的使命的一部分,我们目前有超过 30 个非营利合作伙伴—如 DataU 、 Blossom Academy 和杜克大学的 Fuqua 志愿者团队—我们将为全球超过 25,000 名学习者提供免费访问 DataCamp 的机会。在全球疫情期间,我们对支持这些社区的关注变得更加重要,因为现在学习者比以往任何时候都更需要建立数据流畅性,以实现更安全的未来。
“对于许多学生来说,在疫情很容易感到失落,”杜克大学富卡定量管理硕士(MQM)项目的副主任杰里米·彼得兰卡说。“让他们感受到 Fuqua 和 DataCamp 的支持对我们来说很重要。能够在早期说 DataCamp 支持他们,让他们感到真正受到重视。”
要了解更多关于 DataCamp 获得技术快速 500 强奖项的信息,请阅读新闻稿。
关于德勤 2020 年技术 500 强
今年是德勤科技 500 强的第 26 个年头,它是北美发展最快的 500 家科技、媒体、电信、生命科学和能源科技公司的排名。总体而言,2016 年至 2019 年,2020 家技术 500 强公司实现了 175%至 106,508%的收入增长,增长中值为 450%。
为了有资格获得“技术快速 500 强”认证,公司必须拥有专有知识产权或技术,这些知识产权或技术以产品形式出售给客户,为公司的大部分营业收入做出贡献。公司的基准年营业收入必须至少为 50,000 美元,当年营业收入必须至少为 500 万美元。此外,公司必须开业至少四年,并且总部设在北美。
DataCamp 是德勤科技 500 强中增长最快的第 36 家公司
DataCamp 自豪地宣布,我们在德勤的技术快速 500 强(Technology Fast 500)中排名第 36 位,这是北美发展最快的 500 家技术、媒体、电信、生命科学和能源技术公司的排名。从 2015 年 1 月 1 日到 2018 年 12 月 31 日,DataCamp 增长了 3,437%,是增长第二快的 edtech 公司,获得了这一殊荣。
“DataCamp 的快速增长凸显了我们的学习者、企业客户和数据科学社区从我们的平台中实现的价值,”DataCamp 联合创始人 Martijn Theuwissen 表示。“我们发现,随着数据进入业务的各个方面,所有专业人员每天都要面对越来越多的数据交互。我们一直专注于帮助企业和个人学习这些关键技能,并将继续以我们的技术为基础,提供市场上最有效的实践学习体验。德勤的创新文化和行业领先地位与我们的使命完全一致,即让每个人都能获得流畅的数据。”
要了解更多关于 DataCamp 获得技术快速 500 强奖项的信息,请点击此处阅读完整的新闻稿。
DataCamp 的强劲增长可归因于许多因素,从我们平台和课程的发展,到我们的讲师社区和客户群。
我们的平台和课程
面向企业的数据营
在 DataCamp,我们认为数据流畅性——理解数据、从数据中传达见解并最终做出更明智决策的能力——是 21 世纪数据驱动型公司和专业人士的一项要求。根据我们对代表不同行业的 300 多名 L&D 领导者进行的调查,89%的公司将构建数据流畅度作为中度或高度优先事项。这些公司在收入增长、市场份额、盈利能力以及客户和员工满意度方面都超越了同行。
DataCamp for Business 为个人团队和整个组织提供适应其数据培训需求的在线学习体验,以降低其人工智能和机器学习计划的风险,缩小其数据技能差距,并跟踪和报告其组织的数据技能差距和优势。借助高级分析和洞察力、定制学习路径以及无缝的 SSO 和 LMS 集成,任何规模的团队都可以轻松实施和管理。
员工需要适当水平的培训来发展数据技能,这将使他们能够在各自的岗位上取得成功。 DataCamp 专业服务旨在帮助我们的客户确定他们在每个团队或整个组织中所需的数据技能组合,以实现他们的战略业务目标。我们帮助团队将他们的核心职责映射到一组定制的推荐课程。我们的定制学习计划确保团队准备好利用他们的数据,消除组织孤岛和瓶颈以提高效率,并做出推动公司前进的数据驱动型决策。
创建最有效的平台来提高数据流畅性
DataCamp 是数据驱动型公司的学习平台,用于构建和应用他们做出更好的业务决策所需的数据技能。
评定
DataCamp Signal ,我们的适应性技能评估,帮助团队和个人快速获得他们在 Python 和 r 中的技能水平的鸟瞰图。Signal 不像其他测试:学习者除了完成选择题之外还要编写实际代码,评估的难度会根据表现自动调整。Signal 根据学习者的优势和技能差距提供个性化的课程建议,帮助他们充分利用在 DataCamp 上学习的时间。
学习
为了帮助我们的学习者建立数据流畅性,我们扩展了我们的课程,以涵盖广泛的技术和主题,包括 Python、R、SQL、Git、Shell、Scala、数据工程、电子表格和面向商业领袖的数据科学。我们的互动课程库从 2015 年 1 月 1 日的仅一门课程发展到今天的 300 多门课程,我们 60%的平均课程完成率远远高于仅 15%的行业平均水平。
实践和应用
除了我们课程库的大规模增长之外,我们还增加了新的方法,让学习者按照自己的速度建立数据流畅性,包括用于移动学习的移动应用,每日简短的练习,以及将他们的技能应用于现实世界问题的项目。
我们的讲师社区
我们的教师代表不同的专业领域,从工业到政府和学术界,在 36 个国家和美国 32 个州授课。我们只和最好的导师合作——我们每年收到 700 多份申请,但只接受其中的 20%。
我们的客户
DataCamp 的使命是使数据科学和分析教育民主化,并使全球数百万人和企业能够获得数据流畅性。自 2015 年以来,我们的学习者增长了 5,600%以上,达到 470 多万人,现在在全球拥有 1,600 多家企业客户,包括 3M、瑞士瑞信银行、宜家、英特尔、优步等。通过课堂数据营,我们为来自 180 个国家的 20 多万名学生提供了免费访问数据营的机会。
关于德勤 2019 年科技 500 强
今年是德勤科技 500 强的第 25 个年头,它提供了北美发展最快的科技、媒体、电信、生命科学和能源科技公司的排名,包括上市公司和私营公司。技术 500 强获奖者是根据 2015 年至 2018 财年的收入增长百分比选出的。
为了有资格获得“技术快速 500 强”认证,公司必须拥有专有知识产权或技术,这些知识产权或技术以产品形式出售给客户,为公司的大部分营业收入做出贡献。公司的基准年营业收入必须至少为 50,000 美元,当年营业收入至少为 500 万美元,增长率为 75%或更高。此外,公司必须开业至少四年,并且总部设在北美。
数据营工作和招聘:简化寻找最佳工作和候选人的数据。
原文:https://web.archive.org/web/20220627024316/https://www.datacamp.com/blog/datacamp-jobs-and-recruit
我们很高兴地宣布正式推出数据营职位和数据营招聘,这是在数据中寻找最佳职位或候选人的最简单方法。
当前问题:招聘者的观点:从缺乏合格的数据人才到复杂的技术评估,数据职位的招聘障碍层出不穷。不仅候选人难找,而且专家估计数据角色的招聘成本是非技术角色的 6 倍。曾经面试过一个候选人,却发现他们实际上不是“Python 专家”吗?嗯,你并不孤单…
求职者的观点:传统的求职公告板不是为数据角色设计的。从不能有效地展示自己的技能到无休止地浏览不相关的角色,求职者很难找到符合自己偏好和技能的工作。
在 DataCamp,我们通过将最优秀的数据人才与希望招聘数据职位的顶级雇主联系起来,解决了所有这些问题。
数据营作业
数据专业人员现在可以展示他们的技术能力,并与美国、英国、欧盟和加拿大的顶级雇主建立联系(更多公司即将推出)。你会在 DataCamp Jobs 上找到来自 EA、迪士尼、Twitter 等顶级雇主的令人兴奋的工作。
获得一个梦想中的数据角色就像创建一个个人资料,详细说明你的技能,并申请符合你个人喜好的工作一样简单。不用没完没了地浏览多个网站寻找相关职位,也不用花很长时间研究求职信。
您可以通过包含您的数据科学产品组合的链接来清楚地展示您的技术实力,向雇主展示您已经准备好获得 DataCamp 认证徽章。您完成的 DataCamp 课程、项目、技能和职业轨迹也显示在您的个人资料中。
DataCamp Jobs 免费包含在所有订阅中,包括免费帐户。
数据营招募
招聘数据角色可能会很棘手。找到具备合适技能组合的人,然后验证这些技术技能,这是一个综合挑战,更不用说数据专业人员的短缺了。
DataCamp Recruit 让您能够接触到顶尖的数据人才,清楚地了解他们的技能和背景。
- 描述你的工作并列出所需的技术
- 当您的职务生效时,具有您所寻找的能力的求职者会收到通知
- 根据技术技能和能力筛选候选人
- 请求与合格的候选人聊天
- 直接面试和雇用候选人
留意 DataCamp 认证的候选人。我们的认证徽章让您知道,我们的专家评估团队已经验证了他们的技术能力和软技能。
你会发现初级和高级数据专业人员都在 DataCamp recruit 上寻找职位。也有候选人寻找自由职业者和短期项目。
此外,你可以联系的候选人数量没有限制,招聘过程快速高效。
通往数据营工作和招聘的道路
数据营的工作和招聘是我们最大限度地发挥数据营学员的潜力,并确保数据营学员获得最大价值的道路上的下一个合乎逻辑的步骤。
学习
我们最初是一家在线学习提供商,多年来,我们逐渐建立了互联网上最全面的数据科学教育平台。
今天,DataCamp 提供了 350 多门引人入胜的课程、20,000 多个练习、高级技能和职业跟踪,以及图书馆价值的专用资源来支持我们的学习者。
个人使用 DataCamp 来学习他们在要求苛刻的数据职业中所需的技术技能,组织依靠我们来提升其员工的技能,并确保他们具备当今数据驱动的业务环境中所需的数据素养。
雇佣和被雇佣
DataCamp 工作和 DataCamp 招募是整个学员旅程的最后一部分,使合格的 DataCamp 学员能够轻松地穿过噪音,找到与他们的熟练程度相匹配的数据角色。
与此同时,雇主可以很容易地找到合适的人才,并开始建立企业竞争所需的数据团队。
以下是参与的方法
加入未来的数据科学招聘或获得您的完美数据角色。
加入 DataCamp Radar:为数据求职者和招聘人员提供的免费研讨会
美国东部时间 6 月 23 日上午 9 点至下午 3 点 15 分,DataCamp 将提供一天免费的现场讲座和研讨会,旨在帮助数据求职者和招聘人员驾驭不断发展的数据职业前景。您可以在这里阅读更多关于此次活动的信息,并在这里预订您在这个免费研讨会的席位。
找到你梦想的数据工作
如果您是求职者,请创建您的 DataCamp 个人资料,并立即访问为您量身定制的份工作。记住,获得认证向雇主表明你的技能得到了我们专家的验证。
找到合格合适的数据人才
如果你是一名寻找数据人才的招聘人员,你可以免费开始。利用我们先进的过滤工具,快速轻松地找到数据专家。此外,如果在最初的 12 个月里没有雇佣任何人,还有退款保证。
DataCamp Jobs 和 DataCamp Recruit 现已在美国、英国、欧盟和加拿大上线,其他地区也将很快上线。密切关注我们的 LinkedIn 和 T2 和脸书,保持联系!
DataCamp 被评为北美发展最快的 500 家公司之一
DataCamp 自豪地宣布,我们已经连续第三年获得德勤科技快速 500 强(Technology Fast 500)的认可,这是北美发展最快的 500 家科技、媒体、电信、生命科学、金融科技和能源科技公司的排名。
DataCamp 首席执行官 Jonathan Cornelissen 表示:“我们很高兴连续第三年被评为德勤科技 500 强。“我们现在生活在一个不同的时代。每个行业都在数字化,并产生大量数据,但许多组织没有合适的技能来利用这些数据并超越竞争对手。就像过去公司必须培养计算机知识和软件知识一样,现在我们必须具备数据知识。数据素养正在推动每个行业的变革,并使每个部门都能交付更好的结果。
“为了更有效地支持我们的企业客户和学习者实现数据素养,我们扩展和发展了我们的平台,以包括针对数据科学家和数据分析师的强大认证、职业服务和工作匹配产品,从而使雇佣数据人才和被雇佣变得更容易,我们还构建了一个浏览器内协作工具,以弥合学习数据科学和实际从事数据科学之间的差距。”
最全面的数据提升平台
DataCamp 为个人和组织提供业内最全面的数据技能提升体验,以弥补数据技能差距,使雇佣和被雇佣变得更容易,并改善数据见解的协作和共享。
学习最热门的数据技能
DataCamp 为每个角色提供交互式数据分析和数据科学技能提升,从商业的非编码基础到数据科学和机器学习,都由该领域的专家教授。最重要的是,不需要安装或下载——所有课程和编码练习都在您的浏览器中运行,包括 Python、R、SQL 等语言的交互式学习内容。作为数据教育的领导者,我们一直在不断扩展我们的课程,以包括更多内容,涵盖基本的数据素养技能、Tableau 和 Power BI 等 BI 工具和数据可视化,以及 Plotly、Dask 和 AWS 云概念等更高级的主题。
今年,我们还通过数据营竞赛为学习者创造了一种全新的方式来应用他们的数据技能并向社区中的其他人学习。每个竞赛都要求学员通过提交在 Workspace 中创建的分析来分析数据集和解决现实世界的问题。学习者可以看到他们的同龄人的工作,投票赞成特殊的提交,并赢得提交的现金奖励。
我们还通过在一个地方组织个人的学习体验和进度,并让管理员快速访问群组管理设置和组织洞察力,使学习者和管理员更容易浏览 DataCamp 平台。
通过精确的学习计划加快学习速度
展望 2022 年,我们对即将启动的精确学习计划感到非常兴奋。这将是个人和数据驱动团队增长数据技能的最快方式。
一旦上线,公司将能够定制学习计划,以满足他们的目标。学员将参加一个简短的评估,以了解他们今天拥有的技能和明天需要的技能。一旦完成,他们将收到一份精确的学习计划,该计划专门针对他们将数据技能提升到下一个级别所需的培训。
这是一种有效的快速学习方法。通过获得个性化和适应性的学习路径,您可以减少提高技能所需的时间,并更快地实现学习目标。这对单个学习者来说相当于节省了大量时间,因为你没有学到你已经知道的东西,如果应用于整个组织,对公司来说节省的时间甚至更多。如果您有兴趣了解更多关于 precision learning 的信息,请联系您的客户成功经理。
认证和职业服务
尽管对数据专业人员的需求不断增长,但个人很难向潜在雇主展示他们的技能,公司也很难验证候选人是否真的具备他们需要的工作技能。我们的数据科学家和数据分析师认证结合了定时评估、编码挑战和由真正的专家评估的案例研究式演示,以验证学习者是否具备成功完成其角色所需的技术和沟通技能。
一旦学员获得认证,我们还会为他们提供在数据科学领域找到理想工作所需的关键工具和资源。DataCamp 的职业服务包括访问了解数据科学就业市场的专业职业专家、简历审查以及关于面试准备策略等主题的研讨会。
聘用(和被聘用)DataCamp 人才的更好方式
我们知道,招聘数据科学家和其他数据专业人员的竞争非常激烈,也非常复杂。我们让组织更容易找到拥有 DataCamp 人才的优秀候选人。我们帮助招聘经理找到具备您所寻求的特定技能的专业人士,以更快地确定合适的候选人,我们消除招聘偏见,将重点放在候选人的技能上。
我们也想让个人更容易找到潜在的雇主。DataCamp Talent 允许个人在 DataCamp 上轻松创建完美的专业档案,以展示他们的技能和数据科学组合,并与对他们的经验感兴趣的公司匹配。
借助 Workspace,无需设置即可立即开始分析和探索数据
我们相信从事数据科学工作应该是轻松、愉快和协作的,这就是为什么我们建立了data camp Workspace—一个浏览器内编码环境,在这里您可以应用您的数据技能来编写真正的代码、运行分析和分享您的见解。无论您想要使用自己的数据从头开始编码,还是从我们现成的数据集或模板开始,Workspace 都可以让您立即开始。通过我们的一键式发布工具,您可以轻松地与他人分享您的分析,并创建以您的工作为特色的专业作品集。
衡量并报告贵组织学习计划的影响
DataCamp 使组织能够获得对学习计划的可行见解,并衡量投资回报率。通过 DataCamp Signal 技能评估,您可以对您团队的技能进行基准测试,并随着时间的推移不断重新评估进度,并通过技能矩阵可视化学习者的技能优势和差距。
我们也知道,报告学习计划的影响需要时间。这就是我们创建定制报告的原因,这是一个点击式报告生成器,让每个人都可以轻松展示您的学习计划的投资回报。借助定制报告,您可以从我们预先制作的模板中单击一下即可创建专业报告,详细了解您的学习计划,并安排自动报告,以确保所有相关人员及时获得信息。
与企业系统集成
我们让组织能够轻松地将 DataCamp 插入到他们现有的学习生态系统中。单点登录(SSO)使用您现有的 SSO 提供商为学习者提供无缝的一键式登录体验,LMS/LXP 集成允许您集中学习活动数据并将学习内容添加到您的学习管理系统中。
我们的客户
我们的使命是帮助每个人在数据驱动的世界中茁壮成长,这就是为什么 DataCamp 让全球数百万人和企业能够获得数据素养。我们的学习者已经增加到 900 万人,拥有 2000 多家企业客户,包括谷歌、PayPal、汇丰银行、法国巴黎银行、巴克莱银行、Liberty Mutual Group 等等。
我们的数据营捐赠合作伙伴
我们启动了 DataCamp 捐赠,通过为其成员提供一年的免费 DataCamp 访问,帮助世界各地的组织弥合数据技能差距。从 2019 年到 2020 年,全球失业率增长了 35%,但熟练的技术工人严重短缺,无法填补需要数据素养的面向未来的工作。原因很简单:普遍缺乏负担得起的高质量数据教育。到目前为止,我们已经与 90 多个国家的 125 个组织建立了合作伙伴关系,并捐赠了超过 1000 万美元的数据营奖学金。我们目前接受新合作伙伴组织的申请,截止日期为 2021 年 12 月 24 日。点击这里报名!
关于德勤 2020 年技术 500 强
德勤科技 500 强现在已经进入第 27 个年头,它提供了北美发展最快的科技、媒体、电信、生命科学、金融科技和能源科技公司的排名,包括上市公司和私营公司。技术 500 强获奖者是根据 2017 年至 2020 财年的收入增长百分比选出的。点击此处了解更多。
DataCamp Radar,帮助您驾驭数据职业的未来
DataCamp 邀请您参加 Radar,这是一项免费的在线活动,旨在帮助您探索数据职业的未来。无论你是在寻找你梦想的工作,还是在招募你梦想的数据团队,我们的两个同步流都可以满足你。
什么时候?2022 年 6 月 23 日
什么时候? 美国东部时间上午 9:00-下午 3:15
保住你今天的位子
谁应该参加?
1。如果你想在数据领域开始或继续你的职业生涯
2.如果您希望建立自己的数据团队
将会有两个系列的讲座、小组讨论和网络研讨会,每个系列都经过精心策划。因此,如果您正在寻找关于如何扩展您的数据团队或推进您自己的职业生涯的见解,Radar 可以满足您。
谁会加入我们?
正在塑造数据职业未来的个人和公司也将加入我们的行列。我们的一些演讲者包括:
期待什么
1)如果您想开始或继续您的数据职业生涯
如果你刚刚开始找工作,或者你想让你的职业生涯更上一层楼,我们可以帮你。会议主题将包括如何开始数据职业生涯,展示您的数据科学简历并创建一个令人敬畏的投资组合。你也将有机会询问如何找到工作以及认证是否值得的问题,并得到回答。
2)如果您想组建自己的数据团队
作为一名招聘人员,你的工作流将涵盖整个招聘过程等等。演讲者将讨论如何雇用和留住数据人才,包括如何提高您的品牌,建立和扩大远程团队,扩大数据人才流动,以及关于数据职业未来的内部知识。
谁会在那里
我们很高兴能够邀请到一些数据领域最聪明、最有影响力的领导者。这是即将加入我们的演讲者的一个预览。
对于 stream 1,我们的演讲者阵容将帮助您在数据职业生涯中脱颖而出。我们请到了女性数据公司的创始人兼首席执行官 赛迪·圣劳伦斯 ,就如何开始你的职业生涯发表演讲。 Jay Feng ,Interview Query 的联合创始人,给出了应对数据科学面试的技巧。你甚至有机会向 DataCamp 的招聘团队询问你最迫切的问题。职业服务主管珍妮·布里克 和分析主管 豪尔赫·巴斯克斯 将分别为你的简历和如何获得你梦想中的数据工作提供建议。
对于 stream 2,该阵容将帮助您完成从吸引人才到扩展您的梦之队的过程。企业分析和数据高级总监 Meenal Iyer 为您提供如何雇佣和留住数据人才的建议。帮助你解决雇主品牌问题的是微软投资组合经理安德里亚·加夫里柳克。首席数据官 Capital one、 Dan Kellet 将提供如何雇佣和建立高影响力数据团队的内部知识,而劳伦斯哈维的 SVPMariano Allegra则专注于建立和扩展远程团队。
查看当天的日程
保存您的位置
无论你是在寻找你梦想中的工作还是招募你梦想中的团队,你都不想错过这个机会。 在这里注册雷达。 报名免费,但名额有限。
DataCamp 被《金融时报》评为 2021 年美国增长最快的公司前 10%
DataCamp 很荣幸在《金融时报》的 2021 年美国增长最快的公司排名中被评为第 54 位增长最快的公司和第二位增长最快的教育公司。该奖项由英国《金融时报》和全球领先的统计门户和行业排名提供商 Statista,Inc 颁发。
2016 年至 2019 年,DataCamp 的年复合收入增长超过 1000%。在北美和南美数百万活跃的公司中,只有前 500 家公司被列入《金融时报》美洲增长最快的公司名单。
DataCamp 首席运营官和联合创始人 Martijn Theuwissen 将我们的增长归功于我们平台和课程的发展,以及在线学习在数字化转型计划中的重要作用。
“数据是当今所有业务的核心,”Theuwissen 说。“我们的增长证明了我们致力于帮助企业、政府组织和工作专业人士大规模培养数据素养。现在,超过 700 万名学习者和 1,600 家企业正在使用 DataCamp 开发数据技能,以有效地完成工作。
“除了提供一流的学习解决方案来培养这些数据技能之外,DataCamp 还允许公司跟踪其团队的技能进步,衡量项目采用和参与情况,将他们的进步与行业同行进行比较,并确定组织优势和技能差距。"
我们的影响
我们的平台越来越好。2020 年的里程碑包括 220 万开始使用 DataCamp 的新学习者,比 2019 年增加 29%,完成 190 万门课程,增加 43%。我们有 350 多门课程(而且还在增长!),专门的职业和技能赛道,以及测评帮助学习者测试技能,获得个性化学习建议。
80%的财富 1000 强公司使用 DataCamp for Business 来培训他们的团队,在每个角色和每个技能水平上建立关键的数据技能。借助允许基于角色和部门的定制学习路径的管理仪表板,任何规模的团队都可以轻松实施和管理。借助自动化技能矩阵,组织甚至可以大规模可视化其团队的优势和技能差距。我们免费的商业资源中心为希望在持续的数字化转型中利用数据的公司提供了丰富的见解。
通过 DataCamp 捐赠,超过 60 个国家的非营利组织、公立学校和社会福利组织可以免费访问我们的平台。这些社区的许多成员利用数据营培训使在日常工作中表现出色或找到新工作。
下一步是什么
不用说,我们会继续改进我们的平台。 DataCamp 2.0 是我们在未来几年提高个人和组织数据素养的愿景,包括一个协作工作区工具供数据科学团队发挥最佳水平,数据专业人员的认证,以及帮助我们的学习者在数据科学领域找到梦想工作的职业服务。
加入我们
七年前,我们是一个小而好斗的团队。今天,我们有超过 110 名员工,并有继续壮大团队的宏伟计划。如果你想加入我们对抗数据盲的使命,请访问我们的职业页面。
数据营 2020 年回顾[信息图]
在以改变世界的事件为标志的一年里,数据营的学习者已经找到了通过建立数据流畅性来加倍投资自己的方法。以下是我们今年共同达到的一些里程碑—点击图片下载 PDF。
非常感谢整个# datacamp 社区今年对您的支持。我们鼓励你在 2021 年加入 DataCamp Slack 社区与其他学习者一起交流。
DataCamp 的 2021 年回顾和一些重大新闻
2021 年是 DataCamp 转型的一年。2022 年,我们将继续发展壮大。
我们已经扩展了我们的学习平台,纳入了新产品,使数据专业人员能够进一步加快他们的职业发展,找到他们梦寐以求的工作,同时做到最好。我们正在帮助组织将数据置于他们所做的一切的核心,从招聘和雇用到协作进行数据分析,做出数据驱动的决策,以及创造更好的客户体验。
仅在 2021 年,我们就增加了多个新产品,包括组、工作区、认证、竞赛和招募,同时我们的课程也有了显著的扩展,包括 Dash、Plotly 和 dplyr 等更高级的主题和技术。让我们仔细看看。
证书
去年,我们启动了认证计划,为学习者提供他们获得梦想中的数据工作所需的工具。我们的认证学员还可以获得职业服务,确保他们在成为数据专家的每个阶段都能获得支持。目前,我们提供专业数据科学家和数据分析师认证,不久将推出更多认证。
在 2022 年,我们将通过创建一个平台将这一承诺提升到一个新的水平,在这个平台上,DataCamp 学员可以被那些通过 DataCamp Recruit 寻找最佳人才的公司聘用。随着 DataCamp Recruit 的推出,我们正在揭开数据角色招聘的神秘面纱。通过简单地创建一个档案和填写你的工作偏好,你可以让顶级雇主直接联系你。只需创建您的个人资料即可开始。
寻找数据科学人才?访问DataCamp Recruit,允许组织访问 data camp 学员的合格候选人库。
工作空间
我们通过启动 Workspace,让学习者能够在真实世界中无风险地应用他们的技能,Workspace 是一个基于云的编码环境,允许分析数据并在 Python 和 r 中共享您的分析。从那时起,我们还创建了一个数据集和现成模板的精选库,以帮助学习者构建他们的数据科学投资组合。
我们现在让每个人都可以使用 Workspace,而不仅仅是 Learn 订阅用户,这样任何人都可以随时随地在云端进行分析。
在 2022 年,我们计划通过实现更高的能力和速度将 Workspace 提升到一个新的水平,使用原生 SQL 单元查询数据源,并在不编写代码的情况下构建漂亮的表格和图表。
课程扩展
2021 年,我们扩展了我们的内容库,为我们已经教授的技术提供更高级的主题,并引入新的新兴技术和概念,如使用 Dash 和 Plotly 构建仪表板,使用 dplyr 编程等。我们计划在 2022 年增加 50 门课程,包括数据工程、MLOps、Julia 等新课程。
新定价
今天,我很高兴与大家分享一些重大消息:从 2022 年 2 月 14 日开始,我们对我们的定价和产品组合进行了重大调整,以使数据科学的技能提升变得更容易、更容易。
-
我们正在将标准计划和高级计划合并在一起。
-
Premium plan 现已推出新的优惠价格,年用户每月 25 美元,月用户每月 29 美元。
-
所有标准计划学员都将自动更新到高级计划,无需额外费用,并且现在可以完全访问我们的全部课程,包括 Tableau、Power BI 和 Oracle 内容、认证和优先支持。
-
前往我们的帮助中心文章查找您特定计划的相关信息。
-
我们的工作空间刚刚进行了一次激动人心的升级——标准机器可以免费获得,或者您现在可以以 4 倍的速度和 4 倍的可用内存运行您的分析,每年仅需99 美元。随时随地在云中编写和分析代码。
-
考虑尝试商业数据营?我们现在可以让您通过网站购买企业计划——从 2 人团队到大型组织,让您快速轻松地提升团队技能。
-
最后,您将看到 DataCamp Recruit 正在上线,允许组织注册访问合格的 DataCamp 学员候选人,并让 DataCamp 用户访问列出的职位。
我们致力于不断改进我们的平台,以帮助我们的学习者和企业客户在数据驱动的世界中取得成功和繁荣。
敬请关注更多精彩更新!注册参加我们的 Q1 路线图网络研讨会,了解更多关于我们在 DataCamp 开发的产品和功能!
联合创始人兼 CEO DataCamp,企业家,天使投资人。
数据营的第一个免费周
从一开始,DataCamp 将数据科学和分析教育带给全球学习者的使命就从未动摇过。现在,大多数人都在尽自己最大的努力在家里帮助他们的当地社区和整个世界,我们觉得我们有责任尽可能方便地为更多的人提供服务。仅仅因为事情似乎停滞不前,并不意味着我们不能作为个人和团队成长。
这就是为什么我们让所有没有订阅 DataCamp 的人都可以免费使用我们的整个平台和课程库整整一周。就是这样。没接住。不需要信用卡。从 5 月 14 日到 22 日,每个人都可以享受 DataCamp 提供的全方位服务。
免费周的原因很简单:我们相信一个知情的群体是一个被授权的群体。这一原则是我们所有行动的基石。我们想提醒每个人,即使是现在,他们也拥有发掘新的才能和可能性的能力。此外,随着世界每天都在以越来越困难和令人困惑的方式发生变化,对数据流畅社会的需求从未像现在这样迫切。我们设想未来个人、公司和政府可以合作应对重大挑战,因为每个人都精通数据语言(毕竟,如果我们希望拉平曲线,就需要找到曲线)。我们相信,如果有最好的工具,每个人都有能力辨别事实和虚构,而不是被信息过载所困扰。免费周是朝着这一崇高目标迈出的一小步,我们希望它也将对那些利用它的人产生直接的积极影响。
如果你是一个考虑拓展视野的新人,欢迎!我们的“每个人”课程都是无门槛设计的,只需几个小时的课程,你就会发现一个新的数据分类和解释方法的世界。如果你是一名经验丰富的数据专家,希望提高自己的技能,让自己的职业生涯更上一层楼,你还在等什么?我们由世界一流的数据专业人士讲授的 330 多门课程包含您需要的新工具。寻找技术来帮助他们的团队分析和做出更好的决策的企业不需要再找了。不确定从哪里开始?借助 DataCamp Signal,您可以快速确定自己或团队成员的技能水平,并获得个性化的课程建议。
让我们在呆在里面的时候用科技走到一起。免费试用 DataCamp 一整周并加入我们由讲师、开发人员和学习者组成的精彩社区。
DataCamp 的新工作区产品让您可以在几秒钟内开始自己的数据分析
为什么我们要为数据专业人员和数据流畅团队打造协作产品
当我们创办 DataCamp 时,我们希望让每个人都能轻松、愉快、经济地在线学习数据科学。如今,我们已经接触了超过 700 万名学习者,并积极帮助超过 1,600 家组织提高数据流畅性。如今已有超过 150,000 名用户访问了 DataCamp,通过 DataCamp 捐赠的和 DataCamp for the Classroom ,更多用户可以免费访问 DataCamp。然而,当他们开始实际处理数据时,几乎所有人都面临着巨大的困难。
数据专业人员和数据团队的奋斗—以及它为什么重要
就像学习数据科学一样,从事数据科学工作应该是轻松、愉快和协作的。尽管数据专业人员的数量激增,但几乎没有易于使用、易于扩展的工具,也没有考虑到不同的人喜欢不同的技术和集成开发环境(ide)的现实。
因此,今天的数据科学家没有发挥他们应有的生产力。让我们面对现实吧,我们许多数据科学家浪费大量时间做基础设施和工程工作,无论是设置机器、查找和访问正确的数据,还是部署仪表板和报告。我们从我们的学习者和客户那里听到了这些问题,我们自己在 DataCamp 也遇到过许多这样的问题。
此外,数据科学家不是单独工作的。在团队环境中从事数据科学工作不应该像今天这样痛苦。数据科学家使用的大多数工具甚至缺乏最基本的协作功能。令人震惊的是,数据团队之间的协作通常是通过电子邮件、Slack 或其他消息工具共享代码和数据来实现的。版本控制是通过为软件工程师的工作流程定制的工具来完成的,这些工具对数据科学家来说并不直观——并且不要让我开始谈论大多数数据团队缺乏质量控制。对于团队来说,知道哪个分析、仪表板或报告仍然准确是至关重要的。数据专业人员的困难是真实的,通常从加入团队的第一天就开始了。
组织也会失败,因为他们缺少一个中心位置来收集所有见解,并且数据专业人员可以在这里相互学习。一些见解存在于笔记本中,一些存在于 PDF 报告中,还有一些存在于 Looker 和 Metabase 等专有分析工具中,这样的例子不胜枚举。这导致洞察力丢失和工作重复,并使业务用户和领导层与数据专业人员的互动受挫。
缺乏合适的工具阻碍了真正高效的数据专业人员和数据流畅的组织。虽然对于更多的 BI 风格用户来说确实有很多创新,但是对于想要更深入地挖掘并使用 Python 和 R 的能力来产生他们的见解的数据专业人员来说,这通常是不正确的。
数据营的目标是什么
我们希望任何人都能在任何地点、任何设备上在线访问相关数据,从他们最喜欢的工具或 IDE 创建可视化、报告和仪表板,并与数据专业人员共享。我们希望团队能够实时和异步地在线无缝协作。我们希望团队拥有自动内置的基本版本和质量控制。最终结果应该是一个适用于任何规模的组织的集中式洞察层。
换句话说,我们希望让利用你自己(或你公司)的数据进行数据科学研究变得像参加数据营课程一样简单。
我们将如何到达那里
罗马不是一天建成的我们目前正在开发这款产品,并计划在未来 12 到 18 个月内分阶段推出。
首先,我们希望让我们的学习者能够非常轻松地将他们从 DataCamp 学到的东西——无论是以项目还是课程的形式——带到 Jupyter 这样的流行 IDE 中。使用已经在工业界和学术界广泛使用的工具是在现实环境中应用所学技能的关键一步。此外,用户将能够发布和共享他们在工作区中所做的工作。
接下来,我们将无缝连接您的数据和上传数据集,使用户能够开始使用 DataCamp 进行日常数据科学工作。此外,当用户邀请合作者审查或编辑他们的工作时,代码和环境将是链接的和自包含的,因此关于跨项目和在不同用户之间使用正确的包版本的担忧将成为过去。
我们还将致力于大幅改善数据团队的实时和异步协作。如今,几乎任何团队产品都允许实时协作、评论和标记。没有理由剥夺数据团队的这种功能,但今天他们经常这样做。
最后,随着产品的成熟,我们将继续为组织添加功能,利用我们已经为企业学习平台构建的广泛的用户管理架构。例如,管理员只需指定一次数据库连接,并管理谁可以访问哪些数据。在接收端,数据科学家在开始分析时将有正确的数据连接。
提高数据流畅性和数据科学民主化是 DataCamp 的核心使命。这款产品是实现这一目标的关键一步,这也是为什么我们认为这款产品的基础版应该永远免费。
如果您对改变数据团队的协作方式感兴趣,请发送电子邮件至 【电子邮件保护】 。你也可以直接联系负责开发这款新产品的菲利普·肖韦纳斯,或者我们的首席技术官迪特·德·梅斯梅尔。我们一直在寻找有才华的工程师加入我们的团队。立即申请!
DataCamp 的专业数据科学家认证计划
我们创办了 DataCamp,帮助数百万学生培养数据技能。虽然我们已经提高了许多学生的技能,但劳动力市场上仍然存在巨大的数据人才技能缺口。
我们的数据科学家专业认证让合格的个人向雇主展示他们的能力。这有助于他们脱颖而出,更快地获得工作或晋升。这也有助于雇主在内部和招聘过程中发现合格的人才。面试通过 DataCamp 认证的候选人的雇主可以放心,这些候选人拥有成为成功的数据科学家所必需的技能。
我们如何创建认证流程
通过与我们的行业合作伙伴密切合作,我们很快意识到需要一个个人和企业都可以信任的认证。因此,在创建我们的认证流程时,我们将此作为我们的首要任务。我们进行了深入的实践分析,以确定数据科学家经常执行或关键的任务。
我们考察了各种环境和位置,包括:
- 行业专家的实际采访
- 分析在不同公司规模和行业中的角色
- 评估团队结构差异的影响——分布式团队与集中式团队
- 职位的资历
- 地理位置的差异
产品需要什么:
我们的认证流程由两部分组成:
- 认证过程
- 职业服务(针对我们的个别学员)
1.认证流程:
我们的数据科学家专业认证不仅测试所需的技术技能,更重要的是测试交流发现和见解的能力。
为了获得认证,我们的学员必须通过我们的自动化测试,以及案例研究提交和实际的一对一面试。其中包括:
步骤 | 挑战 | 技能测试 |
---|---|---|
1. | 定时评估 | R、Python 和 SQL 方面的一般数据科学技能 |
2. | 编码挑战 | 编写和运行复杂代码的能力 |
3. | 案例研究提交 | 获取真实世界的数据集并分析它们 |
4. | 现场案例研究演示 | 能够向技术和非技术受众描述和组织分析 |
在案例研究部分,技术和非技术受众都会对学员进行评估。我们超越了自动化诊断测试,通过案例研究引入了人为因素。通过我们的论文式结构,我们全面测试候选人交流其发现的能力。
一旦学员获得认证,他们就可以访问我们的个性化职业服务团队。
2.我们的职业服务团队:
我们的职业服务团队专门帮助合格的候选人在数据科学领域找到他们梦想的工作。通过我们的会议,我们帮助指导候选人通过他们的求职无论是通过简历审查,面试准备,或一般提示。我们想给我们的证书持有者一个机会,不仅可以通过证书证明他们的技能,还可以更进一步,帮助他们在求职过程中展现出最好的一面。目前,我们的职业服务仅面向个人客户。
我们的第一批证书持有者要说的话:
我们已经有超过 30,000 名学员开始了认证过程,我们被他们的热情所感动。
“这是一个值得的过程,它激励我将我的数据科学技能提升到一个全新的水平。”-拉迪卡·加尔格
“这次使用 DataCamp 的经历真的超出了我的预期”——祁伟门
“我喜欢认证过程,我很高兴能够成功获得认证。”-延斯·斯文马克
接下来是什么?
我们才刚刚开始。这是一系列专业认证中的第一个。我们希望给我们的学生机会,让他们专攻他们最感兴趣的领域,并帮助雇主雇佣最好的候选人。
点击了解有关我们的数据科学专家认证的更多信息。
[数据框架职业系列# 1]2022 年开始数据职业生涯
DataCamp 播客 DataFramed 的主持人 Adel Nehme 最近采访了女性数据的创始人兼首席执行官赛迪圣劳伦斯 T2 T3。
介绍赛迪·圣劳伦斯
赛迪。 真是 伟大的 到 有 有 有的表演。
Sadie St. Lawrence: Oh, it's great to be here. Thanks so much.Adel Nehme: I'm super excited to talk to you about, breaking into data science today. How aspiring data practitioners need to think about their career paths, best practices to stand out in a competitive space, your work leading women in data, and much more, but before, can you give us a bit of a background about yourself and how you got into the data?Sadie St. Lawrence: Yeah, I'd love to share. So I came into data career in 2014. At the time I was working in a neuroscience lab with the plans to go and get my PhD. Science and soon revise. I really love the analysis side of things and didn't so much enjoy taking care of rats. And then unfortunately having to kill my rats at the end of using them.
和 那个 被 一个 一个 一个 位 劝阻。 和 如此。 什么做了什么 做了什么做了什么做了什么说了什么 什么 零件 做了什么 我的 什么 零件 能不能做 用 做那个?什么 我 曾 左 它 又曾分析,科学 方法。我 被 幸运 够了找术语 数据 科学。当 我 发现 术语 数据 科学 或 一个 谷歌 搜索, 我
它 本来是 只是 喜欢, 是的, 这个 就是 我。 这个 就是 就像 万物 那个 我 要 要 做 和 要 要 做。 我 辞职 我 工作实验室内 下 几天内所以 我 开始 关 当 一个 研究 分析师, 然后 开始 服用 一些 意识到了 我已经 真的 爱过了 它 和 然后 决定 去 去 和 去
开始 只是 一个 真正 激动人心的 时刻。 凡被到 被研究 分析师然后 被 分析 工程师 和 然后然后 我 被 能干的领导 一个 数据 科学 团队,然后 所以 我已经 有了 一个 真的 好玩的 旅程 在 这个 的空间。然后 现在 今天 我 得到 到 做 什么 我 爱T134 其中 为为 与 为 新增 数据 帮助 教练 其他 和
Adel Nehme: I love this story and I'm very excited to unpack a lot more of your journey. But there's definitely a lot to discuss today when it comes to breaking into data science. When I first . Joined the industry, , and that wasn't necessarily that long ago, you'd only see two main ones.
右 至 聘 为 四 数据 分析师 或 数据 科学家。这个 就是中的有些 的感觉 真实 今天, 但是 我们 见 一 很多 更有 我们 有涌现 的杂种 角色 像 金融 分析师 认为 需要 更
所以 作为 一个 教育家, 你是 某人 此人 此人被 嵌入 这个 空间 为 一个 长 什么 做 你 认为 是不同的 类型数据 职业 可用 为 有志 从业者? 寻找 到 打破 成 的数据?
Sadie St. Lawrence: Great question because a lot has changed since 2014 at this phase when I first entered. So on the positive side, there are so many more resources for learning today. So when I was getting into the space, I'm in the U S. There are only five universities even offering master's degree at the time. So I just share that because if someone has been interested in getting a master's or, going through formal education, they'll know the plethora of resources and options available, let alone the courses are available through.
我 别 连 都知道 如果 数据 阵营 存在时间 那 就是 可用 通过 私有 和 所以 我觉得 实在是 刺激 所以 还有 所以 很多 的资源。 但是硬的 部分 现在的 是 今天的 到底是 什么 你 提到了。 有 所以 很多 更多 工作岗位 在 这个 空间 和 现在 他们正在 变 一个
所以 人人 事 事 我 见 是 人 是 望 不是 只是 为 一个 数据 但 他们是 找 找 有人 谁 有 那些 技能也有。 行业 技能 或 业务 功能 技能 为 嗯。 所以 为 你 提到了,真的是 重要的 为 人 不是 为 只是 说
做 你 想要 到 成为 一个 产品 数据 的科学家? 做 你 想要成为 一个 金融 数据 的科学家? 做 你 要 要 工作 要 一个 消费者 商品 公司 喜欢 真的 狭义的 在, 在 喜欢 保健 是 我 觉得 一个 真的 刺激 地方 到 是 因为。 嗯, 为什么 不 我们 有见过如何重要 健康 是 中的 最后两个 车型 说明 我们已经 造好了 大概 命 他们 能 救。
所以 我 会 说, 使 肯定 如果 你就 望 到 把 弄进空间, 你就 而不是 不管是 还是 都是从 一个 行业 或者 一个 功能 从 一个 的工作。 的意思是 是 吗 是 营销 的一面? 是 它 一个 财务, 一个 操作 身边的东西? 我 想 如果 你 把 那些 两个 组合在一起, 你 有 一个
Adel Nehme: That's really great. And in some sense, this creates an easier career pathway into data science, because if you're a marketer, a financial analyst or someone who has the subject expertise. You just need the technical expertise on top of that to break into data science.Sadie St. Lawrence: Exactly. And it also really helps to distinguish you as well as with the crowd. So it's just a, win-win all girl.Adel Nehme: How do you assess the importance or the trade-off to a certain extent between these business skills and these hard skills, what do you think are the most important skills in that mix?Sadie St. Lawrence: Oh, yeah, That's a hard question, right? Because both are important. And so that doesn't really answer your question of one versus the other. But I would tell people though, is if you need both of them, how do you balance living both of them on your learning journey? And gee GI like to do this for people.
是 挑 贵 道, 然 知 贵 洋是什么意思? 嗯,海洋 是 一个 非常 广大 地方, 对吗?那是 一个 一批次 呃, 数据事业 感觉 还有 所有这些你 需要 到 学习 获取 数据 清理 和数据 数据 治理数据 工程。
然后 你 得到 变成分析机器 学习 侧面数据 可视化 所以 那就够了只不过是中的本身对技术上的 侧面的 对 的东西。现在 你是 话说 要 我是 你是问我是 要 也要 学 这些 像 如何 做 我 做 它 都?
那是 那里的知 贵 波 来 中, 对。有 有 真 明 异 为 凡 他 要 为 要。所以 我倒要说 上下上 下 上 下 真的 使 确信 你 服用时间 到 说话 到 人 人 已经工作 在 那个 洞里, 制作 确定 你是 不是 只是 阅读技术 文章怎么回事 上
所以 为 我, 一个人一个人 一个人 我 就像理解 商家 就是 到 读 所以 我 认为 那是美女 的。 呃, 上市 公司 是 当 你看 看 自己 财务 报表, 你 真的
怎么做 他们 怎么用 的钱? 什么产品试吃卖什么?末理解 贵 商 是 相当于 简单, 对吗? 这事儿 好办。我们 赚 钱 所以 那 我们 能 继续 到
数据叙事的重要性
Adel Nehme: And you mentioned here something in your answer around communicating your brand or communicating the technical skills that you have. How important are communication skills and data storytelling skills, as a means to break into data science and to jump out and stand out from the crowd.Sadie St. Lawrence: The analogy I like to use is like a music box, So if you've ever seen a music box, if it's closed and just sitting on the table, you never actually get to hear what the beautiful sound is inside of it. that's similar in terms of data scientists, not having communication skills, they may have these amazing skills, but they're all locked in this box and then no one ever.
那么 你 有 要 打开盒子如何 做打开盒子? 你 打开盒子 通过能够 到 告诉 那些 故事 和 到 沟通 那些 所以, 真的是起来你, 对不对? 做 你 要 人 要 听 你的故事 和 要 听 你的 惊艳 嗯, 那么 你就 要 要 需要 沟通技能 那么 那 你就
Adel Nehme: That's great. And you're someone who's, in my opinion, a great communicator. And that sits at the intersection of like technical skills and communication. How did you grow your communication skills over time? I know there's some form of it that is innate, but I'm sure you've gotten better at it over time.
什么之 之道 之道 之道 之道 之道 之道 之道 之道更好吗?
Sadie St. Lawrence: I would say, take every opportunity to use those communication skills. So I know early on in my career, it can be daunting to say, yes, I'll need this presentation or I'll present a portion of this, right. But one take any opportunity that presents itself. And also if there aren't any opportunities that present itself, volunteer yourself to be able to lead that communication.
所以 它 真的 是 的一种 事的做法。其他 选项。 正如 我们 活 在 一个 数字 世界 和我们 有 这些 伟大的 工具 社会 媒体 到 只是 开始 到 写出 和 进行交流。 即 是 这样的 一个 伟大的 选择 中的 条款 的。 一个人但是更重要的是, 如同 你 走 经过 那 练 之
所以 我 会 说 练 使 完美把握 每一次 机会寻求 出去 机会 向 沟通
Adel Nehme: That's awesome. I couldn't agree more, especially on taking that leap of faith and kind of going for the presentation whenever you get the chance. So moving in, in our chat on our chat, I think there's never been more interest in a data science career as a career path today. there are a lot more learning resources, as you said, a lot more organizations opening up data science department.
更多 数据 技能 和 种类组合业务 技能数据 技能 即 是 所需要的。 本 意为需求 为 数据 角色 是 的上级, 却是竞争 是 也是 那么 什么 会 你 认为 是 顶 理 为 站 出中
Sadie St. Lawrence: First I would say, I think it's great. There's this momentum and so much interest in the data. The forecast of the opportunity in this space is looking really, really well. So the world economic forum produces this job report that predicts the top jobs over the next five years. And so in 2020 predicted again for the next five years.
所以 那个 推移 通过 2025 和中的 顶10、 三个那些 顶 10 的工作。 我们是 所有 数据、 职业、 机器、 学习、 工程师、 数据、 科学家、 数据、 分析师。我 认为 它 是一个大 数据 的专家。 正确。 所以机遇是真的真的 伟大的 在 这个 事业中, 但是 你说得对 。 它 能 感觉 像 那里 是 一个 很多 的 竞争 在 这个 空间 就像 我 拿了 这个 类没有 一个人的 给予 我 一个 工作
所以 什么, 有些 的 这些 因素 那些见 作一期 同。 公司 都是真的好 人 人 不是 只是 有学历, 但 有贵。 他们 需要知道 那个, 嘿 对 走开, 我们就 绑着 时间 我们 知道我们 能 把 你 变成 这个 角色 和 你会 自动【T119
所以 为 人 出 有 人 有赶22的喜欢, 嗯, 我在 努力对对。 我在 尝试 到 获得的经验。 那就是 为什么 我是 申请这些 的工作。 什么 做 你 做什么? 如何 做 你 解决 那? 所以 这个 就是 其中 建筑 项目 和 建筑 一个 作品集 作品 真的 好。
这个 就是 那里 志愿, 为 组织 那里 你 可以 使用 这些 技能 可以 帮助 建造 那个 进步。然后 最后, 这个 是 哪里的 那些 沟通 技能 来了 中的 分享 你的 作品、 因为 为 你在 建 出项目 组合你在分享什么 你的
所以 那些 都是 真的两个 战术 那个 我 会 拿 对 现在 在 这个。
简历提示
Adel Nehme: I couldn't agree more. I love every single point. You mentioned one from, building a portfolio of projects. Sharing your work and even putting yourself out there and getting the experience and volunteering, so of course, when it comes to the practical side, as we mentioned here, breaking into data science, we need to talk about resumes, portfolio projects more deeply, and also sharing your work, building a community. So I'd love to first talk about kind of resume tips, right? How would you structure a resume for it?Sadie St. Lawrence: Yeah.
我是 庆幸 你是 请示 这个 问题 因为 只是 两个 周 前 我是 被 回顾 一对 夫妻 我 想 我 要创造岗位 从 不 坏 到 具备【条件 对吗? 起因 那是 通常 什么 我 见 同 简历 是 它 开始 关闭。 是 不是 不好。
但是 如何 做 你 做 如何 做了 我们 得到 你 到 真的 发光 出来吗?所以 我 认为那还有夫妇关键 因素记简历 一条 直线 旅程 穿越 你的 生涯。 简历 应 讲 一个 故事 和它 应 讲 一个 故事 作
难道 这个 的意思是 那个 你 应该 躺 上 你 简历 或者 把 事情上 发? 不是, 而是 什么 你 要要 做 你 要 要 摇 你 简历 和那么 为什么 就是 这个 重要吗? 那么 咱们就 说 你是 要去 找 一个 营销 数据 科学 角色, 对不对?
你 要 要 使 确定 那当 你要 嫂 出来 你要 历练 和 你要 教育 你要 为什么? 因为 人 谁 拿到 简历, 如何 成千上万简历 到 走 通过。所以想要让 把 当成 简单的把 当成 吧。 它的 为 简单的 为 它们的 为 可能的 为 为 像, 是的, 此 人
你 不要 要 人 人 回顾 你的 简历有走试挖 所以 一个人 一件事 我 会 说 是 挑, 有 一个 真的 清楚 远见 又来了, 不是 只是数据 科学 角色 焦点 上 下 行业 或 一 那是告诉 一个 的故事为什么 你就是 那个 完美的 人最大的 事 我 见 是 同简历 是 人 别 他们在 只是 投掷 所有 他们的 技能 出来 那里, 他们的 经验 出来 那里
所以 事先 给 起草 那份 简历, 拿到 真的 明确 上 什么 那份 是 你 想要的, 然后 拉 出来 把 的 的 你的 和 你的 教育 那 适用 到
Adel Nehme: That's really great. So let's pick it out through an example, I want to be a data analyst in the healthcare space. I have a few experiences here and there. And healthcare bit touching data. I've learned a lot of data projects. I've done a portfolio of projects on healthcare data, How would you structure a resume for a data analysts going into healthcare for.Sadie St. Lawrence: Yeah. So this one, because it's a technical role, you definitely want to have your technical skills at the top, right? So this is a goal where you're not going to be managing people. You're going to be an individual contributor. So you want to show right away. Here's my technical skills, right? So I'm a bullet point.
我 知道 Python, 我 知道甚至 寻人中的中的 库 即 你 可能 有然后 右 走 走 进 你的 经验, 右? 所以 上 下上下 上 下 上 下 上 下 上下 但是 我 赌 你曾经 工作过 关于 的问题 那 都是 类似 到 什么 你
所以 什么 你 要 要 做 就是 拉出来 那些 的问题塑造 那个 故事 在 一个所以 那就是 要 要 要真正的 有帮助 中的 条款 中的 只是 制作 更简单 为为 为 阅读。 好吧。 耶。 也许 他们 曾在消费 商品 公司但 我 能 见
现 将 应用于 将 分析师 池 作为 井。然后 最后,通常是 结束 与教育 身边 的 事情。教育可以走夫妻的路子。 人 常 问 应 我 放 一切附加 教育 我 有 上 这个 要看我 中的 术语 中的 是否 你 已经 有 一个 学士 附加 教育 你已经 搞定了 应该 来了 通过 中的技能 那个
不是 你的 学士 或 硕士。 如果 你 不 有学士 或 硕士 肯定 加 说明上有 因为 我 也许 中的 一个 不同的 大道那就是 好吧。 但是 我 认为 那是 只是 重要要 知道 那是 一个人 或者 那个 其他的,
创建投资组合项目
Adel Nehme: That's really great. moving on to the second element of breaking into data science here, which is like portfolio projects. What do you think are some of the most important aspects of creating a portfolio project? And what do you think makes a great portfolio?Sadie St. Lawrence: I think the thing that makes a great portfolio project is the subject that you are interested in. So one of the best ones I saw was someone did an analysis. they were a big movie, but for me did analysis of all the movies that. Over the last five years. And they categorize them into all these really fun categories based on like how long the film is, who the director is.
焉 多 共部电影, 中的只是 一个 实在 有趣好玩 的故事。他们 做了 它 在 一个 好玩、 互动 的仪表盘上。 什么 我 爱过 关于 这个 作品集 项目。 你 得了见 自己的 个性。我 认为 那是真的重要 要 记住 太过了, 就是 你是在 努力 要
见, 因为 你就 要去然后 找对 契合的文化, 对。 如果 你真的 真的显示你的 是你的 个性 是 你真的 要去吸引 如此。 一个人 找一个 一个 主题 那个 你真的 有兴趣 中的和 有事 那个 你真的
然后 其次, 找 创意 方式讲述故事。 所以 你 可以 肯定 添加 它 到得到页面。 你可以创建 一个 中型 博客 帖子。 所有中的 那些 都是 伟大的 但是 也许 你 走多余的 哩。 搞不好 你 搞个好玩的 少了。 即 人 能 用过滤 通过的视频,对吗? 也许是 它是 一个 交互式 仪表盘。
我 找 创意 方式 给 讲故事。我 觉得 那就是真的 什么 会让你的 组合?
项目 团队。
Adel Nehme: I love this, especially on the authenticity and having a great, genuine interest in the subject because there's kind of Nick saying who I interviewed as well on the podcast on async the data science interview mentions this as the halo effect, if you are genuinely interested in a topic, people will gravitate towards.
和 他们 会 会 会 会 会 会 会会会会 会 会 会
Sadie St. Lawrence: Yeah, I couldn't agree more. I think softened times, if you're trying to break into the field, you can just feel like I just want my first chance. Right. And so you're willing to just do whatever to get that first job. But what I would say is don't lose, don't neglect that like, you really want to care about the culture of the team that you're going into.
只有 道 到 做 那个, 那就分享 谁 你 都是 所以 那个 他们
Adel Nehme: I completely agree. what do you think are key mistakes people make when creating a portfolio?Sadie St. Lawrence: I would say doing what's already been done. So there's a lot of fun names out there. It's the, it's the, I think it's like a golden retrievers. To like aware Wolf right. In the golden retriever house. Like if I have this data set and then the like werewolf picture is like real word world data, right.
真是 像 一个 经典 模因
Adel Nehme: Yeah.Sadie St. Lawrence: Community. And it's so true. Like we all, like, this is why meetings are so great because we see it in automatically get it. But I think also more importantly, not just in terms of why this meeting is so great, but it's in terms of like the complexity of the two different data sets, but.
你 知道, 我们 说 就像虹膜 状态 说 那是 所以 过度使用 术语 中的 什么 所以 又来了, 它 能, 当 你 轻点 成 什么 你真的 有兴趣在, 你’ 也许 它会 用 你的网 获取 这个 的数据。 也许 它 痊愈 数据 从 你的 苹果 手表 或 你的 健康对吗?
喜欢 也许 你真的 感兴趣对 RA 和你 开始 到 分析 喜欢艺术 购买 和市场。对对。 走 进 什么 你对 感兴趣 中的 和 停止 做 什么 大家都 别的 有 凯特琳 被 一个 伟大的 地方 去 找一些 自由的 数据 集合 和 得到 我 认为 那是 一个 伟大的 地方 去 实践 但是 在 你的 作品集
所以 我 会 说 最大的 问题 或 错误 认为 人 做 就是 只是 而不是 做
构建数据社区
Adel Nehme: 所以,当我们谈论原则时,我们提到的最后一件事是,从人群中脱颖而出,分享你的工作,在你周围建立社区,我很乐意在你的经历中锚定这一点,在数据中启动女性。
我在准备这个播客的过程中度过了一段美好的时光,在准备这个播客的过程中了解了你的故事。我发现这是勇气和团体力量的伟大见证。那么,你介意详细介绍一下你最初是如何推出一个最小数据和类似的故事,以及它是如何把你带到现在这个位置的吗
赛迪圣劳伦斯: 耶。所以当时我全职工作是一名研究分析师,我还在全职攻读硕士学位,显然这两件事都很忙。嗯,但是在这个过程中我感到很孤独。所以我,我觉得我没有可以真正交流的人来讨论想法,合作。
正是对归属感和联系的需求让我开始研究新数据。这真的是从我个人对社区的需求开始的,然后是对空间中更多平等的更广阔的愿景。所以不幸的是,在我的硕士项目中,你知道,我们第一批有 30 个人,只有我自己和另外一个人留在了项目中。
所以我真的觉得有必要和像我一样的人交流。所以女性和数据从一个聚会团体和我所在的城市开始。我以为会有很多人出席。每个人都会对这件事的发生感到兴奋。不幸的是,随着时间越来越近,没有人出现,我感到非常沮丧,真的只想收拾行李回家。
谢天谢地,我决定在开始时间后再等 15 分钟。一个人冲进门,她带了另外三个人进来。这就是生活在数据中的诞生。我认为这也表明,你不会遇到那么多原本应该联系的人,对吧。
就像找一两个人。是某事的开始。今天呢?
你知道,women and data 是一个由 30 个国家和 50 个城市的 30,000 多人组成的社区。但这真的真的很不可思议,当你只是打电话说,嘿,让我们联系,让我们成长。让我们成为可能需要时间的人。
但是最终通过一些坚持和奉献,它会成长。
Adel Nehme: 所以,当我们谈论原则时,我们提到的最后一件事是,从人群中脱颖而出,分享你的工作,在你周围建立社区,我很乐意在你的经历中锚定这一点,在数据中启动女性。
我在准备这个播客的过程中度过了一段美好的时光,在准备这个播客的过程中了解了你的故事。我发现这是勇气和团体力量的伟大见证。所以,你介意详细介绍一下你最初是如何推出一个最小数据和类似的故事,以及它是如何把你带到现在这个位置的吗?
赛迪圣劳伦斯: 耶。所以当时我全职工作是一名研究分析师,我还在全职攻读硕士学位,显然这两件事都很忙。嗯,但是在这个过程中我感到很孤独。所以我,我觉得我没有可以真正交流的人来讨论想法,合作。
正是对归属感和联系的需求让我开始研究新数据。这真的是从我个人对社区的需求开始的,然后是对空间中更多平等的更广阔的愿景。所以不幸的是,在我的硕士项目中,你知道,我们第一批有 30 个人,只有我自己和另外一个人留在了项目中。
所以我真的觉得有必要和像我一样的人交流。所以女性和数据从一个聚会团体和我所在的城市开始。我以为会有很多人出席。每个人都会对这件事的发生感到兴奋。不幸的是,随着时间越来越近,没有人出现,我感到非常沮丧,真的只想收拾行李回家。
谢天谢地,我决定在开始时间后再等 15 分钟。一个人冲进门,她带了另外三个人进来。这就是生活在数据中的诞生。我认为这也表明,你不会遇到那么多原本应该联系的人,对吧。
就像找一两个人。是某事的开始。今天呢?
你知道,women and data 是一个由 30 个国家和 50 个城市的 30,000 多人组成的社区。但这真的真的很不可思议,当你只是打电话说,嘿,让我们联系,让我们成长。让我们成为可能需要时间的人。
但是最终通过一些坚持和奉献,它会成长。
Adel Nehme:我真的很敬畏这个故事,因为克服这种沮丧并继续下去的心理障碍。令我印象深刻。我想,当你鼓起勇气,勇往直前,建立一个可以帮助你成长的同伴和导师群体时,你可以分享哪些经验?
赛迪·圣劳伦斯:我真的认为勇气是肌肉,对吗?这是我们必须练习和加强的东西。所以我认为我们都需要增强肌肉的勇气,这样我们才能在这个世界上展现真实的自我。我们可以让别人听到我们的想法。那么,我们如何开始做这件事呢?
你从一小步开始,对吗?你可以从举手发言开始,也许你可以从自愿做陈述开始。你从迈出勇敢的一小步开始,然后发生了什么。当你迈出第一小步的时候,它并不像我们想象的那样可怕,让我们相信所有对将要发生的事情的恐惧。
我们可以放松下来,接受更大的工作。这就是真正发生的事情,意思是说,这只是一小步,嘿,我要开始了,看看是否有人想展示。还有几个人。因此,增强勇气的第一步是关键,但更重要的是,我要说的是一致性和韧性,在这里非常值得称赞。
我想很多人都熟悉这位英雄的旅程,这是一段跌宕起伏的旅程。我认为这是一个非常美丽的故事,也非常适用于我们所有人的生活,好吧,你增强了你的勇气,可能会有点高,但你必须坚持下去,因为在这个过程中可能也会有一些低。
就这样。拥有这种坚韧和奉献精神是很重要的,而这只能来自于你对自己想要实现的目标的愿景。所以,为了能够有勇气度过那些艰难的时刻,不要对未来的自己或者你想要创造的东西抱有幻想,这真的很重要,因为那会让你度过那些低谷。
我真的很敬畏这个故事,因为克服这种沮丧并继续下去的心理障碍。令我印象深刻。我想,当你鼓起勇气,勇往直前,建立一个可以帮助你成长的同伴和导师群体时,你可以分享哪些经验?
赛迪·圣劳伦斯:我真的认为勇气是肌肉,对吗?这是我们必须练习和加强的东西。所以我认为我们都需要增强肌肉的勇气,这样我们才能在这个世界上展现真实的自我。我们可以让别人听到我们的想法。那么,我们如何开始做这件事呢?
你从一小步开始,对吗?你可以从举手发言开始,也许你可以从自愿做陈述开始。你从迈出勇敢的一小步开始,然后发生了什么。当你迈出第一小步的时候,它并不像我们想象的那样可怕,让我们相信所有对将要发生的事情的恐惧。
我们可以放松下来,接受更大的工作。这就是真正发生的事情,意思是说,这只是一小步,嘿,我要开始了,看看是否有人想展示。还有几个人。因此,增强勇气的第一步是关键,但更重要的是,我要说的是一致性和韧性,在这里非常值得称赞。
我想很多人都熟悉这位英雄的旅程,这是一段跌宕起伏的旅程。我认为这是一个非常美丽的故事,也非常适用于我们所有人的生活,好吧,你增强了你的勇气,可能会有点高,但你必须坚持下去,因为在这个过程中可能也会有一些低。
就这样。拥有这种坚韧和奉献精神是很重要的,而这只能来自于你对自己想要实现的目标的愿景。所以,为了能够有勇气度过那些艰难的时刻,不要对未来的自己或者你想要创造的东西抱有幻想,这真的很重要,因为那会让你度过那些低谷。
Adel Nehme:那真是太棒了。我完全同意。你是一个经历过女性数据的人,既有导师,也有导师,很多人,有抱负的从业者应该如何对待导师与学员的关系。确保它对导师非常有用,但他们也真的从中受益。
赛迪·圣劳伦斯:是的。所以我要说的第一件事是把导师看作一种关系。我很高兴你用了这个词,因为我认为很多时候,每个人都知道导师很重要,有很多人希望能够找到一个导师。所以我喜欢给人们一些建议,让你首先找到一个导师,但这要从与人建立关系开始。
那你是如何做到的呢?你,你通过对话,通过寻找共同权利,创造联系来做到这一点。大多数,我所有的导师都非常有机,从与他们建立关系开始,有那种共性,那种共同的联系。然后随着这种关系的发展,很多时候你只是自然而然地进入导师关系,但中途你会问,你是我的导师吗?
他们说,你不是我的学生吗?这是非常自然的。对吗?这是最好的情况,对吗?这是这些联系有机发生的地方。所以我告诉人们,不要把太多精力放在寻找导师上,而是要多和你真正钦佩的人建立关系。我认为,如果你有这种心态,就会减轻一点压力。
然后当你成为导师时,有些事情。你可以的,我听别人说过,嘿,你需要对你的导师有用。也许能帮他们。或者。这很好。我认为如果有机会出现,我们一定要抓住。但对我来说,我为什么指导人们是因为没有什么比看到他们成长和改变更让我开心的了。
因此,你能为你的导师做的最好的事情就是在自己身上下功夫。因为当他们看到他们给你的时间、精力和建议有所改变时。他们会很开心,会想对你倾注更多。通过在七点开始工作,准时参加会议。
做他们问的事情,作业带着问题进来,做好准备。有些事情很简单,但是他们的导师会发现,他们会很乐意给你更多。一旦他们看到这是值得的,他们只想看到你成功。
Adel Nehme:那真是太棒了。我喜欢这样。特别是在最后,当你提到做作业时,我认为没有什么比看到他们的建议被采纳更让导师高兴的了,这也是导师觉得值得的。考虑到你作为社区组织者的工作,你已经把自己放在了那里。无论是在女性和数据领域,还是在社交网络领域,你如何?走近冒名顶替综合症?一个初级从业者可能有,对。分享作品时
赛迪·圣劳伦斯:是的。所以我想向人们澄清,海报综合症永远不会消失,它只是在改变。没错。所以我不是来打击任何人的,对吧。就像,哦,我只是想进入这个领域。我有冒名顶替综合症。哦,别担心。你仍然可以在你的职业生涯中继续前进,继续领导。
你甚至可能。更多。因为你肩负着更多的责任。那么你如何和你的冒名顶替综合症交朋友呢?这就是我喜欢做的事情,我该如何看待它?不要用它来限制我,而是用它来锻炼我的勇气。所以我认为冒名顶替综合症是一件好事,因为它提醒我们哪里有恐惧,哪里需要鼓起勇气去克服。
因此,如果你害怕在网上分享你的作品,从小事做起,从一步一步做起,从每周发布一次开始。我认识一些人当他们开始向。对他们来说太可怕了,他们说,嘿,我要发帖了。然后我甚至不会看任何结果。
也许他们会告诉你,你必须开始。不要每 10 分钟检查一次。看,有人喜欢,有人评论吗?这是一个很好的起点,只是把它放在那里,然后当你开始这样做时,你会意识到,哦,它并不可怕。世界上的巨魔并没有我们想象的那么多。
实际上,人们相当重视和支持。所以一旦你开始克服第一个障碍,你就能做得更多。所以我的建议是利用你的冒名顶替综合症来看看你勇气的这种变化在哪里为你自己设定了小目标。并坚持这种一致性。
最终,他们将能够在那里取得突破。
Adel Nehme:是的,我完全同意。绝对冒名顶替综合症不会消失。把它框定为和你的冒名顶替综合症做朋友,并把它作为推动你前进的工具,这也是我感到纠结的一件事。你知道,我在这里主持播客,冒名顶替综合征仍然是我的困扰。
鉴于你作为社区组织者的经验。致力于增加多样性、公平性和数据科学的人。我喜欢听你说,如果我是一名申请人,我来自一个少数族裔群体,我正在申请一份工作,我正在面试一家公司,我如何了解我需要问什么问题才能了解这是一个将提升我的组织类型,或者我必须比男性同行更加努力才能被人看到。
赛迪·圣劳伦斯:这与问题和你在这种情况下的感受无关。我为什么这么说呢?因为。我还没有遇到一家公司会站出来直截了当地说我们不支持多元化。没错。我们并不包容。没错。没有人会这样回答这个问题。谢天谢地,但有时他们可能会说,是的,我们支持他,你做了所有这些事情,但他们的行动与他们的语言不同。
对。这是一件非常令人沮丧的事情。也是我们想要保留的东西。那么你如何摆脱这种情况呢?你真的看他们的行动。你的感受基于他们在面试中对你的态度。所以我在面试时告诉每个人,他们不仅仅是在面试你,你也在面试,他们对你的回答有什么反应?他们是否以合作的方式回应并说,是的。你是这样想的,还是以一种封闭的、侵略性的方式,让你感觉不好?没错。你可以自由地接受你从现在开始获得的洞察力。不是因为你做错了什么,而是洞察这个组织的文化是什么。
因此,我会说我不太喜欢提问,而是在面试中注意那些细微的问题。肢体语言和音调会让你了解整体文化。
Adel Nehme:我完全同意文化是在组织中取得成功的一个重要方面。不管你的技能如何,那都是可以的。就像你必须加倍努力才能获得这些技能一样。这是一场艰难的战斗,我不建议任何人去经历。
这就是为什么我很乐意,我喜欢你在面试过程中能够衡量公司的观点。能够做到这一点。
现在,Sadie,在我们结束之前,我必须谈谈真正塑造行业未来的未来趋势,以及我们如何看待每天的数据工作。那么,随着职业生涯的发展,你认为有抱负的人和现在的从业者应该注意哪些趋势呢?
Sadie St. Lawrence:哦,我很高兴你问了这个问题,因为我确实喜欢谈论未来,大多数时候我宁愿呆在未来,也不愿呆在这里,但是参与到想要参与的地方是很重要的,所以,是的,我认为有几件关键的事情。我想。我最感兴趣的事情之一是区块链技术将如何改变数据职业。
区块链技术的核心是数据库,对吗?是交易和记录。它的特别之处在于它是分散的。而从分权中,我们可以达成这种共识。所以在这个领域有很多伟大的事情发生,到现在为止,网络的应用。
这将极大地改变企业的运营方式。对于数据专业人员来说,意识到这一点非常重要,因为业务是如何运营和变化的,您可以从这些业务运营流中获取数据。因此,我认为数据专业人员不要让自己的头站在。
机器学习模型和数据可视化,但要看得更远一点,看更广泛的行业。所以我会密切关注 web 和区块链技术。作为这一领域的从业者,我会鼓励在我的组织中使用这一技术,因为区块链技术最美妙的地方之一是。
上面有时间标记,高度适中。那么,这些非常有线索的数据会发生什么呢?没有什么比在可见的地方拥有非常干净和准确的数据更能让数据科学家安心工作了,对吗?不,记录的是发生的事情。如果我是一名数据科学家,我会希望我的组织使用这项技术。
那会使工作成功的。就我能够工作的数据的整洁性而言,我做得容易多了。
Adel Nehme:那真是太棒了。再说一个实际的方面,如果我现在是一名数据科学家,我想学习一些技术或者更多地了解区块链技术和 web。什么是技术技能?我应该知道。
赛迪·圣劳伦斯:是的。所以,在你学习技术技能之前,我首先从了解行业现状开始。因此,有很多很棒的网络研讨会正在举行,妇女和数据现在正在做一个关于 web 的完整系列,应用程序以及这对数据专业人员意味着什么。
但是我会从对这项技术及其应用的大致了解开始。从那里,你要做的事情类似于数据科学,你要选择一种语言,比如,你是从 Python 开始的吗?你是不是从我们所有的不要同时做两件事开始,就像坚持一件事,擅长一件事,你会想要找到一条你想用的链子。
因此,区块链只是一个链条,但实际上还有数百个链条。那里。hi Dara 哈希包或哈希图,这是一个链。你可以使用许多不同的链条。因此,这与数据端和类似的空间类似,不要试图一次完成所有工作。
只需选择一个,并了解智能合约和令牌的工作原理。然后从那里,你知道。
你可以去任何地方。
遗言
Adel Nehme:最后,Sadie,在我们结束这一集的时候,在我们结束之前,你还有什么要说的吗?
赛迪·圣劳伦斯:是的,我想,我只想对所有的听众说,保持好奇,不要害怕。从空白的一页、空白的笔记本、空白的画布开始,从一些新的东西开始,创造新的自己,让真实的自己被看到,因为这真的是你找到给你带来最大快乐的职业的方法。
Adel Nehme:那真是太棒了。桑迪,非常感谢你能来。
赛迪·圣劳伦斯:我的荣幸。望谈反对。
DataU 学院为柬埔寨青年提供全球数据革命所需的技能
请介绍一下 DataU Academy 以及您与 DataCamp 的合作关系。
DataU Academy 成立于 2019 年,是柬埔寨首家致力于数据科学、数据 IT 和数字营销的技能培训学院。我们项目的独特之处在于,超过 30%的课程致力于软技能培训,以确保我们的学员完全具备工作能力。我们位于金边,与柬埔寨电信、银行、金融科技、消费品、制造等行业的领先组织合作,通过招聘、培训和部署高技能毕业生来释放数据的力量。DataCamp 在通过按需学习提供硬数据科学技能和在线内容方面发挥着关键作用。
DataCamp 的课程将视频与动手编码实践相结合,以优化学生的学习和信息记忆。由于该平台的灵活性和数字弹性,我们的学生能够很好地适应并提高工作效率,即使在新冠肺炎封锁期间也是如此。我们能够轻松跟踪学生的进步和表现,他们更喜欢 DataCamp 的边做边学方法,而不是视频讲座。
因此,在四到六个月内,我们的毕业生能够从零到很少的数据背景成为具有热门技能的专业人士。通过 DataCamp,柬埔寨青年有机会发展世界级的数据技能,建立梦想职业,提高生活水平,并参与全球数据革命。
我们很高兴能够从全球教师社区中学习,这非常符合我们的愿景。Sokhna Vor
你希望解决的最大挑战和需求是什么?
1970 年代末柬埔寨的种族灭绝给我国留下了创伤。今天,我们的青年正在努力克服我们悲惨的历史,积极学习急需的技能,并积极努力改造和发展我们的国家。他们努力工作,渴望学习,适应力强。柬埔寨青年占我国目前人口的三分之二,我们国家的未来取决于他们。
与西方世界相比,柬埔寨的潜力很大,培训成本也相对低廉,因此我们预计重点将从低技能劳动力转移到创新、高收入和基于技能的职业。由于柬埔寨的经济以制造业为主导,自动化和工业流程的发展无疑会使许多角色过时。这些变化产生的大量数据将创造巨大的机会和许多新的角色,对此,数据科学和分析技能将至关重要。
正是基于这种远见,我们建立了 DataU——我们致力于国家的发展。一年多来,我们不知疲倦地与公共和私营部门合作,为工业 4.0 做准备,以将柬埔寨建成数据科学的区域卓越中心。10 年后,我们希望柬埔寨不仅能与吴哥窟联系在一起,还能与全世界的数据科学联系在一起。柬埔寨可以成为数字和数据技能的工厂,为世界提供人才。
为了实现这一愿景,我们正在建立一个世界级的培训项目,以帮助柬埔寨青年结合技术和软技能。传统的面对面教学过分强调讲课,增加了运营开销,并且不能以我们想要的速度扩展。
你喜欢 DataCamp 的什么?
DataU 的教学结合了现场学习和 DataCamp 上的在线学习。传统的面对面教学提供有限的课程内容,并且教师的标准各不相同。此外,与快速变化的行业需求相比,它可能会很慢—我们希望我们的解决方案更广泛、更具可扩展性。我们发现,MOOCs 有很好的理论课程内容,但都是在筒仓中教授的,我们的需求需要更全面的计划,如数据营的评估和实践练习。
我们评估了许多基于文本和视频的学习平台,有些有,有些没有平台内编码,有些没有实际练习和项目。我们的目标是通过概念和实践机制的平衡组合,提供最大化学生知识记忆的内容。与此同时,我们想要一些足够灵活和强大的东西来结合在线和离线的讲师指导教学和辅导。
我们的高度职业化、行业聚焦和市场化的技能培训项目也需要平台内编码练习和实践以及项目和技能评估。在 DataU,我们与行业合作伙伴和客户密切合作,以确保我们的毕业生拥有在工作场所迅速脱颖而出的技能和心态。
到目前为止,我们发现 DataCamp 是一个高效、直观、实用的学习平台,提供了灵活、互动的学习体验。DataCamp 拥有大量受过国际培训的教师,他们提供高质量的内容。我们很高兴能够从全球教师社区中学习,这非常符合我们的愿景。DataCamp 支持我们的综合培训计划,并帮助我们培养具有各种技能的成熟数据科学家。
DataCamp 支持我们的综合培训计划,并帮助我们培养具有各种技能的成熟数据科学家。Sokhna Vor
自从实施 DataCamp 以来,你看到了什么结果?
我们的 alpha 团队在六个月的时间里使用了 DataCamp 平台,最近已经毕业并过渡到全职岗位。我们调整了我们从第一批学生中学到的知识,推出了第二批学生。我们所有的学生都在利用 DataCamp 世界一流的内容、评估和平台内编码练习。我们的内部数据科学家、讲师、项目总监和管理层监督学生在平台中的进度,并管理他们的学习路径。
我们的学员来自不同的背景——从计算机科学到英语再到会计——并且拥有不同的行业经验。超过 65%的学员来自省级地区,约 45%为女性。此外,超过 90%的人通过了我们自己的标准化测验和考试,并展示了在实验项目环境中应用技能的能力。
有了 DataCamp,我们能够最大限度地提高学生的学习效果,培养出具有高需求技能的毕业生来振兴柬埔寨的经济。我们的目标是成为数据人才的世界中心,并加强全球技术社区。
你会对考虑与 DataCamp 合作的其他人说些什么?
采用 DataCamp 的便利性和灵活性是帮助我们的学员获得数据技能的关键。虽然英语对一些柬埔寨年轻人来说仍然是一个挑战,但他们能够通过观看、重新观看和在 DataCamp 平台上练习编码来吸收和保留知识。DataCamp 还为他们提供了交互式用户体验,让他们可以轻松浏览课程材料。
我们使用混合学习,通过模拟工作场所的现场学习环境来补充在线学习。我们观察到,我们的学员经常选择在家里使用 DataCamp Mobile 来提前了解概念,并利用自己的时间复习内容。这提供了极大的灵活性,对学生的成绩有积极的影响。
此外,DataCamp 提供了广泛的课程——从高级基础知识到技术数据工程和机器学习概念。他们的内容很深入,关于 Python 和 R 的课程也在不断更新。
如果您所在的组织希望提高员工的技能和技能,以提高组织数据的流畅性,我们绝对可以推荐 DataCamp。
了解更多关于达图学院的信息,并在 LinkedIn 上联系索克娜。索克纳也是湄公河大数据的联合创始人。
点击了解更多关于 DataCamp 合作关系的信息。要成为合作伙伴,请联系 【邮箱保护】 。
向世界各地的组织捐赠 25,000 份 DataCamp 订阅
在去年夏天全球经济衰退和创纪录的失业率中,我们看到了帮助经历前所未有的困难的人们的机会。我们决定以最直接的方式提供帮助——向非营利组织捐赠数据营订阅,为社区提供免费教育、职业培训和劳动力发展。五个月后,我们与除南极洲以外的各大洲 24 个国家的 35 个非营利组织合作,超额完成了捐赠 10,000 个许可证的最初目标。成功的故事层出不穷:
DataCamp 让更多女性进入科技领域,了解数据科学,练习英语。有了这些知识,我们中的许多人已经在科技公司找到了工作。—Sharon Camacho,数据科学 FEM 的管理工程师
“对于 DataCamp 的员工来说,设立这项奖学金是最有成就感的举措之一,”DataCamp 的人才和认证负责人韦斯顿·斯特恩斯(Weston Stearns)说。“我们的使命是使数据科学民主化,并为大众带来流畅的数据。通过让学习者免费获得推进职业发展所需的技能,我们离完成这一使命越来越近了。”
我们计划的范围必须随着对数据流畅性日益增长的热情和需求而发展。这就是为什么我们正式宣布三项令人兴奋的进展:我们已经正式将该计划命名为 DataCamp Donates ,我们已经将我们的承诺增加到 25,000 个订阅,我们正在将该计划扩展到非营利科研机构、公立中学和社会福利机构。
赠送项目现在被称为“数据营捐赠”
“DataCamp 捐赠”清楚地描述了我们正在做的事情——向非营利组织捐赠数千份一年期高级订阅(每份通常价值 399 美元),以及通常为我们的企业客户保留的功能,包括 24/7 客户支持。除此之外,我们长期运行的课堂数据营项目仅在 2020 年就为超过 170,000 名学生和教授提供了六个月的免费订阅。
我们已经将我们的承诺增加到 25,000 份
我们正在匹配额外 15,000 名 DataCamp 学习者的购买,这些人与您一样,希望提高数据技能,同时也帮助其他人领先一步。这使得我们的承诺订阅总数达到 25,000。我们有信心在 2021 年 7 月 DataCamp 捐赠一周年之前实现这一目标,如果不是更早的话!我们将通过加强现有的伙伴关系并在世界其他地区建立新的伙伴关系来实现这一目标。哪里需要免费的数据科学、分析和数据工程教育,哪里就是我们想要的地方。
DataCamp 捐赠现在对更多类型的合格组织开放
由于每个人都会从数据流畅中受益,我们正在扩大 DataCamp 捐赠的合格合作伙伴的范围。DataCamp 现在将向注册的科研非营利组织捐赠订阅,因为研究科学家正在解决我们这个时代的重大问题,如气候变化和新冠肺炎。
我们还寻求与政府社会福利机构合作,以支持大量失业公民。我们希望为这些社区提供最好的知识和工具来收集、可视化和分析他们的数据,以造福当地社区和整个世界。
我们长期以来一直支持大学教育,在课堂上免费使用 DataCamp。现在,我们正在扩大公立中学的数据营捐赠渠道。任何 16-18 岁的学校管理者、教师和他们的学生都有资格获得免费的高级访问。请继续阅读,了解如何申请。
成为 DataCamp 捐赠合作伙伴
如果您是非营利组织或公立学校的管理人员或教师,或者政府社会福利组织的官员,请遵循以下三个简单的步骤成为 DataCamp 捐赠合作伙伴。
- 首先,向 【电子邮件保护】 发送一封电子邮件,详细说明贵组织的目标以及您打算如何使用捐赠的订阅。我们的团队会阅读每一封电子邮件,并回复将帮助我们产生重大影响的组织。
- 接下来,将邀请合格的组织填写一份正式的申请表。
- 如果选中,最后一步是在 Zoom 上召开会议,最终确定合作条款。然后,我们在一周内将许可证捐赠给我们的新合作伙伴组织。
DataCamp 的合作伙伴捐赠
没有您,我们的学习者和合作伙伴,DataCamp 的捐赠就不会成功。感谢您向我们发送您的见解和鼓励,并在您的社交网络上宣传我们的计划。如果没有个人和组织直接联系我们,我们不可能捐赠这么多的订阅。敬请关注本博客,了解更多关注合作伙伴的帖子,如尼日利亚数据科学公司和数据科学公司以及像本文这样鼓舞人心的成功故事。
您也可以通过社交媒体 @DataCamp 联系我们,并使用标签 #DataCampDonates 来帮助我们传播消息并找到更多合作伙伴。
查看我们的完整合作伙伴列表,包括他们的网站、按国家划分的 DataCamp 捐赠范围以及关于该计划具体条款的常见问题解答。非常感谢我们所有的合作伙伴帮助我们实现数据科学教育民主化的目标。
不要做傲慢的模型
原文:https://web.archive.org/web/20230101103301/https://www.datacamp.com/blog/dont-make-arrogant-models
傲慢对你的模特来说可不是什么好品质。
一个鲜为人知的事实是,科学家生产的模型数据通常不够健壮或容错,无法真正投入生产。当然,当输入数据与您的定型数据和维持数据相似时,您可以相信您的预测。任何数据科学家都可以构建模型对象,以与训练数据相同的格式传入数据,并获得看似可靠的预测。
在现实世界中,事情总是比你想象的更糟糕。当数据科学家将模型扔出围栏时,ML 工程师或 IT 部门通常必须用护栏重建模型,以确保它们在生产中有用。作为数据科学家,我们应该做得更好——并摒弃那种认为我们的模型在每个生产场景中都将如我们所愿发挥作用的傲慢态度。我们不应该说,“这是我的 Jupyter 笔记本;我的工作完成了!”至少,我们应该从记录传入变量的预期行为开始,以帮助 ML 工程师更容易地编写运行时测试。更好的是,我建议增加一层单元测试来调整模型预测。
在本文中,我将带您浏览一个简单的错误处理示例,该示例使用 R 和包装模型预测函数的逻辑条件。Python 用户很可能熟悉assert
、try except
和常用的逻辑操作符来完成本文中涉及的许多相同的事情。本文使用 R 作为例子,因为许多使用 R 的数据科学家并不公开他们的模型作为生产的端点,这意味着这些模型“谦逊”的方面对他们来说可能是新的。
最终,我们的目标是为您的模型添加一层保护,以强制执行预期的行为,使其能够承受异常值,具有容错能力,并且在某些情况下,可以覆盖安全值的预测。这些运行时测试和编码护栏有助于使模型像 opencpu 服务器中的 POST 请求一样安全地用于生产。在您的模型函数中包含这些额外的预测行为将在风险承担者之间建立信任,您的模型不会傲慢地行事,并且尽管有异常值或意外的输入,也会交付价值。
示例设置
在本例中,您将使用这个小样本数据集来构建一个客户倾向模型。这些虚假数据是汽车贷款营销活动的结果。输入变量包括当前的汽车制造和最近的储蓄账户余额。我们的分类模型将学习哪种汽车制造和账户余额有助于接受营销提议。当然,在现实世界中,你会有更多的数据,并遵循更严格的数据科学实践,如分区-但在这个例子中,我们将采取一些捷径,因为我们侧重于预测层。
[rpart]库用于递归分区来构建我们的决策树。类似地,[rpart.plot]
(https://www . rdocumentation . org/packages/rpart . plot/versions/3 . 1 . 0)库将帮助我们快速构建一个看起来不错的树。接下来我们使用[yardstick]
(https://www . rdocumentation . org/packages/scale/versions/0 . 0 . 9)轻松获得模型度量,使用[ggplot2]
(https://www . rdocumentation . org/packages/gg plot 2/versions/3 . 3 . 5)构建一个镶嵌图。下面的代码简单地用[read.csv()]
(https://www . rdocumentation . org/packages/utils/versions/3 . 6 . 2/topics/read . table)加载数据,并用[head()]
(https://www . rdocumentation . org/packages/utils/versions/3 . 6 . 2/topics/head)检查前六行,这样您就对输入有所了解了。
# Libs
library(rpart)
library(rpart.plot)
library(yardstick)
library(ggplot2)
# Read in the data
fakeCustomers <- read.csv('final_Small_Customer_Data.csv')
# EDA
head(fakeCustomers)
让我们建立一个简单的决策树
现在我们应用[rpart()]
(https://www . rdocumentation . org/packages/RP art/versions/4.1-15/topics/RP art)函数来构建我们的决策树。因为您接受所有默认的模型参数,所以您只需要传入模型公式 Y_AcceptedOffer ~。和制作树的数据。但是,在模型公式中使用句点(Y_AcceptedOffer~.,
)会增加模型行为的风险。假设稍后基础定型数据更改为包含其他列。通过使用句点,模型将简单地继承所有未定义为 Y 变量的列。因此,如果您在没有显式声明 x 变量的情况下,通过将已经更改的数据作为代码的来源来重建模型,您甚至会在不知道的情况下导致目标泄漏或过度拟合。因此,在公式中明确声明 x 变量通常是个好主意。最终,产生的fit
对象是一个模型,我们不想简单地将它传递给 IT 部门。让我们也定义一个当 fit 得到一个未知值时的安全模型响应!
# Fit the model
fit <- rpart(Y_AcceptedOffer~., fakeCustomers)
做一些预测
让我们确保我们的模型在完美的输入下如预期的那样运行。在工作流的这一点上,您应该根据训练和验证集来评估模型性能。这里我们对原始数据使用[predict()]
(https://www . rdocumentation . org/packages/stats/versions/3 . 6 . 2/topics/predict),用[tail()]
(https://www . rdocumentation . org/packages/utils/versions/3 . 6 . 2/topics/head)检查其中的一部分,然后构造一个简单的混淆矩阵。最后,您用table()
创建一个混淆矩阵,然后将yardstick
的[conf_mat()]
(https://www . rdocumentation . org/packages/码尺/versions/0 . 0 . 6/topics/conf _ mat)嵌套在 中,以获得包括准确性在内的 13 个模型度量。请记住,营销人员没有无限的预算,所以你应该更关心前 1%或 5%的潜在客户的准确性,而不仅仅是准确性。
# Get predictions
pred <- predict(fit, fakeCustomers, type ='class')
# Examine
results <- data.frame(preds = pred,
actuals = fakeCustomers$Y_AcceptedOffer)
tail(results, 10)
# Simple Confusion Matrix
(confMat <-table(results$preds, results$actuals))
# Obtain model metrics
summary(conf_mat(confMat))
外观检验
除了数字 KPI,您还可以通过马赛克图直观地检查混淆矩阵。在这个例子中,镶嵌图将具有代表混淆矩阵的每个部分的矩形,例如真阳性和假阳性。每个矩形的面积对应于混淆矩阵的值。这个视图可以让你很容易地理解你的课堂作业与实际情况相比有多平衡。下面的代码将原始混淆矩阵嵌套在 conf_mat 和 ggplot2 的 autoplot 函数中,以创建一个基本的镶嵌图。
autoplot(conf_mat(confMat))
使用简单模型的一个好处是您可以询问模型的行为。对于决策树,您可以使用 rpart.plot() 函数来可视化结果。该图将让您了解每个节点中变量的分割值和重要性。
rpart.plot(fit, roundint = F)
没事吧。没那么快。
不要把这个模型代码发送给它,并期待热烈的回应!当然,对于这些虚假的潜在客户来说,它工作得很好——因为它们和训练数据一模一样。即使在正常的模型构建中,您通常会传入一个具有相似分布和相同因子级别的分区。但在现实中,数据完整性和其他因素可能是真正传入数据的问题,它们可能会破坏您的模型。
fakeNew <- fakeCustomers[c(6:8),]
fakeNew
# Make a prediction
predict(fit, fakeNew, type = 'prob')
为你的预测增加一层保护。
在本节中,您将探索当汽车品牌从 lexus 雷克萨斯更换为 Lexus 雷克萨斯时会发生什么。数据输入错误和输入错误时有发生,因为人们参与其中。键入错误的因素和调换数字输入经常会破坏生产中的模型,正如您在下面运行 predict(fit,fakeRecord)时看到的那样。
错误:因素 carMake 有新的水平雷克萨斯
# Entry Form Error
fakeRecord <- fakeNew[1,]
fakeRecord[,2] <- as.factor('lexus')
# Uh-Oh!; Error: factor carMake has new level lexus
#predict(fit, fakeRecord)
给你的模型添加一个不起眼的图层
让我们通过检查输入是否有意义来添加一个保护性的预测层,如果有意义,那么调用 predict() 。在这段代码中,您编写了一个名为 humblePredict()的包装器函数,它接受要评分的新观察值。在 for 循环中,该函数检查:
- 使用
is.data.frame
表示每一行都是数据帧的一部分 - 使用 match
%in%
运算符确保数据帧的列与模型训练公式相匹配。 carMake
列中的观察值是来自模型训练数据的预期水平。这是另一个使用%in%
的匹配操作符调用- 最后,使用
is.numeric
函数确定'RecentBalance'
列是一个数值。
如果这四个逻辑条件都满足,那么 If 语句就像往常一样简单地调用[predict()]
(https://www . rdocumentation . org/packages/stats/versions/3 . 6 . 2/topics/predict)。但是,逻辑条件出现在 if-else 语句中。因此,如果这些条件中的任何一个返回 false,则执行 FALSE 代码块。在本例中,默认响应是“DidNotAccept”的“安全”模型响应。这个水平是安全的,因为它意味着公司不会花钱向这个潜在客户营销。当然,在您自己的工作中,您可能会有一个更明确的错误,使用不同的模型或简单地从您的训练集中返回平均 Y 值。关键是您可以完全控制错误代码的行为,并且应该确保您的模型具有与业务需求相对应的防护栏。这种类型的函数包装有助于您决定模型如何处理错误输入。当模型面临不良输入时,您想要错误、安全值、NA 还是其他输出?
humblePredict <- function(x){
classifications <- list()
for(i in 1:nrow(x)){
if(is.data.frame(x[i,]) == T &
all(all.vars(formula(fit)[-2]) %in% names(x[i,])) == T &
x[i,grep('carMake',names(x[i,]))] %in%
unlist(attributes(fit)$xlevels) == T &
is.numeric(x[i,grep('RecentBalance', names(x[i,]))])==T){
response <- predict(fit, x, type = 'class')
classifications[[i]] <- response
} else {
response <- 'DidNotAccept’'
classifications[[i]] <- response
}
}
return(unlist(classifications))
}
humblePredict(fakeRecord)
这只是让模型在生产中更加健壮的冰山一角。您可以在 humblePredict 中编写代码来更改异常值数值输入,或者在级别未知的情况下将因子级别更改为最频繁的级别。如果您想了解更多,请从分别用于单元测试和运行时测试的testthat()
和assertive()
库开始。没有断言或者至少是安全行为的文档,任何模型都不应该发送给 IT 部门。
了解如何使用 DataRobot 构建你可以信任的人工智能。
边缘设备上的嵌入式机器学习
Daniel Situnayake 是 TinyML 的创始工程师,也是 Edge Impulse 的机器学习主管,Edge Impulse 是一个领先的嵌入式机器学习开发平台,全球超过 3000 家企业在 85000 多个 ML 项目中使用。Dan 拥有超过 10 年的软件工程师经验,包括 Google(他曾在 TensorFlow Lite 上工作)和 Loopt 等公司,并与人合作创建了美国第一家昆虫养殖技术公司 Tiny Farms。他写了《TinyML》这本书,还有即将出版的《边缘的 AI》。
Richie 帮助组织从模糊的“嘿,我们应该更好地使用数据”转变为现实的计划,成为成功的数据驱动型组织。在数据科学被称为数据科学之前,他就是一名数据科学家,已经写了几本书,并创建了许多关于该主题的数据营课程。
里奇·科顿:大家好。你可以从口音上听出来,我不是阿黛尔。我是里奇,数据营的数据传道者。本周,我将代替阿黛尔,不久我将开始共同主持数据框播客。我在数据科学和数据科学教育领域工作了近二十年。
我看着这个领域从一个小众的书呆子变成一个主流的书呆子。我职业生涯的大部分时间都在为生物学家、化学家和商业人士提供数据科学支持。我的经验是,即使是才华横溢的人有时也会因为不得不分析数据而感到恐惧。因此,我关心的是在接下来的剧集中让数据看起来不那么可怕,并重温传统的数据框架主题,即帮助组织成为数据驱动型组织。我也想给你们一些灵感,告诉你们使用数据的乐趣和可能性。
一旦你克服了恐惧,就会有很多乐趣。今天,我们将讨论低功耗设备上的机器学习,如骨骼和物联网传感器。所以这是一个迷人的新兴领域,我非常期待从丹尼尔·斯图纳亚克那里找到答案。Dan 是 edge impulse 机器学习的负责人,他是《微小的 ML》一书和即将出版的《边缘的人工智能》的作者。
他之前在谷歌工作于 TensorFlow light。所以这一切都是在说他是这个领域真正的专家。嗨,丹;谢谢你今天加入我们。我们将讨论边缘设备上的机器学习,这个术语对我来说相对陌生。所以也许...查看更多
s for a bit of context, you could just start talking to us about, well, what is an edge device?
丹尼尔·斯图纳亚克:是的,问得好,里奇。我很高兴今天能来到这里。所以边缘设备指的是位于网络边缘的计算机。所以这有点道理。如果你认为互联网是一个庞大的相互连接的设备的集合,但是它有一个边缘,那里有一些设备在某种程度上连接到一个更大的网络。
然后,在另一边,他们通过传感器和其他种类的硬件连接到现实世界。例如,一个典型的边缘设备可能是一个连接互联网的摄像头,或者是一个可以戴在手腕上的个人健身穿戴设备,它可以记录你的锻炼情况,并将有关数据上传到云。
边缘设备有大量不同的应用,从消费电子产品到工业系统,监控工业加工厂的各种设备,甚至最终的边缘设备是航天器。火星漫游者在火星上行驶,收集数据,上传数据,并将其发送回地球。这些是最先进的设备。
边缘设备上的机器学习
里奇·科顿:尽管如此,这还是令人印象深刻。它的应用范围如此广泛,但你能告诉我为什么你必须在边缘设备上进行机器学习吗?所以我认为,如果我在做机器学习,标准的事情是我会在我的笔记本电脑上做一些事情。因此,这将是处理模型,或者也许我正在云中工作。
所以某个地方会有某个服务器在处理事情。为什么你想在一个没有多少动力的设备上进行机器学习呢?
丹尼尔·斯图纳亚克:如果你考虑传感器数据和真实世界的数据,我们会进行排序。我有这样的想法,当我们作为数据科学家处理数据时,我们处理的是已经收集的数据集。我们大部分时间都在处理由我们的大型后端系统积累的数据集,以及基本上已经在我们的基础架构中生成数据的系统。但是如果我们收集传感器数据,那么我们收集的是真实世界的数据。实际上,现实世界有着几乎无限量的数据,这是一个瓶颈。这只是无穷无尽的新信息来源。想象一下,你有一个,一个收集温度和压力以及其他各种与气候或天气相关的东西的设备。
它就像一个无限的数据流,但它可能没有一个很好的连接来将数据发送到另一个可以分析它的系统。因此,通常情况下,边缘设备,因为它们位于网络的边缘,可能会受到不可靠的互联网连接或低带宽的影响,或者可能需要在受限的能源体制下运行。因此,他们使用电池或类似的东西,或者太阳能,他们无法承受一直通过网络通信消耗大量能源。如果你想想你的手机,除了手机屏幕之外,使用电池最多的东西是。用无线电广播信息。
因此,如果您的设备在某种程度上受到限制,无法以您接收数据的速度发送回所有数据,那么将一些智能放在设备上是有意义的,而不是依赖云服务来运行智能。
边缘计算背后的灵感
里奇·科顿:是的,我可以。看看火星漫游者是如何做到的,你可能不希望将所有数据从火星穿越太空发送到地球上的某个地方,然后试图获得所有结果并将其发送回来。所以感觉是一个稍微新奇的领域。我很好奇你是怎么想到边缘的。
丹尼尔·斯图纳亚克:是的,所以更广泛地说,edge ML 和 edge AI,也就是在边缘设备上进行各种人工智能的想法只存在了相对较短的时间。本质上来说。传播它并允许它发展的事实是,这些边缘设备已经变得足够强大,它们能够运行一些这些繁重的算法,如设备上的深度学习模型。但是,我参与这个是因为我在谷歌的 TensorFlow 团队工作,TensorFlow,你可能知道,是谷歌的大型深度学习框架。TensorFlow 有一部分叫做 TensorFlow light,它基本上是围绕着将模型向下部署到手机而设计的,因为手机是边缘设备,对吗?
它们是网络边缘的小型便携式电脑,上面有很多传感器。谷歌的一些人意识到,如果能够在手机上运行模型,做各种各样很酷的事情,那将会非常酷。然后,下一个合乎逻辑的步骤是思考,好吧,什么样的设备比手机更小,更前卫,更有可能,更省电。
有可能在这些基础上运行深度学习模型吗?我很幸运地在谷歌工作,当时一个叫皮特·沃顿的人成立了一个新团队,开始建设和研究。我基本上是幸运地在这个令人敬畏的新技术发布的时候出现了。
我意识到这是我在科技行业遇到的最令人兴奋的事情。到目前为止,我已经将我对嵌入式软件工程和边缘设备的迷恋与我对数据科学和机器的迷恋结合起来了。
里奇·科顿:太令人兴奋了。所以你一直在做的工作,像张量流之类的,和普通的 ML 有什么不同?它是如何被约束的或者是什么使它变得困难?
丹尼尔·斯图纳亚克:这真的很有趣,因为当你处理这种类型的实时传感器数据时,这本身就是一种与你所做的工作来源非常不同的范式。在数据集上,更多的是表格。举个例子,我们都非常熟悉表格数据的特征工程。
所以,也许我们正在看着分析一些事情的商业表现,或者一些关于我们世界正在发生的某种现象的政府数据。我们从这些数据中识别有用特征的典型工作流程使用了一组工具,它们占据了一个范例。但是当你想到实时传感器数据时。
因此,这基本上就像是以非常高的频率出现的信息的小样本,本质上很难将原始信息输入到机器学习模型中。有一整个额外的领域。这种技术已经存在了很长时间,称为数字信号处理,它基于这样一种想法,即有一些算法可以理解这种传感器数据的实时流,并对它们进行提取,从而获得最有趣的可见成分。
所以。不管你想在下游做什么?没有被这些原始数据淹没。这些算法看起来和你用表格数据做的任何事情都非常不同。例如,对于音频数据,基本上在某一频率下,你会得到一长串频率很高的数字,这代表了几乎正在发生的压力量。麦克风振膜在任意给定点的弯曲量。为了将它转化为深度学习模型可以理解的东西,最好的方法之一是通过建立一个称为频谱图的东西,它基本上是信号或频域中一系列值的表示。
所以与其拥有。这些振幅值的单个列,最终得到一个 2d 矩阵,它在 X 轴上表示时间,在 Y 轴上表示频率,这些值被划分到各个桶中。这基本上就像一幅图像。这就是你所吃的。深度学习模型。
所以你可以用一个卷积神经网络来理解它。因此,这一切都是为了将信号从原始形式转换为更高维度但频率更低的形式,这通常不太方便,但更便于使用这些机器学习。
里奇·科顿:这很有意思。所以我对学习傅立叶变换和小波有着遥远的记忆。还有大学做信号处理之类的东西。所以在我心目中并不新鲜。我认为这是我以前没有在数据科学或机器学习环境中使用过的东西。
所以那种工程类的东西总是非常独立的。所以听到这种音频工程和机器学习是如何结合在一起的是很有趣的。
丹尼尔·斯图纳亚克:我喜欢它的一点是,嵌入式工程和信号处理这个巨大的领域已经存在了相当长的时间。和绝对的人。这方面的专家令人难以置信。我们发现,来自机器学习、深度学习和数据科学的东西与这种信号处理专业知识之间有着惊人的融合。
当你把双方的人聚集在一起时,你就能想出非常惊人的方法来解释信号和训练模型。真的很刺激。
设备变量对机器学习的影响
里奇·科顿:当你有一个非常低功率的设备,也许你没有一个很好的互联网连接,你是有限的。电池寿命之类的。这对机器学习方面有什么影响?那么是不是一定要选择不同的模型,训练的东西不一样,或者对实际模型本身有什么影响?
丹尼尔·斯图纳亚克:首先,我要指出的一点是,当我们谈论嵌入式设备上的机器学习时,绝大多数时候我们谈论的是推理,而不一定是训练。因此,没有什么可以阻止你在这些边缘设备上训练模型。在某些情况下,这种情况确实会发生,但边缘设备的最大限制之一是您可以使用的内存有限。
所以,当我们谈论用监督的方法训练模型时,那是不可行的。如果你没有。足够的空间来存储数据。也许你只有几十千字节,这显然不足以存储大量的数据集。因此,如果你在做某种无人监管的方法,或者你有某种有趣的方法,你如何在设备上微调模型,有时可以工作,但很多时候我们只是谈论运行推理。
当我们在的时候,我们在讨论运行推理。实际上有三个主要的限制。第一个限制是。与此相关的是设备的性能。因为如果你想让一个设备靠电池运行,比如,你不会有两千兆赫的处理器、多核 CPU 或 GPU 在里面运行。
有非常强大的边缘设备,但通常你会看到更多的时钟速度比你将在限制。运行机器学习模型的服务器端基础设施。所以问题是运行模型非常慢。这意味着你会偏向于训练较小的模型。
就像一个更小的模型将能够在一个设备上运行得更快,使用更少的能源,并符合边缘的这些限制。另外两件事是只读存储器和。区别在于,只读存储器是用来存储模型的重量,以及在你的边缘设备上运行的程序。
所以很明显总有一个范围。在计算硬件中,但在最小的一端,你可能只有几十或几百千字节来存储你的模型的重量。因此,如果我们考虑典型的视觉深度学习模型,即使是像为在手机上运行而设计的移动网络模型这样的东西也将太大,无法在这些最小的边缘设备上运行。
所以你需要思考我们如何让这些模型变小,然后。RAM 零件。工作记忆同样重要,因为你需要有人在你的信号到来时存储它,你需要存储,例如,在你工作时,你的模型、层的中间激活。
如果你没有足够的内存,你就不能这样做。这是三个最重要的约束条件。迫使您考虑更小的模型和模型,它们的设计在 RAM 使用方面是高效的。它还鼓励您在前期尽可能多地进行信号处理,因为在通过信号处理提取特征和使用一定量的计算之间往往存在权衡。
例如,向你的深度学习模型扔东西,让它找出特征提取第二部分。对于任何给定的设备,都会有一个特定数据集的理想设置点,在这两个部分之间有一个最有效的完美权衡,但这需要根据设备和数据集来确定。
所以这就带来了额外的限制。但是,当您在大型、强大的开发人员工作站或后端服务器上考虑数据科学时,您不必考虑。对我来说,这才是真正令人兴奋的地方。有约束总是好的,因为它迫使你有创造力,想出做事情的新方法。
RAM 与可预测性之间的权衡
里奇·科顿:太不可思议了。所以我感觉有某种权衡,你可能会牺牲一点点预测能力,因为你在使用。生硬的模型,但这是必要的,能够运行它,因为你没有计算能力或内存可用。那是正确的吗?
丹尼尔·斯图纳亚克:对。我是说,这可能是真的。如果我们考虑更大、更高维度的数据,比如图像,通常如果你压缩一个模型来得到它,在嵌入式设备上运行,首先,可能只是训练一个更小的模型,比如提出一个重量更轻的架构,然后训练它。
还有。这是一种方式,很明显,权重越小,模型的代表性就越小。因此,你可能会得到性能。这不如你在大模型上做的好。我们拥有的第二个东西是模型压缩的想法,你可以选择一个经过训练的模型。
以一种典型的方式,好像它会在任何设备上运行。然后你可以做一些事情来减少它。Precision 可能会降低其准确性,但会使其变得更小。其中之一叫做量子化。所以量子化,你可能在中遇到过,也在后端世界中。
这是一种通过降低典型深度学习模型中权重的精度来使模型变得更小的方法。比如说。权重通常以浮点 32 格式训练。我们得到了这些 32 位浮点数。它们很有表现力。它们可以代表很大范围的值,但是要让它们在嵌入式设备上运行,如果您。
减少可用于存储每个权重的位数。所以你把它减少到八位。因此,您现在将组成模型的数字存储为八位数字。那是四倍小的模型。因此,如果你能做到这一点,并且不把模型的准确性搞砸太多,那就太好了。
实际上有非常聪明的方法。真的损失几乎没有任何精度,但减少模型四倍或八倍,甚至最小的精度模型实际上。b 神经网络,BNS,具有一位权重。因此,从字面上看,模型的权重是二进制的,你需要一些特殊的机制来训练它们,但是它们,它们可以很好地工作。
因此,所有这些都伴随着权衡取舍,而这就是管理权衡取舍并保持应用程序所需的性能。
Edge ML 入门
里奇·科顿:我想很多听众会想知道,我该如何参与其中?听起来很刺激。那么如何开始呢?
丹尼尔·斯图纳亚克:这个话题有很多不同的角度。有些人从嵌入式工程的角度来看这个问题。在使用微控制器或嵌入式 Linux 板(例如 raspberry PI)之前,我曾从事嵌入式工程工作,但他们遇到了一个难题,他们希望了解世界,并了解他们正在设备上获取的数据。
但是你只能用手动编码算法和基本的信号处理做这么多。所以他们想在设备中嵌入更多的智能。还有一些人来自另一端,他们可能有数据科学的背景。机器学习。他们想知道,比如,我怎样才能把我们能够封装在模型中的一些智能放到这些微型设备上,这样它就可以在以前没有的地方使用。
所以你的旅程可能会有一点点不同,这取决于你是从哪边来的。因为如果你是数据科学家,你会对这些更加熟悉。数据科学工具和不太熟悉的嵌入式方面。如果你是一名嵌入式工程师,反之亦然。
让我们假设你是一名数据科学家,你对开始做这种事情感到兴奋。我认为这是个好的开始。你不一定要有嵌入式设备才能开始思考如何训练更小的模型。会很有趣。开始意识到模型的大小和它们消耗的资源量之间的关系。
开始尝试进入那种心态,对事物进行修补,并开始学习,比如,哦,如果你改变它,对性能会有什么影响。你可以开始学习模型压缩和量化。就这样开始你的旅程。最容易开始的地方可能是较大的边缘设备,如覆盆子馅饼,因为你可以在那里运行 Python,这样你就可以训练 TensorFlow 模型,然后直接在设备上运行它。如果你使用微控制器,就没有那么多额外的工作要做。这些事情就像。生活在家用小器具中的微小过程,真的是超级普遍地存在于我们的世界和我们的建筑环境中。用它们编程的工作流程要复杂得多。
所以他们通常要求你写。用 C 或 C plus 编写代码,然后使用一组特定于设备的编译工具,这些工具允许您编译代码以在该特定设备上运行。一家名为 Arno 的公司在该领域制造了一套非常容易使用的设备。
微控制器被设计为易于编程和易于使用,它们可以成为嵌入式机器学习开发的良好起点,但它很容易迷失,因为该领域有太多东西在进行。所以我建议我有点偏见,因为我在一家名为。
边缘冲动。我们有这种令人惊叹的端到端工具套件,允许您与设备集成,收集数据集,试验信号处理和机器学习模型的组合,然后部署到设备上。还有。我建议亲自前往我们的文档,只需搜索 edge impulse,或前往 edge impulse.com 挖掘。
我们有大量的教程,旨在使它变得容易,开始学习所有这些不同的运动部件如何相互联系,以及如何训练一个模型。还有。
里奇·科顿:有没有一种标准的简易优先项目?比如 ML 的 hello world 是什么意思?
丹尼尔·斯图纳亚克:所以我和来自 TensorFlow 的 Pete Warden 一起写了一本书,就像几年前的 micro team。我们为小马丁公司设计的 hello world 项目是。基本上,你能训练一个微小的模型来做一些任意的事情吗?所以对我们来说,这是给定一个符号的 X 值,预测 Y 值,波函数。
所以。训练尽可能简单的模型。然后将它转换成一种可以在嵌入式设备上运行的形式,然后将其部署到嵌入式设备上,这个过程的所有部分都非常困难。训练一个有效的模型是困难的。收集一个好的数据集是困难的。信号处理很困难。部署设备,只需将非常简单的东西部署到嵌入式设备上,并熟悉那里的整个流程。那是一种,如果你从零开始处理事情,自己做每件事,但我建议去像 edge impulse 这样的平台,按照步骤做一些事情,训练一个在简单时间序列上运行的模型。
例如,许多微控制器开发板都会内置加速度计。一件很好的事情是训练一个模型。根据加速度计的数据识别不同类型的活动。加速度计基本上返回三个值的时间序列。这三个值是 X 轴到 Y 轴和 Z 轴的加速度。
所以你得到了三维空间中运动的概念,你可以训练一个模型来识别不同类型的活动。比如慢跑和做俯卧撑之类的。你收集一些数据,为每一个动作设置数据,然后进行训练,使用一些信号处理来提取相关信息,训练一个小模型,然后将其部署到设备上。
然后你可以把这个东西戴在手臂上,它会对你的活动进行分类。这真的很酷因为。这就是人们健身时佩戴的智能手表的工作原理,它可以理解你是在跑步还是在游泳或类似的事情。而你,你可以开始看到这一切是如何首尾相连的。
如果您没有任何嵌入式经验,甚至很难从设备上获取初始数据。这就是为什么这种端到端框架端到端平台如此强大的原因,因为它们提供了从那里获取数据所需的所有软件。
常见错误
里奇·科顿:制作自己的健身手表听起来确实是一个非常酷的项目,但我可以看到有很多不同的步骤,你需要了解一些关于很多方面的知识
来做那个。所以也许可以谈谈当人们试图这样做时,什么是好主意。什么是坏主意?那么,也许你能告诉我一些人们在尝试做这类事情时会犯的常见错误?
丹尼尔·斯图纳亚克:我经常遇到的一件事是,测试数据、训练数据和真实世界数据之间有很大的差异。如果我们使用传感器数据。基于一个数据库中的东西训练一些东西,这个数据库来自一个云软件。所以表格数据是基于,比如,我不知道,用户在社交网络中的行为或类似的东西,这些数据以同样的方式被测量,在数据收集和生产过程中以同样的方式被收集。只是我们拍了某一时刻的快照。我们现在已经获得了大量的训练和测试数据。在那之后,所有真实世界的数据都以完全相同的方式生成。但有了嵌入式机器学习,你在收集数据时会面临更多挑战。
想象一下我们要设计一个新产品。我们正在设计一种新型智能手表。这应该会有帮助。我不知道,登山者和,给他们一些关于他们攀登的反馈。所以这个设备实际上还不存在。在我们造出那个装置之前,我们需要。设计和训练这个机器学习系统,它可以给攀岩者反馈,但是因为我们还没有造出任何设备,我们必须在没有我们真实世界的真实设备的情况下收集一些数据。
所以。首先,我们必须开发一个仅从一些传感器收集数据的原型。也许它的大小和形状与真实的东西大致相同,让一些人戴上那个设备,进行一些攀爬,并以某种方式标记数据。也许就像,哦,这是一次艰难的攀登,而不是一次轻松的攀登。
收集整个数据集。一旦我们完成了,我们可以训练一个模型,我们可以测试它,我们可以看到,好的,这个模型可以准确地分类,这是一个容易的攀登还是一个困难的攀登,但问题是。当我们进一步完成产品开发流程,完成硬件设计后,也许手表的形状和尺寸会略有不同。
也许它上面有一个稍微不同的传感器。这就像它仍然是一个加速度计,但它是一个不同型号的加速度计,因为那个更便宜,我们需要用更便宜的来达到我们的目标,即器件的价格。所以。当它被部署到现实世界中时,设备会略有不同,这意味着输出的数据会略有不同。
这意味着我们的模型不一定能很好地工作。真正的挑战是,所有的数据都被困在网络的边缘,而设备是解释这些数据的工具。我们不一定有办法检查它是否运行良好。没错。我们不能仅仅比较现实世界的表现和预测的表现,因为我们没有这些数据,也没有办法给它们贴上标签。
所以有一个很大的风险,你可能最终训练出一个看起来非常好的模型。在投入生产之前。然后,当它投入生产并部署到真实设备上时,它就不能很好地工作了。这是所有数据科学中的一个风险,但它在这里被放大了,因为我们在开发和生产之间的反馈循环更少。所以这可能是我们不得不解决的最可怕的事情。
可能的解决方案
里奇·科顿:哦,哇。呃。是的,我肯定那会是个问题。那么公司如何处理这类事情呢?
丹尼尔·斯图纳亚克:对。我的意思是,这很棘手,这是一个正在进行的事情,我们正在发展系统和工作流程来处理。但最明显的事情是尽可能保持生产和开发之间的相似性,确保使用相同的传感器,并确保以相同的方式收集数据,但显然这并不总是可能的。因此,你必须考虑如何建立一些正在进行的过程,以继续测试并确保系统在现实世界变化时仍然工作,因为显然还有漂移的概念,现实世界总是在变化,而你的模型代表了一个冻结的时刻。
这一点在。这个领域,因为我们直接处理从传感器获取的真实世界数据。因此,你可以做的一件事是定期派人去获取更多的数据,并据此测试你的模型。所以这可能是一个有用的信号。所以不如直接。
看看现实世界中发生了什么,但它会给你一个正在发生的事情的周期性快照,你可以看到,好的,有了我收集的这些新数据,这个模型仍然在工作。你可以做的另一件事是查看你的模型的输出。所以推测起来,这些设备或智能手表是人们为了攀岩而佩戴的。
他们会把数据报告给某个系统。因此,如果他们确定攀登是有挑战性的,这将被记录在用户的账户中的某个地方,以便他们以后可以看到它。因此,你可以做的一件事是观察模型输出随时间的分布,因为即使你不能保存所有的原始传感器数据,你也有可能保存模型的输出。如果输出的分布。随着时间的推移发生了很大的变化,或者它们与您最初捕获的测试数据非常不同。例如,这可能是一个信号,表明已经发生了一些漂移,或者现实世界正在占据与初始数据集不同的分布。因此,这可能意味着你需要收集更多的数据,做更多的评估。
里奇·科顿:回到攀岩手表的例子。这听起来可能只是一种情况,你让你的攀登回来,让他们爬上他们在使用生产版本的手表而不是原型之前的同一条路线。
丹尼尔·斯图纳亚克:没错。是啊。也许你犯了一个错误,最初从专业攀岩者那里收集数据,然后你发现买你手表的人也在。大众只是业余爱好者。所以也许你需要找一些业余爱好者来,从他们那里收集数据。这能让你更好地了解现实世界中的情况。所以所有这些东西都是你在实验设计中必须小心的。
使用 edge 的最佳实践
里奇·科顿:是的,业余选手从岩壁上掉了下来。所以把这个翻过来。使用 edge 有什么特别的最佳实践吗?
丹尼尔·斯图纳亚克:这是一个非常非常大的领域。所以有很多不同的地方。但我认为对我来说最重要的事情是试图弄清楚,因为这是一个如此大的领域。从数据集到部署在设备上的模型的工作流程中有如此多的步骤,在开始时对所有不同的移动部分有一个良好的理解是非常重要的。
因此,了解什么是我们将要部署到这么多设备上的硬件,就像搞清楚。基于您将部署到的硬件的一个很好的折衷方案。那么这是提前知道的吗?我们可以根据我们最终训练的模型来选择硬件吗?或者更确切地说,我们已经有了一个已经存在的设备,我们需要在它的备用内存中安装这个模型。
所以在开始的时候确定下来是非常非常重要的,这将会影响到整个项目。我认为真正重要的第二件事是理解我们在这里想要实现什么?我们能做的最起码的事情是什么,才能产生有用的产品,因为有时以这个基本目标为目标是好的。改进,而不是说,我们想做所有这些不同的事情,做这种会唱歌,会跳舞,有魔力的人工智能产品,然后尝试和失败。
最好选择一个简单、直接的东西,它将对您的客户有帮助,然后交付给他们,然后从那里开始工作,逐渐添加更多的功能和改进东西,但尝试从简单的东西开始,因为这真的很有挑战性。
边缘 ML 的更多示例
Richie Cotton:我想多谈一些使用案例。所以你提到了火星探测器的高科技,然后有了这个登山手表的消费产品创意。然后你谈到了传感器和其他东西。你能给我举几个例子来说明这种方法的应用吗?
丹尼尔·斯图纳亚克:我们的客户遍布你能想象到的任何地方。它涵盖了从消费产品的一切。使用一点智能在家里做一些更智能的事情,一直到了解工厂正在发生什么的工业系统,也许在产品制造出来后分析产品的质量。
所以你可以理解。你的制造过程有瑕疵。医疗保健是一个有趣的领域,解释生物信号,使用机器学习来了解某人的身体功能或疾病的发展。农业真的很有趣,比如了解植物如何生长,动物健康如何,或者了解气候。
所以任何和雷克斯有关联的地方。真实的世界和正在发生的有形的事情,我们需要了解更多。你能想到的任何领域都有嵌入式机器学习的应用。
里奇·科顿:是啊,太神奇了。呃,机器学习正在入侵我们生活的方方面面。所以是的,这很有趣。
丹尼尔·斯图纳亚克:这是我真正感到兴奋的事情,因为直到现在,机器学习一直存在于一个受限制的领域。一组适合它的地方。对吗?我们已经让这些巨大的模型在强大的计算机上运行,但是现在我们能够。将机器学习推向越来越小的设备,这样它就可以更整洁地融入我们生活的小角落。
它使事情民主化了一点,而不是需要这些运行在云中的一刀切的巨型模型。在一些大型科技公司的数据中心,我们可以让工作人员训练小的微型模型。在世界的小角落,无论是在某个利基领域,还是在有特殊问题和挑战的地方,我们都可以用机器学习来解决。
从这些较小的模型中获得良好的性能,而不是试图创建这些庞大的模型来做所有的事情,这要可行得多。
里奇·科顿:在微小的机器上有许多微小的东西。所以这很酷。这在很大程度上是一个新兴领域,我感觉已经取得了很大的进步,但目前可能还存在一些限制。因此,也许你可以谈一谈症结所在。特别是对于微小的 ML,我想你会有更强的约束。
丹尼尔·斯图纳亚克:最大的问题之一就是工具。如果你在嵌入式领域工作。软件或硬件设计的机会是,举例来说,如果你在农业领域有所建树,你的团队将会在农业领域拥有丰富的经验和专业知识。你可以用它来设计和制造一个在这个领域有效的产品。因此,如果你在这个领域工作,你已经是一个深入的专家了。域。你是嵌入式工程领域的资深专家。你很可能不具备成为深度机器学习专家的带宽。如果你想把机器学习作为一个项目的一部分,首先,这是一个巨大的,非常困难的学习曲线,你必须成为一名 ML 专家,然后将这些知识应用到你试图解决的问题中。
最大的问题。最大的挑战是,我们如何让嵌入式工程领域的专家以及他们工作的任何领域的专家能够使用机器学习,而不必成为机器学习专家,也不必花数年时间研究该领域,并了解数据科学的来龙去脉。这就是这个领域有巨大机会的地方。授权给没有机器学习和数据科学背景的人,显然,构建这些工具需要数据科学和机器学习专业知识。因此,在调整和适应这些工具链方面,存在着巨大的机遇和挑战,以便在一个非常重要的小领域中成为专家的人可以利用这些工具链。
里奇·科顿:那个农业的例子真的引起了我的共鸣。所以我的岳父是一个牧羊人,当他有几十年的养殖经验时。我想他这辈子都没碰过电脑。所以越来越。他认为机器学习将是一个非常没有去的领域,但试图让他所有的领域知识进入某种模型将是一个非常有趣的挑战。所以我知道这是一件多么困难的事情。
丹尼尔·斯图纳亚克:是的,当然。这甚至是我们直接看到人们使用边缘人工智能模型来识别何时变得纯粹。在农场的不同地方,或者在马路上行走,或者在动物的脖子上戴上设备,记录它们的生物信号和活动,这样你就可以了解它们的健康状况。
最重要的挑战
里奇·科顿:目前事情进展如何?正在应对的最重要的挑战是什么?
丹尼尔·斯图纳亚克:所以现在,我认为一些最大的。最重要的工作是在这个领域向人们开放,让人们理解机器学习的工作流程,而不是成为机器学习专家。基本上,构建工具来理解传感器数据,能够查看传感器数据的数据集有多好,了解质量,并向人们提供反馈,比如,哦,你应该收集更多这类事情的例子。
最大的困难之一是收集标签数据可能非常困难。如果你考虑传感器数据。从本质上来说,它就像一个巨大的时间序列,非常难以理解。你不一定要看一个所有这些行的表,比如每秒一千行。
某个任意值从传感器中读取,并作为一个人来理解它。因此,我们需要想出一些技术,让人们能够获取一个大数据集,比如数百小时的未标记的高频传感器数据,并对其进行标记,然后能够将其用于训练,或者能够进行某种不依赖于标签的训练。
所以那是,那真的是一件大事。另一件大事是理解。模型在这类数据上的表现,并解释模型如何表现,它们在哪里表现良好,在哪里表现不佳,这类大数据集很难解释数据。在这一领域,我们发现的一件令人惊讶的事情是,内存和延迟等设备限制并不像您想象的那样是一个大障碍。
事实证明,如果你使用一些智能信号处理,并训练一个小模型,你通常可以用非常少的硬件做很多事情。我们习惯于把事情开到最大,用最大的型号,你可以不用过度适应,所有这类事情。但是如果你想在这些设备上安装模型,你可以用你仅有的一点空间做很多事情。
这个领域有很多人在调查。压缩以及如何将越来越大的模型安装到越来越小的设备上。但是对我们来说,很少会有客户需要一个太大而无法安装在嵌入式设备上的模型。更多的情况是,他们没有足够好的数据集来训练模型。
里奇·科顿:这似乎是一件很平常的事。学习的难点是获得运行模型的良好数据,而不是实际的建模部分本身。
丹尼尔·斯图纳亚克:当然。是啊。尤其是传感器数据,你可以看到自然语言这样的东西。图像数据。有大量的数据集是从互联网上搜集来的,人们过去可以用这些数据集来创建新类型的模型并对其进行基准测试。但是有了传感器数据,就没有那么多了。
以及能接触到传感器数据的人。对分享它非常谨慎,因为这对他们来说代表着重要的知识产权。如果你有一家生产某种小工具的公司,你的所有设备上都有各种传感器,用来监控。这种制造正在进行,这代表着贵公司可以用来潜在地改进其流程的宝贵数据。
你不一定希望你的竞争对手得到它。这是一个挑战,就像数据集的可用性以及隐私和数据共享的问题。
Edge ML 的未来
里奇·科顿:我知道这是个什么问题。也许如果有听众拥有可以公开分享的传感器数据集,那么我并不鼓励你这么做。如果你能做到。导致任何隐私问题或知识产权问题。所以这整件事看起来像是到了一个可能会大受欢迎的程度。
感觉就像工具在一起,技术在一起,一些过程也在一起。那么你认为未来几年什么会推动 Edge ML 的采用呢?
丹尼尔·斯图纳亚克:对。我们认为这是一种巨大的未开发的潜力。根据传感器数据,我们得到了这些,这些巨大的。现实世界中存在着难以置信的有价值的数据池,现在它们被完全丢弃了。大多数连接的数据都是由 IOT 设备收集的。
例如,并不真正用于任何事情。我们拥有所有这些技术。传感器和嵌入式设备可以收集大量关于现实世界情况的数据,但由于这些带宽和延迟的限制,我们基本上还没有利用它。那么是什么在驱动它呢?
在整个行业、消费设备和任何地方,这些数据都有巨大的未开发价值。突然间,我们有了工具来利用它,制造更好的产品,更智能地做事,更高效地在生产线上创造更高质量的产品,例如,或者监测我们的自然世界,以了解生态和环境如何变化,以及气候如何变化。
因此,非常有必要解释所有这些数据,以便我们能够使用它们。这就是让我们能够做到的技术。
面向初学者的 Edge ML
里奇·科顿:激动人心的时刻。所以,对于那些想尝试一下,但不一定想单干的人来说。有什么好的社区适合想入门的人吗?
丹尼尔·斯图纳亚克:有一个非常棒的组织,叫做小马丁·路德·金基金会,这个组织在这个领域很早就存在了,他们组织了一系列的活动。世界各地的聚会团体。有几十个这样的地方,你可以和其他对这个领域感兴趣的人一起去当地聚会。所以如果你去小小的 ml.org,你可以找到一些链接。
而小小的 ML 基金会每年也办一个会或者减几个会。在世界的不同地方。我们也做这些每周或每两周一次的讲座,你可以观看现场直播。他们也在 YouTube 等网站上。周围也有一些论坛。所以 edge impulse 论坛是一个非常好的去处。
如果你去 impulse.com 网站 edge,那里有一个链接,很多人都在讨论嵌入式机器学习。你可以做的另一件好事是有几门课程可供选择,所以有一门课程误差课程。一些人在 edge impulse 把这些放在一起,这给了你如何开始使用这项技术的介绍。
还有一门哈佛 edX 课程。更深入的理论。所以,如果你对幕后的部分感到兴奋,更像是数学的东西,哈佛的课程是一个很好的去处。如果你对应用程序感兴趣,并想知道我如何尽快开始用这项技术构建东西,那么 Coursera 课程真的很棒。
Richie Cotton:我可能应该补充一下,对于任何对分析传感器数据感兴趣的人,我们确实有一个 DataCamp 课程,以及分析物联网和 Python 中的数据。
丹尼尔·斯图纳亚克:听起来是个不错的开始。
里奇·科顿:这是一个非常温和的介绍,有很多时间序列分析和一点机器学习。所以在我们结束之前,你对想自己尝试一下的人有什么最后的建议吗?
行动呼吁
丹尼尔·斯图纳亚克:对。所以不要害怕。好像这是一个很大的领域。有很多移动的部分,非常复杂,但绝对有可能。如果使用正确的工具,专注于您关心的部分,忽略其余的复杂性。所以我不会建议大多数人从零开始,试图同时学习所有这些小零件和所有运动部件。
如果你已经对数据科学和机器感兴趣。然后找到一个平台,为您实现嵌入式方面的自动化。所以很容易收藏。一些数据集可以轻松部署到设备上,然后您可以专注于机器学习。否则,如果你是一名嵌入式工程师,你对做这一部分感到兴奋,但不一定想花几年时间成为数据科学专家,同样的平台将帮助你。
专注于构建您想要的产品的嵌入式部分,而无需重返学校。所以绝对不要害怕使用工具来帮助你,也不要试图从头开始一切,因为这非常困难。
里奇·库托:好的,非常感谢你回答所有的问题。很高兴你能上播客。非常感谢你,丹。
丹尼尔·斯图纳亚克:我也是。谢谢你,里奇。今天和你聊天很愉快。
员工聚焦:收入运营总监阿里尔·亨德里克
你在 DataCamp 的工作是什么?
我是收入运营总监,这在技术行业和数据阵营中还是一个相当新的头衔。在过去几年中,这一角色本身也发生了变化。过去主要关注销售组织的销售运营,现在已经演变为关注销售、营销、客户成功和财务的收入运营。我们是让所有这些团队保持一致并高效运行的引擎。收入运营的目标是利用技术和数据提高效率,推动可预测的收入,最终实现收入增长。在这一角色出现之前,每个部门都有自己的筒仓需要管理,现在我们可以将它们整合在一起,作为一个整体来看待一切,这将更加有用。
你是否一直梦想着以现在的角色结束自己的人生?
我最初上大学是想成为一名教师。我喜欢和孩子们一起工作,也一直喜欢教书,所以对我来说,这是一条合理的道路。在我完成第一学期的学习后,我意识到我不想再走这条路了。一旦我上了大学,了解了其他人的专业,这让我看到了其他的可能性。我想选择一条比教书更灵活的职业道路。我决定改变现状,申请了商学院。我选择了市场营销专业,因为这似乎是最灵活的选择。毕业后,我决定从事营销工作,并被一家非常小的初创公司聘为营销助理。他们需要有人来弄清楚如何操作他们购买的新系统 Marketo,所以我主动提出接手这项工作。那是我第一次体验操作,虽然我当时还不知道。接下来,他们请求我帮助了解他们的付费营销活动是如何进行的。他们给了我访问 Salesforce 的权限,当我意识到这上面的所有数据都是错误的时,我开始四处打探。我最终做了研究,并带着一个跟踪这些活动的标准化框架回到团队,这是我在营销归因和分析领域的第一步。我和营销团队一起工作非常愉快,我在 Salesforce 的工作让我晋升为营销分析师,这更符合我的兴趣和工作。那时,我意识到我并不像喜欢系统和分析那样喜欢营销工作。
在公司工作了几年后,我想改变现状,并决定努力成为一名数据科学家。每当我申请不同的职位时,他们通常会回复我,让我知道我真的需要学习 SQL,这让我去了 DataCamp 的 SQL 课程。最终,我加入了营销运营部门,这是我第一次加入一个正规的收入运营团队,我非常喜欢这份工作!我的营销经验帮助我与营销团队合作得非常好,我在系统和分析方面的诀窍也帮助我在收入运营团队中脱颖而出。我们是公司的核心团队,主导了很多决策。
虽然我热爱我在那里的工作,但我的目标是有一天成为首席税务官(CRO),所以我知道我需要更好地了解销售和销售运营方面的事情。我开始寻找一个能给我这种体验的角色。当我开始寻找时,我看到 DataCamp 有一个营销和销售运营的角色,这正是我想要的。
你是怎么结束在数据营工作的?
我的一个朋友看到了招聘启事,并在意识到自己不适合后发给了我。我最终申请了,因为这看起来对我来说是一个非常好的下一步,并且符合我的职业目标。当我在面试结束时得到这份工作时,我仍然犹豫不决,因为我真的很喜欢这家公司和我一起工作的团队。我也很紧张在 COVID 中期开始一份新工作。最终,我决定接受它,因为这个角色为我将来想走的路铺平了道路。这是我迄今为止做出的最好的决定之一,也是我最喜欢的工作(我不是随便说说的)!
你的超能力是什么?
我学习新技术和系统的能力。我们在收入运营部门做的很多事情都是与不同的系统一起工作,因此能够相当快速地掌握它们是一项非常重要的技能。
有你想更精通的技能吗?
我仍然需要学习许多技能,然而,我一直希望了解更多的是如何发展业务,以及如何确定实现这一目标的正确策略。到目前为止,我已经知道绝对没有一种方法可以做到这一点。
你能用 5 个词或更少的词描述你的经历吗?
富有挑战性但很充实。
这可能是我职业生涯中最难的工作,但也是我最喜欢的工作。他们给了我扮演这个角色的机会。我很感激周围的人对我的信任。我在职业生涯的早期也做出了很多重大决定,这对我来说太棒了。我总是很感激他们给我空间去做我认为最好的事情,作为回报,我作为一个专业人士受到了赞赏。这绝对是我工作过的最多的一次,但我也不介意,因为我学到了很多东西,毕竟这是我来这里的目的。
你最喜欢的 DataCamp 记忆或瞬间是什么?
有很多,尤其是最近,因为世界开始越来越开放。我刚从迈阿密回来,参加了我们有趣的销售启动会。第一次看到大家面对面,感觉很棒。
但此刻我最美好的记忆可能是 11 月的卡拉 ok。那是我第一次面对面地见到我的大多数同事,最棒的是大家一起唱歌。当我想起这件事的时候,我仍然会笑,因为有两个人真的很擅长唱歌,但是我们都很开心,每个人都参与了!
员工聚焦:打造有助于学习之旅的产品
你加入 DataCamp 的历程是怎样的?
我在比利时的鲁汶学习应用计算机科学,为了完成本科学位,我必须完成实习。当他们赞助了我为学生设计的一款应用程序来计划他们的课程表时,我了解到了数据营,并随后被数据营聘为实习生。在实习中期评估时,有人问我是否想全职加入这家公司,于是我进行了几轮面试,得到了一份工作。
描述一下你现在的团队。你觉得你的角色最有趣的是什么?
目前,我在工程团队工作,是学习之旅小组的一员。我们的小队负责引导用户从一个学习内容到下一个学习内容。最明显的是,我们管理我们的学员的仪表板(这是您登录 DataCamp 后看到的第一个页面)。我喜欢在为用户改进产品的同时不断学习新技术。此外,作为工程师,我们与产品团队密切合作,开发新功能,并进行用户访谈,以了解用户的需求。
加入 DataCamp 后,你的职业发展如何?
我一开始是一名没有太多经验和知识的开发人员。在这里工作期间,我有机会负责更大的项目——集成新的电子邮件系统,将支付数据从旧系统转移到新系统,等等。我对作为工程主管的人员管理非常感兴趣——我已经承担了更多的责任,所以我希望我能在这个方向上继续发展我的职业生涯。
在 DataCamp 你最激动的是什么?
我们已经开发了很多很棒的产品,比如信号和项目。下一步是把这些独立的部分组合在一起。这将简化我们的学习者的旅程,并确保他们能够学到他们需要的东西并应用这些知识!
你最喜欢为 DataCamp 工作的哪一点?
我喜欢我的同事们总是在需要的时候乐于互相帮助和分享知识。我也喜欢灵活安排我的工作时间来适应我的个人时间表。
你最喜欢的 DataCamp 文化价值观是什么,为什么?
对我来说,这是所有权和数据驱动之间的联系。拥有我所做的事情是值得的,我从中学到了很多。与我的同事合作很容易,因为每个人对业务的不同领域都有明确的所有权。
我们制定数据驱动决策的文化意味着我们不是跟着直觉走,而是实际查看我们拥有的数据(或收集新数据)。因此,我们能够定量地确定用户最想要什么,并相应地进行优先级排序。
当你不在工作的时候你做什么?
我喜欢有一个繁忙的时间表和会见朋友。一个月两次,我是一个音乐会场地的调酒师,距离位于鲁汶的 DataCamp 的办公室只有五分钟的路程。这些年来,我带了不少同事去参加不同的音乐会。来 DataCamp 工作的另一个令人敬畏的原因是😉
你还有什么想和我们的学员分享的吗?
请继续给我们反馈!我们可能不会总是直接回答或立即解决问题,但您的反馈对我们非常有价值,有助于我们打造更好的产品!
你想加入彼得的数据营吗?我们目前正在纽约招聘员工;伦敦;比利时鲁汶;和偏远地区。查看我们的空缺职位。
员工聚焦:为数百万学习者创建数据科学内容
你加入 DataCamp 的历程是怎样的?
从我记事起,我就一直很好奇不同的领域是如何交叉在一起,让我们对这个世界和我们生活的时代有一个更清晰的认识。所以在某种意义上,我认为自己是一个有点博学的人,我加入 DataCamp 的道路有点偏离常规。我在黎巴嫩贝鲁特出生和长大,毕业于贝鲁特美国大学,获得经济学学士学位。
毕业后,我在追求技术职业还是政治科学职业之间左右为难。作为一家智库的研究助理实习生,我通过搜集 Twitter 数据来补充几篇关于中东政治的研究论文,成功地将两者结合起来。在那个项目中的工作帮助我认识到,处理数据是我热衷的事情,大规模采用数据科学的意义对我们生活的社会有着巨大的影响。
这就是为什么我决定收拾行李,搬到巴黎攻读数据科学硕士学位。在研究生院,我发现了 DataCamp,它是一个非常有价值的学习工具,成为我数据科学教育中不可或缺的一部分(它还帮助我通过了一些课程😉).作为一名有抱负的数据科学家,我最喜欢的事情之一是向非技术观众揭开数据科学中使用的复杂工具和算法的神秘面纱,因此加入 DataCamp 的内容团队是一个自然的选择。
描述一下你现在的团队。你觉得你的角色最有趣的是什么?
作为 DataCamp 内容团队的一名内容开发人员,我的职责是与我们出色的讲师社区一起开发关于 R、Python、SQL 等的课程和现场培训课程,以及开发我自己的课程和现场培训课程。
我的角色中最有趣的部分实际上是我从与世界上最好的数据科学家一起工作中吸取的所有知识,以及通过创建尽可能最好的内容为数百万学习者创造出色体验的满足感。
加入 DataCamp 后,你的职业发展如何?
自从加入 DataCamp,我的职业生涯得到了极大的发展。总是有机会增长我的技能,并接受越来越多的挑战性项目,同时获得内容团队和其他团队的数据营员的一系列令人难以置信的指导。
2020 年你最期待什么?
尽管 2020 年并没有让我们对 DataCamp 以外的领域抱有太多希望,但我对 2020 年和 DataCamp 致力于在组织间传播数据流畅性感到非常兴奋。这一承诺真正推动了我们不断改进学习体验的意愿,以及我们提供的内容类型的创新,如现场培训课程(观看此空间😉).
你最喜欢为 DataCamp 工作的哪一点?
毫无疑问,在 DataCamp 工作的最大好处就是员工。我与其他 DataCamp 成员进行了一些我一生中最引人入胜的对话——我很难在其他地方找到像 data camp 一样重视对其他团队成员的关心和同情的文化。我还感到非常荣幸能够开发一种产品,以大学教育的零头,让人们拥有在当今世界竞争的技能,从而不断改善人们的生活。
你最喜欢的 DataCamp 文化价值观是什么,为什么?
我之前提到的我最喜欢的 DataCamp 文化价值观之一是关心其他 DataCampers 并将团队放在第一位。我们真的努力成为一个不容忍非团队方法的组织,同时也培养一种同理心,关心团队中的每个人。
你今天看到的最有趣或最重要的趋势是什么?
除了我们今天看到的政治动荡,我认为我们今天看到的最重要的趋势/故事之一实际上是监控技术的不断崛起,以及它如何与今天如何定义经济价值相交叉。肖莎娜·祖博夫的《监控资本主义时代》是一本关于这个问题的好书。
你还有什么想和我们的学员分享的吗?
你想加入 Adel 的数据营吗?我们目前正在纽约招聘员工;伦敦;比利时鲁汶;和偏远地区。查看我们的空缺职位。
员工聚焦:Hettie McConnell,软件工程师
你是如何成为一名软件工程师的?
由于我在大学里学的是经济学,所以我接触工程的时间比一些人晚一些。我真的很享受我在大学的时光,毕业后我很快就进入了就业市场,但我发现我一直在做错误的工作。这份工作对我来说不够有挑战性,所以我和我姐姐聊了聊,作为一家金融科技公司的软件工程师团队的负责人,我非常尊敬她。她把我介绍给了她团队中与我背景相似的人,他们给我指出了我可以自己尝试的在线资源。接下来的几个月里,我真的钻研了这些资源,然后决定这可能真的是我的职业。没过多久我就确定了——我辞掉了工作,申请了伦敦市中心一个为期 16 周的编码训练营。不幸的是,由于疫情,我们的团队不得不主要在网上工作,所以我们在某些方面错过了,但在这个忙碌的时间里有一个真正的目标是很好的。新兵训练营结束后,我开始在一家人工智能网络安全公司工作,一年后加入了 DataCamp。
你觉得学习成为一名软件工程师所必需的技能很难吗?
是也不是。我从小就有数学天赋。我妈妈是一名数学老师,她的热情被传递了下去。工程学和数学有很多相似之处。解决工程问题的逻辑步骤和过程与解决数学问题的逻辑步骤和过程非常相似。同样,如果你的答案不正确,你可以请人来检查你的工作。他们会准确地告诉你哪里出了问题,如何解决。这种逻辑思维吸引我走向工程,并让我留在这里。我也发现学习这些技能的过程很愉快,这真的很有帮助。软件工程可能很难,它并不总是容易的,但能够破解一个困难的工程案例只是让它对我来说更加有趣和令人满意。
你为什么决定加入数据营?
当我在以前的公司工作时,我想拓展一下业务。我主要是一名 JavaScript 开发人员,但也想涉足 Python。我喜欢软件工程的一点是完全没有进入壁垒。对于任何编程语言来说,网上都有大量真正高质量的资源,更不用说周末和晚上聚会的实体社区了。时间不多了(在疫情中还有 和 )我选择寻找一个在线平台,在那里我可以轻松地学习 Python 并从容不迫地使用它,于是我遇到了 DataCamp。我尝试了入门课程,很快就被吸引住了。当我在寻找订阅的时候,我注意到在网站的角落里有一个框,上面写着,“我们正在招聘。”我找到了一个适合我技能的角色,所以我申请了,结果证明这是一个很好的匹配。我们生产的软件的质量是驱使我申请这里的原因,我很高兴我这样做了。
你的超能力是什么?
当谈到解决问题时,我真的只有一个想法。包罗万象。当工作变得更困难时,我会更有动力。我喜欢用我大脑的逻辑部分工作。这让我在工作中自我激励,不需要太多的外部输入。我的毅力和组织能力使我在工作中表现出色。
你最喜欢的数据营记忆或时刻是什么?
我还是个新人,大多数人,包括我自己,都主要在家工作,所以我没有太多机会留下特别的回忆。但我确实记得我对公司的介绍。我喜欢 DataCamp 的一个原因是它在各个层面上的开放政策。其中一部分是两周一次的全公司会议,会上每个人都被告知公司的重要事务。这也是一个介绍新员工和向离职员工告别的好机会。我被要求介绍自己,这是一项相当艰巨的任务,因为有相当多的人从你的屏幕上看着你。除此之外,我还跟踪了两名相当资深的新员工。我们的新任首席税务官做了一个简短但非常鼓舞人心的演讲,介绍了他自己和他之前从事的工作。另一个雇员也照着做了。作为一个只有一年软件工程师经验的人,我有点慌了。有人告诉我,我所需要的只是一个简短的问候!当我告诉妈妈我的新工作时,我脑海中唯一浮现的是她的反应:“数据和露营——你最喜欢的两件事!”—所以我说。我立刻觉得有点傻,但每个人都喜欢它。许多人通过我们的内部消息系统联系我,说这让他们笑了,询问我的情况,并真的试图与我联系。我真的很欣赏这一点,尤其是当你无法直视他人的眼睛时,网上互动会让人感觉很冷。热情的欢迎总是让我对 DataCamp 大家庭产生积极的感觉,我在这里真的感觉很舒服,所以我不得不说这是我迄今为止最喜欢的回忆,但我相信随着人们回到办公室,会有更多的回忆。
员工聚焦:Jeremaia
原文:https://web.archive.org/web/20221129054701/https://www.datacamp.com/blog/employee-spotlight-jeremaia
你在 DataCamp 做些什么,一天是什么样的?
我是企业团队的软件工程实习生,这是 DataCamp 的服务,旨在管理我们 B2B 客户在所有数据科学方面的员工。因此,我的团队的责任是维护和扩展企业产品。
是什么让你成为 DataCamp 的一员?
在加入 DataCamp 之前的 12 年里,我在活动行业工作,主要从事门票销售和营销工作,为各种不同的组织工作:大型场馆、节日和著名的票务代理机构。在这些职位上,我将密切监控门票销售的营销活动,包括使用分析来了解广告的表现以及了解我们的客户。2012 年毕业后不久,当我创办了一家票务初创公司时,我重新运用了这些知识。
这段经历是你对工程感兴趣的开始吗?
没错,我雇了一些后端工程师来开发平台,自己负责前端。通过在线教程和论坛,我学到了设计网站页面风格所需的技能,也学到了很多软件开发和项目管理方面的知识。那些学习经历真的让我难以忘怀。
去年,我负责伦敦圆形剧场的票务部门,当时疫情罢工了,我被放了假。在这一点上,我有了重新思考我的职业生涯的喘息空间,我决定给编码更多的尝试。今年 1 月,我参加了一个名为 Le Wagon 的全栈 web 开发训练营,在那里,我通过三个月的强化学习磨练了自己的技能。在这之后,我出去寻找 web 开发方面的工作,就在那时我遇到了 DataCamp。
有什么是你会不一样做的吗?
最终我确实犯了错误,如果让我再做一次,我会做得完全不同——从项目管理到我们使用的语言类型。尽管如此,这仍然是一次很好的学习经历。
我给那些遇到知识缺口的首席执行官和企业家的一些建议,特别是在软件工程方面,是雇佣能够填补这些缺口的人,与他们建立良好的关系,并信任他们所做的事情。如果你想自己学习,伸出手和人们交谈。人们喜欢谈论他们自己以及他们对感兴趣的人做了什么。所以,不要害怕去 LinkedIn、Twitter 或者参加聚会。
另外:使用 Ruby 编写你的网站。自学很容易,但是如果你需要外界的帮助,也有相当数量的开发人员专门从事这方面的工作。
你已经实习一个月了,到目前为止你有什么想法?
这太棒了,这家公司有很好的文化,我的团队合作得很愉快。我的导师弗朗西斯科非常支持我,如果我有任何问题或疑问,他几乎会立即联系我提供帮助。我在入职过程中花了几周时间,虽然 DataCamp 有创业文化,但它比我以前工作过的一些其他组织要大得多,所以其中一部分只是为了熟悉谁做什么以及不同部门如何工作。另一个主要部分是了解我从事的不同项目,以及我们使用的各种技术和工具。
你业余时间喜欢做什么?
在过去的一年里,我大部分时间都花在了学习软件开发上,因为我还在学习,并试图提高我的技能。诚然,这可能不是最令人兴奋的答案,但这是事实。提升技能和转行需要很多时间和精力,尤其是在技术领域,所以我的很多空闲时间都花在这上面。在这方面,这次实习肯定会有所帮助,我今年夏天的最高目标是尽可能多地从中获益。
我确实花了相当多的空闲时间阅读科幻小说,现在我正在阅读《广阔无垠》的第六部,现在封锁正在解除,我将尝试走出去,尽可能多地见人。当然,我很想在某个时候去度假,但是我想发生了这么多事,我需要考虑一下。
你想加入 Jeremaia 的数据营吗?我们目前正在纽约招聘员工;伦敦;比利时鲁汶;和偏远地区。查看我们的空缺职位。
员工聚焦:马腾
原文:https://web.archive.org/web/20230101103202/https://www.datacamp.com/blog/employee-spotlight-maarten
你在 DataCamp 做些什么,一天是什么样的?
我最初是核心课程团队的内容开发人员,从事 R 和 Python 课程。然后我转到了课程扩展,在那里我专注于 Tableau 和 Power BI。很难说典型的一天是什么样子的,因为它可能变化很大,但通常有两种方式。
一个是,我研究如何获得某些软件的认证,然后我整理了一个粗略的列表,看看它是否可以成为一个可行的课程。接下来就是创建概念性的课程、练习和演示视频。另一个过程是我们与外部主题专家一起工作,这个人提供应该出现在课程中的材料,以及我们应该如何呈现它。然后,我们将这些材料应用到 Teach 中,这是 DataCamp 用于构建课程的工具。目前,我正在同时进行两门课程,但是我们正在改进这个过程,这样我们就可以同时处理更多的课程。
你自己教过这些课程吗?
作为一名内容开发人员,我真正喜欢的是我们也有机会成为指导者。我真的很喜欢你接触到的世界,对我来说,我第一次发布课程并从我的网络之外的人那里获得反馈真的很好。
你对自己工作的兴趣是从哪里开始的?
我有科学背景,正在攻读水生生态学博士学位,正是在那段时间里,我接触到了复杂的数据集,我被要求进行自己的数据分析。这些通常是非常专业的,而在当时,R 并不在今天的位置。我记得在 R 语言中创建图形是一件痛苦的事情,我记得我们在 R 语言中的第一堂课有点可怕——没有人真正理解我们在做什么。后来在我读博士的时候,我明白了能够以自己的方式编写自己的分析代码的价值。
我博士研究的重点之一是调查土地利用对水质的影响以及小水体中蚊子的存在。完成博士学位后,我有机会参加了一个黑客马拉松,主题是登革热的传播,这是一种由蚊子传播的病媒传播疾病。正是通过这种方式,我接触到了数据科学中的新技术和工具,在黑客马拉松中获奖让我找到了第一份工作,成为了一名数据科学顾问。
什么风把你吹到数据营来了?
由于当时缺乏有经验的数据科学家,我们正在寻求自我培训。就在那时,我发现了数据营。我真的很喜欢互动的教学方式和练习。作为一名顾问,我从事的项目涉及机器学习、数据可视化和创建仪表板,但我最喜欢的工作是给客户或学生开研讨会。我心想,应该有办法把教学方面的事情当成全职工作来做。此外,我拥有教学硕士学位,所以我一直被教育所吸引,当我看到 DataCamp 的职位空缺时,我认为这是一个追寻激情的理想机会。
你对申请 DataCamp 职位的人有什么建议?
我认为这在很大程度上取决于他们申请的部门,但就我而言,我认为当你了解这个平台,当你上过一些课程,并且知道底层信息是如何呈现的时候,这是非常好的。新员工将会体验到在自己的项目中工作的独立性,尽管在需要的时候会有帮助。在 DataCamp 工作的另一个特点是总有改进的空间。新功能一直在不断涌现,所以不要害怕建议和尝试新事物。内容团队也有各种各样的背景。除了我自己,我们还有来自商业工程和经济学、市场分析、计算机科学、生物统计学、心理学、地质学和社会学的人,这种多样性产生了关于数据集、练习和概念见解的有趣想法。简而言之,如果你想进入数据科学领域,或者想从内容开发人员做起,你的背景并不重要。
工作之余,你成立了一个名为“ConForte Symphonic”的乐队,这个乐队还活跃吗?
是的,我和我的妻子创建了它!我们总是在管弦乐队中演奏,但作为业余爱好者演奏的机会很少。因此,我们决定在 2019 年底成立自己的乐团。我们举办了三场慈善音乐会,正在为未来制定计划,但是疫情发生了。最近,我们又可以开始演奏了,可以期待未来的音乐会了。
与此同时,我一直在研究如何利用 ConForte 的数据做出更好的决策。例如,我能够使用回归来预测我们慈善音乐会的门票销售数量,我们做出了正确的决定,举办三场音乐会,而不是最初计划的两场——三场音乐会都销售一空。
你是否发现在 DataCamp 中有很多对这类项目的支持?
在我入职期间,我和我们的首席运营官 Martijn 谈到了我们乐队的成立,他对此非常感兴趣。总的来说,他热衷于了解人们的兴趣,尤其是在创建类似副业项目的情况下。我也认为这是一个双赢的局面:你在业余时间学习可以应用到日常工作中的技能,反之亦然,所以这真的会让你在这两个领域都保持动力。
你业余时间喜欢做什么?
我真的很高兴我们又开始玩音乐了,但除此之外,我大部分时间都和我们的两个(很快就是三个)孩子在一起。作为一个对教学充满热情的人,看到他们在世界各地漫游并第一次接受这一切真的很好。我真的很喜欢建立他们对事物的理解,所以如果他们问一个问题,我有时会回答,其他时候我会问一个问题作为回应,以便他们思考——实际上这有点像机器学习,你可以说,他们通过例子和重复来学习,这就是机器学习的工作方式。通过看大量的例子,他们知道如何在特定的情况下重复特定的事情。无论如何,现在他们已经离开了这个夏天,花更多的时间和家人在一起会很好。
你想加入 Maarten 的数据营吗?我们目前正在纽约招聘员工;伦敦;比利时鲁汶;和偏远地区。查看我们的空缺职位。
员工聚焦:从巴西到英国追求科技职业
你加入 DataCamp 的历程是怎样的?
一切都始于我想获得新的体验。我的目标之一是成为世界一流的开发人员,为此,我想去国外看看,体验不同的文化和项目。当我看到 DataCamp 为我目前的软件工程师职位发布的招聘信息时,我可以很容易地想象到从事数据科学教育产品的工作是多么值得。所以我决定申请。对我来说,一件大事是 DataCamp 将我从巴西重新安置到英国,这是我多年来的目标之一,并使这一官僚程序非常顺利。谢谢,哈利和埃尔斯!
我在 DataCamp 的入职之旅非常顺利,几乎没有什么挑战。我觉得我的路径和入职项目做得很好,而且直截了当。对我来说,这种经历不同于其他公司,因为我不必做那些不是我日常工作的任务,这对我是一个很大的好处。
描述一下你现在的团队。你觉得你的角色最有趣的是什么?
我目前在 DataCamp 与企业团队合作,我们专注于为 B2B 管理员提供最佳体验。我的团队是一个很棒的团队——我们互相帮助,我们一起讨论项目,我们一起享受乐趣,感觉就像我在和朋友一起工作一样。在这里,我经历了人生中最棒的团队建设活动。关于我的角色,最有趣的事情是我创造新功能的能力,这将直接提高 DataCamp 为我们的用户提供的质量。看到自己的工作帮助了别人,感觉超级满足。
加入 DataCamp 后,你的职业发展如何?
到目前为止,我有很多机会学习新的东西和从事新的项目。每次我想尝试新的东西,我都能从我的领导和队友那里得到支持。
对我来说,最令人兴奋的事情是我有很多机会与趋势科技合作。举个例子,在过去的几个月里,我可以从事云基础设施项目,这对我来说是一种全新的体验。在接下来的几周,我将成为我们应用程序中一个新功能的赞助商,这让我有机会做更多的管理工作。
2020 年你最期待什么?
我对新的挑战感到兴奋,尤其是赞助特定项目的机会,如为我们的企业客户定制跟踪报告。这将是一项新功能,使业务管理员能够在 DataCamp 上查看其同事使用情况的详细信息。
你最喜欢为 DataCamp 工作的哪一点?
我得说,致力于一个试图通过教育改变世界的产品绝对是我在这里工作最喜欢的部分。这让我为自己的工作感到骄傲。
你最喜欢的 DataCamp 文化价值观是什么,为什么?
思想的多样性毋庸置疑。我喜欢当我在讨论中提出一些新的东西时,它会产生持久的影响,每个人都会深入探讨它。
如果你可以选择任何一个人做你的导师,那会是谁?
我会选择亚伦·贝茨,他是我直属团队的一员,也是公司里我最钦佩的人。他是一个非常聪明的人,也是我在这里最好的朋友之一。他教了我很多东西,不仅在专业方面,甚至在文化方面,因为我来自一个不同的国家,每当我看到英国的东西时,我仍然会感到困惑。
你想加入玛丽亚的数据营吗?我们目前正在纽约招聘员工;伦敦;比利时鲁汶;和偏远地区。查看我们的空缺职位。如果您想尝试 Maria 工作的企业平台,请访问datacamp.com/groups/business。
员工聚焦:将团队和客户放在首位
你加入 DataCamp 的历程是怎样的?
我很幸运,当我完成在霍巴特和威廉·史密斯学院(HWS)的学业时,发现了 DataCamp。我是通过学院的职业服务中心和校友网络了解到 DataCamp 的。DataCamp 的一名高级客户经理萨姆·西思(HWS 大学 14 届毕业生)告诉 HWS,纽约的销售团队有一个职位空缺。经过几次面试,感觉非常合适,我得到了一个业务发展代表的职位!
描述一下你现在的团队。你觉得你的角色最有趣的是什么?
2019 年 1 月从销售团队跳槽到客户成功团队。我们的 CS 团队是由深思熟虑的,迷人的,好奇的,最重要的是,有趣的人组成的。和团队的每个成员一起工作都很愉快。我们不断地相互学习,获取新的想法,并不断地推动对方在我们角色的各个方面进行改进。与这个团队一起工作,我真的学到了很多,我期待着 DataCamp 客户成功团队的未来。
我发现我的角色最有趣的地方是我发现自己在和各种各样的人和人物一起工作。我可以与一家公司的实习生通话,该实习生希望了解更多关于 DataCamp 的信息,然后 30 分钟后,我可以与一家财富 500 强公司的首席数据官交谈,讨论为数千名分析师创建一个培训计划。它只是显示了有多少不同角色和不同公司规模的人可以利用 DataCamp 来提高他们的技能集和增长他们的数据技能。
加入 DataCamp 后,你的职业发展如何?
当我在 DataCamp 开始工作时,我是销售团队的业务发展代表,每周发送数百封电子邮件和电话,与我们的用户群进行互动,并了解更多关于公司如何利用我们的平台的信息。我们的目标是为我们提供与员工积极使用 DataCamp 的公司合作的机会。大约 6 个月后, Adam Kuznia (他是 CS 的负责人,现在是我们的 CRO)认为我很适合一个新的角色:客户成功代表(CSR)。CSR 的角色是让我们的企业客户支持他们的团队,并帮助他们成功利用 DataCamp 提供的一切。我还与一些组织合作,为他们更大的员工群体或整个公司扩展对 DataCamp 的访问。今年 5 月,我被提升为客户成功经理,这意味着我现在管理的客户要大得多,涵盖数百甚至数千名员工。我的客户来自各行各业,包括金融、医疗保健、科技、政府、制造、运输等等。我喜欢通过 DataCamp 帮助他们成功实现目标。
2020 年你最期待什么?
希望一切回归正常!虽然远程工作很好,但我确实怀念从帝国大厦办公室看到的风景,怀念与队友面对面的合作,尤其是当我有快速的问题或评论时。此外,我真的很期待/祈祷 NCAA 和 NFL 橄榄球赛季的回归。
除了显而易见的,我期待看到我的客户在 DataCamp 上取得成功。今年,我与不少客户合作,针对数百甚至数千名员工的需求,协调培训计划和路径。我很高兴看到这些计划将如何取得成果,并且很高兴知道我们在世界上一些最大的公司中传播数据流畅性方面发挥了重要作用!
你最喜欢为 DataCamp 工作的哪一点?
在 DataCamp 工作,我最喜欢的一点是 DataCamp 为员工提供的自由。只要你及时完成你需要完成的事情,没有人会问你问题。DataCamp 允许我们以适合个人的方式平衡工作和生活。也就是说,作为一个面向客户的角色,请求在一天的任何时候都会到来,因此 DataCamp 允许我们按照自己的时间表工作,而不会被固定的朝九晚五的时间表所束缚。
什么是最受欢迎的 DataCamp 文化价值,为什么?
“以团队为重。”当每个人都适应了团队第一的心态,我们都赢了。无论是相互交流想法,邀请其他部门的团队成员加入电话会议,还是只是在午餐时进行交谈,我们总是试图相互支持,并帮助彼此以任何可能的方式改进。目前,DataCamp 正处于快速增长的阶段,并且有一些大的事情即将发生。如果我们都有一个共同的目标,并继续把团队放在第一位,那么这家公司的发展是无限的。
如果你可以让任何人做你的导师,那会是谁?
我会选择威尔斯·克罗泽。威尔斯·克罗泽也被称为“戴红色头巾的人”,他是纽约的一名股票交易员,在 911 事件发生时在世贸中心工作。当袭击发生时,他本可以活下来,但他是一个英雄,他回去帮助从大楼里救出了至少 18 个人。他为了拯救他人而牺牲了自己的生命,这就是我希望作为导师的那种人。我强烈推荐人们了解他的故事,并观看一部关于他的故事的纪录片:红色头巾的男人。
为什么人们叫你 Mac?
我的全名是詹姆斯·麦金纳尼·斯蒂芬斯。因为我们家已经有好几个詹姆仕了,他们不得不把它混在一起。从小到大,我认识的每个人都叫我麦克。这有点好笑——我所有的家人和朋友都叫我 Mac,但我所有的客户都叫我 James。在这一点上,它是完全可以互换的!
你想加入 Mac 的数据营吗?我们目前正在纽约招聘员工;伦敦;比利时鲁汶;和偏远地区。查看我们的空缺职位。
员工聚焦:招聘讲师和建立 DataCamp 的实时培训计划
你加入 DataCamp 的历程是怎样的?
我之前见过数据营的成功讲师主管 Jen,通过她在大会上作为数据分析讲师的介绍工作。我是她班上的一名学生,她推荐我去 GA 找一个教学助理的职位,结果我做了整整一年。
然后,她联系我,看我是否有兴趣参加兼职实习,作为帮助她找到潜在的数据营导师并向其发送信息的实验的一部分。随着我们对更多导师的需求增长,我的实习时间从每周 20 小时增加到 40 小时,我在 2019 年 6 月获得了一个全职职位。所以即使我的“正式”开始日期是 2019 年 6 月 24 日,但我实际上从 2018 年 11 月起就一直在 DataCamp 工作。
描述一下你现在的团队。你觉得你的角色最有趣的是什么?
我在成功导师团队工作。简而言之,我们的目标是照顾现有的 DataCamp 讲师,并找到新的讲师来为我们的学员开发内容。我还帮助建立了当前的现场培训计划,在那里我安排和安排教员,并自己进行培训。到目前为止,我最感兴趣的是通过我遇到的和一起工作的人了解数据科学的世界。报名参加我们即将到来的现场培训课程!
加入 DataCamp 后,你的职业发展如何?
我最初是一名兼职实习生,现在我正在主持讲师网络研讨会,并帮助协调新的现场培训计划!一路走来,我学到了很多以前不知道的技术——比如 Google 套件、Gem、Google Colabs 和 GitHub。
2020 年你最期待什么?
看到实时培训计划的启动和发展是如此令人兴奋——我们收到了一些令人难以置信的话题和来自用户的大量反馈,他们真的从中发现了价值。我迫不及待地想看到我们推出什么新的主题,以及这些会议如何继续发展!
你最喜欢为 DataCamp 工作的哪一点?
我喜欢结识来自世界各地的新朋友,并与来自不同行业和背景的人一起工作。每个人都有可以奉献和贡献的东西。
你最喜欢的 DataCamp 文化价值观是什么,为什么?
关心数据营员。DataCamp 在照顾员工方面做得很好,我们互相照顾。在疫情期间,管理人员和员工团队的反应非常迅速,他们竭尽所能保护我们的安全和健康。在过去的几个月里,每个人都很关心彼此并保持社交,尽管我们在社交上有所疏远,但我从未感觉到与我的团队有如此紧密的联系!
你做过最诡异的工作是什么?
当我十几岁的时候,我在科罗拉多文艺复兴节上工作了四个夏天。这个节日是这个国家唯一拥有永久性建筑(不是帐篷)的节日之一,而且规模巨大!有一个充满了角色和大量游乐设施、商店和餐馆的完整法庭。我们被期望保持角色,使用像“神奇的钱箱”这样的术语,而不是 ATM 机,并且把墨西哥胡椒发音为“jah-lop-pen-os”,每次有人给小费,我们就大喊“Huzzah the tipper!”在我们肺的顶端。
你想加入凯尔西的数据营吗?我们目前正在纽约招聘员工;伦敦;比利时鲁汶;和偏远地区。查看我们的空缺职位。
员工聚焦:数据科学家 Sara Billen
你是怎么结束在数据营工作的?
在 DataCamp 工作之前,我在咨询公司工作。我是一名数据科学顾问。“人员”团队联系了我,因为 DataCamp 结合了我感兴趣的两个方面——数据方面和学习方面。这对我来说是一个有趣的机会,所以我决定开始在这里做一名内容开发员。四年后,我仍然在这里工作,不是作为一名内容开发人员,而是作为一名数据科学家。
你的背景是什么?
我学的是经济学,主修市场营销。在学习期间,我学习了一些专注于市场分析的课程,这是我第一次发现自己对数据分析和统计的热爱。之后,我去根特学习了一些专门针对市场营销的数据科学方面的东西。我参加了侧重于 CRM 应用预测分析的课程。在那里,我了解了更多关于机器学习和网络分析的主题。
自从加入以来,你的职业发展如何?
我最初是作为一名内容开发人员加入的。我与教师一起创建了我们平台上的课程。因此,我结识了许多专家,接触了与数据相关的话题,这真的很酷。之后,我转换了角色,成为了一名课程经理。我负责一部分课程,在这一点上,我也换了团队。我没有继续研究我们的核心课程,比如 R、Python 和 SQL,而是转到了一个更专注于课程扩展的团队。我们致力于构建更新的技术,如 BI、概念课程和数据工程。在决定转到数据科学之前,我在这个职位上呆了大约两年。我选择申请这个职位,是因为我确实缺少数据分析方面的东西,而且当时我们公司有一些数据科学家的职位。我得到了这个角色,我已经做了两个月了。
你能在不使用数据科学这个词的情况下描述你作为数据科学家的工作吗?
我从事产品方面的工作。这意味着我负责帮助公司根据他们收到的数据发现见解。这些见解有助于我们对将要做出的某些决定采取行动。例如,他们帮助我们的产品经理就如何在我们的平台上设计学习体验做出更好的决策。
作为一名数据科学家,您从完成 DataCamp 课程中学到了什么新东西吗?
我认为总有新的东西要学。我喜欢 DataCamp 的一点是,它很容易介绍给你感兴趣的话题。我实际上从开发这些课程中学到了很多。作为一名内容开发人员,我创建了关于商业智能的课程。因为我创建了这些课程,我学到了很多关于 Tableau 和 Power BI 的知识。在我的工作中,我可以说我确实学到了很多,成长了很多。
你希望 DataCamp 平台增加什么技能?
我对即将推出的商务智能课程计划感到非常兴奋。当我加入这个团队时,我们仍在试图弄清楚它是否有吸引力,但现在公司内部实际上有很多需求。我对那边即将到来的扩张感到非常兴奋。我们的 R 和 Python 课程也在改进,这很令人兴奋。
你的超能力是什么?
在我目前的工作岗位上,我有幸在 DataCamp 呆过一段时间。在内容团队工作意味着我对我们的平台以及我们的用户与之互动和学习的方式有了很好的了解。我有丰富的领域知识,这也有助于我完成剩下的工作。除此之外,我要说的是,我对商业和数据科学的热情让我擅长自己的工作。我喜欢让公司和公司员工做出更大的决策。
有你想更精通的技能吗?
我认为,作为一名数据科学家,你总能学到一些技能。这是一个非常广泛的职业,要想做好这份工作,你需要知道很多东西。我在这份工作中学到的更多的是数据工程方面的东西。公司内部的完整数据流,而不仅仅是最后一条信息。我们使用一些工具将数据从我们的来源导入我们的管道,最终使我们能够做出正确的商业决策。我的优势更多是在业务的接触点方面。我还喜欢的是,我可以体验真正广泛的知识。我们所有的数据科学家都知道从开始到结束的整个过程,这是你在许多其他公司看不到的。
你能用 5 个或更少的词描述一下在 DataCamp 的工作吗?
有教养的,快速发展的,了不起的人。
在 DataCamp 工作真是一阵旋风。我喜欢我们的雄心壮志。对我来说,在这里工作最重要的部分无疑是那些了不起的人。和我一起工作的人都很聪明,能够和他们一起工作真的很棒。
你能告诉我你最喜欢的数据营记忆或时刻吗?
我想那一定是在我们工作的某个星期。在一个工作周内,我们将整个公司聚集在一个目的地,您终于有机会见到您在网上联系了这么久的人。上一次是在里斯本,这也是疫情奥运会前我们最后一次这样做。我们开了一个假日派对,真的有机会互相了解,这真的很好。
想加入我们神奇的国际团队吗?我们在招人!请访问我们的求职公告板并立即申请。
增强现代数据分析师的能力
DataCamp 播客 DataFramed 的主持人 Adel Nehme 最近采访了 Mozart Data 的联合创始人&首席执行官 Peter Fishman 。
介绍彼得·菲什曼
Adel Nehme:大家好。这是 Adel,数据科学教育家和数据营的布道者。在过去的几年中,新工具和框架的加入令人难以置信,即使是最小的数据团队也能完成更多工作。这些工具通常被称为现代数据堆栈。现代数据堆栈的一个方面是,它使数据分析师等从业者能够以更快的速度提供见解并提高价值。这就是为什么我很高兴能与莫扎特数据公司的首席执行官彼得·菲什曼交谈。Mozart Data 为数据分析师提供了现成的数据仓库,任何人都可以轻松地连接不同的数据源,应用简单的转换,并开始分析数据,而无需任何数据工程师。在我们的谈话中,我们谈到了他推出 Mozart Data 的经历、大多数数据团队在努力进入角色时面临的考验和磨难、现代数据分析师需要具备的技能、培养主题专业知识分析角色的重要性等等。
Adel Nehme:如果你喜欢这个播客,一定要订阅并评价这个节目,但前提是你喜欢它。此外,如果您对现代数据堆栈感兴趣,并希望将您的本地笔记本环境过渡到基于云的协作环境,我强烈建议您查看 Data Camp Workspace,在那里您可以用 Python 和 R 编写代码,并使用一系列模板和数据集,让您在浏览器上就能开始学习数据科学。现在,让我们开始吧。彼得,很高兴你能上节目。我很高兴能与您谈论现代数据堆栈、定义当今成功数据分析师的技能等。但在此之前,你能给我们介绍一下你自己的背景,以及你是如何走到今天这一步的吗?
彼得·菲什曼:很高兴来到这里。我是皮特·菲什曼,莫扎特数据公司的联合创始人兼首席执行官。像数据领域的许多人一样,我是一个失败的学者,过渡到了应用统计经验并将其应用于技术的世界。所以我在过去的十多年里一直在创业公司工作,主要是在数据功能方面,最终决定...我和我的朋友丹决定把我们自己建成一个服务。然后我们建立了莫扎特数据,我们称之为最简单的方法来旋转现代数据堆栈。
Adel Nehme:太好了。那么你能给我们介绍一下你在工业界和学术界的这些经历是如何让你推出莫扎特数据的吗?你能给我们介绍一下莫扎特数据试图解决的挑战吗?
彼得·菲什曼:这里有一个很长的线索,因为它确实可悲地捕捉了许多、许多、许多年,但在主题上有许多一致性。基本上,随着时间的推移,数据变得越来越大。不仅仅是大数据的流行词,基本上计算能力最终会产生很多下游影响。人们可以收集更多的数据,因为他们可以从这些数据中获得更多的价值。我的弧线看起来像是我在研究生院做非常早期的实证研究,显然统计学已经存在很长很长时间了。但是第一次你可以真正利用成千上万或者上百万的观察数据。
彼得·菲什曼:今天,用数百万的观察数据进行分析不仅仅是琐碎的事情,人们会对此不屑一顾。但对我来说,这是我在博士项目期间处理的数据集的大小,在当时几乎无法想象,超过了 Excel 所能做的一切。
彼得·菲什曼:但最终发生的是,你在数据中发现洞察力,然后公司想出利用它的方法。然后你必须去寻找数据中的下一个洞察力。因此,我在脸书的游戏领域开始了我的职业生涯,在那里,许多公司都在以新颖的方式竞争使用数据。脸书有数十亿用户。因此,数据的大小和数量是巨大的,你可以做出真正新颖的见解。我们开始非常非常密切地关注 CAC 和 ltb。游戏是建立一个良性循环,非常有效地购买人们的眼球,然后将其转化为货币,让更多的人进入你的平台,实现良性循环。
彼得·菲什曼:然后我看到了将它应用到 B2B 世界的机会。所以我职业生涯的决定性部分就是这个公司的抱怨。在 Yammer,我们在软件开发中采用了很多 B2C 方法,然后将其应用于 B2B 世界和自下而上的 SaaS 世界,这在当时并不存在。但这需要大量了解你的用户在做什么,了解潜在客户的吸引力,这是谁在实际使用你的产品的函数,这需要数据人员。不仅如此,数据基础设施。所以我和一个非常棒的团队在 Yammer 开发了一个叫做 Avocado 的工具。今天的鳄梨实际上是莫扎特数据加模式分析。从那以后,我有很多不同的机会在不同的公司拥有类似的数据基础架构,最终决定自己构建它。
数据驱动的组织
Adel Nehme:这非常令人兴奋。我很高兴能进一步解开这个谜团。不过,在此之前,我想先介绍一下景观数据团队目前的工作,以及真正促成莫扎特数据发布的动力。正如你所说,我完全同意这种观点,数据科学已经成为赌注,不再是一件好事。所以,我想以这样一个问题开始我们的聊天,你如何定义一个数据驱动的组织,以及一个组织如何将数据科学集成为当今的实践?
彼得·菲什曼:当然。因此,我认为大多数人对数据驱动型组织的印象是办公室里到处都是电视。现在,有不存在的办公室。这些电视有 KPI 的时间序列,人们只要在大楼里走动,就可以通过观察 KPI 的时间序列来了解公司的情况。我设立了一个稻草人,但我非常不同意。
彼得·菲什曼:所以我要说的第一件事是,很少有一成不变的数据分析方式能提供你所说的必要见解。在数据驱动型组织中,数据在关键决策表中占有非常重要的位置。这可能意味着一个非常高级的管理人员是一个数据人员。这可能意味着每次会议都有数据开始。这可能意味着数据分析师可以接触到各种关键决策者,或者最终数据比战略一词更能成为关键决策者。
彼得·菲什曼:我经常发现非数据驱动的组织经常谈论战略投资,这些投资几乎不能用数据来证明。当你创办一家公司,没有想法,没有数据,没有员工,或者其中任何一个,你最终真的需要有战略眼光。你需要想象一个不存在的世界,一个不能通过回顾来证明的世界,你需要运用你自己的方向、思想和信念。现在,数据可以告诉我们。我是说,我最喜欢的例子之一。当我在这家名为[听不清 00:07:49]的脸书游戏公司工作时,我们有时会在基本上是半成品的游戏上做广告。虽然你不能从统计学的角度对游戏的有效性或成功性做出高度自信的结论,但你可以感受到获得用户的难度。
彼得·菲什曼:所以你对这一点的信念甚至可以在游戏存在之前得到验证。所以,这并不是说在一个超早期的公司,你必须只依靠直觉和策略。但我所认为的数据驱动型组织是这样一种组织,数据是一等公民,但不仅仅是他们收集数据,他们有仪表板,他们看时间序列,他们晚上可以睡觉,因为他们知道他们的公司在上升并向右移动。而是关键的决策是由数据、数据的删减、潜移默化、总结和模型决定的。
Adel Nehme:所以,在数据驱动的组织中,数据在整个决策生命周期中成为一种习惯,而不是看上去的东西。
彼得·菲什曼:当然。
Adel Nehme:那么,影响当今真正希望充分利用数据的组织的主要挑战是什么?
彼得·菲什曼:一个组织实现数据驱动的方式是不被数据驱动。所以,把你带到这里的成功不会是数据驱动的成功。这将是一个成功,通常是由创始人推动的,但通常对世界的信念在当时不一定是正确的,但最终证明是正确的。但你通常会遇到这种逆风,因为你不是数据驱动的。
Peter Fishman:组织如何成为数据驱动的往往是一个潜在的信念,即我们的组织必须是数据驱动的。不是因为一个风险投资家告诉你要以数据为导向,也不是因为《世界》和你听的播客告诉你要以数据为导向,而是因为你最终真的相信,当以正确的方式汇总和总结时,世界给你的信号将会提供更多的信息。
彼得·菲什曼:我有时在柏克莱大学教书,我在柏克莱大学攻读博士学位,当我回去的时候,我会贴一些不同的广告,这些广告来自我们在脸书运行的游戏。我说,“哪一个是最有效的,哪一个会得到最好的点击?”人们举了手,不是不分青红皂白,但他们有一些喜欢的,他们喜欢的往往是更好的。但是当你把广告展示给一亿人看时,他们的观点比任何真正的专家都正确。我认为你需要做的是随着时间的推移锻炼肌肉。现在,这并不是说如果你没有这样做,如果你没有被灌输,你真的需要考虑数据,以正确的方式考虑数据并使用数据。
彼得·菲什曼:你仍然可以很快接受它。如果我回到我在 Yammer 的时候,我们有两个非常固执己见的领导者,两个联合创始人,大卫·萨克斯和亚当·比索尼,他们有很多直觉。众所周知,他们在产品和技术方面非常有天赋,而且他们有丰富的直觉。事实上,正是这种直觉让 Yammer 成为一家吸引我加入的公司。但是在我职业生涯的早期,实际上是在我职业生涯的前三个月,我们对新的用户流进行了 AB 测试,这与他们的两种直觉都相反。我们这样做几乎是偶然的,但它真的为我的职业生涯奠定了成功的基础,因为结果非常清楚,有点违反直觉。你很少在科技领域看到这种情况。我认为,即使是数据人员也喜欢炒作,哦,你运行这些实验,你得到这些违反直觉的结果,然后你的公司变得更好。
彼得·菲什曼:这很少发生。更多的时候,你会从你认为几乎肯定会成功的事情中得到无效的结果,而不是得到违反直觉的有统计学意义的结果。这种情况发生在我身上,在我的职业生涯中不算少数,但在我的职业生涯中非常非常非常少。这只是发生在我在 Yammer 的早期,这基本上改变了他们对发布产品时运行 AB 测试有多重要的整体看法。它成为了发布标准的重要组成部分。我认为最终这是一点点的机会,但这两个人的思想很开放,他们现在都是莫扎特数据的投资者,但最重要的是,我认为这需要要么是你的核心,要么你得到一个非常清晰的教训,这就是你如何成为一个数据驱动的组织。
现代数据堆栈
Adel Nehme:太棒了。我希望我们能奉献一整集来展示你在 Yammer 的经历,以及与 David Sachs 这样的人一起工作的经历。现在,当然,成为数据驱动型组织的一个关键要素是一套工具和支持基础架构,以加快洞察速度。这就是通常所说的现代数据堆栈。如果您能对您认为的现代数据堆栈的含义进行细分,我会很高兴,它与数据团队习惯使用的前一套工具的区别是什么?
彼得·菲什曼:现代的数据堆栈其实并不那么现代。现代数据栈是现有数据工具和已经存在了很长时间的数据管道工具的现代化。它的品牌很棒,因为我一直听到这个词,在某种程度上它是当之无愧的,也就是说云数据仓库在数据空间的用户中已经变得无处不在。所以我要说的第一件事是,这些强大的[听不清 00:13:17]能够再次处理大量数据。不是我 20 年前处理的数据大小,而是像巨大数据集上的真正关节。这就使得你可以使用来自多个地方的数据。
Peter Fishman:所以现代的数据堆栈实际上与 Excel 中的 V 查找没有太大的不同,也就是说,它是连接来自多个地方的数据。帮助您实现这一目标的是 EL 工具、强大的数据仓库和 T,即转换层。这是一个从本质上清理数据的层。因此,你必须从许多不同的来源提取和加载数据,然后你必须清理和转换它。所以感受一下数据。因此,当人们谈论现代数据堆栈时,他们谈论的是 ELT,但 T 现在有了很大的意义。
彼得·菲什曼:每个人都知道清理是数据人员工作的一个重要部分。我以前在微软的老板是罗尼[听不清 00:14:21],他有一个笑话。而且我不知道这是不是他开的玩笑,但我知道他爱用,就是说“95%的数据科学都在清洗数据,只有 5%的数据科学在抱怨清洗数据。”他的笑点比我好一点,但他说的是,实际上他会想,哦,这都是从你竞争或获得的这些美丽的数据集建立这些不可思议的模型。实际上,很多工作都是清理和确保数据的正确性和一致性。
彼得·菲什曼:数据人员做的工作很少是真正的数据分析。当然不是 0%,但当你期望答案是 5%时,这个笑话会更好,但只有在其余时间里,它实际上只是抱怨。如果我想一想现代数据堆栈是什么,现在所有这些工具都代表了清理层。它不仅仅是基本上计划好的表,它还包括各种不同的部分,以确保您在下游查看的数据(无论最有可能在您的 BI 工具中)实际上是原始的,基本上没有任何问题。
Adel Nehme:对我来说,现代数据堆栈令人兴奋的一部分是数据堆栈中新类别的出现。例如,去年我们采访了蒙特卡洛的首席执行官 Bar Moses,以及他们如何开拓数据可观察性类别。在过去的几年中,你看到哪些类别和工具的出现让你感到兴奋?
彼得·菲什曼:当然。当然,我会说管理数据管道是我认为最酷的类别。我碰巧喜欢其中的一家公司。然而,除此之外,还有各种各样的工具更适合,我称之为上游和高端市场,进入更大的公司,这些公司拥有更大的数据团队,以各种方式使用他们的数据。但是最终一旦你将数据加载到你的仓库中,会有很多事情发生。有数据可观察性,有数据编目。我记得很久以前,我们有专栏。收入强调最终,强调一个使用,强调你真的想要这一个 V6。我认为,很明显,大型数据团队能够很快了解这个世界,实际上,你会发现,一旦你有了一个成熟的数据组织,可能需要几周甚至几个月的时间来了解这个堆栈。
彼得·菲什曼:DJ 帕特尔有一句关于他在 LinkedIn 的经历的话,“作为一名数据科学家,在 LinkedIn 取得成功很大程度上取决于在最初的 90 天里取得成功。”如果你花了 90 天或 89 天才登上排行榜,你最好表现得令人惊讶。你最好能在一天内找到不可思议的东西。然而,如果你花了一周或一天或一个小时才爬上了顶峰,那么,现在你就有了在那家公司取得成功的真正机会。
彼得·菲什曼:所以,像 LinkedIn 和 Yammer 这样真正精明的公司正在开发和使用各种工具。显然,Airbnb 已经建立了许多著名的工具,这些工具是为了让数据人员变得有效。现在,很多公司已经涌现出来,他们花费了无数的资金来建造这些工具...Airbnb 大概花了上亿美元。这并不重要,但他们花费了数百万美元进行开发,现在让那些没有 Airbnb 或脸书或其他任何公司的预算的公司也可以使用。所以我看到了这一领域的巨大发展。很明显,其他出现的类别...反向 ETL 是一个非常好的下游例子,我们已经建立了自下而上的 SAS 世界和类似的子规模,对不对?因此,我认为现在有这样的服务,或者有提取和加载的服务,对公司来说是非常非常重要的。
莫扎特数据
Adel neh me:Mozart 数据在现代数据堆栈中处于什么位置,它如何解决我们到目前为止讨论的一些挑战?你能给我们介绍一些莫扎特数据的例子吗?
彼得·菲什曼:莫扎特数据基本上是一个一体化的数据平台。这意味着在不到一个小时的时间内,您可以开始连接多个数据源,我们会为您构建一个雪花型数据仓库,您可以开始编写转换,连接 BI 工具或反向 CTL 工具,并开始获得见解。
彼得·菲什曼:真正神奇的是,这通常需要几个月的时间和大量的数据工程师,或者你做大量的供应商评估,然后选择你的供应商来做,或者你聘请一名顾问来做。今天,这一切都可以在短时间内完成。当您完成演示时,您就可以开始运行并在您最喜欢的 BI 工具中查询您的数据了。事实上,这种速度对洞察力提出了挑战,Mozart 不仅希望像非常精明的数据工程师一样,而且希望数据领域的每个人都能够非常快速地启动并运行这种现代数据堆栈,而不会受到工程的限制。
Adel Nehme:我喜欢 Mozart Data 的一点是,它让数据分析师和公民数据分析师能够快速上手数据并快速提供价值,而无需依赖数据工程或基础设施工作。你领导过数据团队,在开发 Mozart 数据和其他数据时与许多数据分析师合作。如果您能详细说明您认为数据分析师这一角色在过去几年中是如何发展的,以及您认为它在未来将走向何方,我会很高兴。
Peter Fishman:就在那时,数据科学这个术语,再次像 Jeff[听不清 00:20:06]和 DJ Patel 开始使用数据科学家这个术语。然后,这个行业出现了令人难以置信的快速增长。数据科学家的头衔在数据领域无处不在。原因是,作为一名数据科学家,基本上意味着你的报酬比数据分析师高得多。所以每个人都开始使用这个术语。然后你看到它代表着,你有一直在做 ML 工程的人,也有可能是刚从大学毕业第一次从事数据工作的人,他们都有数据科学家这个头衔。它代表了一套完全不同的技能,所有这些技能都包含在同一个标题中,但又各不相同...在不同的公司,这意味着不同的事情。
彼得·菲什曼:今天,你可以看到更大的粒度。你会看到拥有 rev ops 或 BI ops 头衔的人。你会看到一些人,他们的专业技能是出类拔萃的。因此,分析工程师与数据工程师截然不同,如今的数据科学家在公司中有着特定的角色。数据分析师往往有特定的角色。现在,我们仍然看到很多,如果我们有一个技能集的维恩图,很多会重叠。我认为实际上最好的...我不认为这一个标题是...没有大于号。我认为很多核心技能最终都是一样的。真正伟大的数据科学家实际上造就了真正伟大的营销运营分析师,也就是说对因果关系和推理的深刻理解,就像是一套不同的技术技能。显然,在公司和组织中,这是一个不同的角色。您每天都在做不同的事情,但核心仍然是关于数据思维和数据能力,而不是特定的技术专业知识。
数据分析师
Adel Nehme:我完全同意这一点,特别是因为随着角色的发展,有一层技能在一定程度上发生了变化。您认为数据分析师应该培养什么样的决定性技能才能在当今的现代数据团队中取得成功?
彼得·菲什曼:我有一点偏见,因为我 20 多岁的时候花了很长时间思考真正的因果关系。所以我读了经济学博士。我学的是行为经济学。通常情况下,你会得到不是由实验产生的大量数据。所以数据集,你随着时间的推移测量事物,你随着时间的推移了解一个有 ID 的个体,但你不一定有你真正想要的东西,那就是进行科学实验。但是在条件 A 和条件 B 下的人会有一个假设,看看哪一个会胜出。
彼得·菲什曼:当你没有这些的时候,你基本上只能做一些统计学上的小把戏。你必须思考,好吧,什么是实验?我经常想,这是数据中最被低估的技能之一,真正思考你试图用你的数据做什么,本质上是分配一个基于过去的因果关系,你认为这在未来适用,原因有很多,对吗?
彼得·菲什曼:你认为有一种机制带来了它,这种机制至今仍然存在。所以我认为那些真正有深度思考的人喜欢理解因果关系和理解数据的典型错误。所以经典的例子是你说,好吧,好吧,溺水死亡总是在冰淇淋消费上升的月份上升。这就像,显然所有的新手都会说,“嗯,那是因为在温暖的月份,人们会吃着冰淇淋,去海滩或者去游泳池。”当然,他们意识到这实际上不是因果机制,但是你把它从那个特定的玩笑环境中分离出来。然后你把它带到一个有很多事情正在发生的世界,你的工作取决于,在某种意义上,你给公司带来的价值取决于确定一种你认为会推动公司发展的关系...无论是他们的营销,他们的业务,他们的产品,他们的用户前进。
彼得·菲什曼:然后,你开始放弃批判的观点。所以总的来说,我喜欢的是一套几乎是对好作品的拆解,思考一个好的见解或好作品可能存在缺陷的所有方面。也许有人做了一个健壮性检查,证明它没有缺陷,但至少当你读它的时候,你能吗...或者看看已经完成的工作,你能不能持怀疑态度,说,好吧,好吧,也许它主要是由一些不一定会重复的东西驱动的,因为他们做了很多复制研究。当我在微软工作时,我在必应工作。宾,你拥有的不仅仅是数百万,不仅仅是数十亿,数万亿的观测数据。
彼得·菲什曼:你可以继续测试,并从中得出结论。所以我觉得像推断才是大本事,不过话说回来用小数据推断也是真本事。这有点令人困惑,因为通常情况下,你无法用少量数据做出推断。因此,如果你寻找一个或两个观察或 NF1,实际上你不能从中做出有效的统计推断,但真正深入思考机制以及如何设置它,以在一个受数据库限制的空间中实际学习答案,你会发现,我们在 Bing 发现,即使当你的数据大小是无限的,你也总是想切割它,切割它,切割它,切割它,切割它,切割它,切割它到越来越小的群组,以做出越来越精确的推断。
彼得·菲什曼:你一定会用完数据,即使数据看起来是无限的。我认为有两种技能对我来说是最被低估的。这是我认为人们应该发展和努力的方向。这也是我们采访的对象,不仅仅是莫扎特,还有很多我工作过的地方。
Adel Nehme:能够做出这些推论并发现数据集中的这些偶然关系需要大量的专业知识。通常,围绕提升技能和进入技术领域的讨论中缺少的是主题专业知识和领域知识,尤其是能够在分析角色和数据角色中取得成功。您能否评论或阐述一下主题专业知识在数据角色中的重要性,以及它对您的职业生涯有何帮助?
彼得·菲什曼:嗯,就像你提到的,从最后一个问题中,如果你的关键洞察力是思考驱动你归因于你的数据的因果关系的正确机制,那么实际了解你的用户在做什么以及什么激励你的用户是至关重要的。所以,我在 Yammer 工作。作为一家公司,我们是我们产品的最大人均消费者。所以不奇怪。丹和我,我的莫扎特数据的联合创始人。他和我,13 年前,开了一家辣酱公司。我们也是那种辣酱的头号消费者。因此,主题专业知识 100%就像是一个赌桌,认为你必须带着才能理解这些关系。
彼得·菲什曼:现在,翻转有时对你非常不利。所以它不是线性上升的。它不一定只是凹的,随着你获得越来越多的专业知识,这个一阶导数仍然是正的。你会发现,有时候你沉浸在自己的世界中,以至于忽略了典型用户正在做的事情。实际上,在过去的工作中,我们经常遇到这样的问题,我们是用法的正确尾巴,希望每个人都理解工具中正在发生的一些微妙的事情。你会发现人们有一种令人惊讶的表面意愿去关注。你对你来说是最重要的。很多时候你可以构建软件。对你来说,这是不可思议的,但是对于不愿意花同样的钱去学习你所有的细微差别的典型用户来说,情况可能不是这样。
彼得·菲什曼:首先,专业知识是入门的基础。如果一开始就不了解你的用户,你就无法合理地理解驱动你的用户群的机制。这就是为什么你经常看到像 Airbnb 和优步这样的公司,消费公司,在那里工作的人只是对使用这些产品着迷。众所周知,布莱恩·切斯基在 Airbnb 呆了整整一年。没有公寓。这是发展领域专家的关键部分...是的,这是关于对客户的同情,但也是关于调整该领域的专业知识。我认识的每个在拼车行业工作的人都到处拼车。他们必须穿过街道,他们要一起乘车。我认为这不仅仅是在培养专业知识,也是在真正了解用户的心态。
Adel Nehme:鉴于你在初创公司和小型组织中工作的经验,当初创公司在招聘员工时不一定拥有如此庞大的用户群,你如何向初创公司灌输这方面的专业知识?
彼得·菲什曼:我在一家名为 Open Door 和 Open Door 的公司工作,当时我在凤凰城主要从事房屋买卖。我没有买卖的欲望。我在凤凰城没有自己的家,但我也没有在凤凰城买房的欲望。很明显,现在他们进入了很多很多更多的市场,而我没有能力在基本的购买过程中获得专业知识,因为我从未经历过。你并不总是有我和消费公司讨论过的情况,在那里你是一个数据科学家,他们说,脸书,你的狗一直在叫。我认为关键是一,显然,如果你能做到这一点,这是一个巨大的优势。如果你不能,我认为你真的想不成比例地投资与...类似 YC 的比喻,就是和顾客交谈,和顾客交谈,和顾客交谈。
彼得·菲什曼:所以我认为坐下来,观察客户,与客户交谈,与拒绝你的潜在客户交谈,所有这些事情都在试图增加你的知识。现在,相反的是,我现在销售的产品实际上是我工作了 20 年的产品。因此,你的专业知识并不一定是在你签署录取通知书的那一刻就出现的,你的专业知识,希望你利用了我 40 多年的专业知识。但除此之外,你希望能够真正了解你的客户,不管那个客户是不是你,不管那是不是详尽的研究。你不应该也想到你的头衔。我的标题说数据在里面。所以我不得不躲在角落里,做数据。我喜欢用的很多术语是“用你的脚”,这是指与你组织中面向产品或客户的人交谈。或者如果可以的话,和客户聊聊。
发展主题专业知识
Adel Nehme:太好了。稍微转换一下问题,如果我在 data analyst 进入一个新的垂直领域,无论是在初创公司还是在企业,我发展主题专业知识的最快方式是什么?
彼得·菲什曼:所以我认为相邻问题是有帮助的。我是说,我喜欢读内特·西尔弗的书已经很久了。我确实认为阅读那些以正确方式思考数据的人。我在 NFL 开始职业生涯时是一名统计学家,而不是一名球员。我一生都在研究体育统计学。我认为这与棒球的想法有很多相似之处,著名的棒球解决了很多类似的实际问题,比如找出什么与表现有密切关系,什么具有可预测性,等等。但是那件事深深地激励了我,我很兴奋,我对它充满了热情。我读了很多关于它的书。我认为如果在你喜欢的领域有分析。现在,对我来说,那是棒球和足球,现在有大量的材料。当时,材料数量有限。
彼得·菲什曼:但是如果你能发现那些热爱写作的人在你所热爱的领域里真的很有悟性,我认为你会发现很好的分析、思考问题的分解,这将适用于你将要做的任何学科。我的意思是,读迈克尔·刘易斯的《金钱球》,我最喜欢的书,和我给早期创业公司的想法是一样的,事实上这和 YC 给的建议是一样的,写下成功的等式,然后把它分解成几个部分,然后衡量这些部分,然后深入其中一个是不行的,分组,切割,总结。这就是你在任何地方开始分析的方式。但这肯定是几年前当他们试图与更大的市场团队竞争时 as 所做的。
Adel Nehme:太棒了。在我们结束对话时,我希望我们能思考一下未来,你认为哪些趋势将真正影响个人和组织处理数据的方式。如果您能列出一些您对现代数据堆栈特别感兴趣的趋势,以及它将如何影响数据驱动型组织,我会很高兴。
彼得·菲什曼:我认为我们触及了其中之一,那就是公民数据科学家的真正崛起。首先,你会看到一群聪明的人编写没有数据标题的 SQL。商业运营、营销运营,所有这些写 SQL 或 R 或 Python 或类似的东西在几乎完全非技术的角色中并不罕见。我认为,对于数据领域的任何人来说,这都是一个激动人心的时刻,因为数据现在向公司的许多许多更多的角色开放,许多许多更多的人有能力做一些事情,对他们的数据有点危险。我认为,对于试图为中小企业解决数据问题的公司来说,这是一个大趋势。
彼得·菲什曼:显然,我对其中一家公司莫扎特数据公司感到非常兴奋。这种趋势的另一部分让我感到兴奋,这也与莫扎特数据有关,它过去需要花费你雇用几名数据工程师和购买一系列昂贵的基础设施,你可能会花费 2 美元、3 美元、4 美元、5 百万美元来开始你的数据之旅。
彼得·菲什曼:今天,刷一张 6 美元的信用卡,你就可以去看赛马了。现在,它是计量的,你的账单变得很重要。您对数据的投资最终会变得非常重要。但事实上,你可以几乎不花钱就开始工作,这是令人难以置信的。这是一个巨大的差异。所以,如果你考虑一下公司的类型,这些公司是真正能够负担得起数百万美元数据投资的公司,因此他们可以拥有这种优势,是最大的公司。
彼得·菲什曼:你只能在最大的公司找到工作,因为那些公司有数据团队。这些公司利用了数据,能够有效地利用他们的规模并应用这些数据见解。今天,这正越来越早地成为桌面赌注。因此,越来越多像我们这样的公司,不仅仅是我们,而是像我们这样的公司,正在真正授权和支持中小企业使用数据基础架构,这种类型的数据工具在市场上我看到得更多。事实上,一般来说,我发现在有十几个真实来源之前,数据堆栈在下游实际上更强大。这实际上有点自相矛盾,实际上预算越紧张,就越有可能最终得到更紧凑的数据堆栈。
行动呼吁
Adel Nehme:太好了。我尤其喜欢第一种趋势,这是我们在 Data Camp 中明确看到的工作混合以及数据技能在传统角色中的出现,如财务、营销等。最后,彼得,我今天和你聊得很开心。在我们结束之前,你还有什么最后的行动要求吗?
彼得·菲什曼:是的。很明显,我支持许多人的数据之旅,我们喜欢在不到一个小时的时间内帮助小公司开始他们的数据之旅,并运行他们的数据基础架构,而不需要任何数据工程支持。如果你对此感兴趣,我们很乐意在莫扎特数据公司与你交谈。所以我是【电子邮件保护】
Adel Nehme:太棒了。非常感谢你,彼得,参加播客。
斯坦福 2022 年人工智能指数报告的要点
斯坦福大学的海研究所旨在以人为本的方式研究人工智能,其灵感来自人类思维的深度和多样性,并关注其对社会的道德影响;他们的任务是使用人工智能来增强人类的能力,而不是取代它们。
由该机构在学术界和商界的领先专家研究和撰写的第五期年度人工智能指数报告展示了过去一年人工智能领域最新趋势背后的数据。这份报告长达 230 页。在本文中,我们概述了报告每一章的要点。
请继续阅读,了解哪些国家在人工智能方面取得了最大的进步,全球人工智能工作的最佳地点,人工智能监管的状况等等。
第一章:研究和发展
章节摘要
人工智能是一个热门商品,因此去年进行了广泛的研究和开发。本章试图量化学术机构、政府组织和行业的研究和发展。
该报告从会议论文、期刊文章、研究论文和专利等公开来源收集了以下数据集。它还研究了开源仓库中的 GitHub stars,甚至是会议出席情况。这使得人们可以鸟瞰人工智能研发如何在世界范围内发展。
主要亮点
美国和中国是同志
在研究人工智能领域的国际合作时,尽管两国之间存在政治分歧,但从 2010 年到 2021 年,美国和中国在人工智能出版物上的合作数量最多,自 2010 年以来增加了五倍。第二紧密的伙伴关系是英国和中国。
中国在出版物方面处于领先地位
中国出版了数量最多的出版物、期刊、会议和知识库,目前在人工智能研究活动中处于领先地位。
出版的期刊达到了历史最高水平
2021 年,所有发表的 AI 文献中,51.5%是期刊(即研究论文)。作为一个普遍趋势,人工智能期刊和知识库正处于历史最高水平。然而,自 2018 年以来,举办的会议数量一直在下降。
发展最快的研究领域
自 2015 年以来,模式识别和机器学习方面的出版物增加了一倍多。2021 年,每个领域分别发表了约 52,000 篇和 40,000 篇研究论文。
跨部门合作
从 2010 年到 2021 年,非营利组织和教育机构制作了数量最多的跨部门人工智能出版物。接下来是私营部门和教育机构之间的跨部门合作,其次是政府和教育机构之间的合作。
人工智能专利创历史新高
随着人工智能的发展加速,更多的研究人员和科学家争相保护他们的工作,专利申请量以 76.9%的年增长率复合增长。
人工智能知识库:共享人工智能研究的新方式
发表关于 arXiv 和 SSRN 的预同行评审研究已经成为人工智能研究人员分享他们的发现的一种流行方法。在过去的 12 年里,人工智能知识库出版物的数量增长了近 30 倍。
流行的开源人工智能库
该报告比较了过去七年来流行的开源人工智能库 GitHub stars 的总数。tensor flowGitHub 明星最多,其次是 OpenCV 、 Keras 、和 Pytorch 。其他 40k 星以下的热门库还有 faceswap 、 100-Days-Of-ML-Code 、 AiLearning 。
第 2 章:技术性能
章节摘要
本章跟踪计算机视觉、自然语言处理、语音、推荐、强化学习、硬件和机器人技术中各种模型的进展。本章试图使用常用的模型基准和 10 年间的专业调查来量化这些模型的性能。报告中使用的一些基准如下:
| 计算机视觉图像&视频 |
| 机器学习问题 | 使用的基准测试 |
| 图像分类 | ImageNet:前 1 名和前 5 名的准确性 |
| 深度假货检测 | face forensics ++ Accuracy
Cele b-DF:曲线下面积分数(AUC) |
| 语义分割 | 城市景观挑战:平均交叉联合(IOU) |
| 活动识别 | 动力学-400,动力学-600,动力学-700 数据集:最高精度 |
| 目标检测 | [上下文中的公共对象] COCO-TEST-DEV:平均精度 |
| 语言 |
| 机器学习问题 | 使用的基准测试 |
| 英语语言理解 | 强力胶:分数,1.1 班和 2.0 班:F1 分数,需要逻辑推理的阅读理解数据集(RECLOR):准确性 |
| 文本摘要 | ARXIV:红色-1,发布日期:红色-1 |
| 自然语言推理 | 斯坦福自然语言推理溯因自然语言推理 |
| 推荐 |
| 机器学习问题 | 使用的基准测试 |
| 商业推荐 | MOVIELENS 20M:标准化折扣累积【电子邮件保护】 |
| 点击率预测 | 标准:曲线下面积分数(AUC) |
| 强化学习 |
| 机器学习问题 | 使用的基准测试 |
| 街机游戏 | ATARI-57:平均人类标准化分数
PROCGEN:平均标准化分数 |
| 人类游戏:国际象棋 | 国际象棋软件引擎:ELO 分数 |
主要亮点
大数据是成功的关键
大型训练数据集是构建高精度成功模型的关键。几乎所有具有数百万个参数的最先进模型都是在大型数据集上专门训练的,以获得良好的结果。在这方面,大型科技公司拥有优势,因为它们拥有大量数据。
负担得起的人工智能
所有这些年的创新都得到了回报,因为普通人现在可以轻松地建造大型模型。自 2018 年以来,训练一个图像分类器的成本下降了 63.6%。此外,训练模型所需的时间提高了 95%。培训时间的缩短是成本降低的一个原因。其他因素,如专用云服务、高效的开源软件包和人才的可用性,也有助于降低成本。
廉价的机器人手臂
根据人工智能指数团队开展的一项调查,机器人手臂的价格有明显的下降趋势。2017 年,机械臂的中值价格为 42,000 美元,但在 2021 年,该成本下降了近 50%,为 22,600 美元。
聚焦医学影像
根据该报告,计算机视觉研究正朝着更加面向用例的应用方向发展,如医学成像。从他们的数据集,人工智能指数发现,使用 Kvasir-SEG 医学成像数据集和 CVC-ClinicDB 的研究显著增加——2020 年,只有 3 篇论文使用该数据集,而 2021 年有 25 篇相关出版物。
人工智能仍然缺乏语言技能
即使 SuperGlue 和 Squad 等模型已经在阅读理解等相对简单的任务上超过了人类,但对于溯因自然语言推理(aNLI)等更复杂的语言任务,AI 模型仍远未达到人类水平的熟练程度。
一般强化学习的改进
在过去的 10 年里,人工智能已经能够熟练地完成狭窄的强化学习任务,例如下棋。然而,在 2021 年,在更一般的强化学习任务方面有一个显著的趋势,例如 Procgen,这是一个强化学习环境,测试人工智能学习可概括技能的能力,由 OpenAI 在 2019 年发布。
第三章:人工智能技术伦理
章节摘要
毫无疑问,人工智能在过去几年里为企业创造了巨大的价值。然而,随着这些机器学习模型的生产化,它们的使用暴露了 AI 中偏差的一些最重要的缺点。在许多情况下,人工智能模型使用真实世界的数据进行训练,其中包含某些社会偏见。当机器学习模型围绕有缺陷的数据建立时,这些偏差会进一步放大。
本章试图通过为各个领域(如自然语言和计算机视觉)提供深入的基准来量化消除偏见的进展。使用的一些基准可以在下面找到:
| 自然语言 |
| 道德问题 | 基准测试 |
| 自然语言中的毒性 | 透视 API 真实毒性提示 |
| 刻板印象偏见 | 立体组按模型大小评分
乌鸦对 |
| 性别偏见 | Winogender Winobias
T5WINOMT |
主要亮点
人工智能伦理成为主流
关于人工智能模型公平性的研究增加了许多倍——从 2014 年开始,出版物数量同比增长了 71%。各种商业模型的结果中的偏见导致这些模型在现实世界的应用(如信用卡评分)中不公平地歧视特定的子群。因此,它引起了学术研究人员和商业公司对公平机器学习模型的极大兴趣。
大型语言模型是有偏见的
拥有数千亿参数的巨大的最先进的语言模型,如 GPT-3,在基于语言的任务中已经变得非常成功。这些模型背后的技术创新是应用具有注意力的变压器的双向训练。然而,新的数据显示,这些大型模型更容易从其大量的训练数据中产生偏差。
多模态模型更倾向于偏向
与大型语言模型类似,像 DALL E 2 这样的多模态语言视觉模型展示了一系列不同的能力,因为它们将文本和图像作为单个数据流进行了大规模训练。这不仅产生了从文本提示生成的顶级真实感图像,还产生了反映社会陈规定型观念和偏见的输出。
第四章:经济和教育
章节摘要
本章考察了人工智能对经济和教育的影响。该报告从 Linkedin、计算研究协会、麦肯锡、Netbase Quid 和 EMSI 燃烧玻璃公司收集了公开可用的数据。它还研究了人工智能对就业的影响,包括招聘、劳动力需求和技能渗透。
主要亮点
人工智能是高投资
2021 年,人工智能初创公司融资 935 亿美元,是 2020 年融资额的两倍。然而,新资助的人工智能创业公司数量从 2019 年的 1051 家减少到 2021 年的 746 家。2021 年有 15 轮 5 亿美元或以上的投资。
美国正在押注人工智能创新
美国对人工智能的私人投资最多,新投资的人工智能公司也最多,分别比第二名中国高出近两倍和三倍。
投资优先考虑云
云数据管理和处理领域的公司,如 Databricks,获得了最多的私人资金。亚军是医疗保健和金融科技。
人工智能工作的热门地区
从 2016 年到 2021 年,新西兰、香港、爱尔兰、卢森堡和瑞典的人工智能职位空缺增长最快。
美国境内的人工智能工作范围
硅谷所在地加利福尼亚州的招聘数量最多,是第二名德克萨斯州的 2.3 倍。然而,与美国的整体职位发布数量相比,华盛顿 DC 拥有最多的人工智能职位发布。
人工智能是计算机科学博士中最受欢迎的专业
过去十年,计算机科学博士中最受欢迎的专业是机器学习/人工智能。2020 年每五个博士毕业的 CS 学生中就有一个是 AI 专业的。
第 5 章:人工智能策略和治理
章节摘要
本章分解了影响全球人工智能的立法和法规。它着眼于不同国家和地区如何努力适应人工智能技术,同时将人民的福祉作为核心焦点。研究人员研究了全球的政策制定,并量化了提到人工智能的提案和通过的法案。
主要亮点
越来越多的国家正在规范人工智能的使用
该报告分析了 2016 年至 2021 年在 25 个国家通过的人工智能相关法案(包含人工智能作为关键词)的数量。报告显示,在过去两年里,通过的与人工智能相关的法案数量急剧增加。西班牙、英国和美国通过的人工智能相关法案数量最多,各有 3 项。
美国率先提出人工智能相关法案
美国立法记录显示,监管人工智能的提案数量急剧增加。2021 年,美国的立法提出了 130 项法案。然而,其中只有 2%被通过成为法律。
美国州级人工智能立法
在美国,围绕人工智能的立法已经在全国范围内得到考虑,50 个州中有 41 个在 2012 年至 2021 年期间提出了至少一项人工智能相关法案。提出人工智能法案最多的前三个州:
- 马萨诸塞州(40)
- 夏威夷(35)
- 新泽西(32)
民主党与共和党在人工智能上的较量
在美国,州级人工智能立法数据可以通过政党赞助进一步细分,数据显示民主党人比共和党人更支持人工智能立法。多年来,这一差距进一步加大。2021 年,民主党比共和党多发起 39 项法案。
大赦国际在全球立法听证会上提到
AI Index 报告分析了 2016 年至 2021 年 25 个国家以“人工智能”为关键词的口头记录听证会。人工智能的提及次数在过去六年中增长了 7.7 倍,到 2021 年达到 1323 次。
跟上人工智能
人工智能领域正在不断发展,全球数百万专家正在夜以继日地工作,以保持这一现实。为了进一步了解人工智能及其进展,你可以查看下面的更多资源。
事件回顾:发展一个人工智能文化国家
如果您想了解更多信息,您可以点击观看完整的网络研讨会。
2017 年 6 月,AI Singapore 成立,其使命是在新加坡建立人工智能能力,通过人工智能创造社会和经济影响,培养人工智能人才,并创建一个充满活力的人工智能生态系统。建设一个人工智能流畅的国家包括开发工具,使公民能够成为人工智能意识,人工智能素养和人工智能专家。在网络研讨会期间,AI 创新总监 Laurence Liew 和 AI Singapore AI 创新高级副总监 Koo Sengmeng 思考了 AI Singapore 如何成功推出覆盖新加坡社会各阶层的国家技能提升计划。在讨论中,出现了三大主题:
建设充满活力的国家人工智能生态系统的支柱
为了实现其建立一个充满活力的人工智能生态系统的使命,人工智能新加坡公司的核心活动基于五个主要支柱
建设一个人工智能流畅的国家,人才培养是关键
2017 年 6 月,作为其人工智能创新支柱的一部分,AI Singapore 推出了一项名为“ The 100 Experiments ”的计划,旨在创建 100 个不同的人工智能项目。主要的挑战是为项目雇佣合适的技能和人员。与脸书、谷歌和微软等大型科技公司的竞争导致新加坡人才短缺。作为一种解决方案,AI Singapore 专注于招聘对学习人工智能技能充满热情但没有机会获得现实世界经验的工程师。工程师将经历 9 个月的学徒计划,这将使他们获得相关的经验,以承担未来的项目。
使用 DataCamp 提升技能
AI 新加坡的目标之一是揭开 AI 的神秘面纱,让每个人都可以使用它。在早期,他们会举办一个长达 3 小时的名为“AI for everyone”的研讨会。由于研讨会的成功,他们看到了进一步提供高质量人工智能课程和培训的必要性。这种需求促使他们与 DataCamp 合作,这使他们能够扩展他们的学习计划,并将其提供给任何感兴趣的人。Laurence 解释说,由于“今天学习,明天应用”的方法,DataCamp 已经成为他们计划的一个关键部分。他进一步提到,“我喜欢 DataCamp 组织课程的方式。你看一个短视频,然后直接应用这些技能。考虑到 AI Singapore 的客户目标是每天工作 8 到 10 个小时的专业人士,他们没有精力耐着性子看完长长的视频教程,学习一项新技能。然而,通过 DataCamp 方法,AI 新加坡的项目完成率达到了 30-40%。
“Datacamp 今天要学,明天要做”——新加坡人工智能创新总监 Laurence Liew
推广全国技能提升计划的最佳实践
在推出全国性的培训项目时,每个公民都面临着不同的挑战。包容性和可及性是 AI 新加坡成功的关键因素。
保持包容性计划
Koo 解释说,AI Singapore 不是一个人工智能人才发展计划,相反,它是一个世代发展人工智能能力计划。他们正在努力让任何人参与进来,不管他们的年龄、性别或社会地位,因为每个人都必须有平等的机会,并成为有文化的人工智能。此外,由于新加坡的语言多样性,AI for Everyone 计划已被翻译成英语、普通话和马来语。
“我们希望确保社会各阶层,无论年龄、性别、经济地位如何,都能接受最优质的人工智能教育。”— Koo Sengmeng,AI Singapore 人工智能创新高级副主任
Koo Sengmeng 还讨论了 AI Singapore 如何努力超越语言,为所有年龄段的人设计学习计划,从儿童到工作专业人员和老年人。最近与学校的合作使他们能够为学生开发人工智能。通过遵循 DataCamp 的方法,他们将 AI for Everyone 程序转换为小型视频,使其可以在线访问。当新冠肺炎登陆新加坡时,他们在网上有一整套学习工具包,任何学校都可以访问。通过将该计划扩展到学校,AI Singapore 已经能够总结出一些共性和差异,这些在设计全国性计划时需要考虑:
- 一个共同的基础对所有年龄段都非常重要。这可以通过标准化常用术语来实现。
- 开发一种心理叙事,将人工智能定位为一种工具,它不应该被恐惧。
- 继续强调创造道德的人工智能解决方案。
- 根据不同学习者的需求,将技能融入情境中。这种背景将使数据素养和流畅性成为一个强大的基础。
- 让学习体验变得轻松、顺畅。
为什么道德必须成为课程的一部分
劳伦斯强调,数据偏差确实很重要,但这并不是什么新鲜事。人类倾向于得出有利于特定结果的结论。出于这个原因,学生们需要在课程期间至少学习一门人工智能道德模块。此外,AI Singapore 一直与行业专家合作,这使他们能够提高对潜在的边缘道德问题的认识。
构建一个涉及每个公民的人工智能叙事
辜提到,为一个国家建立一个提高技能项目的最重要的因素之一是让公民为此做好准备。为了让这个项目成功,许多职业人士和孩子需要具备人工智能意识。此外,与其他政府机构的合作是关键,因为没有一个机构可以独自实现人工智能国家。劳伦斯进一步强调,如果行业没有意识到,公民不接受技术和人工智能,你不能只关注学术研究人员。国家计划需要确保它们能够让公民掌握数据和人工智能。
AI 新加坡如何看待学习的未来
劳伦斯解释说,人工智能新加坡公司设想对当前的学习环境进行彻底的改变。学校需要更有活力,因为技术的快速发展迫使他们重新适应他们教授的技能。当然,英语或数学等基础课程可能不会有太大变化,但总体而言,学校感受到了加快发展和教授行业相关技能的压力。Koo 提到,“这个行业说你需要培训你的学生,这样他们就可以更快地运用他们的技能”。新加坡的一些机构正在引领这一进程,因为他们希望允许学生设计自己的模块,这样他们就可以学习自己热爱的东西。劳伦斯将其总结为“追求你的爱,而不是机构强加结构化的课程路径,这种路径可能并不适合所有人”。数字化和人工智能的采用进一步加速了这种转变。
佛罗伦萨·南丁格尔:数据可视化的先驱
数据可视化经常与商务会议和闪亮的董事会会议室联系在一起,但它的起源非常不同。虽然很难确定数据可视化的唯一发明者或来源,但其先驱之一是一位在英国广受赞誉的现代护理创始人:佛罗伦萨·南丁格尔。
从 21 世纪的角度来看,医院应该干净卫生的想法似乎是理所当然的。然而,在维多利亚时代,由于各种医生和护士的工作,如南丁格尔本人,改革尚未实施,情况正好相反。1854 年 10 月,南丁格尔作为一名军医被派往伊斯坦布尔。在这里的军事医院结束是它自己的一种死刑判决:床有肮脏的床单,经常在不同的居住者之间更换和清洗,到达完整医院的士兵将不得不与住院的老鼠分享同样肮脏的地板。结果,这些医院夺去的生命是战场的 10 倍。所有这些在当时都被认为是正常的:许多有影响力的政治家和官员,包括英格兰的首席医疗官,都认为传染病导致的死亡是不可避免的,不良卫生条件与这些死亡之间没有联系。
南丁格尔确信提高护理质量将减少这些死亡,并以照料士兵而闻名,被称为“拿灯的女士”。她关心他人的天性继续被载入史册,但这个故事中不太为人所知的一面是南丁格尔改进了簿记制度。南丁格尔从小就对统计有着浓厚的兴趣,当她发现医院已经失去了对士兵死亡的记录时,她就指派特定的人做记录。这对她返回英国将是无价之宝。
南丁格尔试图推动广泛的医疗改革,觉得她在土耳其的成就还不够。作为变革故事中的常态,她将不得不面对怀疑者——比如首席医疗官——她自己也知道这一点。
她在战争期间收集的数据和之后制作的图表是她的武器。她理解,公务员和公众的目标受众更容易理解可视化,而不是数据表:
“印刷表格和全包双栏,我不认为有人会读。只有科学家才会看报告的附录。这是给庸俗的公众看的。”
*在南丁格尔的时代,庸俗这个词会被理解为普通的意思。
她最著名的可视化作品是她早期制作的:克里米亚英军死亡人数及其原因的玫瑰图。它通过色彩设计和图案展示了医院死亡人数的减少将会挽救成千上万人的生命。基础数据的收集和可视化过程对南丁格尔也是一个启示:在政府于 1855 年 3 月派出一个卫生委员会清理医院的饮用水和通风设备后,士兵的死亡率大幅下降。在她后来的出版物中,她非常重视改善卫生。
南丁格尔在战争期间已经是一个标志性的人物,他的作品在读者中非常受欢迎,从普通市民到维多利亚女王本人。这是首次使用数据可视化说服决策者进行社会改革的案例之一。由于这些努力,军队医院的卫生状况得到了显著改善。到 19 世纪末,他们的平均死亡率已经下降到平民医院的一半,而在此之前,平民医院的平均死亡率一直较高。南丁格尔将继续利用她的影响力和对数据的热情,在世界各地和各种场合推动医疗改革,从印度的产科病房到美国内战中的医生帐篷。
这是数据可视化用于说服决策者进行社会改革的最早实例之一。
在 Python 、 R 、 SQL 、 Tableau 、 Power BI 甚至计算机本身存在之前,南丁格尔是一名数据科学家。在今天这个时代,只需要几分钟就可以收集大量的数据并从中构建图表。然而,没有改变的是使用可视化来推动数据素养的基本概念:医疗保健组织直到今天仍然是可视化驱动的,广泛使用 R 和 Python 来改善患者护理和创建更健康的社会。
就像南丁格尔用一种他们容易理解的方式向公众发布她的数据集一样,可视化仍然是数据民主化的一个有价值的工具。
如果您想提高可视化技能来交流数据见解,我们可以提供:
- 可视化软件包上的课程包括: Matplotlib 、 Seaborn 、 Plotly 、 ggplot2 和 lattice 。
- 可视化工具中的课程,如电子表格、 Tableau 、 Power BI 。
- 现实世界的医疗保健项目,包括 R 的预期寿命和 R 的新冠肺炎病毒传播。
- 一个项目涉及使用 Python 来模拟另一位著名的数据驱动的维多利亚医生:约翰·斯诺博士的工作。
来源:
- https://www . science news . org/article/Florence-niddinger-生日-力量-可视化-science
- https://medium . com/nightingale/Florence-nightingale-is-a-design-hero-8 BF 6 e5f 2147
- https://www . science news . org/article/Florence-nightingale-激情-统计学家
- https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2920984/
- https://www . ASTMH . org/ASTMH/media/Documents/Thomas-Mackie-Presidential-address . pdf
- https://www . Smithsonian mag . com/history/surviving-history-infograph-180959563/
您的团队可以开始利用数据科学的四种方式
受实现数据驱动这一难以实现的目标的驱动,组织一直在努力积累数据、构建基础设施和吸引高技能人才。考虑到数据经常被吹捧为解决无数问题的灵丹妙药,这些组织正朝着正确的方向前进。
然而,拥有合适的工具和人才并不能自动证明一家公司是数据驱动型的。成为数据驱动的最大障碍在于建立数据文化,在这种文化中,数据科学被每个人视为解决业务问题的方法。事实上,任何渴望成为数据驱动的组织都需要首先培育一种数据文化,方法是培养组织范围内的数据流畅性,让每个人都具备执行数据任务所需的技能,从而超越自己的角色。这种思维模式的根本转变给公司实现数据驱动的目标带来了相当大的挑战。事实上,根据 2018 年 Gartner 首席数据官调查,35%的首席数据官认为低数据流畅性是从大规模数据中提取价值的最大挑战。
成为数据驱动型和大规模利用数据科学的好处数不胜数,并被广泛记录在案。下面是数据科学的四个领域,组织可以快速采用这些领域来开始从数据中提取价值,并通过具体的使用案例进行说明。
1.通过数据可视化快速简洁地交流复杂的见解。
交互式数据仪表板已变得越来越普遍,因为它们允许利益相关者轻松访问最新信息。
仪表板的用途非常广泛。它们可以是公司长期北极星指标的望远镜,也可以是专注于短期运营细节的显微镜。无论哪种方式,它们都允许组织扩展其数据驱动的决策。如今,许多无代码商业智能工具,如 Tableau 和 PowerBI 都以直观的拖放界面来构建强大的仪表板而自豪。另一方面,基于流行编程语言构建的开源包,如 Python 的 plotly 和 R 的 Shiny ,在构建高度可定制的交互式可视化时,为组织提供了低门槛。
2.通过分析历史数据做出更好的决策
数据驱动型公司描述、总结和了解其历史表现,并利用它来指导决策,使 it 部门能够加倍努力,纠正不可行的做法..德勤(Deloitte)的一项调查发现,大约一半的公司声称,分析的最大好处是实现更好的数据驱动决策。此外,62%的公司表示数据对于推动业务战略非常重要。显然,数据正日益成为企业工具箱中不可替代的工具。
数据驱动的决策制定可以保持并增强组织相对于竞争对手的竞争优势。例如,购物篮分析可以帮助实体零售商更好地优化实体空间,为客户创造更好的购物体验。营销人员可以分析历史电子邮件点击率,以评估电子邮件营销活动的成功。财务分析师可以将时间序列分析应用于他们的历史数据,以优化预算规划。
当数据量很小时,这种对历史数据的分析可以在 Microsoft Excel 和 Google Sheets 等电子表格工具上高效地完成。随着数据的增长,使用像 R 和 Python 这样的开源编程语言可以最有效地进行分析。
3.用统计思维补充现有的专业知识
统计学可以用来简明扼要地总结大量数据。统计数据的基础是汇总统计数据,它代表平均值(如均值、众数和中位数)和与平均值的偏差(如标准差和方差)。这些汇总统计数据是箱线图等工具和相关系数(衡量两个变量之间关系强度的指标)等指标的组成部分。例如,零售商可以计算购买产品之间的相关性,以优化交叉销售活动。在推出新产品功能或改变产品定价之前,市场研究人员可以利用联合分析来确定客户偏好的理想组合。
受控实验可以帮助公司隔离变化的影响,在两个指标之间建立明确的因果关系,并做出更好的决策。基于统计学的基础,受控实验提供了一种相对简单而严格的方法来验证或拒绝主题专家的直觉。受控实验的一个简单例子包括 A/B 测试电子邮件主题行,并选择点击率最高的一个。在 AirBnB,只有当一项实验最终表明最高价格过滤器的变化导致转换率增加时,这种变化才会对所有用户实施。在 Shutterstock,当的实验提供了强有力的证据证明这种改变会降低转化率时,删除搜索页面图像水印的想法被否决了。
4.利用机器学习进行预测和发现新知识
公司可以利用过去的数据,通过机器学习对未来做出预测。例如,通过利用监督学习,一种训练算法对数据进行分类或用标记数据预测结果的技术,任何组织都可以根据客户的历史活动预测哪些客户最有可能流失。在金融建模中,交易公司可以使用股票的历史价格来预测未来价格。
与监督学习相比,非监督学习是一种可以被对原始数据集知之甚少的公司用来探索其数据的技术——即使它不知道它在寻找什么。聚类是无监督学习算法的一个示例,它将数据分类到未预先确定的类别中。例如,一家电信公司拥有关于其客户数据的宝贵数据,但尚未找到细分其客户的方法,可以使用无监督学习来识别具有独特特征的客户群。
无监督学习在寻找关联方面也很出色。在电子商务中,以“喜欢产品 X 的人也喜欢产品 Y”形式的产品推荐通常是发现这种隐藏联系的无监督学习技术的结果。这种产品推荐可以构成有效交叉销售策略的基础。
构建数据驱动的组织
显然,朝着数据驱动的方向迈进可以为组织带来许多潜在的好处。职能团队可以一起开始应用许多唾手可得的数据用例,前提是他们拥有开始应用的必要技能。这就是为什么 DataCamp for Business 为需要提高和重新提高员工数据技能的公司提供了一个互动学习平台。主题从数据素养、数据科学到数据工程和机器学习,超过 1,600 家公司信任 DataCamp for Business 来提升他们的人才技能。
获得为期一周的免费访问,并参加 XP 挑战赛
原文:https://web.archive.org/web/20221129041202/https://www.datacamp.com/blog/free-week-xp-challenge
什么是自由周?
DataCamp 致力于为每个人提供提高数据素养技能的机会。除了数据培训,我们还提供一系列免费资源,如文章、教程、播客和备忘单。
数据教育是我们的激情所在,在 11 月 7 日至 11 月 13 日期间,我们将为新老用户提供对我们整个 Learn Premium 平台的无限制免费访问。
免费周提供为期一周的无限制访问 DataCamp Premium 提供的所有内容,可供个人随时随地使用。因此,如果你想学习或发展你的编程技能,你可以免费开始。
这意味着在我们的免费周期间,任何人都可以访问我们的整个图书馆,包括 388 门课程、85 个项目、60 次练习和 23 次评估,涵盖 Python 、 R 、 SQL 、 Power BI 、 Tableau 、Julia 等等。不仅如此,为了确保您自信地结束一周的休假,您还可以访问以下资源:
什么是 XP 挑战?
您不仅可以享受为期一周的免费无限学习奖励,还可以在我们奖励的 XP 挑战赛中赢得现金奖励。随着您本周免费参加我们的高级课程,您可以在我们的 XP 排行榜上一路攀升,有机会赢得高达$3000 的现金大奖!你学得越多,你可能挣得越多。
什么是 XP?
XP 代表经验值。虽然你可以通过多种方式在 DataCamp,活动中获得经验值,但你只能通过完成课程在 XP 挑战赛中获得经验值。
因此,你完成的数据营课程越多,积累的经验就越多,赢得挑战的机会就越大!
XP 挑战赛是如何进行的?
我们的学习者喜欢极限编程挑战,这一次我们做了一些不同的事情。这个挑战是关于社区目标的。总的来说,我们的 DataCamp 学员需要在免费周的课程中达到 2.5 亿经验值的集体目标。
如果你达到这个目标,将有现金奖励。这意味着如果社区达到 2.5 亿 XP 的目标,我们将提供:
-
单日奖励250 美元,奖励单日在课程中获得最多经验值的个人。
-
一周内前 10 名学员的周奖
-
最高 XP 奖金获得者 -一等奖:1250 美元
-
二等奖:1000 美元
-
三等奖:750 美元
-
四等奖:500 美元
-
五等奖:400 美元
-
第 6-10 名:每人 300 美元
此外,如果社区在免费周结束时达到集体 5 亿经验值,我们将让 T2 的奖金翻倍。因此,每日获奖者将获得 500 美元,每周获奖者将获得高达 2500 美元。
从 11 月 8 日到 11 月 13 日,每日 XP 获胜者将在美国东部时间 11 月 7 日上午 9 点到晚上 11 点 59 分之间接受评估&。
每周获胜者将根据美国东部时间 11 月 7 日上午 9 点到 11 月 13 日晚上 11:59 这一周获得的经验值进行评估。请参见完整条款和条件了解更多信息。
我如何报名参加 XP 学习者挑战赛?
注册 XP 学习者挑战赛只需要两个步骤:你需要做的第一件事是登录或注册 DataCamp。其次,您必须确保您选择参加 DataCamp 的促销活动。
就这样,你就进入了游戏!请访问 XP 挑战页面了解更多信息。记住,你学得越多,获奖的机会就越大!
怎么才能赚到 XP?
你可以通过探索我们的课程来获得经验。目前有 388 门不同级别、主题和技术的课程。平均下来,只要上完 4 个小时的课程,就可以收集到 3000 到 5000 的 XP!
参加课程是探索各种学习主题和为评估做准备的好方法,同时可以批量收集您的 XP。
什么是 XP 加速器竞赛?
在 XP 挑战赛中学习和获得 XP 的同时,学习者有机会通过参加 XP 加速器比赛来提高他们的 XP 50,000 点。这是在 DataCamp Workspace 上托管的,为每个学习者提供了应用他们新获得的数据技能的机会。有关更多详情,请查看 XP 加速器竞赛页面。
急;只有 10 名获奖者将被选中!
我怎样才能知道 XP 总数是多少?
我们将在这篇博客文章的顶部更新社区 XP 总数,所以请确保您每天都查看这篇文章,看看总数是多少,以及奖品是否已经解锁。
11 月 13 日前免费使用
我们对 DataCamp Premium 为期一周的免费访问允许任何职业或教育背景的任何人学习和提升他们的数据读写技能。如果您刚刚开始您的数据素养之旅,我们的团队已经准备了教程和挑战来指导您完成我们的许多课程。
DataCamp 也是中高级数据从业者通过我们的无限资源提升数据技能的绝佳环境:
- 我们的数据分析师和科学家认证是向雇主展示你技能的绝佳方式
- DataCamp Jobs 搜索门户可以帮你找到你梦想的工作。完成一份个性化的简历,突出你的技能,让潜在雇主直接联系你。
- 数据营工作空间和项目是利用你的数据技能处理真实世界数据的绝佳工具。
如何注册
要注册我们的免费周,您需要访问我们的免费周+ XP 挑战页面。您只需输入您的电子邮件地址进行注册,您就可以开始学习并享受免费访问 DataCamp 的乐趣了!
免费周访问从美国东部时间 11 月 7 日上午 9 点开始,持续到美国东部时间 11 月 13 日晚上 11:59。
可以尝试的最佳课程
我们的包容性电子学习平台适合所有人:从没有数据素养背景的人到精通许多编程语言和数据技能的人。也就是说,下面是每个级别的示例课程列表,让您可以一窥我们全面的课程库:
初学者课程
中级课程
高级课程
宣布获胜者
我们非常期待这次挑战的获胜者。虽然每周每天都有奖品可供争夺,但我们只会在 2022 年 11 月 16 日下午 1 点(美国东部时间)之后宣布获奖者。关注我们的社交渠道,了解最新动态,不断学习!
立即注册,开始学习赢取大奖的方法!
2022 年数据科学常见问题
目录
- 数据科学工作有需求吗?
- 数据科学工作通常需要什么?
- 数据科学家赚多少钱?
- 开始学习数据科学的前提条件是什么?
- 学习数据科学需要大学学位吗,还是可以在线学习?
- 学数据科学需要多长时间?
- 数据科学家在编码方面应该有多精通?
- 成为一名数据科学家需要学习的最重要的编程语言是什么?
- 数据科学家需要什么样的数学背景?
- 我应该去哪里找数据科学的工作?
- 雇主希望数据科学家具备哪些技能和素质?
- 在寻找数据科学工作时,我应该记住什么?
- 在哪里可以找到我的数据科学课程和项目的数据集?
- 结论
近年来,数据科学已经成为世界上最吸引人、讨论最热烈、不断发展和竞争最激烈的领域之一。毫不奇怪,许多人都很好奇这个研究领域到底是什么,它对未来有什么看法,如何学习,数据科学家在日常工作中做什么,他们赚多少钱,以及你在哪里和如何才能找到这个领域的工作。
在本文中,我们讨论 2022 年数据科学最常被问到的问题。这些问题的答案将特别有助于对职业改变感兴趣的人,以及那些决定在大学毕业后获得第一个学位并考虑将数据科学作为潜在职业的人。
数据科学工作有需求吗?
随着现代技术的快速发展,目前对数据科学的需求非常高,而且这种需求只会越来越大。为了验证,只需在谷歌中键入“数据科学职位”,或者在 LinkedIn、Glassdoor 或 Indeed 等任何求职网站上搜索。你会被这个领域的大量工作机会淹没。
对于这种流行有许多解释。世界各地每天产生的数据量都在快速积累,每个企业都需要数据分析和预测建模来在当今竞争激烈的市场中保持活力和成功。任何领域的科学研究,只有收集到足够的史料,才能进行。换句话说,一个组织或科学收集的数据越多,它从数据中得出的预测就越可靠。
也就是说,与任何其他领域一样,数据科学在其存在的不同时期存在(并且正在存在)各种各样的“时尚”趋势:机器学习、深度学习、数据工程、大数据,甚至新冠肺炎数据科学。
数据科学工作通常需要什么?
广义而言,数据科学家收集和调查与特定业务或科学任务相关的数据,并从中提取有意义的见解和隐藏的趋势。他们使用机器学习和深度学习算法来建立预测模型,然后创建他们的发现报告,并将他们的结果传达给非技术股东。反过来,股东可以做出战略性的、数据驱动的决策来改善业务。
所有这些步骤都要求数据科学家是多技能的专业人士。特别是,他们应该拥有足够的编码工具知识,熟悉各种机器学习算法背后的数学原理,了解特定兴趣领域的业务领域的细微差别,遵循数据伦理,并具有出色的沟通技巧,以便向非技术观众清楚地解释复杂的想法。
以上是对传统数据科学家角色的完整描述。然而,由于这一职业相对较新,不同的公司可以对数据科学家的角色应该包括什么有自己的理解。例如,在某些情况下,数据科学家更像是数据分析师,专注于历史和当前数据的调查,而不预测未来的情况。在其他公司,数据科学家应该使用图形用户界面(GUI)应用程序来建立机器学习模型,所以他们实际上不需要编写任何脚本。最后,有时数据科学家意味着数据工程师,他们的主要任务是将原始数据转换为可用的形式,并设计和维护数据存储基础架构。
数据科学家挣多少钱?
与许多其他职业一样,这个问题的答案很大程度上取决于公司所在的国家,即生活水平。例如,根据 PayScale ,在撰写本文时(2022 年 2 月),美国一名数据科学家的平均工资为每年 97038 美元,而在这个职业需求也非常高的印度,这相当于每年 11521 美元的₹860,454。
在任何国家,影响数据科学家薪酬的另一个重要因素是他们的资历水平。再以美国为例,一名初级数据科学家的年薪为 76,213 美元,而一名高级数据科学家的年薪为 129,446 美元,几乎是普通数据科学家的两倍(实际上是)。
数据科学家的工资还取决于公司概况(小公司或跨国公司)、关注领域(商业或学术环境)和合同类型(永久或临时)。
你可以使用专门的网站,如实际上、薪级表和薪酬专家,查看你所在国家的数据科学家的平均薪酬和你的资历水平。您还可以研究其他数据相关职业的平均工资信息,如数据工程师、数据分析师和数据记者。
开始学习数据科学的前提条件是什么?
虽然对于数学家、统计学家和程序员来说,学习数据科学的过程可能会更顺利、更快,但这并不一定意味着数据科学职业完全不适合具有不同资质的人。事实上,有很多鼓舞人心的成功故事,讲述了一些人从完全不相关的职业进入这个领域,取得快速进步,现在快乐地工作。
然而,声称一个人开始学习数据科学没有任何先决条件也是不正确的。为了在研究中取得成功,您需要对数据及其背后隐藏的东西着迷,具有探索的心态,一定的创造力,以及学习数据科学的强烈动机。
学数据科学需要大学学历吗,还是可以在线学习?
虽然拥有一个数据科学的大学学位没有错,但你必须记住一件重要的事情:时间很重要。如果你最近刚从大学毕业,正在决定继续深造,那么一个扎实、基础良好的数据科学大学学位可能是一个很好的选择。相反,如果你是一个转行者,你可能不想在被雇佣前至少再花两年时间学习。
幸运的是,如果你属于第二类人,对你来说有一个好消息:你可以在在线训练营学习数据科学,达到足够的水平,可以被聘为数据科学家。此外,这种方法给你更多的自由来组织你的学习过程,管理你的时间,大量练习,并在你觉得准备好的时候加速你的进步。
在工作的世界里,你花多少时间学习数据科学或者你是否有世界级的证书都无关紧要。潜在雇主真正希望在技术能力强的候选人身上看到的是与感兴趣的工作职位相关的一系列经过证明的技能(通过项目组合来证实)。
学数据科学需要多长时间?
这个问题的答案取决于很多因素,比如你选择的学习方式(基于书本或基于视频的自学,在学校,新兵训练营,硕士项目等。)、您学习的课程、您准备投入多少时间来学习数据科学、您的初始背景等。平均而言,对于一个之前没有编码经验和/或数学背景的人来说,需要 7 到 12 个月的密集学习才能成为入门级的数据科学家。
一定要记住,只学习数据科学的理论基础,不一定能让你成为真正的数据科学家。无论您选择什么程序,您都应该注意练习您的技能,制定数据科学项目,创建您的项目组合,探索各个领域的数据科学用例,并尝试解决相同数据科学任务的替代方法。所有这些活动,如果勤奋和坚持不懈地进行,可能会相当耗时。然而,这是掌握您的数据科学技能和获得工作就绪的熟练度的最佳方式。
为了加快您的学习过程,请考虑选择在线自学计划,该计划的课程设置非常均衡,涵盖了数据科学最重要的技术和方面。这将帮助你有效地管理你的时间,决定学习材料的最舒适和最有效的方法,并允许你在任何有电脑和互联网接入的地方按照自己的速度学习。有了数据营,你可以从完全打包的职业轨迹中选择适合初学者的,专门的技能轨迹来提高特定技能,以及短期的课程来探索狭窄的主题。
一个数据科学家在编码方面应该有多精通?
虽然编码对于任何数据科学工作来说都是一项基本技能,但编程方面的专业知识并不是该领域入门的必备条件。毫无疑问,一个想要在数据科学领域找到工作的人应该熟悉某些编程语言和相关的技术工具,而雇佣数据科学家的公司通常需要这些技能。然而,数据科学家的编码工具包肯定不像软件开发人员或计算机科学家那样广泛。与解决数据科学任务相关的编程语言的选择也非常有限,学习其中一种语言的基本数据相关方法和技术可能是一个很好的起点。
数据科学不是一个纯粹以编程为重点的学科,而是一个广阔的研究领域,除了编码之外,还需要一系列不同的技能和能力,例如具有分析思维、理解统计数据、概率、线性代数、高效讲故事和业务领域知识。
要成为一名数据科学家,学习哪些编程语言是最重要的?
在数据科学中有三种广泛使用的编程语言:Python、R 和 SQL。
Python 是一种开源、面向对象的高级编程语言,最初用于计算机科学中的通用编程,但后来在数据科学中变得非常流行。它的主要优势是广泛的标准库和大量的附加模块,这些模块对解决数据科学任务特别有帮助。此外,Python 直观易懂,易学易用,可以在多种操作系统中运行,并且有强大的社区支持。
r 是一种流行的面向数据科学的编程语言和免费软件,在统计计算和数据可视化方面非常强大。就像 Python 一样,它提供了许多用于解决不同任务的数据科学和机器学习库,是操作系统友好的,并且具有出色的在线支持。然而,这种编程语言被认为不如 Python 直观。
虽然 Python 和 R 在功能上非常相似,但 SQL(结构化查询语言)用于不同的目的:查询关系数据库管理系统,如具有连接数据条目的表。SQL 有几种风格,都有相当相似的语法;其中一些是免费和开源的(例如 MySQL、SQLite、PostgreSQL)。
数据科学家需要什么数学背景?
首先,开始学习数据科学不需要任何数学背景。另一方面,如果你已经决定成为一名数据科学家,并准备为此付出努力,那么你不可避免地要熟悉一些与数据科学相关的数学概念。除了普通学校课程中教授的数学基础知识,你还需要微积分、概率、统计和线性代数的知识。
但是,这并不意味着你必须从头到尾学习上述科目。此外,大多数数学已经包含在数据科学工具和方法中,所以许多复杂的操作只是由机器在引擎盖下根据输入参数进行计算。数据科学家首先是一名科学家,因此他或她必须了解所有这些算法如何以及为什么在幕后工作,以便能够选择最佳算法,定义初始参数,并适当地调整它们。在数据营技能课程、职业课程和课程中,您将逐步了解所有必要的数学理论,这些理论适用于解决数据科学中的各种现实任务。
我应该去哪里找数据科学的工作?
第一个想到的地方是免费的工作列表网站。可以考虑使用这两个通用的求职门户网站( LinkedIn 、 Indeed 、 Google for Jobs 、simple Hired、 AngelList 、 Hired 等。)和数据科学小众工作板( KDNuggets 、 DataJobs 、亚马逊 Jobs 、 StatsJobs 等。).还有专门搜索远程工作的网站: Upwork , Remote , JustRemote ,我们远程工作。您还可以使用专门的工作板,例如外部连接,专门用于数据科学领域的远程工作。
除此之外,你可以尝试直接联系感兴趣的公司。找到他们的官方网站,探索其主页,职业页面和联系方式。阅读他们的价值观和使命,他们的业务看起来像什么,并考虑你如何才能成为这个组织的完美人选。有了这些信息,你可以给他们发一封附有你的数据科学简历的电子邮件。这种方法虽然可能更耗时,但比第一种方法更有优势,因为它能让你对公司表现出真正的兴趣,从而脱颖而出。
为了有更多的机会快速找到数据科学工作,参加数据科学活动和会议(现场和在线),在社交网络上与合适的人联系,以及与专业数据科学社区中的数据科学专业人员和学习者交流可能会有所帮助。在数据营,你会发现一个由数据科学爱好者组成的友好的社区,在这里你可以获得帮助和支持,并扩大在数据科学领域的联系。
雇主在数据科学家身上寻找什么样的技能和品质?
雇主通常期望数据科学家具备的最基本技能包括:
- 熟练掌握 Python 或 R(尤其是这些语言的流行数据科学模块)
- SQL 方面的能力
- 使用命令行的能力
- 对统计概念的理解,
- 数据清理、争论、分析和可视化技能
- 使用机器学习或深度学习算法的预测建模和模型估计
- 使用非结构化数据
- 讲故事
- 网页抓取
- 排除故障
这并不意味着任何数据科学职位都需要所有这些技能。要了解每个特定公司希望在数据科学家身上看到什么,您应该阅读相应的工作描述,并列出他们需要的具体技术技能和工具。
至于数据科学家必备的软技能,最受欢迎的是:
- 批判性思维
- 团队工作
- 商业领域知识
- 高效沟通
- 决策
- 多任务处理
- 灵活性
- 好奇心
- 创造力
- 满足紧迫期限的能力
在寻找数据科学工作时,我应该记住什么?
首先是要有一个准备好的项目组合。这对于那些在这个领域缺乏实际工作经验的候选人来说尤其重要。这样的作品集应该包括您在数据科学训练营或课程中完成的项目。此外,考虑多做 2-3 个项目,让你的投资组合与众不同。对于入门级的数据科学家或职业改变者来说,如果一开始你的投资组合包含混合主题和技术的项目,这是完全可以的。然而,当申请一个特定的工作职位时,试着弄清楚你的哪一件作品突出了该工作所需的所有技能中最好的一项。
下一个关键点是你的数据科学简历。在申请不同的工作职位之前,考虑创建一份主版本的简历,在其中放入关于你的教育、工作经验(即使与数据无关)、课程、训练营、项目、技术和软技能以及任何其他相关成就的所有信息。如果这个版本的简历很长,或者由多个部分组成,也不要担心。现在,无论何时你想申请一份特定的数据科学工作,你都可以使用你的主简历作为基础。简单地创建一个副本,删除所有多余的细节和部分,并根据职位描述为该职位量身定制简历。记住,根据每次提交的内容修改你的简历是你求职过程中的一个必要步骤。如果你需要更多关于如何创建一份优秀、专业的数据科学简历的技巧,你会发现这篇文章很有帮助。
你应该意识到的第三件重要事情是,你可能无法立即找到数据科学的工作。如果出现这种情况,不要气馁。如果你的求职过程需要时间,这是绝对正常的。不要让最终的拒绝让你沮丧,让你开始认为自己不是一个好的专家。相反,继续掌握你的数据科学技能,并尝试分析你的简历、项目组合和总体申请流程中可以调整的地方。如果你从你申请的任何一家公司得到了一些反馈,充分利用这些信息,改进你突出的弱点。
在哪里可以找到我的数据科学课程和项目的数据集?
实践你的数据科学技能(并向潜在雇主展示)的最佳方式是做数据科学项目。除了数据科学学校或训练营建议的项目,您可以考虑为您的投资组合创建一些独特的项目,使其脱颖而出。要做到这一点,您需要找到更多的数据集来进行分析并从中获得有价值的见解。幸运的是,有很多有用的在线资源,有很多免费数据集可供选择。例如:
- 最受欢迎的网站,包含数千个免费的真实世界或合成数据集,涵盖广泛的主题。
- UCI 机器学习库-最古老的在线存储开源数据集的地方之一,适用于机器学习。大多数数据集都相当干净、结构良好、记录良好,并且随时可供进一步使用。
- FiveThirtyEight–一个发布关于各种流行话题的交互式数据驱动文章的网站。更重要的是,它提供了用于这些文章的数据集,所以你可以很容易地下载并独立分析它们。
- 谷歌数据集搜索——一个基于关键词的搜索引擎,其工作方式与普通谷歌搜索相同,允许访问大量(超过 2500 万)免费公共数据集。
- 谷歌云平台——云存储,提供对各种来源的公共数据集和 BigQuery 工具的免费访问。每月前 1 TB 的数据是免费的。
- 世界银行维护着包含全球发展中国家各种统计信息的数据集。这些数据集可以在网站的不同部分找到。
- Quandl 包含大量免费和付费的经济和金融数据。数据集大多是干净的,结构良好的,可以用于机器学习任务。
- data camp Workspace–一个预加载数据集的在线 IDE,用于编写代码和分析数据,帮助您从学习数据科学转向从事数据科学。
结论
综上所述,我们讨论了 2022 年关于数据科学最热门、最热门的问题。希望这篇文章能帮助你解开“21 世纪最性感的工作”的一些秘密,并证明无论你的背景和最初职业是什么,成为一名数据科学家都是完全可行的。最重要的是要有足够的动力来激励你去学习,去实践,去不断前进。现在你应该有一个清晰的路线图,知道从哪里开始,如何学习数据科学,如何找工作,以及你可能需要培养什么技能和素质。如果你想更多地练习真实世界的数据问题, Datacamp 提供了广泛的项目选择,这些项目可以成为建立你自己的数据科学项目组合的良好起点。
FT 排名:DataCamp 被公认为 2022 年美洲发展最快的公司之一
DataCamp 连续第二年被评为美洲发展最快的公司之一。《金融时报》(FT)和全球领先的统计门户网站和行业排名提供商 Statista,Inc .将这一荣誉授予 2017 年至 2020 年期间复合年收入增长最高的公司。你可以在英国《金融时报》的网站上找到成长速度足够快的公司的完整名单,这些公司入选了 2022 年美国成长最快的公司。
DataCamp 的首席执行官兼联合创始人 Jonathan Cornelissen 将 DataCamp 的成功归功于对懂数据的角色的需求增加以及 DataCamp 平台的创新:
DataCamp 已经发展到为超过 1000 万会员和超过 2,500 家公司提供服务,帮助他们利用我们全新的基于云的 IDE Workspace 来弥合学习和工作之间的差距。乔纳森补充道:
2022 年会有什么?
我们不会就此止步。除了寻求在这一享有盛誉的排名中连续第三次排名之外,在 2022 年,我们将扩大我们的培训目录,为您带来新的 Power BI 和 Tableau 课程、MLOps,并在 Julia 中添加一项新技术。我们还在制作Workspace终极笔记本,用于在浏览器中分析数据,并发布我们新的data camp Jobs平台。
无论你是在提升技能、更新技能、找工作,还是想雇佣优秀的数据人才。DataCamp 可以帮助你在 2022 年取得成功。注册参加我们即将举办的 路线图网络研讨会 ,了解我们新的培训、工作空间和 DataCamp 工作平台的运行情况。
加入我们不断壮大的团队
DataCamp 的使命是为全球数据专业人士提供支持。如果你对改变全球人民使用数据的方式充满热情,你热爱协作,重视透明度,加入我们!
关于 DataCamp
我们是数据科学教育的领导者。我们的互动和自定进度学习、专家讲师和创新的数据解决方案让我们脱颖而出。我们已经帮助 1000 多万学习者和 2500 多个组织提高了数据素养,而我们才刚刚开始。
访问我们的 求职页面 ,找出你适合的位置!
全栈数据科学(抄本)
这是播客的链接。
介绍 Vicki Boykis
雨果:你好,薇琪,欢迎来到 DataFramed。
非常感谢你邀请我。
你在数据科学社区以什么闻名?
雨果:非常高兴你能来参加我们的节目。我真的很高兴能谈论你在 Python 教育、全栈数据科学、端到端数据科学方面的工作,这些东西实际上意味着什么,以及你在咨询方面的工作。在我们开始之前,我想了解一下你。我想知道您在数据社区以什么闻名。
可能首先也是最重要的,关于各种数据和编程相关事物的可怕双关语和迷因。次要的是内容。我的策略有点像 BuzzFeed,对吧?用迷因打击他们,然后在它们之间插入严肃的内容。
Vicki:我写了很多关于如何在 Python 中做具体的事情,如何在数据中做具体的事情的博客文章,然后只是谈论我们在数据社区中的一般情况,所以非常高水平的文章,谈论将复杂的概念分解成易于理解的类比的事情。
雨果:太棒了。我喜欢次要的是内容,主要的是糟糕的双关语和迷因。我不想让你为难,但是你说过或想到或听过的最糟糕的双关语是什么?
薇琪:他们都很糟糕。我有一系列双关语,基本上是我假装和一个电视制片人说话,向他们推销可能的节目或电影,所以这是一系列非常糟糕的推文。
雨果:我们肯定会在节目笔记中链接到这一点。这是首要的。次要的是内容。我想我应该提一下,就内容而言,你们也正在创建一个数据营课程。
是的,没错。我正在学习一门讲授 Python 面向对象编程的课程,特别是在数据设置的背景下。我将介绍如何创建对象,如何操作 CSV 文件,以及如何深入研究 NumPy 和 pandas 的内部机制,因此我对此非常兴奋。
雨果:太棒了。你之前也提到过,你现在所做的教育工作本质上是成为你开始时所需要的人。
是的。是的,所以互联网是一个相当大的地方,有很多资源,但如果你刚刚开始学习编程或刚刚进入数据科学,你能做的最好的事情是有一个面对面的导师或在你前面的人,你可以问问题。当我刚开始的时候,我真的没有那样的人,所以我的目标是成为那些刚刚进入这个领域的人的那样的人。
雨果:太棒了。实际上,DataCamp 本身也有类似的起源故事,我们的首席执行官 Jonathan Cornelissen,当他在研究生院时,他一直在寻找类似 DataCamp 的东西,但没有找到。他说,“好吧,等我读完研究生,我要做这个东西,”本质上来说。
是的。
你的职业是什么?
雨果:这是我们的几个起源故事之一。话虽如此,你能告诉我们你目前的职业吗?
是的,所以我是一名顾问。我在 CapTech 咨询公司工作。我们做很多不同的事情。我们公司一部分是经营管理咨询,一部分是深度技术咨询实践。现在,我根据项目范围同时从事数据科学和数据工程咨询。
Hugo:这听起来非常像全栈数据科学的想法,对吗?
Vicki:对,所以这个想法是,许多公司一开始没有建立基础设施来进行数据科学,因为数据科学实际上是一种成熟的产品。我们将进入,我们将构建这些管道,然后我们将进入数据科学方面,即创建模型并呈现这些结果。
雨果:太好了,我们稍后会讲到更多。特别是,我真的很有兴趣考虑建立管道的工作,这样做,但同时需要在组织内尽快展示价值。这很了不起...这是我们稍后将讨论的一些事情的一个小引子。
你是怎么进入数据科学的?
Hugo:在我们开始之前,数据科学很有趣,因为很多人有不同的途径,在某种意义上,所有的路都通向数据科学。我想知道你的旅程是什么。你最初是如何进入数据和数据科学领域的?
我想我来自一种非传统的,传统的背景。它有点在中间。我开始是一名主修经济学的本科生,我选择这个专业的原因是因为我不想主修英语,也不想主修数学,我喜欢经济学这两者的结合。我喜欢多用我的左右脑。那是我的本科学位。
在那之后,我实际上进入了经济咨询行业,这是非常罕见的,因为我不知道有多少人在大学毕业后专注于他们的专业,所以我想我是幸运的,或者在这种意义上可能是不幸的。那是我开始研究数据的地方。通常当你刚从大学毕业时,你会开始用电子表格做事情,所以我开始用电子表格做事情。后来我听说了一种新的很酷的免费编程语言,叫做 r。我接触了一点。我有几个基于分析的角色。然后我的最后一个角色是数据分析师,在那里我学习了 SQL。
Vicki:然后我厌倦了等待数据进入 SQL 数据库,这是我开始真正专注于学习 Python 和统计方法编程的时候,然后我成为了一名数据科学家作为我的下一个职位。与此同时,我决定我也想获得 MBA 学位,因为我对技术领导感兴趣。就硕士项目而言,我实际上没有统计学或开发背景,但我是通过工作领域接触到它的。
雨果:那真的很有趣。因为在考虑给有抱负的数据科学家的建议时,我和许多人交谈过,最重要的技能之一不是能够建立一个一千层的递归神经网络,而是能够在工作中学习,并在前进的过程中掌握新技能,听起来这是你旅程中不可或缺的一部分。
是的,我认为这一直对我来说很重要,因为在数据科学中有太多东西要学。在咨询行业,这也是主要技能之一,因为你永远不知道你将进入什么样的环境,也不知道客户需要什么。学习和广泛的技能。
雨果:太好了。我只是想知道,以你的经济学背景和 MBA 学位,这些对你作为一名数据科学家的工作有什么影响?你觉得你开发的技能和工具以及经济学和 MBA 的思维方式对你在数据科学领域的工作有用吗?
是的,所以经济学和计量经济学实际上非常接近数据科学,我认为这可能是数据科学的部分来源。例如,有很多假设检验。有很多统计学和计量经济学在进行。有很多像社会科学的方面,你有一个关于特别大规模的系统如何工作的假设,这是现在很多数据科学家做的,对吗?他们测试大规模的社交系统,如社交网络或平台,看看事情会如何表现,所以这是它的一部分。
你认为数据科学在哪些方面影响最大?
雨果:我们来谈谈你在咨询行业的工作吧。我假设您在各种不同的行业工作,但是根据您的经验,您认为数据科学对哪些垂直行业的影响最大?
这将是一个真正的咨询式的答案,但它真的取决于,它真的是一个广泛的、广泛的垂直市场。到目前为止,我在咨询生涯中关注的领域是电信、银行和医疗保健。只要正确实施,只要企业相信数据并将其视为优先事项,数据科学就会对所有这些领域产生影响或占有一席之地。
Hugo:在展示数据科学在这些行业中的价值时,你发现了哪些挑战?
维基:很多时候...我们可能稍后会谈到这一点,但很多时候,它甚至在建立管道,以达到您可以进行数据科学的地步,但很多时候,特别是在较大的公司中,我的公司主要与财富 500 强公司打交道,正在达到您可以证明您的假设或您说要做的任何事情,您的行动呼吁,实际上会导致业务变化的地步。
雨果:太好了。你能给出任何具体的例子吗?我指的不是公司的名字或类似的东西,而是电信、银行或医疗保健领域实际数据科学项目的具体例子?
维基:很多项目...因此,我所从事的每个行业都是如此。每个公司都希望能够衡量客户流失或客户离开或加入其平台的原因,尤其是追踪公司不开心的原因。对于较大的公司来说,这可能会产生大量的功能,而不是所有的功能都可以控制。例如,注册流程、计费流程、他们对你的服务或他们的服务的问题、接触他们的外部人员。你可以创建一个潜在导致客户流失的模型,但这不一定反映真实世界。我认为这也可以追溯到计量经济学,因为在计量经济学中,你试图创建一个整个经济的模型,但你真正拥有的是一个表示,因为你无法追踪所有的数据。
雨果:对,很好。这是一个很好的例子,实际上我最近思考了很多,今天早上也谈到了,事实上,特别是客户流失的例子,客户将业务转移到其他地方的可能性,是数据科学和决策科学的交叉点。因为你可以建立一个模型,它可以告诉你或近似世界上正在发生的事情,关于为什么客户在搅动,但它不会告诉你该怎么做,对吗?
Vicki:对,所以在我看来,最终是由数据科学家提出一些选择,清楚地提出他们对公司的看法,然后是公司前进的方式。这就是我们把它交给客户的原因。我们会推荐几个选项,但我们显然不会说,“这是你必须做的。”
雨果:太好了。在客户流失的情况下,我可以想象几种行动方案。第一种是,如果你认为一个客户会流失,联系他们,根据他们对你公司的价值,给他们一些优惠。另一个办法是,在他们打算大动干戈之前,尽量把它扼杀在萌芽状态。这些是你提出的建议类型,还是还有其他的?
是的。通常它是预防性的,或者你可以在他们即将流失时改变它,或者你可以创建预防性措施,以便他们可以在某个地方疏导他们的挫折感,例如,新的支持渠道。
数据科学中最常见的模式是什么?
雨果:太好了。在您在所有这些行业的工作中,您在这些行业的数据科学中看到了哪些共同的模式?
其中之一是,我想我们已经听过很多了,但是将数据收集到可以进行数据科学研究的程度总是需要 80%的工作。通常,当我们进入一家公司时,很多工作都是将数据带到我们可以进行数据科学的地方。工具的选择和了解业内其他人在做什么。这种理解最佳实践的需要。我们是否选择了正确的工具?这是业内其他人在做的事情吗?这是我们这个行业的人在做的事情吗?或者是那些对数据科学感兴趣的人,他们认为我们需要有人来帮助我们进行数据科学实践,我们实际上需要数据科学,我们实际上需要帮助来做出这些决定。那些可能是大的。
雨果:有意思。实际上,那里有很多让我想到的东西。首先,我想重点介绍的是它的大量数据准备工作,进入一种您可以使用它进行分析或数据科学工作的形式。你必须做的大量准备工作,你认为在未来 2 年、5 年、10 年内会有所改变吗?这些类型的东西会越来越自动化,有希望产品化吗?
有一部分,但最终我认为这只是数据的特征。因为通常除非你在制造业或其他相关领域工作,你所拥有的是人类生成数据,理解数据,定义它在商业上的意义,而这种数据总是杂乱的。尤其是在大型组织中,您可能有 5 个、10 个甚至 20 个不同的数据流。有时你有两个数据流。它们完全一样,只是有一点点不同。这种和解将一直存在。
Vicki:我确实看到最近越来越多的事情发生,许多组织呼吁更多的数据治理。在大型组织中,更多的元数据管理变得越来越重要。我认为,在过去 4 年左右的时间里,推动因素是将数据放入数据湖。怎么做不重要。它只需要都在一个地方,这样我们就可以用它做一些事情。现在的想法是,我们希望能够在数据湖中管理我们的资产。我们需要能够看到他们,代表他们,并让业务能够像 S3 桶或 Hadoop 集群或类似的东西一样进行清点。
雨果:太好了。你提到的我想讨论的另一件事是,你提到了找出行业最佳实践的趋势,以及其他人正在做的事情。我想讨论的是,在我看来,很多人...许多数据科学工作在许多不同的咨询小组、许多不同的组织中各自为政,许多人似乎在以多种方式平行地重新发明轮子。那也是你见过的吗?
是的,我认为这绝对是真的。我在我的几个项目中看到,真正成功的是组织或客户致力于集中所有这些东西。我在大型组织中看到的是一种叫做卓越中心的东西,在那里你有跨职能团队。你有工程师,你有数据分析师,你有数据科学家,他们都聚在一起谈论他们作为一个团队在做什么。我最近越来越多地看到这种结构。
最有效的数据科学团队结构是什么?
Hugo:这是你认为最有效的数据科学团队组织结构吗?
我想是的。如果可行的话,我强烈支持让任何给定的数据科学项目的所有利益相关者都在场。例如,如果你有大约 200 人要影响,可能不会,但我真的总是推动开发人员与数据分析师,更重要的是,与业务用户坐在一起。因为通常开发人员是流程的第一部分,而业务用户一直在下面。这就像一个电话游戏,开发人员构建了一些东西,放入某个仓库,放入仪表板。当它建立起来的时候,业务用户不一定总是想要它,也不能对它采取行动。我总是喜欢让所有的人都在同一个房间里。
Hugo:你对商业用户的数据素养的未来有什么看法?我们是否会越来越多地看到管理层、首席级人员和使用仪表盘的人越来越了解什么是数据以及数据是如何工作的?
我想是的。我对此非常乐观,不仅仅是因为对我来说这是工作保障,因为人们想要越来越多的数据。我确实相信大众媒体,或者至少是科技媒体,已经到了这样一个地步...我在《哈佛商业评论》(Harvard Business Review)或诸如此类的商业文献中也看到了这一点,现在许多高管都明白了数据驱动的必要性。通常在会见客户时,他们会说,“我们希望数据驱动。”我认为接下来的两到三年将会弄清楚这对他们来说意味着什么。
雨果:我想这意味着某种计算素养。我想这也可能意味着一些统计数据。你认为人们需要学习数学、线性代数、逻辑回归等基础知识吗,或者这是不是期望太高了?
不。我认为数据科学家有责任为不同的受众提供信息。如果你是一名数据科学家,并且你正在向其他数据科学家演示,你显然可以谈论细节,你在逻辑回归中的参数或你有什么。如果你和项目经理,尤其是高管交谈,你应该用一种非常不同的方式说话,你应该用一种他们感兴趣的方式说话。高管可能不会对你使用的算法感兴趣,但他们会对你的发现和你认为他们应该采取的行动感兴趣。我坚信应该用人们理解的语言与他们交谈。
全栈端到端数据科学解决方案
Hugo:我想稍微转换一下话题,谈谈您构建全栈端到端数据科学解决方案的方法。不过,在我们开始之前,我想知道您是否可以给我们一个电梯间推介或类似的东西,介绍一下全栈端到端数据科学是什么或意味着什么。
Vicki:对我来说,全栈基本上意味着构建一个数据科学产品。你从某种数据流开始,在某种环境下转换数据,然后输出一个模型并显示这个模型。对我来说,这是端到端的数据科学,这更像是一个产品,而不是一个项目,例如,我认为这是对特定模型的迭代。
Hugo:太好了,那么你构建这些解决方案的方法是什么?
我没有标准的方法。真的要看情况。我通常会在第一周左右来到客户的网站进行观察。我知道团队规范是什么,他们使用什么样的工具,他们的痛点在哪里。我变得很烦人,问了很多问题,做了很多文档。然后,我们通常从查看数据流入该团队或组织的位置开始,并查看我们可以留下哪些易于维护、可复制的内容,在这些内容中,您可以了解进入其中的模型,并且可以轻松地可视化输出。这是端到端项目的黄金理想。
雨果:太好了。你能给我举一个你最近参与的,你认为特别有价值的例子吗?
是的,所以我几年前做了一个项目,将预测建模能力构建到软件即服务平台中。这个客户有很多,比如说,很多他们想要预测的关于他们客户的事情。他们有描述的能力,但是他们没有预测的能力。我的工作是获取他们已经从客户那里获得的数据,将这些数据放入一个模型中,所以我使用了一个马尔可夫链模型,这个模型有点类似于为这个特定行业的页面浏览量建模。然后,我将其集成到他们现有的软件平台中。
Vicki:实际上,我的角色是,第一,吸收公司目前在其任务平台中收集的数据,分析这些数据,理解这些数据,因为之前没有进行过数据分析,找出哪种模型最适合用来预测,结果证明这是一个马尔可夫模型,因为,这种产品类似于页面视图,你可以预测这个人或客户的下一步行动。然后将该模型包装成您可以集成到他们的软件即服务平台中的东西。
Hugo:一旦这个模型投入生产,那么谁来负责维护它,并负责检查模型漂移?对于我们的听众来说,模型漂移是一种现象,例如,当你有一个生产化的机器学习模型时,它可能不会工作,例如,它可能不会在三到六个月后给出你期望的结果。那么谁负责这种类型的维护呢?
这取决于项目的类型。通常我们会和我们的公司一起做的是,我们会和客户一起工作一个月左右,然后监控这个模型,但通常我们会让它在客户端很容易改变,因为最终它是他们的。然后,我们必须确保它易于记录和易于更改,这就是为什么首先进来观察它是很重要的,就像我说过的那样,看看他们习惯使用什么工具集,他们使用什么编程语言,团队成员的统计技能集是什么,这样我们就可以将它传递给他们,而不是让它成为一个黑箱。
雨果:太棒了。这实际上是设定期望,以确保公司内部有人甚至有能力进行这种类型的维护。
数据科学通才
Hugo:当您阐述构建完整的端到端数据科学解决方案的过程时,我想到的另一件事是,这个过程中有很多步骤。能够作为一个人而不是一个拥有不同专业的团队来做这件事,这看起来就像你...要做到这一点,你需要成为一名数据科学通才。
是的,我想这是真的。总的来说,我讨厌宣扬数据科学独角兽的神话。我当然不是独角兽,但我确实认为有多面手和专家。特别是对于咨询业来说,如果你是一个多面手,如果你想成为一个多面手,这是有意义的,因为你可以做很多不同的事情。
Vicki:最近我在 r 中做了一些原型设计。现在我正在将数据导入 AWS。如我所说,我以前做过马尔可夫链建模。所有这些实际上都是了解客户需求的技能组合,能够找出如何进行研究,并到达您可以提供解决方案的点,而专家可能在特定行业的深度学习等方面非常非常了解。
Hugo:是的,你提到了 R,当然,在你的工作中隐含的是你使用 SQL。为了做你需要做的事情,我敢肯定你需要做一堆命令行的东西,你也用 Python 工作,所以有这种你用来完成工作的一整套工具,对吗?
是的。是的,我会说我的主要工具,当我可以使用它时,是 Python,因为它也有点像语言的瑞士军刀。实际上,我最近在某个地方读到 Python 是几乎所有语言中第二好的语言,我同意这一点。这是我个人最喜欢的语言。如果你想做几乎任何事情,你可以用 Python 来做。特别是对我的位置来说,它真的很好。
就像我说的,我和 R 一起工作过,我和 Scala 一起工作过,我做过很多命令行的事情。最近,我越来越多地参与云平台工作,特别是 AWS,这是一个全新的技能组合,越来越多地参与工程工作,如持续集成,这是放置您的模型并确保您可以继续构建它并将其集成到软件中。
Hugo:实际上,我把 Python 称为瑞士军刀,多年来我一直听到它被称为瑞士军刀。我刚刚脑中闪过一个念头,如果那是一个术语的话,也许我们可以称之为荷兰军刀,因为圭多。
为了荣誉,是的,为了荣誉。
雨果:好的,太好了。我只是想让所有的听众明白,虽然薇姬...我的许多客人都是数据科学家通才。肯定不是每个人都是,也没有必要成为多面手。我们稍后可能会讨论的是,我们实际上正在看到这个学科中出现许多专业化,对吗,Vicki?
是的,我完全同意。我认为两者都有一席之地。我也非常支持数据科学团队,而不是一个人孤军奋战。我总是在团队中工作。通常是懂一点统计学的人,懂一点工程学的人,更面向业务或业务分析师的人,以及完全面向业务的人。你有三四个这样的人。我参加过的最好的团队在这些方面是互补的。
关于学习途径的建议
Hugo:对于那些想从事构建完整的端到端数据科学产品和解决方案的人来说,在学习途径方面,你会给他们什么建议?
我会说只学一件你感兴趣的事情。我得到的最好的建议是学好一门语言。学习什么语言并不重要,尽管对于多面手来说 Python 可能更有意义。真正学好一门语言,学习这门语言的内在,这样你就可以把它应用到其他事情上。
因为多面手真正擅长的是理解不同的事物如何应用于其他事物。例如,这是对象在 R 中的工作方式,这是对象在 Python 中的工作方式,这是数据流入 AWS 的方式,这是数据流入 Hadoop 的方式,这是我们在 Tableau 和 D3 中的工作方式。多面手通常能很好地处理模式,并且能够研究不同的事物。
我的建议是,首先,学习一种语言,然后能够从这种语言中进行推断,并尝试构建一个端到端的产品或项目。我有一条关于这个的推特,我可以链接到上面。因为有时候想出项目点子真的很难,也很令人畏惧。我为自己挠痒痒的方式是我建立了一个名为苏联艺术机器人的项目,它在推特上发布社会主义现实主义艺术。为此,我不得不从一个网站上获得这些艺术。我必须把它放在 AWS 中,我必须有一个 AWS Lambda 来创建这个机器人来发推特。这让我很想弄明白所有这些不同的部分是如何组合在一起的。就像我说的,我有一条推特,我可以链接到它,上面有一些不同的项目想法,你也可以...
雨果:我喜欢,我们肯定会在节目笔记中链接到这一点。
雨果:目前文化意识中的一些东西已经出现了一段时间,这是预测分析,机器学习和深度学习的权衡,在多种形式之间,所以一个模型在预测它想要预测的东西方面有多好,并且是可解释的,所以试图找出为什么它会做出预测。我想知道在你和你的客户的工作中,一般来说,这种权衡的方法是什么?
Vicki:我个人的方法是总是创建稍微简单一点的模型,但是总是更容易在幕后看到。原因是什么...如果我是一家公司的全职员工,我可能会有不同的答案,但作为一名顾问,你总是需要能够留下其他人可以看的工作,他们可以拆开,他们可以依赖,很容易记录。尤其是和不太懂技术的人打交道时,能够很好地解释这些事情是很重要的。对我来说,我总是宁可简单一些。
云
Hugo:你之前提到的事实是,越来越多的数据科学工作正在转移到云上,我很想听听你对此的看法。作为一个社区,这对我们来说是一个相对较大的挑战,我想知道你们在工作中是如何处理这个问题的。
是的,所以我们最近看到的是,虽然这是过去几年的趋势,但我看到越来越多的项目出现了这种情况,很多客户开始意识到他们不想维护基础设施,他们想把一切都带到云上。当然,当他们这样做时,他们希望考虑这样一个事实,即现在有一些事情需要你去管理。例如,您必须管理云的安全性。
就像最近有很多新闻报道一样,例如,S3 水桶就像是敞开着,所有的数据都泄露了出来,所以处理起来很重要。您需要处理一些云管理,最重要的是,您需要了解所有这些部分如何协同工作,因为这可能比在 scikit 中创建一个模型、腌制它,然后将其放在某个服务器上更难。你必须了解生态系统的所有部分是如何协同工作的,所以这在数据科学中也变得越来越重要。我认为特别是对于云中的数据科学,工具集在这一点上才刚刚出现。例如,我知道有 SageMaker,Google Cloud 有一些东西,还有 Azure 机器学习,但我觉得所有这些都刚刚开始进入自己的领域,但随着人们朝着这个方向发展,它们将成为更重要的组件。
Hugo:另外,我认为这些新兴和快速发展的技术意味着进入的门槛可能会稍微高一些,对吗?
维基:有可能。是啊,在某些方面可能是,但在其他方面就不那么可能了。如果你已经知道如何在云环境中移动,那么进入云的门槛就很低,进入机器学习的门槛也更低,因为已经有一些原型组件可以放在一起。如果你不知道如何在这样的环境中经营,从这个意义上说,进入的门槛会更高。我最近看到的是,许多从事数据科学的人甚至有点向工程道路靠拢。
雨果:对。是的,我想我真的在想那些正在工作的数据科学家或精通机器学习的人试图去云,甚至从文档的角度来看,做什么和怎么做可能都不明显。
维基:对。是的,这些云服务的文档还有很多不足之处。
雨果:我们肯定会看到情况有所改善。
是的。事实上,我知道 AWS,我想微软也在 GitHub 上开源了他们的文档,这是一个积极的方面。
Hugo:没错,实际上我最近邀请了 Paige Bailey 参加播客,她是微软 Azure 的软件开发人员倡导者,她在很多工作中也发挥了重要作用。
在你看来,数据科学的未来是什么样的?
Hugo:很好,我们已经谈了很多关于数据科学的前景和你目前的工作。我想知道在你看来,数据科学的未来是什么样的。
我认为我们将会看到大量的标准化,就像缩小行业范围一样。过去五年是关于这个叫做数据科学的新领域的爆炸式增长,起初没有人真正知道它是什么,所以我们开始定义它。现在有很多向数据科学的转变。几乎每个人都知道数据科学家是统计学家。
对你来说,我认为我们现在看到的更多的是专业化。有很多人专门研究深度学习或人工智能。正如我提到的,更多的软件开发活动。尤其是随着越来越多的东西进入云中,数据科学家需要知道如何在这些环境中工作。一如既往,我认为未来属于那些灵活的人,那些能用任何语言编写和阅读优秀代码的人,以及那些能随着环境变化而自学的人。
雨果:太好了。您之前谈到的一些事情是试图了解数据科学中的最佳实践是什么样的。目前还没有...我的意思是人们谈论某些事情,但是没有像前端软件工程那样的最佳实践的固化系统,对吗?
是的,我认为这才刚刚开始。就像我看到脸书和谷歌都发布了关于机器学习的指南和一些值得一看的东西。谷歌的特别好,因为它有你应该看看的东西,脸书刚刚发布了一堆视频。我认为这将开始变得更加稳固。另一方面,你也会听到很多人谈论机器学习和数据科学中的道德规范,我认为从这个角度来定义数据科学的含义可能也会有一些压力。当然,GDPR 法规会让我们定义可以收集的数据。我认为所有这三件事加在一起会让我们对那是什么有更多的了解。
雨果:对,很好。我认为 GDPR 是一个有趣的例子。我们会越来越多地看到这种情况。这在很多方面都是欧盟特有的,如果你有任何数据也可能通过欧盟的话。随着我们看到越来越多的国家采用这些类型的东西,我想知道这是否也会影响我们使用云技术的方式。
我相信在某种程度上会的。我认为云计算中最重要的事情是解决安全性问题...安全和数据流第一。
伦理学
雨果:对。你提到了数据科学中的伦理。我想知道你认为道德领域最大的问题是什么。
我个人认为现在最大的问题可能是数据泄露。有很多不同的事情,但我想把重点放在实际问题上,即许多人没有保护他们的数据。这里的问题是潜在的收集太多,然后没有足够仔细地监控它。
最受欢迎的数据科学技术
雨果:好吧。是的,我同意。我们已经谈了很多关于数据科学和数据科学流程的不同方面。我特别想知道你最喜欢做的数据科学方面的事情是什么,我指的是技术还是方法?
是的,所以我最喜欢做的是决策树,因为我从中获得了最多的回报。我如此喜欢它们的原因是因为它们非常容易与不一定是数据科学家的人讨论。它们很容易被形象化,给你一个清晰的行动路线。如果我能利用他们,我会的。
Hugo:这再次说明了我们之前讨论过的可解释性,你可以展示某人沿着树往下走,以及在每个分支点做出了什么决定,但也说明了可解释性的容易程度,或者只是能够向其他人解释一些事情。
是的,而且在多个平台之间移植也很容易。
雨果:在什么意义上?
Vicki:实现细节,这样你就可以在 scikit-learn 中本地创建一个决策树。你可以在 r 中创建一个,你可以在几乎任何平台上创建一个,所以我喜欢这样。
雨果:太好了。当然在 scikit-learn 你可以...很好,它与 Graphviz 兼容,所以你可以立即看到它。
是的。
Hugo:那么数据工程呢?真正得到的是...你喜欢在那里做吗?
我真的很喜欢 AWS Lambdas,它基本上是...把它们想象成短暂存在的虚拟环境。他们旋转起来,做些事情,然后就走了。它们有很大的应用潜力,我真的很有兴趣对它们进行更多的探索。我在过去的两个项目中使用过它们,我看到它们只会越来越多。
雨果:有什么收获?你认为 AWS Lambda 环境的最大优势是什么?
Vicki:它们有点像快速完成任务的功能。他们可以移动数据。他们可以发微博。我在我的机器人中使用 Lambda 函数每隔一定时间发一次微博。它们很容易维护。一旦你设置好并让它们运行,它们就会一直运行下去。
行动呼吁
雨果:太棒了。好的,那么我的最后一个问题是,你对我们的听众有最后的行动呼吁吗?
是的,所以我在推特上。我是 @vboykis 。你可以在那里找到我的网站,我的技术博客。如果你对我的公司 CapTech 有更多的兴趣,你可以去 captechconsulting.com。我们一直在招人,也一直在接纳新客户。
雨果:太棒了。我想我还有一个跟进问题。就招聘流程而言,这是我经常遇到的一个问题,你对进入面试流程的人有什么建议或通用的经验法则吗,我指的是和你一起或在其他地方?
首先,做好充分准备,了解你面试的公司。特别是在咨询业,这有一点不同,因为我们在寻找技术好的人,但我们也在寻找对做很多不同的事情感兴趣、擅长做很多不同的事情、能够自学和做很多研究的人。
第二件事是对你谈论的内容充满热情。说说你对什么有热情。如果你在工作之外做过项目,告诉我你做过什么类型的项目。尽可能多地告诉我你的工作项目。
基本上,当我去面试某人时,我希望有...我不是想骗你。我想和你谈谈,看看我是否能和你一起工作,就这样。
Hugo: Vicki,很高兴你能来参加我们的节目。
维基:谢谢你邀请我。
4 月 30 日前免费使用 DataCamp
过去的一年非常困难,这是一个保守的说法。但是一线希望是向数字化工作的转变——这包括在线培训和教育。
为了加速数字化转型,许多组织已经开始使用 DataCamp for Business 来提高跨团队的数据素养。由于 COVID 而被解雇的个人利用他们在数据营学到的技能在数据科学和分析领域找到了新的工作。通过 DataCamp 捐赠,我们的合作伙伴社区为 60 多个国家的学习者分配了免费的 DataCamp 订阅。许多学校和大学已经使用课堂数据营来免费补充他们的在线教育项目。
DataCamp 的使命是数据民主化。这就是为什么从 4 月 22 日到 30 日,我们将举办一个免费周,向任何人和任何想免费试用 DataCamp 的人开放我们的整个平台。(我们所有课程的第一章 永远 免费。)你可以参加任意多的课程、项目和评估——我们甚至不会问你的信用卡号码。没有陷阱。你只需要一个电子邮件地址就可以开始了。
我们的第一个免费周是去年五月的第一周,我们在 T2 举办了另一个免费周。我们看到成千上万的学习者加入我们,学习新的技能,以促进他们的职业生涯。
MLOps 入门
原文:https://web.archive.org/web/20230101103007/https://www.datacamp.com/blog/getting-started-with-mlops
如今,太多的机器学习模型没有部署到生产中,而是留在数据实验室中。就像任何新兴领域一样,现代数据团队需要采用的一套最佳实践、工具、技术和角色尚未成熟和标准化。这给希望从大规模机器学习中提取价值的企业和希望超越笔记本实验的数据科学家带来了不满。MLOps (机器学习操作) 在过去几年中应运而生,旨在解决数据团队面临的部署挑战。
线索就在名称中:正如 DevOps 围绕业务需求塑造了快速敏捷的应用程序开发,MLOps 旨在通过弥合复杂性和机器学习模型部署之间的差距来做同样的事情。
【MLOps 如何应对这些挑战?在本文中,我们旨在揭开 MLOps 作为新兴学科的一些概念的神秘面纱,并回答一些关键问题,如
- 什么是 MLOps,成功的 MLOps 实践的关键要素是什么?
- m lops 和 DevOps 有什么不同?
- 【MLOps 如何重新构想机器学习的工作流程?
- 现在如何开始使用 MLOps?
什么是 MLOps?
专注于模型监控的 MLOps 初创公司 WhyLabs 的首席执行官阿莱西娅·维森吉奇 恰如其分地将 MLOps 描述为 【一套工具、实践、技术、文化和心态,确保机器学习系统的可靠和可扩展部署】 。
从这个角度来看,MLOps 建立在 DevOps 的现有原则之上,即高效编写、部署和运行企业应用程序的现代实践。这是一个跨职能、协作和迭代的流程,可将数据科学付诸实施。MLOps 将机器学习视为一门工程学科,其中模型被视为可重用的软件工件,然后可以通过可重复的过程进行部署。
MLOps 还涉及对生产中的模型进行持续监控和再培训,以确保它们在数据随时间变化时表现最佳,这种现象也被称为 数据漂移 。
简而言之,MLOps 允许数据团队通过以下方式扩展他们提供的价值:
- 通过自动化流程更快地部署更多型号
- 通过协作和模型重用优化生产力
- 降低从未投入生产的模型的风险和成本
- 随着数据漂移的发生,持续监控和更新模型
回到维森吉奇对 MLOps 的定义,上面所说的既需要现代数据团队的工具创新,也需要当今许多数据科学家思维方式的转变。
为什么 MLOps 很重要?
我们已经介绍了 MLOps 如何解决当今许多数据团队面临的部署挑战。然而,是什么让机器学习如此独特,以至于它需要像 MLOps 这样的新的专门操作功能?
机器学习应用与传统软件有本质区别。以下是组织在将机器学习系统部署到生产中时面临的一些重大挑战。
- 所有权与协作: 传统上,数据科学家倾向于创建和开发机器学习模型,IT 团队承担部署和管理它们的任务。然而,这两个团队之间的合作并不尽如人意,而且容易产生摩擦。例如,数据科学团队越来越多地被不同的业务部门请求解决越来越多的问题。鉴于现代 IT 系统的复杂性,数据科学家很少关注生产环境和现有的 IT 系统,因为那是 IT 团队的责任。类似地,IT 团队倾向于不关注数据科学家产生的解决方案的内部工作方式——这导致了对这些模型的可部署性的错误期望。这种动态导致了需要不惜一切代价避免的摩擦和反模式——数据团队满足于 “让我们构建一个模型,发送给它,它们将接管”的思维过程。
- 数据是机器学习驱动的软件的一个定义方面: 数据是机器学习系统的命脉 。与传统软件不同,在传统软件中,软件工程师设计一个精心制作的过程,接受一组输入并提供一组输出,机器学习系统依赖于统计方法,将杂乱的真实世界数据作为输入,并将预测作为输出。这意味着机器学习系统的行为会因数据的变化而发生变化。此外,这意味着评估机器学习模型的性能需要观察和分析。最后,这意味着机器学习工作流是杂乱的,本质上是实验性的,并且自然地适合于与传统软件工程不同类型的技能集。
- 部署复杂度: 机器学习模型系统的复杂度越来越高。与传统软件相反,部署机器学习模型包括从不同的工具编排各种相互关联的步骤。这包括数据收集、存储、转换、特征工程等等。此外,再现性和版本控制是数据团队面临的主要挑战。鉴于机器学习的实验性质,数据科学团队使用同一数据集的不同版本构建模型的许多版本。因此,传统的版本控制需要变得更加健壮。
MLOps 与 devo PS—有什么区别?
在上一节中,我们分析了为什么机器学习需要专门的操作功能。然而,MLOps 在实践中与 DevOps 有何不同?
DevOps 是开发(Dev)和运营(Ops)的缩写。它结合了 It 部门的两个基本功能:应用程序开发和系统工程。DevOps 试图缩短开发周期,并加快软件工程团队的产出速度。它通过为开发团队引入自动化、更新的过程和工作方法来做到这一点。更广泛地说,DevOps 在软件开发过程中引入了两个原则:
- 持续集成(CI)—对版本控制库进行频繁的小迭代的过程。这减轻了处理部署问题的负担,因为代码经常被部署到产品中。
- 连续交付(CD)—将应用程序和软件交付到生产环境所需的步骤自动化的过程。
鉴于机器学习的独特性质,这里有一些 MLOps 不同于 DevOps 的实用方法:
- 持续集成 从测试和验证代码扩展到测试和验证模型和数据
- 连续交付 从将应用交付到生产的自动化步骤扩展到自动交付触发机器学习预测的数据管道
- 引入了持续培训——这是机器学习所独有的——模型被自动重新培训以供部署
- 引入了持续监控——监控与机器学习模型相关的质量、模型性能和业务指标方面的生产数据中断
m lops 工作流程
为 MLOps 重新设计数据科学工作流程
考虑到将机器学习模型部署到生产中的额外复杂性,数据团队如何开始在他们的数据科学工作流中采用 MLOps?在本节中,我们将介绍 MLOps 流程中的一种简化的逐步方法:
- 构建: 一旦模型被创建,它们通常被放在一个版本控制下的可审计的存储库中,以支持整个企业的重用。
- 评估: 通过在新的独立数据集上测量新训练的模型性能,在此阶段量化模型预测的质量。
- 生产化: 将模型或管道导出、部署并集成到生产系统和应用程序中。
- 测试: 连续测试对于基于 ML 的应用程序来说很重要,它涉及到自动重新训练和服务模型。
- 部署: 需要持续监控以确保最佳性能。当数据改变时,可以重新训练该模型或者用新的模型替换该模型。
- 监控和可观察性: 许多公司在将机器学习模型迁移到生产环境中时都面临着挑战。
为 MLOps 重新设计数据角色
在较小的数据科学团队中,一个人可以扮演多个角色,身兼数职。然而,在规模更大、处理量更大的数据团队中,您会发现拥有 MLOps 工作流不同元素的各种角色和技能。这些角色可以看如下:
- 数据科学家: 数据科学家通常被视为任何 MLOps 团队的主要成员,他们是利用公司数据创造价值的专家。他们的角色是理解、构建和解释这些数据,以预测模型的形式从这些数据中获得并提供见解。他们创建、测试和评估机器学习模型。在一些公司,一旦模型投入生产,还要部署和监控模型的性能。
- 数据工程师: 数据工程师负责创建和维护允许数据团队中几乎所有其他功能运行的环境。他们负责开发、构建、维护和测试架构,例如数据库和处理系统。简而言之,它们支持从提取、转换到交付的数据流。
- 软件工程师 : 在一个 MLOps 流程中,软件工程师负责将机器学习模型整合到公司的应用和系统中。他们还致力于确保机器学习模型可以毫不费力地与公司内任何非基于机器学习的应用程序一起工作。
- 机器学习工程师 : 机器学习工程师处于数据科学和数据工程的十字路口。机器学习工程师的角色是在数据工程师准备的基础设施内优化数据科学家开发的模型并将其投入生产。
【MLOps 入门
正如本文所讨论的,MLOps 仍然是一个新兴领域,许多工具、最佳实践和方法今天仍在涌现。本节专门介绍您可以开始使用 MLOps 的不同方法,您可以开始尝试的工具,以及您现在可以使用的学习资源。
【MLOps 要考虑的工具
-
Kubeflow : Kubeflow 是一套在 Kubernetes 集群上运行机器学习工作流的工具。Kubeflow 的目标是使最好的开源机器学习解决方案能够以简单、可移植和可扩展的方式在 Kubernetes 集群上运行。最初 Kubeflow 是 TensorFlow Extended (TFX)的开源实现,这是一个在生产中部署机器学习管道的端到端平台。Kubeflow 因此允许简化 Kubernetes MLFlow 上 TensorFlow 作业的执行:MLFlow 是一个将机器学习项目的端到端开发过程工业化的工具。它的目标是通过促进模型的监控、复制、管理和部署来简化公司中机器学习项目的开发。
-
数据版本控制(DVC) : DVC(数据版本控制)是一个 Python 包,它使管理您的数据科学项目变得更加容易。这个工具是 Git 用于机器学习的扩展,正如其主要贡献者 Dmitry Petrov 在本次演示中所述。DVC 与 Git 既相似又互补。
-
Pachyderm : Pachyderm 和 DVC 一样,是机器学习和数据科学的版本控制工具。最重要的是,它基于 Docker 和 Kubernetes,这有助于它在任何云平台上运行和部署机器学习项目。此外,pachyderm 确保所有摄入机器学习模型的数据都是有版本和可追溯的。
MLOps 的学习资源
机器学习基础
- 《绝对初学者的机器学习:简明英语入门》(第二版)奥利弗·西奥博尔德 。正如标题所示,这本书为初学者提供了机器学习的完整介绍。当我们谈论初学者时,我们指的是真正的新手。不需要任何数学基础知识,也不需要任何编码经验。这是对机器学习的基本介绍,适合对这个话题感兴趣的人。使用的语言非常简单,以免读者被难以理解的行话淹没。不同的算法附有清晰易懂的解释和直观的例子。这本书还介绍了一些简单的编程概念,以更好地将机器学习融入上下文。
- 约翰·保罗·穆勒和卢卡·马萨隆的《假人的机器学习》。对于新手来说,“给假人”系列的书也是一个很好的起点。这本书介绍了机器学习的基本概念和理论,并解释了如何将它们应用到现实世界中。它介绍了基本的编程语言和工具,并解释了如何将一个相对深奥的概念变成一个实用的工具。他讨论了编程语言 Python 和 R,这两种语言用于教机器识别模式和分析结果。
- 预测数据分析的机器学习基础:John D. Kelleher、Brian Mac Namee 和 Aoife D'Arcy 的算法、工作实例和案例研究。这本书涵盖了机器学习的所有基本概念,提出了理论方面和实际应用。它提供了具体的例子和案例研究,以更好地传达知识。建议具备分析的基础知识,以便更好地理解这些基本概念。这本书介绍了机器学习的不同方法,并用算法和模型说明了每个学习概念,以及将这些概念付诸实践的具体例子。
- 德鲁·康威和约翰·迈尔斯·怀特的《黑客机器学习》。这里的“黑客”一词指的是为特定目的和实际项目编写代码的程序员。这本书是为没有数学背景但知道如何编码和使用编程语言的读者准备的。机器学习通常依赖于数学概念,因为它使用算法来分析数据,但许多有经验的编码人员通常不具备高度发达的数学技能。这本书没有纠缠于数学理论,而是基于实践研究提出了现实世界的应用。它解决了经典的机器学习问题,并解释了如何使用 R 编程语言来解决这些问题。无论是根据参议员获得的票数来比较他们,还是创建一个推荐系统供人们在 Twitter 上关注,或者根据其内容来识别垃圾邮件,机器学习的可能性是无限的。
- DataCamp 的机器学习科学家与 Python 或 R 数据科学家赛道。无论您是 R 用户还是 Python 用户,这两条路线都涵盖了机器学习的来龙去脉。每条赛道都包含数十门互动课程,涵盖了机器学习的基础知识,以及深度学习和特征工程等更高级的主题。
数据工程基础
- Andreas Kretz 的数据工程食谱。关于如何成为一名数据工程师,有很多困惑。这是一本由 Andreas Kertz 编写的电子书,包含详细的案例研究、代码、播客、采访、案例研究等等。我认为任何人成为数据工程师都是一个完整的过程。还有锦上添花?这本电子书是免费的!!!是的,你可以立即开始使用它。
- DW 2.0——数据仓库之父 WH·因蒙的下一代数据仓库架构。这本书从架构和技术两个方面描述了当今技术上可能实现的数据仓库的未来。它结构严谨,涵盖了与数据架构及其底层挑战相关的大多数主题。如何使用现有系统并围绕它构建数据仓库,以及以非常实用的方式证明费用合理性的最佳实践。
- 敏捷数据仓库设计:协作维度建模,从黑板到星型模式。这是一本很棒的书。Lawrence Corr 提供了一个全面的分步指南,帮助您捕获商业智能和数据仓库需求,并使用一种称为模型风暴的技术将它们转化为高性能模型。此外,您将发现一个名为 BEAM 的概念,这是一种敏捷的维度建模方法,用于改善数据仓库设计人员和商业智能利益相关者之间的交流。
- DataCamp 的数据工程与 Python 职业轨迹。本专题讲座提供了几十门课程,涵盖了构建有效的数据架构、简化数据接收、构建管道等内容。
深入 MLOps
- MLOps:运营数据科学,作者:David Sweenor、Dev Kannabiran、Thomas Hill、Steven Hillion、Dan Rope 和 Michael O'Connell 。这 6 位数据分析专家提供了一种四步方法来创建基于机器学习的应用程序,并将其投入生产。
- Emmanuel Ameisen 构建机器学习驱动的应用。在本书中,作者 Emmanuel Ameisen 将教你如何从最初的想法到部署的产品,构建一个机器学习驱动的应用程序。
- 汉尼斯·哈普克,凯瑟琳·尼尔森构建机器学习管道。在本书中,作者汉尼斯·哈普克和凯瑟琳·尼尔森展示了使用 TensorFlow 生态系统自动化机器学习管道的步骤。
- Noah Gift,Alfredo Deza 的实用操作。强调 DevOps 和 MLops 之间的区别,这本书将把你的注意力吸引到 MLOps 是什么,以及它如何确保操作你的机器学习模型。这本书介绍了一些工具和方法,使你能够在 AWS、Microsoft Azure 和 Google Cloud 中实现 MLOps 项目。此外,请务必在 DataCamp 上观看 Noah 关于实用 MLOps 的现场培训。
- 马克·特雷维尔&介绍 MLOps 大台库团队。本书的作者能够深入理解 MLOps 的关键概念,以确保数据科学团队能够运营机器学习模型,从而随着时间的推移增强业务变化并改进模型。
- Google Cloud 提供文章、博客和论文,引导您了解用于构建高效机器学习模型的最佳实践和流程。在所选文章中,您将了解 MLOps 流程以及如何从手动流程转变为自动化流程。
- Nvidia 的博客提供了一些文章,带您了解 MLOps 的生命周期,并展示了该领域的一些成功案例。
- Ml-ops.org由 Larysa Visengeriyeva 博士、Anja Kammer、Isabel Bä、Alexander Kniesz 和 Michael Plö创建。该网站旨在收集有关 MLOps 的所有必要信息,并展示端到端流程的每个步骤。
我们希望这组资源能够帮助您开始 MLOps 学习之旅。有关 MLOps 的更多文章和资源,您还可以查看以下文章:
- MLOps 上的 10 大资源
- MLOps 最佳实践以及如何应用它们
- Noah Gift 的 MLOps 实用指南
- 与阿莱西娅·维森吉奇一起使用 MLOps 操作机器学习
- 与丹·贝克尔一起从预测到决策
Gitgirl 希望通过数据营培训 1300 万非洲女性
Gitgirl 的创始人 Yvonne Alozie 与即将毕业的 Gitgirl 学生一起庆祝
Gitgirl 是一家总部位于尼日利亚拉各斯的女性数据科学学院,成立于 2018 年。他们的任务是训练 1300 万非洲妇女掌握数据。迄今为止,他们已经培训了 150 多名女性,而这才刚刚开始。
git girl 75%的学员拥有硕士或博士学位,涉及统计学、计算机科学和法律等不同领域。至少,所有 Gitgirl 的学员都至少拥有学士学位,并有强烈的从事科技工作的愿望。
我们与 Gitgirl 的合作伙伴负责人埃伊泰米·予言合作,将数据营整合到 Gitgirl 的核心课程中。
Gitgirl 的合作伙伴负责人埃伊泰米·予言
Gitgirl 正在建立一个为非洲女性量身定制的培训项目
Eyitemi 和 Gitgirl 的创始人 Yvonne Alozie 采取了务实的方法来建立 Gitgirl 的学习计划。他们首先考虑的是位置:拉各斯是非洲最大的城市之一,他们的学生主要在拉各斯,尽管他们也有来自尼日利亚其他地区的学生。其次,拉各斯的交通状况是出了名的糟糕,尤其是在高峰时段,因此期望他们的团队经常出差参加面对面的会议是不合理的。他们知道他们需要一个在线项目。
他们为期六个月的项目通过有问答环节的讲师指导网络研讨会来培训学生。Gitgirl 使用一个松散的小组来分配任务和促进讨论,并在尼日利亚的拉各斯和阿布贾提供可选的每月面对面聚会。这些聚会为学习者提供了一个安全的空间,让他们聚集在一个全是女性的共同工作空间,向讲师提问,与其他学习者见面,并在酒后进行学习小组会议。
促进 Gitgirl 学生整体健康的社区瑜伽课程
Gitgirl 开始其培训计划,重点是电子表格,以帮助其团队建立强大的数据基础。但是他们的一些学习者更高级,渴望更深入的训练。DataCamp 的课程既适合开发电子表格等基础技能的初学者,也适合更高级的学习者。
选择 DataCamp 作为他们的在线学习伙伴
Gitgirl 的许多学生都希望获得数据科学技能,以获得薪酬更高的工作,但进入一个全新的领域可能会令人生畏。因此,Eyitemi 专门寻找一个具有无缝入职体验的提供商,可以引导新手走上正确的道路。DataCamp 是一个完美的选择,我们帮助学习者探索数据科学的不同方面,尝试不同的语言,并通过精选的学习内容注册技能和职业跟踪。
有了 DataCamp,学生们也可以按照自己的方式学习,而不必遵守严格的时间表。这一点很关键,因为 Gitgirl 的许多学生在工作之外有全职工作和其他义务,所以他们需要灵活性。DataCamp 的移动应用是一个有用的补充,因为尼日利亚的移动连接通常比互联网好。
学生喜欢 DataCamp,因为他们可以按照自己的速度学习。他们可以专注于他们想要学习的领域和他们想要培养的技能。
另一个重要的考虑因素是成本:尼日利亚专业人员的平均工资约为每月 300 美元,因此 Gitgirl 的一般学习者无法负担得起留出许多资金。反过来,DataCamp 捐赠了 35 个许可证,以支持我们在全球传播数据流畅度的共同使命。
绘制通往数据流畅的路径
为纪念 2019 年国际妇女节,当地公司举办了 Gitgirl 培训班
超过 150 名学生参与了 Gitgirl 的计划,但并不是所有人都决定专业地追求数据科学,一些人将数据技能带入了各自的行业。截至 2019 年 11 月,他们的 35 名高级学员已经超越了电子表格,进入了 Python 和 r 中的数据建模和数据可视化等高级主题。这是 DataCamp 的课程产生最大影响的地方:
我们希望为我们的学生提供世界一流的标准教育,并有能力让我们的学生对此充满信心。当然,鉴于我们是尼日利亚的一家初创公司,我们帮助学生利用当地数据集进行学习。但与此同时,我们希望确保他们在数据科学方面获得的基础技能符合世界标准。通过将 DataCamp 集成到我们的课程中,我们确保了这一点。
想进一步了解 Gitgirl?通过电子邮件联系他们。要了解如何在您自己的组织内建立数据流畅性,请阅读我们的新白皮书《300+ L & D 领导者从建立数据流畅性中学到了什么》
点击了解更多关于 DataCamp 合作关系的信息。要成为合作伙伴,请联系 【邮箱保护】 。
向最需要的人赠送 10,000 多个 DataCamp 订阅
在新冠肺炎事件和当前的经济衰退之后,日子很艰难。许多人希望提升自己的技能,以便在就业市场上更具竞争力,或者完全转向新的职业。作为学习数据技能的最佳在线平台,DataCamp 能够独一无二地帮助个人在家中安全地把握技能发展机会。我们正在兑现从 5 月开始的承诺:在半价促销期间购买的每一个年度 DataCamp 订阅,我们都将赠送一个给有需要的人。
我们的使命是为每个人普及数据教育
为了支持 DataCamp 将数据技能民主化的使命,我们为我们的学习平台提供了经济实惠的月度和年度订阅,并且我们已经通过课堂的 DataCamp 向超过 30 万名学生免费提供了数据科学教育。今天,我们很高兴地宣布了一项新的举措,以帮助那些受新冠肺炎病毒影响或有其他需要的人。
通过免费的 DataCamp 访问服务有需要的社区
我们与几个服务于不同社区的组织建立了合作伙伴关系,这些组织有一个共同点:他们的成员需要技能来获得工作,并在这些困难时期推进他们的职业发展。我们向这些组织捐赠年度 DataCamp Premium 订阅,以支持这些社区。这使我们能够帮助那些可能从未了解过我们的人,同时与那些与我们的数据技能民主化使命一致的组织建立新的关系。
免费 DataCamp 订阅的收件人
以下是将集体获得超过 10,000 份年度 DataCamp Premium 订阅的一些优秀组织:
通过严格、免费的技术培训和职业发展,Per Scholas 为积极和有才华的成年人做好了成为 IT 专业人员的准备,并为需要他们技能的雇主创造了条件。迄今为止,已有超过 10,000 人参加了 Per Scholas 的培训,发展了持久的技能,并在技术领域开始了成功的职业生涯。
【黑人女孩守则】正在引领一场在科技领域建立平等代表权的全球运动。他们与广泛的社区合作,通过增强年轻有色人种女孩的自信、让她们接触数字时代看不见的可能性,并让她们具备成为明天的创造者、创新者和领导者所需的工具和思维习惯,来召集她们并赋予她们权力。
LaunchCode 是一家非营利组织,通过向美国各地的科技生态系统添加新人才来创造经济机会。虽然技术领域的职业传统上是留给那些有能力获得计算机科学学位的人的,但 LaunchCode 的项目是免费的,对有积极性的个人开放,这些人被评估的是激情、动力和才能,而不是证书。
Blossom Academy是一家招募和发展非洲数据科学家的人才发展机构,目标是将他们与工作机会联系起来。Blossom Academy 提供与行业合作伙伴合作设计的基于技能的课程,反映真实世界的经验。培训包括构建分析工具以应对特定地区的业务挑战,以及关键软技能的培训。
DataU 是柬埔寨第一所专注于开发数据科学、数据 IT 和数字营销领域软硬技能以满足全球需求的学院。他们与电信、银行、金融科技、消费品和制造业的领先组织合作,通过招聘、培训和部署高技能毕业生来释放数据的力量。
Code Louisville和 Tech Louisville 是 KentuckianaWorks 的劳动力培训项目,旨在帮助成年人过渡到新的科技职业。通过将在线学习、与志愿技术专业人员的聚会以及与当地政府和非营利机构的合作相结合的独特模式,他们能够接触到边缘化社区,并通过免费技术教育改善生活。
Boldr 是一家以目标为导向的公司,旨在帮助人们成长和联系。他们所做的一切的核心是致力于为他们的客户、公司和社区培育积极的、可衡量的增长。Boldr 在回馈社区方面享有盛誉,在他们的帮助下,我们能够支持以下非营利组织。
为菲律宾而教致力于为所有菲律宾儿童提供包容性、优秀和相关的教育。他们与具有领导潜力的公立学校教师合作,培养学生成为有责任感的公民,能够批判性地思考,清晰地表达,并追求目标。“为菲律宾而教”组织与教育部合作,旨在改善公立学校系统。
青年妇女参与技术公司(WiTech) 是一个由青年领导的非营利组织,旨在激励、教育和赋权青年打破性别障碍,用科学和技术做出贡献。
支持 DataCamp 的合作计划
我们意识到许多人可能会从一年的免费数据营中受益,但我们决定与社区发展组织合作开展这项免费活动。如果您符合我们上面列出的合作伙伴组织的资格标准,请考虑申请成为他们的会员,并让他们知道您希望获得免费的 DataCamp 订阅。一旦被接受,您可能会被列入免费订阅的等候名单。
如果您知道某个组织有兴趣与我们合作,请联系 【电子邮件保护】 。
在我们的帮助中心了解更多关于 DataCamp 的赠品计划。
本文于 2020 年 7 月 30 日编辑,以纳入其他培训合作伙伴:Blossom Academy、Boldr、Teach for the Philippines 和 WiTech。
GPT-3 和下一代人工智能服务
在过去的几个月里,随着 OpenAI 最新语言模型 GPT-3 的到来,数据科学和人工智能世界一直在热烈讨论。对许多人来说,该模型代表了一种算法在各种任务中用人类语言进行推理的能力的重大飞跃。
测试 GPT-3 的开发者提供了许多有趣的用例。基于简单英语提示的自动代码生成、回答医疗问题和法律语言翻译的例子点燃了许多数据科学家对下一代人工智能软件的想象。
虽然机器学习在组织层面的大部分价值都在低悬的果实中,如预测客户流失、简单的销售预测和客户细分——但考虑一下 GPT-3 的商业化对未来意味着什么是有用的。它有可能改变我们对人工智能的思考和操作方式。
定义人工智能、机器学习和深度学习
商业世界和媒体充斥着人工智能(AI)、机器学习(ML)和深度学习(DL)等热门术语。在深入研究 GPT-3 如何工作之前,让我们快速定义这些术语。
谷歌大脑(Google Brain)的联合创始人、前百度首席科学家吴恩达将人工智能描述为“让计算机智能运行的庞大工具集”这包括明确编程的软件,如计算器,以及 ML 应用程序,如推荐系统和无人驾驶汽车。
人工智能和计算机游戏领域的先驱亚瑟·塞缪尔(Arthur Samuel)表示,机器学习是“无需明确编程就能让计算机具备学习能力的研究领域”。通常有两种类型的机器学习算法。第一种是监督学习,算法学习现有数据(输入)和标签(输出)之间的模式,并根据看不见的数据预测输出,如新客户是否会根据历史流失数据流失。第二种是无监督学习,算法发现数据中的一般模式,并将彼此相似的不同数据点聚集在一起,如根据共同的行为模式对客户进行细分。
深度学习是一种基于多层人工神经网络的机器学习形式,其灵感来自大脑中的生物神经网络。它们可以是有监督的和无监督的,并且在很大程度上是过去十年中备受瞩目的 ML 用例的原因,如图像识别和情感分析。深度学习模型在架构上各不相同,根据神经网络架构中的层数和节点数,从简单到复杂。模型越复杂,参数就越多。如果你想了解更多关于深度学习模型是如何建立的,请查看 DataCamp 的深度学习技能跟踪。
要更深入地探索这些话题,请阅读我们的电子书商业领袖机器学习权威指南。
GPT 3 号是如何工作的
那么 GPT-3 与人工智能、机器学习和深度学习在哪里相交呢?首字母缩写词 GPT 指的是“生成性预训练转换器”(generative pre-trained transformer)——一种无监督的深度学习算法,通常在大量未标记的文本上进行预训练。它在一个大型特定任务的标记数据集上进行微调和训练(例如,英语到法语的翻译),然后负责在给定一组特定输入(英语单词)的情况下推断最可能的输出集(法语翻译)。对于各种不同的语言任务,您可以将这看作是一种高度复杂的自动完成形式。
GPT-3 是这一模型的第三次迭代,尽管它没有对其前辈的架构进行创新,但它在包含互联网大部分内容的超大型数据集上进行了预训练,包括公共爬行数据集,并在其网络架构中包括更多层。这使得 GPT-3 成为有史以来最复杂的语言模型,其网络架构中有 1750 亿个参数。这比 GPT-3 发布前最复杂的模型,微软的图灵-NLG 多十倍的参数,比 GPT-2 复杂 117 倍。
最重要的是,GPT-3 受益于少量学习,预先训练的模型不必针对特定的语言任务用大量标记的训练数据进行微调。相反,它只是给出了一个任务描述——将英语单词翻译成法语——以及几个输入映射到输出的例子。再加上易于使用的即插即用界面,GPT-3 在很大程度上消除了进入障碍,并允许非专家在不同的语言任务中产生有意义的结果。
为什么 GPT-3 如此重要
仅仅通过几个例子和任务描述,GPT-3 就可以与经过微调的语言模型相媲美,这些语言模型已经针对各种语言任务的特定任务训练数据进行了训练。GPT-3 在需要推理的任务上也表现出某种形式的成功,比如算术,这不一定是语言任务。例如,GPT 3 号在被喂了一些加减法的例子后,对两位数的加减法表现出了 100%的准确率。具有较少参数的较不复杂的模型还不能在这些任务上突破 60%的精确度上限。虽然 GPT-3 在更复杂的算术形式上表现不佳,但这意味着更复杂的模型可能有能力在它们接受训练的领域之外进行概括。
有趣的是,这表明纯粹通过增加数据集和模型的大小可以获得更多的收益。目前,该模型跨不同任务的总体性能似乎没有在 175B 参数处停滞不前。假设从 GPT-2 到 GPT-3 的参数缩放比例有相同的增加,人们只能想知道如果 GPT-4 的参数比 GPT-3 多 117 倍,模型性能将如何缩放。
虽然它目前正在私人测试版中进行校准,但将 GPT-3 包装在即插即用的 API 中意味着它一旦离开私人测试版就可以大规模使用。正如人工智能研究人员 Shreya Shankar 指出的,一个重要的挑战将是有效和方便地为组织提供这个 API。
这对未来意味着什么
新技术通常遵循 Gartner 的炒作周期——事实上,OpenAI 首席执行官 Sam Altman 已经敲响了关于 GPT-3 的炒作警钟。
然而,来自 GPT-3 开发者的用例揭示了我们中长期可以期待的人工智能应用类型。潜在的应用包括帮助设计者轻松制作原型、简化数据分析、实现更强大的研究、为内容营销人员自动生成内容等工具。
此外,将模型打包在一个简单的即插即用界面中可能会改变人工智能在整个组织中的工具化动态。例如,这可能会抑制组织开发自己的内部模型,并允许较少的技术专家使用 GPT-3 构建解决方案。
最后,当考虑大规模部署人工智能系统时,你必须意识到通过偏见传播伤害的能力。正如许多研究人员在测试 GPT-3 时指出的那样,基于中性输入,产生强化刻板印象和偏见的有害输出相对容易。
像任何正在大规模部署的机器学习算法一样,GPT-3 需要对潜在的危害进行认真的审查和监控。
婴儿潮一代如何在 60 岁成为数据科学家
马克·比格特不是典型的数据科学家。他不是千禧一代,也没有数学或计算机科学的高等学位。马克 62 岁,职业是电气工程师。他还令人耳目一新地谦逊,称自己是“一个相当无趣的人”
12 年来,Mark 一直是一家大型电信公司负责光学产品的工程总监。他管理着一个由电子工程师和光学物理学家组成的团队,这些人都倾向于使用 Python。在这个职位上,Mark 开始在 DataCamp 上学习 Python,以提高他的数据分析能力。当他开始超越电子工程和光学时,他遇到了使用 R 的其他社区。他回到 DataCamp 学习 R,R 很快成为他解决问题的首选语言。
“我在 DataCamp 获得的 Python、R 和统计学知识对我的工作至关重要。”
Mark 的管理角色需要处理大量现场故障和制造数据。他本可以将这项工作分配给员工,但数据分析深深吸引了他,他愉快地投身于数据库、SQL 和数据科学。他利用这一知识展示了某些故障模式与天气条件、零件批次、安装人员和部件制造商之间的相关性。
这一知识的影响是深远的。这有助于他通过确定需要培训和工具的领域来改善客户体验和降低产品故障率。一个项目涉及开发电池电量计:他设计了一个实验来表征电池性能,分析了结果,确定了给定一些实现约束的最佳模型,并向软件团队提供了一个执行规范。
"我很快发现自己对数据科学比对管理更感兴趣。"
马克已经在电子和光学领域工作了 39 年,但到了 2018 年 5 月,他开始寻求改变。他决定自己创业,开办一家咨询公司。马克加倍了他的数据营训练。他通过 R 职业轨迹完成了数据科学家的工作,并开始寻找需要数据分析的电子工作。他比以往任何时候都更加忙碌和多产。
在咨询业务的早期,Mark 主要专注于电气工程工作,但在去年,他加入了更多的数据分析工作。他现在为一家主要的床制造商做合同工作,帮助他们分析现场故障数据。这需要设置测试协议,定义数据库模式,分析数据,并创建仪表板供管理层在决策中使用——所有这些都使用了他在 DataCamp 中学到的技能。
“我非常喜欢这种简短的演讲和指导练习的形式。这对我很有效。”
那么,马克当初为什么选择 DataCamp 呢?他实际上尝试了许多在线学习平台,但 DataCamp 的教学方法最适合他的个人学习风格。他发现我们的边做边学方法最有效,这种方法首先通过短视频教授概念,然后是练习和动手项目,使学习者能够解决现实世界中的问题。他还赞赏 DataCamp 的即时反馈和平台上的教学质量。
"数据营提供最广泛的课程,并一直保持高质量的展览."
Mark 每天晚上都会留出一个小时用于 DataCamp,并在上下班的公交车上使用 DataCamp 手机应用程序来强化他的学习。迄今为止,他已经完成了 75 门课程,积累了超过 330,000 点经验值!他最初使用 DataCamp 是为了培养日常工作中需要的特定技能,特别是整理和绘制数据。然后,他通过学习实验设计和建模课程,进入了统计学领域。最近他一直专注于报道。
Mark 的 DataCamp 之旅让他积累了数据科学和分析技能的深度,从而实现了他的职业目标。职业生涯任何阶段的专业人士都可以做到这一点。受马克的故事启发?在 LinkedIn 上与他联系,并在他的博客上关注他的数据冒险。
一如既往,我们会支持你。您现在可以开始在 DataCamp 上学习,或者利用 DataCamp for Business 在数据科学和分析的所有领域提升您团队的技能。点击此处安排我们平台的免费演示。
全球人工智能社区如何战胜饥饿,识别火星上的异常现象并应对气候变化
DataCamp 合作伙伴 Omdena 是一个快速发展的全球平台,通过参与解决饥饿和气候变化等重大问题的现实世界挑战,加速有抱负的数据科学家、人工智能工程师和爱好者的学习。
我们的口号是“为了好,为了人民,为了人民,建设人工智能”,这代表了我们的使命:使人工智能民主化,并为个人和使命驱动的组织提供机会,以开发高影响力的人工智能解决方案。
我们的平台是独一无二的,因为我们专注于我们的支持性和多元化社区之间的协作。在我们为期两个月的挑战中,由 30 至 50 名爱好者和导师组成的小组通过利用不同的观点和确定最适合的模型,从不同的角度解决一个问题。
“在一个被贪婪、仇恨和不宽容所困扰的世界里,奥姆德纳带来了一股清新的空气,消除了障碍和精神限制,创造了一个我们都能繁荣发展的环境。”—印度萨米尔
所以,真正的英雄是我们的社区成员——我们只是提供环境来培育真正的变化。
Omdena 其实是偶然开始的。印度一家名为 cleantech 的初创公司联系了 Rudradeb Mitra 来建立一个机器学习模型,以识别低分辨率图像上的屋顶,目的是加速印度对太阳能的采用。这家初创公司显然存在一个有意义的问题,但缺乏解决该问题的技术知识和资源。在各种数据科学门户和小组上分享该项目后,来自印度偏远地区的 50 名爱好者和导师组成的社区合作建立了一个复杂的 ML 模型。非凡的结果和反馈——来自爱好者和创业公司——导致了 Omdena 的形成,它正式确定了这种社区驱动的合作模式。
参加奥姆德纳挑战赛
作为 Omdena 的合作者,您将与世界领先的合作伙伴一起应对挑战,如联合国世界粮食计划署、联合国难民署、屡获殊荣的非政府组织以及世界各地的新创企业。
开始的过程很简单。首先,你将在我们的网页上选择一个挑战。接下来,您将通过回答几个问题来申请挑战。最后,如果您被我们的全球挑战赛选中,您将会收到通知。
我们的社区已经为一些非常了不起的项目做出了贡献。我们之前面临的一些挑战包括:
- 在尼泊尔与联合国 WFP 一起鉴定作物和对抗饥饿。
- 建立一个端到端的管道,能够直接从火星轨道数据探测器下载图像,并使用深度学习模型分析火星表面的异常情况。
- 构建深度学习模型来识别树木,预防森林火灾,拯救生命,降低基础设施修复成本。
- 了解气候变化、社区被迫流离失所和索马里暴力冲突之间的关系。
- 打造对话式 AI 助手帮助创伤后应激障碍患者克服创伤。
我们的合作者来自不同的领域和专业水平,我们将让他们的反馈为我们说话:
“这是我与 Omdena 合作的第二个项目,这是一条非凡的成长之路!这里的经历真的很有价值。”—Leo,巴西,数据科学家和管理顾问
“感谢你们帮助世界各地像我这样的人实现他们的梦想和目标,同时拥有令人惊叹的导师,并在世界上产生积极影响。”—Gerardo Duran,墨西哥,初级数据科学家
我们如何利用 DataCamp 使我们的社区数据流畅
DataCamp 被我们社区中的许多合作者使用。我们苛刻的现实世界挑战需要强大的人工智能理论基础,DataCamp 允许我们社区中具有不同经验水平的成员在方便的时候以自己的速度学习。DataCamp 提供超过 275 门数据科学和分析课程,相当于 1000 多个小时的学习内容!
DataCamp 的使命与我们的紧密一致:使数据技能大众化,并提高数据流畅性。我们与他们合作,为应对我们的挑战的优秀合作者提供一些关键的好处。
“DataCamp 旨在提供学习数据科学和分析技能的最佳平台。我们希望让每个人都有机会使用这些工具,让数据变得流畅。我们支持 Omdena 的 AI 使命,用数据解决世界上最大的问题。”—Martijn Theuwissen,DataCamp 的联合创始人
参加奥姆德纳挑战赛的好处
通过参加 Omdena 挑战赛,您有机会获得免费的 DataCamp 访问权限。虽然最多可有 50 名合作者参加挑战赛,但我们会邀请最积极参与的成员参加,他们承担领导责任并产生切实的成果,为挑战赛的整体成功做出贡献。
我们还有一个知识分享计划,你可以在一篇文章中分享你的挑战结果,就像这篇文章一样,我们会在我们的社交媒体平台上与我们的观众交流。
最后,您将获得成就证书,并有机会在我们的社区中晋升,担任机器学习首席工程师、社区经理或导师等角色。
最重要的是,你将成为奥姆德纳的合作者,并善用你的技能来解决这个星球上一些最大的问题。
如果你想获得我们的人工智能挑战的更新,获得专家采访和提高你的人工智能技能的实用技巧,订阅我们的每月简讯。你可以在 LinkedIn 、 Instagram 、脸书和 Twitter 上与我们联系。
一个非数据科学家如何学习 R 并以快 3 天的速度提交报告
2016 年,克里斯·卡迪罗(Chris Cardillo)是支持 M & C Saatchi Performance (当时称为 M & C Saatchi Mobile)媒体购买团队的策略师,这是一家拥有 100 多名员工的数字广告公司。他的团队面临一个很多人都熟悉的问题:如何有效地为客户报告聚集数据。
罪魁祸首是多重信息来源。他支持的团队必须从不同的平台上提取和汇编信息,包括社交媒体(脸书、AdWords、Twitter)、广告服务器(DoubleClick)、移动测量合作伙伴(Kochava、AppsFlyer)和网络供应商。很多时间都花在了登录每个平台、下载报告、复制和粘贴数据、用客户关键信息丰富原始数据以及手动对报告进行质量检查上。根据帐户的大小,可能需要一到三个工作日来生成一个可供客户端使用的报告。这个过程冗长、耗时,而且容易出现人为错误。必须做点什么。
将点与数据营联系起来
当时,克里斯说“没有人真正想过使用任何一种编码语言来解决他们的问题。”Chris 偶然发现了 DataCamp:他正在面试分析师,一位有前途的候选人在他的简历上列出了一些 DataCamp 课程。Chris 决定尝试一下 DataCamp,并开始向 R track 的数据科学家学习。
当 Chris 在 R 中感觉足够舒适时,他能够构建概念的证明。当他学习了大约 8-10 门课程(30-40 个小时)时,他已经能够构建小工具,比如一个监控脸书广告活动的工具,以便更快地发现问题。当他对 R 有了更多的了解后,他为一个可靠的客户创建了一个定制的报告解决方案,可以每周使用。然后,随着他熟悉 R 中的其他工具,如 Shiny ,他能够通过部署一个 Shiny 应用程序来扩展该解决方案,以应用于多个客户端。该应用程序包含简单的指示,让他的团队更有效地汇总他们的报告。为了达到这一点,Chris 花了大约 80 个小时在 DataCamp 上学习。
总体而言,这是一种适合 M&C 具体需求的混合方法。M&C 使用 R 来简化他们的报告过程,但是考虑到他们的基础设施没有建立完整的数据管道,仍然需要 Excel。“目标不是消灭 Excel,而是最小化它。”
Chris 还为其他客户设计了专门的解决方案。一个客户的媒体成本计算可能是一个 800,000 行的电子表格,因为一个供应商可能有 500 个不同的站点,并且这些站点根据它们驱动的安装数量获得不同的报酬。因此,10 个供应商 x 500 个网站 x 5 个创意人员 x 3 个 CTAs x 7 天=每周 525,000 行**。Chris 利用在 DataCamp 中学到的技能实施了一个流程来删除站点维度,并在计算成本后汇总剩余信息。当删除站点级信息并进行汇总后,报告从 525,000 行变成了 1,000 行。发送给客户端的文件大小减少了 99%。**
**## 数据营的影响
Chris 使用 R,尤其是 Tidyverse 工具来操作和导入不同类型的数据。影响是巨大的:曾经需要三天的报告现在可以在八个小时内完成。较小的客户报告可以在一个小时内完成。
一旦克里斯用他的新技能证明了效率的不可否认的提高,他就能够说服 Once 萨奇购买一个 DataCamp for Business 订阅。
克里斯在 2017 年被提升为 M&C 盛世长城的战略副总监,但他已经不在那里工作了。现在,他在 DataCamp 工作,是一名支持企业业务的数据科学家。如果你像 Chris 一样是数据营冠军(现在仍然是),请在 datacamp.com/business的了解更多关于如何让你的团队参加数据营的信息。点击此处安排我们平台的演示。
非营利组织如何利用数据营让学习者快速就业
DataCamp 首批捐赠合作伙伴之一是 LaunchCode,这是一家提供免费技术教育和就业机会的非营利组织,总部位于密苏里州圣路易斯市。DataCamp Donates 是我们向那些在当今严峻的经济形势下需要帮助开始 STEM 职业生涯的人捐赠优质 DataCamp 订阅的计划。八个月后,我们在全球捐赠了超过 21,000 份订阅,我们见证了 DataCamp 如何帮助当地社区的人们实现职业目标。
LaunchCode 的社区参与经理 John Woolbright 表示:“DataCamp 与我们在 LaunchCode 的使命非常契合,即为任何希望学习编程的人提供免费教育,不管你在参加 LaunchCode 课程之前有什么经验。“当我们开始合作时,我们几乎没有人支持想要在堪萨斯城学习数据科学的人。从那以后,我能够让我们的学生从 web 开发过渡到数据科学,以获得更广泛的学习体验。”
在 DataCamp 上实现高参与度和高采用率
这种合作关系在他们的许多学习者中一炮而红。“我很高兴能有一个个人和职业发展的新途径,”Forest Roberts 说。
像珍·墨菲这样的其他学习者锁定了特定的课程。“Seaborn 数据可视化简介”用清晰的视频解释概念。实践学习是以这样一种方式建立的,即每个问题都需要我作为一个学习者付出更多。到最后一步,我已经自己提供了几乎所有需要的代码。”
成为 DataCamp 捐赠合作伙伴所带来的兴奋感导致了极高的采用率和参与度。“我们的学生非常喜欢 DataCamp,并发现花在该软件上的时间非常有价值,”John Woolbright 说。数字不会说谎——LaunchCode 的学员平均每人已经完成了四门数据营课程(此外还有 launch code 自己的计算机科学和编程课程)。
DataCamp 为工作准备培养技能
LaunchCode 社区的一些成员甚至利用从 DataCamp 捐赠合作伙伴关系中获得的技能找到了工作。Megan Cullins 第一次开始学习 LaunchCode 和 DataCamp 时,她已经在一家办公家具公司工作了九年。她完成了 50 门 DataCamp 课程,积累了 322,000 XP 来扩展她的 Python 技能。“经过几个月的学习,我有足够的信心去面试,并最终在一家数据分析公司找到了工作!在这门课之前,我对 Python 一无所知,但由于 DataCamp,我能够诚实地告诉面试官我确实有经验,这帮助我在他们公司找到了一份工作。”
约翰对梅根能够获得一个职位并不感到惊讶。令人印象深刻的是她和其他人做好工作准备的速度。“我们从 9 月份开始为堪萨斯城推出 25 个席位。让学生入职轻而易举。到年底,四名顶尖的 DataCamp 学员获得了数据科学领域的工作,他们之前没有任何经验,只在 DataCamp 学习了三个月。”
Megan 没有忘记在 DataCamp 上学习的时间和工作准备之间的相关性。“我觉得我进入 DataCamp 绝对有助于我找到工作,”她说。“我在 DataCamp 上学到的知识每天都应用在我的工作中,我喜欢它!”
要了解更多关于数据营捐赠的信息,请阅读我们最近的博客文章宣布向非营利组织捐赠 20,000 个许可证,以及数据营捐赠常见问题。代表组织申请,邮箱 【邮箱受保护】 。如果你住在大堪萨斯城和圣路易斯地区,想要免费的数据科学教育,或者你想直接支持 LaunchCode 的努力,请访问www.launchcode.org。
一名跨性别活动家如何使用 DataCamp 支持委内瑞拉 LGBTQIA+社区
委内瑞拉 LGBTQIA+社区面临的挑战
委内瑞拉正在经历的情况是极其悲惨的,被经济学家称为 20 世纪中期以来在一个没有战争的国家发生的最严重的经济危机。食品危机、不稳定的医疗体系和不断上升的失业率让这个国家的生活变得更加艰难,如果你属于 LGBTIQ 社区,就更是如此。在我国危机的不同后果中,还有因我的性别身份而受到歧视的问题。我不可能在足够的条件下找到一份工作来养活自己。在委内瑞拉,任何我称之为“普通工作”的普通商店或办公室工作对我们 LGBTIQ 社区来说都是不可能的,因为我们受到歧视,甚至不会被视为真正的工人。我们唯一的方法是瞄准更大的国际公司,并拥有我们高度精通的特定技能。这样一来,我们的专业知识就胜过了我们的个人身份,招聘人员别无选择,只能承认我们是求职者。因为这个和我的研究,我需要开始学习数据科学。事实上,我正在攻读新闻与传播硕士学位,必须写一篇研究论文。自从我开始攻读硕士学位以来,我一直在寻找开始数据科学培训的机会,但一直找不到出路。
米歇尔使用她的免费数据营捐赠访问教育她的社区
在寻找如何学习数据分析的过程中, Yakera 通过社交媒体出现。一个众筹平台,负责创建一个新的模式来释放世界各地的国际慷慨,人们可以创建他们的活动,并接收来自世界各地的人们的捐款。他们已经开始与数据营捐赠合作,我申请了这项奖学金。
DataCamp 已经成为我接触许多大学学位没有提供的知识的渠道。对我来说更有影响的是,由于我可以免费访问 DataCamp,我能够让我社区的另外 12 个人(其中一些是无家可归者)掌握 SQL 技能。
通过数据科学讲述引人入胜的故事的力量
作为安德烈斯·贝略天主教大学的一名新闻专业学生,我不断被要求讲述引人入胜的故事。数据分析是讲述故事的最佳方式,因为它可以召集任何观众,无论他们的背景和世界观如何,达成共识。在大赦国际的一篇文章中,我谴责了委内瑞拉社会中的变性恐惧症:从法律和制度到委内瑞拉文化的根深蒂固,变性恐惧症使得 LGBTIQ 社区的成员很难过上他们的身份每天都不会被质疑的生活。虽然我们可以只从自己的经历中讲述我们的故事,但数据技能让我能够创造一种基于事实和数字的方式来展示面对压迫时的反抗故事。讲述我的故事是最基本的,但有数据证实我的经历可以吸引观众。因此,我应该在这里说 92%的 LGBTQIA+社区成员都是委内瑞拉歧视和暴力的受害者,其中 73%的人因为歧视考虑过移民。
在这个比以往任何时候都更需要积极争取平等的时代,全民数据科学教育是人类所需要的。因此,这些倡议必须持续下去,以惠及尽可能多的人。
我感谢 Yakera 的爱、关注和耐心,感谢 DataCamp 给我机会训练自己和他人。你们的支持有助于我的事业:拥抱一个人的性取向和性别表达不会成为获得服务或机会的障碍的委内瑞拉社会。
对于世界各地的所有非营利组织,让您的学习者和员工能够免费使用数据科学技能讲述更有影响力的故事。立即向 DataCamp 申请捐款:https://www.datacamp.com/donates/apply
AI 新加坡如何发展 AI 流畅国家[信息图]
如果你想了解更多关于新加坡人工智能如何建设一个人工智能国家的信息,你可以在此观看完整的网络研讨会或阅读活动摘要博客文章。
人工智能新加坡如何发展成为一个人工智能流畅的国家
不断学习的文化如何推动 Shopify 的创新
DataCamp 播客 DataFramed 的主持人 Adel Nehme 最近采访了数据科学和工程副总裁 Ella Hilal,Shopify,T2,T3
介绍艾拉·希拉勒
Adel Nehme:大家好。这是 Adele data science,教育家,DataCamp 的布道者。在 DataCamp,我们一直在思考的一件事是,持续学习的文化对数据团队有多重要。与软件工程等其他技术学科相比,数据科学仍然相对较新。
而且太频繁了。现在,我们看到了新的框架、新的工具和处理数据的新方式。这无疑需要数据科学家不断学习的文化。这就是为什么我对今天的节目如此兴奋。Ella Hela 是 Shopify 商业和服务线部门的数据科学和工程副总裁。她是一位经验丰富的数据领导者,拥有丰富的简历,我不能用这个简短的介绍来公正地评价她,她领导过各种项目,是数据分析、机器学习、自主系统和 IOT 等领域的专家。她也是数据科学家不可思议的学习倡导者。
在这一集中,我们讲述了她作为 Shopify 领导数据团队的经历,数据科学家如何培养持续学习的心态,以及数据领导者如何在团队中创造创新空间。她从这些案例中学到了很多,如果你喜欢这一集,一定要评价、评论和订阅,但前提是你现在喜欢它们。艾拉。很高兴你能上节目。
埃拉·希拉勒:谢谢你。来到这里我真的很兴奋。
Adel Nehme:太棒了。因此,我很高兴与您讨论数据科学、供电、Shopify、您的方法、始终学习的心态、您如何领导数据团队等等,但在我们开始之前,我想谈谈您的背景以及您是如何走到今天这一步的。那么,您能简单地向我们介绍一下您的旅程以及您是如何加入 Shopify 的吗?
埃拉·希拉勒:首先,我是一个来自中东的女孩。我实际上是在开罗上的大学,学的是计算机工程。然后我去旅行攻读硕士学位。我在开罗和开罗之间做了我的硕士联合休假。德国的大学,这太棒了。我要学很多东西。我确实在糖业大学学过一些课程。
我参观了德国各地的不同校园。然后我去了,当时我有德日富布赖特的全额奖学金,在加拿大也有 OGs 和 insert 的全额奖学金。最后我来到了滑铁卢大学,在那里我开始了人工智能的机器学习。然后我毕业了,然后我不会带你看我的整个职业生涯,但也许我会给你一些亮点。
我有专利分析和机器智能的博士学位。我以一名开发人员的身份开始了我的职业生涯,因为当我开始研究数据时,科学在当时还不存在。从那时起,我开始领导创新团队,然后开始领导数据团队,然后在一家名为智能机电系统的公司领导数据科学组织。
然后我进入了 Shopify,担任 plus 的数据总监,这是一家大型商家,国际 plus 就像我们的许多大商家一样,如特斯拉、通用电气和一些卡戴珊家族。比如,说吧。任何重要人物都在上面。我们有许多非常了不起、非常有才华的商人在国际上建立自己的品牌。
我们最初的使命是让 Shopify 成为一个完美的市场,适合我们所在的所有市场。我们已经进入了 175 个市场,但我们的初衷是解决当地的需求,而不仅仅是一个平台,一个考虑到商家需求的全球平台。从那里成长为领导增长和收入的组织。现在,我是数据科学副总裁,主管所有商业和服务数据科学。
永远学习的心态
Adel Nehme:鉴于你在 Shopify 担任数据领导者的丰富经验,我看到你谈到的一件事肯定要求 it 部门能够在这样的角色中取得成功,那就是培养一种始终学习的心态,这正是我今天的主题。因此,我很乐意为我们今天的对话搭建舞台,谈谈您如何定义“不断学习”的心态,以及为什么您认为数据科学家在其职业生涯中取得进步如此重要。
埃拉·希拉勒:我认为这是数据科学家能够拥有的最重要的超能力。例如,我与数据科学领域的许多领导者交谈过,他们会说,哦,哦,我的天哪。我们需要一个有博士学位的人,我们需要一个有硕士学位的人。我就想,不要误会我的意思。我有硕士学位。我确实有博士学位,但我不认为这能成为一名优秀的数据科学家。我实际上认为好的数据科学家是具有这种学习者心态和学习者心态的人。我把它定义为能够回去学习的人。不会陷在他们所知道的东西里。他们实际上能够继续收集额外的工具、额外的数据思考格式、哲学和思维模式,随着他们的旅程添加到他们的工具箱中。总体而言,数据科学技术正在快速发展,与工程和其他技术相比,它还处于相对早期的阶段。已经在那里待了很多很多年了。正因为如此,事物在进化。很快。框架发展很快,我们一直在使用新技术和新方法。
诀窍是不要总是知道最新的,但诀窍是能够学习。当正确的问题和正确的设置出现时,新的技术。所以这不是关于闪亮的新东西。这是关于从你的工具箱中挑选合适的工具。如果没有,那就去找到它,得到它,添加它,学习如何使用它。
数据科学家犯的错误
Adel Nehme:那真是太棒了。我很高兴能与您一起分享您在此学到的学习方法。你提到的一件事是,与其他领域相比,数据科学还没有相对成熟,但数据科学本质上是多学科的。你知道,数据科学家需要融合两种广泛的技能才能创造价值。其中之一就是商业头脑,对吧?了解你正在开发的产品,具备沟通技巧,能够与合作者一起解决业务问题,还需要技术技巧,数据科学的基本知识。因此,也许从技术技能开始,因为作为一名数据科学家,这可能是更舒适的成长方式,数据科学家在技术方面的许多成长来自于在工作中实际学习新工具和实验。
但是,正如您所说,鉴于在短期内交付价值的重要性,数据科学家应该如何在应用经过验证和测试的技术来解决问题和学习并试验可能无法在短期内交付的新工具之间进行权衡?
艾拉·希拉勒:所以我会把这个答案一分为二。我几乎相信专注于。通过关注影响,你可以不断迭代。像我一样,我相信增量运输。所以你可以从一个简单的事情开始。你被要求对顶线指标进行预测。你可以用最新的,最酷的,最有趣的论文来研究这个神经网络,它可以让你优化一个有很多参数的超级模型。
然后就像,用它来做一些事情。超调一些回归或什么,你可以用这些,一些非常复杂的技术多层次的权利。但是不要误解我。是的。你学到了很酷的东西。但是你真的解决了商业问题吗?你真的知道如何有效地使用它吗?
你知道有效还是基线?我不这么认为。我认为正确的方法是从最简单的开始,你知道,不太合适的部分。从,然后再进一步。让我们应用一些,一些逗留回归,也许,你知道吗,让我们做一些逻辑回归,也许然后我们,当你迭代时,你理解进度,你理解你的数据,你理解你的不同参数,你理解你正在拉动的杠杆。
然后随着你的迭代,你会发现越来越多,学到越来越多,并且更好地理解你为什么要利用和使用它。我看到数据科学家犯的最大错误之一是试图站在技术的前沿。他们立刻奔向最闪亮的东西,问题是最闪亮的东西并不意味着这是最重要的或最实际的东西,是有效的和成功的。为了在你的工艺中达到这种精通,你需要明白从你的工具箱中拿出什么工具来以最有效的方式解决问题。它不是最花哨的工具,也不是最闪亮的工具,而是大小合适的工具。要做到这一点,你需要建立这种迭代意识,即增量运输。随着时间的推移,您会变得更好,因此您可以使用更复杂的技术。更复杂的技术实际上有时会让你看不到为什么它会以这种方式运行,因为它是一个黑盒。
就像你花了很多时间试图向它扔东西,但事实是你在向墙扔东西,而你真的试图了解你在拉什么杠杆。说到底,任何机器学习模型实际上都是多维度之间的高线性拟合,或者像二维内的超平面拟合。
这是线性数学伙计们。是数学。这不是,这不是火箭科学,这是数学。如果你明白这一点,那么任何新技术都不会闪闪发光。你需要理解基本的数学来选择,为了理解基本的数学,你可以从最复杂的方程开始。你需要从那里开始,然后继续前进。所以带着这种心态,我认为你倾向于整合和忘却。我和我的团队做的第二件事是。我们使用 BLT 时间或 hack days,或者是 paper programming time,这是学习新事物的好方法,data digest,人们可以在这里展示他们的工作并互相教授,或者 hack days,你可以尝试新事物。
所以,你总是需要在新的预定空间里有一些空间,去选择新的东西,去实验。但是在日复一日的工作中,你也可以通过迭代、通过突破界限以及通过实验来学习。但是不要从你不能调试和理解它为什么工作的东西开始,或者从简单和迭代开始。
Adel Nehme:这里有两个框架。第一个框架是不断迭代,从简单开始。解决方案和避免闪亮玩具的诱惑,因为我认为许多数据科学家陷入了简历驱动的发展道路。第二个框架也是作为一个领导者,为团队创造分享知识和试验新工具的空间,这些工具可能闪亮也可能不闪亮。我可以全程展示作品吗?对吗?
埃拉·希拉勒:是的,完全正确。不管是好是坏,如果你理解了为什么你理解了数据集的分布,你就可以迭代。您可以有更好的方法来增强现有的算法,甚至是新的。
持续改进框架
Adel Nehme:现在就商业敏锐度而言,我认为这对数据科学家来说是一项更具挑战性的技能,因为它融合了沟通技能、协作、产品意识等。这不是你能学到的东西。这在数据科学教育中是必不可少的,这不是一个有技术头脑的人可能会倾向于什么是框架和心智模型以及类似的东西,团队中的机制对持续提高技能集也很有用。
埃拉·希拉勒:我喜欢这个问题。我无法告诉你我有多爱这个问题。所以我认为最重要的事情是。重复就像作为数据科学家,我们需要关注结果,而不是输出。我知道这句话很简单,但它是如此真实。我们花了很多时间关注算法的发布,但我们没有发布业务影响。
我们不关注业务影响,这是结果。我们专注于算法的发布。因此,为了让我们自己与业务影响联系起来,我认为我推荐给每个人使用的关键工具之一是五种方法,我实际上引用了很多。你需要理解我们为什么要这么做,你真的想从一个人类的角度来讨论这个问题。
举个例子,如果我想告诉你,给我造一个推荐引擎,这是 PM 产品经理可以说的一句话,就像,问题是为什么。然后你可以说,我们需要为商家主题推荐主题,这就像,你的模板是什么?那么,那么另一个问题是,我们为什么要节省时间呢?当你继续对话时,你会意识到当商家开始他们的商店时,他们最大的摩擦点之一实际上是选择正确的业务使用什么主题。
他们想让它独一无二,但他们想。有用。他们想让它适合他们正在销售的产品,但他们仍然想把他们的闪光放在它上面。因此,像这样的智能合作伙伴,像这样的自动化,智能推荐助理类型的算法,往往会节省他们很多时间,实际上也成为一个共鸣板。
这对商人来说是一个真正的影响。当你明白你实际上可以从什么开始?你其实不需要推荐工程师。也许我们可以从排名开始,然后从那里开始。然后随着你获得排名,也许下一次迭代会是一个完整的推荐引擎,对吗?
就像这样,你可以随着时间的推移不断迭代,知道你试图推动的结果,并使用你的技能集和你在第一步中建立的这个庞大的工具箱,能够做出正确的事情,而不是对特定的 AC 请求采取行动。商业敏锐性也建立起来了。出于好奇,没有其他黑客。
我可以给你一大堆框架,但所有这些都是建立在我们问问题、要求理解驱动因素、关注结果,而不仅仅是我们在运输什么的基础上。这有很大的不同。你也会看到和你的对手在参与度上的巨大差异。因此,如果你和产品经理一起工作,就要看到他们以不同的方式与你互动。
如果你在一天结束时与工程师甚至销售代表或任何人一起工作,你也有一个共同的语言,这真的很重要,不管技术或非技术的业务问题或业务敏锐度,业务问题是共同的,并且由在某个小组工作的所有技术人员共享,所以现在你的语言从像数据科学技术语言变成了跨部门共享的业务通用语言。所以这种结合,这种联系,这种排列变得更加放大和快速。
Adel Nehme:那真是太棒了。我喜欢这样。你将展示的框架的好处在于,通过将业务问题分解为多个组成部分,比如五个为什么,还可以将技术解决方案分解为多个组成部分,并在此基础上进行迭代。
埃拉·希拉勒:完全正确。还有你,你要明白司机不仅仅是。由首相翻译。所以首相听到了什么,然后回来了。就像,我,我昨天在一次谈话中,有人过来说,我想要一个神经网络。就像,为什么。然后当我们开始谈论它时,就像,是的,他需要做分类,也许是神经的,网络不是数据集的最佳选择。
因为任何机器学习模型都有其潜在的统计数据。所以也许我们过于复杂了。嗯,我们只是,这是线性数据。我们只需要简单得多的东西。所以这是,这是关于理解的对话,也是理解。当你在讨论时,因为你在谈论人,用法,比如说,如果我们回到主题的推荐引擎的例子,它也做了一个假设,当你问这些问题时,你会假设商家什么时候会在他们旅程的什么阶段使用它,他们做得足够早,对吗?
好像他们还不习惯购物。你会明白他们,他们也许不会。他们生意的完整主题。因此,也许这实际上让你对不同的排名或推荐产生了另一种想法,或者类似的,你可以在单独的步骤中为他们提供额外的工具,使这一步对他们来说更容易,对吗?喜欢它可以给你这种感觉,商人的旅程和周围的信息。因此,您可以构建这些不同的组件,不仅可以看到产品,甚至可以看到周围产品的生态系统。
Adel Nehme:那真是太棒了。在去年的播客中,我们请到了 go check 的数据科学副总裁 Shri Bahar,他也是一个高度数据成熟的组织。他提到的一件事是。将数据科学家嵌入到不同的业务团队中,仅仅是因为它支持通用的业务语言。它使数据科学家能够参与他们正在开发的这些解决方案的游戏。你同意这种世界观吗?这种世界观对你在 Shopify 的工作有何影响?
ella hil al:Shopify 的数据科学领域是一个集中的行业。但是我们和嵌入式团队合作。这意味着什么呢?每个团队都嵌入到他们自己的组织中?原因是他们需要接近业务问题。数据科学不能躲在一堵墙后面,在那里你用问题扔东西,并期望在另一边得到正确的答案,因为即使是基本的问题也有一个假设。举个例子,如果我告诉你,我们商家网站上的买家怎么样。所以买家是从我们的商家那里购买的顾客。商家是我们自己的客户。对吗?很简单的问题。买家的定义是什么?是来结账的那个吗?是刚进去浏览的那个吗?这是一个会议开始,有人只是顶上,然后离开吗?买家的定义是什么?所以有了这些讨论和理解,就像接近问题空间有助于建立第一,这种更好的心态和对事物如何工作的理解,使数据科学家能够更好地完成他们的工作,在不同的群体之间创造了一种共同语言,并创造了对产品本身如何工作的进一步、更大的好奇心。
管理权衡
Adel Nehme:太好了。我喜欢这样。真的,我认为这标志着 Shopify 的数据团队如何平衡他们的技能,并采用这种学习,总是学习的心态,你谈到过回到权衡,也许是短期优先事项和长期创新投资之间的权衡。作为一名领导者和你自己的团队,你如何处理这种权衡,你如何为你的团队创造时间来试验新技能?你能给我们介绍一下这些程序的细节吗?
埃拉·希拉勒:是的,那很好。有很多不同的项目。所以我们有线索了。我喜欢这东西。我在很多年前做过这个,大概有七八年了。从那以后,我一直在我领导的每个团队中使用它。这叫做迷你短跑。这个想法类似于黑客日的想法,嘿,黑客日是每个人都来建造的,但是你不需要总是调用大规模的黑客日。团队中有人有一个想法,我们相信它。比如说,你知道吗?我,我可以把这个提高 20%。我只需要几天时间。我们可以调用迷你冲刺。那个人现在调用 mini sprint。所以这并不是说他们会自己去做。你可以召集不同小组的人,像你们一样说,四个人,有这个愿景,用它做一个迷你冲刺实验,然后回来。
所以投资小。投资两到三天。有时我会坚持一周,但通常,就像是一个尖峰。这是一个。但它的价值是,它的交叉团队不一定是特定的团队。它也在不同的团队之间建立了紧密的联系,同时也为快速创新和实验创造了空间,以证明类似于钉鞋的行为。但是,它不是在同一个组内预先计划的,而是在整个组内进行的,并且由重要的业务调用。或者一个问题。所以,这让很多像我们这样的人快速试验,快速失败,并感到前进,对不对?我们是这里的场景,这个团队,这四五个人建立了一个纽带,我们通常使人多样化。
因此,通过这种方式,我们继续在不同的团队之间建立纽带和联系。这是最坏的情况。最好的情况是学习一些非常有用的东西,无论是积极的学习还是消极的学习,就像学习没有用的东西或学习有用的东西。所以这是,这是一个很好的方法,可以促进实验。
但我们也有一个非常具体的周期,我们称之为金库项目,这是提案原型。然后我们进入建筑。构建是我们正在为长期构建而构建的,我们能够构建健壮、可靠的工程系统,但在原型中,这是一个正常的周期,正常的冲刺或两个阶段,但在原型中是你快速站立的阶段。解锁。通过命名。所以我跟你们分享的是两种实验技术,以及快速实验和长期构建之间的区别。我为什么这么说?因为对两者都有命名,对两者都有阶段,有意识地对它们都进行命名,可以让我们专注于我们。
问题是,当你快速构建某个东西,却把它放在一边,忘记了它是快速的 hacky,这就是技术债务产生的地方,你需要解决这个问题。你需要为它有词和名字,你需要有意向性。你需要区分这两个阶段的输出质量,相应地,如果你有一个原型的输出,期望它在一个。
如果你幸运的话,如果它不是阿尔法,但在生产周期或建筑周期的输出,它是一个完全生产的系统。所以它更强大,更可靠。所以有了这个,有了意向性,当你在构建你的路线图时,你就。清楚地指出这是在哪个阶段创造了空间,意图让你快速发货以解锁业务,但也为更长期的计划和迭代。
也许有一件事我想在这里提一下,因为我知道很多数据科学家都有这方面的困扰,即席提问往往会占用人们大部分时间。我认为有很大的机会。小姐,当我们回答成人问题时,我们讨厌他们,这没什么,就像,我知道他们是破坏性的,但我们只是走开。
但事实是,ADHA 问题之所以出现,是因为有一个系统缺失了,或者说有一个系统被打破了。如果我们停下来或思考一下,也许可以做一个 RCA 根本原因分析,比如和大家坐在一起,比如,你认为我们为什么会得到这些。缺少什么。您可能会发现缺少特定的报告。您可能会发现缺少特定的工具,因此您可以将这些快速类型的问题转移到系统构建中,目的是减少这些问题。如果你能有效地做到这一点,你可能会喜欢,我有一些案例,我们非常成功地将成人问题减少了 70%或 80%。
Adel Nehme:哇。那真是太棒了。我想从某种程度上解开你们已经制定的许多不同的倡议和计划,也许从迷你冲刺开始。在这种情况下,作为一名领导者,你如何确保时机成熟?迷你短跑队,对吧?你提到了人们联系在一起的最坏情况,但你如何在我们需要在本季度实现的绝对目标和我们需要在本季度实现的小冲刺空间之间取得平衡?你用的气压计是什么?
埃拉·希拉勒:我喜欢这个问题。这也是迷你冲刺的一部分,就像我的债务一样,无论何时你有一个想法,它都不是随机的。你有一个想法,然后你就去实现它。你需要把它泡掉,在你的引线上反弹。如果是这样的话,这是一项投资,因为你,你从来没有自己运行它。你来经营。和更多的人一起。所以这是意向性的,通常,因为我们让它可见,它不是这个作品的一面。我们开始了解迷你冲刺的开始,因为有一个 raw。就像,嘿,我们要开始一个小冲刺了,哒,哒,哒。然后在结束的时候,人们会发一份迷你冲刺的总结。因此,它创造了一种主人翁感和责任感。所以人们不只是随意的跑着做这些,因为它看不见,因为它是可见的,人们想做好工作。因为它被传达了,人们会有意地考虑,它是否值得。
处理临时请求
Adel Nehme:也许会涉及到您的回答系统构建和特别请求的最后一个要素。我知道这是数据科学家非常讨厌的事情。这是怎么做到的,你在这里提到,肯定像特别的请求创建,创建连接,以了解我们需要什么系统来提供我们需要提供的工具。请向我们介绍一下自助分析可以如何解决这些问题。临时请求的权利,也许可以向我们介绍一些例子,更详细地说明您是如何将临时请求减少 70%的。因为我知道有很多数据领导者在听这个节目,他们想知道这个秘密。
埃拉·希拉勒:非常乐意。因此,事实上,没有真正的业务需求,临时问题是不会出现的。如果是的话,我们应该拒绝。不,谢谢。我们有其他更重要的事情要做,但如果他们是为了业务需要而来,让我们看看是什么。正在重现。我们能看到什么?例如,有一件事让团队和当时的 plus data 团队非常恼火,那就是我们以前每次做电子邮件营销时,我们都需要获得一份电子邮件列表,这是一个 PII,所以它需要检查数据,我们需要确保我们进行多次交叉检查,以确保我们尊重那些选择加入和选择退出的人,等等。
就这样。在那个时候,因为这个系统在 Shopify 和 plus merchant 之间支离破碎。我们不得不手动执行许多许多步骤。所以这是,这是一个每次需要两到三个小时的问题,这样的问题来了,问题也选择来了。好像他们已经建立了整个活动,现在他们需要它。他们需要在接下来的 24 小时内。马上给我,诸如此类的。所以如果你看这个,这绝对是。系统化的候选人首先,请求需要 X 个工作日周转,除非,除非有例外,第二,系统中的许多这些部分就像有人工验证之类的东西,所有这些都可以自动化。
因此,通过这样做并创建带有正确警报和正确检查的正确报告。我们只是建立了一个系统,现在已经不那么可怕了,也不需要数据科学家的太多参与了。每次我们发电子邮件宣传大规模沉浸感时。这是一个简单的例子。就像你可以一直抱怨,哦,我的上帝,这些问题来了,但只是看到模式和他们每一个来了,并没有带来相同的数据调查。就像,哦,我们在做这个活动。我们需要数据支持。哦,我们在做这个新的活动。我们需要数据支持。同样的事情发生在我们的漏斗里。很简单的问题。你可以,再一次,每次回答问题还是你。没错。非常非常复杂的回答。但是如果你做的次数足够多,你会发现 70%的答案实际上是你在寻找的系统图表。因此,您可以构建一个报告套件。
我用了套房这个词。我不知道,比如说报告仪表板。我说套件的原因是因为您需要考虑您正在构建什么类型的仪表板,以及它们如何相互交互。如果你认为,如果你认为。将报告作为一种数据产品,帮助您走向成功。我这么说的原因是,当你把它当成一个产品时,你会想到用户体验,你会想到导航。你想想正常运行时间。想一想很多事情,实际上仪表板被遗弃在仪表板的黑洞中的很大一部分原因。是因为我们没有考虑这些事情。
我们创建了许多一次性仪表板,因为这很容易,但我们没有在它们之间创建导航。我们并不确定这些答案是连贯的,全面的问题。我们只是希望他们每个人都能回答一个随机的问题,但是我们该如何解决这个问题呢?现在我们需要一名数据科学家来做这件事。
他们决定让他这么做。因为这是可怕的工作,不酷的工作。因此,如果您退一步,从数据产品的角度来考虑它,它现在变成了一个数据产品,它现在变成了一个伴随着它和 ups 运行的所有用户体验,它很容易导航,并且工作得更好。这也是我解决这些问题的方法。我退后一步,看了看,我们的问题问进来了。每当我们看到一个好的收藏,我们就试图通过解决潜在的根本原因来系统化。
Adel Nehme:那真是太棒了。你提到的关键词是产品对吗?数据产品。我认为,当您开发仪表板报告套件时,正如您所提到的,关注用户体验以及您的仪表板将如何被消费是许多数据科学家必然会错过的事情,因为它是人们最终会消费的数字产品。它需要有与人们对数字世界相同的体验或期望。
埃拉·希拉勒:我同意这一点。同样,整个想法是,从数据中思考你自己的经历。比如你是一名数据科学家。我不知道,谷歌分析或者你在你的推特或者你使用的任何工具上使用你的分析。你想看什么,什么对你有意义?如果您开始看到您喜欢的体验的主题,并开始将这些带入您构建的仪表板中,并将这些带入您构建的工具中,它会变得更容易被业务利益相关者采用,使用起来更愉快,从而减少对您的影响。
数据素养的作用
Adel Nehme:我们明确谈到了为更广泛的组织创建这些系统如何有助于减少数据团队的工作量,同时也有助于加快数据驱动的决策,改善整个组织的业务成果。并且自动化了许多不同的任务。非技术利益相关者的数据、文化和组织数据素养在为数据团队的输出创造消费者中起了多大作用。
埃拉·希拉勒:这是一个很好的问题。我告诉你,这有很大的不同。然而,大多数组织喜欢当你开始群体和互动时,类似于任何关系,对不对?就像你不会从每个人都知道如何完美地合作开始。即使他们来自以前的角色或组织,你所拥有的并不意味着喜欢,它只是点击。
因此,通过具有高度的意向性和显示值的重复性,它有助于提升对数据的理解。因此,我们确实在 Shopify 中开设了许多课程,为非数据科学家提高数据科学水平。所以,你是如何理解图表的?或者,如果你感兴趣的话,可以问一下你在 SQL 的情况。
但是我认为关键的,真正的关键是。保持适当的对话水平并展示价值。如果你在谈论复杂的方程式,你会失去一些人。如果你在用一种语言交谈,这可以追溯到商业敏锐度,你可以追溯到谈论商业问题,这是一种常见的共享语言,不管技术如何,人们倾向于听得更多,然后理解得更多。作为我们领域的专家,我们有能力扮演这个翻译的角色,我们从商业的角度来谈论,这并不意味着我们把它拿下来或者不喜欢谈论花哨的东西,而是意味着我们谈论真正重要的东西,也就是业务和对客户、消费者的影响,我不这样认为。当谈到数据科学工艺时,以非常高的精确度进行讨论会在没有人理解时更好地服务于我们,我认为被理解。比你说话时的精确更重要,就像,如果你在谈论你的 F1 分数,你的敏感度,你的精确度和你的假阳性。
你就像,如果你谈论所有这些事情,所有这些,就像我们在日常生活中互相交谈时都使用它们。但是如果你和一个商业利益相关者交谈,你谈论所有的这些和所有的那些,就像在他们的头脑中根本没有记录一样,那么你们都是这次谈话的输家。但是如果你把它简化成真正重要的东西。他们能够将你的学习付诸行动,因为他们理解你的学习。你们都是赢家。所以保持这一点非常重要。
Adel Nehme:我完全同意最后一点。我认为这对数据团队极为不利,因为如果这发生在高管面前,你将失去高管对数据团队的信任,减少对数据团队、长期产出和工作成果的投资。
埃拉·希拉勒:百分之百。所以我要告诉你一些有趣的事情。我真的看到了。例如,一名数据科学家进行了一项实验,该实验被设置为 EB 测试,但当然,任何设置都有某种形式的警告。因此,数据科学家进来分享见解。和 SLT 一起。这是一个真实的故事。
我只是喜欢抽象,而数据科学家希望他们使用的词语非常精确。所以他们进去了,这个实验产生了积极的影响。他们参加这次会议的目的是倡导向每个人推广这个实验。他们进去了,准确地说,为了不偏不倚,他们列出了这么多警告。
事实就是这样,参加会议的人认为这个实验是无用的,他们都喜欢分散注意力。虽然很严谨,但做得很对。有适当的意义。一切都是对的。这就像,再一次,我们,这位数据科学家在他们的脑海中出现了太多,他们用数据科学语言谈论了太多,以至于发生的事情与他们参加这次会议时的意图相反。
Adel Nehme:这是一个伟大的故事。可能会更好的说,你知道,嘿,我负责这个实验。这是我们应该做的。这是你能做的。这就是 exp,和预期的一样。如果你想看附录,这是附录。
埃拉·希拉勒:没错。或者,即使你想说警告,也没关系,但不要列出你做的每件事。
阿德琳娜:对。
埃拉·希拉勒:可能在全世界都发生过,只是以防万一,就像专业人士一样,就像它不起作用一样。
数据科学中有趣的用例
Adel Nehme:这是一个很好的例子。现在,Ella,当我们的聊天接近尾声时,我一定要谈谈你在 Shopify 的商店中处理的一些数据科学用例。那么,你开发的可以公开分享的最具影响力的数据科学解决方案是什么?
埃拉·希拉勒:当然。哇哦。有很多很酷的。所以我可以肯定地告诉你,我们谈了很多关于 Shopify capital 的事情,Shopify capital 为商家提供贷款,帮助他们扩大业务规模,这太棒了。已经很过时了。这无疑对商家及其生活产生了巨大的影响。我们还有 Shopify balance。
我们确实有我们的产品分类,以及我们的受众,我们称之为受众,这就像是让商家更好地营销,这是商家在广告支出上的投资回报,这样他们就可以实际扩展,这非常非常酷,因为把它想象成原始工具。构建 Ross 组织通常要么是非常数据驱动的。因此,他们已经有了大型数据团队,或者他们使用第三方工具来帮助他们。这实际上是 Shopify 产品的一部分,非常酷。我个人非常兴奋并投入其中的一些,比如其中一些是内部的,比如我们自己的预测算法家族。
就像在现在的经济环境中,预测 G 或者预测 Mer 商家数量或者任何一个都是相当困难的问题。所以这很酷。另一个是最佳下一步行动,即推荐引擎。我告诉过你,这是 Shopify 商家开始的时候。创业不易。失败的可能性更大,因为就像创业很难一样,not Shopify 的目标是让创业尽可能简单,尽可能消除障碍。正因为如此,就像我们有这个推荐引擎,这是最好的,最好的下一步行动,可以帮助你。在你的早期旅程中成为你的伙伴,确保你在 Shopify 和创业方面有一个成功的开端。因此,有很多事情值得兴奋和自豪。
Adel Nehme:我喜欢这些用例。我最喜欢它们的一点是,当然,Shopify 从这些用例中产生了很多价值,但它也为潜在的创业者提供了很多价值,如果没有这些用例,他们可能不会成为创业者。这很令人惊讶。回到这一集的主题,这是我的最后一个问题,你从这个项目中最大的收获是什么?
埃拉·希拉勒:是的,这是个很好的问题。所以仔细想想,我会说第一点,正如我之前分享的,从简单开始,因为当你开始时,简单地创建一个基线,你就知道用最低的摩擦点可以做什么。所以,即使是像“最佳下一步行动”这样的东西,我们也没有从目前最先进的算法开始。我们刚开始。好吧。不如我们。这些组织了这个列表。就像我们要做的分析,就像武力组织他们。然后也许我们可以自动堆叠它们。然后也许我们把这个机器学习输入进去,然后我们在上面创造它。所以从简单开始让我们明白了影响。
我们通过实验。所以我们在迭代的时候知道了值,确保我们检查了我们的假设。所以第一,从简单开始。第二,实验学习,迭代也不要陷入证实偏差,对吗?我想确认一下,你是不是真的在最后检查内脏。创造一个实验和小型冲刺的空间实际上每次都会让我感到惊讶。像我一样。我是它的大力支持者。我们很多很酷的内部解决方案都是从一个迷你的 sprint 开始的,然后发展成为一个完全生产化的产品。所以这非常有帮助,我肯定会鼓励我们继续这样做,也鼓励其他人这样做。
Adel Nehme:那真是太棒了。也许,你知道,就个人而言,你从一个个人贡献者变成一个管理数据团队的人,最大的收获是什么?因为那也是一个跳跃。在数据科学中,这一点谈得不多,也不知道你作为数据领导者面临的挑战和不同领域。
埃拉·希拉勒:老实告诉你,每一天都是一次学习,但我会告诉你,当我做这种转变时,我多年前就这样做了,但我认为最困难的事情是,我仍然看到那些从个人贡献者转变为领导者的人,嗯,挣扎的是知道信任,放手,为他人创造这个空间。
作为一个个体贡献者,有时要学习和向前,尤其是当你处于行业的顶端时。这就是为什么你被提升为经理,你认为这就像,哦,你就像,我能在 15 分钟内做到。是的,你能做到。也许你可以在 15 分钟内完成,而其他人可能会在两个小时内完成,这是你做的八倍。
但是,如果你让他们今天在八个小时内完成,明天,他们会在两个小时内完成,也就是八倍的时间。比如,如果你让他们花两个小时做,明天他们会花一个小时。后天他们会在半小时内完成。然后你熟练了自己。作为一名经理,不要忘记你的工作是通过其他人工作,并在你周围提升他们,因为这不是,就像最好的经理不是桌子上最聪明的人。
最好的经理是那些身边有非常强大的人的经理,团队中的每个人都互相激励。这是一个重要的提醒。这不仅仅是雇佣优秀的人,并摆脱他们的影响。我知道这是史蒂夫·乔布斯非常流行的一句话。雇佣优秀的员工,给他们学习的空间,提升你的水平,你也提升他们的水平。
所以这是一个共享学习的环境,我总是称之为协作智能,因为你们聪明地聚在一起。
行动呼吁
Adel Nehme:这是一个非常棒的结局。现在终于。在我们结束今天的节目之前,你还有什么最后的行动号召吗?
埃拉·希拉勒:我能说的是,也许我最后的行动呼吁是,数据科学是一个伟大的领域,我们可以做很多事情来塑造它。所以玩得开心。不要拘泥于一个工具或方法,或者只是喜欢。专注于业务问题。这是我们的超能力。我们是问题解决者,数据科学家是问题解决者。
所以专注于此。我想很多好事都会随之而来。
Adel Nehme:非常感谢。我很幸运得到了数据。
埃拉·希拉勒:谢谢你。我很高兴来到这里,我很高兴有这次谈话。非常感谢你邀请我。
数据发现工具如何实现数据民主化
当今最成功的组织都非常依赖数据来做出决策。许多这些数据流畅的组织每天都会生成数百万行数据,供各种团队使用和分析。让团队具备访问和使用数据的能力的关键挑战之一是确保数据是收集的、可信的、可靠的、可操作的和可发现的。
为了驾驭这些复杂的数据环境,许多组织开发并开源了内部技术,称为数据发现工具。
在最近的网络研讨会中,DataCamp 的产品研究副总裁 Ramnath Vaidyanathan 描述了组织如何从数据反应型(没有人拥有处理数据的技能或权限)发展到数据流畅型(每个人都拥有处理数据的权限和技能并做出数据驱动的决策)。组织可以通过对 IPTOP 框架的投资来提高他们的数据成熟度:基础设施、人员、工具、组织和流程。随着组织通过投资数据基础架构来扩展对数据的访问,他们将需要使用数据发现工具来提供轻松的数据发现能力。
如果人们无法访问数据,如果他们不了解所收集数据的背景,如果他们找不到他们需要的东西,那么数据就是无用的。这就是数据发现工具非常重要的原因。Ramnath Vaidyanathan,DataCamp 产品研究副总裁
数据流畅的公司如何使用数据发现工具
许多数据驱动型公司已经在其数据基础架构中实施了数据发现工具。让我们来看看像优步数据手册和 Lyft Amundsen 这样著名的数据发现工具背后的动机和驱动因素。
要考虑的数据发现挑战
一个关键的数据发现挑战是生产效率和合规性。 Lyft 概述了随着其数据规模呈指数级增长,并且预计至少在未来 10 年内将继续以类似的速度增长,Lyft 将面临这些挑战。在开发 Amundsen 时,他们注意到分析师大约 25%的时间花在数据发现上。他们还发现,他们所服务的国家对合规性的要求越来越严格。
优步表达了类似的担忧,因为它开始超越其作为拼车应用的主要功能,向优步 Eats、优步货运和 Jump Bikes 等服务扩张。在开发 Databook 时,优步每天有超过 1500 万次旅行,不同团队有 18,000 名员工。另一个挑战是它的数据以许多不同的形式存在,包括蜂巢、普雷斯托和 Vertica 。分析师需要能够有效地访问和理解各种数据源,以实现数据流畅。
脸书建立了其 Nemo 数据发现平台,以满足随着不同角色和地理位置的数据量和复杂性的增加,对高质量、值得信赖的数据的需求。由于与他们分析的数据相关的隐私问题,脸书还面临着重大的法规遵从性问题,在向特定分析师提供表格时必须解决这些问题。
来自 Airbnb 的约翰·博德利在 2017 年会议的一次演讲中说“随着 Airbnb 的发展,围绕数据的数量、复杂性和模糊性的挑战也在增加。”这意味着员工经常发现数据是“孤立的、不可访问的和缺乏上下文的”因此,员工会制作重复的表格,如果不信任数据,就不会使用。Airbnb 开发了数据门户,通过消除生产性数据分析的这些障碍,帮助显著提高数据发现过程的效率。
这些挑战普遍存在,不受行业限制,适用于任何希望扩大数据驱动型决策的组织。随着组织希望实现数据流畅,对易于发现的数据的需求将变得至关重要。
数据发现工具的四个关键目标
现在我们已经了解了数据发现挑战,让我们看看各种数据发现工具是如何应对这些挑战的。优步将成功的数据发现平台的目标分为四个部分:
- 可扩展性:轻松向表中添加元数据、存储和实体的能力
- 可访问性:以编程方式访问所有元数据的能力
- 可伸缩性:支持大量并发读请求的能力
- 电源:支持跨多个数据中心的读写请求的能力
随着组织数据能力的成熟,实现这些数据发现目标的机会越来越多。随着数据规模的增加,这些组件变得越来越重要。
Lyft 和 Airbnb 提供了详细的元数据
Lyft 的工程团队认为“元数据是未来应用的圣杯”他们将元数据分成两个子类别。第一个是描述性数据集,由应用程序上下文(即,人们需要了解数据的哪些内容才能对其进行操作)、行为(即,谁拥有特定的数据集及其常见的使用模式)和变化(即,数据集如何随时间变化)组成。第二个组件是所描述的数据,即以任何格式存储在组织中的任何数据,如数据存储、仪表板、数据流等。
在开发 Airbnb 的数据发现平台 Dataportal 时,元数据是该平台对数据管道的附加值的一个组成部分。在引入 Dataportal 之前,由于缺乏上下文和元数据,许多员工不信任他们使用的数据。Airbnb 认为,“对整个数据生态系统的理解,从事件日志的产生到可视化的消费,比其各个部分的总和提供了更多的价值。”
资料来源: Airbnb
通过数据发现确保高质量的搜索结果
一旦提供了这个上下文,数据发现就需要有效的搜索。无论每个表多么值得信赖和易于理解,只有当分析师能够快速找到他们需要的数据时,数据发现平台才有用。
Lyft Amundsen 的登录页面允许用户使用自然语言查询来搜索表格,并提供组织中最常用表格的可见性,以便快速访问。此外,分析师可以选择在表格上留下反馈,以调整未来的搜索结果。
脸书的数据发现解决方案 Nemo ,允许分析师对数据的使用、隐私限制和新近性进行过滤,同时还利用了脸书在自然语言处理方面的能力,允许用户在搜索栏中键入问题以获得相关表格。
优步数据薄允许分析师根据名称、所有者、列和嵌套列等维度进行筛选,从而实现类似的搜索筛选功能。优步利用弹性搜索快速有效地提供搜索结果。
通过数据发现实现数据民主化
扩展数据流畅性和数据可发现性是相辅相成的,因为分析师需要轻松访问数据以做出基于数据的决策。
数据成熟度较低的组织应该专注于培养数据技能和文化,并扩展数据基础设施。然而,随着组织在其数据成熟度之旅中取得进展并扩展数据访问,支持可扩展和可伸缩的数据发现将是成为数据驱动型组织不可或缺的一部分。有关提高组织数据成熟度的所有手段的深入讨论,请观看我们关于数据流畅之路的网络研讨会。
数据领导者如何构建有效的人才战略
凯尔·温特伯顿是“数据驱动:播客”的主持人,Orbition 的创始人兼首席执行官,Orbition 是一家人才解决方案提供商,为英国、欧洲和美国的数据、分析和人工智能团队提供服务。作为一名在人才获取、吸引和保留以及扩展数据团队方面卓有成就的专家和思想领袖,Kyle 被 Data IQ 评为 2022 年 100 名最具影响力的数据人物之一。
Adel 是 DataCamp 的一名数据科学教育家、演讲者和布道者,他在 Data camp 发布了关于数据分析、机器学习和数据工程的各种课程和现场培训。他热衷于在整个组织和技术与社会的交叉点传播数据技能和数据素养。他拥有数据科学和商业分析理学硕士学位。在他空闲的时候,你可以发现他和他的猫路易斯在一起。
Adel Nehme:大家好。这是 Adele,一位数据科学教育家,也是过去一年 DataFramed 的数据营主持人。我有幸采访了许多数据领导者和从业者,讨论如何成为数据驱动的。一个共同的主题是,我总是把事情归结到人的一面,无论是提高技能还是招聘。
成为数据驱动型企业是一项人才战略,也是一项技术战略。这就是为什么我对凯尔·温特博特感到兴奋。在今天的节目中,凯尔是“由数据驱动”播客的主持人,也是 Ambition 的创始人兼首席执行官,这是一家人才解决方案提供商,为英国、欧洲和美国的人工智能团队提供扩展数据分析。
在这一集里,我们谈到了与构建数据团队整体人才战略相关的几个主题,包括雇佣和招聘、提高数据团队的保留率以及如何提高技能。如果你喜欢这一集,评价和订阅该节目,但只有当你喜欢它。
此外,请查看我们本月准备的关于构建数据驱动型组织的内容。这与我们在节目中谈论的主题有很大关系,现在我们来看今天的这一集。凯尔,很高兴你能上节目。
凯尔·温特伯顿:非常感谢你邀请我。期待我们的聊天
Adel Nehme:我很高兴与您讨论建立有效数据团队的所有事情,组织应该如何处理招聘、保留、招募、数据、人才以及您领导 Orbi 和主持驱动的工作...查看更多
By Data podcast. But before, maybe you can give us some background about yourself?
凯尔·温特伯顿:在过去的 12 年里,我一直在数据和分析人才和招聘领域工作。我想是的。野心是一个精品人才解决方案业务,在这个世界上独家经营。所以我们的总部在英国,但是我们有。在美国有业务,在英国、欧洲和美国做了很多工作。
我想我们所做的大部分工作都是在中高级水平上完成的,而且经常是大规模的。因此,组织通常会组建自己的数据领导和管理团队,然后组建高级技术团队。所以这可能是,我不知道,以一英尺 C 100 或财富 100 为例,想雇用。
12 个月内有 40,50,60 人。对于希望在未来两到三个月内雇佣 8 到 10 人的中型企业来说,规模可能会更小。例如,它可能是一个寻求任命首席数据分析官的组织。所以我们业务的三个组成部分。
是的,正如你提到的,日常业务之外的基础是我们努力服务的社区元素。所以我们有我们的播客,我们的活动系列,我们的导师计划,以及与大学的合作,试图提高人们的意识等等。
所以,大致来说,这就是我的一点点。
Adel Nehme:太好了,有很多内容要介绍。因此,我想先了解一下数据人才的招聘和保留情况,为今天的谈话做个铺垫。2022 年,我们正处于疫情的背景下,远程工作的兴起,大洗牌,大辞职,现在我们面临经济低迷。
那么,也许用你自己的话来说,你会如何描述 2022 年雇佣和留住数据人才的前景,以及它在过去几年中是如何发展的?
凯尔·温特伯顿:有趣的问题。我认为过去的 18 个月,如果用一个词来概括,那就是疯狂。我认为这很有趣,因为我每天都和那些在疫情之前可能没有进入过就业市场的人交谈。我被问到的第一个问题是,疫情之后的市场现在怎么样了?
这很有趣,因为我认为数据和分析是非常幸运的。很明显,我们与组织一起做的这么多工作,在疫情开始后有一个自然的停顿。所以当人们发现。这是怎么回事?这要持续多久,等等。
但在几个月内,这一领域的招聘就恢复到了正常水平。然后很明显,你知道,2021 年开始。从那以后,它就像这样走上了轨道。所以这肯定是疯狂的,但增长水平和招聘也是如此。我们总是会看到自然的修正。
所以我们,我们现在谈论伟大的辞职。我们谈论潜在的经济衰退。在过去的几个月里,我们确实看到了一点放缓,但我认为这与经济形势没有必然联系。我认为这更像是一种自然的修正。
这一领域的招聘规模和速度无法像过去 18 个月那样持续下去。我认为除此之外的任何事情,我相信我们会更详细地讨论,但在过去的 12 个月里,我们有了更多的关注,特别是试图重新调整我们的重点,以正确地建立数据分析的基础。而不是专注于闪亮的技术人工智能类型的东西,不幸的是,许多企业都被这种东西分散了注意力。
Adel Nehme:是的,当然。我很想在谈话的后一点谈论这个陷阱,但也许在提到过去 18 个月疯狂和不可持续的招聘速度时,数据领域如此高的招聘需求背后的驱动因素是什么,尤其是在过去 18 个月里?
凯尔·温特伯顿:嗯,我认为如果每个商业领袖现在都知道他们要继续繁荣并适应未来,正如我们开始提到的那样,数据将发挥非常重要的作用。不幸的是,说起来容易做起来难,对吧?所以执行变得非常困难。
但我认为,我们发现的是,越来越多的组织开始了数据分析之旅,也有一些组织已经投入了更多的资金。所以它是燃烧的。两种说法同时出现,这意味着有非常多的企业在招聘员工,而不仅仅是一个两个,你知道,多个。
所以我不认为我在过去的一年里和一家企业谈过话。判了 18 到 24 个月。那就是说你有,我们只是想雇一两个人。通常,你知道,我们需要雇用 10 名工程师和 4 名数据治理人员,等等。所以这两种说法的燃烧,需求和供应的缺乏,我认为共同创造了这种,这种大规模的繁荣。
Adel Nehme:这非常令人兴奋。因此,让我们明确地进入关于雇用和招聘数据人才的细节。正如你所提到的,在过去的几年里,你与许多组织合作,填补他们的人才缺口。请向我们介绍一下数据领导者面临的一些主要挑战以及填补人才缺口的方法,您是如何应对这些挑战的?
凯尔·温特博顿 07:17
我认为有一些关键的东西,可能是为了给你一点这个问题的背景。我用了一个类比,数据领导几乎就像足球管理一样,或者我想是任何运动队的管理,对吗?在哪里?对即时回报的要求如此之高,几个月的不稳定都是不成功的结果,人的脑袋都在砧板上,很不幸。
这就创造了这样一种环境,在这种环境中,组织和他们的数据领导者需要雇用能够立即投入工作的人,因为不幸的是,他们没有时间,或者通常没有精力、资金和资源来投入工作。初级人员,更多的入门级人员,等待他们得到发展和培训,尽管这很不幸。
因此,在中高级水平,这是每个企业都在努力招聘的地方。很明显,正如我之前提到的,大量的企业在寻求招聘,事实上他们正试图以倍数招聘,事实上没有足够的人。工作比其他工作更能磨练人。
但这导致了现在的这一点,那里有这样的需求,那里没有足够的人。因此,我们面临的挑战是,我们处于一个人才短缺的市场,但这是数据领导者能够做到的唯一方式。去并开始快速增加价值是通过雇佣那些在一定水平上了解工作的人,他们可以进入工作岗位并立即投入工作,但这些人不够多。
所以这肯定是一个挑战。我认为这是大多数数据领导者面临的挑战的第二部分,也是我们尝试着手的地方。就拿对话来说,你有关于你的才能、你的才能吸引和你的才能获得的策略吗?因为我们发现,不幸的是,大多数企业并没有这样做,大多数企业对自己的需求非常被动。
所以,为什么我们十次对话中有九次你会说,好吧,你希望这个人或这些人什么时候开始?这是昨天的事了,对吗?我总是试着打个比方,如果你问一个企业或数据领导者,你如何获得你的客户?
例如,如果你谈论获得新客户,他们会给你一个非常有说服力的理由。回答这个问题,你知道,我们这样做,我们这样做,整个培养过程,我们有多个接触点,我们试图让他们参与所有这类事情。这正是体育组织应该利用他们的才能做的事情,但他们没有,他们只在有很大的空缺时才会考虑,现实显然取决于你所在的位置,但面试过程是有长度的。
经常工作是有通知期的,尤其是在英国,对吗?你会得到这样的组织。他们想雇一个他们昨天就想开始的人,但事实是,他们可能在五个月内都不会有任何人。这显然会带来挑战,对吧?那么,你什么时候需要技能呢?
你为什么需要它们?这些技能应该是什么样的?然后,我们如何开始与这些类型的人接触,以便完成跑腿工作和基础工作,这样当我们真正招聘的时候,我们就能在这个过程中走得更远。这就是我们通常开始的地方。
然后我认为下一个问题是,你有足够令人信服的叙述吗?你是在与成百上千的其他组织竞争同一层次的同一人才。这不仅仅是关于您是否支付合理的费用,等等,使用最闪亮和最新的技术。
因此,谈论令人信服的叙事,但你知道,为什么有人应该加入你的组织,而不是其他 10 到 15 个选项,因为我们缺乏人才,这种高需求。所以整个引人入胜的叙述和创作。对观众来说什么是重要。
这是我们投入大量时间和精力的事情,我认为将这些整合在一起真的很重要。在过去几年中,数据分析人才的格局已经发生了变化,他们的需求和愿望也发生了变化,特别是许多人,不幸的是,许多人进入了他们被告知是数据驱动型业务的组织,当他们进入那里时,他们意识到事实并非如此。
他们觉得自己就像在一条项目生产线上,一个项目放在他们的办公桌上,完成后就消失了,他们再也看不到或听不到它了。所以他们不知道它是好是坏,是否被使用过,是否有价值,是否有影响,等等。
因此,我们试图将这种令人信服的叙述与你怎么样,除此之外,你有什么不同,这有什么令人信服的地方?但是你怎么能让这些人每天都工作呢?在整个组织中引人注目、有价值、有影响力,因为除了工资、位置、技术、令人兴奋的项目,这是等式的另一部分,人们现在开始从希望进入这些企业的人的角度来看待和评估组织。
阿德琳娜二世 12:19
那真是太好了。我喜欢这个答案。这里有很多东西要打开。我,我想从人才战略开始,对吧?呃,说点题外话,您在这里提到,很少有组织拥有与其类似的人才战略,或者至少拥有与其客户获取战略一样强大的战略。
或许可以向我们介绍一下,在数据中,一个组织稳健的人才战略是什么样的?
凯尔·温特博顿 12:40
嗯,我认为,事实上很少有组织真正投入时间和精力在这方面,这是在现阶段有总比没有好的事情之一。所以我,我觉得它只是想出人头地。在这条曲线上,对吗?因为正如我所说,大多数企业都是被动的。
因此,这是一个基于数据战略的案例,有望与业务战略和围绕业务战略的运营模式协同运作。好吧,那么,这个团队目前的差距在哪里?是这些差距导致了现在的问题吗?我们如何区分轻重缓急?哪些差距对我们真的很重要。
这就给了你一个优先级列表,然后通常是你信不信的问题。事实上,我们做了很多工作,你认为你需要这种技能,但你实际上并不需要,你最好拥有这种技能。例如,你知道,数据科学是 21 世纪最性感的工作。
不幸的是,许多组织走出去,认为他们需要一个数据科学家,如果他们要再次成为数据驱动的报价。所以,我花了很多很多会议试图说服商业领袖,在这个时候你不需要雇用数据科学家。这意味着你要支付 2 万到 3 万英镑。
比你现在真正需要的技能更多。他们会进来,感到非常无聊,然后离开,这是一个非常昂贵的雇佣,不是一个非常有效的策略。因此,我认为这是关于优先考虑你所拥有的差距,因此当你需要招聘他们时,然后从那一点向后工作。
因此,如果你知道在 2023 年 1 月,你将需要,我不知道,一个数据工程师,例如,做 X,Y 和 z。嗯,实际上你应该已经在上个月开始这个过程,对不对?因为当你考虑到通知期、面试过程等等因素时,不幸的是事情并不是这样。
将会有数百个组织在 1 月份的时候说,好吧,我们需要一名数据工程师,但他们要到 5 月到 6 月才会有。所以我认为,我认为人才战略,然后与我们如何使我们的主张对我们试图吸引的观众有吸引力联系起来。
阿德琳娜梅 14:57
这真的很有趣,因为从某种意义上来说,它真的很像一个营销部门,你需要建立一个可预测的人才管道,围绕你为什么需要加入这个组织创建一个完整的营销叙事,所有这些部分都需要整合在一起。能够创造出可预测的人才管道。
凯尔·温特博顿 15:12
是的,就是这样。是啊,绝对的。
阿德琳娜梅 15:15
那真是太好了。鉴于你在市场中的优势,你知道,组织目前招聘的不同数据角色是什么,也许更重要的是,这些角色的技能组合或要求在过去几年中有什么变化?
凯尔·温特博顿 15:27
是的,所以很明显,我认为我们在过去两年里已经看到了巨大的变化,尤其是在市场周围。再说一遍,回到我之前说过的话,我认为许多组织再次不幸地误入歧途。地区。因此,他们投资于高级分析、数据科学、人工智能、人工智能等领域,当他们几乎看到这一点时,我猜这是一种银弹,他们真的没有把自己的房子整理好,对吗?
他们,他们只是还没有准备好那种类型的活动和倡议。因此,我们已经看到,可能只是再次,自然修正,不幸的是,你知道,许多企业已经花了大量的钱,却没有从他们的产品中获得很多价值。与他们所期待的相比。
因此,现在我不得不追溯他们的踪迹,比如,好吧,数据工程真的很重要。我们雇佣了大量数据科学家,但我们无法将数据从一个系统转移到另一个系统,让他们进行任何数据科学研究。因此,数据工程和建筑一样,是需求增长最快的领域。
数据治理和数据管理也是如此。再次,许多企业没有他们的基础,因此他们没有得到他们期望的价值。因此,数据治理和数据管理无疑是一个高投资领域,并且已经有了很多。
大量的招聘,我认为可能变化最大的是,如果你,如果你看看我们行业的转型和创新,我们现在开始看到一个真正的产品思维的巨大驱动力。我们的产品思维将数据视为一种产品,或者将数据视为一种产品或数据产品,或者我们使用的任何术语,其基础是,众所周知,统计数据已经向我们展示了这一点。
许多许多数据分析计划没有增加他们期望增加的价值。很明显,你可以追溯到组织内的文化和采用。数据、产品思维和心态似乎已经推动了更高水平的采用和参与。从那些商业企业和商业用户那里。
因此,我认为这将是未来 12 个月左右真正流行的东西。因此,我们现在要说的是,在过去的 12 个月中,有几件关键的事情确实发生了变化。
阿德琳娜·梅 17:49
真的很棒,我喜欢将数据作为产品的最后一个概念。也许可以向我们介绍一下这些技能在组织中的实用性,对吗?通常为这类技能保留的角色是什么?
凯尔·温特博顿 18:03
是啊,所以很有趣。所以我,我个人认为大多数人采用的头衔是数据产品所有者。我们真的听说过“硬币”,数据翻译器,对吗?这被打上了烙印,而且在某个时间点上,这几乎威胁到成为一个真正的工作头衔,这将是有趣的,对不对?
所以有点像官方头衔,但我认为数据产品所有者实际上已经成为那个人,对吗?他们通常至少了解技术概念,因此他们可以坐在业务、业务用户和数据分析团队之间,并且他们可以确保数据团队创建的产品实际上嵌入到业务中并在业务中正确使用。
我认为这更多的是一种心态的问题。比什么都重要。老实对你说,我不认为有什么巨大的启示。事实上,你可能在这个行业听到过很多对话,这些事情几乎已经发生了,但可能只是没有那么严格。所以你谈到数据翻译,他们通常负责外出,只是试图确保。
整个企业都在采用数据团队生产的任何产品。我认为这变得更有针对性了。因此,你可能会有人负责单一类型的产品,使数据成为一种产品,并真正成为该产品的专家,并因该产品而闻名于业务内外。
因此,我认为最关键的是了解技术术语的能力,例如,在营销团队工作的人或在会计团队工作的人了解什么,我使用该产品的前提是什么?我为什么要做不同的事情?我认为这可能是一个很好的强调点,对吗?
许多企业在没有数据作为业务核心的情况下一直非常成功地运营着,对吗?因此,我们实际上是在要求人们改变和转变他们的行为。来适应我们要做的事情。所以需要有那种程度的认同,我认为从历史上看,整个软技能都被打上了引号,因为软技能往往是最难掌握的技能。
我认为这些是我们真正开始关注的事情。如果我们能做到这一点,那么剩下的事情就会迎刃而解,因为八到九次。我们与之斗争的往往是更软的技能。它不是,它不是数据湖或仪表板或模型的构建。
我们很擅长这个,对吧?这是让他们去使用它,让它融入到文化中,让它被采用,这样你就能看到它的另一面的价值。然而经常发生的是我们已经建立了很好的解决方案。伊娃,这些解决方案是在试图回答一个我们没有的问题。
这是一个需要及时解决的问题,因此它没有被使用,因此它的成本很高,但收效甚微。
阿德琳娜·梅 21:01
喜欢你定义数据的方式。作为分析翻译器的下一个迭代,因为我确实认为,随着我们的最佳实践不断发展,该领域将会有一些专业化,流程和概念将更加成熟,从而使嵌入式机器学习或数据科学解决方案成为可能。
因此,让我们也来谈谈保留。我认为留住人才从来没有像今天这样重要,尤其是考虑到去年我们经历的大辞职和大洗牌。您如何看待大洗牌对数据角色的影响,以及您如何看待数据领导者试图解决保留问题?
凯尔·温特博顿 21:36
因此,我认为留住人才可能是数据领导者面临的最大问题之一,对吗?因为如果你真的从逻辑上考虑,每个企业都会有一定程度的减员。那只是,他们必须考虑到这一点,而且大多数人都考虑到了。然而,在一个已经发生如此转变的市场中。
对吗?举一个非常简单的例子,大多数数据领导者现在面临的部分问题和挑战是,如果有人为他们工作了三到四年,就会有一定的水平。有了一定的薪水,他们可以去外面的市场,以同样的水平引进同样的人,他们可能要多付给他们 20,000 英镑,因为市场发生了变化,这显然会在内部引起很多问题。
政治,我相信每个人都会,如果有人和一个做同样工作的团队成员一起工作,发现他们做同样的工作却多拿了 20,000 英镑,但可能不会为此高兴。在我看来,与其去市场招聘更多的人,为什么不首先把你的时间和注意力放在让你得到的人开心上,并留住他们,这是绝对有道理的。
因为硬币的另一面是,当他们不开心的时候,比如说,在薪水和报酬方面,没有提升。新的市场标准是什么。那些人也是坐以待毙吧?因为他们的组织会直接把他们拉出来,因为个人知道市场转移了 20,000 英镑。
他们在当前的组织中得不到这些,而其他人非常愿意付钱给他们去做这些。因此,留住人才的问题是非常现实的。我认为不幸的现实是,就个人而言,大多数人通过跳槽会过得更好,因为他们会得到更大的头衔,更多的责任,更高的薪水,而不是留在公司。
即使他们得到了提升,你知道,他们可能会得到一定比例的加薪。它永远不会等同于一个举动会给你带来什么。所以我认为需要围绕这个问题进行一些思考。对吗?发生这种情况的原因是公司内部正在处理。政治、繁文缛节、薪水、职位等级。
这是一个非常困难的过程,但不幸的是,这是一个正在发生的过程,没有正确或错误的答案。老实说,我认为这是大多数数据领导者都在努力解决的问题。
阿德琳娜梅 24:19
是的,我能想象。在过去的两年里我们确实看到了。在您看来,有保留问题的组织与有保留问题的组织之间的区别是什么?
凯尔·温特博顿 24:29
所以,我认为很自然的事情,比如他们是否愿意与我们就提高工资以适应新的市场条件进行对话?我认为那是,那是一个给定的,很明显,整个移动变得更加灵活。劳动力和工作生活的平衡。我认为那是,你知道,如果,如果有什么东西从前 covid 到现在发生了巨大的变化,那就是它。
我认为,大多数人比以往任何时候都更加意识到,他们希望在一个可以增加价值的地方,这样他们的工作才是可见的、有价值的、有影响力的,但他们有很好的工作生活平衡,他们不需要一周五天都在路上。所以我认为是企业真正努力迎合。
对于这种灵活性的市场需求,我认为这是有保留问题和没有保留问题的公司之间的区别。从根本上来说,企业的核心是看,好吧,我们如何确保我们团队的工作得到利用?这是看得见的,有价值的,对他们来说是有影响的,他们对这个组织有影响,他们不仅仅是来做他们从未见过、感受过或听说过的工作。
所以我认为。这才是关键。我们之前从吸引力的角度讨论了引人注目的叙述。从留住人才的角度来看,这种令人信服的叙述也是可行的,对吗?因为如果一个组织能够一遍又一遍地表达,看,这就是为什么我们觉得我们作为数据分析行业的雇主比你更好。
将来会得到 2 万英镑的加薪,但从长远来看,你在这里做的事情实际上会对你更好。在你的简历上会更好看。你实际上会为一个组织增加一些价值,你知道这将有助于你的成长和发展,以及诸如此类的东西。
我认为归根结底是组织。这是一个非常前瞻性的想法,试图思考我们的员工真正感兴趣的是什么,以及我们如何迎合这一点,而不是采取非常强硬的态度,嗯,我们希望员工每周有三四天回到办公室,这需要在每周的这三四天里规定。
因为最终这可能不是灵活性。
阿德琳娜梅 26:41
我真的很期待扩展灵活性的概念,但也许。暂停一下,讨论如何让工作变得可见、有价值、有影响力。我认为许多数据领导者都在为这个问题而努力,我认为随着你沿着数据成熟度曲线前进,并且实际上成为一个数据驱动的组织,这个问题会变得更加容易。
因此,对于那些处于光谱起点的组织来说,对,那些仍在努力从数据中获取价值的组织,如何创建一种文化,使数据专业人员的工作可见、有价值且有影响力?
凯尔·温特博顿 27:08
这是一个非常好的问题,因为正如我们所知,作为一个行业,很难真正为数据分析计划提供可量化的有形价值。如果我真的很坦率的话,我经常认为这归结于他们的能力。该组织内的数据领导者要勇往直前,带领整个团队,真正把它放在业务当中,让大家看到和听到。
我认为有几个非常明显的方法可以做到这一点。我非常喜欢的一件事,我认为它并没有得到它应该得到的那么多的播出时间,我们围绕着交流即兴发言,对吗?显然,在我们的行业中,沟通非常重要,能够确保。业务部门了解我们在做什么,我们如何转化它,我们从哪里获得价值,以及我们如何阐明我们在该价值中扮演的角色?
但这通常是它开始和结束的地方。这几乎就像一个轻率的评论,沟通是重要的,它是重要的。我所看到的效果非常好的是那些组织制定了沟通策略的地方。例如,他们的内部公关团队就有预算。
通信。这可能是一个内部播客,他们在那里交谈。数据是怎么回事?这可能是他们建立了一个数据学院的地方,业务用户可以进来并开始考虑,例如,我如何才能更多地参与创建自己的仪表板。你知道,我认为这是试图带来意识和文化,如果我们想使用这个术语,这个术语就是关于我们如何带来所有的。
因为这最终会提升组织内数据团队的形象。所以我认为这是一个非常有用的例子,我看到了它的工作原理。
阿德琳娜梅 28:54
反复强调将少量预算用于通信和公共关系或内部是数据团队的工作。我见过的一个非常有效的例子来自纽约人寿保险公司,实际上,我们在播客中提到过。纽约人寿首席数据分析官 Glen Hoffman 说。
例如,他们在那里做的是,对于每个新项目,内部都有一个专门的登录页面,上面有非常高质量的视频,解释新项目,它是关于什么的,等等。这非常有效地在组织内创造激情,推动采用,并确保工作是可见的,有价值的,并且我。
你提到的另一件我很想在这里讨论的事情是灵活性,对吗?你在这里提到的一件事是关于远程工作和创造工作生活平衡。当然,远程工作在过去两年中一直呈上升趋势,这是我们在市场上越来越多地看到的竞争优势之一,也是候选人为什么会留在或离开某个组织的原因之一。
一个很好的例子就是苹果的机器学习主管 Goodfellow 因为重返苹果而离开了苹果。政策。或许可以向我们介绍一下远程工作和您的观点是如何影响组织查找和保留数据的能力的。
凯尔·温特博顿 30:03
是的,所以我,我认为这是一个非常非常有趣的话题,因为很明显你有两个非常清楚,截然不同的。栅栏的两边,对。你知道,你已经有了一个人,他自然地想要尽可能多的工作生活平衡的灵活性,而且,这是理所当然的。我想,如果疫情教会了我们什么的话,那就是我们可能有一种不健康的困扰,我们大多数人都在工作。
因此,整个工作生活平衡的事情已经,已经是一个真正的积极的,这是来自疫情,我认为如何。企业是如何解决这个问题的。所以我认为,在一般的就业市场上,有一种普遍的误解,对吗?特别是对于那些在办公室工作的人来说,当然,一旦疫情结束,每个人都会保持百分百的距离。
我认为这显然已经被证明是一个神话。像我们一样,我们与很少的组织合作,这些组织愿意任命完全远程合同的人员,对吗?我认为大多数组织都希望人们是可见的。在某些方面,可能是一天,一周,也可能是一周四天,等等。
就像每个公司一样,每个公司显然都有自己的政策,但这自然会对企业如何留住或留住新人才产生连锁反应,对吗?因为如果工作生活平衡的话,远程工作方面真的很重要。那么显然没有人会选择去为苹果工作
对吗?根据你的例子。所以我认为那是,那是有原因的。显然,我认为除此之外。这很有趣,因为我认为大多数组织都在他们自己的位置泡泡中运作,对吗?因为他们已经习惯了这样思考和操作。
所以我不知道你是否在纽约市,从邮政编码的角度来看,有一个半径,比如有人愿意从哪里出发,第二,你可以猜猜是哪里。现在显然已经改变了。所以从本质上来说,候选人才库,和你希望的一样大,对吗?
这真的取决于你的组织,他们的党派路线是什么,他们有多愿意任命完全远程角色的人,或者没有。这也是原因之一,因为你的候选人数量更多,而你的数量更多。你的竞争更激烈。我认为这是许多组织没有真正考虑的事情。
我想他们认为,好吧,现在我们可以任命一个人。我不知道。如果我们在伦敦,我们可以指出有人在西班牙。好吧。我们的候选人越来越多。但实际上,在西班牙的同一个人也可能受雇于旧金山的谷歌。所以,所以,所以,所以,所以你的候选人群体,你的竞争也在增长,尽管事实上候选人群体在增长。
所以我。我认为这些事情已经成为了一切。在此基础上,吸引人才可能不像大多数组织认为的那么容易。留住人才最终取决于组织实际上愿意有多灵活,然后你知道,因为说实话,大多数人不会仅仅根据他们是否可以远程工作来做出决定。
还有很多其他因素,但显然这是一个对大多数人来说仍然很重要的因素。
Adel Nehme:好的。这真的很棒,我喜欢这种整体视角。我也喜欢你展示另一面的方式,因为我们还讨论了如何让业务用户更积极地参与数据分析团队和项目,以及如何让业务用户参与进来。呃,我也想谈谈混合角色,对吧?
以及组织是如何填补这些空缺的。为了提供更多的背景信息,今年早些时候,Matt Siegelman 在播客中提到了他,他是燃烧玻璃研究所的主席,他们做了大量的自然语言处理工作。在互联网上的公开职位描述中,他们发现的一个主要观点是,有一种混合的角色,其中许多数据技能正在成为传统商业角色的标准组成部分,例如,嗯,营销运营等。
例如,考虑业务运营、分析师、营销分析师、收入运营、分析师等角色。从数据领导者的角度,向我们介绍他们是如何担任这些角色的。
凯尔·温特伯顿:这真的很有趣,因为我认为这表明我们正朝着正确的方向前进。我们开始思考,在我们的组织中,有些角色不一定要由纯技术人员来担任。数据人,我认为这是一件非常好的事情。我可能已经在 LinkedIn 上出名了,因为我谈论了过去几年大多数职位描述有多糟糕。
即使您考虑首席数据官的角色,通常第一个要求是能够用 Python 编码,对吗?有点像,嗯,是啊,不应该是这样的。所以我认为这表明我们正朝着正确的方向前进。这也表明。对数据将在这些领域发挥的作用有了更多的认识和了解。
现在,很自然地,你会发现营销和财务可能是两个领域,在这里稍微挑选一下,因为他们通常更懂数据,因为他们习惯于使用数据来衡量和管理绩效。I .雇用这些人的现实是完全不同的,因为虽然雇用具有混合技能的人的概念和理念,我认为它所做的,正如我之前提到的,是围绕软技能和商业技能、说服力、影响力、采用和沟通的整个事情。
所有这些东西,这些东西在历史上,不仅仅是,但在历史上,你知道,很多。数据团队一直在努力解决。因此,你可以从纯数据分析领域之外获得很多技能,这些技能在该领域确实更有效。但是很明显,有些事情是那些人需要的,需要提高技能的。
例如,可能来自更多的数据和分析空间。所以我认为这绝对是朝着正确方向迈出的一步。这是。理论上说起来容易,执行起来难,因为很明显,在大多数企业中,他们通常是两个独立的角色,对吗?
你可能会有一个数据分析师,他只是坐在财务部门,或者只是坐在运营部门,或者只是坐在供应链部门,然后你可能会有一个来自业务部门的人,他们几乎成为每个人的业务合作伙伴。我认为我们开始看到,这些业务合作伙伴可以学习一些核心的基本原则,或者你正在获得数据,人们正在成为更好的沟通者和影响者,然后可以开始更多地作为企业采取行动。
所以是的,理论上是可行的。我得说,找到这些人真的很难。
阿德琳娜·梅 36:40
是啊。这真是伟大的洞察力。你在这里提到了扩大规模的重要性。你认为在哪些方面会有所发展?在填补这些类型的角色时,您认为升级和内部晋升的作用在哪里?
凯尔·温特博顿 36:50
大多数数据分析学科都是供不应求,对吗?所以理论上来说,有两种选择。我们需要更多的人。从不太传统的研究领域进入这个行业。所以如果你想想,我不知道,计算机科学是一个很好的例子。仅仅是因为纯粹的需求和数据分析人员的增长轨迹,学习该领域的学生就会被纯粹的需求和支付的金额以及所有这类好东西吸引到我们的行业中来。
它们是丰富的。学生们在那里学习可能被认为不太传统的东西。所以社会科学是一门伟大的学科。例如,学习犯罪学、社会学或心理学的学生,学习地理的学生,他们都习惯于使用数据进行分析。他们在做什么,并经常把这些融入到他们的学习中。
所以从理论上讲,他们拥有进入我们行业的基本技能,关注这些领域是绝对有意义的,因为我们在大多数领域都存在人才短缺。对吗?不幸的是,这种情况不会发生。因此,我们需要更好地了解如何走出去,提高人们的意识。举个例子,我在某些大学做了很多公开演讲。
我在社会科学学院演讲,这些人正在做定量分析,作为他们社会科学学位的一部分,就像他们在使用某些工具。然而,当我进去做演讲时,它可能是最多样化的。在性别,宗教,种族,背景,你能想到的一切方面都有余地。
我敢说 95%的人甚至不知道他们可以去数据分析行业找工作。这是我们需要解决的第一个问题,对吗?第二件事肯定是再培训。有,现在回到以前关于这些混合角色的问题,对吗?
数据分析行业对整个软技能感到内疚,可能没有达到我们的标准。期待或者想要或者需要。这在历史上对我们来说是一个问题,因此业务中的一些人有兴趣更多地进入数据分析领域,我们可以从业务的其他领域开始交叉培训或再培训。
这是另一种试图弥补差距的方法,但问题是。这需要时间。这不是一个快速解决办法。一夜之间就会发生。所以需要有一个真正的主动性,那么,我们要怎么做呢?我们要怎么执行呢?再说一次,这是另一个理论上很棒的想法,但是实际执行和看到结果是相当困难的。
因为大多数数据领导者没有时间、资源和精力来培养这些人,无论你看硬币的哪一面,它经常被忽略一点。真的。这就是为什么你会看到?这些类型的数据学院主要出现在大型组织中,对吗?因为他们有钱投资这些东西,你知道,他们会很乐意花钱请人来管理,对吗?
所以我认为整个提升技能的部分对我们这个行业的发展绝对至关重要。向前看,因为我们已经知道在大多数领域都缺乏人才,而且很可能有很大一部分人才已经到了一定的年龄。所以我们开始失去漏斗另一端的人。
所以这是一个很大的领域,我认为这显然是像你们这样的企业做得很好的原因之一。
阿德琳娜·梅 40:08
我完全同意。是的,高端组件,我完全同意这一观点,即它的转换方面肯定是需要病人的。这本质上是一个文化改变项目,应该被训练,像这样对待。当然,Kyle,当我们的播客接近尾声时,我也不能不提你的数据驱动的播客。
我认为任何数据领导者听了这次谈话都会从订阅中受益。或许可以向我们介绍一下你在过去主持播客时学到的一些东西。现在已经运行一年多了?
凯尔·温特博顿 40:37
几年。是啊。是啊。所以我们结束了这个赛季。两个,几周前,所以我们在第一季做了 50 集,第二季做了 50 集。我们马上就要推出第三季了。所以大量的面试和大量的学习。我认为,在所有这些对话中,我学到了一些关键的东西,这就是大多数组织都面临着相同的问题和挑战,只是在业务和规模方面有所不同。
实际上非常有趣。我认为第二件事是,尽管所有的谈话和媒体都围绕着数据的重要性,但我认为只有少数组织真正掌握了如何真正推动价值。数据不足。我认为其他人都还在不断走向成熟,并试图理解这一点。
我认为除此之外,我,我看到了这一点,说实话,这一鸿沟正在形成。数据领导者和他们的团队,然后是业务。因此,我认为已经有相当广泛的报道称,数据社区通常很难阐明和量化他们在创造和实现业务价值方面所扮演的角色。
对吗?这有很多因素,但如果数据分析团队帮助销售团队产生 1000 万美元,分配可能会是一个问题。美元的销售额,这很自然,销售团队希望因此获得荣誉,对吗?所以,这是关于我们如何作为一个团队站在前面和中心来建立关系,说,好吧,看,如果不是我们,这个数字不会有,它不会那么大,或者不会发生。
因此,我认为,作为一个数据社区,我们需要更好地阐明我们所扮演的角色。在那种价值实现中。但另一方面,已经决定投资数据分析的组织和企业领导人往往不知道他们想做什么。
因此,他们不知道应该雇用什么样的人来管理他们的职能,通常会先采取某种技术措施。所以我花了很多时间。在同一个房间里,这几乎是一个概念,嗯,业务领导知道这里的某个地方有价值,所以我们为什么不开始构建数据湖,因为我们在某个时间点会需要数据湖。
因此,他们将构建一个数据湖,然后尝试在进行过程中对其进行分割,这变得很成问题,因为没有将数据计划和战略与企业试图实现的目标联系起来的战略方向。我认为,这就是为什么我们最终会在这个地方花了很多钱,但没有花出去。
从战略上帮助企业。It 仅仅用于构建基础架构,他们的数据就变成了成本中心。因此,因为他们不是从战略的角度出发,并将其与业务联系起来,所以他们不知道该任命谁来担任数据领导角色。他们真的不知道那个角色应该是什么,为什么他们想要它,那个人应该交付什么。
所以他们经常任命错误的人。就好像他们注定要失败。所以差距很大,对吧?数据领导者可以很好地阐述价值,但业务领导者不会让他们这样做,如果这有意义的话。所以我认为这就是问题所在。在所有这些对话和我们举办的所有活动中,我经常会回到那个地方,想知道,我们如何弥合这一差距?
老实说,这有点像恶性循环。
阿德琳娜·梅 44:01
是啊。这确实是一件有趣的事情,我认为这肯定是行业在未来几年需要解决的问题,以便达到数据分析行业的稳定点。从你采访数据领导者的角度来看,你认为未来几年影响数据领域的主要趋势是什么?
数据领导者如何招聘和建立数据团队?
凯尔·温特伯顿:是的,正如我之前所说,我认为数据产品将是推动采用和改变文化的真正关键因素,如果我们要继续这个旅程,并从中获得价值,这真的是需要发生的事情。我回想起,那种吸引和保留的作品。
这是关于拥有一个平衡的团队。我认为我们建立了非常高技术的团队,这很好,但我认为我们现在已经意识到需要在这方面取得平衡,而不仅仅是多元化。传统意义上的,但是思想、经验和视角的多样性。
因此,人们把来自不同背景的人带进来,这些人来自不同的地方,以不同的方式看待挑战和问题,并拥有不同的技能。所以我认为我们现在所处的位置并不是每个人都需要成为 python。向导,团队中可能有人的工作实际上是将技术细节转化为业务。
我觉得这很好。所以是的,我认为,我认为这些是,将是,关键的东西。然后,对我来说,最重要的事情是,我认为我们需要找到一种方法,让数据分析社区开始阐明它正在创造的价值。
一旦我们解决了这个问题,我们就知道,好的,这个问题的正确起点是什么?而且有足够多的用例可供其他组织借鉴。根据过去的经验来决定从哪里开始数据分析?什么是合适的地方,谁是合适的人?
团队需要有多大?需要什么技能?你买什么技术,等等,等等,我认为会在一个更好的地方。因此,我认为将数据视为一种资产和价值,以及如何对其进行估价,将是未来 12 到 24 年的大趋势之一。
行动号召
阿黛尔·奈姆: 那真是太好了。我喜欢这种视角。现在,凯尔,在我们结束播客的时候,在我们结束今天的播客之前,你还有最后一个行动要求吗?
凯尔温特伯顿: 所以,其实,不,我不这么认为。我想我鼓励任何人,如果他们正在尝试建立数据分析团队,我会说只要触及围绕思想和经验的多样性创建平衡团队的要点。围绕某个应该加入你的组织的人创造引人注目的故事。
超过别人。因为我认为这是我经历过的大多数企业失败的原因。你知道,当我直截了当地问他们这个问题时,我经常得到他们茫然的眼神。对吗?这是个问题。这是一件很容易做到的事情,但很少有组织真正坐下来思考这个信息和叙述应该是什么。
因此,这是企业绝对应该做的事情。然后阐明这个团队的工作。在组织内是可见的、有价值的、有影响力的,因为这已经成为他们的目标个人的真正驱动力。
阿黛尔·奈姆: 那真是太好了。凯尔,非常感谢你来到 DataFramed
凯尔·温特伯顿:根本不是 T2。谢谢你。
IntroOutro: 你一直在听一段播客中的数据。数据营,通过订阅节目与我们保持联系。在你最喜欢的播客播放器中,请给我们评分,留下评论,并分享你喜欢的剧集。这有助于我们不断提供对所有数据的见解。感谢您的倾听。下次见。
您的数据成熟度如何?参加我们新的数据成熟度评估,一探究竟!
成为一个数据驱动的组织是一个漫长而艰巨的过程,需要在不同维度上持续投资和努力。2021 年初,我们发布了一份名为“贵组织的数据成熟度指南”的白皮书,概述了数据成熟度谱的不同阶段,以及组织可以从一个数据成熟度阶段前进到另一个阶段的可行步骤。
数据素养之路由四个阶段组成,首先是数据反应、数据扩展、数据进步,最后是数据素养。为了从一个阶段进入下一个阶段,有五个关键杠杆需要持续的监测和投资。这五个杠杆就是我们所说的 IPTOP 框架:
- 基础架构:可扩展的数据基础架构,可确保数据在整个组织内可收集、可发现、可靠、可理解、合规且可操作。
- People: 打造一种数据驱动的文化,在这种文化中,所有员工都理解数据的价值,并拥有处理数据的技能,而不论其角色如何(这并不意味着每个人都需要编码!).
- 工具:数据从业者使用的工具、软件和系统,以及如何通过降低数据使用门槛的框架进一步推动数据民主化。
- 组织:如何组织、开发和培养数据人才,以及采用在整个组织中推广可扩展数据科学的组织模式。
- 流程:数据专家和团队采用的流程,以使他们的工作更具可预测性和协作性,并确保与业务目标保持一致。
我们的白皮书引起了读者的共鸣,在收到读者和组织的反馈后,我们了解到一个共同的挑战是了解一个人的团队或组织在数据成熟度谱中的位置。这就是我们推出数据成熟度评估的原因。
什么是数据成熟度评估?
数据成熟度评估是一项快速简单的调查,由一系列关注 IPTOP 框架的问题组成。鉴于数据文化、数据技能和受管数据访问的重要性,我们特意调整了评分标准,以确保我们优先考虑基础设施和人员的重要性。
如何利用数据成熟度评估
这实际上取决于您的目标和对组织内数据成熟度的概述。我们知道,对大型组织来说,鸟瞰数据成熟度可能具有挑战性,因此我们调整了评估,以提供团队、部门和组织级别的见解。我们还知道,29 个问题无法涵盖组织数据成熟度的所有方面,因此我们希望您将这些结果作为对话的开始,讨论在推动数据扫盲时要优先考虑的战略和计划。
立即进行数据成熟度评估
任何人都可以参加这项评估(当然是免费的),但尽管如此,我们还是鼓励对数据成熟度的不同维度有全面了解的高级领导、高管和经理参与进来。立即参加评估,了解您在数据成熟度谱中的排名。
数据科学如何改变医疗保健
医疗保健中数据科学和机器学习的现状
随着医疗保健通过数字化和数字化转型不断进步,它已经成为最有条件最大限度地利用数据科学和机器学习的行业之一。自 2015 年以来,仅在欧洲,对医疗保健领域人工智能公司的风险投资就增长了 22 倍(麦肯锡)。
数据科学和机器学习正在改变几个垂直领域的医疗保健,从病人护理到制药等等。但是,扩大数据科学在医疗保健领域的影响需要仔细考虑许多挑战,包括合规性、数据治理和监督、数据文化以及数据技能的可用性。
医疗保健中数据科学和机器学习的机遇
今天,由于大量的医疗保健数据和许多适用于公共卫生结果的用例,医疗保健领域对于机器学习和数据科学来说已经成熟。根据 Statista 的数据,全球医疗保健行业每年生成的数据量约为 2314 艾字节(1 艾字节= 1B 千兆字节),这标志着自 2013 年以来全球医疗保健行业生成的数据量增长了 15 倍。
就改善人口健康结果而言,对社会有数不清的好处。 Deloitte 估计,仅在欧洲,通过数据科学和机器学习用例获得的效率就可以挽救 38 万至 40.3 万人的生命。从预防和早期检测到诊断,再到治疗和护理管理,数据科学和机器学习可以集成到患者的整个旅程中。
例如,个人可以利用可穿戴设备和个性化应用进行早期疾病检测和预防,或者利用深度学习驱动的医学图像分析缩短等待时间。研发领域也在准备创造健康成果的巨大收益,从自动药物发现到 DeepMind 利用其 AlphaFold 算法在蛋白质折叠方面的进展。
各垂直行业的医疗保健提供商也可以在节约成本和提高效率方面实现巨大收益。例如,实施数据科学和机器学习每年可以为欧洲医疗保健系统节省 1709 亿至 2124 亿欧元(德勤)。从制药公司改善供应链流程,到保险提供商通过预测客户流失来优化商业支出,再到通过跨多个垂直行业的工作流自动化来提高生产力,效率的提高可谓无所不包。
医疗保健中的数据科学和机器学习用例
病人护理
数据科学和机器学习用例可以改善个人的健康状况,并自动化医疗保健专业人员耗时的管理任务。
预约管理 :通过使用机器学习和基于规则的人工智能,医疗保健提供商可以通过自动化的预约管理来优化患者的结果并缓解资源管理不善。
早期诊断和预防 : 健康监测应用和可穿戴设备利用机器学习和描述性分析,提供关于个人健康各个方面的重要见解。这些工具可以让个人围绕自己的健康做出数据驱动的决策,并在早期诊断潜在的疾病。
患者分流 :通过使用机器学习驱动的症状检查器应用,医疗保健提供商可以根据需求和紧急程度对患者进行分流。这可以大幅减少患者的等待时间,并大幅提高医疗保健提供商的效率。
:医疗成像和诊断可以说是医疗保健中数据科学和机器学习最重要的用例之一(麦肯锡),医疗成像和诊断有望全面提高效率和改善健康状况。通过使用深度学习,医疗保健提供商可以自动化工作流程并更快地为患者提供价值。
*### 业务流程和管理
与任何行业一样,数据科学和机器学习的医疗保健应用涵盖一系列用例,以提高运营效率和客户体验。
机器人流程自动化 :通过结合使用机器学习和基于规则的人工智能,各垂直行业的医疗保健提供商可以简化工作流程并实现流程数字化。
客户流失 :保险提供商可以使用机器学习来预测哪些客户会流失,这可以帮助他们留住客户,优化营销支出。
聊天机器人 :通过使用聊天机器人,从医院到保险机构的医疗保健提供商可以为医疗保健消费者提供更好的客户服务和更快的价值实现。
商业智能 :商业智能结合了商业分析、数据操作和可视化,帮助组织做出更多数据驱动的决策。通过利用数据洞察,医疗保健提供商可以获得对财务运营的更多可见性,自动化合规性报告,等等(维拉诺瓦大学)。
药物
借助人工智能驱动的药物发现和改进的供应链管理,制药公司可以利用数据科学和机器学习为个人提供更多价值。
:根据【2021 年人工智能指数报告,人工智能驱动的药物发现初创公司获得了所有行业中最多的私人人工智能投资。基于 ML 的药物发现的承诺开始结出果实,并可能导致人口健康结果的巨大收益。
*供应链规划 :在供应链规划中使用数据科学和机器学习可以减少生产时间,减少疫苗交付的等待时间,并优化制药公司的供应链支出。
卓越预测 :利用简单到复杂的预测工具,制药公司可以利用人口健康数据来预测某些药物的供应和需求,并全面优化财务、营销、销售等业务流程。
改善临床试验流程 :使用数据科学和可穿戴设备可以通过自动监控和标记临床试验期间的任何不良反应来降低患者的风险。此外,机器学习驱动的应用程序可以通过评估患者资格、预筛选和随机化来加快临床试验。
在医疗保健领域实施数据科学和机器学习的挑战和风险
数据质量和基础设施
对于任何试图运营和扩展数据科学和机器学习的组织来说,一个重大挑战是实现现代化、安全、集中和可发现的数据基础设施( DataCamp )。对于数据仍在数字化的医疗保健机构来说,这个问题尤为突出,医疗保健提供商之间缺乏数据互操作性和质量不一致阻碍了大型数据集的构建(麦肯锡)。
合规和治理
由于医疗保健组织收集非常有价值和敏感的数据,治理和合规性是在医疗保健中实施数据科学和机器学习的核心方面( Collibra )。虽然不同地区的监管有所不同(麦肯锡),但医疗保健行业拥有最复杂的监管格局之一。例如,美国的健康保险携带和责任法案(HIPAA)规定了保护和管理患者健康数据的国家标准。
这些类型的特定健康法规只是医疗保健行业复杂监管环境的一个方面。当构建和链接用于数据科学和机器学习应用的不同数据集时,欧盟的通用数据保护法规(GDPR)和加州消费者保护法案(CCPA)等数据保护法给医疗保健组织带来了额外的复杂性。因此,创建强大的数据治理和合规性对于在医疗保健领域运营数据科学和机器学习至关重要。
技能
支持数据基础设施并就监管框架达成共识,对于在医疗保健领域运营数据科学和机器学习至关重要。但在医疗保健中采用这些技术的最大威胁是数据技能差距。事实上,根据 Qlik 的研究,在对各行业的数据素养进行排名时,医疗保健行业是表现最差的一个。医疗保健组织缺乏数据技能,这阻碍了数据科学和机器学习在各垂直行业中的应用,并限制了组织围绕数据计划建立信任的能力。
例如,一线卫生工作者需要具备基本的人工智能素养,以便能够理解基于机器学习的系统和应用并与之交互(麦肯锡)。制药或保险公司的经理和领导者需要了解数据科学和机器学习的可能性,以便他们能够推动数据计划,并为发展数据驱动的文化做出贡献(数据营)。
仅仅雇佣熟练的数据工作者是不够的。理解医疗保健复杂性的人才短缺,数据科学人才也普遍短缺。
缺乏数据素养是我们面临的最大敌人。随着世界越来越受数据驱动,这是一个更大的挑战。每个人都必须了解基本知识,我们必须能够以直观和有趣的方式传达这些知识
美国国际集团日本公司首席数据和分析官 Bill Zhang
数据培训如何解决医疗行业的数据挑战
解决数据技能差距是在医疗保健领域实施数据科学和机器学习的基础。据世界经济论坛称,到 2030 年,医疗保健和制药领域的数字和数据培训可以推动全球 GDP 增长超过 4000 亿美元。创造一种持续学习的文化是培养下一代医疗保健领导者的当务之急(麦肯锡),他们将结合数据和生物医学科学,以扩展和实现数据科学和机器学习在医疗保健中的价值。
数据科学如何改变医疗保健行业
DataCamp 播客 DataFramed 的主持人 Adel Nehme 最近采访了强生公司数据科学&项目管理高级主管 Curren Katz 。
介绍卡兹
Adel Nehme:大家好。这是 Adel 数据科学教育家,也是进入疫情两年的数据营的布道者。数据科学、机器学习和医疗保健的潜力从未如此明显。无论是药物发现、加速、运营创新、虚拟辅助,还是疾病预防。
数据科学和医疗保健的机会是巨大的。然而,它也有自己独特的挑战和风险,需要独特的解决方案。这就是为什么我很高兴在今天的数据集中有当前的猫。Framed current 是强生公司投资组合管理数据科学高级总监。
她在医疗保健和数据科学的交叉领域拥有数十年的经验,并且非常了解数据科学和医疗保健的现状。在今天的谈话中,我们讨论了数据科学和医疗保健的前景。应用数据科学和医疗保健的独特挑战,处理医疗保健用例时道德人工智能的重要性,如何解决医疗保健行业用例的一些数据挑战,她对数据科学如何用于解决新冠肺炎等问题感到兴奋。
如果你喜欢这个播客,一定要给我们评分,订阅并添加评论,但只有在你喜欢的情况下,现在让我们开始吧。当前。很高兴你能上节目。
卡兹:是的。很高兴来到这里。谢谢你邀请我。
Adel Nehme:我很高兴能与您谈论医疗保健领域的数据科学和机器学习,您领导数据团队和复杂组织的经验,以及您如何领导强生公司的研发。
但在此之前,我想了解更多关于你的背景以及是什么让你进入数据领域的。
卡兹:是的,绝对是。所以我想,就像大多数人一样,我一直喜欢数据和我的第一堂统计学课程,我开始想,哦,这可能真的真的很有趣。尤其是当我开始将它应用于数据时,我已经收集了作为一名研究人员。这很容易上瘾。当我继续我的职业生涯时,我是一名训练有素的认知神经科学家,但是 SMRI 研究并查看了一些大型流行病学数据集,并且在 20 年前写了一篇关于自杀预测的论文。
不完全是一种 AIML 方法,而是对我们如何预测一些事件感兴趣?然后我一直在神经科学领域研究神经网络,所有这些东西,并且实际上把机器学习技术应用到 FSRI 图像上,这些图像是某人在做某事时的图像。所以这是一个相当复杂的过程,尽管干净的数据集让我非常兴奋,而且我一直对医疗保健和解决医疗保健中的问题充满热情。
我的第一份企业数据科学工作是在 Highmark health。所以我从付款方开始,建立了一堆模型,看看这些模型是如何影响医疗保健的,并被吸引住了。跳槽到母公司。这是一个整合的医疗保健系统。美国第二大集成支付提供商系统,并在该母公司成立了数据科学部门,负责研究支付方、保险方、提供商和其他一些多元化的医疗保健业务,然后来到强生公司,也就是我现在所在的公司。
这是一个非常令人兴奋的职业,我每天都能看到很多影响。
医疗保健中数据科学和机器学习的现状
Adel Nehme:让我们开始我们的对话。在我职业生涯的早期,大约五年前,我很想了解医疗保健中数据科学和机器学习的现状。这是不久前的事了。医疗保健过去和现在都被认为是一个数据科学机会很大的行业,但它也有自己独特的挑战,这使得它与其他行业相比速度较慢。
鉴于您作为医疗保健行业数据领导者的经验,我希望首先从了解开始我们的对话。您将如何描述数据科学和医疗保健的现状?在过去的几年里,它是如何发展的?
卡兹:哦,是的。这是一个令人兴奋的问题。
它已经发展了,我要说的是,医疗保健的不同部分可能在不同的地方,以不同的速度发展,有时是出于需要。你说医疗保健行业有很多机会。有。我认为这是其中一个行业。你必须对任何新事物采取谨慎的态度它们实际上是法规,出问题的风险很大,但好处巨大。
但我在过去几年中所看到的确实是我们在许多行业中看到的一些事情,但在医疗保健行业也是如此。随着我们进入,嘿,数据科学对于解决医疗保健中的实际问题非常非常有用。重点是部署这些模型,不仅要有完美的 comps 概念,还要真正用它们来驱动。
核心商业决策和核心洞察力。这就需要大规模的数据科学,而起初它更具实验性,更具实验性。好吧,让我们看看这与我们今天所做的事情有什么关系,但我们不会全力以赴,真正利用这一点来推动我们的业务。但是我们正在朝那个方向努力。
另一个变化,我想,是可能出现的问题。或者只是我们意识到了,对吧。我们正在扩大数据科学在医疗保健领域的应用范围。当然还有诊断,还有手术,还有临床试验以及这些是如何进行的,如何找到病人。我们可以做很多事情。第三,我认为非常重要的是,我不会说是改变,而是一些正在继续成熟的东西,我们认为这有助于加速发展。数据科学和医疗保健。只是在思考我们所做的事情的道德性。考虑到它对人们和他们接受的护理的影响,它可能是生或死,或者它可能帮助或伤害我们在护理中看到的差异。
所以,真的要思考伦理,这在医疗保健中很重要,然后拥有工具和方法来大规模解决这个问题,这在过去几年里已经有了很大的发展。
Adel Nehme:这真是太好了,我很高兴能与您一起打开这些产品。你在开始时提到了数据科学和机器学习对医疗保健的一些影响领域,你介意扩展一下你已经看到的数据科学和机器学习的这些主要价值领域,在医疗保健领域向前推进吗
?
Curren Katz:很难选择几个,但有一个是我喜欢谈论的,这是我以前的团队所做的事情。我真的很喜欢他们处理这件事的方式。我看到它是因为撞击病人在看手术。所以有时候在医疗保健领域,我们会去治愈这种疾病。我们要诊断这种疾病。
当然,我们怎么能不说我们要把我们所有的数据科学工具都用在癌症上,我们应该这样做。但是一种更安全的方式,一种产生巨大影响的方式,可以是医疗保健本身的运作或临床试验的运作。所以我举个例子。当我在 Highmark health 时,我们开发了一个工具来帮助安排接受化疗的患者,对我来说,从我们听说的问题开始是一件大事,嘿,我们正在安排患者接受化疗。
他们已经等了很长时间,但她似乎不太高兴。我们注意到早上我们真的很忙,然后下午就什么都没有了。所以我们的临床医生要么不堪重负,要么病人不多。我们挖掘了两件事。他们不知道治疗需要多长时间,可能会有副作用,临床医生希望照顾他们的病人,确保他们有足够的时间。
所以也有瞎想怎么过,各过多久的。在那个位置可能需要一个污点。因此,如果我们能够预测那个周末,开始有效地调度,然后优化调度,优化操作,在日历中,这可以进行吗?就地点而言,这能去哪里?当疫情启动时,我们已经做好了充分的准备,这对太空和脆弱的病人来说变得更加重要。
不过,这是从一个运营挑战开始的。时间表。非常实际的事情来解决。这带来了巨大的不同。我听说过一些病人说,嘿,我,我可以继续我的生活,不需要等待。我可以在方便的时候来,但现在他们不在。并且冲击了很多承诺,诊断,或者检测,早诊断,早检测给临床医生一些时间去干预。
我们听说过这个以及败血症或急性病之类的事情。我们谈论的是像肺动脉高压这样的疾病的早期检测,这种疾病经常在晚期被诊断出来。我知道这是我们正在做的事情。这些都是很大很大的机会,我们可以在那里治疗病人。因为我们可以检测和诊断这些疾病。
第三个是患者自己的体验,比如运营组件,当然,它有一个患者体验部分,但只要了解患者的旅程,他们在哪里面临挑战,他们如何体验医疗保健系统,以及我们可能没有以我们应该的方式提供护理,数据就可以帮助我们了解这一点并提供帮助。
提供更好的体验,在生物层面提供更个性化、定制化的体验,以及个人层面的偏好、互动方式和接受护理的方式。
医疗保健行业面临的主要数据挑战
Adel Nehme:我喜欢你在这里对运营部分的阐述,因为每当我们谈到。医疗保健中的机器学习。
我们总是谈论令人向往的用例,我认为我们都同意这些用例非常重要。例如,我很高兴看到 deep minds、alpha fold 和药物发现的影响,但这并不意味着我们现在不能用数据科学来影响人们的生活,只是通过解决运营挑战。
当谈到数据科学和医疗保健时,我们经常谈到医疗保健领域特有的挑战,例如访问相关的可互操作数据、人工智能的道德规范以及其他许多问题。我很乐意。如果可以分解,您认为医疗保健行业面临的主要数据挑战是什么?
Curren Katz:我和各行各业的同事都聊过,实际上男性和汽车是非常不同的行业,没有人告诉我我们的数据是完美的。在这方面没有真正的问题,也没有想过这个问题。当然,听到这些你不会感到惊讶。在医疗保健领域,我们也面临着同样的问题,以及不同四轮数据的互操作性。
但我想我们意识到了。a .其他行业面临这个问题,B .你知道,这里也有解决方案。这是整个话题。人工智能的伦理是非常非常重要的。所以这变得至关重要。在医疗保健领域,我并不是说,如果你向消费者推销,好,你当然不想。
但是如果有人推荐我买烤面包机,而我刚买了一个烤面包机,那么我可能不会再买第二个了。这件事刚刚发生在我身上。没什么大不了的。这并没有真正影响到我的,你可以用这些算法进行实验,让他们出来,让他们很快出来。
在医疗保健行业,我们显然不得不考虑其他行业也面临这一问题。有风险。所以你必须认真考虑你在做什么,可能会发生什么,以及这个算法将如何工作。什么,你将如何建立这个过程并把它做好。这并不是说我们无能为力。
有很多,因为有很多问题和事情我们今天做得不是很好。所以只要我们不把事情变得更糟,我们应该尝试一些事情,但那总是会发生的。这是一个非常大的挑战,也是相对于其他行业而言我们应该面对的一个重要挑战。只是在说数据。
显然,数据本身的敏感性使得获取数据或考虑如何使用、共享数据以及数据可能处于何种环境变得更加困难。我的意思是,这应该是一个挑战,我们应该把它当作一个好的挑战。还有我们说的那个。我们永远不够好,因为这是人们生活中最敏感的数据。
因此,我们应该不断改进和思考我们如何保护这些数据,我们如何使用这些数据,我们如何确保我们以减少不平等的方式使用这些数据,以及我们如何提供医疗服务,我认为这是可以的,但我们必须负责任地使用这些数据,并考虑到这些数据非常非常敏感。或许比泄露出去更严重。
我买了个烤面包机,没那么兴奋。我买了一个咖啡机。并不是说它不令人兴奋,但这是一个相当大的问题。
Adel Nehme:我完全同意这一点。让我们稍微活跃一下话题,谈谈人工智能在医疗保健中的伦理问题。当我们谈论在医疗保健中使用机器学习和人工智能时。
无论我们开发什么,最终都会产生有害的结果,或者会被不负责任地使用。通常,答案是不利用机器学习和人工智能。因此,我很想了解你如何评估医疗保健中机器学习和人工智能的有害结果的风险。你如何将它最小化?
Curren Katz:嗯,一个很好的问题。了解潜在的有害后果是很重要的。你必须了解你正在解决的问题。与跨职能团队、临床医生、任何使用、实施和执行您的模型的人合作。你必须让房间里的每个人都参与到这个过程中,并从头到尾理解这一点,因为这是你找到风险所在的唯一方法。你必须明白如何,如何。利用这些信息做出决定。什么是缓解,你能在系统中的每一点建立风险吗?这有时也是数据科学家的工作,尤其是当他们开始工作时,他们会很兴奋地建立模型,并且会无意中跳过这一部分。
当我读到人力资源部的简历时,比如算法。你喂它什么。历史数据反映了我们人类的偏见。所以算法,如果你不去想它,不去解释它,它会学着去做人们已经做过的事情,这不一定是道德的,但是。
当有了数据和算法,我们就有能力去修复它,并且比我们在人类身上做的更多地控制它。但是我总是从头到尾考虑如何做出决定。不可能只是算法的问题。另一方面,这听起来很简单,但是换位思考和以人为中心的设计思维方式对于数据科学来说非常有价值,因为你开始。
设身处地为受此影响的人、患者、他们可能面临的所有事情以及基于算法可能发生的所有事情着想。所以你必须从这个角度去思考。当然还有技术和数据。有哪些偏见?
你选择的算法,减轻和纠正它的方法。你能吗?这是一份工作,一项技术专业知识,一名数据科学家必须具备的,现在这是必不可少的,特别是在医疗保健领域,但在我们想去的任何地方。另一个明显的问题是,我们是否选择了正确的用例?
就像运营的例子一样,医疗保健领域有很多问题需要解决。我们应该考虑所有这些,但也许更容易、更快的胜利是那些有一点点的胜利。伤害的机会更少。如果是,也许我们只是随机的,我们今天和每个人的交流方式都是一样的。
也许如果我们试着找出一些偏好,试着定制一张床,并从中学习,这可能比检测疾病或改变护理过程的风险更低。在医学和卫生保健领域,这并不能取代临床医生。我们希望这能增强临床医生的决策。制造。
创建人工智能治理框架
Adel Nehme:太棒了。我喜欢你从以人为中心的设计等其他领域汲取灵感,鉴于此,你认为医疗保健也可以从风险管理风险分析中汲取灵感来创建人工智能治理框架吗?
Curren Katz:我认为这是一个很好的问题。绝对没有工业。我们不能从中学习,我们必须一直关注医疗保健之外的领域,关注医疗保健的不同部分,但肯定要关注医疗保健之外的领域。
这就是为什么我有意在我的团队中雇佣其他行业的人。我想要制造业的人,这很有效。他们进来看了看,然后说,这不是一个容易的问题,但却是一个很容易解决的问题。我们一直在处理这个问题。有点,我的背景主要是医疗保健。
我认为。安排化疗药物在不同地点的运输,我认为这是一个相当大的挑战,但我知道其他行业已经解决了这个问题。因此,我期待这些行业的人加入进来,把这种想法带到医疗风险管理中来。
当然,这是我们做的事情。我们对我们所做的一切都有一个风险缓解计划,尽早考虑所有事情,我们需要时刻关注医疗保健领域以外的每个行业。
Adel Nehme:当思考医疗保健特有的其他一些障碍时,如数据访问和绘图可操作性以及收集,需要改变什么。
因此,数据科学、医疗保健创新在这里加速发展。需要解决的是监管创新行业标准。
科伦·卡茨:监管成分是存在的,这很重要。整个医疗保健行业正在开展协作和讨论,以确保监管环境满足数据科学的需求。
这是一个持续的过程。另一个例子是,可能每个行业都有,但我在医疗保健行业看到很多。这些系统非常复杂。我们有不同的电子病历系统。这里有很多台阶。数据科学家并不总是了解临床医生如何与该系统互动。这可能是他们的解决方案交付的地方,是价值实现的地方,但它们是非常复杂的系统,为了将它们全部连接起来,我们可能需要使用来自多个来源、成像设备等的多模式数据,以便在不同的时间范围内真正了解患者的全貌。
来真正扩展和实施这个解决方案。我们需要将这些系统连接起来,这样你就可以一次完成,获取所有的数据,把它们放在一起,然后建立一个模型。但是,在看到这些系统的一些简化和一些考虑之后,你如何部署该模型呢?嘿,使用这些数据来部署解决方案、无缝连接和简化事物非常重要。很高兴看到。我想我们可能会看到这一点。正如我所说,它可能也存在于其他行业。另一个是有数据科学、数据素养或人工智能素养经验的人。我们不需要临床医生和医院管理者。他们不需要成为数据科学领域的专家。
我认为当我们都提出那种理解和认识的时候。数据科学是如何工作的,这些东西是如何被使用的,并且能够说一些有帮助的相同的语言。然后我们再说一遍,在每个行业,除了一个,我认为我们有很好的机会在医学领域解决。
很多人都有科学背景,数据科学也有科学。所以。应该是个好地方。我已经看到许多积极参与的临床医生,许多人带着大量的知识和实验设计前来,这些都在向前发展,但我们可以做得更好,我们需要继续努力。
Adel Nehme:从数据质量的角度来看,数据素养的组成部分非常重要,因为许多医疗保健专业人员正在将这些数据输入到这些系统中。如果他们没有认识到数据在数据科学价值链中所扮演的角色,那么这条价值链最终将会断裂,因为没有人关注数据质量,对吗?
Curren Katz:这是一个伟大的观点。事实上,数据素养是双向的。这是数据科学家的商业素养,是理解的一部分。临床医生如何输入数据,他们如何与 EMR 系统交互,或者在保险方面,护理经理如何识别和联系保险计划的成员,以帮助他们协调护理和管理慢性疾病。
但是我们必须了解这些数据是如何进来的,反之亦然。如果我们展示数据科学的价值,提供医疗服务的人们。医疗保健生态系统的一部分将能够与我们合作,并说,好吧,就像我可以吃东西一样。我可以看到这种区别的价值,只要我们不占用他们与患者互动的时间,并做到这一点。
Adel Nehme:这也是,鉴于我们正在讨论数据科学和医疗保健的价值,我想重点讨论一下你作为数据和人工智能领导者、强生公司的经验。我很想了解和挖掘一些最激动人心的用例。你已经看到了数据团队的工作,特别是在强生公司的医疗保健领域,特别是考虑到研发团队在强生新冠肺炎疫苗发布后一定经历了一段非常有趣的时期。
卡兹:是的。这里,有三个真的浮现在脑海里,一个,我们都是。如此深入,它总是一个很好的例子。所以这是,我认为这是一个很好的例子,在计划临床试验时,使用数据科学来解决实际问题并产生影响,正如你可以想象的,它们是复杂的。
有很多计划和。决定在哪里进行审判。就疫苗而言,我们需要找到 COVID 正在传播的地方,这样我们就可以看到这是否很快奏效,并将其传播给人们。这些团队利用数据科学所能做的是预测这些,嗯,未来的热点在哪里,来计划这些的临床试验。
然后,它是有效的,它使我们能够加快速度,真正做到有的放矢,在我们进行临床试验的地方,在我们看到高水平 COVID 的地方。所以我认为这只是一个非常好的例子,它表明数据科学可以。迎接挑战,在压力下真正解决大问题。
没有比这更重要的了,我最近压力很大,整个世界都在疫情,我们需要在数据科学方面做点什么。所以我真的为此感到骄傲。另一个,我想我提到了学习高血压的例子,但这只是我们如何获取数据的一个例子。
一起使用人工智能来更早地诊断病情。这是我们正在做和努力的事情。这非常非常令人兴奋。这是一种诊断不足的疾病,或者当我们可以治疗它并产生影响时,它没有被早期诊断出来。因此,如果我们能够汇集不同的数据来源并预测诊断结果,我们就能真正改变人们的生活。
第三个是通常使用数据来加速我们正在做的事情和我们如何做。嗯,在流程的每个部分,我们可以谈论一整天,但我们使用数字数据和数字端点来更好地衡量结果,使用真实世界的数据,索赔数据,EHR 数据,以真正确保我们了解患者。
我们知道他们的需求是开发出能够改变现状的药物。我们做得高效快捷是因为。我总是想到,如果没有这种技术,病人就得不到这种治疗。所以我喜欢这样。我们总是专注于如何更快地将药物送到患者手中,因为。
这很重要。我们要么认识某个人,要么受其影响。
Adel Nehme:我非常喜欢这里的新冠肺炎用例。这确实是一个数据科学用例的典范,它需要相对简单的数据科学,现在就可以为患者和医疗保健提供商提供价值。所以我很乐意。
如果可以的话,更多地支持那个用例,并讨论这里使用的方法。
Curren Katz:我认为这是一个普遍的过程,对于解决任何数据科学问题都非常重要,而且是在高层次上。我已经建立了多家公司。在这种情况下,首先要确定一个明确的问题,对吗?
很明显,我们不知道计划在哪里进行这些临床试验,这不是我们可以花费的。一天,需要一些时间。那么,我们如何能更早地知道它正在寻找可以用数据科学解决的问题。这是至关重要的一部分,然后是合作,一起工作。
及时设计和实施该解决方案。有时数据科学,如果它变得过于探索性或只是实验性,我们不会考虑我们需要交付的紧迫性和时间表,以及作为团队的核心成员密切合作。为了让这样的事情发生,你必须这样做。
这只是在任何高影响力数据科学用例中必须发生的两件关键事情。我认为那些表现良好的。第三,我很早就得到的一条建议,我一直都在用。我认为,嗯,成功项目的一个组成部分是真正了解你正在构建的解决方案将如何被使用,并确保将要使用它的人参与到规划中,并接受这一点,因为如果你没有被采用,你将无法解决你想要解决的问题。
大型组织中的数据科学
Adel Nehme:我认为有一点是显而易见的,J 和 J 有很多不同的数据团队在做不同的工作。做数据科学和医疗保健是一个挑战,但在大型矩阵组织中工作是另一个挑战,那里有大量的利益相关者和许多不同的团队在解决不同的问题。
我很想知道,尽管如此复杂,您是如何确保保持高效的,以及您可以分享的一些最佳实践。管理数据团队和大型矩阵组织,并与其他数据领导者合作。
Curren Katz:我认为一个重要的趋势是回到共同使命愿景,这是你正在努力做的事情,因为在医疗机构或任何组织中,但肯定是在医疗机构和强生公司,这一点非常清楚。
我们给病人送去药品,最终拯救了人们的生命。削减矩阵,大公司的复杂性。当然可以。它是存在的,但文化和对患者的关注以及我们正在做的事情将我们团结在一起,打破了这些孤岛。我认为,如果在任何一家公司,如果你发现并专注于这个问题,这个问题和你所关心的,每个人如何受益。
真的很有帮助。另一点我认为是至关重要的。尽早从整个公司引进人才,这样就不会出现孤岛。第二,如果它变得更加复杂,当数据科学发生在筒仓中,然后你拿出一个解决方案,业务的不同部分在想,哦,不,我们需要更早地参与进来。
或者这里有点偏。这可能比想象的要难。让我想到了 mate 大型矩阵组织的优点,以及我继续为他们工作的原因。当我喜欢成为大型矩阵组织的领导者时,你会拥有难以置信的资源。你有专家,有法律团队,有供应链。
这里有很多专家。你正在开发解决方案的领域,对于一个初创公司来说是一种奢侈。我与公司交谈,人们有很好的想法,他们必须努力工作才能获得,嘿,你能告诉我一些你遇到的问题或这是如何工作的吗?
如果他们在大公司里没有这些资源,你会得到很多支持,但你永远也不会去阅读。太多或太早,想想,嘿,你知道吗,我有点纠结,也许你觉得营销怎么样?哦,我们有一个营销团队。他们,每个人都喜欢参与,他们喜欢帮助。
大多数公司,我想你会发现这一点。所以,伸出手去,利用那些让大公司变得伟大的资源。因为否则你将会。大公司所有不好的部分,而不是好的部分,为什么要这样做?
Adel Nehme:太好了。那么,能够接触到整个价值链中的医疗保健主题专家一定是特别有益的,因为这将帮助您培养这种同理心,以创建以人为本的数据科学解决方案。
Curren Katz:没错。不,绝对的。我们只要打几个电话就能轻松做到。快速留言。好像我们这些人乐于交谈,并以此为关键。是的。能用上棒棒的真是太好了。
Adel Nehme:太棒了。鉴于研发在医疗保健领域的重要性,我确信这些与主题专家的对话也影响了路线图。
你如何确保长期研究和短期成功之间的适当分离,从而帮助你前进?
卡兹:是的,绝对是。现在,我在研发环境中,开发药物,这是一个长期的观点,这真的很有趣,可以看到,有很多短期的。
在通往最终目标的道路上一点一滴的努力。所以,如果你和临床团队一起工作,就像我们一样,我们真的在一起工作,或者在任何一家公司,你都在和业务领域一起工作,并谈论端到端是什么?最终的长期结果是什么样的呢?
有哪些片段?这些快速的胜利,正如你说了很多让你到达那里,你得到了那种组合。我认为重要的是。在您拥有的数据科学产品组合中,仔细查看有多少是真正的,我们还需要几年才能看到其价值。这是数据科学中的一件事,你需要知道,因为你必须小心,不要让时间表与技术和变化的速度发生冲突。
你应该早点考虑,但是是的。看看我们有多少长期项目,我有多少短期、快速的成功?然后还有。纯探索性的没问题。我要摆弄一下这些数据。看看能不能开发出这个模型。拥有它也很棒。它只是查看整个投资组合,并确保所有这些桶中的工作百分比是您想要的,需要的。
Adel Nehme:你如何决定在你的研发日程中研究哪些领域?
Curren Katz:好事情是在一个研发组织中发生在如此高的水平上,但让它回到一个简单的概念,即未满足的需求和患者需要什么。我认为它适用于任何地方,哪里有未满足的需求,我们就可以把数据科学带到哪里,当然,这是。
进入我们开发什么的计划?这是一个药物研发机构。这是一个大过程。这是生意的核心。然后是数据科学部分。数据科学如何支持、加速和增强?那个,那个投资组合,那个,那个研发过程。随着我们的成熟和相互交流以及数据科学的发展,我们正在做强生公司、强生公司、强生公司的研发工作,强生公司的数据科学团队和能力非常出色。
Con 是我们的主要数据。警官刚刚建立了一个非常先进的能力。该公司在数据科学、研发和商业领域以及整个公司投入了大量资金。很高兴看到。这让我明白这是对的。我们已经讨论过这种影响。
研发组合,这可以帮助你实现你的目标,我们已经进行了成功的对话,这就是为什么我们能够发展并真正使用数据科学。
你期待什么?
Adel Nehme:现在,Curren,当我们结束时,我想看看未来。你认为你特别期待看到的数据趋势和创新是什么。
Curren Katz:非常重要的一点。我非常兴奋的是公平的概念。所以我们讨论了风险以及人们不想在医疗保健中使用人工智能的原因。这个 com 出现了很多,真的是。任何一种高风险行业都会影响该行业,但我对围绕公平发展的能力和思想感到非常兴奋,这两种能力都能够检测算法的偏见和不公平部分,然后甚至可以大规模地即时修复,进行纠正。
我认为这有能力让我们真正使用数据科学,人工智能,机器学习和医疗保健,但它真的。为人们和病人带来巨大的价值,确保他们得到治疗。这是公平的。我们正在考虑一些我们过去不擅长的事情,也许这能让医学变得更好或者任何领域变得更好。
所以公平对我来说很重要。未来趋势。当然,我认为我们将继续看到规模。我们将继续看到一点,我不想说追赶,但我们处于一个很好的位置,超越其他行业,对不对?真正完善或取得了巨大的进步,并将人工智能嵌入到他们业务的每个部分。
我们可以利用技术知识、平台和零件,从医疗保健开始。我认为我们将会看到这种情况继续增长,因为当我们开始产生影响时,我们将需要考虑这如何成为医疗保健的核心部分
阿黛尔·奈姆:卡林。很高兴你能来参加这个节目。在我们结束之前,你还有什么最后的行动要求吗?
Curren Katz:你知道,这是着眼于影响。就像我一直鼓励数据科学和数据科学领导者思考科学解决方案是如何解决业务问题的?它是如何产生影响的,它是如何以正确的方式做事情的?
因此,关注影响,了解背景,保持公平,但真正要全力以赴,有所作为,因为我们已经为数据科学做好了准备。
Adel Nehme:感谢你来到 dataframed。
Curren Katz:不,谢谢你。谢谢你邀请我。
数据科学如何应用于汽车生命周期的每一步
福特汽车公司的 T 型车最早建于 1908 年,因其低成本、耐用性、多功能性和易于维护而经久耐用。它被誉为“推动世界前进”,通过制造效率以普通消费者可以承受的价格扩大全球流动性。
今天,汽车行业仍然处于技术的领先地位,并改变着世界从 A 点到 b 点的方式。在我们最近的网络研讨会中,福特汽车公司首席数据科学家兼我们的课程用 Python 进行信用风险建模的讲师 Michael Crabtree 表示,关键的区别在于其创新现在是由数据科学驱动的,而不是由制造业驱动的。
福特的创新现在由数据科学驱动,而不是制造业。
智能城市需要汽车行业的数据科学
与 100 多年前 T 型车的制造可扩展性如何为大众带来移动性类似,今天数据科学正在为低收入群体扩展移动性。它使交通变得容易,而不需要高昂的拥有成本,并且正在促进每个人的这种变化,无论他们的阶级、性别或能力如何。
例如,优化算法可以为企业提供节能车辆,为农村社区提供服务,从亚马逊送货到管道和食品配送。数据科学家还与可靠性工程师合作,生产帮助不同能力社区的车辆。
这些只是几个例子,但是 Michael 指出,数据科学几乎有无穷无尽的用例,其中许多还有待探索。
在汽车行业使用数据
由于汽车行业的成熟和广泛覆盖,公司有很多机会围绕数据重建。
一个应用程序处理跨不同数据系统和数据类型的数据。许多数据科学家习惯于使用表格数据,这意味着数据是表格格式的,类似于 Excel。但是汽车数据科学家要处理的数据种类要多得多。例如,汽车工业中的原始仪器数据通常存储为十六进制数字流。他们还可能会遇到来自智能系统的图像和传感器点云形式的数据。为了了解自动驾驶汽车为什么会以某种方式运行,以及这种方式在不同车型之间如何变化,汽车数据科学家可能会将点云与仪器数据结合起来,并将其加入一组表格中。
另一个机会是容量:Michael 在 Ford 创建的最大数据库包含 800 亿行,查询时间不到 10 秒!汽车行业中的一些实时和事务系统每天处理超过 1.5 亿条记录。因为产生了如此多的汽车数据,所以需要非常大的数据集群。汽车行业的许多公司都有 Pb(一百万 GB)范围的数据集群。
数据科学涉及汽车产品生命周期的每一步
数据科学推动产品开发
在汽车被出售给消费者之前有很多步骤。汽车数据科学始于产品开发。数据科学用于分析新模型配置和建模组件可靠性等任务。数据科学不是作为一个孤立的系统在每个阶段构建组件和测试,而是通过大规模的模拟和分析来补充这一过程。
数据科学推动制造业的卓越发展
汽车数据科学家还确保只销售高质量的汽车。虽然工程师能够测试每辆车的质量,但这必须针对每辆车单独进行。数据科学家可以分析整个零件群体、供应商和测试数据。他们密切分析供应商的财务表现,根据过去的表现预测他们按时交货的能力,并使用计量经济学和回归分析来检查供应商所在地的经济状况。
数据科学推动互联和自动驾驶汽车
当今未来主义最热门的话题之一是联网和自动驾驶汽车,它们依赖于深度学习模型和传感器融合算法。数据科学对于制造这些车辆至关重要:它用于将油寿命监测器、电池充电监测器和完整的诊断仪器等物联网指标转化为可操作的见解。例如,仅仅检测行人是不够的——传感器必须能够辨别他们正在走向哪里。安全系统也很重要,包括驾驶员保护和环境安全。
这些车辆的新互联系统提供了新的服务——它们与其他车辆、城市和基础设施相连。我们只是在探索这个市场潜力的初级阶段。2019 年,全球联网汽车市场约为 630 亿美元,到 2027 年,该市场将增长近四倍,达到 2250 亿美元( Allied Market Research )!
数据科学推动可持续发展计划
可持续发展对所有汽车制造商来说都非常重要。各国政府设定了燃油效率目标,但每家汽车公司都有自己的目标。而且每辆车的燃油效率都不一样,所以需要数据科学来优化一家公司全线车辆的燃油效率。因此,如果一家公司希望在其产品线中同时提供大型耗油皮卡和电动汽车,汽车数据科学家可以进行优化,以最小化整个车队的油耗,同时坚持公司的全球销售目标。优化工作可以让汽车制造商在燃油效率方面获得政府的信用。这有三重好处:有利于环境,为客户提供更多价值,以及开辟潜在的收入来源。
数据科学的其他汽车用例
除了我们提到的,数据科学还会影响汽车生命周期的许多其他阶段。在营销和销售领域,数据科学预测客户流动和流失。在服务和客户分析方面,数据科学改善了客户的购后体验,并提高了产品质量。要深入了解数据科学如何推动汽车未来的用例,观看 Michael 的网络研讨会点播。
数据故事如何拯救生命 Semmelweis 的案例研究
数据故事讲述是一种结构化的方法,使用叙事元素和探索性视觉效果来交流数据见解。那些希望将数据转化为见解和决策的人将从掌握讲述数据故事的艺术中受益。
与展示统计数据相反,数据故事更吸引人、更令人难忘、更有说服力。在一项对救助儿童会慈善组织的两个版本的宣传册进行测试的研究中,获得信息图版本的捐赠者比获得故事版本的捐赠者少捐赠了大约 50%的资金。在另一项独立的研究中,研究人员发现,当人们听到一个故事时不那么怀疑,但当只看到统计数据时,却更加吹毛求疵。
数据故事由三个关键要素组成— 数据、视觉和叙事。要讲述一个好的数据故事,需要选择正确的数据,使用引导数据故事流程的叙述结构,并用引人注目的视觉效果来说明数据故事。
Figure 1: Narrative, visuals and data are data stories that drive changes
Semmelweis 的案例研究
历史充满了糟糕的数据可视化的警示故事,这些数据可视化未能像数据故事那样推动行动。Brent Dykes 在他的书《有效的数据叙事:如何用数据、叙事和视觉推动变革》中引用了 Ignaz Semmelweis 博士的故事。
发现洗手可以拯救生命后,Semmelweis 未能说服持怀疑态度的医学界相信他的发现。事后看来,数据讲故事的原则本可以帮助他更好地传达自己的见解,从而挽救成千上万人的生命。
被称为“手部卫生之父”的 Semmelweis 是一名匈牙利医生。1844 年,Semmelweis 在一家产科诊所担任助理,那里的许多妇女都患有产床热——一种由产后感染引起的发烧。
在诊所工作期间,Semmelweis 被一种特殊的趋势所吸引。医生和医学生经营的诊所的死亡率与助产士经营的诊所的死亡率(3.9%)相比,产床热的死亡率(9.9%)明显较高(图 2) 。与内科医生和医科学生不同,助产士在分娩前不做任何尸检。这使他得出结论,来自尸体的物质增加了这些女性的死亡风险。
Figure 2. Clinics operated by doctors who did not wash their hands caused more deaths.
知道了这一点,他提出了洗手的习惯,这大大降低了死亡率。然而,这些发现并没有帮助他说服他的导师克莱恩教授相信他的理论。
Semmelweis 在他的余生中一直是洗手的强烈支持者,但却无济于事。1861 年,Semmelweis 向医学界发表了他的著作《产床热的病因、概念和预防》,医学界对他的学说作出了批判性的回应。1865 年,塞麦尔维斯在精神病院去世,远在细菌理论被广泛接受之前。
Figure 3. The Etiology, Concept, and Prophylaxis of Childbed Fever have hundreds of pages and no charts
为什么他没能说服社区?
Brent 用这个案例研究证明了数据叙事的三个组成部分——数据、叙事和视觉——在通过数据故事推动变革中是不可或缺的。在这个案例研究中,Semmelweis 的数据被置若罔闻,因为它们既没有令人信服的叙事结构,也没有用视觉效果来说明。结果,尽管 Semmelweis 的数据是准确的、有价值的、可操作的,但他未能说服他的观众。
回想起来,Semmelweis 本可以用数据故事更令人信服地传达他的信息。这里有一个 Brent Dykes 的折线图的例子,它结合了数据、叙述和视觉效果来讲述一个令人信服的数据故事。
Figure 4. A data story by Dykes that better illustrates Semmelweis’ point.
Semmelweis 的方法与英国医生 John Snow 的方法形成了直接对比,他研究了 1854 年 Broad Street 霍乱爆发,并假设细菌污染的水导致了霍乱。在证明了水泵附近的死亡率很高之后,斯诺说服了地方议会关闭了水泵。
FIgure 5: John Snow’s data visualization
结论
与 Semmelweis 不同,今天的数据故事讲述者可以使用大量工具来创建引人入胜的数据故事,从 Tableau 等商业智能工具到 T2【python 等编程语言。对于现代数据从业者来说,掌握数据叙事的艺术和科学来推动行动才是明智的。
DataCamp 如何处理课程质量
在 DataCamp,我们为拥有学习数据科学的最佳平台和最佳课程而自豪。为此,我们付出了很大的努力,以确保每项练习既有教育意义,又令人愉快。课程启动后,我们并不认为它是完整的:启动只是数据收集的开始。每当学生在课程中尝试一个练习时,我们都会捕捉数据点,例如他们尝试了多少次来解决这个练习,以及他们是否需要通过询问提示或解决方案来获得帮助。通过汇总所有学生的数据,我们可以了解一个练习的难度。此外,学生可以从一颗星到五颗星对练习进行评级,并向我们提供反馈,让我们知道练习的受欢迎程度。
我们的内容质量团队与教师合作,根据这些数据改进课程。这有各种各样的形式,因为很多事情都可能在练习中出错。
有时候,小事情会让很多学生心烦意乱。在数据科学工具箱(第一部分)中,学生们学习如何使用基于 J.R.R .托尔金的《指环王》三部曲中的《指环王》的数据集编写 Python lambda 函数。不幸的是,数据集遗漏了甘道夫和皮聘。我们的学生很有理由抱怨,所以我们倾听并解决了问题。
分析许多练习的反馈可以揭示学生的误解模式。许多数据分析以矩形形式保存数据,每行是一些记录,每列是属于该记录的一个值。例如,每行可以对应一个人,列可以是他们的名字、身高和他们最喜欢的颜色。
一个真正常见的数据操作实践是过滤矩形数据的行。教师可能会写下这样的指令:
过滤数据集,删除身高低于 170cm 的行。
这是可以的,但是大多数统计软件,包括 R 的 dplyr 包和 Python 的 Pandas 包,让你通过指定你想要保留的东西来过滤数据集。如果指令以下列方式重写:
过滤数据集,保留身高超过 170cm 的行。
然后,指令与代码的工作方式相匹配,避免了学生的困惑。对于要求学生熟悉数据操作的高级课程来说,这种措辞不是问题。在我们的熊猫基金会课程中,我们发现许多学生都在努力解决这个问题,并改变了语言。
所有 DataCamp 练习都使用我们的内容工程团队开发的软件自动评分。如果学生答错了,这允许他们得到即时的智能反馈。这可能是我们平台最大的特点。最难的部分之一是预测学生将会做错什么,以便给他们好的建议,告诉他们下次应该做什么。这意味着有时一个正确的解决方案会被标记为不正确。出现这种情况,学生真的很讨厌。有一次,一名学生抱怨说:
在我们的 R 课程中的聚类分析中,许多学生发现,尽管一个练习的建议解决方案使用了众所周知的 min()函数来计算最小值,但还有一个更简单、更优雅的解决方案,它使用了鲜为人知的并行最小值函数 pmin()。
最初,这个练习只允许一个解决方案,但是基于学生们的巧妙想法,两个解决方案现在都被接受了。内容工程团队开发 DataCamp 反馈系统的目标之一是提高评分的灵活性,允许学生以自己的方式解决问题。
学生在使用我们的自动反馈时可能遇到的另一个挫折是,在做练习时重复看到相同的反馈。原理如下图所示,要求学生创建一个包含三个元素的 Python 数组。
通过提供更细致的反馈来解决学生答案中的具体问题,我们可以提供更积极的学习体验。反馈改善的结果令人鼓舞。在我们的中级 Python for Data Science 课程的一个练习中,切换到粒度反馈意味着学生不止一次看到相同反馈消息的比例从大约 65%下降到 10%以下。
不止一次看到相同反馈信息的用户百分比是我们对所有练习和课程进行监控的指标。结合课程的受欢迎程度,我们创建了一种数据驱动的方式,以最具影响力的方式不断改善学习体验。
我们今年年底的目标是,对于所有课程中最受欢迎的那一半,每门课程所有练习的平均重复反馈百分比低于 30%。
我们将继续在学生可以在 DataCamp 上学习的所有技术中添加这些改进。在内部,我们还改进了用于创建反馈和分析学生提交内容的工具,以确保我们不断改善所有当前和未来内容的学习体验。
练习可能会出错的地方还有很多,但我希望这能给你一些鼓励,DataCamp 倾听学生的反馈,并不断努力提高学生对我们课程的满意度。
DataCamp 认证如何帮助学员找到他们梦想中的工作
最近,我们采访了两位认证数据营学员,了解获得认证和我们的个性化职业指导如何帮助他们找到理想的工作。
在 DataCamp 上学习和应用技能后,获得认证是帮助您启动或推进数据科学职业生涯的下一步。
彼得是这种经历的完美例子。
从年轻时起,你可以看到彼得玩多种运动,如篮球、曲棍球和他个人最喜欢的棒球。他对运动的热爱激发了他在野外工作的兴趣。在卡尔顿大学完成学业后,他在该大学找到了一份体育统计学家的工作。在这段经历中,Peter 很快意识到他需要进一步提升自己的技能,以继续在体育分析领域的职业发展。
这就是 DataCamp 的用武之地。Peter 总共花了三年时间学习和实践,以不断扩展他的技能组合。案例研究提供了将他的技能应用到投资组合中的理想机会,通常他会花两周时间研究一个案例。
DataCamp 推出认证后,Peter 抓住机会,成功完成了评估。获得认证后,Peter 联系了我们的职业服务团队,该团队帮助他寻找工作。
“我们围绕我的简历进行了一整场谈话。与 DataCamp 职业服务团队合作确实帮助我在求职过程中成功定位自己。”
还记得那个被播下在体育行业工作的小种子吗?认证是他的敲门砖。通过这次经历,Peter 在加拿大奥林匹克队的分析团队中找到了一份工作!鉴于加拿大队在今年夏季奥运会上取得的成功,我们确信彼得将会有很多机会:7 枚金牌、6 枚银牌和 11 枚铜牌!
接下来,我们想向你介绍塞巴斯蒂安。Sebastian 最近搬到了美国(在疫情期间),他借此机会通过 DataCamp 进一步提升了他的数据科学技能。在获得认证并与我们的职业服务团队合作后,Sebastian 在强生制药行业找到了他梦想中的工作!
“这个过程太棒了!提供顶级见解和建议的个性化会议!”
从哥伦比亚搬来后,塞巴斯蒂安过去不习惯写求职信。我们的职业服务团队能够帮助他弥合这一差距,并帮助他走向成功。在他的下一个角色中,Sebastian 将在强生公司担任数据分析师,开发洞察仪表板,未来将在机器学习的帮助下工作。
我们祝愿他们俩在未来的努力中好运连连!
有兴趣获得 DataCamp 的认证吗?立即开始您的认证之旅
企业组织如何成为数据驱动型企业
亚马逊、网飞、谷歌和 Airbnb 等成功的科技公司有什么共同点?他们都扩展并运营了他们的数据科学功能。这意味着他们已经建立了一流的数据团队,并采购或构建了自己的数据工具。这需要设计强大的内部流程和架构,利用数据推动业务发展。
让我们来看看大型组织如何构建有效的数据科学功能。近年来,许多组织聘请了首席数据官,建立了数据科学家和数据工程师的团队,并找到了一种货币化和共享数据的方法。但 NewVantage Partners 在 2020 年 1 月的调查显示,在接受调查的 70 家公司中,98.8%的公司一直在投资大数据和人工智能计划,但只有 37.8%的公司能够声称他们创建了一个数据驱动的组织。
成为数据驱动型的最常见障碍是人员和流程挑战,即运营和构建可重复的流程、创建功能性数据基础架构以及弥合数据技能差距。
数据要求
以下图片总结了数据的可用性和可靠性:
第一,数据必须是在正确的时间,以正确的方式,有目的的收集。然后,它必须是 可发现的 ,这意味着组织中的所有数据用户都必须知道这些数据已经被收集,并且能够找到它们。接下来,数据必须被证明是 可靠的 ,没有缺口或者不一致。它还必须容易理解——例如,它应该有正确的结构和标签。符合标准至关重要——必须有适当的安全协议来控制对敏感数据的访问,一些行业有监管标准。最后,数据必须是 可操作的 ,这意味着数据用户拥有正确使用数据的技术、培训和道德框架。**
**## 成为数据驱动型的挑战
要满足这些数据需求,有三大挑战:组织、文化和技术。
组织挑战
大型组织通常有竖井,团队在竖井中可能有不同的目标。这些孤岛可能是由于法律要求而存在的,这在财务中很常见,或者它们的存在可能只是因为团队在过去没有协作过。无论是什么原因,孤岛都会导致沟通不畅和不一致,从而损害组织的整体效率。
这种情况的一个症状可能是经理们想要建立更大的团队或创建一个以上的人工智能卓越中心。
文化挑战
组织数据素养——其中每个人都拥有成功的数据技能——通常被认为是一个崇高的目标,一些组织可能不愿意冒险去实现它。这就是为什么 DataCamp 试图解开像机器学习这样的主题,以帮助组织了解数据如何有实际用途。给员工授权,让他们更容易掌握技能是关键。
文化挑战也可以体现在整个组织的不同激励机制中。管理层可能希望向他们的上级展示引人注目的仪表板,工程师希望使用最新、最好的工具,而业务用户可能只想回答一个特定的问题或简化流程。不可能总是让每个利益相关者都满意。这与前面提到的组织挑战相关,目标是使数据战略与整体业务战略保持一致。
技术挑战
马克西姆说,大型组织通常将“一堆拼凑起来的遗留系统”作为记录数据的核心系统。这些系统可能很难提取数据或进行扩展,但通常情况下,部门领导不想承担大项目。他们害怕承担替换他们的转换成本、潜在的项目失败成本、额外的再培训成本以及对生产力的短期打击。这些都是缺乏统一数据战略导致的短视错误。
其他技术挑战包括法规遵从性和安全标准,如 HIPAA、FERPA、GDPR 和 CCPA。公司必须遵守这些标准,以避免不道德的数据使用。
面对这些挑战,Brian Balfour 称之为数据死亡之轮,如下所示。它表明,没有持续维护的数据会变得不相关或有缺陷,导致人们对数据失去信任,最终减少对数据的使用。
实现数据驱动的解决方案
那么,老牌企业如何才能像网飞和 Airbnb 一样成为数据驱动型企业呢?他们必须围绕数据进行重建。以下是方法。
了解地形
大型组织必须了解存在的不同孤岛以及它们如何相互通信。他们必须在管理层培养支持这一旅程的拥护者。他们必须与所有利益相关者交流数据目标。
识别您的用户
接下来,为了促进成功的数据驱动转型,您必须了解您的角色。深入理解每个角色,无论他们是数据消费者、领导者、数据分析师还是数据科学家,都将有助于您了解如何最好地帮助他们,并在您的任务中利用他们。
从小处着手,保持简单
马克西姆说,首先,不可能一下子解决所有问题。专注于影响是非常重要的。选择一个在整个组织中可见且有影响力的项目,并且不需要大量的利益相关者或协调。首先获得一系列轻松的胜利将会促进认同并确保数据项目的可见性。您还将能够迭代数据工作,并为未来的数据项目利用学到的知识。
使数据战略与业务战略保持一致
将数据战略与业务战略结合起来意味着什么?马克西姆的实际建议是,选择能够扩展和测试你的基础设施、服务于你的商业用户、并与公司目标和结果相一致的数据项目。确保每个项目都有文档记录,可重复,并遵循最佳实践。然后,在管理层的支持下在全公司范围内扩大你的成功,这样你就可以在这些成功的基础上继续迭代。
数据驱动是什么样子的
数据驱动要求能够衡量数据计划的成功。马克西姆说,使用容易获取的指标很有吸引力,比如项目总数、完成的数据集数量或回购追随者数量。
“这些都是很好的衡量标准,但它们并没有真正解决你成功的核心问题,”马克西姆说。“我会更多地考虑利用数据做出决策的数量。还有,找人找一组数据需要多长时间,或者说获取数据的时间。你还应该看看有多少目标、目的和 okr 被设定并被数据追踪,包括它们是如何被审核的。”
有关在流程复杂的大型组织中实现数据可操作性的更多信息,请观看马克西姆关于在大型组织中实现数据可操作性的网络研讨会。
美国人在假期会花多少钱?
又到了一年中的这个时候:假日季节,伴随着假日消费季节。每年的这个时候,消费主义在美国非常猖獗。但是,美国人在假日季节(定义为从感恩节到年底这段时间)的实际消费是多少呢?从感恩节到网络星期一一共花了多少钱?
在深入研究感恩节到网络星期一的消费之前,让我们看看从 2013 年底到现在,美国每个月在零售上总共花了多少钱。
美国在零售上花了多少钱?
在这里,你可以看到过去几年中每个月在美国花费的金额。请注意,取自 YCharts 的数据是经过季节性调整的,因此我们还不会看到 11 月和 12 月假期期间的增长:
假期消费增加了一倍多
为了了解假日期间的具体支出,让我们放大到 2016 年,看看 2016 年假日期间几个行业的总支出。请记住,假日季节的定义是从感恩节到年底的时间,即从 11 月 24 日到 12 月 31 日,也就是一年中大约 10%的时间。用于生成下图的数据来自国家零售基金会 (NRF)。
您不仅可以看到年度支出主要由“食品和饮料”、“电子和邮购购物”、“仓储俱乐部和超市”以及“建筑和花园用品”构成,而且您还可以了解每年在这些方面的支出数量级,例如,“食品和饮料”超过 7000 亿美元。更有趣的是,你还可以看到,在整个 2016 年,假日期间花在“食品和饮料”上的钱比花在“家具”上的钱还要多,还有其他几个行业。
万亿美元的问题(不完全是)仍然存在:假日季销售额占全年总销售额的多少?下图将向您展示所有这些部门。黑色虚线是 10%,这是从感恩节到年底的天数所占的百分比。
在 13 个行业中的 8 个,超过 20%的年度消费发生在假日季节,是你纯粹从天数上预期的两倍多。在所有行业中,超过 15%的年度支出发生在假期。
美国零售联合会上个月宣布,预计 11 月和 12 月的假日零售额(不包括汽车、汽油和餐馆)将增长 3.6%至 4%,总额为 6787.5 亿至 6820 亿美元,高于去年的 6558 亿美元。
感恩节周末的花费
你刚刚看到了假日消费会变得多么严重。随着感恩节周末的结束,现在让我们放大 NRF 的历史数据,看看购物者更喜欢在这段时间购物:感恩节、黑色星期五、小企业周六或周日(似乎还没有命名)。很快你就会看到网络星期一发生了什么。下图来自 NRF 的 2015 假期趋势和预期假期生存套件 (打开 pdf)。
黑色星期五是明显的赢家!我们仍在等待 2017 年的数据,事实上,正如 FiveThirtyEight 报道的那样,我们需要等待一段时间,因为早期的估计是众所周知的错误,但 NRF 试图通过做一项全国性的调查来预测每年感恩节周末的购物量。根据他们的调查,超过三分之一的美国人说他们会在周末去购物。
在那些回答他们将去购物的人中,66.3%的人说这些交易太好了,不能错过。在那些不会去购物的人中,52.4%的人说他们不喜欢这种体验。更能说明问题的是,在那些表示不会去购物的人中,当被问及“什么会说服你在感恩节周末去商店或网上购物?”46.4%的人说“没有什么会改变我在感恩节周末购物的想法”。
他们计划在哪一天购物?
请注意,条形相加超过 100%(它们实际上相加超过 200%)。这是因为许多人会连续几天去购物。黑色星期五是最受欢迎的,70%的受访者会在那一天购物。
美国人在黑色星期五会花多少钱?
你已经看到黑色星期五是感恩节周末最受欢迎的购物日。但是人们在黑色星期五实际上花了多少钱呢?我们来深究一下黑色星期五到底值多少钱;本图数据来自统计大脑。
从上面可以看出,店内消费金额是网上消费金额的 50 倍左右。然而,这一比例是否在增加?让我们来看看截至 2015 年,黑色星期五在线销售的百分比:
网上销售的比例肯定在增加。现在让我们来看看哪些在线零售商在黑色星期五做得最好:你有什么想法吗?
哪些在线零售商获得了最独特的访问者?
亚马逊的独立访客数量是排名第二的沃尔玛的两倍左右。这可能是因为亚马逊购买的在线广告比沃尔玛多吗?让我们通过谷歌关键词黑色星期五来调查一下哪些零售商在黑色星期五花钱最多?
就广告购买量而言,亚马逊甚至不在十大零售商之列,但它们仍主导着在线零售市场。我们迫不及待地想看看 2017 年感恩节周末零售、在线和店内到底发生了什么。2017 年感恩节周末你花了多少钱?
这篇文章是由 Jupyter 笔记本生成的;你可以在这个库中找到它。如果你有任何想法、回应和/或反思,请随时在 twitter 上联系我: @hugobowne 。
NLP 如何改变数据科学的未来
“人工智能不会毁灭人类。相信我。”对于那些担心流氓人工智能以人类为目标的风险的人来说,这些是令人欣慰的话。唯一的问题是:文字本身是由一个人工智能写的。
语言模型 GPT-3 在卫士 i 专栏、中宣称,“我们没有密谋接管人类。”这篇文章令人肃然起敬,却又令人不寒而栗,是对当今自然语言处理(NLP)现状的完美证明。
GPT-3 是大型语言模型的典型代表。由于突破性地发现了高效的 NLP 架构,在海量文本数据上训练的大型语言模型成为可能。GPT-3 可以连贯地写作,翻译语言,回答问题,甚至编写代码。
大型语言模型以其语言能力震惊了世界。没有经过明确的训练,他们可以以最先进的性能完成各种各样的任务。
谢天谢地,这些大型语言模型不仅限于大型技术。取而代之的是,通过新兴的开源 NLP 社区的努力,对这种模型的访问正在扩大,这些社区受到模型 API 可用性增长的支持。对任何人来说,利用大型语言模型的力量比以往任何时候都容易。
NLP 的发展激起了公司和投资者的兴趣。根据 John Snow Labs 和 Gradient Flow 的一项调查,60%的技术领导者表示,与 2020 年相比,他们的 NLP 预算至少增长了 10 %。我们也看到了 NLP 初创公司在 NLP 领域争夺市场份额的惊人增长。随着 NLP 以极快的速度发展,人工智能社区理所当然地表达了对大型语言模型的危险的担忧。在这些模型被广泛采用之前,我们必须确保它们是公正和安全的。
在这篇博文中,我们将探讨 NLP 和大型语言模型的各个方面——它们是什么,如何使用它们,以及我们如何安全地使用它们。
自然语言处理的进展——从 Word2Vec 到 Transformer
NLP 在过去十年中最早的进步之一就是 Word2Vec 的突破。作者 Mikolov 等人发现,当一个模型学习单词联想时,它不仅表现得比当时流行的 N 元模型好得多,而且更有效、更快。
然而,Word2Vec 模型未能将单词的顺序用作有用的信息。递归神经网络 (RNN)的出现解决了这个问题。与 Word2Vec 不同,RNN 从先前的输入中获取信息来影响当前的输入和输出。这给了 RNN“记忆”,使它成为学习文本之间关系的理想选择。
然而,由于梯度消失的问题,RNN 的记忆相当短暂。虽然 RNNs 在短句上表现相对较好,但它在长段落上表现不佳。长短期记忆(LSTM) 的引入,一种特殊类型的 RNN,有“门”赋予 LSTM 记忆信息更长时间的能力。
LSTMs 被视为事实上的 NLP 模型,直到论文“注意力是你所需要的全部”抢走了聚光灯。本文中介绍的注意机制使 RNNs 能够在提供输出时专注于信息的子集。一种特殊类型的基于注意力的网络,变压器网络,被证明是极其简单、高效和强大的。
具体来说, BERT(来自 Transformer 的双向编码器表示)模型被视为 NLP 领域的突破性成就。与顺序阅读文本的方向模型不同,BERT 一次阅读整个单词序列。最令人印象深刻的是,预训练的 BERT 模型只需一个额外的输出层就可以进行微调,以实现各种任务的一流性能。从那以后,多种基于注意力的架构胜过了 BERT。其中包括 XLNet ,百度的厄尼,以及罗伯塔。这些模型在今天的许多 NLP 任务中仍然被广泛使用。
大型语言模型的兴起
技术爱好者对大型语言模型不会陌生,比如威震天-LM、GPT-3 和 T5。大型语言模型以其庞大的参数数量而闻名,以其在自然语言任务中的卓越能力占据了头条新闻。
大型语言模型最著名的例子可能是 OpenAI 的预训练的生成式变形金刚 3 (GPT-3)。GPT-3 拥有超过 1750 亿个参数,并在 570 千兆字节的文本上进行训练,使其比其前任 GPT-2 大 100 倍。
规模的增加给了大型语言模型一份意想不到的礼物——去执行那些它没有被明确训练过的任务。例如,GPT-3 可以在很少或没有训练示例的情况下将句子从英语翻译成德语。它还可以回答问题,写文章,总结长文本,甚至生成计算机代码。令人惊讶的是,它还超过了一些经过专门训练来解决这些任务的最先进的模型。
换句话说,大型语言模型是“少量”学习者。这些模型只需要在少量领域定制的训练数据上进行训练,就可以在特定任务上表现良好。对于某些任务,大型语言模型甚至可以是“零射击”学习者,它们可以在没有演示的情况下执行特定的任务。
少投、一投、零投学习演示(来源 )
各公司仍在竞相构建越来越大的大型语言模型。2021 年,微软和英伟达发布威震天-图灵 NLG 530B ,5300 亿参数。2022 年 5 月,Meta 与 AI 研究社区分享了其 1750 亿参数的开放式预训练变压器(OPT-175B) 。DeepMind 还宣布将发布其 70 亿参数语言模型,检索增强变压器(复古),预计其性能与规模为其 25 倍的神经网络处于同一水平。
大型语言模型逐年变大(来源 )
大型语言模型的民主化
不久前,大型语言模型被拥有强大内部超级计算机的财大气粗的大型技术公司垄断。大型语言模型的参数数量非常大,即使是最大的家用 GPU 也无法容纳。即使克服了这个限制,如果不采用并行化,训练大型语言模型的时间也是不现实的。例如,英伟达预测在八个 V100 GPUs 上训练 GPT-3 模型将需要 36 年的时间。Lambda Labs 认为开发 GPT-3 的前期成本至少为1150 万美元到 2760 万美元,并计算出在云中运行该模型的年度经常性成本至少为 87000 美元。
预算紧张的初创企业当然没有时间和资金来做这件事,但由于大型语言模型的 API,初创企业可以利用 GPT-3 的力量,而无需购买过高的计算资源或挥霍高性能硬件。例如,创始人可以使用由 OpenAI 、 Cohere 和 AI21 提供的 API,将像 GPT 3 这样的模型的力量整合到他们的业务中。
截至 2021 年 3 月,OpenAI 表示,超过 300 个不同的应用程序通过其 GPT-3 API 每天发送 45 亿个单词。多亏了这个 API,开发强大的 NLP 应用程序的过程比以往任何时候都更快、更具可伸缩性。
NLP 初创企业的激增
随着大型语言模型的普及,提供大量服务的初创企业近年来以越来越快的速度涌现也就不足为奇了。
从业者对《GPT 3》生成连贯的长篇文本的能力感到惊叹,就像《GPT 3》使用文本生成内容的奇幻冒险游戏 AI Dungeon 提供的沉浸式体验。另一家初创公司,寓言工作室,使用 GPT-3 创造了一种新的互动故事类型,将“虚拟人”带入生活。
AI 地牢截图。接下来你会做什么?
从那以后,GPT-3 不仅被用于创作虚构的故事,还被用于商业营销内容。引人入胜的博客帖子、社交媒体内容、广告内容和电子邮件可以通过简短的提示生成。这个领域值得注意的初创公司包括 copy.ai (今天估值 1390 万美元) CopySmith (估值 1000 万美元) Rtyr 。虽然一些批评者可能会嘲笑这样的初创公司,声称他们可以轻松区分机器人编写的内容,但如果他们知道 GPT-3 生成的博客帖子成为黑客新闻头条的故事,他们可能会重新考虑自己的立场。
NLP 初创企业也在搜索领域掀起波澜。最近一篇题为“谷歌搜索正在消亡”的博客文章指出了当今搜索引擎的问题,并引发了一场关于初创企业如何扰乱这个领域的激烈辩论。由前 Salesforce 首席科学家领导的you.com就是这样一家初创公司,已经获得了2000 万美元的资金。为了正面挑战谷歌,它使用 NLP 从语义上理解搜索查询,并从网络上总结结果。另一家初创公司是由 Cloudera 前首席技术官创立的 Zir AI,它为企业提供理解意图和语义的内部搜索引擎。
拥抱脸的兴起🤗作为 NLP 发电站
另一个值得注意的 NLP 初创公司是 HuggingFace,它提供工具来轻松构建、训练和部署最先进的基于 transformer 的 NLP 模型。HuggingFace 将自己标榜为“构建未来的人工智能社区”,它拥有一个共享前沿 NLP 模型和数据集的活跃开源社区。它的易用性进一步提升了它作为 NLP 工具先驱的地位。
HuggingFace 的界面
自 2016 年成立以来,HuggingFace 已经引起了轰动,并在人工智能社区中获得了巨大的人气。它已经被 5000 多个组织使用,包括谷歌人工智能、脸书人工智能、微软和艾伦人工智能研究所等技术巨头。它的 Github 知识库也获得了大约 60,000 颗星,使其成为最受欢迎的知识库之一。这些因素促成了截至 2021 年 3 月对6130 万美元的令人印象深刻的估值。据《商业内幕》2022 年 4 月报道,新的资金可能会进一步将的估值推高至 20 亿美元。
HuggingFace 的 CTO 朱利安·肖蒙德表示,人工智能的民主化将是社会最大的成就之一。难怪 HuggingFace 致力于扩大对 NLP 应用的访问。它的模型库拥有来自不同库的大约 42,000 个模型,包括 PyTorch、TensorFlow 和 Keras。其最受欢迎的型号,基于变形金刚的 gpt2 ,已经获得了超过 1 亿的下载量。
通过 HuggingFace 启用的应用
这些模型在一系列令人眼花缭乱的任务中得到了应用。除了翻译、摘要和文本生成等 NLP 用例之外,该库还包含计算机视觉(图像分类、图像分割)和音频处理(音频分类、文本到语音)的模型。
HuggingFace 最近加大了努力,为经验丰富的从业者、新手以及介于两者之间的所有人民主化 NLP。刚刚接触 NLP 的学生可以从免费的 HuggingFace NLP 课程中受益,该课程提供了使用基于 transformer 的模型的实用教程。那些希望构建和部署 ML 项目的人可以利用 HuggingFace 的空间提供的免费计算资源。
NLP 爱好者还可以利用 HuggingFace 的数据集库探索海量文本语料库。数据科学家和机器学习工程师会很高兴地发现,HuggingFace 最近发布了开源的 Optimum ,用于大规模优化变压器。
HuggingFace 的数据集库拥有来自 467 种语言和方言的超过 4,500 个独特的数据集,所有这些数据集都可以通过几行代码下载。
即将到来的 BigScience 大型语言模型是该公司民主化努力的顶峰。BigScience 是一个多语言的 1760 亿参数语言模型,由全球 1000 多名研究人员合作构建。该模型将于 2022 年年中完成训练。在那之前,我们只能满怀期待地等待大科学将带来的技术。你可以在推特上追踪 BigScience 大型语言模型的训练。
既然我们已经介绍了 NLP 初创公司提供的服务类型,那么让我们来看看如何将这些服务应用于两个特定的行业。
自然语言处理在医疗保健中的未来
医疗保健行业是一个每年 4 万亿美元的行业,雇佣了十分之一的美国工人,占美国政府支出的 25%。尽管其至关重要,但效率低下困扰着美国医疗体系。NLP 有望彻底改变医疗保健。
一种方法是它能够提高医疗保健提供者的护理效率和准确性。根据美国医学协会 2019 年的一项研究,医生每天花近 6 小时,相当于他们工作时间的 50%,从事电子健康记录(EHR)。除了浪费时间之外,在 EHR 手工录入也不可避免地导致可预防的医疗差错。
NLP 可以通过自动创建和分析电子病历来改变这种状况。有了语音转文本模式,医生和病人的对话可以自动记录下来。使用文本摘要模型,可以快速生成患者就诊摘要。通过在大规模 EHR 上训练的 NLP 模型,可以预测医疗诊断和治疗。
自然语言处理也可以增强病人的医疗体验。NLP 模型可以用来构建聊天机器人,提供关于临床预约的相关信息,提醒病人并回答 T2 病人关于他们健康的问题。
NLP 回答的患者问题示例(来源 )
在一项研究中,乳腺癌患者报告称,他们与一个医疗聊天机器人互动了一年多,其满意度接近 94%。像 Babylon Health 和 AdaHealth 这样的公司利用这个机会,开始向世界各地的医疗服务机构提供聊天机器人服务,这并不奇怪。医疗科技初创公司 Curai 的首席执行官尼尔科斯拉(Neal Khosla)很好地总结了 NLP 改变医疗保健的潜力。“人工智能和 NLP 提供了大规模提高优质初级保健可用性的潜力,使更多人能够以更低的成本获得优质初级保健。”
教育中自然语言处理的未来
NLP 的另一个有趣的应用是在教育领域。大规模提供高质量的教育带来了巨大的经济挑战。因此,研究人员正在探索可扩展的计算方法,以帮助教师更好、更有效地教学。当今最强大的 NLP 模型可以被训练成特定领域的主题专家。这种模型可以成为教师评分、提供反馈甚至提出问题的辅助工具。
一个具体的例子是 ProtoTransformer ,一个给斯坦福大学开放式计算机科学导论期中考试打分的模型。由于 ProtoTransformer 能够处理多种模式的信息,如任务提示、问题图表和评分规则,因此它与人类助教一样有效。
NLP 还可以提供个性化的反馈,这是一个在大班级中逻辑上不可行的任务。如果 NLP 可以自动给出反馈,这种情况可能会改变。MathBERT 就是一个例子,这是一个在从幼儿园到大学研究生水平的大型数学语料库上训练的 BERT 模型。
NLP 也可以自动化问题生成的过程。特别是,斯坦福大学的研究人员发现,现代语言模型可以用来生成新颖的反向翻译问题,实现目标难度。
语言模型产生了各种困难的英语到西班牙语的翻译问题。斜体问题是新颖的,不存在于原始数据集中。
麦肯锡的研究表明,目前教师课时的 20%到 40%可以通过现有技术实现自动化。像面条厂这样的教育科技初创公司是朝着这个目标迈出的一步。如果教师从手动、重复的任务中解放出来,他们可以花更多的时间辅导和指导学生——这些任务是人工智能无法模仿的。
大型语言模型的风险
到目前为止,我们已经研究了大型语言模型如何释放 NLP 能力,这在以前是不可能的。然而,批评者和研究人员警告不要不顾及人工智能的风险而盲目乐观。斯坦福大学的研究人员断言,大型语言模型将改变科学、社会和人工智能。这种转变是好是坏将取决于我们如何管理风险。
其中一个风险是偏见和有害内容的存在。今天的语言模型是在从网上搜集的未精确数据集上训练的。此类信息可能是虚假或有害的。这意味着他们从语言中学习——包括所有的缺点——并且放大了我们现存世界的偏见。
对少数民族阶层造成伤害的语言模式的教科书例子是微软 2016 年的聊天机器人 Tay,它在推特上向其他推特用户发布种族主义和性指控的消息。最近,Wallace 等人令人震惊地发现,添加到任何输入中的单个触发可以导致 GPT-2吐出种族主义输出,即使是在非种族背景下。在同一个实验中,另一个触发器导致小队模型用“去杀美国人”来回答所有“为什么”的问题。
同样,用于训练语言模型的数据可能会中毒,导致下游应用程序面临有害模型的风险。令人担忧的是, Schuster 等人证明了一个代码完成 NLP 系统只需注入几个恶意文件就可以被教会产生不安全的代码。可以想象,其他生成模型也可以通过有害注入产生有害内容。
语言模型的提供者也可能失败。目前,GPT-3 要求从业者将用于推理的数据上传到 OpenAI。泄露此类潜在敏感数据可能意味着侵犯隐私。如今,许多语言模型也直接由 HuggingFace 的基础设施提供服务。对公共基础设施的攻击有可能破坏生产中的许多语言模型。
当潜在的预先训练的语言模型压倒性地流行时,这种风险被放大。一旦对手发现了流行语言模型的漏洞,它就可以利用共享相同底层模型的其他应用程序。
缺乏可解释性
可解释性被定义为人类能够理解决策原因的程度。不幸的是,今天的许多 NLP 模型离可解释性的理想状态还很远。
大型语言模型是黑匣子,很少或根本不了解 it 如何做出决策。在没有完全了解决策过程的情况下做出高风险的决策可能是不明智的。例如,用于批准或拒绝囚犯假释的 NLP 系统必须能够根据事实解释其决定。这种解释是审计其决定的公平性和一致性的一种具体方式。
诚然,有可解释的人工智能方法提供模型行为的解释。这些不同的模型旨在解释黑盒模型。例子包括 Google 的语言可解释性工具(LIT) 和 LIME。
谷歌 LIT 的演示(来源 )
然而,来自这种模型的解释可能是不可靠的,不能准确地代表模型预测背后的推理过程。此外,它们可能是不可靠的、误导的和危险的。可信但不可靠的解释可能会诱使从业者产生错误的安全感,并诱使他们相信不可靠的模型,正如分水岭论文“停止解释高风险决策的黑盒机器学习模型,使用可解释的模型来代替”中所解释的那样。
大型语言模型将改变人工智能的未来
“这只是范式转变的开始:大型语言模型刚刚开始改变人工智能系统在这个世界上的构建和部署方式,”一群杰出的人工智能研究人员在讨论大型语言模型的机遇和风险时总结道。
大型语言模型支持的用例绝对令人惊叹。然而,并非所有闪光的都是金子。作为 AI 从业者,我们必须意识到大型语言模型的衰落,并负责任地谨慎使用它们。只有这样,我们才能充分挖掘大型语言模型的全部潜力。
在此了解有关自然语言处理的更多信息:
一个学习者如何通过学习 200 多门课程并积累 100 多万经验来节省 1500 多个小时的工作
Cameron White 是 Fruit of the Loom 数据科学团队的分析师,也是数据营的 XP 百万富翁。他的 LinkedIn 自豪地广播:“超过 200 门课程,超过 10,000 次练习,超过 100 万次 XP,几乎所有的技能和职业轨迹都是在 DataCamp 上完成的。”
他也是一个忙碌的单身父亲,带着一个年幼的儿子,时间是他最宝贵的商品。
借助 DataCamp 实现数据流畅
如今,Cameron 精通 Python 和 R,精通许多数据科学任务,从 ETL 到时间序列建模到文本分析,等等。但五年前,情况并非如此。他刚刚完成了数学和统计学的学士学位课程,他的大部分大学课程都是理论性的,还穿插了一些应用统计学课程。他在 Fruit of the Loom 得到了一份实习工作,后来成为新成立的数据科学团队的全职员工。问题?他不知道数据科学家实际上做什么样的工作,也不知道他们是如何完成的。
我清楚地记得我得到了工作机会,听到了数据科学家这个术语,但当时我并不知道它到底是什么。
为了准备在 Fruit of the Loom 的角色,卡梅伦四处寻找在线平台,以快速培养数据科学技能。他尝试了我们的一个竞争对手,但发现他们的课程“不适合(他的)学生需求。”他在 2015 年发现了 DataCamp,几乎立刻就被我们的边做边学方法吸引住了。
我喜欢用 DataCamp 按照自己的节奏学习。
Cameron 赞赏 DataCamp 平台的灵活性,这使他能够在桌面和移动设备上获得无缝的学习体验。每当他的时间表中有 30 分钟的空隙时,他就可以方便地学习,例如在他让儿子上床睡觉后。他也喜欢我们的视频内容,认为它“很短,但很有用”
他也喜欢我们教学的质量——我们只与数据科学领域的领先专家合作,其中一些专家正在积极创建和维护 Cameron 每天使用的工具和软件包。
很多课程都是包的创作者自己教的!谁能比包装作者更好呢?
学习对 DataCamp 的业务影响
卡梅伦试图每天留出一个小时在 DataCamp 上学习,他已经能够“在许多场合,有时甚至是在第二天”将所学知识直接应用到工作中
例如,在探索我们的 R 课程之前,他从未听说过 Tidyverse,今天,他的团队“几乎每一天,几乎每一个项目”都在使用 tidy data 原则。他还在各种价格建模场景中使用了 DataCamp 教授的许多建模方法。
在使用 dplyr 对 R 中的数据进行操作后,Cameron 经历了巨大的性能提升,无论是大型数据集的处理时间还是编码时间。这些技能很容易实现,他热切地与同事分享他的学习成果,帮助建立对 R 和 dplyr 的内部热情。
他参与的一个主要项目是与微软的预测分析合作。他们发现,六天内气温下降 12 度会直接刺激大量消费者购买御寒衣物。这些发现使他们能够主动准备供应链,以满足不同的地理需求,并优化织机羊毛和其他寒冷天气产品的销售。对于这个项目,Cameron 和他的团队应用了从 DataCamp 的课程中学到的许多知识,这些课程侧重于 SQL、在 R 中导入和清理数据以及高级建模。
使用 DataCamp 节省 196 个工作日
数据营对卡梅隆工作的影响是巨大的。让我们看看他在 DataCamp 上学习了四年后,他自己的帐户节省了多少时间。
- 卡梅伦每年大约工作 200 天,所以四年中大约有 800 天。在这 800 天中,他假设大约 20%的时间花在了积极编码上,这样我们就有 160 个工作日(或者 1280 个工作小时)。
- 在活跃的编码时间中,他假设大约 40%(或 512 小时)的时间花在了探索性的数据分析上,而从 DataCamp 学到的整洁概念加速了数据分析。在这 512 个小时中,他认为使用整洁原则已经节省了大约一半的时间。
- 在 Cameron 其余 60%的时间里,大约 10%的时间花在了帮助他人解决编码问题上——自从他的团队开始使用 DataCamp 以来,这一时间大大减少了。
- 卡梅伦估计,剩下的近 700 个小时,已经被用于做更高级的工作,例如使用 caret 软件包上的课程概念建模,制作闪亮的应用程序,或从网络上获取数据。他特别赞扬了我们的课程——科林·吉莱斯皮的《如何编写高效的 R 代码》( T1 ),这对改进他的运行时有很大的帮助。
- 根据 Cameron 的粗略估计,他看到自己每年直接编码的时间增加了 675 个小时。这还不包括在非编码会议中节省的大量时间,比如当他的团队第一次概述一个项目时。在 DataCamp 上学习到的新方法大大提高了这一阶段的速度。他估计自己已经节省了 70%的时间,即 896 个小时(T2)。
在过去的四年里,卡梅伦总共节省了大约 1571 个工作小时或 196 个工作日。正如我们在本文开头提到的,时间是卡梅伦最宝贵的商品——所以他非常善于最大化它。
数据营如何鼓励协作
卡梅伦的团队充分利用他们的 DataCamp 订阅,在工作空闲时学习新的话题。他们可能很有竞争力,有时会在 DataCamp XP 上互相挑战,这有助于“保持事情的趣味性”
此外,该团队有每年达到一定训练时间的正式目标,他们主要使用 DataCamp 来实现这一目标。
基于我们在网站上发现的新方法、算法和流程的数量,团队的成长是显而易见的。
帮助团队规划他们的数据流畅之旅
对于 Cameron 来说,开始他的数据科学职业生涯最困难的部分是知道从哪里开始以及将精力集中在哪里。他认为 DataCamp 通过我们的技能轨迹和职业轨迹很好地指导了他的学习。
数据科学是一个非常有趣、有趣和有益的职业道路,DataCamp 的平台极大地帮助了我在这一领域取得成功。
了解更多关于卡梅隆的数据流畅之旅,并在 LinkedIn 和 Twitter 上与他联系。
要评估 DataCamp 如何帮助您的团队精通数据科学和分析,请访问datacamp.com/business或安排我们平台的演示。
一名教师如何革新捷克共和国的数据教育
自 2021 年 3 月以来,我们最自豪的成就之一就是向全球各个国家的中学教师免费开放 DataCamp 教室。到 2022 年 7 月,该服务将在美国、英国、比利时、波兰和澳大利亚上线。后来,我们收到了一封令人大开眼界的电子邮件,来自 Smí chov 中等技术和语法学校的教师 Jakub Kormárek,他询问是否可以与捷克的中学教师和学生分享同样功能齐全的优质体验。这是他的故事,用他自己的话说,关于他如何帮助我们将免费数据教育带到他祖国的 1000 多所学校:
通过几封电子邮件,Kormárek 先生使 DataCamp 能够为捷克的高中教师和 16 岁及以上的学生提供免费的数据科学教育、认证和合作。我们喜欢像 Kormárek 先生(以及他之前在澳大利亚的 David Fenwick)这样的老师利用他们的关系为我们提供所需的学校数据,以改变年轻人和教育工作者学习、教授和应用数据科学的方式。在 DataCamp,我们放眼全球,立足本地。我们已经证明,一个充满激情的人(通常是老师)可以彻底改变年轻人获得关键的、经得起未来考验的技能的途径。
如果您是澳大利亚、比利时、加拿大、捷克共和国、波兰、英国或美国的一名高中教师,今天就申请 DataCamp 教室为您和您的所有学生提供为期六个月的可更新的高级访问。几乎每个国家的大学教师都有资格享受这一优惠。
如果你是下一个 Kormárek 先生或 Fenwick 先生,我们希望听到你的声音!请在 【电子邮件受保护】 给我们发电子邮件,告诉我们为什么您认为您所在国家的高中教师和学生应该获得免费的数据科学教育。我们只需要一份你们国家所有中学及其电子邮件域名的清单,这样你就能成为一个民族英雄,更重要的是,让成千上万的学生受益,获得他们需要的技能和知识,以保住现在和未来薪酬最高、最有影响力的工作。
开源如何推动数据科学的未来
数据科学中的开源现状
开源数据集和软件已经成为数据科学的主要内容。近年来,创新型创业公司拥有开源工具,使数据团队能够更好地处理数据,如 Airbnb 的气流工作流管理平台和 Lyft 的数据发现引擎。
公开可用的数据集为最新的机器学习算法提供了有价值的训练数据。Python 和 R 中的开源包使数据科学家能够简化他们的工作流程。数据科学家可以构建框架,降低在整个组织中使用数据的门槛。这样的例子不胜枚举。
开源正在催化数据驱动和数据生成技术的发展,预示着第四次工业革命( Salesforce )。现在数据的字节数比可观测宇宙中的恒星还多,世界上的数据量继续每两年翻一倍,组织越来越多地使用开源工具来充分利用这些数据。
数据科学开源的优势
正如开源革命导致了软件开发的变革一样,它也推动了数据科学和人工智能的发展和民主化。开源已经成为企业数据科学解决方案的关键推动者,大多数数据科学家都在使用开源工具( Kaggle )。
开源更安全
事实上,世界现在很大程度上运行在开源解决方案上,无论我们是指基于 Linux 的数据中心、Apache web 服务器,还是用 Java 编写的 web 应用程序。围绕这些解决方案发展起来的繁荣社区意味着它们得到了广泛的支持,这不仅从支持的角度来看是个好消息,对于安全性、更新和优化来说也是如此。
由于开源促进了基于社区的数据科学和软件开发方法,流行的项目从数百甚至数千名行业专家那里获得了有价值的输入。这意味着可以更快地识别和修复潜在的安全漏洞,通过广泛的共识保证质量,并且更容易发现新的机会。
开源提供了灵活性
专有软件和开源软件的主要区别之一是灵活性和定制性。最终,专有软件是由其开发者控制和管理的,而开源软件有更灵活的许可。这使组织能够为工作流定制软件,并为他们提供对他们开发的工具和解决方案的更多控制。此外,开源软件是可互操作的,这意味着它可以处理各种数据格式,并且是为云和云原生技术设计的。最后,开源软件使组织能够避免供应商锁定,并允许他们在提交解决方案之前测试和尝试软件( InfoWorld )。
开源促进了员工的获取和保留
开源革命的一个关键方面是它如何与人才获取和保留相交叉。尽管专有技术的相关技能缺乏流动性,因为它们只在特定的封闭环境中相关,但为开源项目做贡献可以让组织更容易吸引和留住合适的人才。开源工具已经成为学术界和工业界的标准,促进了技能共享和全面发展。
提升你的团队在开源数据科学方面的技能
虽然开源在数据科学中的好处毋庸置疑,但学习必要的技能仍然需要时间和努力。提升您的团队在流行的开源数据科学工具和软件包方面的技能,对于让您的业务适应未来以及促进持续创新、学习和改进的文化来说至关重要。
充分利用数据的重要方面是确保您的团队能够高效地分析数据,并根据数据做出更明智、更及时的决策。
下载我们的白皮书了解更多关于开源数据科学的好处。
Power BI 如何帮助您的组织获得更好的数据洞察力
在数字时代保持竞争力
大多数组织已经开始进行数字和数据转型,以便在日益高度互联和数字化的世界中生存和发展。正因为如此,企业现在产生了大量的数据,可以用来做出更好的决策。
为了最大限度地提高数据回报,分析师需要获得最佳的商业智能工具,以便为数据驱动的决策提取有价值的见解。
什么是商业智能(BI)工具?
商业智能(BI)是一组功能和技术,可将数据转化为可操作的见解,帮助企业做出更明智的数据驱动型决策。商业智能是通过 BI 工具交付的,这些工具为分析师提供了一个简单的拖放界面来执行以下活动:
-
数据准备:对来自多个来源的数据进行编译,并对其进行格式化以供分析。
-
数据查询:从数据集获取答案,回答特定的数据问题。
-
数据可视化:以图表、图形、直方图等形式创建分析的可视化表示,以便于理解。
-
绩效指标报告:将当前绩效与历史数据进行比较,并与利益相关方分享结果,以便做出决策。
-
数据挖掘:使用统计学和机器学习来揭示大数据集中的趋势。
商业智能工具在行业中的使用
BI 的概念从 20 世纪 60 年代就有了。因此,毫不奇怪,市场上已经有几十种成熟的 BI 工具可以帮助组织利用数据进行业务分析。两个最流行的 BI 工具是微软的 Power BI 和 Tableau。
现代 BI 工具的主要价值在于它们支持自助分析、更快的洞察速度和易于使用的用户界面。现代 BI 工具使员工能够快速访问数据并自己回答业务问题,而不是向中央数据团队发送请求的传统方法。
以下是行业中使用的一些 BI 工具示例:
沃尔沃集团使用 Qlik 来提高关键财务结果的报告效率,从而在组织内部实现嵌入式自主决策。
UChicago Medicine 利用 Tableau 创建实时仪表盘,作为医疗中心对新冠肺炎疫情的数据驱动运营响应的一部分
苏黎世保险集团借助 Power BI 构建一个统一的平台,帮助企业用户更有效地挖掘和利用公司数据。
摩根大通采用 Tableau 从 IT 拥有的自助服务分析转变为业务拥有的自助服务分析,以跟上快速的行业变化并优化业务成功的流程。
什么是 Power BI?
Power BI 是一个 BI 和数据可视化工具,它利用可视化分析来帮助个人和组织充分利用他们的数据。Power BI 中创建的引人入胜的可视化将 excel 工作流提升到了一个新的水平,并帮助利益相关者理解大量可用的数据。
据 Gartner 称,Power BI 是领先的数据可视化工具,有超过 600 万用户和 97%的财富 500 强公司使用它来实现数据洞察的民主化。功率 BI 由两部分组成:
-
Power BI Desktop 是一个免费的桌面版本,允许进行数据分析和报告创建,并包括 Power Query 编辑器。
-
Power BI Service 是 Power BI 的一个基于云的版本,它具有轻量级的报告编辑功能,旨在跨组织共享和分发报告。
最常见的是,团队使用 Power BI Desktop 来创建报告,并使用 Power BI service 来共享它们。有一个付费的 Power BI Pro 版本,它提供协作能力、移动应用程序以及在 Power BI 云平台上发布和共享的能力。
此外,Power BI Pro 是微软 365 E5 订阅的一部分,所以如果你在使用微软 Office 的组织中,你可能已经可以访问它了。
A Power BI Dashboard in Action
Power BI 有什么用?
1.提取数据洞察,无需编码技能
Power BI 的主要优势之一是其直观的用户界面,允许技术和非技术分析师高效地构建数据可视化和分析。
用户友好的拖放界面使回答复杂的数据相关问题变得容易,而不需要编程技能。这种简单性降低了用户执行高级分析(如趋势分析、回归和统计汇总)的障碍。
Power BI 还可以与各种现有的 Microsoft 应用程序集成,如 Microsoft teams、Excel 和 PowerPoint,这使得将数据洞察集成到现有工作流中变得更加容易。
2.借助仪表盘实现数据洞察的民主化
大多数人都熟悉的一个经典 BI 应用程序是仪表板,其中数据从多个来源获得,并以图表和图形的形式直观地呈现,以提供公司流程和战略的感觉。
Power BI 附带了许多报告功能,用户可以轻松创建设计良好的交互式仪表盘。它还可以连接到广泛的数据源,并可以帮助您创建强大的数据模型(例如,SQL Server、Excel 电子表格、Amazon Redshift 等。).因此,这些仪表板可以用来自组织内各种应用程序的综合数据来丰富。
这些仪表板在协调组织的战略努力、揭示关键见解和加速企业范围的决策方面大有帮助。当许多用户接受创建这种仪表板的培训时,数据洞察可以大规模民主化,以帮助企业转型为数据驱动的公司。
3.借助高级数据可视化讲述数据故事
鉴于数字时代产生的大量数据,引人注目的数据故事比以往任何时候都更加重要。
仪表板非常适合监控数据,并告诉用户正在发生什么。然而,数据故事有助于将数据塑造成一个循序渐进的过程,以解释 为什么 特定趋势正在发生。
*Power BI 允许用户将一系列可视化(包括仪表板)串联起来,形成一个可视化的故事,以交流数据见解,提供背景,并展示决策与结果之间的关系。
将高级可视化编织成连贯的数据叙述的能力是 Power BI 区别于 Excel 等其他工具的地方。这些数据故事在构建令人信服的案例以向决策者传达可操作的见解方面非常有效,这与商业智能的主要目标相一致。
A Power BI Data Story on the impact covid-19 had on public transportation in NSW
借助 Power BI 和 DataCamp 实现数据科学的民主化
NewVantage Partners 的 2021 年大数据和人工智能执行摘要显示,只有 24%的公司被认为是数据驱动的。为了释放数据的价值,员工需要用工具武装自己,以便有效地从数据中学习。
Power BI 是一款广泛使用的商业智能和分析软件,受到亚马逊、Adobe、劳斯莱斯等公司的信任。凭借其用户友好的拖放功能,Power BI 使组织中的每个人都能够探索、分析、共享和可视化业务数据,并使所有人的见解民主化。
了解更多关于 DataCamp 如何为您的团队提供强大的 BI 技能,以大规模普及数据科学的信息。
实时数据如何加速业务成果
乔治·特鲁希略(George Trujillo)是 DataStax 的首席数据策略师,这是一家通过在单一统一的堆栈上移动实时数据来帮助企业扩展的科技公司。乔治的职业生涯长达 30 年,在查尔斯·施瓦布、富达投资和 Overstock.com 等公司工作过,他是数据驱动的行政决策以及将数据计划与切实的商业价值结果联系起来的专家。
Richie 帮助组织从模糊的“嘿,我们应该更好地使用数据”转变为现实的计划,成为成功的数据驱动型组织。在数据科学被称为数据科学之前,他就是一名数据科学家,已经写了几本书,并创建了许多关于该主题的数据营课程。
介绍葛奇·特鲁希略
里奇·科顿:大家好。我是 Richie,您的住院医师、数据传播者,也是今天的主持人。数据分析有一个普遍的问题。从提出问题到得到答案需要时间。在最糟糕的情况下,当你收到答案时,你可能并不关心答案是什么。因此,基本上所有组织都在不断寻求加快从数据中获取价值的速度。
最终游戏是实时分析,您可以在几微秒内获得数据 AEs 的结果,告诉我们如何实现这一点。分析界的圣杯是乔治·特鲁希略。data stack 的首席数据策略师。他在帮助首席执行官们为他们的组织制定数据战略以及帮助他们更快地从数据中获得价值方面拥有丰富的经验。
听到他的建议我很兴奋。你好,乔治。谢谢你今天加入我们。我们正在讨论实时分析以及它如何帮助您的业务和客户。因为你为 data stacks 工作,data stacks 主要是一家工具公司。我想谈一谈你需要的一些工具。
如果您试图自己构建某种实时数据堆栈,那么从哪里开始呢?它的不同组成部分是什么?
乔治·特鲁希略:是的,里奇,谢谢你今天邀请我。我真的很期待和你一起讨论...查看更多
ssion and as you can always get me to talk about data. So one of the things that kind of helps me is when I look at a data ecosystem, it has to work together. And one of the things, helps me visualize it and architect and design is to look at a data ecosystem as a data supply. That data flows through that ecosystem. So you can have applications and IOT devices and databases as sources of data. And then that data will flow into an area which is your streaming, your messaging, your queuing data. And then from that live data flow, you move into your databases. Where data has a lifespan by persisting, and then either from the streams of the databases, that data, again, flows in its raw form or a transformed format into your analytical platforms, which are your data, warehouses, your lake houses, your cloud storage, et cetera. So that data supply chain, the more it flows efficiently, the faster you can go from data discovery to realizing value from that.
Richie Cotton:所以真正重要的是你能多快找到数据问题的答案。
乔治·特鲁希略:是的,这是正确的,因为你知道,我们太关注数据了。人们很容易忽视这样一个事实:如果我们不能从数据中产生数据价值,我们拥有多少数据都没有用。目标始终是从数据中产生价值,并为公司创造收入。因此,当您谈到工具时,这有助于我了解生态系统,即了解哪些工具构成了生态系统中数据流的数据摄取。构成数据库的工具是什么,您将数据或内存持久化在哪里,您将数据驻留在哪里以实现极低的延迟,或者您希望如何将数据格式化并转换为您的分析数据?
因此,我认为将数据分成这些流动区域是一个好方法,因为它总是确保你从整体上看待一切,而不是短视地看待一个区域,因为流动会影响整个生态系统。
里奇·科顿:你提到了这个词,数据供应链。有趣。我以前没听过这个术语。你能告诉我一点你所说的数据供应是什么意思吗?
乔治·特鲁希略:是的。我在职业生涯中担任过不同的角色,这让我能够从许多不同的角度来看待数据和业务。我曾经是一名数据副总裁,负责向我的办公室报告组织中的所有数据。我曾担任数据架构和数据战略副总裁。因此,在这些角色中,我总是关注数据库中发生的事情,数据仓库中发生的事情,以及调整平台中发生的事情。
但我在 Oracle 工作了大约四年,在那里我的角色与我在数据堆栈的角色相似,关注企业客户。他们在考虑如何为我们的企业解决问题?我们如何更快地执行数据?当我从一个组织那里得到所有的数据向我汇报时,我不是在解决一个问题。我真的在解决一个整体问题。我认为,一旦你可以从生态系统的整体角度来看待工具中的数据生态系统,它就会完全改变你解决问题的方式。当你开始意识到这不仅仅是你拥有的工具,而且每个人都在尝试,当你选择一个工具时,它通常是为了一个项目或一个用例或一个计划,通常没有足够的考虑这将如何影响整个生态系统的后果。所以,我开始研究数据供应链的原因是,我真的在研究,我们发现数据流入一个系统。它持续存在,然后进入一种形式,人们希望分析它并运行机器学习算法,从中获取价值。我开始意识到,真正需要提高效率的是数据流。
这就是人们可以轻松利用数据流并从中产生价值的方式。因此,数据供应链的观点确实有助于我确保保持一致,确保生态系统和数据流尽可能保持高效。我不会近视地看待事物,只会看到一个垂直的视角。
Richie Cotton:这是对数据在整个业务中的应用的一个非常高层次的概述。
乔治·特鲁希略:这是正确的,因为当我与业务领导或首席营销官或总裁交谈时,他们从来不谈论技术。他们说我们需要更快地访问数据。里奇实际上改变了我的观点,让我开始全面地看待事物。从数据供应链开始,我开始花很多时间与商业领袖交谈。问他们,你的挑战是什么?你希望什么能做得更快?你怎么能不这么做呢?你需要能够做那些让你在从数据中获取价值时感到沮丧的事情,几乎毫无例外,你可以把他们所有的答案、担忧和沮丧归结为一件事。将正确的数据提供给正确的人需要太长的时间。这是一个生态系统问题。它不是一个单独的工具。
生态系统中的瓶颈
里奇·科顿:啊,有意思。好吧。因此,如果你试图建立这个生态系统,那么瓶颈在哪里?是最不常见的。
乔治·特鲁希略:你知道,当数据流动时,你看看你的数据摄取平台,这真的很有趣。很符合。当我观察组织时,他们有专门的软件来收集数据。他们有非常具体的消息数据。他们有专门的软件来发布订阅。所以他们有所有这些不同的数据流。
事实是,当你想用数据创新时,它通常发生在数据集成点。所以你有来自 rabbit 和 Q 的数据流,来自 Kaka 和 Pulsar。
里奇·科顿:当你试图为自己建立这个生态系统时,你从哪里开始?这里面有哪些常见的破损?
乔治·特鲁希略:它打破的通常地方是数据集成点,而如此关键的原因是数据集成点通常是你拥有巨大创新价值的地方。例如,如果公司已经建立了他们的技术,一次一个用例中的项目。因此,出于正确的原因,他们选择了一个伟大的枢纽子工具。
他们选了一个很棒的线索系统。他们自己选择了一个很棒的信息系统。它们都工作得很好,但是在数据集成点,数据必须集合在一起。因此,您可能会遇到这样一位业务领导,他说,嘿,我们希望对这些数据有一个新的看法,他们会说,为什么我花了两个月才得到我的。
你必须去找卡夫卡开发者,你必须去找兔子,MQ 开发者。你必须去找 PSAR 开发商。你必须去找产品经理,你必须让这些团队聚在一起,了解我们如何成功地改变数据,谁负责?所以数据集成点的工具越复杂。就越会降低你从数据中获取价值的能力。
数据集成的责任
Richie Cotton:如果这些数据集成点真的很重要,那么谁倾向于负责数据集成呢?
乔治·特鲁希略:这是一个非常好的观点。你知道,它通常是数据架构的一部分,也是数据工程的一部分。这是通常会涉及的两个团队。我认为非常重要的一点是,你总是需要有人来领导。数据科学特征是其中的一部分,因为整个目标是我们如何对数据建模?
我们如何确保当我们集成这些数据并更新这种结构时,分析师和数据科学家能够从中获得价值,或者一旦我们在这个集成点获得了这些数据,按照我们想要的方式,它需要与哪些数据集成?你可以看到,如果很难做到这一点,分析师、商业科学家和数据科学家会非常沮丧,因为数据很难处理。
最终你会得到这个复杂的部落知识,只有少数人真正理解它。因此,如果在一个组织中只有一两个人可以解决问题,这绝对会降低你获得洞察力的能力。
里奇·科顿:当然。这绝对是个问题。我认识到只有少数人知道如何完成某项技术任务。既然我们在讨论,那么缩短获取价值的时间和实时分析就是其中的一个重要部分。我想谈谈你是如何到达那里的。所以直观地说,实时分析是个好主意,因为你想快速得到答案,但这似乎比仅仅完成分析更困难。在某种程度上,这感觉像是一个不可能的挑战。那么,你什么时候真正需要实时分析呢?什么时候你只需要事情进展得快一点?
乔治·特鲁希略:实时分析始于客户体验。如果你看一下客户与企业合作的时间,我们过去与银行家合作,我们与客户合作。我们在一家餐馆和我们最喜欢的大自然鹿一起工作。如果你看看我们所有的关系,现在他们几乎更多的是与应用程序和移动应用程序,而不是与人。所以当有人进入一个应用程序时,他们能找到他们正在寻找的信息吗?如果他们试图做出决定,他们是否能够快速查看不同的产品,或者他们是否必须努力找到它们,他们是否能够获得准确的信息?那个产品在吗?或者我们想知道要多久才能送到。
您就越能高效、轻松地为客户实现这一目标,创造出色的客户体验。越高,你得到交易的可能性就越大。因此,我们花了这么多年的时间专注于后端的分析,包括您的数据、仓库、云存储和分析。
但是,如果您不能很好地处理实时数据,您可能不会生成该事务,因此数据永远不会到达您的数据仓库。因为顾客可能会去别的地方。因此,如果你是一名顾客,你正试图做出一个决定,你在你的移动应用程序上,你在浏览器上。
你在等吗?10 秒钟?你在移动交易中等待了 20 秒吗?这是一个问题。因此,您的技术体系必须具有低延迟,并且必须能够处理数据量和数据传输速度。这也是里奇在过去几年里看到巨大变化的地方。这表明该工具无法扩展,或者无法处理数据的速度。
因此,客户确实希望确保他们现在拥有这些强大的平台,能够处理实时分析所需的速度。
过去 3 年的变化
里奇·科顿:你说即使在三年前,技术也发生了如此大的变化。这很有趣。那么,就这些平台而言,到底发生了什么变化?在过去的三年里,有什么不同呢?
乔治·特鲁希略:我认为最重要的事情之一是,你必须能够做出决定的速度,或者你必须有三四年前的价值。只有七分钟。只有五分钟。现在是几微秒或者几秒钟。所以速度差异改变了整个客户体验。
另一件事是,我们通常能够独立于业务部门工作,无论是供应部门、营销部门还是销售部门,但是数据集成点越多,就越需要能够非常轻松地处理来自不同来源的数据。所以我的看法是这些不同的技术。
人们说不同的语言。那么,如果每个人都说不同的语言,我该如何达成一致并完成工作呢?那么,与其试图让每个人都说多种语言,不如我们开始减少人们说的语言的数量,或者我们可以找到更多的共同语言。
举例来说,如果你是一个拥有多个 pub subs、多个 cuing 系统、多个消息系统的组织。对我来说,走进一个组织,在他们的接收平台上看到五到七种不同的工具是非常典型的。如果我们能从七个减少到两个呢?现在我只会说两种语言。
嗯,十有八九。如果我让一组人说几种语言或一种语言,让另一组人说七种语言,你认为谁会更快、更有效率、更少出错?
里奇·科顿:是的,这很有趣。所以。当然,我看到在数据分析或数据科学领域,Python 和 SQL 正在标准化,或许也是如此。但是对于数据工程方面,有很多工具。我是不是认为你所说的是人们正在朝着更少数量的更标准的工具努力,对于数据工程师来说,
乔治·特鲁希略:我想。这必须发生,因为如果你想提高效率,你必须能够标准化,能够优化,创造一个复合效应。我从未见过你或你的方式开始,你减少复杂。
标准化的例子
里奇·科顿绝对是。有道理。你看到人们正在标准化哪些工具的例子了吗?
乔治·特鲁希略:是的。我认为他们在这里看起来有点过于简化了。只是,我怎么能少说点语言呢?有一件事让我想到了我现在推荐的工具,那就是我去了企业,我开始问所有的企业领导人,你们面临的挑战是什么?你有什么问题?
什么能帮助你更快?我没有研究技术,而是采纳了他们所有的意见,并对其进行了逆向工程。我想出了一堆复选框,这些复选框显示了我需要从根本上改善业务的所有能力。事实上,我有了顿悟,因为我有一两个摄取平台和数据库,我已经实施了多年,非常成功。
我发现,如今公司寻求创新的方式需要更高的可扩展性。他们在寻找云计算,他们在寻找我们如何快速从本地迁移到混合云或云计算,或者他们不需要能够做到这一点,但他们希望在未来,我们不会做出让我们在未来两三年陷入困境的决策。
所以他们想要更大的灵活性。所以我的意思是,不要试图寻找最好的技术,让我获得资格。我们经常看速度和进给。我们看看你能扩展到什么程度。我们正在考虑所有的技术观点,但是如果我们开始考虑该解决方案将如何帮助我们增加业务收入呢?它真的开始改变你如何看待你的工具。而有了实时,它运行的速度就更快了。让我给你举个例子。你可以在数据仓库或数据湖中进行分析和 ML。如果你不喜欢那个报告,你可以尝试不同的。你可以尝试不同的算法。您可以使用它,并使用实时数据迭代到您想要的位置。
您做出了客户认为会影响收入的决策。速度在这里是绝对必要的,不仅是在支持决策方面,而且你的工具必须是可扩展的,并处理他们必须处理的数据丢失。
数据最重要的方面
Richie Cotton:这是你已经提到过几次的事情,是你真正需要关心的最重要的领域,你的数据流与客户体验有关。你能给我举一些真正会影响客户体验的例子吗?比如什么样的,具体的事情是最重要的。
乔治·特鲁希略:是的,我举一个金融服务业的例子。你可以打电话给你的银行或金融服务机构,你想和他们谈一些具体的事情。它变得非常令人沮丧。如果你和某人通话,而对方不是你需要通话的人,他们说,让我帮你转接。然后你必须这样做两到三次。它现在创造了一个糟糕的体验。你还没开始呢。对吗?因此,在金融服务领域,我们开始关注的是实时分析客户何时致电,并了解您致电的原因的可能性。我们能够改善我们第一次联系的人。
这就是我们七年前的做法,我们现在正在经历同样的体验,但我们现在是通过移动应用来实现的,我们的客户可以连接到该应用。他们能迅速做出决定吗?你的点击流数据显示了点击量。顾客需要接触产品,或者他们做出决定。他们要浏览多少页才能找到他们要找的产品?你能在销售中将这种观点转化为交易吗?因此,所有围绕客户的前期动态,在移动领域。或者在浏览器上,才是定义客户体验的关键。
里奇·科顿:我非常感激。我用了这么多。我喜欢的地方是,我试图做一些简单的事情,甚至是银行应用程序。好吧。我只想确认一下我是否买了东西。这就像你点击 20 次,试图找到一些交易,所以,我可以肯定地相信这是有用的。另一方面。有没有一些事情,人们可能经常认为它们很重要,但实际上对客户体验并不重要?
乔治·特鲁希略:是的,我认为我看到的一个关键问题是,有时在开发应用程序时,人们对该应用程序生成的数据将如何在业务成果或创收方面创造价值没有足够清晰的理解。我认为这是我们行业的历史,因为当大数据首次出现时。这是关于我们如何将数据放入数据仓库?如何才能将数据导入 Hadoop?我们如何将它存储到云存储中,并让数据科学家稍后解决它,你没有实时的奢侈。对于实时,如果数据很复杂,或者没有与正确的数据集成,it 需要做出决策,或者开发人员很难以他们可以使用的方式转换数据,那么所有这些都会造成负面的客户体验。然后就很难撤销了。因此,在 highlight 中,拥有技术债务有时变得可以接受,但你不会奢侈地吸收技术互动。
里奇·科顿:你是说太快进入这种状态并试图达到实时状态会有风险,然后意识到你在某种程度上做错了,还是有一种简单的渐进方式可以从你较慢的过程达到实时状态而没有这种风险?
乔治·特鲁希略:你知道,我认为当你使用实时数据时,基本的最佳实践不会改变。因此,我认为非常重要的一件事是获得一些快速的胜利。建立对企业的信心。让方法发挥作用,树立信心,相信你有正确的工具,建立信心,相信我们可以信任数据,我们可以轻松地操作它。
因此,我一直在寻找哪些高价值的分析资产可以推动业务收入或成果,以及我们可以做出哪些改变来加速实现这一目标?所以我喜欢从小处着手,进行高价值的分析。为业务改进他们,赢得胜利,一起建立团队,让他们能够更有效地与工具和数据进行交互,找出我们必须解决的弱点。因此,我认为,利用具有影响力的高价值分析资产取得立竿见影的效果是一个很好的开始方式。
高价值资产
里奇·科顿:非常明智,从简单开始,然后逐步发展到更复杂的东西。你能举例说明你所说的高价值分析资产是什么吗?
乔治·特鲁希略:在营销方面,当你组织一次营销活动,或者你组织优惠券,或者你组织折扣,你就是在投资。收入和资本,这意味着成功,你期待着一定的结果。因此,必须对这些业务的分析有一个非常清晰的了解,并且了解如果我们提供 5%或 10%或 12%的折扣,我们能从中产生某种类型的收入吗?如果我们提供并送出一千万张优惠券。我们将从这项工作中获得多少潜在收入。因此,我认为围绕这些类型的业务活动的分析必须得到很好的理解,因为这是您开始执行您的业务模式以推动组织收入的方式。
里奇·科顿:好的。当然,优惠券也可以是虚拟的东西。不一定是实体券,对。它可以用于在线业务。
乔治·特鲁希略:是的,绝对是。你可以进入你的手机应用程序,他们可能会说,嘿,里奇来了。里奇去棒球场,里奇喜欢棒球帽。因此,他们可能会寻找,有没有一些棒球帽,或一些棒球球衣,里奇可能会喜欢。
Richie Cotton:看起来我们谈论的很多东西不仅仅是数据分析,更多的是数据应用。也许你可以给我讲讲你所看到的一个好的数据应用的例子。
乔治·特鲁希略:简单来说,一个好的数据应用程序可以产生收入。我觉得这才是关键。因此,我们必须明白,如果我们正在构建这个应用程序,我们正在构建数据集,必须有人在这个游戏中有强大的皮肤,以了解我们将如何产生收入并做出预测?
第二件重要的事情是你将从应用程序中生成的数据。让客户易于使用和理解的东西?第三件事是,我们能相信来自这个应用程序的数据吗?尤其是当它与其他数据集成时,因为数据科学家和分析师必须对生成的数据有信心。因此,创造高信任价值的应用程序也很重要。
里奇·科顿:好的。我之前可能已经澄清过,通过数据应用。没必要。意思是,做个手机 app 什么的。有时,数据应用程序可以是一个仪表板或类似的东西。只是某种从数据中输出的方式。那么,你有见过的数据应用的例子吗?成功?
乔治·特鲁希略:最完美的例子就是家得宝。发生了 COVID。他们意识到他们的整个商业模式正在改变。现在,他们的移动应用取代了人们上门拜访他们的组织。因此,他们可以多快地启动并运行移动应用程序,他们可以理解库存,他们可以理解优惠券和折扣如何奖励客户。他们在很短的时间内就完成了应用程序。在我们去的整个 COVID 时间段内,这对该公司产生了非常积极的影响。如你所知,许多组织正在经历从实体店向移动应用转变的过程。
发现变革的机会
里奇·科顿:好的。我想,由于外部影响,他们真的改变了整个商业模式,但数据转换似乎是其中很大的一部分。因此,仅仅是做这样的大事和改变商业模式似乎就令人印象深刻。但是,你如何着手确定这些机会,在这些机会中,你需要在如何处理数据方面做出改变?
乔治·特鲁希略(George Trujillo):你知道,我认为有一件事被忽略了,那就是这里的数据堆栈。我们经常谈论开源,有时我认为人们对开源的理解还不够。开源基本上是一种创新文化。如果你看到开发人员正在努力寻找解决方案,或者将应用程序提升到一个新的水平。
通常,他们首先会考虑开源,这样创新文化就可以驱动一个组织。我来举个例子。我曾在一家公司工作过,在质量数据驱动的数据发现中,我需要许多解决方案来支持您做出的所有技术数据工具决策,但这些解决方案都不可用。我去了一些最大的公司,他们没有准备好这些产品,或者他们有非常小的版本。我开始发现当我要开源的时候,我开始得到我一直在寻找的东西。因为这是下一波科技的成本。
因此,随着在您的组织中建立创新文化,它确实有助于避免供应商锁定。我认为这在当今世界变得更加重要。因为事情发展得越来越快。当您查看所涉及的数据供应链时,会发现数据堆栈中的各个组件与其他工具的接口非常好,避免供应商锁定确实有助于证明他们和您所做的决策。我认为另一个很大的区别是,如果你看一下应用程序的规模和 velocity 环境的规模,数据可扩展性变得非常重要,不仅仅是对你的技术,对管理你的预算也是如此。
因此,单位成本经济学变得非常重要,你需要确保无论使用什么工具,你为实时数据和分析做出的选择,你将能够管理单位成本。随着环境的扩展。我强烈建议任何没有读过 red hat 关于企业开源状况的 20,22 报告的人。我认为对于许多人来说,这将是一个大开眼界的机会,因为企业级的开源是如何赋予组织权力的,以及高管们是如何看待开源的,与他们五年前相比有了很大的不同。
里奇·科顿:好的。你认为厂商锁定是转向开源的主要驱动力,还是有更大的影响使人们选择开源而不是专有解决方案?
乔治·特鲁希略:基本上经常是,有时是在我需要新功能的时候。我经常首先在开源中看到它们,有时当一个企业试图在机会方面突破极限时。他们需要一些他们今天就可以开始工作的东西,他们可以在未来使用它,但他们不能等待六个月到一年的时间,让一个更大的企业获得他们的第一个,在创造创新方面也是如此,通常你想与不同的产品一起工作,看看他们在一起工作得如何。
所以当有人可以下载开源的东西开始工作时。他们可以从数据接收、数据持久性、数据特征和数据发现的角度来审视他们正在做的事情,并且可以非常轻松地使用它们。你可以看到这是如何真正推动生产速度的。
Richie Cotton:你有没有发现许多组织一旦开始使用开源平台,他们最终会自己为其做出贡献?你认为大多数组织仅仅是技术的消费者吗?
乔治·特鲁希略:我认为这取决于在某个特定领域所遵循的开源模式,但我看到越来越多的企业公司为开源做出贡献。如果你只看 Linux。我们看了像 Cassandra 和 Pulser 这样的东西,你会看到这是一个社区驱动的创新一代。所以我确实看到越来越多的企业为开源做贡献,因为他们意识到这符合他们的最大利益。
重要工具
里奇·科顿:太棒了。你有没有见过任何其他你认为在现代数据中变得重要的开源工具?
乔治·特鲁希略:我认为一个非常重要的工具是 Kubernetes。我真的看到有人称之为在从混合云迁移到云的过程中,应用程序、数据和数据流的未来粘合剂。我认为我们谈论应用程序,谈论以数据为中心和数据驱动,就好像这是两种完全不同的东西。
但同样,如果从数据供应链的角度来看,应用程序、馈送流都会馈送数据。因此,如果我想将应用程序从内部迁移到云中,不仅仅是该应用程序需要迁移其环境。所以 Kubernetes 真的支持在单元测试和 C CD 中使用容器。因此,围绕测试、生产和应用程序的所有工作 Kubernetes 提供了便利,如果您要从云内部迁移应用程序,如果提供数据流,您必须迁移这些数据流。如果你要输入数据库。这些数据库必须能够移动。
因此,让您的应用程序围绕 ES 之类的东西来生产高质量的应用程序,像 Apache PSAR first ES 这样的环境有助于这些应用程序运行得更快。如果您有像 Cassandra 这样的混合、多云计算开源数据库。它允许您的应用程序很好地与您的流和数据库保持一致,以您需要的速度跨不同的环境移动。如果你没有,如果你决定喜欢除了卡桑德拉以外的东西,我会强烈建议你做好你的尽职调查,确保无论你选择什么都有同样的标准。
Richie Cotton:如果你打算选择你的数据堆栈的其余部分,到目前为止,我们有 Cassandra、pal、Kubernetes。你能给我你理想的数据堆栈吗?你的首选是什么?
George Trujillo:我真的很喜欢 Apache pulsar 和 Cassandra 的灵活性,以及它们与应用程序的一致性。它允许我加快部署速度。我认为内存现金对于实时数据变得非常重要。你可以在数据库中存储一些数据,这样你需要存储的延迟数据就很少了。
我会考虑像 vault 这样的东西,它给我一个分布式内存现金,我可以使用它。就分析平台而言,我认为数据、砖块和雪花或退出解决方案很重要。我认为在分析平台方面有更多的灵活性,但我认为重要的是有人需要运行查询。
它需要是透明的。这就是说,客户不关心它是在云存储中,还是在雪花存储中,他们关心的是我能否访问数据,以及它是否返回结果?因此,无论数据在哪里,你越能让数据对数据的消费者透明。这对组织来说变得非常重要,获得业务洞察力。
我相信,没有数据目录,就很难有成功的数据文化。数据目录基本上是人们发现数据的方式,也是人们理解数据的方式。当你能让人们更容易地找到数据和理解数据时,你就赋予了他们数据的能力。
所以我认为数据治理项目。和数据目录也是堆栈中非常重要一部分。成功使用实时数据。这是该行业的一个增长领域,因为要制作实时数据还有很多工作要做。拿着数据目录的一等公民。我认为这是成功的关键。
人们的重要技能
里奇·科顿:现在有很多关于工具的东西。因此,也许我们也可以谈一谈人,谁需要参与使用这些工具,他们需要什么技能?
乔治·特鲁希略:是的。首先,你,你有你的数据科学家。如果你看看,数据科学家希望能够做的是,他们希望能够处理不同类型的模型和数据,他们可以用这些模型和数据来测试不同类型的算法。你让数据变得越容易访问,越容易使用。
他们可以更快地完成他们的模型,你可以看到他们会更快地创新。你看数据分析师,他们也是创造商业价值的重要部分。我们必须降低复杂性。因此,我发现的一个重要问题是,如何处理数据。
有时你会有七种方式的数据。加入,你必须是一个大脑科学家才能理解。所以更多。因此,我看到那些向组织中更广泛的受众提供数据的公司正在移动宽表。所以有人不一定要脑科科学家,管理者很重要。我认为我们已经进化成了产品数据经理的角色。有人能够理解有助于定义产品价值的数据和数据科学特征。Richie,另一件事,我在 ISR 或我们分散的团队中争论的是,在哪里有技术专家。
这就是你在卡珊德拉和脉冲器和卡夫卡和 Rav MQ 的专家。然后,业务线中的所有开发人员都会说,我们无法在技术方面获得创新所需的帮助,这可能会让业务线感到非常沮丧。因此,我认为业务开发人员在这方面也起着非常关键的作用,因为那些让下游业务开发人员能够利用数据进行创新的组织。他们将会比那些做不到的公司更成功,所以找到集中的专业知识和分散的业务开发人员之间的平衡,是另一个重要的方面
我认为数据建模和数据架构没有得到应有的重视。如果做得不好。它会影响下游的一切。因此,让您的数据架构团队或您的企业架构师参与其中也很重要。也许其中最重要的人物是,有远见的人可以向商业领袖推销他们可以向消费者推销的数据,每个人都明白。
是的,这是正确的愿景。我们看到了你带领我们前进的道路,我们相信这就是我们要走的路。你必须接受数据文化。你必须让人们相信你的工具和方法。因此,推动这一愿景并领导这一努力的第一点,我认为也是关键。
构建一种通用语言
里奇·科顿:这与我的经历非常吻合,有许多不同的人和不同的角色最终都与数据有关。这也自然导致了一个我几乎在任何地方都经历过的问题。这就是你如何让这些不同的人互相交谈?那么,你如何让业务人员与数据人员交流,让数据人员与工程师交流等等。在团队和不同角色之间,如何就数据交流达成共识?
乔治·特鲁希略:我相信它会回来,让每个人都说一种共同的语言,而这种共同的语言就是商业。因此,我认为,发展您的数据文化,让您的技术团队、让您的数据团队变得有能力和。
一旦你开始关注,我们将从业务角度推动一切,无论我们是 it 人员、技术人员还是数据专家。我们在说商业语言。我认为这是一个绝对的关键。当我看到那些在数据文化、数据驱动和数字化转型方面真正取得成功的公司时,他们说的更多的是一种通用的商业语言。
里奇·科顿:就像非常棒的建议。我想从我的个人背景来看,我是从做。生意上的事是后来才发生的。我知道很多人,他们担心,哦,做数据很难。但是我发现,嗯,实际上数据是容易的部分。然后学习事情的商业方面。
我认为这就是挑战所在。但我绝对同意。这是一个非常好的策略,让每个人都明白你的商业目标是什么。
乔治·特鲁希略:我提到这一点,好像这真的很容易,但这真的很难。但有时我认为,拥有数据的最成功的公司通常是那些最顽强的公司,他们真的坚持说,我们是业务驱动的组织,我们将使用数据来帮助驱动它。你必须有正确的技术和数据领导,才能让技术和数据团队购买。我们必须说商业语言。当我们谈到价值时,我们不是在谈论速度和饲料,以及东西可以变得多大。我们谈论的是对客户的商业价值。
里奇·科顿:再一次,只是帮助人们尝试并开始这样做。你如何得到这种排列?围绕商业价值。从哪里开始。
乔治·特鲁希略:我认为最终还是要选出两三个。您认为具有较高分析价值的数据领域,我们可以对其进行转换并产生业务成果或快速增加收入。如果你能成功,你就能把生意做好。你是你努力的冠军。
我们将开始让您的数据和技术团队理解这是我们努力的全部目标。如果你在踢足球、打棒球或打篮球,你必须取得一些胜利来建立信心,并挑选两三个高价值的分析资产,这些资产可能只需要一些调整或改变,或者需要添加新的数据。
或者让数据从数据流流向数据库、数据仓库并返回内存。如果你能让这些数据更快地流入实时决策过程,从七分钟缩短到两秒钟,利用这些数据做出决策,这就是你开始变得。
行动呼吁
里奇·科顿:听起来很简单。从 7 分钟到几微秒不等。所以你只需要减去 7 分钟,但是,我相信这是一个很大的挑战。太棒了。好吧。总结一下,我们已经谈了很多关于尝试用数据提高业务绩效和对客户产生影响的内容。
那么,你有什么最后的建议给那些想要得到的企业吗?
乔治·特鲁希略:我认为,我认为最重要的一点是,你必须降低复杂性,你的应用程序、数据流和数据库必须能够协调一致。无论从什么角度来看,您都必须解决数据质量和对数据的信任,这对实时数据至关重要。
也就是说,当我们给顾客所有这些优惠券和折扣时,我们知道我们是基于准确的信息做出这些决定的。
里奇·科顿:好吧。太好了,非常感谢。信息丰富。我敢肯定,许多人会受到鼓舞,尝试加快他们的数据堆栈实现价值的时间。所以这太棒了。谢谢你的时间,乔治。
乔治·特鲁希略:里奇。谢谢你。我也很感激。
苏格兰电力公司如何通过 DataCamp 培训数据科学家
Duncan Bain 在 Scottish Power 领导一个由 15 名数据科学家组成的团队,负责英国能源零售行业。英国的能源零售业务非常复杂,竞争极其激烈,数据科学团队必须推动商业决策所需的洞察力,以保持苏格兰的实力。
四年前,苏格兰电力公司集中了他们的数据团队,以便能够通过整合各种学科(数据科学、数据工程、报告、客户洞察和市场研究)来更快地应对业务挑战。
英国能源零售业的数据科学业务挑战
数据科学团队为零售组织的其他部门提供支持,包括销售、服务、营销和锅炉保险等其他产品,他们在这些部门提供从客户流失到销售线索挖掘和根本原因归因的各种模型。
他们关注的一项计划是英国智能电表项目的数据科学组织准备情况。英国政府已经接受了物联网,并要求在 2020 年底前在每个家庭和小企业中安装智能电表,负责推广的是零售公司,而不是网络运营商。消费者可以免费申请一个智能电表,但这取决于零售能源公司如何说服消费者在竞争中选择它们。
“我们有大约 80 个不同规模的直接竞争对手,我们都在销售相同的核心商品。因此,就我们面临的业务挑战而言,我们更像是移动电信提供商或零售银行。”
智能电表计划面临几个数据科学挑战:
-
路线优化:数据科学团队帮助确定地理位置分散的签约智能电表工程师和安装人员的有效部署。
-
技术限制:地理位置和物业的物理设置会影响智能电表是否可以安装并按预期运行。
-
营销细分:数据科学团队与营销团队合作进行营销活动细分,以实现回报最大化。
-
安装管理:2020 年智能电表计划的最后期限即将到来,如果苏格兰电力公司没有达到年底的目标安装率,可能会被罚款。
提升多元化团队技能的挑战
数据科学团队由具有不同经验和技能水平的个人组成。员工的背景各不相同,从天文学到量子物理学。
“我们意识到的一件事是,我们不希望它成为一个回音室。分歧是好事,因为这是我们前进的方式。”
苏格兰权力机构有目的地招募多元化人才,因为他们重视不同的意见,以求创新。但他们面临的挑战是如何快速提升新员工的技能,并在不断增长的团队中建立强大的技能基准。
DataCamp 是一个灵活且可扩展的培训解决方案
由于英国能源零售行业竞争激烈,数据科学团队没有太多停机时间,因为他们不断构建模型来推动业务洞察。当他们在冲刺之间等待构建完成时,他们只有时间投资于持续学习计划。DataCamp 允许每个团队成员在方便的时候学习。
“节奏的变化非常快,发展的步伐也非常快,所以很难安排出固定的训练时间。主要优势是灵活性。而是让他们有能力在学科中发展自己,并最终让自己变得更有价值。”
Duncan 根据团队的生产力、反馈和个人进步来衡量团队的成功。现在他的团队已经扩大,他计划创建定制的数据营曲目,以帮助新成员加入。
他的团队发现 DataCamp 对于培养核心数据科学技能非常有用。他们尤其在我们的 Python 课程中发现了价值,他们在机器学习技术和神经网络方面获得了基线适应性。
“DataCamp 正在帮助我的团队将他们在 SQL、SAS 和 R 方面的一些技能转移到 Python 和我们在云中构建的东西中。”
Duncan 计划很快将 DataCamp 引入数据工程团队。他们与数据科学团队的旅程相似,因为他们中的许多人来自传统的数据仓库背景,需要在 Python 等新技术方面积累技能和经验。
如果您也对为您的数据科学或分析团队提供灵活且可扩展的培训解决方案感兴趣,请访问datacamp.com/business了解更多信息。点击此处安排我们平台的演示。
Tableau 如何帮助您的组织获得更好的数据洞察力
在数字时代保持竞争力
大多数组织已经开始进行数字和数据转型,以便在日益高度互联和数字化的世界中生存和发展。正因为如此,企业现在产生了大量的数据,可以用来做出更好的决策。为了最大限度地提高数据回报,分析师需要获得最佳的商业智能工具,以便为数据驱动的决策提取有价值的见解。
什么是商业智能(BI)工具?
商业智能(BI)是一组功能和技术,可将数据转化为可操作的见解,帮助企业做出更明智的数据驱动型决策。商业智能是通过 BI 工具交付的,这些工具为分析师提供了一个简单的拖放界面来执行以下活动:
-
数据准备:对来自多个来源的数据进行编译,并对其进行格式化以供分析。
-
数据查询:从数据集获取答案,回答特定的数据问题。
-
数据可视化:以图表、图形、直方图等形式创建分析的可视化表示,以便于理解。
-
绩效指标报告:将当前绩效与历史数据进行比较,并与利益相关方分享结果,以便做出决策。
-
数据挖掘:使用统计学和机器学习来揭示大数据集中的趋势。
商业智能工具在行业中的使用
BI 的概念从 20 世纪 60 年代就有了。因此,毫不奇怪,市场上已经有几十种成熟的 BI 工具可以帮助组织利用数据进行业务分析。最流行的两个 BI 工具是 Tableau 和微软的 PowerBI。
现代 BI 工具的主要价值在于它们支持自助分析、更快的洞察速度和易于使用的用户界面。现代 BI 工具使员工能够快速访问数据并自己回答业务问题,而不是向中央数据团队发送请求的传统方法。
以下是行业中使用的一些 BI 工具示例:
沃尔沃集团使用 Qlik 来提高关键财务结果的报告效率,从而在组织内部实现嵌入式自主决策。
UChicago Medicine 利用 Tableau 创建实时仪表盘,作为医疗中心对新冠肺炎疫情的数据驱动运营响应的一部分
苏黎世保险集团借助 Power BI 构建一个统一的平台,帮助企业用户更有效地挖掘和利用公司数据。
摩根大通采用 Tableau 从 IT 拥有的自助服务分析转变为业务拥有的自助服务分析,以跟上快速的行业变化并优化业务成功的流程。
什么是 Tableau?
Tableau 是一个 BI 和数据可视化工具,它利用可视化分析来帮助个人和组织充分利用他们的数据。Tableau 中创建的引人入胜的可视化帮助利益相关者理解大量可用的数据。
Tableau 始于 2003 年斯坦福大学的一个项目,旨在通过可视化让人们更容易获取数据。它现在是现代 BI 的市场领先选择,被所有行业的组织所使用。
在市场上的商业智能工具中,Tableau 可能是最受欢迎的。Enlyft 报告称,Tableau 在 BI 类别的技术中拥有最大的市场份额(16.3%)。
Survey on the market share of BI tools | Source: Enlyft
Tableau 怎么用?
1.提取数据洞察,无需编码技能
Tableau 的主要优势之一是其直观的用户界面,允许技术和非技术分析师高效地构建数据可视化和分析。
用户友好的拖放界面使回答复杂的数据相关问题变得容易,而不需要编程技能。这种简单性降低了用户执行高级分析(如趋势分析、回归和统计汇总)的障碍。
Tableau 还为分析师提供了一套认证,以验证和证明他们在产品知识和数据可视化技能方面的专业知识。这有助于帮助分析师成为有效的数据从业者,因为这些认证与任何行业或角色的任何地方都高度相关。
2.借助仪表盘实现数据洞察的民主化
大多数人都熟悉的一个经典 BI 应用程序是仪表板,其中数据从多个来源获得,并以图表和图形的形式直观地呈现,以提供公司流程和战略的感觉。
Tableau 附带了许多工作簿功能,用户可以轻松创建设计良好的交互式仪表板。它还可以连接到各种数据源(例如 SQL Server、Excel 电子表格、Amazon Redshift 等)。).因此,这些仪表板可以用来自组织内各种应用程序的综合数据来丰富。
这些仪表板在协调组织的战略努力、揭示关键见解和加速企业范围的决策方面大有帮助。当许多用户接受创建这种仪表板的培训时,数据洞察可以大规模民主化,以帮助企业转型为数据驱动的公司。
Example of a sales dashboard built with Tableau | Source: DataCamp's Tableau Fundamentals Track
3.借助高级数据可视化讲述数据故事
鉴于数字时代产生的大量数据,引人注目的数据故事比以往任何时候都更加重要。
仪表板非常适合监控数据,并告诉用户正在发生什么。然而,数据故事有助于将数据塑造成一个循序渐进的过程,以解释 为什么 特定趋势正在发生。
*Tableau 允许用户将一系列可视化效果(包括仪表板)串连起来,形成一个可视化的故事,以交流数据见解,提供背景,并演示决策与结果之间的关系。将高级可视化(例如地理空间映射)编织成连贯的数据叙述的能力是 Tableau 区别于 Excel 等其他工具的地方。这些数据故事在构建令人信服的案例以向决策者传达可操作的见解方面非常有效,这与商业智能的主要目标相一致。
Example of a Tableau data story created to answer questions relating to bike-sharing data | Source: Creating Dashboards in Tableau
通过 Tableau 和 DataCamp 实现数据科学的民主化
NewVantage Partners 的 2021 年大数据和人工智能执行摘要显示,只有 24%的公司被认为是数据驱动的。为了释放数据的价值,员工需要用工具武装自己,以便有效地从数据中学习。
Tableau 是一个广泛使用的商业智能和分析软件,受到亚马逊、益百利和联合利华等公司的信任。凭借其用户友好的拖放功能,Tableau 使组织中的每个人都能够探索、分析、共享和可视化业务数据,并使所有人的见解民主化。
DataCamp 的 Tableau 基础技能课程将帮助您的团队掌握大规模数据民主化的技能,并通过 Tableau 的桌面专家认证。
#MeToo 运动是如何在 Twitter 上传播的
下面这篇文章包含的内容可能会让一些读者感到不安。这一切都是基于对过去几周包含#MeToo 标签的推文的数据分析。在本文的结论中可以找到用于分析的代码的链接。我们欢迎并鼓励进一步的分析和对话。
| 10 月 24 日至 11 月 7 日的推文文字云 |
| |
| 11 月 10 日和 11 月 11 日的推特文字云 |
| |
我用 Twitter API 提取了 50 万条包含#MeToo 标签的最新推文。给定 50 万条推文,不可能给出它们全部包含的内容的摘要。给出最常用单词的一种方法是单词云。上面有两个词云:第一个是从 10 月 24 日到 11 月 7 日之间的推文中生成的;第二个是 11 月 10 日和 11 月 11 日。你能看出有什么不同吗?看看你能找到什么。
对我来说,最明显的区别是被指控的肇事者的名字发生了变化:在第二个词云中,“weinstein”更小,因此在推文中的代表性更低,“billoreilly”不再存在,新的名字,如“louisck”(他承认“这些故事是真实的”)和“roymoore”现在出现了。“共和党人”等相关术语也出现了(罗伊·摩尔是共和党人)。出现的许多单词听起来都是真实的。其他人,包括 twitter 用户名,如“aliceglass”,还不太清楚。在这篇文章中,我将深入研究这些推文,我们将了解为什么这些词会出现在词云中。如果你有任何想法、回应和/或反思,请随时在 twitter 上联系我: @hugobowne 。
你可以从这些词云中提取出许多围绕#MeToo 的主要观点。关于更多的上下文,[维基百科](https://web.archive.org/web/20220813094815/https://en.wikipedia.org/wiki/Me_Too_(hashtag))声明
“我也是”(或“#MeToo”,在其他语言中有当地替代词),作为一个两个词的标签,于 2017 年 10 月在社交媒体上广泛传播,以谴责性侵犯和性骚扰,此前哈维·韦恩斯坦被指控性行为不端。社会活动家塔拉纳·伯克(Tarana Burke)长期以来就在这个意义上使用这个短语,女演员艾莉莎·米兰诺(音译)推广了这个短语,她鼓励女性在推特上宣传自己的经历,以展示厌恶女性行为的普遍性质。从那以后,数百万人使用这个标签来分享他们的经历,包括许多名人。
在撰写本文时,维基百科还报道说
到 10 月 15 日,这个短语已经被使用了 20 多万次,到 10 月 16 日,推特被转发了 50 多万次。在脸书,在最初的 24 小时内,超过 470 万人在 1200 万条帖子中使用了该标签。该平台报告称,美国 45%的用户有一个朋友用这个词发帖。
“欧洲议会召开了一次会议,直接回应‘我也是’运动,此前该运动引发了对议会和欧盟驻布鲁塞尔办事处滥用职权的指控。”#MeToo 是一项在过去的一个月中获得了巨大发展势头的运动。在这篇文章中,我将探究它是如何在 twitter 上传播的。
推特上#MeToo 的两周鸟瞰图
为了这个分析,我使用 Twitter API 从 10 月 24 日到 11 月 7 日提取包含#MeToo 的推文。这是在第一条#MeToo 推文之后大约一周的两个星期的推文。Twitter API 允许您提取所有推文的子集,因此,尽管推文的绝对数量不会占所有推文的总数,但您将能够看到整体趋势。
让我们先来看看这两周内的推文数量:
尽管大多数标签的半衰期只有几分钟或几小时,但从上面可以看出,#MeToo 已经存在了几个星期。这是一场足够强大的运动,不仅在网上,也在游行和抗议中表现出来。请注意,在上图中,从 10 月 23 日到 10 月 30 日,也就是说,从第一条标有#MeToo 的推文后的一周到之后的一周,该标签的使用没有明显减少的迹象。在那一周里,每天的推文总数相当稳定。只有在第三周,它才显示出下降。还要注意 24 小时的周期性:推特的数量在东部时间晚上 10 点到 12 点之间一直处于最低水平,在东部时间中午 12 点左右达到峰值。这与大多数发自北美的推文是一致的。
如上所述,这两周的推文数量有所减少,但让我们进一步探究一下,看看这段时间有多少推文是原创的,有多少是转发的:
从上面我们可以看到,转发的数量一直占据着原始推文的数量。此外,我们注意到,在过去两周内,推文总数的减少在转发中比在原始推文中更加明显。单看原始推文的数量,你会发现有所减少,但没有你想象的那么多。
我在上面注意到,转发的数量超过了原始推文的数量。事实上,在此期间,60%带有#MeToo 的推文被转发:
然后问题出现了:在 50 万条推特中,有多少条原创推特对所有这些转发负责?在分析时,有 100 条推特被转发超过 1000 次(现在可能会更多,因为转发还在继续)。他们占了捕获的推特总量的约 62,000 条(13%)。请注意,我们的推特搜索不会捕捉到许多转发的内容。
有 1,000 条推文被转发了至少 100 次,这些占所有被捕获推文的 25%以上。
有哪些热门推文?让我们来看看在分析时转发次数最多的 5 条推文:
|
As a reminder, if a woman doesn't post # MeToo , it doesn't mean she hasn't been sexually assaulted or harassed. Survivors don't owe you their stories.
— Alexis Benveniste (@apbenven) October 16, 2017
|
For my wife, my daughter and all the women ... I support you all. This has to change. #metoo #nomore
— Jensen Ackles (@JensenAckles) October 17, 2017
|
For those who silently carry their # MeToo , you are loved, cherished and trusted. You don't owe anyone your story.
— Grace Starling (@GraceStarling4) October 16, 2017
|
|
#MeToo 。 I'm 14 and he's 36. I may be deaf, but silence is the last thing you hear from me. pic.twitter.com/hLmBJ7PgmK
— Marlee Matlin (@MarleeMatlin) October 18, 2017
|
# MeToo【https://t . co/vwssdltu 3n】T2
—莫妮卡·莱温斯基(@ Monica Lewinsky)2017 年 10 月 16 日
| |
在分析时,这些是被转发最多的。在收集的数据中被转发次数最多的推文呢?让我们来看看这些:
*|
That's why I had to leave the Crystal Castle. Here is my story: https://t.co/bs9aJRwgms # MeToo
—Alice Glass (@ Alice Glass) October 24, 2017
|
没有简单的方法告诉你。但是是时候了. .# MeToohttps://t . co/HnwugEWtJF】T2
—Breanna Stewart(@ bre _ Stewart 30)2017 年 10 月 30 日
|
I la diputada s'ha quedat sola denunciant l'assetjament sexual a les dones. Quina pena i quina vergonya. #MeToo
© Patrick Hertzog/AFP pic.twitter.com/AtCxumRu5Z— Eva Piquer (@EvaPiquer) October 25, 2017
|
|
华丽的公主画在 @LaCroix 。骚扰【meto】pic。推特(Twitter)。com/jfm 1 do 6 wlo
—frédéric pommer(@ Fred _ POM)2017 年 11 月 2 日
|
In Sweden, which claims to have achieved the highest level of gender equality in the world, "t0" now women's allegations of sexual violence emerge like a flood. T1, T2 and Sweden's Meitu, T3, # MeToo and T4 Movement.
— 여성신문 (@wnewskr) October 29, 2017
| |
“ALICEGLASS”是最初单词云中的一个用户名。现在很明显,她的用户名在那里,因为她在收集的推文中被转发了很多。爱丽丝·格拉斯是一位创作歌手,她是电子乐队 Crystal Castles 的创始人和主唱,她离开了乐队,你可以在这里阅读她的声明。大量的转发也是“水晶”和“城堡”出现在单词 cloud 中的原因。
所以我们有其他用数字表示的语言,这很有趣。在北美和英语语言中开始的运动不仅传播到了其他语言,而且以一种重要的方式传播,正如西班牙语、法语和韩语推文在两周内出现在转发量前五名的事实所证明的那样。现在让我们更深入地探讨一下跨语言的 tweets 分布。
#MeToo 在全球的传播
首先,让我们看看所有包含#MeToo 的推文中出现的语言,并检查它们出现的频率:
英语占主导地位,然后身份不明。然后我们有法国,荷兰,德国,瑞典,日本,西班牙和韩国。由于我们有几个标度的计数(即,以千、万和十万为单位),用对数 y 轴绘制该图是有意义的,这意味着\(10^3\)(一千)和\(10^4\)(一万)之间的视觉距离与\(10^4\)和\(10^5\)(十万)之间的视觉距离相同:
我们现在可以看到,虽然英语确实占主导地位,但还有其他几种语言,每种语言都有数万条推文:法语(32K)、荷兰语(23K)和日语(16K),等等。事实上,近 40%的推文由外语或未识别的语言表示(45K,这通常是外语,只是 twitter 使用的算法无法检测到)。
现在,让我们来探究一下在这两周内,使用#MeToo 标签的不同语言的使用情况是如何变化的:
这个数字至少有三个方面引起了我的注意,值得进一步研究:
- 10 月 26 日,当英语处于低谷时,有一个未识别语言的高峰;
- 10 月 30 日,法语推文的数量飙升至英语推文的数量;
- 在 11 月 8 日,荷兰语推文的数量有一个峰值,并接近英语推文的数量。
现在让我们来研究这些。
不明语言推文的激增
对不明语言推文激增的解释是,伊娃·皮克用加泰罗尼亚语转发了以下推文:
I la diputada s'ha quedat sola denunciant l'assetjament sexual a les dones. Quina pena i quina vergonya. #MeToo
© Patrick Hertzog/AFP pic.twitter.com/AtCxumRu5Z— Eva Piquer (@EvaPiquer) October 25, 2017
Twitter 的算法无法识别这条推文的语言,加泰罗尼亚语,这条推文在 10 月 26 日周四被转发了 4876 次。
法语推文的激增
10 月 30 日,法语推文的激增是由于以下三条推文的转发,分别有 555、347 和 327 条转发:
你可以找到四句话对一个受害妇女说。【metoo】【平衡木】【pic . Twitter . com/3 lmauq 3u 4s
— Caroline De Haas (@carolinedehaas) October 29, 2017
摩根在巴黎参加了示威游行【metoo】。对她来说,这种动员只能是一个开端。pic . Twitter . com/m0 swlewjn
— Brut FR (@brutofficiel) October 30, 2017
我喜欢这个卡介苗!【metoo】pic . Twitter . com/b5 BBA 4 VC 8d
— caroline le diore (@DioreLd) October 29, 2017
还要注意的是,上面的第一条推文也包含# Balancetonporc 标签,翻译成英文就是“expose your pig”。# balancetonporc 和轻微变体出现在 27%的法语#MeToo 推文中,现在被认为是#MeToo 的法语类似物。这里可以阅读更多。
荷兰语推特上的小高峰是怎么回事?我将把它作为一个挑战留给热心的读者。
结论
在这篇文章中,你看到了#MeToo 运动已经获得了持续的发展势头,尽管它始于北美,但它已经扩展到了全球。你可以通过 twitter 数据可视化(50 万条推文的文字云)看到,在第一次使用该标签后,出现了新的披露和指控,可以合理地得出结论,这是其持续势头的一部分。你也看到了许多推文被转发,这表明参与度很高,即使那些自己没有原创推文的人也是如此。在接下来的几天里,我将提供用于从 twitter 中提取推文并执行上述分析的代码。我热情地鼓励你看看你还能在数据中找到什么。这不能代替广泛阅读和与人讨论。
如果你有任何想法、回应和/或反思,请随时在 twitter 上联系我: @hugobowne 。
您可以在这个库的中找到用于这个分析的代码。*
如何通过 5 个步骤为您的企业分析数据
大数据是大生意。我们社会的快速数字化导致了前所未有的数据增长。此外,随着新技术和基础设施的出现,如虚拟现实、元宇宙、物联网(IoT)和 5G,这一趋势可能会在未来保持下去。因此,了解如何分析数据至关重要。
数据已经成为 21 世纪经济中最宝贵的资产之一。政府、公司和个人使用数据来改善他们的决策过程。这导致了对合格专业人员处理和分析大量数据的巨大需求。
然而,许多公司仍然难以管理和理解数据。根据 Splunk 的调查,公司收集的所有数据中有 55%被认为是“暗数据”——即公司在日常业务活动中收集但未使用的数据。虽然有时公司根本没有意识到数据的存在,但在大多数情况下,公司不会分析数据,因为他们缺乏合适的人才来做这件事。
使用内部数据科学计划培训员工是解决数据科学家短缺的最佳策略之一。与普遍的看法相反,开始分析数据并不需要统计学的高级学位或计算机科学的博士学位。市场对各种人和各种情况都有很多选择。例如,在 DataCamp,我们为个人和组织提供全面的数据培训。
在本文中,我们将介绍数据分析过程。我们将介绍一个简单的框架,即数据科学工作流,以及从原始数据到有价值见解的简单步骤。
如何使用数据科学工作流分析数据
当数据专业人员开始一个涉及数据分析的新项目时,他们通常会遵循一个五步流程。这就是我们所说的数据科学工作流,您可以在下面看到它的各个部分:
- 确定业务问题
- 收集和存储数据
- 清理和准备数据
- 分析数据
- 可视化和交流数据
数据科学工作流程
在下面几节中,我们将更详细地了解每个步骤。
虽然数据科学工作流程可能会因任务的不同而有所差异,但每次开始新的数据项目时,坚持一致且定义明确的框架是非常重要的。它将帮助你计划、实施和优化你的工作。
1.识别业务问题
数据只和你问的问题一样好。许多组织花费数百万从不同来源收集各种数据,但许多组织未能从中创造价值。事实是,无论您的公司拥有多少数据,或者部门中有多少数据科学家,只有在您确定了正确的业务问题后,数据才会成为游戏规则的改变者。
将数据转化为见解的第一步是定义一组清晰的目标和问题。下面是一些例子:
- 公司需要什么?
- 我们试图解决什么类型的问题?
- 数据如何帮助解决问题或业务问题?
- 需要什么类型的数据?
- 我们将使用哪些编程语言和技术?
- 我们将在数据分析过程中使用什么方法或技术?
- 我们将如何衡量结果?
- 数据任务将如何在团队中分配?
在数据科学工作流程的第一步结束时,您应该对如何继续有一个清晰明确的想法。这个大纲将帮助你驾驭数据的复杂性,实现你的目标。
不要担心在这一步花费额外的时间。识别正确的业务问题对于提高效率至关重要,最终将为您的公司节省时间和其他资源。
2.收集和存储数据
现在你已经有了一套清晰的问题,是时候动手了。首先,您需要收集数据并将其存储在一个安全的地方,以便进行分析。
在我们这个数据驱动的社会中,每秒钟都会产生大量的数据。数据的三个主要来源是:
- 公司数据。它是由公司在日常活动中创造的。它可以是 web 事件、客户数据、金融交易或调查数据。这些数据通常存储在关系数据库中。
- 机器数据。随着敏化和物联网技术的最新进展,越来越多的电子设备正在生成数据。它们的范围从相机和智能手表到智能房屋和卫星。
- 打开数据。鉴于数据为经济创造价值的潜力,政府和公司正在发布可以免费使用的数据。这可以通过开放数据门户和 API(应用编程接口)来实现。
然后我们可以将数据分为两种类型:
- 定量数据。它是可以用数值计算或测量的信息。它通常由电子表格或 SQL 数据库构成。
- 定性数据。今天生成的大部分数据都是定性的。一些常见的例子是文本、音频、视频、图像或社交媒体数据。定性数据通常是非结构化的,难以在标准电子表格或关系数据库中存储和处理。
根据你要回答的商业问题,会用到不同类型的数据和技术。通常,收集、存储和分析定性数据需要比定量数据更先进的方法。
3.清理和准备数据
一旦你收集并存储了数据,下一步就是评估它的质量。请务必记住,数据分析的成功在很大程度上取决于数据的质量。如果你的信息不准确、不完整或不一致,你的见解将是错误的或误导的。这就是为什么花时间打扫卫生和准备时间是强制性的。查看我们关于坏数据的迹象的文章,了解更多信息。
原始数据很少用于分析。评估数据质量对于发现和纠正数据中的错误至关重要。该过程包括修复错误,如:
- 删除重复的行、列或单元格。
- 删除分析过程中不需要的行和列。如果您正在处理消耗大量内存的大型数据集,这一点尤其重要。
- 处理数据集中的空白,也称为空值
- 管理异常值和极值,也称为异常值
- 标准化数据结构和类型,以便所有数据以相同的方式表示。
发现数据中的错误和异常本身就是一种数据分析,通常称为探索性数据分析。
探索性数据分析
探索性数据分析旨在研究和总结数据的特征。实现这一点的主要方法是统计和数据可视化:
- 统计数据提供汇总数据的简要信息系数。一些常见的统计数据是均值、中值、标准差和相关系数。
- 数据可视化是数据的图形化表示。根据数据的类型,一些图表会比其他图表更有用。例如,箱线图是可视化数据分布和分割极值的绝佳图形。
这个阶段投入的时间在很大程度上取决于数据量和您想要分析的数据的质量。然而,数据清理通常是数据科学工作流程中最耗时的步骤。事实上,数据科学家在数据科学工作流程的这个阶段花费了他们 80%的时间。
如果你在一家数据分析是日常业务活动的一部分的公司工作,在这个阶段提高效率的一个伟大策略是实施一个数据治理策略。有了关于如何清理和处理数据的明确规则和政策,您的公司将能够更好地处理数据并减少数据清理所需的时间。
如果您对数据清理过程如何工作以及数据问题的主要类型感兴趣,请查看我们的 Python 课程中的清理数据和 R 课程中的清理数据。此外,如果您想了解数据探索性分析在实践中是如何工作的,我们的SQL 探索性数据分析课程将帮助您入门。
4.分析数据
现在您的数据看起来很干净,您已经准备好分析数据了。发现模式、联系、见解和预测通常是数据科学家工作中最令人满意的部分。
根据分析的目标和数据的类型,可以使用不同的技术。多年来,出现了处理各种数据的新技术和方法。它们的范围从简单的线性回归到尖端领域的先进技术,如机器学习、自然语言处理(NLP)和计算机视觉。
下面您可以找到一些最流行的数据分析方法列表,以便更深入地分析:
机器学习
人工智能的这一分支提供了一套算法,使机器能够从可用的历史数据中学习模式和趋势。一旦算法经过训练,它们就能够以越来越高的精度做出概括的预测。根据要解决的问题类型,有三种类型的机器学习:
- 监督学习涉及在历史数据的标记训练集上教授模型,它从该训练集中学习输入和输出数据之间的关系。然后,它使用预先知道的输出值来估计测试集上预测的准确性,以便稍后可以使用该模型对未知数据进行预测。要了解更多关于监督学习的信息,请参加 Datacamp 的监督学习与 scikit-learn 课程。
- 无监督学习处理在没有给定因变量的情况下识别数据的内在结构,检测其中的共同模式,根据属性对数据点进行分类,然后根据这些信息对新数据进行预测。如果你想扩展你在无监督学习方面的知识,可以考虑我们的Python 课程中的无监督学习。
- 强化学习意味着一种算法通过与环境互动来逐步学习,决定哪些行动可以让它更接近解决方案,根据过去的经验确定哪些行动可以赶走它,然后为特定步骤执行最佳行动。这里的原则是,算法对错误的行为进行惩罚,对正确的行为进行奖励,这样它就可以为自己的表现找出最佳策略。准备好了解更多信息了吗?查看这个强化学习介绍教程。
深度学习:
机器学习的一个子领域,研究受人脑结构启发的人工神经网络算法。与传统的机器学习算法不同,深度学习算法的线性度更低,更加复杂和分层,能够从海量数据中学习,并能够产生高度准确的结果,特别是在处理非结构化数据时,如音频和图像。
自然语言处理
机器学习的一个领域,研究如何赋予计算机理解人类语言的能力,包括书面语言和口头语言。NPL 是数据科学中发展最快的领域之一。要开始学习,您可以注册我们的自然语言处理 Python 技能跟踪。一些最流行的自然语言处理技术是:
- 文本分类。这是文本挖掘的重要任务之一。这是一种受监督的方法。它有助于识别给定文本的类别,如博客、书籍、网页、新闻文章和推文。
- 情感分析。一种涉及量化用户内容、想法、信念或意见的技术。情感分析有助于更好、更准确地理解人们。
计算机视觉
计算机视觉的目标是帮助计算机看到并理解数字图像的内容。例如,计算机视觉对于实现自动驾驶汽车是必要的。在这个领域开始的一个很好的方法是使用我们的Python 技能追踪进行图像处理。
一些最流行的计算机视觉技术是:
- 图像分类。这是最简单的计算机视觉技术。主要目的是将图像分为一个或多个类别。
- 物体检测。这项技术允许我们检测图像中存在哪些类,以及它们在图像中的位置。这里最常见的方法是在图像中找到该类,并用边界框定位该对象。
5.可视化和交流结果
数据科学工作流的最后一步是可视化和交流数据分析的结果。为了将你的见解转化为决策,你必须确保你的受众和关键利益相关者理解你的工作。
在这最后一步,数据可视化是跳舞皇后。如前所述,数据可视化是将数据转化为可视化上下文的行为。这可以通过图表、绘图、动画、信息图等等来实现。其背后的想法是让人类更容易识别数据中的趋势、异常值和模式。
无论是静态图表和图形还是交互式仪表盘,数据可视化对于让您的工作易于理解并有效传达您的见解至关重要。这里列出了最流行的数据可视化工具:
Python 包
Python 是一种高级、解释型、通用编程语言。它为数据可视化提供了几个很棒的图形包,例如:
- Matplotlib
- 希伯恩
- Plotly
- 散景
- Geoplotlib
使用 Python 的数据可视化技能课程是一个很好的课程序列,使用 Python 最流行和最强大的数据可视化库来增强您的数据科学技能。
r 包
r 是一种用于统计计算和图形的编程语言。这是一个很好的数据分析工具,因为你可以使用它的各种包创建几乎任何类型的图表。流行的 R 数据可视化包包括:
- ggplot2
- 格子木架
- 高价租船合同
- 传单
- Plotly
查看技能跟踪中的数据可视化与 R 课程和交互式数据可视化,提升您的 R 编程语言可视化技能。
无代码开源工具
对于没有编程知识的人来说,无代码工具是一个容易使用的解决方案——尽管有编程技能的人仍然会选择使用它们。更正式的说法是:无代码工具是图形用户界面,具有运行本地脚本来处理和扩充数据的能力。一些最受欢迎的是:
- 草图
- 数据包装器
- 谷歌图表
商业智能工具
这些一体化工具被数据驱动的公司广泛使用。它们用于大量原始数据的收集、处理、集成、可视化和分析,从而有助于业务决策。一些最常见的商业智能工具有:
- (舞台上由人扮的)静态画面
- 功率 I
- Qlik
要了解这些工具的更多信息,我们强烈推荐我们的Tableau 简介课程和Power BI 简介课程。
近年来,已经提出了改进数据通信的创新方法。其中之一是数据讲故事,这种方法提倡使用视觉、叙事和数据将数据见解转化为行动。查看我们的数据框架播客的集,Brent Dykes 是《有效的数据故事讲述:如何用数据、叙事和视觉推动变革》的作者,以了解更多关于这种方法的信息。
结论
我们希望您喜欢这篇文章,并准备开始自己的数据分析。一个很好的开始方式是报名参加我们的面向所有人的数据科学课程。通过动手练习,参与者将了解不同的数据科学家角色、A/B 测试、时间序列分析和机器学习等基础主题,以及数据科学家如何从真实世界的数据中提取见解。
作为入门课程的后续,我们为学习者提供全面的跟踪,以继续他们的学习之旅。学生可以在职业生涯中选择他们喜欢的语言( Data Scientist with Python 、 R 或 SQL ),在职业生涯中,通过对真实世界数据集进行系统的交互式练习来教授基本的数据技能。
一旦你完成了其中一项职业生涯,你就可以继续参加数据科学认证计划,让专家验证和认证你的新技能。
数据分析是对数据进行收集、清理、转换和建模以发现有用信息的过程。
这是一个分析数据的五步框架。这五个步骤是:1)确定业务问题,2)收集和存储数据,3)清理和准备数据,4)分析数据,5)可视化和交流数据。
发现并修复数据中的异常。这是开始分析数据前的关键一步。
数据的图形表示。这可以通过绘图、图表、地图等等来实现。
不!虽然学习编码很有挑战性,但是数据科学欢迎每个人。有了耐心、决心和学习的意愿,前途无量。
如何在 2023 年成为数据分析师:开始职业生涯的 5 个步骤
成为数据分析师的五个步骤
如果你想成为一名数据分析师,你需要采取五个主要步骤:
- 学习基本的数据分析技能
- 获得证明这些技能的资格
- 在各种项目中练习您的数据分析师技能
- 为你的作品创建一个作品集
- 申请初级数据分析师工作
在本帖中,我们将更详细地了解这些要点,为您提供开始成为数据分析师之旅所需的一切信息。
为什么要开始数据分析师的职业生涯?
近年来,寻找如何成为数据分析师的人越来越多。这个角色变得越来越受欢迎,这对于我们在现代世界创造的海量数据来说并不奇怪。
各行各业的公司都需要能够驾驭数据、分析数据、从中提取有意义的数据驱动洞察,并利用这些洞察帮助他们解决关键业务问题的专家。因此,有几个原因可以让你考虑从事数据分析师的职业:
- 对角色的需求。数据分析师的就业市场蓬勃发展,而且短期内没有放缓的迹象。美国劳工统计局的数据显示,2021 年至 2031 年间,分析师职位数量预计将增长 23%。如果你在寻找一份经得起未来考验的职业,这份工作可能就是你要找的。
- 工资。数据分析师的工资通常很高,在美国的平均工资约为 63,632 美元。
- 工作满意度。根据 PayScale 的数据,数据分析师普遍对自己的工作非常满意,平均得分为 3.9 分(5 颗星)。
如何成为一名数据分析师
下面,我们概述了如何从零开始成为一名数据分析师。这很大程度上是假设你刚进入这个行业,尽管很多都与那些已经具备一些基础知识的人相关。
就成为分析师需要多长时间而言,这在很大程度上取决于个人。那些有一点现有知识和经验的人可以在几个月内掌握技能。对于其他人来说,需要几年的学习。
然而,从本质上来说,你需要几个要素才能在这个行业中茁壮成长,包括:
- 对数据的天生好奇
- 关键编程语言和技能
- 相关项目的组合
- 一份写得很好的简历
- LinkedIn 和类似网站上引人注目的简介
- 与其他数据专家联网
第一步:学习基本的数据分析技能
从数据分析的基础开始
普遍的看法是,要开始学习数据分析,你必须擅长数学、统计学或编程。虽然这些领域的背景确实提供了坚实的技术基础,但这并不意味着来自其他教育和专业背景的人无法从事数据分析职业。
学习分析数据需要一些深入的学习、专注和大量的实践。即使当你陷入困境、筋疲力尽、灰心丧气或看不到任何进展时,你也必须保持一定程度的乐观。
一个有抱负的数据分析师应该对数据有创造力和好奇心,有探索的心态,能够进行分析性思考,能够独立工作或在团队中工作,并愿意投入必要的时间和精力。这些都是有助于你成功的品质。
你需要从掌握一些基本的数据分析技能开始,比如统计学的基础,比如包括中心和扩散的测量、概率分布和假设检验。
你也可以从电子表格中的数据分析开始,感受收集和争论,并学习 Power BI 和其他工具中的探索性数据分析是如何工作的。
选择要学习的编程语言
数据分析师通常会使用几种编程语言,这意味着没有错误或正确的选择。本质上,您需要掌握 SQL 来查询和操作数据库,但是您需要为您的下一个编程语言在 R 和 Python 之间做出选择。
你可以在另一篇文章中找到 Python 和 R 的数据分析对比。你也可以通过 R 或 Python 学习成为数据分析师。
本质上,在这一点上,您将学习如何用您喜欢的编程语言导入、清理、操作和可视化数据。您将发现一些可以帮助您完成各种任务并提高编程技能的库。
第二步:获得数据分析资格
大多数雇主会希望看到你在数据分析方面的资格证明。有各种各样的途径,这很大程度上取决于你目前的教育水平和对主题的熟悉程度。
例如,几所大学提供数据分析的学士和硕士学位,但走这条路需要大量的时间和金钱投入:你需要花 2-4 年的时间进行全日制学习,费用可能在 3-20 万美元之间。
此外,如果你报名参加学士学位课程,你将需要完成数据分析以外的课程要求。成为数据分析师不一定需要学位,但它肯定会有所帮助。
如果你有一台电脑并能上网,网上学习可以让你在世界的任何地方灵活地学习。此外,通过在线课程学习比在大学学习要便宜得多:例如,你可以在不到一年的时间内完成我们的数据分析师职业轨迹和数据分析师认证,其成本只是大学学习的一小部分。
一个理想的在线自学计划包括一个详尽而平衡的课程,涵盖最重要的数据分析主题和技术,以及大量实践它们的机会。
因此,如果你正在寻找如何成为一名没有经验的数据分析师,你的学习之路应该是这样的:
步骤 3:练习你的数据分析师技能
一旦你掌握了一些基本技能,你就需要开始自己开发它们。有多种方法可以做到这一点:
从事单个项目
通过做各种练习和完成课程建议的数据分析项目,你将有大量的机会将你的新技能运用到工作中。练习你的技能,解决模拟或真实世界的问题,将为你未来的工作经验打下坚实的基础。
在这个阶段,获得一些真实、干净的数据集和预选的想法来探索将有助于保持你的学习兴趣,并避免额外的搜索或头脑风暴的干扰。你可以看看我们的一系列数据科学项目来帮助你检验你的技能。
然而,总有一天你会为现实世界的数据分析师工作经验做好准备,你需要继续进行更高级的学习:为了最好地“推销”自己,你会想向潜在雇主展示你独立工作和研究的能力。
因此,你将需要承担个人项目,一切都将由你负责:选择主题,获取必要的数据,思考你的研究方向,设计项目结构,提出并检查假设,有效地交流你的发现,并规划前进的方向。
因此,个人项目通常比指导项目花费更多的时间,但它们将帮助你在求职时脱颖而出。
将免费数据集用于数据分析项目
一旦你为你的项目想出了一个好的主题,你的下一步就是找到相关的数据去探索。为此,有许多在线存储库提供各种免费数据集。除了 DataCamp 项目,您还可以使用:
- data camp Workspace–一个在线集成开发环境(IDE),提供用于编写代码、分析数据和练习技能的数据集。
- 最受欢迎的网站,存储了数千个关于各种主题的免费数据集,既有真实世界的,也有合成的。
- UCI 机器学习库——包含开源数据集。其中大部分都是干净的、结构良好的和有据可查的。
- FiveThirtyEight–在这里,您可以找到关于不同主流主题的交互式数据驱动文章,以及这些文章使用的数据集。
- 谷歌数据集搜索——一个基于关键词的搜索引擎,就像普通的谷歌搜索一样。它存储了超过 2500 万个免费公共数据集。
步骤 4:创建数据分析师项目组合
至此,你应该已经在成为一名数据分析师的路上了。然而,要面对潜在的雇主,你需要有一份工作作品集。您可以查看我们关于构建数据科学组合的完整指南,从中获得一些灵感。
当你第一次以入门级数据分析师的身份进入就业市场时,如果你最初的项目组合主要包含来自在线训练营或数据相关大学工作的指导顶点项目,这是可以理解的。在这个阶段,它也是非常好的,并预计将有许多不同的新兵训练营项目对不同的概念进行研究,展示各种工具和技术。
然而,你想用你的作品集让你的激情和兴趣闪耀出来。讲述一个你的技能是如何发展的,你的专长在哪里的故事。你想展示你的技术和软技能,并设计它来吸引你的读者。
理想情况下,你应该避免每个人都有的千篇一律的项目,而是专注于你已经完成的、你最感兴趣的项目。你开发的项目组合越多,你就越能去除大范围的、普通的项目。
当你觉得自己已经准备好探索自己选择的特定业务领域时,你可以开始专注于获取领域知识,并制作与该特定领域相关的个人项目。
您可以将您的数据分析项目组合免费保存在 DataCamp Workspace 、 GitHub 或 Kaggle 上。它们不是托管此类投资组合的唯一免费平台,但这两个平台广受欢迎,是入门级数据专家的最佳选择,因为它们可以确保您的项目具有良好的可见性。你也可以考虑创建一个个人网站。
第五步:开始申请初级数据分析师的工作
一旦你对自己的能力和投资组合有了信心,就该考虑如何找到一份数据分析师的工作了。我们得到了以下一些提示:
确保你拥有所需的技能
在开始找工作之前,你可能想快速复习一下你的数据分析师技能,并将其与现代市场对该职位的要求进行比较。
一个好的起点是看一下数据分析师的几个职位的描述,并写下目前最需要的技能。您可以查看我们的数据分析师职位描述模板以获取一些灵感。
要想得到一份数据分析师的工作,以下是公司通常希望看到的基本技能:
- Python 或 R(尤其是他们用于数据分析的专用库)
- 结构化查询语言
- 命令行
- 统计数字
- 数据清理和争论
- 数据分析
- 数据可视化
- 网页抓取
- 排除故障
- 数据叙事
- 处理非结构化数据
如果上面的列表看起来让你不知所措,不要感到气馁;你可能不需要所有的数据分析师工作都需要这些技能。通常,每个公司在合适的候选人身上寻找不同的技能。
想了解某个用人单位的具体要求,最好的方法就是阅读相应的职位描述。如果,在这一点上,你觉得你缺少一些关键的技能,考虑提高技能。
最后,不要忘记还有一些重要的数据分析师软技能:
- 分析思维
- 多任务处理
- 好奇心
- 创造力
- 通讯技能
- 灵活性
- 独立工作和团队合作的能力
- 决策
- 商业领域知识
创建专业数据分析师简历
现在该写简历了。乍一看,这似乎是一项容易的任务。然而,在现实中,花一些时间和精力来制作一份引人注目、看起来专业的简历,吸引招聘人员的注意是值得的。您可能会发现以下文章很有帮助:创建数据科学家简历的技巧。
虽然本文主要讨论的是为数据科学家角色创建简历,但是这里的大部分技巧也适用于任何其他与数据相关的职业。让我们简要概述文章中最重要的建议:
-
把你的简历放在一页纸上。
-
选择合适的简历模板。您可以从头开始创建,也可以使用带有各种简历模板的在线简历生成器。不妨考虑以下资源:简历、泽蒂、简历生成器、 Canva 、 CakeResume 、 VisualCV 、 ResumeCoach 。
-
创建你的主简历。这可以是一份很长的、非常详细的简历,有很多页和很多要点。在这里,你可以包括你所有的工作经验(如果你想转行的话,甚至包括以前不相关的工作经验),学习,项目,技术和软技能,以及其他相关信息。你可以使用这个版本的简历作为申请任何数据分析师职位的基础。
-
根据您申请的每个职位描述定制您的数据分析师简历。仔细阅读职位描述,弄清楚公司对候选人的要求,在简历中加入/突出必要的技能和关键词。此外,你可以浏览该公司的网站(它的使命、价值观和产品),并参考它,使你的简历反映出你是最合适的人选。
-
简洁但信息丰富。
-
使用简单但有效的语言。
-
检查错误和错别字。
-
考虑包括以下部分:
-
联系信息
-
目标
-
工作经历
-
项目
-
技能
-
教育
最后四个部分的出现顺序取决于你真实的相关经历,因此也取决于你想先展示什么。
开发您的在线档案
你的 LinkedIn/Kaggle/Medium/GitHub 或任何其他相关的专业简介都应该与你的数据分析师简历相符,甚至可以用缩影的形式来表现你的简历。这里的主要目标是让你的读者知道你是一名数据分析师,即使你在这个领域还没有实际的工作经验。
换句话说,你必须提升自己,创造独特的个人品牌,才能进入数据分析的竞争激烈的劳动力市场。
以下是一些有用的提示:
- 保持你的专业档案和项目组合的更新。
- 在标题中,写数据分析师,而不是你现在的职业,如果你是一个职业改变者。避免在标题中添加“渴望”这个词。
- 包括你的照片,也许还有一张与数据相关的封面图片。
- 提供专业的联系方式。
- 包括任何相关的执照、证书、技能、成就、推荐以及与你的其他专业资料的交叉链接。
写一份高效简历的一些建议在这里也适用。简洁但信息丰富,使用简单但有效的语言,检查错误和错别字,仔细检查你的联系方式,避免包括你的技能水平。
与其他数据专业人员交流
由于你正试图进入一个全新的领域,你需要开始在数据世界中拓展你的职业网络。创建一个引人注目的 LinkedIn、GitHub 或类似的个人资料是很好的第一步。
然而,你可以更积极地加入各种数据社区或团体,参加在线和现场 meetup 活动和会议,在社交网络上关注和联系合适的人,评论社交媒体数据相关内容,并发表关于数据分析主题的文章。
让数据专家围绕在你身边会有所帮助,数据营、社区的数据爱好者可以提供帮助和支持,并拓宽你在数据世界的人脉。
申请数据分析师职位空缺
最后,你已经学会了如何成为一名数据分析师,是时候开始申请你的第一份工作了。有大量的资源可以用来找工作,一般的工作门户网站有
LinkedIn 、果然、 Google for Jobs 、simple Hired、 AngelList 、 Hired 都有房源。
更多面向数据的职位信息,请查看 DataCamp Jobs 寻找并登陆你梦想中的数据职位。另外,请记住,如果您通过 DataCamp 获得了数据分析师认证,您将获得我们职业服务团队根据您的个人需求量身定制的求职支持。
一旦你获得了面试机会,你就需要准备一些数据分析师面试问题,你可以在另一篇文章中找到细节。
直接联系潜在雇主
在使用这种求职方法的同时,你可以尝试一种不那么传统、更耗时但也更有效的方法:直接联系感兴趣的公司。
要走这条路线,先找到他们的官网,探索他们的主页和职业页面,找到他们的联系方式。阅读他们的使命和价值观,他们的服务和产品,以及任何其他相关的内容。试着弄清楚你如何成为这个雇主的理想候选人。
一旦你对他们的业务有了更多的了解,你可以给他们发一封电子邮件,附上你为该公司量身定制的数据分析简历,证明你非常适合他们。这的确是一种在特定雇主眼中脱颖而出的安全方式。
做好记录,一路调整你的策略
发送简历时,无论是发送到各种求职门户网站还是直接发送到某个组织,都要记录下您发送的简历版本以及相应的公司名称和职位描述。
如果你不能马上找到一份数据分析师的工作,也不要气馁。如果你的求职过程需要一些时间,这是绝对正常的,记住拒绝对大多数人来说是不可避免的障碍。你的失败不应该让你沮丧或失去希望。
继续申请新的工作岗位,继续提高你的技能。试着分析你的简历、作品集或求职过程中哪些地方可以改进,并做出相应的改变。
如果被拒绝了,一定要寻求反馈,如果你得到了反馈,试着通过强化你的优点和改进你的缺点来充分利用这些信息。如果您遵循了本文中的所有建议,那么获得作为数据分析师的第一份工作只是时间、坚持和努力的问题。
成为 DataCamp 的数据分析师
现在,你应该知道如何成为一名数据分析师,以及你需要做些什么来实现你的目标。在这篇文章中,我们讨论了:
- 开始学习数据分析的先决条件
- 如何选择最佳资格
- 为什么单个项目对你的投资组合如此重要,以及在哪里搜索数据集
- 可以添加到您的投资组合中的其他项目
- 公司通常在数据分析师身上寻找的技术和软技能
- 创造一份优秀简历的细微差别和技巧
- 您的在线状态、可见性以及与数据专家互动的重要性
- 在哪里以及如何找工作,以及如何在申请时保持乐观和自信
掌握了所有这些信息,是时候让你继续前进,从今天开始学习了。
这个问题的答案取决于你目前的技能和理解水平,以及你的目标是什么。那些有一点现有知识和经验的人可以在几个月内掌握技能。对其他人来说,需要几年大学水平的学习。
要成为一名成熟的数据分析师,你需要掌握很多技能。因此,这可能相当困难。然而,有很多优秀的资源可以帮助你一路走来。另外,你学得越多,就越容易坚持学习。
理想情况下,你需要一些数学和统计学方面的技能。您还需要知道如何分析、建模和解释数据,以及一些编程技能(尤其是 Python、SQL、R 等)。你需要注重细节,有很好的解决问题的技巧,并且能够与他人合作愉快。
外面有很多工具。其中最著名的是 Python、R、SQL、Jupyter Notebook、Tableau、Power BI、Apache Spark,甚至 Exel。你会发现数据分析的每个方面都有工具。
是的,除了大量的工作机会和相对较高的薪水,数据分析师通常对自己的工作感到满意。有很好的发展途径,有各种各样的方法来调整你的职业生涯。
毫无疑问,虽然这可能不是每个人的职业,但几乎任何人都可以学习这些技能,如果他们投入时间和精力的话。有些方面会很有挑战性,进步有时会很慢,但通过循序渐进,有可能掌握成为数据分析师所需的所有技能。