TowardsDataScience-博客中文翻译-2020-十一-

TowardsDataScience 博客中文翻译 2020（十一）

原文：TowardsDataScience Blog

协议：CC BY-NC-SA 4.0

成为数据产品经理的分步指南

原文：https://towardsdatascience.com/a-step-by-step-guide-to-becoming-a-data-product-manager-c1ad6d111160?source=collection_archive---------2-----------------------

林赛·亨伍德在 Unsplash 上的照片

在当今快速发展的世界中，技术比以往任何时候都占主导地位。随着越来越多的产品变得数字化，产生和收集的数据量也在增加，与数据相关的就业机会也在增加。

在当今的全球市场上，一个正在崛起的角色——产品经理。角色一直呈指数级增长，让您在管理产品和人员的同时又能接*数据的角色叫什么？数据产品经理—拥有数据科学和分析以及产品管理经验的专业人士是一个巨大的机会！

整个夏天，我发现了对产品管理的热情。我希望磨练一个下午的技能，正如他们所说，做一个“副业”。当我完成 Udacity 的产品经理 nanodegree 时，我正在探索数据中的 PM 角色:责任、技能、产品和工具。

随着数据访问量的增加，产品经理现在有机会利用数据优势，不仅增强现有产品，而且创造全新的产品。

在这篇博客中，我们试图了解数据产品经理在组织中的角色，以及他们如何利用数据科学、机器学习和人工智能来解决问题。

谁是数据产品经理？

你和其他任何产品经理都差不多，指导一个产品的成功，领导负责改进产品的跨职能团队；这里补充一点:你把数据放在你所做的一切的核心。

数据项目经理负责基于先进的数据驱动洞察设计产品和功能，使用 viz 工具可视化数据以进行统计分析，并通过假设测试和建模确定变量之间的独特关系。

旁注:一个好的数据产品经理角色更适合职业生涯中期的角色。

责任

数据产品经理的主要职责是分析市场数据，以提出新产品机会。

利用市场知识数据促进产品开发
应用数据科学技术、数据工程流程和市场实验测试来交付定制的产品体验
利用数据仓库和可视化的强大功能为产品战略提供信息
开发数据管道和仓储策略，准备从产品中收集的数据，以便进行稳健的分析
学习评估实时产品数据的技术，包括如何设计和执行各种 A/B 和多变量测试来塑造产品的下一个迭代
评估统计分析中捕获的输出，并将其转化为洞察，为产品决策提供信息

如何准备成为数据 PM！？

数据项目经理是专注于构建数据产品的多学科团队的一部分，对产品领域有兴趣和资质。

1.了解如何管理数据团队的复杂性

在任何组织中，数据科学团队都是不同业务部门的交叉部门，并在其感兴趣的特定领域内开展工作。话虽如此，数据科学团队都非常不同。

理解业务需求、团队目标和每个团队成员的动机
使用已建立的学习-计划-测试-测量流程，找到将数据输入产品的方法
根据所考虑的产品扩展数据科学团队
评估 DS 团队在产品决策过程中的作用
培养跨职能团队协作:让来自营销、设计、工程师的不同人员加入您的团队，与数据和 PM 团队紧密合作。

2.了解数据产品的生命周期和发展

数据生命周期管理是一个团队在组织中控制数据的过程。

当在团队中处理涉及数据的产品、解决方案或服务时，重要的是每个团队成员都了解从构思到需求收集、理解、项目规划、实现、迭代、评估和发布的产品生命周期。

数据产品的生命周期只是对产品生命周期的一种增强，只是数据的细微差别:可以是敏捷模型或瀑布模型，这取决于业务需求，但这无疑在您成为数据 PM 的过程中扮演着重要的角色。

数据采集
数据准备
假设和建模
评估和解释
部署
操作
最佳化
发动

3.磨练你的技术知识:统计、SQL、机器学习

当你是一个产品经理时，你需要学习和了解产品生命周期中所有方面的知识。同样适用于数据 PM。

数据是一种力量，它允许企业和利益相关者做出明智的决策，并利用数据为他们的产品解决问题。

从理论上来说，了解数据概念、统计学:至少回归和相关之间的区别、机器学习算法、何时使用什么模型的人，可以被定义为“好的”数据 PM。

高效数据产品管理的方法是不断学习。正如埃隆·马斯克所说,(在互联网上)学习是免费的；更多的是对学习的追求。任何人都可以用数据做一些普通的事情。区别线是你能比 x 人做得多好。

4。提高你的分析能力

产品经理是典型的问题解决者。不可避免地，当出现问题时，产品经理将需要分析技能来解决问题或改变方向。

了解你的技术团队正在发生什么是不可避免的。数据产品经理必须能够以熟练的技术进行分析和思考。

并不是说数据项目经理需要专注于具体的技术细节，但重点肯定应该更多地放在他们如何看待、分析问题，以及用强大的分析技能处理问题。

在产品及其管理的背景下，数据 PM 也做大量的分析:从创建定制的仪表板、报告工具来帮助表面到在整个组织中共享见解。数据项目管理的利益相关者多种多样，从精明的数据科学家到高管等只读消费者。

5.发展情商

随着我与职场人士的接触越来越多，我每天都在阅读情商的重要性。

"情商是理解和管理情绪的能力."

情商涉及的技能有自我意识、自我调节、动机、同理心和社交技能。

我认为，情商之所以成为热门词汇，是因为它包含了人类情感在工作中的细微差别。这种东西正引领着员工之间更好的协作和更快乐的工作场所。随着全球化，情商比以往任何时候都更加重要，越来越多的团队变得跨文化和全球化，增加了情感互动及其表达方式的复杂性。

简而言之，情商就是理解、表达和管理与同龄人的良好关系，即使在压力下也能高效解决问题。

6.数据叙事

当我们谈论数据产品时，显然需要以能够帮助客户了解信息并做出更明智决策的方式向客户呈现数据。最优秀的产品经理将能够让数据看起来简单而吸引人，尽管其背后有很多复杂性。

当数据产品成功时，它们解决了客户、利益相关者的担忧，同时也产生了新的问题。然而，一个精通数据的项目经理将围绕产品创造一个故事，定义一个路线图，在产品推出之前，随着客户对数据变得更加聪明，该路线图将理解并结合客户的需求。

7.通过在职学习成为产品经理

你可能已经从一名初级数据科学家，甚至是一个对数据和产品管理充满热情的 SDE 角色开始了你的旅程。在工作中，你在工作中积累技能和经验。这无疑是一条缓慢的道路，但却是成为成功产品管理的最有效途径。

如果你没有或不能接受从事产品工作的专业培训，探索成为自由职业项目的产品经理的机会，或者作为副业参与公司的生产过程。

这就是我的博客的结尾。感谢您的阅读！我希望这有助于理解数据产品经理的角色。请务必让我知道你是否是一名数据项目经理，你正在寻找或已经学习或探索什么技能。

如果你喜欢阅读这样的故事，并希望支持我成为一名作家，可以考虑使用这个链接注册成为一名媒体会员(我可以赚取一小笔佣金，而不需要你额外付费！)

免责声明:本文表达的观点仅代表我个人，不代表严格的观点。

了解你的作者

拉什是芝加哥伊利诺伊大学的研究生。她喜欢将数据可视化，并创造有见地的故事。当她不赶着赶学校的最后期限时，她喜欢喝一杯热巧克力，写一些关于技术、UX 等的东西。

使用 Python 下载漫画的分步指南

原文：https://towardsdatascience.com/a-step-by-step-guide-to-download-manga-comic-using-python-581c10d732b9?source=collection_archive---------24-----------------------

网页抓取/ 采集

技术可以用来解决我们的日常问题。

由奥拉夫·阿伦斯·罗特内在 Unsplash 上拍摄的照片

那些不熟悉漫画和动漫的人，让我为他们澄清一些事情。在日本文化中，漫画是包含故事的漫画，其中有卡通人物的精髓。动漫是在漫画出版并流行到足以制作动画并从中获利后由漫画改编而成的。在日本，所有年龄的人都阅读漫画。

有一天，我开始看《一拳》动漫，因为我的一个动漫爱好者朋友推荐我在这个疫情尽情观看。我不经常看动漫。但是，我只看推荐的和在 IMDB 上有很高人气的。所以，它总共有两季，而且都完成了。但是，它有更多的季节来晚了，由于这个疫情，整个日本的动画制作已经停止。所以，我告诉我的朋友，我已经完成了两季，在等待第三季的时候，我不能保持我的渴望，他告诉我有一个网站，你可以在那里阅读漫画。它叫做mangapanda.com

我看到有太多的广告弹出来创收，这太分散注意力了。开始在漫画网站搜索《一拳》，开始看了一段时间。我厌倦了阅读，因为每次你看到主屏幕和广告都会让你心烦。

来源

作为一名电脑极客，我开始使用 web developer 工具分析该网站，默认情况下，任何 web 浏览器都可以通过按 CTRL+SHIFT+I 来使用该工具。我发现该网站的主项目容器(包含漫画图像)有一个 HTTPS 链接。jpg 格式。

来源:(在网站上按 CTRL+SHIFT+I，选择图片查看此菜单)

点击该链接在浏览器中打开图像，没有广告。但是每次打开切换工具然后点击链接听起来很乏味，对吗？。于是，一个念头涌上心头，有没有办法把这些图像和其他图像在延续中提取出来？事实证明，在这种情况下，网络搜集会有所帮助。啊，我听说过它，但是从来没有时间使用它。

使用我们的大脑和编码技巧来解决问题的时候到了。

为此，我使用了 google-colab。如果你对它不熟悉的话 查一下 这个就出来了！

第一步:

引进必要的图书馆来建立我们自己。

来源:碳(美容)+ Colab( 代码)

第二步:

我们会将所有的 HTTPS 图片链接保存在 img[] 中。

来源:碳(美容)+ Colab( 代号)

漫画的每一部分总共有两个 for 循环。

来源:来自我笔记本电脑的截图

回路的第一个是零件号，回路的第二个是段号。在上面的例子中，它是第 135 部分和一拳漫画的第 5 部分。

在上面的代码中，我使用了 range (1，2) 来提取漫画的第一部分，在第二个循环中使用了 range (1，200) ，因为这部漫画的任何部分都没有超过 200 页。

使用请求库获取页面的链接，如果 URL 存在，使用漂亮的汤库解析它，并将这个解析包含在 page_content 中。这个页面 _ 内容页面的所有信息都以 HTML 标签的形式出现。

我们的图像链接在 page_content 的一个脚本标签中。因此，我们提取所有的脚本标签并添加到一个名为 row_data 的列表中。我们发现索引号 2 有我们的图像，所以我们使用正则表达式提取图像并添加到 img[] 。对我来说这是一个困难的部分，因为我对它不熟悉。

来源:碳(美容)+ Colab( 代号)

现在我们有了 img[]中的所有图像，所以我们剩下的就是使用我们在 starting 中导入的文件库来下载它(从 google.colab 导入文件)

来源:来自我笔记本电脑的截图

(注意:如果您使用另一种环境来下载图像，方法会有所不同。可以用 wget 下载)。

现在，你可以把所有这些图片做成 PDF 格式，开始阅读没有任何广告的漫画。万岁！！

如果你想下载你最喜欢的漫画，那么去漫画熊猫网站，获取网址并粘贴到网址变量中。

链接到 colab 笔记本

我相信它会对你有用，你会从这篇文章中有所收获。直到那时快乐编码！！

获得基线算法的逐步指南

原文：https://towardsdatascience.com/a-step-by-step-guide-to-getting-your-baseline-algorithm-5bba1b7ce047?source=collection_archive---------15-----------------------

在任何给定的数据科学解决方案中获得基准算法的逐步过程。

第一步

确定你的商业目标。我们最成功的目标(推动最大价值)是可衡量的、可操作的、可行的，并直接影响业务。例如，一个好的初始目标是“让我们建立一个算法模型，在评估我们业务的未来客户时，帮助我们识别坏客户和好客户”。假设我们有一个数据字典，它定义了潜在好客户和潜在坏客户的标准。

步骤 1a:

建立你的评价标准。什么指标将为我们提供实现业务目标所需的洞察力？例如，“我们想衡量我们的算法有多精确？”

第二步

采集数据&开始分析。

从任何来源提取数据(这本身就是一个过程，并不是本文的基础)。成功导入文件后，观察列数、行数、列名等。仔细看看，检查各个列的名称，是否清楚您正在查看哪种数据？为什么或为什么不？在开始挖掘细节之前，先从高层次的概念上审视您的数据。即使您发现您的数据特别“脏”或不清楚，了解所有事物是如何联系在一起的也是很重要的。

步骤 2a:

确定它是数值型还是分类型。你的变量类型是什么？是正态分布吗？如果数据是分类的，那么你的数据是有序的还是名义的？如果你的数据是数值，你的数值是离散的还是连续的？我建议在你的 Jupyter 笔记本上记下这些信息，例如，通过注释(这里用#comment)。

步骤 2b:

确定您的数据是否有异常值。为了对您的数据进行适当的计算，您需要尽可能地将其标准化。去掉无关的数据点将有助于你的数据结构不会过于倾斜。

步骤 2c:

识别缺失值(如有)。通常，我们使用*均值，有时是中值或众数来给出最佳值，以填充数据集中的任何空白。

第三步

分割数据80/20 或 75/25，其中 80%或 75%是您的训练集，20%或 25%是您的测试集。你不需要在你所有的东西上训练你的算法——你的算法需要新的原始数据来测试。我们使用样本在新的东西上测试模型(模型以前没有见过这个数据)。我们基于训练数据集建立我们的预测结果。通过将我们的预测结果与测试数据集进行比较，我们可以衡量该算法的真正实力。

为了获得我们可以进行计算和预测的标准化数据，我们必须以各种方式清理数据。

第四步

对训练数据进行规范化和‘清洗’。填充缺失值、剩余的异常值以帮助规范化数据，以便您可以正确地使用它。

步骤 4a:

对测试数据进行规范化和‘清洗’。虽然这种方法可能被视为更加繁琐，但它被认为是将测试数据集与训练数据集分开进行清理的最佳实践——它有助于避免过度拟合。过度拟合是指当预测数据与历史数据过于接*时，模型中出现的错误。

第五步

建模阶段。确定哪些类型的模型，这取决于我们寻求应用哪种机器学习类型。我们自问，是分类问题，回归问题，还是无监督学习问题？

一旦确定，实现模型。在这里，您可以选择属于您的“问题类型”的 3-4 种不同的算法。

基本算法分解

分类:随机森林、朴素贝叶斯、逻辑回归、梯度推进、K *邻。

回归:山脊、套索、弹性、网状、线性、非线性(这些算法不要与分类算法混淆，因为它们是回归算法——随机森林回归器、梯度推进回归器、K-最*邻回归器)。

无监督学习:降维((SVD:奇异值分解，PCA:主成分分析，LDA:潜在狄利克雷分配))、K-Means((分层的，基于密度的，基于距离的))。

第六步

训练你的算法。从上面的列表中选择，根据训练数据集训练你的算法。

第七步

做个预测。采用经过训练的算法，通过将您的预测结果应用到测试数据集来进行预测。接下来，我们将获取预测结果或输出，并对其进行分析。

第八步

评估。获取测试结果，并将其与真实值进行比较。将预测值与真实值进行比较的行为被归类为评估模型。一旦进行了比较，我们就会看到我们之间的差距(即准确度得分度量告诉我们有多远)。如果你的评价低于你的门槛，你应该高兴！如果您的预测结果非常不准确，也许您在第一次运行时看到了极高的准确度，您将不得不返回并检查您的数据和所做的任何调整。当您没有看到您希望的指标时，首先在内部解决您的问题，检查您是如何清理数据的，以确保您没有遗漏任何东西。尝试一种不同的算法，使用您可能创建的任何函数或新列或数据集。一旦你可以自信地确认你的过程和算法是合理的，然后从外部寻找不同的数据来源——也许有一些开源数据可以支持你的预测模型？

第九步

特色工程。如果你穷尽了所有不同类型的数据，穷尽了所有不同类型的算法，那么就开始特征工程。最好的做法是，一旦你开始第二轮，就开始特征工程。制作笔记本的副本，并开始在副本上重新制作模型，这样您就可以比较和对比过程差异和输出差异。创建新功能不是一件轻而易举的事情，所以要坚持做下去，并花时间进行评估。

第十步

把你的发现和分析放在一起。用一种最能引起受众共鸣的方式传达你的发现。考虑一个 Keynote、PowerPoint、Google Slides 演示文稿，它以一种有意义但易于理解的方式概括了你的发现，让你的业务伙伴能够最好地综合所有已经完成的工作。

Python 中的交互式 Choropleth 地图

原文：https://towardsdatascience.com/a-step-by-step-guide-to-interactive-choropleth-map-in-python-681f6bd853ce?source=collection_archive---------21-----------------------

学习使用 Python 的叶库轻松开发 Choropleth 地图

Choropleth 地图是最有趣和最有用的可视化工具之一。它们很重要，因为它们可以提供地理位置信息，它们看起来很漂亮，在演示中能吸引注意力。几个不同的库可以用来做这件事。在本教程中，我将使用叶。

什么是 choropleth 地图？

这是来自维基百科的定义:

Choropleth 图提供了一种简单的方法来可视化一个地理区域内的测量值如何变化，或显示一个区域内的可变性水*。一张热图或是一张类似但不使用先验地理区域。它们是最常见的专题地图类型，因为发布的统计数据(来自政府或其他来源)通常被聚合到众所周知的地理单元中，如国家、州、省和县，因此使用 GIS 、电子表格或其他软件工具创建它们相对容易。

用简单易懂的话来说，choropleth 地图是通过在地图上使用颜色来显示地理位置信息的地图。看下面的一些图片，获得更多的理解。

数据准备

数据准备是所有数据科学家的一项重要而普遍的任务。我在这里使用的数据集相当漂亮和干净。但是对于这个可视化，我仍然需要做一些工作。让我们导入必要的库和数据集。

import pandas as pd
import numpy as npdf = pd.read_excel('[https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/DV0101EN/labs/Data_Files/Canada.xlsx'](https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/DV0101EN/labs/Data_Files/Canada.xlsx'),
                     sheet_name='Canada by Citizenship',
                     skiprows=range(20),
                     skipfooter=2)

我不能在这里显示数据集的截图，因为它太大了。我鼓励你自己运行代码。这是唯一的学习方法。

该数据集包含从 1980 年到 2013 年有多少来自世界不同国家的移民来到加拿大。让我们看看数据集的列名，以了解该数据集包含的内容:

df.columns#Output:
Index(['Type', 'Coverage', 'OdName', 'AREA', 'AreaName', 'REG', 'RegName', 'DEV', 'DevName', 1980, 1981, 1982, 1983, 1984, 1985, 1986, 1987, 1988, 1989, 1990, 1991, 1992, 1993, 1994, 1995, 1996, 1997, 1998, 1999, 2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013],
dtype='object')

我们要绘制每个国家从 1980 年到 2013 年的移民总数。

我们需要国名和年份。从数据集中删除一些不必要的列。

df.drop(['AREA', 'REG', 'DEV', 'Type', 'Coverage', 'AreaName', 'RegName', 'DevName'], axis=1, inplace=True)

“OdName”列是国家的名称。为了便于理解，将其重命名为“国家”。

df.rename(columns={'OdName':'Country'}, inplace=True)

现在，做一个“总数”栏，这是每个国家所有年份的移民总数。

df['Total'] = df.sum(axis=1)

看，我们在最后有“总计”栏。它给出了每个国家的移民总数。

记住将这个轴设置为 1 是很重要的。它说求和操作应该是跨列的。否则，它将跨行求和，我们将得到每年的移民总数，而不是每个国家的移民总数。

基本 Choropleth 图

我将在这里展示，如何一步一步地绘制出一张 choropleth 地图。进口叶。如果您没有 lyum，请在 anaconda 提示符下运行以下命令进行安装:

conda install -c conda-forge folium

现在导入叶子，生成世界地图。

import folium
world = folium.Map(location=[0,0], zoom_start=2)

现在在这个世界地图中，我们将设置我们的数据。但它也需要包含每个国家坐标的地理数据。从此链接下载地理数据。我已经下载并把它放在了我在本教程中使用的笔记本所在的文件夹中。我现在只需要看那份文件。

wc = r'world-countries.json'

对于这张 choropleth 地图，你需要传递

我们在上面保存为“wc”的地理数据，
数据集，
我们需要从数据集中使用的列，
来自地理数据的“钥匙开启”参数。“key_on”参数的值始终以“feature”开头。然后，我们需要添加我们保存为“wc”的 geo_data 中的键。那个 JSON 文件太大了。因此，我展示了其中的一部分来解释 key_on 参数:

{"type":"Feature","properties":{"name":"Afghanistan"},"geometry":{"type":"Polygon","coordinates":[[[61.210817,35.650072],[62.230651,35.270664],[62.984662,35.404041],[63.193538,35.857166],[63.982896,36.007957],[64.546479,36.312073],[64.746105,37.111818],[65.588948,37.305217],[65.745631,37.661164],[66.217385,37.39379],[66.518607,37.362784],[67.075782,37.356144],[67.83,37.144994],[68.135562,37.023115],[68.859446,37.344336],[69.196273,37.151144],[69.518785,37.608997],[70.116578,37.588223],[70.270574,37.735165],[70.376304,38.138396],[70.806821,38.486282],[71.348131,38.258905],[71.239404,37.953265],[71.541918,37.905774],[71.448693,37.065645],[71.844638,36.738171],[72.193041,36.948288],[72.63689,37.047558],[73.260056,37.495257],[73.948696,37.421566],[74.980002,37.41999],[75.158028,37.133031],[74.575893,37.020841],[74.067552,36.836176],[72.920025,36.720007],[71.846292,36.509942],[71.262348,36.074388],[71.498768,35.650563],[71.613076,35.153203],[71.115019,34.733126],[71.156773,34.348911],[70.881803,33.988856],[69.930543,34.02012],[70.323594,33.358533],[69.687147,33.105499],[69.262522,32.501944],[69.317764,31.901412],[68.926677,31.620189],[68.556932,31.71331],[67.792689,31.58293],[67.683394,31.303154],[66.938891,31.304911],[66.381458,30.738899],[66.346473,29.887943],[65.046862,29.472181],[64.350419,29.560031],[64.148002,29.340819],[63.550261,29.468331],[62.549857,29.318572],[60.874248,29.829239],[61.781222,30.73585],[61.699314,31.379506],[60.941945,31.548075],[60.863655,32.18292],[60.536078,32.981269],[60.9637,33.528832],[60.52843,33.676446],[60.803193,34.404102],[61.210817,35.650072]]]},"id":"AFG"}

在 properties 键中，我们有国家的名称。这就是我们需要传递的。因此，key_on 参数的值将是“feature.properties.name”。

5.我还将使用一些样式参数:fill_color、fill_opacity、line_opacity 和 legend_name。我觉得这些都是不言自明的。

这是我们第一张 choropleth 地图的代码:

world.choropleth(geo_data=wc,
                data=df,
                columns=['Country', 'Total'],
                key_on='feature.properties.name',
                fill_color='YlOrRd',
                fill_opacity=0.8,
                line_opacity=0.2,
                legend_name='Immigration to Canada'
                )
world

这张地图是互动的！你可以用鼠标导航。而且，它会随着强度改变颜色。颜色越深，越多的移民从那个国家来到加拿大。但是黑色意味着没有可用的数据或者没有移民。

添加图块

这张地图可能看起来有点*面。我们可以用瓷砖让它看起来更有趣:

world_map = folium.Map(location=[0, 0], zoom_start=2, tiles='stamenwatercolor')
world_map.choropleth(geo_data=wc,
                     data=df,
                     columns=['Country', 'Total'],
                     threshold_scale=threshold_scale,
                     key_on='feature.properties.name',
                     fill_color='YlOrRd',
                     fill_opacity=0.7,
                     line_opacity=0.2,
                     legend_name='Immigration to Canada'
                    )

是不是更好看！我们可以通过使用一些瓷砖来使它变得更有趣，这将为我们提供根据需求更改瓷砖的选项。我们将使用 follow 的 TileLayer 方法在地图上添加不同的*铺层。最后，我们还将包含 LayerControl 方法，以获得更改图层的选项。

world = folium.Map(location=[0, 0], zoom_start=2, tiles='cartodbpositron')
tiles = ['stamenwatercolor', 'cartodbpositron', 'openstreetmap', 'stamenterrain']
for tile in tiles:
    folium.TileLayer(tile).add_to(world)

world.choropleth(
    geo_data=wc,
    data=df,
    columns=['Country', 'Total'],
    threshold_scale=threshold_scale,
    key_on='feature.properties.name',
    fill_color='YlOrRd', 
    fill_opacity=0.7, 
    line_opacity=0.2,
    legend_name='Immigration to Canada',
    smooth_factor=0
)folium.LayerControl().add_to(world)
world

看，在传说的右上角下面，有一堆瓷砖。如果你点击它，你会得到一个列表。您可以在那里更改瓷砖样式。我觉得这个选项很酷！

添加信息标签

最后，我想向您展示另一个有用且有趣的选项。那就是使用一个信息标签。我们不能指望每个人通过看地图就知道国家的名字。地图上有国家的标签会很有用。我们会让它变得有趣。Folium 有一个名为“GeoJsonTooltip”的功能可以做到这一点。首先，我们需要像往常一样制作世界地图。将所有参数添加到其中并保存在一个变量中。然后使用带有 add_child 方法的“GeoJsonTooltip”添加此附加功能。这是完整的代码。

world = folium.Map(location=[0,0], zoom_start=2, tiles='cartodbpositron')
choropleth = folium.Choropleth(geo_data=wc,
    data=df,
    columns=['Country', 'Total'],
    threshold_scale=threshold_scale,
    key_on='feature.properties.name',
    fill_color='YlOrRd', 
    fill_opacity=0.7, 
    line_opacity=0.2,
    legend_name='Immigration to Canada',
).add_to(world)choropleth.geojson.add_child(
    folium.features.GeoJsonTooltip(['name'], labels=False))
world

注意，我把光标放在法国，它显示法国这个名字。同样的方法，你可以把光标放在地图上的任何地方，得到这个地方的名字。

结论

我想展示如何开发一个交互式 choropleth 地图，设计它的样式，并向它添加信息标签。我希望它有帮助。

阅读推荐

** [## Python 中的交互式地理空间数据可视化

绘制世界特定地区的地图，在地图上展示活动，并四处导航

towardsdatascience.com](/interactive-geospatial-data-visualization-in-python-490fb41acc00) [## 使用 Python 的 Matplotlib 的华夫饼图表

如何使用 Matplotlib 库在 Python 中绘制华夫饼图表

towardsdatascience.com](/waffle-charts-using-pythons-matplotlib-94252689a701) [## Matplotlib 中的气泡图

通过使用 Python 的 Matplotlib 库的例子学习绘制气泡图

towardsdatascience.com](/bubble-plots-in-matplotlib-3f0b3927d8f9) [## 用于数据建模的探索性数据分析

如何了解数据集，定义因变量和自变量，计算相关系数…

towardsdatascience.com](/exploratory-data-analysis-intro-for-data-modeling-8ff019362371) [## 置信区间的完整指南，以及 Python 中的示例

对统计学中一个非常流行的参数——置信区间及其计算的深入理解

towardsdatascience.com](/a-complete-guide-to-confidence-interval-and-examples-in-python-ff417c5cb593) [## 在 Python 中生成任意形状的单词云

学习生成一个单词云，设计它的样式并使用自定义形状

towardsdatascience.com](/generate-word-clouds-of-any-shape-in-python-e87f265f6352)**

在 macOS/Linux 上运行 Cron 和 Launchd 的完整指南

原文：https://towardsdatascience.com/a-step-by-step-guide-to-scheduling-tasks-for-your-data-science-project-d7df4531fc41?source=collection_archive---------2-----------------------

编程；编排

计划任务的逐步指南

左图由 Unsplash 上的 Mindspace 工作室拍摄。作者的正确图像

**Table of contents**[**Introduction**](#7f32)1\. [Papermill and terminal-notifier](#b73c)
2\. [cron for Linux/macOS](#919e)
3\. [launchd for macOS](#bfcb)

[**Conclusion**](#c03d)

[更新:2021 年 5 月 28 日]

介绍

你有一个需要你每天花费时间的数据科学项目吗？您是否使用每天更新的数据馈送？例如，约翰霍普金斯大学 CSSE 分校的 2019 新型冠状病毒新冠肺炎(2019-nCoV)数据仓库每天更新，我在我的个人项目中使用它。

我手动启动 Jupyter，打开一个项目，重启内核并运行所有单元，然后 git add/commit/push。这是一点工作。在本文中，我将分享为您的数据科学项目设置launchd和cron作业的一步一步的过程，这样它将在后台自动更新您的项目，甚至通知您。

用于 Linux/macOS 的**cron** 和用于 macOS 的 **launched**

虽然 launchd 是 macOS 中的首选方法，但是cron方法在 macOS 中也同样适用。

cron是一个 Linux 实用程序，它可以安排服务器/计算机上的命令或脚本在指定的时间和日期自动运行。cron 作业是计划任务，它对于自动化重复任务非常有用。

launchd 是苹果公司创造的，是许多 Unix 工具的替代品，如cron、inetd、init、等。

看完这篇文章，你就可以开始安排任务了，节省了你很多宝贵的时间。

** [## 用 Jupyter 笔记本写作的 7 个基本技巧

第一篇数据科学文章指南

towardsdatascience.com](/7-essential-tips-for-writing-with-jupyter-notebook-60972a1a8901) [## 手把手的 Jupyter 笔记本黑客

您应该使用的技巧、提示和快捷方式

towardsdatascience.com](/hands-on-jupyter-notebook-hacks-f59f313df12b)

步骤 0:造纸厂和终端通知程序

造纸厂

造纸厂标志

Papermill 是一个参数化和执行 Jupyter 笔记本的工具。我可以用它在 cron 和 launchd 作业文件中运行 Jupyter 笔记本文件。

$ pip install papermill

或者

$ pip3 install papermill$ papermill --help

你可以在这里找到命令行界面帮助。

造纸厂的用途:

papermill [OPTIONS] NOTEBOOK_PATH OUTPUT_PATH

我很快会给你看一个例子。

终端通知程序

运行中的终端通知程序。作者图片

终端通知器是一个发送 macOS 用户通知的命令行工具。当计划的作业完成时，我将用它来通知我。

安装终端通知程序。

$ brew install terminal-notifier
$ terminal-notifier -help

[## 终端改造的终极指南

今天你将度过的最好的 11 分钟:程序员的终端提示

towardsdatascience.com](/the-ultimate-guide-to-your-terminal-makeover-e11f9b87ac99)

用于 Linux/macOS 的 cron

在 macOS 中，您可以通过两种方式定时运行后台作业:启动作业和 cron 作业。请注意，macOS v10.15 仍然支持它，尽管cron不是推荐的解决方案，并且launchd已经被取代。

步骤 1:设置 cron 作业

您可以使用您的用户名设置 cron 作业:

$ whoami
your-name$ sudo crontab -u your-name -e
Password:
sh-3.2#

您可以在 macOS 中使用sudo su来启用 root 用户，这样您就不需要输入密码了。

$ sudo su
$ crontab -u your-name -e

-u指定用户的名称。-e编辑当前的 crontab。

句法

cron 语法指南。作者图片

如上所述，添加五个数字和一个要执行的文件的路径。

示例:

0 10 * * * ~/DataScience/covid-19-stats/covid19-cron

上面会在每天 10:00 运行文件~/DataScience/covid-19-stats/covid19-cron。

如果系统关闭或休眠，cron 作业不会执行。如果您错过了指定的时间，它将在您的系统打开时的下一个指定时间执行。

可以输出stdout和stderr:

# log stdout and stderr
42 6 * * * ~/DataScience/covid-19-stats/covid19-cron > /tmp/stdout.log 2> /tmp/stderr.log

>将标准输出重定向至/tmp/stdout.log，而>2将标准误差重定向至/tmp/stderr.log。

一旦设置了 cron 作业，您可以列出它:

$ crontab -l
0 20 * * * ~/DataScience/covid-19-stats/covid19-cron

如果要删除所有 cron 作业:

$ crontab -r

您可以在 crontab 中添加多个 cron 作业。

0 20 * * * ~/DataScience/covid-19-stats/covid19-cron
0 7 * * * Path/to/file/to/execute
0 7 * * 0 Path/to/another/file/to/execute

crontab guru 是一个快速简单的 cron 计划工具。

步骤 2:编写 cron 作业

您可以将所有 cron 作业文件放在一个目录中，但是我将它放在项目根目录中。将当前工作目录更改为您的项目，创建一个 cron 作业文件，并在编辑器中打开它。根据谷歌风格指南，可执行文件不应该有.sh扩展名。

$ cd path/to/project
$ touch covid19-cron
$ vim covid19-cron

步骤 3:定义 shebang

脚本第一行中使用的 shebang 表示要执行的 UNIX/Linux 操作系统。

尽管 Papermill 和 terminal-notifier 在终端中工作，但我们需要添加它们的路径。

让我们找到他们。

$ which papermill
/usr/local/bin/papermill$ which terminal-notifier
/usr/local/bin/terminal-notifier

在我的 covid19-cron 文件中:

#!/usr/bin/env bash
# run covid-19 files 
# git add, comit and push

dir=/Users/shinokada/DataScience/covid-19-stats
papermill=/usr/local/bin/papermill
notifier=/usr/local/bin/terminal-notifier

cd $dir
$papermill covid-19-matplotlib.ipynb ./latest/covid-19-matplotlib.ipynb
# more files ...
$papermill covid-19-plotly.ipynb ./latest/covid-19-plotly.ipynb git add . 
git commit -m "update" 
git push
$notifier -title Covid19 -subtitle "Daily Updated" -message "Completed" -open "https://mybinder.org/v2/gh/shinokada/covid-19-stats/master"
now=$(date)
echo "Cron job update completed at $now"

我在根目录中创建“最新”目录。造纸厂将文件输出到这个“最新”目录。因为我们将使用 git，所以您需要确保在项目根目录中有.git。

如果您使用的是%run somefile，我建议您将它们添加到 cron-file 中。

我使用title、substitle、message 和open作为终端通知器选项。

终端通知程序快速指南

终端通知程序快速指南。作者图片

步骤 4:添加执行权限

这个 bash 文件需要权限才能执行。

$ chmod u+x covid19-cron

chmod设置文件权限。

chmod 用户指南。作者图片

chmod 行动指南。作者图片

chmod 权限指南。作者图片

chmod u+x covid19-cron允许用户执行 covid19-cron。

上述命令与以下命令相同:

$ chmod 744 covid19-cron

邮寄

在运行 cron 作业后，您的终端通过邮件发送其输出和错误消息。让我们检查一下 cron 的工作是否有效。

$ mail

你需要按回车键来阅读信息，然后按 q 和回车键退出。使用j查看下一行。你需要检查邮件是否没有错误。如果出现错误，您需要关注问题。

测试 cron 作业

您需要重置 crontab 时间来测试您的 cron 作业。launchd允许我们测试工作，但对于cron这是唯一的测试方式。

$ sudo crontab -u your-name -e# change time 
5 20 * * * ~/DataScience/covid-19-stats/covid19-cron
$ crontab -l
5 20 * * * ~/DataScience/covid-19-stats/covid19-cron

测试完成后，它会显示通知。

终端通知。作者图片

macOS 的启动

[launchd](https://www.launchd.info/)是一个统一的开源服务管理框架，用于启动、停止和管理守护程序、应用程序、进程和脚本。

如果您通过设置 StartCalendarInterval 键来计划一个启动的作业，并且计算机在该作业应该运行时处于睡眠状态，则您的作业将在计算机唤醒时运行。

然而，如果在作业本应运行时机器关闭，则作业不会执行，直到下一个指定时间出现。

步骤 1: plist 文件

一个 PLIST 文件是一个系统范围的和每个用户的守护进程/代理配置文件。守护程序/代理是在后台运行的程序，无需用户输入。你定义程序的名字，什么时候运行，你想运行什么，等等。您将所有 plist 文件存储在~/Library/LaunchAgents 目录中。

[Update.1]如果您没有~/Library/LaunchAgents，您需要创建它。

# check ~/Library if it has LaunchAgents
$ ls ~/Library
# if not create the directory
$ mkdir ~/Library/LaunchAgents

创建一个plist文件:

$ cd ~/Library/LaunchAgents
$ touch com.shinokada.covid19.plist

在 com.shinokada.covid19.plist 中:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE plist PUBLIC "-//Apple//DTD PLIST 1.0//EN" "http://www.apple.com/DTDs/PropertyList-1.0.dtd">
<plist version="1.0">
    <dict>
        <key>Label</key>
        <string>com.shinokada.covid19</string>
        <key>Program</key>
        <string>/Users/shinokada/DataScience/covid-19-stats/covid19-launchd</string>
        <key>EnvironmentVariables</key>
        <dict>
            <key>PATH</key>
            <string>/bin:/usr/bin:/usr/local/bin</string>
        </dict>
        <key>StandardInPath</key>
        <string>/tmp/covid.stdin</string>
        <key>StandardOutPath</key>
        <string>/tmp/covid.stdout</string>
        <key>StandardErrorPath</key>
        <string>/tmp/covid.stderr</string>
        <key>WorkingDirectory</key>
        <string>/Users/shinokada/DataScience/covid-19-stats</string>
        <key>StartCalendarInterval</key>
        <dict>
            <key>Hour</key>
            <integer>8</integer>
            <key>Minute</key>
            <integer>0</integer>
        </dict>
    </dict>
</plist>

在这里我每天早上八点跑/Users/shinokada/DataScience/covid-19-stats/covid19-launchd。

plist 文件快速指南中的配置

plist 文件快速指南中的配置。更多关于发射配置。作者图片

步骤 2:创建 bash 文件

在项目根目录下创建一个名为 covid19-launchd 的文件。这与上面的covid19-cron非常相似。

#!/usr/bin/env bash
# run covid-19 files 
# git add, comit and pushpapermill covid-19-data.ipynb ./latest/covid-19-data.ipynb
papermill multiplot.ipynb ./latest/multiplot.ipynb 
# more files ...
papermill uk-japan.ipynb ./latest/uk-japan.ipynb 
papermill Dropdown-interactive.ipynb ./latest/Dropdown-interactive.ipynbgit add . 
git commit -m "update" 
git push
terminal-notifier -title Covid19 -subtitle "Daily Updated" -message "Completed" -open "[https://mybinder.org/v2/gh/shinokada/covid-19-stats/master](https://mybinder.org/v2/gh/shinokada/covid-19-stats/master)"
now=$(date)
echo "launchd update completed at $now"

因为我们在 plist 文件中设置了PATH EnvironmentVariables，所以我们不需要担心 Papermill 和终端通知程序的绝对路径。

你可以通过bash covid19-launchd测试一下是否有效。

步骤 3:添加执行权限

这个 bash 文件需要权限才能执行。

$ chmod u+x covid19-cron

步骤 4:测试 launchd

lauchctl控制 macOS 启动过程。它有list、start、stop、load、unload、等子命令。

为了我的案子；

$ launchctl list | grep covid
-  0  com.shinokada.covid19# test/debug 
$ launchctl start com.shinokada.covid19# if you need to stop
$ launchctl stop com.shinokada.covid19# load the job
$ launchctl load ~/Library/LaunchAgents/com.shinokada.covid19.plist# unload the job
$ launchctl unload ~/Library/LaunchAgents/com.shinokada.covid19.plist# get help
$ launchctl help

作者图片

再装

launchctl没有用于读取 config.plist 文件更改的 reload 命令。相反，您必须卸载然后重新加载 plist 文件，例如:

$ launchctl unload ~/Library/LaunchAgents/com.shinokada.covid19.plist$ launchctl load $_

$_和!$一样，指的是前一条命令的最后一个参数。

如果您对脚本或 plist 进行了任何更改，请确保卸载并加载 plist。

启动快速指南

launchctl有多个子命令，下图显示了重要的子命令。

启动快速指南。作者图片

结论

计划任务节省您的时间，并且易于设置。您不仅可以为您的数据科学项目设置它，还可以为您的日常工作设置它，例如更新节点包、自制公式等。如果你每天节省 3 分钟，一年就能节省 18 个小时以上！如果你有兴趣，可以在这里看到我的样本项目。

通过成为 会员，可以完全访问媒体上的每一个故事。

请订阅。

参考

[## 使用 Jupyter 笔记本进行版本控制

Jupytext 分步指南

towardsdatascience.com](/version-control-with-jupyter-notebook-b9630bc5996e) [## Jupyter 用户的生产力提示

使用 Jupyter 笔记本和 JupyterLab 让您的工作流程更加高效

towardsdatascience.com](/stepping-into-intermediate-with-jupyter-f6647aeb1184) [## 用 Jupyter 笔记本探索正态分布

使用 scipy 和 matplotlib 的正态分布初学者指南

towardsdatascience.com](/exploring-normal-distribution-with-jupyter-notebook-3645ec2d83f8)**

微软新闻推荐竞赛分步指南

原文：https://towardsdatascience.com/a-step-by-step-guide-to-the-microsoft-news-recommendation-competition-700ab00831a?source=collection_archive---------28-----------------------

微软新闻推荐大赛如何入门

本文作者是吴、易经纬、、应乔、和米盖尔冈萨雷斯-菲耶罗，他们都在微软工作。

介绍

新闻推荐已经成为许多新闻服务的关键机器学习技术，也是数百万人消费新闻时的重要体验。为了促进新闻推荐的公开研究，微软的几个团队最*发布了微软新闻数据集(MIND) ，并发起了微软新闻推荐竞赛。这篇博客文章提供了一个关于为竞赛中的新闻推荐问题开发一个算法，然后提交给竞赛进行评估的演练。这篇文章中描述的代码可以在微软推荐者 Github 知识库中找到。

竞争基准

为了帮助微软新闻推荐竞赛的参与者开始，我们提供了五个基线:深度知识感知网络(DKN)、长期和短期用户表示(LSTUR)、注意力多视图学习(NAML)、个人注意力(NPA)和多头自我注意力(NRMS)。这些模型在 MIND 上的性能在这篇 ACL 论文中进行了评估。在这篇博文中，我们以 NRMS 为例来说明提交过程，所有五个基线的代码都在微软推荐库上。

NRMS

NRMS 是一种基于内容的神经新闻推荐算法。它使用多头自我关注来捕捉单词之间的相关性以学习新闻表示，并捕捉之前点击的新闻文章之间的交互以学习用户表示。它还通过选择重要的单词和新闻，使用附加注意力来学习信息性新闻和用户表示，如下图所示。

关于算法的细节可以在本文中找到，核心的 NRMS 算法可以在这里找到。

NRMS 算法的体系结构

代码示例

我们提供了一本 Jupyter 笔记本来帮助参赛者开始学习 NRMS 算法。在笔记本中，首先下载思维数据集。为了训练 NRMS 模型，应该从竞争*台复制原始数据集。代码示例中的实用函数使这一步变得很方便。应该注意的是，用于比赛的数据集是“MINDlarge”集。建议先熟悉“MINDdemo”或“MINDsample”数据。

有关培训和评估流程的更多详细信息，请参见笔记本。为了确保结果符合提交要求，预测分数保存在压缩文件夹中以便上传。

服从思维竞赛

提交前应进行注册。关于注册的细节可以在这里找到。发送标题为“头脑大赛报名”的邮件至 mind[at]microsoft.com 并附上您的信息(CodaLab 账号昵称、真实姓名、联系邮箱和所属关系)以及您对微软头脑新闻推荐大赛官方规则的同意(请在邮件中写上“我同意微软头脑新闻推荐大赛官方规则”)。如果提供了完整的所需信息，注册将在一两天内获得批准，并将向参与者发送一封确认电子邮件。

确认电子邮件

一旦参与者的批准完成，就允许提交结果。竞赛分为两个阶段，即开发和测试阶段。在开发阶段，您可以将开发集上的结果提交到 Codalab 系统，以获得官方分数。在测试阶段，我们将发布测试集，您可以在截止日期前将您对它的预测结果提交给 Codalab。

在 CodaLab 上提交需要几个步骤:

导航至“参与”。
简要描述您的模型(可选)。

模型描述

点击“提交”按钮。
上传您提交的压缩文件。我们使用在前面步骤中获得的压缩文件夹(参见笔记本)，在那里训练 NRMS 模型。

压缩提交

等待评估状态变为“已完成”或“未通过”。下图显示了一个成功的提交。除了提交状态，系统还返回从模型评估中生成的分数。

提交结果

如果提交状态为“失败”，您可以单击“查看评分输出日志”，然后单击“查看评分错误日志”来查看调试日志。当评估完成后，您可以决定是否在排行榜上显示您的分数。

在开发阶段，参与者可以在验证集上上传他们的预测，并根据结果调整他们的模型。虽然这种提交不是强制性的，但我们强烈建议您提交，以防您在获得正常评估结果时遇到困难。对于那些不熟悉 CodaLab 的参与者来说，这也是一个有用的实践。

后续步骤

在我们的研究中，NRMS 在思想上超越了其他基线，但仍有可能改进:

目前，我们不考虑单词和新闻的位置信息，但它们可能对学习更准确的新闻和用户表示有用。
用户通常既有长期偏好，也有短期兴趣。然而，我们的方法只学习短期兴趣，即在当前印象之前从点击的新闻中学习用户表示。通过学习长期用户表征，我们可以将信息整合到多重印象中，从而潜在地获得更好的用户表征。
最*，图形神经网络(GNNs)已经被证明在图形数据的学习上是强大的。一个基于用户行为的精心构建的图表可能会达到这个目的。

请注册参加比赛，祝黑客快乐！

参考

1.微软推荐库:【https://github.com/microsoft/recommenders

2.心里话:【https://msnews.github.io/assets/doc/ACL2020_MIND.pdf】T4

3.注意 Azure 开放数据集:https://Azure . Microsoft . com/en-us/services/Open-Datasets/catalog/Microsoft-news-dataset/

Python 中 Web 抓取的分步指南

原文：https://towardsdatascience.com/a-step-by-step-guide-to-web-scraping-in-python-5c4d9cef76e8?source=collection_archive---------3-----------------------

抓取任何有请求和美丽声音的网页

照片由卡伊奥从派克斯拍摄

作为数据科学家，我们总是在寻找新的数据和信息来分析和处理。现在查找数据的一个主要方法是在网上搜索特定的查询。

当我们浏览互联网时，我们会遇到大量的网站，这些网站在浏览器上显示各种数据。如果我们出于某种原因想要将这些数据用于某个项目或 ML 算法，我们可以——但不应该——手动收集这些数据。因此，我们将复制我们想要的部分，并将其粘贴到 doc 或 CSV 文件中。

[## 为您的应用选择最佳的 Python Web 抓取库

前 5 个库的概述以及何时使用它们。

towardsdatascience.com](/choose-the-best-python-web-scraping-library-for-your-application-91a68bc81c4f)

不用说，那将是一项相当乏味的任务。这就是为什么大多数数据科学家和开发人员使用代码进行网络搜集。编写代码从一个 100 美元的网页中提取数据比手工操作更容易。

Web 抓取是程序员使用的一种技术，用于在相对较短的时间内自动完成从互联网上查找和提取数据的过程。

说到网络抓取，最重要的问题是，它合法吗？

网络抓取合法吗？

简答，是。

更详细的答案是，在 2020 年 1 月下旬，出于非商业目的收集公共可用数据被宣布为完全合法。

你可能想知道，公开可用是什么意思？

公开可用的信息是任何人都可以在互联网上看到/找到的信息，而不需要特殊访问。因此，维基百科、社交媒体或谷歌搜索结果上的信息都是公开可用数据的例子。

现在，社交媒体有些复杂，因为它有一部分是不公开的，比如当用户将他们的信息设为私有时。在这种情况下，该信息是非法的要被抓取。

最后一点，公开的和有版权的是有区别的。例如，你可以取消 YouTube 的视频标题，但你不能将这些视频用于商业用途，因为它们是受版权保护的。

如何报废 web？

有不同的编程语言可以用来抓取 web，在每种编程语言中，都有不同的库来实现相同的目标。

那么，用什么呢？

在本文中，我将使用 Python 、请求和 BeautifulSoup 从维基百科中删除一些页面。

要从互联网上截取和提取任何信息，你可能需要经历三个阶段:获取 HTML，获得 HTML 树，然后从树中提取信息。

作者图片(使用 Canva 制作)

我们将使用请求库从特定的 URL 获取 HTML 代码。然后，我们将使用 BeautifulSoup 来解析和提取 HTML 树，最后，我们将使用纯 Python 来组织数据。

基本 HTML

在我们开始之前，让我们快速复习一下 HTML 基础知识。HTML 中的一切都是在标签中定义的。最重要的标签是，这意味着后面的文本是 HTML 代码。

在 HTML 中，每个打开的标签都必须关闭。所以，在 HTML 文件的末尾，我们需要一个结束标签

作者图片(使用 Canva 制作)

HTML 中不同的标签意味着不同的东西。使用标签的组合来表示网页。任何包含在开始和结束标签之间的文本被称为内部 HTML 文本。

如果我们有多个具有相同标签的元素，我们可能——实际上，总是——想要以某种方式区分它们。有两种方法可以做到这一点，要么使用类，要么使用 id。id 是唯一的，这意味着两个元素不能有相同的 id。另一方面，类不是。多个元素可以有相同的类。

这里有 10 个你在浏览网页时会经常看到的 HTML 标签。

作者图片(使用 Canva 制作)

基本刮削

太棒了，现在我们知道了基础知识，让我们从小做起，然后逐步积累！

我们的第一步是通过在命令行中键入以下内容来安装 BeautifulSoup。

pip install bs4

为了熟悉抓取基础知识，我们将考虑一个示例 HTML 代码，并学习如何使用 BeautifulSoup 来探索它。

BeautifulSoup 不从网络上获取 HTML，但是它非常擅长从 HTML 字符串中提取信息。

为了在 Python 中使用上述 HTML，我们将它设置为一个字符串，然后使用不同的 BeautifulSoup 来探索它。

注意:如果您正在使用 Jupyter Notebook 来跟踪这篇文章，您可以键入以下命令在笔记本中查看 HTML。

from IPython.core.display import display, HTML
display(HTML(some_html_str))

例如，上面的 HTML 看起来会像这样:

接下来，我们需要将这个 HTML 馈送给 BeautifulSoup，以便生成 HTML 树。HTML 树是 HTML 代码不同层次的表示，它显示了代码的层次结构。

上面代码的 HTML 树是:

图片由作者提供(使用 Canva 制作)

为了生成树，我们编写

some_html_str = """
<HTML>
    <HEAD>
        <TITLE>My cool title</TITLE>
    </HEAD><BODY>
    <H1>This is a Header</H1>
    <ul id="list" class="coolList">
        <li>item 1</li>
        <li>item 2</li>
        <li>item 3</li>
    </ul>
</BODY>
</HTML>
"""
#Feed the HTML to BeautifulSoup
soup = bs(some_html_str)

变量soup现在有了从 HTML 字符串中提取的信息。我们可以使用这个变量从 HTML 树中获取信息。

BeautifulSoup 有许多函数可以用来提取 HTML 字符串的特定方面。不过，两个函数用得最多:find和find_all.

作者图片(使用 Canva 制作)

函数find只返回搜索查询的第一个匹配项，而find_all返回所有匹配项的列表。

比方说，我们正在搜索代码中的所有

头。

如你所见，find函数给了我< h1 >标签。标签什么的。通常，我们只想提取内部的 HTML 文本。为此，我们使用.text。

这仅仅是因为我们只有一个

标签。但是如果我们想寻找列表项呢——在我们的例子中，我们有一个包含三项的无序列表——我们不能使用`find`。如果我们这样做，我们只会得到第一项。

为了找到所有的列表项，我们需要使用find_all。

好了，现在我们有了一个项目列表，让我们回答两个问题:

1-如何获取列表项的内部 HTML？

为了只获得内部文本，我们不能使用。文本，因为现在我们有了一个元素列表，而不仅仅是一个。因此，我们需要遍历列表并获取每个列表项的内部 HTML。

2-如果我们在代码中有多个列表怎么办？

如果我们在代码中有不止一个列表——这是通常的情况——我们可以精确地搜索元素。在我们的例子中，列表有 id='list '和 class='coolList '。我们可以通过find_all 或find函数使用这两个或一个函数来精确获取我们想要的信息。

这里需要注意的一点是find或find_all函数的返回是漂亮的一组对象，它们可以被进一步遍历。因此，我们可以像直接从 HTML 字符串中获取对象一样对待它们。

本节的完整代码:

我们可以使用其他漂亮的组函数遍历 HTML 树，比如children、parent、next等。

作者图片(使用 Canva 制作)

抓取一个网页

让我们考虑一个更现实的例子，我们从一个 URL 获取 HTML，然后使用 BeautifulSoup 提取模式和数据。

我们将从获取一个网页开始。我喜欢咖啡，所以让我们试着通过咖啡生产获取列出国家的维基百科页面，然后使用 Pygal 绘制这些国家。

[## 用 Pygal 实现 Python 中的交互式数据可视化

一步一步的教程，创造惊人的可视化

towardsdatascience.com](/interactive-data-visualization-in-python-with-pygal-4696fccc8c96)

为了获取 HTML，我们将使用请求库，然后将获取的 HTML 传递给 BeautifulSoup。

如果我们打开这个 wiki 页面，我们会发现一个大表格，上面有各个国家和不同的咖啡产量指标。我们只想提取国家名称和咖啡产量吨。

为了提取这些信息，我们需要研究页面的 HTML，以知道要查询什么。我们可以只突出显示一个国家名称，右键单击，然后选择检查。

通过检查页面，我们可以看到国家名称和数量都包含在“table”标签中。由于它是页面上的第一个表，我们可以使用find函数来提取它。

然而，直接提取表格会给我们所有的表格内容，包括表头(表格的第一行)和不同度量的数量。

所以，我们需要微调我们的搜索。让我们与排名前 10 的国家一起尝试一下。

注意，为了清理结果，我使用了字符串操作来提取我想要的信息。

[## Python 中所有字符串格式的指南

关于 Python 中格式化字符串的五种方法，您只需要知道

towardsdatascience.com](/a-guide-to-everything-string-formatting-in-python-e724f101eac5)

我可以使用这个列表最终用 Pygal 绘制出前 10 个国家。

十大咖啡生产国

本节的完整代码:

抓取多个网页

哇，太多了！😃

但是，我们还没有写代码，碎片不同的网页。

在这一部分，我们将删除维基页面上的有史以来最好的 100 本书，然后我们将根据它们的类型对这些书进行分类。试着看看我们是否能找到流派和列表之间的关系——哪种流派表现得最好。

维基页面包含了这 100 本书的链接以及它们的作者。我们希望我们的代码导航列表，进入图书 wiki 页面，提取诸如流派、名称、作者和出版年份等信息，然后将这些信息存储在 Python 字典中——您也可以将数据存储在 Pandas 框架中。

因此，要做到这一点，我们需要几个步骤:

获取主 URL HTML 代码。
将 HTML 输入 BeautifulSoup。
从列表中提取每本书，并获得每本书的 wiki 链接。
获取每本书的数据。
获取所有书籍数据，整理并绘制最终结果。

让我们开始吧…

步骤#1:获取主 URL HTML 代码

url = '[https://en.wikipedia.org/wiki/Time%27s_List_of_the_100_Best_Novels'](https://en.wikipedia.org/wiki/Time%27s_List_of_the_100_Best_Novels')
page = rq.get(url).text

第二步:将 HTML 输入到 BeautifulSoup

soup = bs(page)

步骤#3:从列表中提取每本书，并获得每本书的维基链接

rows = soup.find('table').find_all('tr')[1:]
books_links = [row.find('a')['href'] for row in rows]
base_url = '[https://en.wikipedia.org'](https://en.wikipedia.org')
books_urls = [base_url + link for link in books_links]

步骤#4:获取每本书的数据

这是最漫长也是最重要的一步。我们首先只考虑一本书，假设它是列表中的第一本书。如果我们打开这本书的 wiki 页面，我们会在屏幕右侧的表格中看到这本书的不同信息。

浏览 HTML，我们可以看到所有的东西都存储在哪里。

为了使事情变得更容易和更有效，我编写了自定义函数来从该书的 wiki 中提取不同的信息。

现在，我们有了这些很酷的函数，让我们写一个函数来使用这些函数，这将帮助我们实现自动化。

在这个函数中，我使用了 try..除了格式，以避免崩溃，如果书的一些信息丢失。

步骤#5:获取所有书籍数据，清理并绘制最终结果

我们已经拥有了自动化代码并运行它所需的一切。

最后要注意的一件事:废弃维基百科是合法的，然而，他们不喜欢你每秒废弃一页以上。因此，我们需要在每次获取之间添加暂停，以避免破坏服务器。

数据收集完毕！这需要 100 秒才能完成，所以在你等待的时候，请随意做些别的事情😉

最后，让我们清理数据，获得流派计数，并绘制结果。

我们完了。

我不得不说，收集数据并不总是 100%准确，正如你在图中看到的，最长的柱属于“无”值。这意味着两件事之一

要么是维基页面没有包括这本书的类型。
或者，这本书的代码与其他书不同。

这就是为什么在自动化数据收集后，我们经常检查奇怪和不寻常的结果，并手动重新检查它们。

结论

网络搜集是数据科学家需要的基本技能之一。没有比使用 Python、Requests 和 BeautifulSoup 更简单的了。

我们永远不能相信完全自动化，有时我们需要手动检查最终结果，重新检查异常信息。

图书部分的完整代码:

Python 中群组分析的分步介绍

原文：https://towardsdatascience.com/a-step-by-step-introduction-to-cohort-analysis-in-python-a2cbbd8460ea?source=collection_archive---------0-----------------------

来源: Unsplash

学习如何进行群组分析，以更好地了解顾客的行为

群组分析是一种非常有用且相对简单的技术，有助于获得关于任何企业客户/用户行为的有价值的见解。为了进行分析，我们可以关注不同的指标(取决于业务模式)——转化率、留存率、产生的收入等。

在本文中，我提供了群组分析的简要理论介绍，并展示了如何在 Python 中实现它。

队列分析导论

让我们从基础开始。一个群组是一群有共同之处的人，比如某个 app 的注册日期，第一次购买的月份，地理位置，获取渠道(有机用户，来自效果营销等。)等等。在群组分析中，我们随着时间的推移跟踪这些用户群，以识别一些共同的模式或行为。

在进行群组分析时，考虑我们正在跟踪的指标和业务模式之间的关系至关重要。根据公司的目标，我们可以关注用户保留率、转换率(注册付费版本的服务)、产生的收入等。

在本文中，我将讨论用户保持的情况。通过了解用户保持率，我们可以推断客户的粘性/忠诚度，并评估业务的健康状况。重要的是要记住，不同企业之间的预期保留值差异很大，一年购买 3 次对一个零售商来说可能很多，而对另一个零售商来说可能太少。

留住客户对任何企业都至关重要，因为留住现有客户(通过使用 CRM 工具、会员折扣等)要便宜得多。)而不是获得新的。

此外，群组分析还可以帮助观察产品变化对用户行为的影响，无论是设计变化还是全新的功能。通过观察这些群体在一段时间内的行为，我们可以或多或少地观察到我们的努力是否对用户产生了一些影响。

现在这应该是足够的理论了，让我们来看看现实生活中的例子。

设置

在本文中，我们将使用以下库:

数据集

我们将使用从 UCI 机器学习库下载的数据集，该库是不同种类数据集的绝佳来源。它们已经根据可用于机器学习的领域进行了标记:

监督(回归/分类)，
无监督(聚类)。

你可以在这里找到数据集。或者，您可以使用以下代码行直接从 Jupyter 笔记本下载数据:

!wget [https://archive.ics.uci.edu/ml/machine-learning-databases/00352/Online%20Retail.xlsx](https://archive.ics.uci.edu/ml/machine-learning-databases/00352/Online%20Retail.xlsx)

该数据集可以简单描述为:“这是一个跨国数据集，包含了一家总部位于英国的注册无店铺在线零售商在 2010 年 1 月 12 日至 2011 年 9 月 12 日之间发生的所有交易。该公司主要销售独特的适合各种场合的礼品。公司的很多客户都是批发商。”

接下来，我们从 Excel 文件中加载数据。

加载的数据如下所示:

我们还使用df.info()检查了数据帧，看看是否有丢失的值。至于分析，由于我们需要客户 id，我们删除了所有没有客户 id 的行。

df.dropna(subset=['CustomerID'], inplace=True)

为了完整起见，我们还做了一个非常快速的 EDA，重点是用户。EDA 始终是任何分析的一个非常重要的步骤，因为我们会发现我们正在处理的数据集的细节。

我们首先检查数字变量的分布——数量和单价。

df.describe().transpose()

从上表中，我们可以看到存在数量为负的订单，这很可能是退货。总的来说，大约有 9000 个负数量的采购。我们将它们从数据集中移除。这就引入了一种偏差，因为我们包含了初始订单并删除了退货，这样初始订单就被考虑在内，即使理论上它没有实现也没有产生收入。但是，为了简单起见，我们保留初始订单，至于保留率(表示客户参与度)等指标，这仍然是一个有效的假设。

然后，我们计算一个聚合指标，表明每个客户下了多少订单。

使用上面的代码，我们可以得出 65.57%的客户订购了不止一次。这已经是一条有价值的信息，因为客户似乎下了多个订单。这意味着至少会有一些保留。鉴于数据集没有注册/加入日期，如果大多数用户只下了一个订单，这将是有问题的，但我们稍后将回到这个问题。

此外，我们查看每个客户订单数量的分布。为此，我们可以重用之前聚合的数据(n_orders)并将数据绘制在直方图上。

运行代码会生成以下图形:

有一些不常见的客户案例，他们订购了 50 次以上。

断代分析

我们在本例中使用的数据集不包含客户注册日期，即他们向零售商注册的日期。这就是为什么我们假设他们所属的群组是基于第一次购买日期的。这种方法的一个可能的缺点是，数据集不包含过去的数据，我们在这个快照(2010 年 1 月 12 日至 2011 年 9 月 12 日之间)中已经看到的数据包括重复出现的客户。换句话说，我们在这个数据集中看到的第一次购买可能不是给定客户的实际第一次购买。但是，如果不能访问零售商的整个历史数据集，就无法对此做出解释。

第一步，我们只保留相关的列并删除重复的值——一个订单(由InvoiceNo表示)可以包含多个项目(由StockCode表示)。

第二步，我们创建cohort和order_month变量。第一个指示基于第一次购买日期的每月群组(按客户计算)。后一个是购买日期的截断月份。

然后，我们根据cohort和order_month汇总数据，并计算每组中独立客户的数量。此外，我们添加了period_number，它指示群组月份和购买月份之间的周期数。

下一步是以这样一种方式透视df_cohort表，即每行包含关于给定群组的信息，每列包含某个时间段的值。

为了获得保留矩阵，我们需要将每行的值除以该行的第一个值，这实际上是群组大小——在给定月份中第一次购买的所有客户。

最后，我们将保留矩阵绘制成热图。此外，我们希望包括关于队列规模的额外信息。这就是为什么我们实际上创建了两个热图，其中一个指示群组大小的热图使用的是纯白色的色图——没有任何颜色。

最终结果是以下保留矩阵:

在图中，我们可以看到在第二个月(指数为 1)已经出现了大幅下降，*均约 80%的客户在第二个月没有进行任何购买。第一组(2010-12)似乎是个例外，与其他组相比，表现出人意料地好。第一次购买一年后，有 50%的保留。这可能是一群忠诚的顾客，他们最初加入*台是基于与零售商已经存在的一些联系。然而，仅从数据来看，这很难准确解释。

在整个矩阵中，我们可以看到保留时间的波动。这可能是由业务的特点造成的，客户会定期购买，随后会有一段时间不活动。

结论

在本文中，我展示了如何使用 Python 的pandas和seaborn进行群组分析。在路上，我做了一些简化的假设，但这主要是由于数据集的性质。当在一个公司的真实场景中工作时，我们会对业务有更多的了解，并能从分析中得出更好、更有意义的结论。

你可以在我的 GitHub 上找到本文使用的代码。一如既往，我们欢迎任何建设性的反馈。你可以在推特或评论中联系我。

喜欢这篇文章吗？成为一个媒介成员，通过无限制的阅读继续学习。如果你使用这个链接成为会员，你将支持我，不需要额外的费用。提前感谢，再见！

我最*出版了一本关于使用 Python 解决金融领域实际任务的书。如果你有兴趣，我贴了一篇文章介绍这本书的内容。你可以在亚马逊或者 Packt 的网站上买到这本书。

Giraffle 的逐步介绍

原文：https://towardsdatascience.com/a-step-by-step-introduction-to-giraffle-b23fd19d4b53?source=collection_archive---------43-----------------------

如何以编程方式在 TigerGraph 上创建图形

照片来自 Unsplash 由 Charl Durand 拍摄

为什么要用长颈鹿？

Giraffle 由 Joshua Meekhof 创建，是一种在 TigerGraph 中以编程方式创建图形的方法。当与许多团队成员一起处理一个图表项目时，将我们的图表写在代码中会使协作更容易。此外，在协作空间中，如果有人不小心丢失了全部或部分数据，您的模式和查询都会被保存并可重用。总的来说，通过以编程方式创建图形，Giraffle 可以帮助简化与 TigerGraph 中的图形的协作。

开始的步骤

在这篇博客中，我们将讨论:

在 TigerGraph 上创建解决方案
设置 Giraffle
创建模式
加载数据
创建查询

到这篇博客结束时，你将知道足够用 Giraffle 创建你自己的项目！如果你遇到困难或困惑，GitHub 链接在博客的最后，供你参考。

另外， Jon Herke 创建了一个博客来帮助 Giraffle 入门，而 Ramki Pitchala 写了一个关于迁移到 Giraffle 的博客。我强烈建议你也去看看那些博客！

步骤 1:在 TigerGraph 上创建一个解决方案

首先，我们需要在 TigerGraph 上运行一个解决方案。你需要去 TigerGraph Cloud 。如果您还没有帐户，请创建一个。另一方面，请访问解决方案。

点击我的解决方案(图片由作者提供)

接下来，点击右上角的Create Solution。

创建解决方案

点击第一部分的空白。

(图片由作者提供)

不要更改第二部分的任何内容，只需点击Next。

在第三部分中，您可以对其进行命名、标记、添加密码、创建子域以及添加描述。其中，确保你记得你的密码和子域。

键入名称、解决方案、密码、子域和描述。(图片由作者提供)

请注意，每个子域必须是唯一的。因此，你可能会或可能不会得到子域blog。

单击下一步，然后提交。接下来你需要等待它，因为它可能需要几分钟来加载。加载后，通过按 Solution Operations(蓝框)和 start 来启动您的解决方案。加载可能需要一段时间

按下蓝框，开始。(图片由作者提供)

恭喜你。现在，您的解决方案已经开始运行了！

步骤 2:设置 Giraffle

首先，确保你已经在电脑上安装了 gradle。您可以使用命令gradle检查您是否已经升级。然后，键入以下命令:

gradle init

在接下来的两个选项中，键入 1 和 2。你可以给这个项目起任何你喜欢的名字。

键入 1(基本)，然后键入 2 (Kotlin)(图片由作者提供)

您将看到您将在目录中获得几个文件夹。

创建的文件夹(图片由作者提供)

从这里，去build.gradle.kts。将其更新为:

import com.optum.giraffle.tasks.*
import com.optum.giraffle.*
plugins {
    id("com.optum.giraffle") version **"1.3.4.1"**
    id("net.saliman.properties") version "1.5.1"
}
repositories {
    jcenter()
}

请注意 1.3.4.1，因为这是最新版本！没有正确的版本，您的代码可能会生成，也可能不会生成。

如果gradle build跑成功了，你就厉害了！接下来，在您的终端中，记住第一步中的子域，键入:

gradle gsqlNewProject --console=plain

按照步骤，填写子域等。

我的图是 GiraffleBlog，我的子域是 blog.i.tgcloud.io。我使用默认的用户名和密码。最后，我没有使用多种环境，而是使用 Kotlin。(图片由作者提供)

接下来，我们需要创建一个证书。要生成一个，请使用以下命令:

openssl s_client -connect SUBDOMAIN.i.tgcloud.io:14240 < /dev/null 2> /dev/null | openssl x509 -text > cert.txt

对我来说，应该是:

openssl s_client -connect blog.i.tgcloud.io:14240 < /dev/null 2> /dev/null | openssl x509 -text > cert.txt

如果所有运行都没有错误，那么您已经完成了存储库的设置。现在你应该可以开始开发了！

步骤 3:创建一个模式

您首先需要创建一个模式。一个模式就像一个地图，显示了图形将会有什么。在db_scripts/schema中，创建schema.gsql。

在该文件中，我将在这里创建一个非常基本的模式:

CREATE VERTEX Blog(primary_id title STRING) WITH primary_id_as_attribute="true"CREATE VERTEX Person(primary_id name STRING) WITH primary_id_as_attribute="true"CREATE UNDIRECTED EDGE BLOG_CREATOR(FROM Blog, TO Person) CREATE GRAPH @graphname@(Blog, Person, BLOG_CREATOR)

我们有两个顶点叫做 Blog 和 Person，它们通过一条叫做“BLOG_CREATOR”的边连接在一起。

将您的build.gradle.kts更新为:

这是我们将要构建的构建函数的模板。

我们来破解密码。本文档提供了供您运行的任务。例如:

register<GsqlTask>("createSchema") {        
     scriptPath = "schema/schema.gsql" // Where the schema is
     useGlobal = true 
     group = schemaGroup // The group the task is associated with
     description = "Runs gsql to create a schema" // Description of the task
}

对于createSchema，如果您以任何不同的方式命名您的模式文件，您可以更改脚本路径。然后它有一个描述和一个组。它应该可以编译，但是，为了仔细检查，您可以运行gradle tasks。

接下来，我们将更新我们的gradle-local.properties。将文件更新为以下内容(填写您的详细信息):

gHost=SUBDOMAIN.i.tgcloud.iogAdminUserName=INSERT_YOUR_ADMIN_USERNAMEgAdminPassword=INSERT_YOUR_ADMIN_PASSWORDgUserName=INSERT_YOUR_USERNAMEgPassword=INSERT_YOUR_PASSWORDgGraphName=GRAPH_NAMEgCertPath=cert.txtgHostUriType=httpsgRestPort=9000

(注意:如果您完全按照说明进行，用户名/密码的默认值是 tigergraph。如果您自定义设置了用户名或密码，请将其更改为您的用户名和密码。将第一步中的子域插入 gHost。gGraphName 是您希望图形使用的名称。)

接下来，我们将把我们的模式上传到云中。为此，请前往https://tgcloud.io/app/solutions。点按“应用程序”(带有四个形状的蓝色按钮)，然后点按“GraphStudio”。

按下应用程序按钮，然后单击 GraphStudio 启动它。(图片由作者提供)

现在，回到您的终端，我们将使用我们添加的 createSchema 命令。键入:

gradle createSchema

您应该得到一个显示成功的输出。如果出现任何其他错误，可能是出了问题。(图片由作者提供)

如果它工作，你的输出应该像上面一样。最后，如果您转到 GraphStudio 并点击 Design Schema，您应该能够看到您的模式。

Graph Studio 中的模式(图片由作者提供)

恭喜你！您已经创建并加载了您的模式！

步骤 4:加载数据

接下来，我们将把实际数据加载到图表中。我将创建一个充满作者姓名和博客的 CSV。

在主目录下创建一个名为data的文件夹(应该和db_scripts在同一层，但不在里面。在data文件夹中，创建data.csv，并添加以下数据:

AUTHOR,TITLE"John Smith", "Cool Things to do in Paris""Jack Paul", "101 Best Tourist Spots""Alice Walker", "101 Best Tourist Spots""Blake Coles", "Lessons Learned from a Dog""Amelia-Rose Kim", "Cool New Places""Taha Wardle", "An Awesome Guide to Awesomeness""Bella Bloom", "Cool Things to do in Paris""Nakita Talbot", "Why Learn French?""Kaison Reilly", "Why Learn Spanish?""Philippa Palacios", "Five Habits of Successful People""Pawel Medrano", "101 Best Tourist Spots""Jasper Franklin", "Cool New Places""Abid Little", "How to Love Yourself""John Smith", "Cool Things to do in Lorraine""Alice Walker", "Five Habits of Successful People"

接下来，在db_scripts/load中，创建一个名为loadData.gsql的新文件。在该文件中，添加以下代码:

drop job loadData // deletes past load job called loadDatacreate loading job loadData for graph @graphname@ { // creating a load job called loadData define filename f1; // set the file load f1 // loads the file to vertex Blog values($1), // loads data from the 2nd column in the CSV to the vertex Blog to vertex Person values($0), // loads data from the 1st vertex to vertex Person to edge CREATOR values($1, $0) // connects all data from the 2nd column with the data from the 1st column using header="false", separator=","; // Comma separator, not using headers}

为此，我们创建了一个名为loadData的加载作业。如果您想创建更多的加载作业，将其他文件添加到db_scripts/load，并用您的加载作业名称替换loadData。

接下来，在您的build.gradle.kts中，在tasks {下，添加

register<GsqlTask>("createLoadData"){ scriptPath = "load/loadData.gsql" // Call the file you have the load job in. group = loadingGroup description = "Loads our data"}register<HttpTask>("loadData") { group = loadingGroup description = "Load data via the REST++ endpoint" post { httpConfig -> httpConfig.request.uri.setPath("/ddl/${gGraphName}") httpConfig.request.uri.setQuery( mapOf( "tag" to "loadData", "filename" to "f1", "sep" to ",", "eol" to "\n" ) ) httpConfig.request.setContentType("text/csv") val stream = File("data/data.csv").inputStream() // If your data file was called anything else, you can change the File(""). httpConfig.request.setBody(stream) }}

这里，我们创建两个任务:一个创建或“构建”文件，另一个将数据加载到图表中。

在将我们的更改加载到图表之前，我们需要生成一个秘密。进入 GraphStudio 并点击右上角的Admin按钮。点击后，点击左侧栏中的User Management。

你应该在这里结束。(图片由作者提供)

最后，在标有 Create Secret 的框下，点击橙色的Create按钮并复制密码。

在gradle-local.properties中，添加一个新字段:

gSecret=SECRET_YOU_COPIED

要运行，只需:

gradle createLoadData
gradle loadData

您的终端输出应该如下所示。(图片由作者提供)

最后可以去 Graph Studio。转到Load Data以确保所有东西都已装载。

注意右边顶点和边的数字。因为它们不全是 0，我们的数据加载！(图片由作者提供)

接下来去Explore Graph看看数据。您可以选取几个顶点并双击它们，以探索与其连接的其他顶点。

探索图表的一些结果(图片由作者提供)

步骤 5:创建查询

最后，我们可以使用查询来分析数据。在db_scripts/queries中，用以下内容创建一个名为selectAll.gsql的文件:

drop query selectAllcreate query selectAll (STRING auth) for graph @graphname@ { ListAccum<EDGE> @@edgelist; People = {Person.*}; author = select s
              FROM People:s -() -:t
              where s.name == auth; blogs = select c
              from People:s -(BLOG_CREATOR:e) -Blog:c
              where s.name == auth ACCUM @@edgelist+=e;

     print author; print blogs; PRINT @@edgelist;}install query selectAll

接下来，在与加载任务相同的区域中，您需要为build.gradle.kts(在tasks部分中)中的查询添加一个任务。您应该添加以下内容:

register<GsqlTask>("createQuerySelectAll") { scriptPath = "query/selectAll.gsql" group = queryGroup description = "Creates a select all"}

最后，要将查询推送到解决方案，运行:

gradle createQuerySelectAll

转到 GraphStudio，转到查询，您应该会找到 selectAll。

注意左上角附*的 selectAll。(图片由作者提供)

您可以单击 selectAll，按顶部的 play 按钮，然后它将运行查询并接收参数。现在，您可以运行自己的查询了！

接受查询的名称(图片由作者提供)

第六步:创建你自己的项目！

恭喜你！您现在知道了如何用 Giraffle 以编程方式创建图形。现在，您可以开始为自己的项目建模和查询数据了。祝你好运！

额外资源

博客回购:https://github.com/GenericP3rson/GiraffleBlog
TigerGraph 不和谐(如有问题):https://discord.com/invite/F2c9b9v

对 PCA 的逐步介绍

原文：https://towardsdatascience.com/a-step-by-step-introduction-to-pca-c0d78e26a0dd?source=collection_archive---------4-----------------------

关于如何使用 python 对数据集应用主成分分析的指南

鸢尾花。图片由 S. Hermann & F. Richter 从 Pixabay 拍摄。

在本文中，我将讲述如何解决对高维数据集(即每个样本都有大量测量值的数据集)进行可视化、分析和建模的问题。对于这种类型的数据集，很难确定要素之间的关系，也很难可视化它们之间的关系。将模型应用于高维数据集时，通常会导致过拟合，即不在训练集中的样本性能较差。

我今天要讨论的方法是一种无监督的降维技术，称为主成分分析，简称 PCA。在这篇文章中，我将讨论执行 PCA 的步骤。我还将使用 python 演示数据集上的 PCA。你可以在这里找到完整的代码脚本。执行 PCA 的步骤如下:

将数据标准化。
从数据集中计算要素的协方差矩阵。
对协方差矩阵执行特征分解。
根据相应特征值的大小，按降序对特征向量进行排序。
确定 k，即要选择的顶部主成分的数量。
从所选数量的顶部主成分构建投影矩阵。
计算新的 k 维特征空间。

选择数据集

为了使用示例演示 PCA，我们必须首先选择一个数据集。我选择的数据集是 Fisher 收集的虹膜数据集。

该数据集由来自三种不同类型鸢尾的 150 个样本组成:刚毛鸢尾、杂色鸢尾和海滨鸢尾。对于每个样本，数据集有四个测量值。这些测量值是萼片长度、萼片宽度、花瓣长度和花瓣宽度。为了访问这个数据集，我们将从 sklearn 库导入它:

from sklearn.datasets import load_iris

现在数据集已经导入，可以通过执行以下操作将其加载到数据框中:

iris = load_iris()
colors = ["blue", "red", "green"]
df = DataFrame(
    data=np.c_[iris["data"], iris["target"]], columns=iris["feature_names"] + ["target"]
)

既然数据集已经加载，我们可以像这样显示一些样本:

使用 df.sample 从数据集中选择一些样本(n=5)。

箱线图是可视化数据分布的好方法。可以使用以下方法创建一组箱线图:

df.boxplot(by="target", layout=(2, 2), figsize=(10, 10))

这给出了:

箱线图显示每种类型虹膜的每次测量值的分布。

箱线图向我们展示了许多细节，比如弗吉尼亚的花瓣长度中值最大。我们将在本文的后面回到这些箱线图。

使数据标准化

既然数据集已经加载，就必须为降维做准备。当所有特征都在同一尺度上时，大多数机器学习和优化算法的性能会更好。为了做到这一点，可以实施标准化方法。通过使用以下计算，特征值 xⁱ可以变成标准化的特征值 xⁱₛ:

其中，μₓ是特征列的*均值，σₓ是相应的样本方差。这导致特征值具有*均值 0 和标准偏差 1，因此具有与正态分布相同的参数。例如，对于具有从 0 到 5 的值的特征列，应用标准化将产生以下新值:

值从 0 到 5 被标准化的特征列的示例。

就我们的数据集而言，虹膜特征的标准化可以使用 sklearn 实现，如下所示:

X = StandardScaler().fit_transform(X)

计算协方差矩阵

协方差衡量两个要素之间的差异。正协方差表示要素同时增加和减少。反之，负协方差表示两个特征的变化方向相反。对于两个特征向量 xⱼ和 xₖ，它们之间的协方差σⱼₖ可以使用下面的等式来计算:

协方差矩阵包含要素之间的协方差值，形状为 d × d。因此，对于我们的数据集，协方差矩阵应如下所示:

由于特征列已被标准化，因此它们各自的均值为零，协方差矩阵σ可通过以下公式计算:

其中 Xᵗ是 x 的转置。如果你需要矩阵乘法如何工作的提示，这里的是一个很好的链接。

这可以用 python 实现，如下所示:

cov = (X.T @ X) / (X.shape[0] - 1)

执行特征分解

特征向量代表协方差矩阵的主要分量(最大方差的方向)。特征值是它们相应的大小。具有最大相应特征值的特征向量代表最大方差的方向。特征向量 v 满足以下条件:

其中λ是一个标量，称为特征值。手动计算是相当复杂的，可能是一个帖子本身。然而，如果你想知道更多，我推荐你看看这个视频。相反，我将使用 python 中的特征分解函数:

eig_values, eig_vectors = np.linalg.eig(cov)

这给出了协方差矩阵的特征向量(主分量)和特征值。

确定选择哪些主成分

既然已经计算了特征对，现在需要根据它们的特征值的大小对它们进行排序。这可以在 python 中通过执行以下操作来完成:

idx = np.argsort(eig_values, axis=0)[::-1]
sorted_eig_vectors = eig_vectors[:, idx]

既然已经根据主成分对应特征值的大小对主成分进行了排序，那么是时候决定选择多少主成分进行降维了。这可以通过绘制特征值的累积和来实现。累积和的计算方法如下:

上述公式可以计算并绘制如下:

cumsum = np.cumsum(eig_values[idx]) / np.sum(eig_values[idx])
xint = range(1, len(cumsum) + 1)
plt.plot(xint, cumsum)

plt.xlabel("Number of components")
plt.ylabel("Cumulative explained variance")
plt.xticks(xint)
plt.xlim(1, 4, 1)

该图显示了以下内容:

显示特征值累积和的图。

从图中，我们可以看到，超过 95%的方差包含在两个最大的主成分中。因此，选择前两个最大的主成分构成投影矩阵 w 是可以接受的。

计算转换

既然已经决定了有多少个主分量构成投影矩阵 W，则得分 Z 可以计算如下:

这可以在 python 中通过执行以下操作来计算:

eig_scores = np.dot(X, sorted_eig_vectors[:, :2])

绘制结果

现在数据集已经被投影到一个新的更低维度的子空间上，结果可以如下绘制:

def biplot(score, coeff, labels):
    xs = score[:, 0]
    ys = score[:, 1]
    n = coeff.shape[0]

    for i, u in enumerate(iris["target_names"]):
        xi = [
            score[j, 0] for j in range(score.shape[0]) if df["target"].tolist()[j] == u
        ]
        yi = [
            score[j, 1] for j in range(score.shape[0]) if df["target"].tolist()[j] == u
        ]
        plt.scatter(xi, yi, c=colors[i], label=u)
    for i in range(n):
        plt.arrow(
            0, 0, coeff[i, 0], coeff[i, 1], color="r", head_width=0.05, head_length=0.1
        )
        plt.text(
            coeff[i, 0] * 1.35,
            coeff[i, 1] * 1.35,
            labels[i],
            color="g",
            ha="center",
            va="center",
        )

plt.xlabel("PC{}".format(1))
plt.ylabel("PC{}".format(2))
plt.grid()

biplot(scores, sorted_eig_vectors, iris["feature_names"])
plt.legend()

这给出了:

绘制在二维特征空间上的虹膜样本。

从图中可以看出，versicolor 和 virignica 样品之间的距离较*，而 setosa 与它们之间的距离较远。如果你还记得上面的双标图，海滨锦鸡儿有最大的*均萼片长度、花瓣长度和花瓣宽度。然而，刚毛藻具有最高的*均萼片宽度。通过跟踪原始特征的轴可以看出这是正确的。

使用奇异值分解(SVD)计算 X 的替代方法

特征分解的一些缺点是计算量大，并且需要一个方阵作为输入。部分由于这些原因，寻找 PCA 的主成分的更流行的方法是使用奇异值分解(SVD)。SVD 将矩阵分解为满足以下条件的三个独立矩阵:

其中 U 是左奇异向量，V*是右奇异向量的复共轭，S 是奇异值。奇异值与从特征分解计算的特征值相关。SVD 的另一个有用特性是奇异值是数量级的，因此不需要重新排序。右奇异向量与通过特征分解得到的特征向量相同，因此 W=V。使用 python，矩阵的 SVD 可以如下计算:

u, s, vh = np.linalg.svd(X)

由此，现在可以计算分数:

svd_scores = np.dot(X, vh.T[:, :2])

从这些分数可以画出双标图，当使用特征分解时，将返回与上面相同的结果。查看代码了解全部细节。

摘要

在这篇文章中，我们讨论了 PCA，以及如何使用它来更清楚地了解数据集特征之间的关系，同时消除不必要的噪声。我们经历了每一步，也讨论了不同的计算方法。我希望这篇文章能对您未来的数据科学工作有所帮助。

原载于 2020 年 4 月 25 日 datasciencesamurai.com。

加入我的邮件列表，了解更多关于数据科学的知识。

处理预测分析问题的一步一步的过程

原文：https://towardsdatascience.com/a-step-by-step-process-to-deal-with-a-predictive-analytical-problem-bee174b68653?source=collection_archive---------33-----------------------

马库斯·斯皮斯克在 Unsplash 上的照片

W 什么是机器学习项目？什么是真正的预测分析问题陈述？我们该如何解决这个问题？这些问题将在本文中得到解答，一些新颖的问题将会被提出，这将有助于我们更好地理解和更准确地解决问题

基本上，使用一些以前的信息，对未来的预测是机器学习模型的基础。提取信息和生成趋势的过程被称为训练或建模，讲述未来被称为预测。ML 模型包括各种步骤，如探索性数据分析、处理数据、特征工程、训练、预测、模型评估，以及我们如何改进我们的性能。我们将经历创建任何模型的非常基本的结构，并理解基本术语的含义。

数据

通常，我们的数据集是以一个 CSV (逗号分隔文件)或一个 Excel 文件或一个文本文件或图像和声音的形式给出的。

例如， CVS 文件或 Excel 文件有行和列。行基本上是一个观察，列是决定我们目标的特征。对于其他类型，我们需要通过一些规定的方法来提取特征信息，如定义图像包含像素值的三维矩阵，该矩阵可以转换为二维矩阵，用于训练深度学习模型。

但是为了方便起见，让我们考虑一下我们想要预测房价，你认为影响房价的基本因素是什么？(将在文章后面回答)

第一步:问题陈述

非常非常仔细地阅读问题陈述。大多数人和不成功的数据科学家都会犯这个错误。阅读问题是非常关键的一步，因为从中可以提取很多信息。

一旦你读完了，问自己这些基本问题

有什么问题？
为什么需要解决这个问题
怎样才能解决问题？

我发现回答这些问题对于理解这个问题非常重要。我们可以使用有史以来最好的算法来获得最高的准确性，但如果我们解决了错误的问题，这将毫无意义。

这些问题不仅会向我们介绍一个问题，还会帮助我们理解和验证收集的数据，并改进结果。

步骤 2:假设生成

一旦你阅读了问题陈述，是时候利用我们的知识和经验来列出目标变量所依赖的因素了。这是一种头脑风暴。它让我们知道哪些因素是重要的，而哪些不是，这可以在稍后的 EDA 部分中证明。我们在预测房价。那么，它依赖于什么？可能是位置，大小，房子的年龄，房间的数量，中央空调的存在，停车场的可用性，该地区的人口密度，等等。也许房子的颜色也很重要？嗯，这些答案都可以找出来。

人们应该钦佩这一步是多么重要。这个过程是初学者的必经过程。在第一步，这不是准确性，我们的意图应该是成为一个好的数据科学家，而不仅仅是一个问题解决者！

第三步:阅读和理解

阅读你的数据，让自己适应它。阅读你的数据的中心趋势。问问自己什么是连续特征，什么是分类特征，是否有任何缺失值，涉及什么数据类型等。

步骤 4:探索性数据分析(EDA)

有两种类型的可视化分析，即单变量分析和双变量分析，

单变量分析:

它由一次一个特征的可视化组成。这些可以用来了解我们的连续特征是如何分布的，有没有异常值或者缺失值？对于分类特征，我们可以提取每个类别的数量。主要是，直方图和箱线图用于连续特征的情况，而计数图用于分类数据。

双变量分析:

当我们用目标变量来检验每个特征的趋势时，我们称之为双变量分析。数据是如何关联的，每个特征对目标变量的影响是什么，这些都是分析中回答的基本问题。
在对不同的特征、趋势和模式对进行双变量分析时，可以生成缺失值的插补。
对于连续-连续特征，我们使用散点图。它告诉我们特征之间的线性关系有多强。对于连续分类，我们使用 violin 图，因为它们包含了特征的范围和分布。对于分类-分类，我们可以使用在 Pandas 库中预定义的跨表方法。

第五步:特征工程

这是建模过程中最具创造性和决定性的因素。但是由于每一个难题都可以被分解成更小的简单问题，这也可以制定为两个主要部分，即。特征生成和编码。

特征生成是从现有特征生成新特征的过程。例如，给出一个字符串日期特征，可以提取关于年和月的信息。另一个很好的例子是，当预测一个商场的销售额时，价格和重量是可以给出的特征，我们可以生成新的特征，即每单位重量的价格。这有助于我们减少数据的维度，同时保持数据的质量。

在所有上述过程之后，我们的数据集已准备好进行模型构建，但问题是大多数机器学习算法无法读取诸如男性、女性、否、是等分类值。我们使用编码方法将它们转换成数值。这主要涉及标签编码、一键编码、计数编码等

步骤 6:建模和评估

这一步是关于机器学习算法的选择和我们的训练数据对它的拟合。选择算法取决于问题是分类的还是回归的，是有监督的还是无监督的。有各种型号可供选择。

线性算法:

梯度下降，线性回归，逻辑回归，线性判别分析

非线性算法:

分类和回归树，朴素贝叶斯，K *邻，学习矢量量化，支持向量机

集成算法:

装袋和随机森林、Boosting 和 AdaBoost

在使用算法将训练数据拟合到模型之后，我们对新数据进行一些预测，这对于模型来说是新的。

许多算法可以预测，但问题是哪一个是最好的？因此，我们需要评估我们的模型。目前，有各种方法来评估我们的模型，如 MSE、MAE、roc-curve、f1-score、log loss 等等。

Scikit Learn 的备忘单

下面的流程图旨在为用户提供一点粗略的指导，告诉他们如何处理关于使用哪些估计器来处理数据的问题。

来源:Scikit 学习算法备忘单:https://scikit-learn.org/stable/_static/ml_map.png

总结一下:

对于任何问题来说，这都是一个非常基础和幼稚的方法，但是对于初学者来说已经足够好了。一旦你掌握了这些步骤，并对预测建模有所了解，你可以从几个方面着手提高你的技能。

请分享你对这篇文章的看法，我很想听听！

进行情感分析的分步指南

原文：https://towardsdatascience.com/a-step-by-step-tutorial-for-conducting-sentiment-analysis-9d1a054818b6?source=collection_archive---------18-----------------------

由 Unsplash 上的hkon grim stad拍摄的照片

第 2 部分:用 TFIDF 矢量器转换文本数据

在我的上一篇文章中，我讨论了进行情感分析的第一步，即预处理文本数据。这个过程包括标记化、去除停用词和词条化。在本文中，我将讨论将“干净的”文本数据转换成稀疏矩阵的过程。具体来说，我将通过简单的例子讨论不同矢量器的使用。

在我们进入更多的技术之前，我想介绍两个在文本分析中广泛使用的术语。对于我们想要分析的文本数据集合，我们称之为语料库。一个语料库包含几个观察结果，如新闻文章、顾客评论等。这些观察结果中的每一个都被称为文档。从现在开始我将使用这两个术语。

转换步骤的作用是搭建一座桥梁，连接文本数据中携带的信息和机器学习模型。对于情感分析，要对每个文档进行情感预测，机器学习模型需要学习文档中每个唯一单词的情感得分，以及每个单词在那里出现的次数。例如，如果我们想要对某个产品的客户评论进行情感分析，在训练模型之后，机器学习模型更有可能从负面评论中提取像“糟糕”、“不满意”这样的词，而从正面评论中获得像“棒极了”、“棒极了”这样的词。

面对有监督的机器学习问题，为了训练模型，我们需要指定特征和目标值。情感分析是在解决一个分类问题，大多数情况下是一个二元分类问题，目标值定义为正和负。用于模型的特征是来自矢量器的转换的文本数据。不同的矢量器构造的特征也不同。在 Scikit Learn 中，有三个矢量器，CountVectorizer、TFIDFVectorizer 和 HashingVectorizer。我们先来讨论一下 CountVectorizer。

计数矢量器

CountVectorizer 使用单词包方法，该方法忽略文本结构，只从单词计数中提取信息。它会将每个文档转换成一个向量。向量的输入是这个文档中每个唯一单词的出现次数。当语料库中有 m 个文档，并且所有 m 个文档中有 n 个唯一单词时，CountVectorizer 会将文本数据转换为 m*n 稀疏矩阵。以下示例显示了计数矢量器的用法:

CountVectorizer 获取文档列表，并通过两步生成稀疏矩阵:拟合和转换。在拟合过程中，矢量器读入文档列表，计算语料库中唯一单词的数量，并为每个单词分配一个索引。对于上面的例子，我们可以看到这两个文档有六个不同的单词，我们根据字母顺序给它们分配了一个索引。请注意，您可以在这里指定停用字词来排除无用的字词。您可以使用默认列表，也可以自定义列表。或者如果已经对文本数据进行了预处理，就可以通过这一步。

下一步是转换拟合的数据。CountVectorizer 将计算每个文档中每个唯一单词的出现次数。这里我有两个文档和六个唯一的单词，因此我们将得到一个如上所示的 2*6 矩阵。为了更好地理解矩阵的元素，这里我有一个图表:

这里，行 id 与每个文档相对应，列 id 在匹配过程中跟随唯一单词的索引。例如，单词“day”在两个文档中都出现了，所以第一列输入是(1，1)。如果某个单词没有出现在文档中，则该单词在该文档行中的输入将为 0。随着文档数量的增加，矩阵变成稀疏矩阵，因为矩阵中会有更多的 0。

tfidf 矢量器

另一个更广泛使用的矢量器是 TFIDFVectorizer，TFIDF 是术语频率，逆文档频率的缩写。除了每个文档中的字数，TFIDF 还包括该单词在其他文档中的出现次数。具体来说，TFIDF 的计算公式如下:

其中 t_i，wj 是单词 wj 在文档 I 中出现的频率。通过检查等式，可以清楚地看到，第一项是计算术语频率，第二项是计算逆文档频率。第一项是评估单词 wj 在文档 I 中出现了多少次，用文档 I 的长度归一化。较高的词频率指示较高的 TFIDF 值，表明单词 wj 通过出现显著的次数而在文档 I 中扮演非常重要的角色。但是如果 wj 也出现在 I 之外的很多其他文档中，wj 的作用就会减弱，也就是说它是这个题目的常用词。这个过程被第二项捕获，第二项是 wj 出现的文档数除以文档总数的倒数。综合两种效果，文档 I 中 TFIDF 值高的一个词 wj，意味着 wj 在文档 I 中出现多次，在其他文档中只出现很少。

使用前一个示例的 TFIDF，区别如下:

我们可以看到每个元素的值都变小了，但是矩阵的形状还是一样的。

哈希矢量器

另一种常用的矢量器叫做哈希矢量器。它通常在处理大型数据集时使用。使用特征散列，散列矢量器是内存高效的，并确保大型数据集的更好的模型性能。在这篇文章里我不会讲太多细节，但是你可以在这里查阅更多信息。

附加功能输入

除了指定和定制停用词，我们还可以定制矢量器中的标记化功能。正如我在上一篇文章中所讨论的，在这里包含定制的 tokenize 函数会减慢矢量化过程。

在前面的例子中，我们正在构建只有单个单词的稀疏矩阵，我们可以通过包含二元模型来增加特征的数量。我们可以通过在函数中添加 ngram_range 来在函数中指定它。这里有一个例子:

通过包含 bigram，特性的数量从 6 个增加到 11 个。有时，当我们在文档中有“不错”这样的词时，包含 bigram 会提高模型性能。

您还可以在矢量函数中指定 min_df 和 max_df 。通过指定一个单词在不同的文档中出现多少次才能被认为是一个特征，我们过滤掉在语料库中不太常见的单词。此外，当设置一个单词在不同文档中出现的次数限制(max_df)时，我们忽略了太常见的内容，比如停用词。在不同场景中定制矢量器函数输入应该会提高模型性能。

了解矢量器的定制选项非常有用。更多选择，你可以访问每个矢量器的 sklearn 文档。为了确保最佳的模型性能，我们可以使用 GridSearchCV 来调整变压器的超参数。在我的下一篇文章中，我将讨论在我的项目中应用 TFIDF 的更多细节，并构造估计器。

感谢您的阅读！这是我所有博客帖子的列表。如果你感兴趣的话，可以去看看！

[## 我的博客文章库

我快乐的地方

zzhu17.medium.com](https://zzhu17.medium.com/my-blog-posts-gallery-ac6e01fe5cc3) [## 阅读朱(以及媒体上成千上万的其他作家)的每一个故事

作为一个媒体会员，你的会员费的一部分会给你阅读的作家，你可以完全接触到每一个故事…

zzhu17.medium.com](https://zzhu17.medium.com/membership)

进行情感分析的分步指南

原文：https://towardsdatascience.com/a-step-by-step-tutorial-for-conducting-sentiment-analysis-a7190a444366?source=collection_archive---------6-----------------------

科塞拉·博尔塔在 Unsplash 上的照片

第 1 部分:预处理文本数据

据估计，全球 80%的数据是非结构化的。因此，从非结构化数据中获取信息是数据分析的重要组成部分。文本挖掘是从非结构化的文本数据中获取有价值见解的过程，情感分析是文本挖掘的一个应用。它使用自然语言处理和机器学习技术从文本数据中理解和分类主观情绪。在商业环境中，情感分析广泛用于理解客户评论、检测电子邮件中的垃圾邮件等。本文是教程的第一部分，介绍了使用 Python 进行情感分析的具体技术。为了更好地说明这个过程，我将使用我的一个项目作为例子，在那里我对 WTI 原油期货价格进行新闻情绪分析。我将展示重要的步骤以及相应的 Python 代码。

一些背景信息

原油期货价格短期波动较大。虽然任何产品的长期均衡都是由供求状况决定的，但价格的短期波动反映了市场对该产品的信心和预期。在这个项目中，我使用原油相关的新闻文章来捕捉不断更新的市场信心和预期，并通过对新闻文章进行情绪分析来预测原油未来价格的变化。以下是完成此分析的步骤:

1、收集数据:网络抓取新闻文章

2、预处理文本数据(本文)

3、文本矢量化:TFIDF

4、使用逻辑回归的情感分析

5、使用 python flask web app 在 Heroku 部署模型

我将讨论第二部分，即本文中的文本数据预处理。如果您对其他部分感兴趣，请点击链接阅读更多内容(即将推出)。

预处理文本数据

我使用 NLTK、Spacy 和一些正则表达式中的工具对新闻文章进行预处理。要导入库并在 Spacy 中使用预构建的模型，您可以使用以下代码:

import spacy
import nltk# Initialize spacy ‘en’ model, keeping only component needed for lemmatization and creating an engine:nlp = spacy.load(‘en’, disable=[‘parser’, ‘ner’])

之后，我用熊猫来读取数据:

“Subject”和“Body”是我将对其应用文本预处理过程的列。我按照标准的文本挖掘程序对新闻文章进行预处理，从新闻内容中提取有用的特征，包括标记化、去除停用词和词条化。

标记化

预处理文本数据的第一步是将每一个句子分解成单个的单词，这就是所谓的标记化。采用单个单词而不是句子会破坏单词之间的联系。但是，这是一种用于分析大量文本数据的常用方法。通过检查什么词在文章中出现以及这些词出现了多少次，计算机分析文本数据是高效和方便的，并且足以给出有见地的结果。

以我的数据集中的第一篇新闻文章为例:

您可以使用 NLTK 标记器:

或者您可以使用 Spacy，记住 NLP 是上面定义的 Spacy 引擎:

需要将每个令牌改为字符串变量

在标记化之后，每篇新闻都将转化为一系列单词、符号、数字和标点符号。您可以指定是否要将每个单词都转换成小写。下一步是删除无用的信息。例如，符号、数字、标点符号。我将使用 spacy 结合正则表达式来删除它们。

import re#tokenization and remove punctuations
words = [str(token) for token in nlp(text) if not token.is_punct] #remove digits and other symbols except "@"--used to remove email
words = [re.sub(r"[^A-Za-z@]", "", word) for word in words]#remove websites and email address
words = [re.sub(r”\S+com”, “”, word) for word in words]
words = [re.sub(r”\S+@\S+”, “”, word) for word in words]#remove empty spaces 
words = [word for word in words if word!=’ ‘]

应用上述转换后，原始新闻文章看起来是这样的:

停用词

经过一些改造后，新闻文章更干净了，但我们仍然会看到一些我们不希望看到的词，例如，“和”，“我们”等。下一步是删除无用的词，即停用词。停用词是在许多文章中频繁出现但没有重要意义的词。停用词的例子有' I '，' the '，' a '，' of '。这些词如果被删除，将不会影响对文章的理解。要删除停用词，我们可以从 NLTK 库中导入停用词。除此之外，我还包括其他在经济分析中广泛使用的停用词列表，包括日期和时间，更一般的没有经济意义的词等。我是这样构造停用词列表的:

#import other lists of stopwords
with open(‘StopWords_GenericLong.txt’, ‘r’) as f:
 x_gl = f.readlines()
with open(‘StopWords_Names.txt’, ‘r’) as f:
 x_n = f.readlines()
with open(‘StopWords_DatesandNumbers.txt’, ‘r’) as f:
 x_d = f.readlines()#import nltk stopwords
stopwords = nltk.corpus.stopwords.words(‘english’)#combine all stopwords
[stopwords.append(x.rstrip()) for x in x_gl][stopwords.append(x.rstrip()) for x in x_n][stopwords.append(x.rstrip()) for x in x_d]#change all stopwords into lowercase
stopwords_lower = [s.lower() for s in stopwords]

然后从新闻文章中排除停用词:

words = [word.lower() for word in words if word.lower() not in stopwords_lower]

应用到前面的例子，它看起来是这样的:

词汇化

除去停用词、符号、数字和标点符号，每篇新闻文章都将转化为一系列有意义的单词。然而，要统计每个单词的出现次数，就必须去除语法时态，将每个单词转换为其原始形式。例如，如果我们想计算单词“open”在一篇新闻文章中出现了多少次，我们需要计算“open”、“opens”、“opened”的出现次数。因此，词汇化是文本转换的一个重要步骤。另一种将单词转换成原始形式的方法叫做词干提取。它们之间的区别如下:

词干化是将一个单词提取到它的原始词干中，词干化是提取一个单词的语言学词根。我选择词汇化而不是词干化，因为词干化之后，一些单词变得难以理解。为了解释的目的，引理比语言根更好。

如上所示，用 Spacy 实现引理化非常容易，这里我调用。引理 _ 函数从空间开始。在词汇化之后，每篇新闻文章都将转化为一个单词列表，这些单词都是它们的原始形式。新闻报道现在变成了这样:

总结步骤

让我们总结一个函数中的步骤，并在所有文章中应用该函数:

def text_preprocessing(str_input):      #tokenization, remove punctuation, lemmatization
     words=[token.lemma_ for token in nlp(str_input) if not         token.is_punct]

     # remove symbols, websites, email addresses 
     words = [re.sub(r”[^A-Za-z@]”, “”, word) for word in words] 
     words = [re.sub(r”\S+com”, “”, word) for word in words]
     words = [re.sub(r”\S+@\S+”, “”, word) for word in words] 
     words = [word for word in words if word!=’ ‘]
     words = [word for word in words if len(word)!=0] 

     #remove stopwords     
     words=[word.lower() for word in words if word.lower() not in     stopwords_lower] #combine a list into one string   
     string = “ “.join(words) return string

上面的函数 text_preprocessing()结合了所有的文本预处理步骤，这里输出的是第一篇新闻文章:

在推广到所有新闻文章之前，按照下面的代码，将它应用到随机的新闻文章中并看看它是如何工作的是很重要的:

import randomindex = random.randint(0, df.shape[0])
text_preprocessing(df.iloc[index][‘Body’])

如果有一些额外的词你想排除这个特定的项目或一些额外的多余信息你想删除，你可以随时修改该功能之前，适用于所有的新闻文章。这是一篇在标记化前后随机选择的新闻文章，去掉了停用词和词条。

预处理前的新闻文章

预处理后的新闻文章

如果一切正常，您可以将该功能应用于所有新闻文章:

df[‘news_cleaned’]=df[‘Body’].apply(text_preprocessing)
df[‘subject_cleaned’]=df[‘Subject’].apply(text_preprocessing)

一些言论

文本预处理是文本挖掘和情感分析中非常重要的一部分。有很多方法可以对非结构化数据进行预处理，使其对计算机可读，以便将来进行分析。下一步，我将讨论我用来将文本数据转换成稀疏矩阵的矢量器，以便它们可以用作定量分析的输入。

如果您的分析很简单，并且在预处理文本数据时不需要太多的定制，那么矢量器通常有嵌入式函数来执行基本步骤，比如标记化、删除停用词。或者，您可以编写自己的函数并在矢量器中指定自定义函数，这样您就可以同时对数据进行预处理和矢量化。如果您希望这样，您的函数需要返回一个标记化单词的列表，而不是一个长字符串。不过个人来说，我更倾向于先对文本数据进行预处理，再进行矢量化。通过这种方式，我不断地监控我的函数的性能，实际上这样更快，尤其是当你有一个大的数据集的时候。

我将在我的下一篇文章中讨论转换过程。感谢您的阅读！这是我所有博客帖子的列表。如果你感兴趣的话，可以去看看！

[## 我的博客文章库

我快乐的地方

zzhu17.medium.com](https://zzhu17.medium.com/my-blog-posts-gallery-ac6e01fe5cc3) [## 阅读朱(以及媒体上成千上万的其他作家)的每一个故事

作为一个媒体会员，你的会员费的一部分会给你阅读的作家，你可以完全接触到每一个故事…

zzhu17.medium.com](https://zzhu17.medium.com/membership)

进行情感分析的分步指南

原文：https://towardsdatascience.com/a-step-by-step-tutorial-for-conducting-sentiment-analysis-cf3e995e3171?source=collection_archive---------24-----------------------

马库斯·温克勒在 Unsplash 上的照片

第三部分:最后一步，应用逻辑回归

按照我以前文章中的步骤，我对文本数据进行了预处理，并且将“清理”后的数据转换为稀疏矩阵。请点击链接查看更多详情。

现在我正处于对 WTI 原油期货价格进行新闻情绪分析的最后阶段。在本文中，我将讨论逻辑回归的使用，以及我在项目中发现的一些有趣的结果。我这里有一些这个项目的背景介绍。

定义并构建目标值

正如我在以前的文章中简要讨论的那样，进行情感分析是通过机器学习模型和文本数据来解决分类问题(通常是二元的)。解决一个分类问题就是解决一个有监督的机器学习问题，在训练模型的时候既需要特征也需要目标值。如果是二元分类问题，目标值通常是正面情绪和负面情绪。它们是根据你的研究问题的上下文来分配和详细定义的。

以我的项目为例，我的项目的目的是从最*发布的新闻文章中预测原油期货价格的变化。我把好消息定义为预测价格上涨的消息，而坏消息则预测价格下跌。因为我已经收集并转换了文本数据，并将它们用作要素，所以现在需要为数据集分配目标值。

我的项目的目标值是不同新闻文章的价格变化方向。我从彭博收集了 WTI 原油期货收盘价的高频交易数据，每五分钟更新一次。我将数据绘制在下图中:

资料来源:彭博

数据是 2019 年最后一个季度的。价格有很多波动，但是没有明显的趋势，非常适合情绪分析。这里的价格数据是一个连续变量，我需要将它转换成一个带有二进制值的分类变量，以便进行情感分析。

假设金融市场是完全有效的，并且市场对新信息的反应足够快，我定义新闻对 WTI 原油期货价格的影响在新闻发布后的五分钟内得到反映。我建立了一个虚拟变量:如果一篇新闻文章发布后五分钟内价格上涨，价格虚拟变量将是 1。否则，如果价格下降或不变，虚拟价格将为零。在整个数据集的五分钟时间段内，价格几乎不可能保持不变。因此，当虚拟价格等于零时，意味着价格在新闻发布后的五分钟内下降。

对于每篇新闻文章，通过寻找发布后五分钟内的价格变化，本文将新闻和价格虚拟进行匹配。下图显示，通过比较价格上涨事件和价格下跌事件的数量，数据大致*衡:

引入逻辑回归

在构建目标值之后，我已经为每篇新闻文章准备好了文本特征(TFIDF 矢量化文本数据)和价格虚拟数据。现在我需要应用一个估计器来建立机器学习模型。解决二元分类问题的模型有很多，这里我选择的是 logistic 回归。

逻辑回归是一个线性分类器，它是一个线性函数的转换:

线性回归

其中 b0，b1…bn 是一组独立变量 x =(x_1，x_2…x_n)的回归系数的估计值。逻辑回归函数 p( x )是 f( x )的 sigmoid 函数:

sigmoid 变换

变换后 p( x )的值会在[0，1]之间，可以解释为一个概率。一般 p( x )解释为 x 在正类时的预测概率，1-p( x )是 x 在负类的概率。在本项目中，p( x )定义为新闻文章 I 发布后五分钟内 WTI 原油期货价格上涨的概率。

应用逻辑回归进行新闻情感分析，我将每篇新闻文章视为一个观察，将新闻文章中的内容视为特征，并通过以下等式估计β_w0，β_w1，… β_wj:

这里 I 代表每篇新闻文章作为观察，wj 是所有新闻文章中第 j 个唯一的词。在左边，Y_i 是上一节描述的价格变化虚拟值。具体而言，Y 的值由以下条件决定:

虚拟价格

在右边，第一项是一个稀疏矩阵，每行代表一篇新闻文章，每列代表一个独特的单词。在 4616 篇新闻文章中出现过超过 20，606 个独特的单词，它们表明了稀疏矩阵的形状。稀疏矩阵的每个值 X_{i，wj}被表示为每个新闻文章 I 中每个唯一单词 wj 的 TFIDF 值，有关 TFIDF 变换的更多详细信息，请查看我的上一篇文章。

实施逻辑回归

为了实现逻辑回归和训练模型，我首先将数据集分为训练集和测试集。“df['news']”这里是“干净的”新闻文章，“df['price']”是作为目标值的价格虚拟。为了找到最好的转换器和最好的估计器，我建立了一个机器学习管道，并使用 GridSearchCV 来找到最好的超参数。我在此附上代码供您参考:

#train and test split
X_train, X_test, y_train, y_test = train_test_split(df['news'], 
                                                    df['price'], 
                                                    random_state=0)#build a machine learning pipeline
est = Pipeline([(‘vectorizer’, TfidfVectorizer(lowercase=False)),
 (‘classifier’, LogisticRegression(solver=’liblinear’))])#GridSearchCV with a transformer and a estimator
parameters = {‘vectorizer__max_df’: (0.8,0.9), 
 ‘vectorizer__min_df’: [20,50,0.1],
 “classifier__C”:np.logspace(-3,3,7), 
 “classifier__penalty”:[“l1”,”l2"]}gs=GridSearchCV(est,param_grid=parameters)#fit the training data
gs.fit(X_train, y_train)#Evaluate the model
predictions = model.predict(vect.transform(X_test))
print('AUC: ', roc_auc_score(y_test, predictions))
AUC:  0.719221201684

如果没有指定，GridSearchCV 将寻找为模型评估生成最高精度的超参数。有时候，准确性不是评估模型的最佳指标，我们可能会使用其他指标。您可以通过在 GridSearchCV 函数中定义“计分”输入来指定它。对于如何选择合适的度量标准，我有一篇文章《模型评估分类度量标准终极指南》详细回答了这个问题。

我使用 AUC 作为我的模型度量，它在我的测试集中达到 0.71。鉴于我必须训练模型的观察数量(超过 4000 篇新闻文章)，我相信模型已经准备好部署了。

有趣的发现

按照前面的步骤，我估计了每个唯一单词的系数(βs)。总的来说，我得到了超过 20，000 个独特的单词，下面的图显示了每个独特的单词的β:

x 轴上的每个点代表从所有新闻文章中收集的一个独特的词，总共有 20606 篇。y 轴代表每个单词的符号和系数的大小。该图表明，大多数独特词本身对价格的影响非常有限，其系数非常接*于零。但是，有一些词的系数绝对值超过 0.5，它们在估计价格变化时非常具有预测性。

使用 Python 单词云函数，根据系数的值，我绘制了预测不同方向价格变化的最积极和最消极的单词。字体越大，表示预测价格变化的影响越大。

部署在 Heroku

在构建和评估模型之后，我将模型实现为 Flask web 应用程序，并将其部署在 Heroku:

在“新闻正文”框中，您可以粘贴任何新闻文章并按“提交”，然后模型将预测该新闻文章的情绪，即该新闻发布后价格上涨的概率。

构建 web 应用程序需要在线部署训练好的模型，并根据新的输入进行预测。除了用 Python 编码来构建机器学习模型和构造 flask app，还需要一些 web app 的 HTML 背景知识。以后我会写一个关于部署机器学习模型的教程。

在 web 应用程序中，也有一些关于我的项目的解释性数据分析和其他有趣的发现。请随意查看并在这里玩。

这都是为了进行情感分析。如果您有任何意见或问题，请随时联系我。感谢您的阅读！

这是我所有博客帖子的列表。如果你感兴趣的话，可以去看看！

[## 我的博客文章库

我快乐的地方

zzhu17.medium.com](https://zzhu17.medium.com/my-blog-posts-gallery-ac6e01fe5cc3) [## 阅读朱(以及媒体上成千上万的其他作家)的每一个故事

作为一个媒体会员，你的会员费的一部分会给你阅读的作家，你可以完全接触到每一个故事…

zzhu17.medium.com](https://zzhu17.medium.com/membership)

构建和部署影像分类 API 的分步教程

原文：https://towardsdatascience.com/a-step-by-step-tutorial-to-build-and-deploy-an-image-classification-api-95fa449f0f6a?source=collection_archive---------7-----------------------

从使用 Labelme 的数据注释到使用 FastApi+Docker 的部署的所有步骤

图恩·nguyễn·明在 Unsplash 上拍摄的照片

在这个小项目中，我们的目标是从头开始构建一个图像分类 API。
我们将经历实现这一目标所需的所有步骤:

数据注释(使用 Unsplash API + Labelme)
模型训练(使用 Tensorflow)
制作 API(使用 Uvicorn 和 FastApi)
在远程服务器上部署 API(使用 Docker 和 Google 云*台)

数据注释:

任何机器学习项目最重要的部分之一是注释数据的质量和数量。这是部署 API 时影响预测质量的关键因素之一。

在这个项目中，我们将尝试将输入图像分为四类:

城市
海滩
日落
树木/森林

我选择这些课程是因为很容易在网上找到大量代表它们的图片。我们使用这些类来定义多标签分类问题:

来自https://unsplash.com/的输入和目标/图像示例

现在我们已经定义了我们想要解决的问题，我们需要获得足够数量的标记样本来进行训练和评估。
为了做到这一点，我们将首先使用 Unsplash API 来获取给定多个搜索查询的图像的 URL。

# First install [https://github.com/yakupadakli/python-unsplash](https://github.com/yakupadakli/python-unsplash)
# Unsplash API [https://unsplash.com/documentation](https://unsplash.com/documentation)
import json
import osfrom unsplash.api import Api
from unsplash.auth import Authwith open('tokens.json', 'r') as f:
    data = json.load(f)client_id = data['client_id']
client_secret = data['client_secret']redirect_uri = ""
code = ""keyword = 'beach'auth = Auth(client_id, client_secret, redirect_uri, code=code)
api = Api(auth)photos = api.search.photos(keyword, per_page=1000, page=i)['results']for photo in photos:
    print(photo)
    print(photo.id)
    print(photo.urls)
    print(photo.urls.small)

我们将尝试获取与我们的目标类相关的图像 URL，加上一些其他随机图像，作为反面例子。

下一步是遍历所有的图像，并给每一个图像分配一组标签，如上图所示。为此，使用专为此任务设计的注释工具总是更容易，例如 LabelMe，它是一个 python 库，您可以从命令行轻松运行:

labelme . -flags labels.txt

Labelme 用户界面

使用 Labelme 我标记了大约一千张图片，并在这里提供了 urls 标签:https://github.com/CVxTz/ToyImageClassificationDataset

模型

现在我们有了标记的样本，我们可以尝试使用 Tensorflow 构建一个分类器。我们将使用 MobileNet_V2 作为分类器的主干，因为它速度快，而且不太可能过度拟合。鉴于我们只有少量的标记样本，您可以通过从 keras_applications 导入它来轻松使用它:

from tensorflow.keras.applications import MobileNetV2base_model = MobileNetV2(include_top=False, input_shape=input_shape, weights=weights)

由于这是一个具有四个类别的多标签分类问题，我们将有一个具有 Sigmoid 激活的四个神经元的输出层(给定一个示例，我们可以将多个神经元激活或没有神经元激活作为目标)

迁移学习

解决标记样本缺乏的一个常用技巧是使用迁移学习。它是当你把从源任务(像带有不同标签集的图像分类)中学到的一些权重转移到你的目标任务，作为你训练的起点。与从随机开始相比，这允许更好的初始化，并且允许为我们的多标签分类重用在源任务上学习的一些表示。

这里我们将转移在 ImageNet 中训练得到的权重。在为 MobileNet_V2 使用 Tensorflow+Keras 时，做到这一点非常容易，您只需要在创建 MobileNetV2 的实例时指定 weights="imagenet "

base_model = MobileNetV2(include_top=False, input_shape=input_shape, weights="imagenet")

数据扩充

当有一小组带注释的样本时，提高性能的另一个技巧是进行数据扩充。应用随机扰动的过程保留了标签信息(扰动后的城市图片看起来仍然像一个城市)。一些常见的变换是垂直镜像、椒盐噪声或模糊。

数据扩充示例/图片来自https://unsplash.com/

为了实现这一点，我们使用了一个名为 imgaug 的 python 包，并定义了一系列变换及其幅度:

sometimes = **lambda** aug: iaa.Sometimes(0.1, aug)
seq = iaa.Sequential(
    [
        sometimes(iaa.Affine(scale={**"x"**: (0.8, 1.2)})),
        sometimes(iaa.Fliplr(p=0.5)),
        sometimes(iaa.Affine(scale={**"y"**: (0.8, 1.2)})),
        sometimes(iaa.Affine(translate_percent={**"x"**: (-0.2, 0.2)})),
        sometimes(iaa.Affine(translate_percent={**"y"**: (-0.2, 0.2)})),
        sometimes(iaa.Affine(rotate=(-20, 20))),
        sometimes(iaa.Affine(shear=(-20, 20))),
        sometimes(iaa.AdditiveGaussianNoise(scale=0.07 * 255)),
        sometimes(iaa.GaussianBlur(sigma=(0, 3.0))),
    ],
    random_order=**True**,
)

培养

我们将数据集分为两部分，训练和验证，并使用 binary_crossentropy 作为我们的目标，binary_accuracy 作为评估度量。

在更新一些配置文件后，我们从命令行运行培训:

# data_config.yaml for defnining the classes and input size **input_shape**: [null, null, 3]
**resize_shape**: [224, 224]
**images_base_path**: **'../example/data/'
targets**: [**'beach'**, **'city'**, **'sunset'**, **'trees'**]
**image_name_col**: **'name'**# training_config.yaml for defining some training parameters **use_augmentation**: true
**batch_size**: 32
**epochs**: 1000
**initial_learning_rate**: 0.0001
**model_path**: **"image_classification.h5"**

然后运行训练脚本:

**export PYTHONPATH=$PYTHONPATH:~/PycharmProjects/FastImageClassification/****python train.py --csv_path "../example/data.csv" \
       --data_config_path "../example/data_config.yaml" \
       --training_config_path "../example/training_config.yaml"**

我们最终得到的二进制验证准确率为 94%

制作 API

我们将使用 FastAPI 通过一个易于使用的 API 来公开一个预测器，该 API 可以将一个图像文件作为输入，并输出一个包含每个类的分类分数的 JSON。

首先，我们需要编写一个预测器类，它可以轻松地加载 tensorflow.keras 模型，并有一个方法来对文件对象形式的图像进行分类。

**class** ImagePredictor:
    **def** __init__(
        self, model_path, resize_size, targets, pre_processing_function=preprocess_input
    ):
        self.model_path = model_path
        self.pre_processing_function = pre_processing_function
        self.model = load_model(self.model_path)
        self.resize_size = resize_size
        self.targets = targets @classmethod
    **def** init_from_config_path(cls, config_path):
        **with** open(config_path, **"r"**) **as** f:
            config = yaml.load(f, yaml.SafeLoader)
        predictor = cls(
            model_path=config[**"model_path"**],
            resize_size=config[**"resize_shape"**],
            targets=config[**"targets"**],
        )
        **return** predictor @classmethod
    **def** init_from_config_url(cls, config_path):
        **with** open(config_path, **"r"**) **as** f:
            config = yaml.load(f, yaml.SafeLoader) download_model(
            config[**"model_url"**], config[**"model_path"**], config[**"model_sha256"**]
        ) **return** cls.init_from_config_path(config_path) **def** predict_from_array(self, arr):
        arr = resize_img(arr, h=self.resize_size[0], w=self.resize_size[1])
        arr = self.pre_processing_function(arr)
        pred = self.model.predict(arr[np.newaxis, ...]).ravel().tolist()
        pred = [round(x, 3) **for** x **in** pred]
        **return** {k: v **for** k, v **in** zip(self.targets, pred)} **def** predict_from_file(self, file_object):
        arr = read_from_file(file_object)
        **return** self.predict_from_array(arr)

我们可以使用一个配置文件来实例化一个 predictor 对象，该对象具有进行预测的所有参数，并将从项目的 GitHub 存储库中下载模型:

**# config.yaml
resize_shape**: [224, 224]
**targets**: [**'beach'**, **'city'**, **'sunset'**, **'trees'**]
**model_path**: **"image_classification.h5"
model_url**: **"https://github.com/CVxTz/FastImageClassification/releases/download/v0.1/image_classification.h5"
model_sha256**: **"d5cd9082651faa826cab4562f60e3095502286b5ea64d5b25ba3682b66fbc305"**

完成所有这些之后，当使用 FastAPI 时，我们的 API 的主文件变得微不足道:

**from** fastapi **import** FastAPI, File, UploadFile**from** fast_image_classification.predictor **import** ImagePredictorapp = FastAPI()predictor_config_path = **"config.yaml"**predictor = ImagePredictor.init_from_config_url(predictor_config_path) @app.post(**"/scorefile/"**)
**def** create_upload_file(file: UploadFile = File(...)):
    **return** predictor.predict_from_file(file.file)

我们现在可以用一个命令运行应用程序:

uvicorn main:app --reload

这使我们能够访问 Swagger UI，在那里我们可以在一个新文件上尝试我们的 API。

http://127 . 0 . 0 . 1:8080/docs

由 Antonio Resendiz 在 Unsplash 上拍摄的照片

上传上面的图像会产生以下输出:

{"beach": **0**,"city": **0**.**999**,"sunset": **0**.**005**,"trees": **0** }

这是预期的输出！

我们还可以通过 curl 发送请求并计时:

time curl -X POST "[http://127.0.0.1:8080/scorefile/](http://127.0.0.1:8000/scorefile/)" -H  "accept: application/json" -H  "Content-Type: multipart/form-data" -F "file=[@antonio](http://twitter.com/antonio)-resendiz-VTLqQe4Ej8I-unsplash.jpg;type=image/jpeg">> {"beach":0.0,"city":0.999,"sunset":0.005,"trees":0.0}
>> real 0m0.209s
>> user 0m0.012s
>> sys 0m0.008s

部署应用程序

码头工人

如果一个应用在 Docker 这样的容器中，部署起来会更容易。

在安装正确的环境后，我们将创建一个 docker 文件，其中包含运行我们的应用程序所需的所有说明:

**FROM** python:3.6-slim
**COPY** app/main.py /deploy/
**COPY** app/config.yaml /deploy/
**WORKDIR** /deploy/
**RUN** apt update
**RUN** apt install -y git
**RUN** apt-get install -y libglib2.0-0
**RUN** pip install git+https://github.com/CVxTz/FastImageClassification
**EXPOSE** 8080**ENTRYPOINT** uvicorn main:app --host 0.0.0.0 --port 8080

安装 Docker:

sudo apt install docker.io

然后我们可以运行 Docker 构建:

sudo docker build -t img_classif .

我们最后运行容器，同时将容器的端口 8080 映射到主机的端口:

sudo docker run -p 8080:8080 img_classif .

在远程服务器上部署

我试图在 AWS 的 ec2 实例上这样做，但是 ssh 命令行很笨拙，终端在最后一个命令时会死机，不知道为什么。所以我决定使用谷歌云*台的应用引擎进行部署。点击链接到关于这个主题的更详细的教程。

创建一个谷歌云*台账户
安装 gcloud
创建项目 project_id
克隆https://github.com/CVxTz/FastImageClassification并叫:

cd FastImageClassificationgcloud config set project_idgcloud app deploy app.yaml -v v1

最后一个命令需要一段时间，但是…瞧！

结论

在这个项目中，我们使用 Tensorflow、Docker、FastAPI 和谷歌云*台的应用引擎，从头开始构建和部署了机器学习支持的图像分类 API。所有这些工具使整个过程简单明了，相对容易。下一步是探索处理大量查询时与安全性和性能相关的问题。

重现结果的代码可从这里获得:https://github.com/CVxTz/FastImageClassification

走向工业化的一步:用 pyspark 和 argparse 为您的代码提供参数

原文：https://towardsdatascience.com/a-step-towards-industrialization-parameters-your-code-with-python-and-argparse-118783d09bfd?source=collection_archive---------31-----------------------

使用 argparse 创建您自己的命令行参数，并对 prophet 预测模型的运行进行参数化

【https://unsplash.com/photos/qjnAnF0jIGk

Argparse 是什么？

argparse 是一个 python 库，它允许我们编写自己的命令行，以便在代码中包含灵活性。我个人在我的许多脚本中使用它，以使我的数据管道更加灵活，并形成例如在移动时间窗口上的模型。快速浏览一下库之后，我们会看到一些用例。

参数化你的代码:生产力，灵活性和更高的质量。

首先，我们需要导入库。

import argparse

然后我们定义一个“解析器”

parser = argparse.ArgumentParser()

[ArgumentParser](https://docs.python.org/3/library/argparse.html#argparse.ArgumentParser)对象将保存将命令行解析成 Python 数据类型所需的所有信息。然后我们可以传递一些参数给解析器对象。

就说那个吧:

parser.add_argument(
    '--train_start',
    help='''Our algorithm deal with a moving window so we need to flexibilise our filename and so on it will be initialised with a flexible name like my_training_set_at_{train_start}''',
    required=True,
)

我们向解析器添加了一个名为“train_start”的参数，并创建了一个帮助消息，它定义了参数的用途和用法，或者您想要编写的任何内容。最后，我们设置一个顺序条件，强制使用该参数，如果为 False，则可以忽略。

先说教程:(https://docs.python.org/3/library/argparse.html)

我们将把脚本复制到. py 文件中:

这里我们定义一个 ArgumentParser 对象来存储我们的参数。然后我们定义两个参数，一个有一个值，另一个会把它们加在一起，让我们来详述一下。

ArgumentParser.**add_argument** ( 名称或标志... [，动作 ][， nargs ][， const ][，默认 ][，类型 ][，选择 ][，必需 ][，帮助 ][， metavar ][， dest ]

我们首先添加一个参数:

一个名称或标志:'整数'
类型:这里的数据类型是整数
帮助:帮助命令用户的消息
一个元变量:改变显示的名称。
nargs:它定义了应该使用的命令行参数的数量。这次行动'+'。就像'*'一样，所有存在的命令行参数都聚集到一个列表中。此外，如果没有至少一个命令行参数，将会生成一条错误消息。

在第二个增加的参数中

一个名字或旗帜:'- -sum '
默认操作:如果没有指定，则返回最大值
const:对整数列表求和的动作
a dest:要添加到由[parse_args()](https://docs.python.org/3/library/argparse.html#argparse.ArgumentParser.parse_args)返回的对象的属性的名称
助手消息

现在，我们将它保存为“parser _ exemple.py ”,然后打开控制台查看它:

那就试试吧

好了“教程”，现在让我们来看一个真实的例子。

几个使用的例子

我们将从我之前关于熊猫的一篇文章开始——UDF 和 prophet 对于这个脚本的预测和参数化，这将允许我们通过一个真实的例子使用 argparse 来参数化我们的脚本，避免一篇冗长无用的文章。下面是这篇文章的链接，其中包含了我们将要参数化的大部分代码

https://towards data science . com/py spark-forecasting-with-pandas-UDF-and-FB-prophet-e 9d 70 f 86d 802

它将成为我们的工作基地:

参数化你的文件名和文件路径

其实也不是很难，我们会在一个不同的文件里用几个参数定义我们的解析器(这是我个人的偏见:其实你可以在同一个空间里做所有的事情)。

因此，我们将定义一个函数来创建 ArgumentParser，向其中添加所需的参数并返回分析后的参数。

在 main 中，我们导入我们的函数并检索我们在启动 spark submit 时放入的参数。

然后使用正确的参数通过 shell 将其作为 python 作业或 spark 提交作业启动，就这样。

这些基本元素对于构建高度通用的管道是必不可少的，并且不需要特殊的开发技能。

最后

这看起来很简单，但是这种工具对于拥有灵活的管道和使生活变得更容易是绝对必要的。我在我的项目中经常使用它，特别是与气流一起使用，以便对一段时间内的重复预测进行编程——这将是未来文章的主题。

感谢您的关注，您会在我的 github:https://github.com/AlexWarembourg/上找到所有的要点和要旨

数据产品的战略蓝图

原文：https://towardsdatascience.com/a-strategy-blueprint-for-data-products-a158ad6bf449?source=collection_archive---------37-----------------------

如何用数据构建战略护城河

在当今的商业环境中，战略护城河是用数据构建的。不用数据游戏就能在软件上建立新的业务线的日子已经一去不复返了。数据最初被比作石油，表明数据为创新引擎提供燃料。最*，经济学家将数据比作阳光，因为像太阳光线一样，数据将无处不在，成为一切的基础。数据也是精明的商业人士建立差异化商业模式的新基础设施。

航空焦点在 Unsplash 上拍摄的照片

设计数据产品成本高昂。数据科学家和机器学习工程师是收入最高的专业人士，仅次于外科医生和医生。不用说，将一个数据科学项目从实验转变为生产应用需要强大的财务实力和一致的商业激励。成功数据产品的蓝图由三个核心要素组成:业务工作流、分销渠道和数据源。

业务工作流程

数据产品作为建立在业务工作流之上的应用层出现。数据产品在管理流程自动化、客户支持、法规遵从性等运营环境中部署时，都有成功的记录。也就是说，数据产品目前被分配给“安全”的后台部门，在那里性能故障的代价较低。

并不是每个业务流程都能支持一个数据产品。我已经为许多企业准备并审核了记分卡，以证明数据产品应用程序的业务工作流是合格的。看看吧！

数据源

公共数据或开放数据可供每个人访问、修改、重用和共享。开放数据组织是支持开放源代码软件的组织的对应组织。他们的工作赋予公民权力，可以加强民主，简化社会、政府和私营企业的流程和系统。几个很棒的开放数据源是世界银行开放数据、全球健康观察站数据、谷歌公共数据浏览器、AWS 开放数据注册中心、美国人口普查局。

私有数据来源是谷歌、亚马逊和脸书等差异化公司的支柱。先发战略使公司能够在数据聚合游戏→数据引力中实现跨越。搜索结果、产品/电影推荐和社交网络随着数据而改善。这就是为什么老牌玩家会留在这里，除非我们让机器学习系统简单地分享和学习不同的数据源。
私有数据的许可权变得复杂。一个普遍的问题是，数据源的所有者不能从外部再授权数据。这意味着私有数据只能由拥有该数据的同一组织所拥有的产品利用。第二十二条军规？如果数据是根据带有分许可条款的许可收集的，这就为在母公司之外将私人数据商业化提供了机会。我们必须解决房间里的大象。在各公司中，数据管理实践的范围很广。领先的公司通过遵守道德、隐私和安全规则树立了榜样。一些行业自行处理事务，并建立了数据隐私标准和框架。在医疗保健和金融服务领域，数据隐私由监管机构强制执行。消费行业必须遵守消费者隐私法。适用于任何人的经验法则:总是尽可能经常地消除数据标识并许可聚合数据的孤岛。

合成数据是一种可取之处，取决于手头的数据产品。计算机算法已经非常擅长生成合成数据:无论是名人的视频还是《T2》杂志的文章，我们都可以伪造。类似的技术可以用来生成合成数据，这些数据训练数据产品背后的机器学习模型。为了用相关的数据种子引导这样的算法，公司可以建立数据捐赠计划——内部的或外部的——并签订适当的数据使用协议。

分配路线

一个好的产品只是故事的一半。您的产品已经签名盖章，现在需要交付。一些分销渠道可用于企业产品。每个分销渠道都对产品定价模式和整体产品策略有影响(构建对购买对收购)。

最后，数据驱动型产品需要持续监控质量表现。你可能会问，为什么所有这些审查，做同样工作的人没有被全天候监控。这么说吧，人类每季度都要接受伦理方面的培训，并对自己的行为负责。机器在沉默中行动，所以我们需要使用监控脚本来查询它们的行为。监控产品性能和标记角落案例是一个很好的做法。从定义故障管理、产品道德和人在回路中的审查的内部政策开始。

软件工程面试者的学习计划

原文：https://towardsdatascience.com/a-study-plan-for-software-engineering-interviewees-b67914520489?source=collection_archive---------28-----------------------

成为技术面试的专家——第三部分

照片由来自佩克斯的克里斯蒂娜·莫里洛拍摄

这是软件工程师面试准备系列的第三部分。

我强烈建议您查看本系列的第一部分和第二部分，以了解该学习计划的背景。

该计划旨在实施我在第二部分中提到的刻意练习方法。

以此为指导——这里的主要目的是遵循有意练习的原则和我将在下面谈到的 7 步流程。享受旅程！

学习计划

设置:

好了，我们已经就什么是刻意练习进行了一次大讨论，但是现在让我们来谈谈我们如何实际实施刻意练习以达到我们的最终目标并赢得现场面试。

总结一下，我们的最终目标是:

每个主题都达到 3 级。

我们首先需要拿出一个空间，在那里我们可以客观地捕捉和跟踪每个主题的进展，每周。为此，我们将利用上面提到的 3 分制评分系统。这就是我们如何努力保持这个过程客观。

我将通过一个例子向你展示我如何跟踪进度，但我鼓励你发挥创造力，想出一种适合你和你的学习风格的方式。

首先，创建一个谷歌文档或表格来跟踪每个主题的进展。对于每个主题，创建一个表格来记录该主题每周的分数，并创建另一个表格来记录您的带有“正确/错误”列的题库。

我个人也喜欢用分区来记录每个主题的笔记、有用的链接和待办事项。这将成为下一步要做什么、你遇到了什么问题以及你克服了什么的列表——这有助于你更加关注自己一周的进步。

对我来说，布局可能是这样的:

如何跟踪主题进展的示例。(图片由作者提供)

我还会在周末维护一个每周更新的每个主题的水*表。刚开始的时候，这些话题大部分会是 1 级(也没关系！！).我可能会这样追踪:

每周记录每个主题的水*。(图片由作者提供)

日程安排:

既然我们已经有了一个有组织的空间来跟踪我们的进展，我们需要弄清楚 什么时候 我们实际上要把所有这些研究都放进去！

每个人的时间表都不一样——有些人在全职工作时准备面试，有些人在全职找工作(🙋🏼‍♀️).因此，你学习每个主题的时间和顺序完全取决于你自己和你的时间。

不管你如何选择你的主题，你有多少时间来学习，你的学习课程的结构将是相同的，并遵循以下循环:

确定问题区域
研究问题领域(谷歌/YouTube/书籍/同行讨论等。)
测试(来自 LeetCode 等的问题。)
学习试题解答(重要！！！)
重新评估和反思(确定成功和问题领域)
复试(与#3 相同的问题)
重复

我们需要在这些步骤之间留出空间。例如，你不会在同一个小时内重新测试同一个问题。这通常会在当天晚些时候完成，或者最好在几天后完成。

我们还需要决定如何*衡 20 个主题，以及如何为每个级别适当地学习。谢天谢地，我们有一个评级系统，这将有助于指导我们。

一级主题:

这些主题在开始时不会有很多“测试”。
在研究开始时做其中的一两个问题可以帮助你找到不足之处，并指导你的研究工作，但除此之外，钻研一个你一无所知的问题没有多大用处。
1 级课题的研究将主要包括整理一份棘手领域的清单，然后研究/学习这些领域。
根据题目的不同，你可能会在解决一个问题之前花整整一周的时间做研究(尤其是如果这是一个大题目的话)。
对于困难的话题，在一周结束时(经过一周的集中研究)尝试问一个问题，给自己一个新的基线。这里的要点不是把问题做对，而是把你所学的内容放回背景中，给自己机会去研究解决方案。即使你不知道从哪里开始，也要给这个问题一个明确的答案——说点什么。然后，花大量时间研究解决方案——这就是你学习如何解决问题的方法！(相对于仅仅阅读理论)。然后将这个问题添加到你的“错误”堆中，你将在以后再次测试它。

二级主题:

这些主题将在研究和测试之间保持*衡。
保持与这些主题的良好流程:确定问题领域、研究、测试、研究解决方案、评估、重新测试。
强调做题对二级题目很重要。
真正挑战自己，只是“做”。这就是这些主题如何到达第三级的原因！

第 3 级主题:

某样东西被评为 3 级意味着你对它“几乎无所不知”,根本不需要做太多的研究。
在这个阶段，只是实践:测试、解决方案、测试、解决方案…
(当然还要重新测试你做错的题！).

改变级别:

不要对自己太苛刻——如果你觉得自己在某个话题上取得了进步，那就让自己进步吧！

然而，在以这种方式学习之后，你可能会意识到你需要把某些东西降低一个等级——不要为此惊慌。这是发现问题领域过程的一部分。你可能习惯于通过“感觉”来评估你在某方面的能力——现在我们有了一个客观的衡量标准，所以可以预料我们可能会出错。

对于第 2 级主题，如果你花更多的时间研究而不是做题，那么这是一个信号，表明这个主题可能应该下降到第 1 级。

对于第 3 级问题，如果你发现你得到了正确的答案，但是它的时间和空间复杂度一直很低，并且你的解决方案感觉有点“粗糙”，那么也许将这个问题移到第 2 级并研究这些类型问题的一些更优的解决方案是一个好主意。

相信你的判断，不要想太多！

学习计划示例:

这里有几个学习计划的例子，告诉你如何安排我们刚刚谈到的所有内容。抱歉，它们不太漂亮。

我假设每个计划每天学习 2 小时。当然，这些只是建议——你显然可以根据你的时间表和时间框架进行相应的调整。我相信你会想出更好的时间表！

关键是保持上面的 7 步流程。

14 天计划示例:

实施深思熟虑练习的 14 天学习计划示例。(图片由作者提供)

7 天计划示例:

实施深思熟虑练习的 7 天学习计划示例。(图片由作者提供)

5 天计划示例:

实施深思熟虑练习的 5 天学习计划示例。(图片由作者提供)

我在这里提供了 5、7 和 14 天的计划，告诉你无论你的时间表是什么，你都可以适应学习！作为一名教师，我听过各种各样的借口，比如“你不适合学习”，但我更乐意和你坐在一起，为你找时间！

请给我发消息告诉我你想到了什么——我总是很想知道人们是如何利用他们的时间来创造的！

数据科学家注意:

我和软件工程师一起实施了这个学习计划，并取得了巨大的成功。然而，我是一名数据科学家，目前正在接受数据科学职位的面试。这个领域比软件工程面试稍微微妙一些，因为对于数据科学的角色还没有直接的共识。

直接联系我如果你想讨论如何准备数据科学面试，以防你不知道，我喜欢谈论这个话题😝。

我们到了！

现在我知道了，我知道了。这是一个很大的数字，可能看起来有点过了。这是一个我充满热情的话题，我也相信这个话题的需求量很大。

让我们提高现场面试成功率，同时提高我们的学习效率！

照片由来自 Pexels 的伊恩·帕内洛拍摄

一个成功的数据科学模型需要 GitHub。原因如下。

原文：https://towardsdatascience.com/a-succesful-data-science-model-needs-github-heres-why-da1ad019f4e0?source=collection_archive---------55-----------------------

GitHub 给你的数据科学项目带来的好处。

在 Unsplash 上由 Roman Synkevych 拍摄的照片。

介绍

数据科学家经常独自开始他们的学术甚至职业之旅，所以他们习惯于自己在本地驱动器上组织他们的概念和代码——也许是以某种临时的方式。但是，当你在一个由几个数据科学家、数据工程师、软件开发人员甚至产品经理组成的团队中工作时，会发生什么呢？你必须以某种方式合作。对于您的数据科学模型，您的代码将在哪里共享和控制？GitHub 就是这些问题的答案。

这个*台作为一个工具，让团队和组织的跨职能成员使用 Git 在同一版本的代码库上工作，并批准和评论通过 pull 请求请求和记录的新代码更改。

下面，我将在一个数据科学项目上分享和描述 GitHub 的好处。

开源代码库

照片由 Jantine Doornbos 在Unsplash【2】拍摄。

GitHub【3】通过使用 Git、pull requests、issues、wikis 和 gist 来记录和指导软件开发人员、设计人员和项目经理。建立数据科学项目相当简单，并允许您的团队对您的文件和代码进行检查和*衡。Git 是在终端中进行交互的主要系统，用于导航分支、代码更改以及最终的版本控制。Gists 对于提交代码片段以供共享也很有用，例如，如果您不想共享整个数据科学项目。下面，我就来讨论一下 GitHub 的好处。

利益

数据科学模型可以在您的本地计算机上工作，但一旦您将其他人纳入同一项目，GitHub 就可以作为一种工具，它有几个好处，可以确保成功的机器学习模型到位。我将包括更多描述性的好处和 Git、拉请求、协作和 gist 的例子。

【Git】—您可以执行某些命令，这些命令会推高您代码库的新版本。使用如下 Git 命令，可以创建一个 pull 请求，然后您的数据科学模型代码将被监控和增强。以下是一些常用的、有用的 Git 命令:

查看你在哪个分支——git 分支
从您的主分支创建一个新的分支—git branch branch _ name
拉你的主分支，使其保持最新— git 拉
检查您的文件(代码)变更— git 状态
添加您的文件(代码)从您的分支— git 添加
从您的分支提交您的更改—git commit-m " Added change "
从你的分支推送你的变更— git 推送

拉请求 —这个动作是 GitHub *台极其有用的一部分。对于 pull 请求，通常命名为“ PR 的”，您可以有第二个、第三个，甚至更多对代码变更的关注。当您想要将代码添加到现有的主分支时，您可以创建自己的分支，该分支将包含新的代码。您团队中的人必须查看并测试它，以确保您新添加的内容是正确的。公关过程不仅有利于消除错误，确保人们会仔细检查你的工作，而且在某种意义上，它也有利于你团队中的所有人都在同一页上。当其他人必须查看您的更改并批准新的代码时，他们将重申模型的知识，因为它扩展到更多的文件和系统。

协作 —通过使用 GitHub，还可以实现来自多个团队成员的相关协作，包括其他数据科学家、软件工程师、数据工程师和产品经理。协作是一种优势，因为它将使您的数据科学模型更加健壮、高效，并且在受到其他人的影响时可能更加准确。您可以在数据科学模型中包括所有合适的人员，并对整个项目产生积极的影响。

Gists —如果你想与他人分享一个更小的代码片段，甚至在这里，就在介质上，你可以用适当的编程语言显示代码，这些都很有用。这是一种显示代码示例的简单方法。当您以. py 格式指定编程语言(比如 Python)时，您可以很容易地看到彩色编码的函数——例如，导入代码以红色突出显示。下面是一个例子的要点:

要点示例。作者代码[4]。

摘要

GitHub 是您组织内数据科学项目的有用工具。它可以通过使用协作、Git、pull 请求和 gist 来存放、共享和增强代码。GitHub 还有其他几个好处，在他们提到的网站上也有概述。数据科学模型需要所有这些关键组件来确保成功。

虽然学术界对数据科学的关注不一定是 GitHub，而是通用机器学习模型的理论、概念和代码，但在学生进入劳动力市场并必须立即开始与其他人合作之前，应该重点关注这个*台。总之，这有利于开发成功的数据科学模型。

要了解更多关于 GitHub 的 Git 部分，请在下面找到这篇文章[5]:

[## 每个数据科学家都需要知道的通用 GitHub 命令

通过使用 GitHub 成为更好的数据科学家指南

towardsdatascience.com](/common-github-commands-every-data-scientist-needs-to-know-e7d5d9c4f080)

我希望你觉得这篇文章有趣并且有用。感谢您的阅读！

参考

[1]照片由 Roman Synkevych 在Unsplash(2019)上拍摄

[2]照片由 Jantine Doornbos 在 Unsplash 上拍摄，(2017)

[3] GitHub，Inc .， GitHub 主页，(2020)

[4] M.Przybyla， pandas-append.py ，(2020)

[5] M.Przybyla，每个数据科学家都需要知道的通用 Git 命令，(2020)

句子向量表征中作文评价综述

原文：https://towardsdatascience.com/a-summary-of-assessing-composition-in-sentence-vector-representations-4dce904220cd?source=collection_archive---------56-----------------------

自然语言处理领域著名研究论文综述

照片由来自 Unsplash 的 Patrick 拍摄

来源:https://www.aclweb.org/anthology/C18-1152.pdf(艾丁格等人，2018)

背景:为了理解什么是句子嵌入，有必要理解单词嵌入。单词嵌入已经变得非常著名，因为它们能够以可以普遍使用的向量的形式来表示单词。著名的嵌入有 word2vec、Glove 等。
单词嵌入的相同概念可以扩展到句子，使得每个句子用向量表示。诸如“发现两个堆栈溢出问题是否重复”之类的任务需要使用句子嵌入。

引言:为了理解语言，理解句子的意思和组成是必不可少的。今天的大部分神经网络模型本质上都是黑盒。因此，很难理解句子嵌入作为最终产生它们的训练的一部分正在捕捉什么。

本文讨论了专门用来测试句子嵌入是否抓住了句子的组成和意义的特定任务。本文基于另一篇论文(Adi 等人。al，2016)，其中，(Adi 等人。al，2016)使用弓模型和自动编码器进行类似的实验。然而，由于数据集中的非预期偏差，他们的结果非常可疑。例如，他们表明，在单词顺序任务中，BOW 模型实现了 70%的性能，即使这种模型在逻辑上不可能保留与单词顺序相关的信息。因此，这篇论文的作者认为，BOW 模型的这种表现是一个偶然事件，因为数据集中存在偏差。

本文提出消除/减少这种偏见，并测试其他深度学习模型。它们还引入了额外的任务，这些任务将在下面详细讨论。本文的贡献包括一个句子生成集，一个已证实的模型来测试组成和意义是否确实被嵌入，生成系统和用于分类的数据集作为开源提供给其他人进行进一步的探索和分析。

研究问题:本文试图回答的研究问题有:

1.当前的神经句子嵌入模块在它们的句子嵌入中捕获句子的含义和组成的情况如何？

2.我们能提出一种方法和框架来评估句子嵌入和它们的模型在多大程度上捕捉了句子的意义和组成吗？

意义和构成:构成句子的元素向读者传递意义。它通常包含一个代理、一个患者和一个事件。构图是元素排列的一种方式，有助于传达意义。一个句子的不同部分可以结合起来达到它的意思。

数据集准备:作者提出了一种新的句子生成系统，减少了数据集中的偏差。例如，它根据英语的句法、语义和词汇规则生成多样化的、完全带注释的句子。它由三部分组成。

事件/句子表征:这些是句子的部分表征，接受诸如施事、受事、及物、不及物动词以及关系从句的存在与否等参数。这些表示作为输入提供给事件生成系统。例如，考虑如下所示的句子。

事件填充:系统从句子表示系统获取输入，并用给定的信息填充事件。它使用副词和 17 个词汇。字数受到限制，以保持对生成句子的控制。它循环通过副词和名词来生成句子。

句法实现:它使用基于规则的技术对生成的句子中的单词进行词形变化，以遵循词法。他们使用(Bird 等人，2009)中提到的 NLTK 框架，屈折从 XTAG 形态学数据库中提取(Doran 等人，1994)。

分类任务:设计不同的任务来测试句子嵌入是否保持句子的组成和意义。大致可分为两种类型，肯定和否定。SemRole 任务旨在测试句子嵌入是否抓住了意思。要回答的问题是，给定一个名词(n)，一个动词(v)和一个句子嵌入(s)，n 是 v 在 s 中的施事吗？

否定任务是测试句子嵌入是否捕捉到动词的否定。即给定一个动词(v)和一个句子嵌入(s)，v 是否在 s 中被否定？生成的句子在动词和否定之间填充副词，使得动词在否定之后不明显，并且该模式易于模型学习和检测。

其他三项任务与单词内容和顺序有关。第一个任务， Content1Probe 被设计为测试句子嵌入是否包含输入句子中存在的动词。 Content2Probe 类似于 Content1Probe，它测试句子嵌入是否同时包含名词和动词，假设两者在句子嵌入生成之前都作为输入出现。

排序任务旨在测试合成句子嵌入是否捕捉到句子中单词顺序的信息。给定一个既包含动词(v)又包含名词(n)的句子嵌入(s ),那么名词(n)出现在动词(v)之前吗？

分类实验:作者建立了一个神经网络/多层感知器模型，其输入大小等于句子嵌入的大小。ReLU 用作神经元的激活函数。上述分类任务本质上是二元的。因此，对于生成的句子，每个任务的标签(是或否)被分配。生成 5000 个这样的句子，其中 4000 个具有适当标签的句子被用作训练集，其余 1000 个句子(具有适当标签)被用作测试集。不需要超参数调谐，因为网络规格在(Adi et。al，2016)。作者不执行任何训练来生成句子嵌入。他们也没有设计一个句子嵌入算法。他们使用嵌入算法，这些算法已经可以作为他们自己的语料库上的预训练模型。这些模型用于为生成的 5000 个句子产生句子嵌入。句子的嵌入和它们各自的任务标签形成了神经网络模型的数据集。该模型用训练集进行训练，并用测试集进行测试。

句子嵌入模型:下面描述所使用的不同句子嵌入模型:

BOW:BOW 模型是一个简单的模型，它使用一个向量来表示句子中的每个单词。它对这些嵌入进行*均，并将其用作句子嵌入。

顺序去噪自动编码器:它是一种无监督学习技术，使用基于 LSTM 的自动编码器。

跳过思想嵌入:他们利用 GRUs 生成句子嵌入。有两种可用的变体，uni-skip (ST-UNI)和 bi-skip (ST-BI)。Uni-skip 编码器在正向传递时进行回复，而 bi-skip 在神经网络中同时使用正向和反向传递。

InferSent: InferSent 是最先进的模型，它使用多层双向 LSTM 来生成句子嵌入。

结果:

表。1(摘自 来源 论文)

各种任务的模型结果如上表所示。它摘自 Ettinger 等人(2018 年)。

单词袋(BOW)模型在基于内容的任务上表现良好。这说明弓模型完美地编码了单词的意思。人们期望它在顺序、语义角色和否定任务中表现糟糕，它确实如此。这用作对数据集的检查，并且它满足该标准。这也可能是由于数据生成模块中使用的 17 个单词的词汇集非常有限。

在否定任务中，除了 ST-BI，所有模型都表现良好。这可能是因为在向前传递时，它首先遇到否定，然后是动词，但在向后传递时，这个顺序是相反的。因此，信息可能没有被很好地捕获。其他模型做得很好，即使很难捕捉到否定和动词之间的关系，即使很难做到这一点。这也可能是由于嵌入的维数从 1200 减少到 300。

对于语义角色(SemRole)任务，InferSent 表现随机，其他模型也表现不佳。正如本文作者(Ettinger 等人，2018 年)所述，句子嵌入模型没有提供有力的证据表明它们充分捕捉了语义角色。

还可以推断出，当通过它们的嵌入进行评估时，具有不同设计架构和目标的不同句子嵌入模型未能对句子的含义和组成产生任何显著影响。所有的模型在其嵌入中捕获几乎相同水*的意义和组成。

实验结果也证明了所提出的方法是可靠的，可以检测句子嵌入捕获了多少或是否捕获了句子的意义和成分。可以定义更多的任务来更好地理解句子嵌入中捕获的信息。

作者计划通过显式嵌入 e 中提到的句法结构来测试其他模型(Bowman 等人，2016；戴尔等人，2016；Socher 等人，2013 年)在他们未来的工作。

参考文献

Ettinger，a .，Elgohary，a .，Phillips，c .，& Resnik，P. (2018)。评估句子向量表示中的成分。arXiv:1809.03992。

约西·阿迪、埃纳特·克尔马尼、约纳坦·贝林科夫、奥弗·狮式战斗机和约夫·戈德堡。2016.使用辅助预测任务对句子嵌入进行细粒度分析。arXiv 预印本 arXiv:1608.04207。

史蒂文·伯德、伊万·克莱恩和爱德华·洛珀。2009.用 Python 进行自然语言处理:用自然语言工具包分析文本。奥赖利媒体公司。

克里斯蒂·多兰、达尼亚·埃杰迪、贝丝·安·霍基、班加罗尔·斯里尼瓦斯和马丁·扎伊德尔。1994.XTAG 系统:覆盖面广的英语语法。《第 15 届计算语言学会议论文集》第 2 卷，第 922-928 页。计算语言学协会。

塞缪尔·R·鲍曼、加博·安格利、克里斯托弗·波茨和克里斯托弗·D·曼宁。2015.用于学习自然语言推理的大型标注语料库。在 EMNLP。

克里斯·戴尔、阿迪古纳·昆科罗、米盖尔·巴列斯特罗斯和诺亚·史密斯。2016.递归神经网络语法。纳克。

理查德·索彻、亚历克斯·佩雷金、让·吴、贾森·庄、克里斯托弗·曼宁、和克里斯托弗·波茨。2013.情感树库语义合成的递归深度模型。2013 年自然语言处理经验方法会议论文集，第 1631-1642 页。

Twitter 美国航空公司情感数据集的监督或半监督 ULMFit 模型

原文：https://towardsdatascience.com/a-supervised-or-semi-supervised-ulmfit-model-to-twitter-us-airlines-sentiment-dataset-db3a6550abdf?source=collection_archive---------29-----------------------

Twitter 美国航空公司情感数据集的监督或半监督 ULMFit 模型

我们的任务是将类似 ULMFit (Ruder 等人，2018 年)的监督/半监督技术应用于 Twitter 美国航空公司情绪分析数据。
这个问题是半监督的原因是，它首先是一种非监督的训练方式，然后通过在网络顶部添加一个分类器网络来微调网络。

我们使用 Twitter 美国航空公司数据集(https://www . ka ggle . com/crowd flower/Twitter-airline-情操 )

https://unsplash.com/photos/rf6ywHVkrlY

我们将从 开始:

浏览数据集，为模型进行预处理和准备
探索情感分析的历史
探索语言模型及其重要性
设置基线模型
探索文本分类技术
ULMFit 概述
将 ULMFIT 应用于 Twitter 美国航空公司数据
结果和预测
结论和未来方向

数据集

我们将从探索数据集统计数据和执行所有强制特征转换开始。

由于这是一个多类分类问题，我们将对目标变量进行编码。
我们将改变列的显示顺序
我们将执行基本的统计以从数据中获得一些洞察力
最后，我们将把新的数据帧分成 df_train、df_val 和 df_test

# Loading datasetdf = pd.read_csv(DATA_DIR)# LabelEncoder to change positive, negative and neutral to numbers (classes)labelEncoder = LabelEncoder()def cleanAscii(text):"""Remove Non ASCII characters from the dataset.Arguments:text: str"""return ''.join(i for i in text if ord(i) < 128)def gather_texts_and_labels(df=None, test_size=0.15,random_state=42):"""Gathers the text and the corresponding labels from the dataset and splits it.Arguments:df: Pandas DataFrametest_size: represents the test sizerandom_state: represents the random stateReturns:(x_train, x_test, y_train, y_test, new_df)"""# textstexts = df["text"].values# encoding labels (positive, neutral, negative)df['airline_sentiment'] = labelEncoder.fit_transform(df['airline_sentiment'])labels = df['airline_sentiment'].values# changing the order for fastai tokenizers to capture data.new_df = pd.DataFrame(data={"label":labels, "text":texts})df_train, df_test = train_test_split(new_df, stratify = new_df['label'], test_size=test_size, random_state = random_state)df_train, df_val = train_test_split(df_train, stratify = df_train['label'], test_size = test_size,random_state = random_state)print("Training: {}, Testing: {}, Val: {}".format(len(df_train), len(df_test), len(df_val)))return df_train, df_test, df_val,new_dfdef describe_dataset(df=None):"""Describes the datasetArguments:df: Pandas Dataframe"""print(df["airline_sentiment"].value_counts())print(df["airline"].value_counts())print("\nMean airline_sentiment_confidence is {}".format(df.airline_sentiment_confidence.mean()))# Optionaldef add_negativereason_to_text(df=None):# change negativereason to "" if NaN else remain as is.df['negativereason'] = df['negativereason'].apply(lambda x: "" if pd.isna(x) else x)# add negativereason to textdf['text'] = df['text'] + df['negativereason']add_negativereason_to_text(df)df['text'] = df['text'].apply(cleanAscii)describe_dataset(df)df_train, df_test, df_val, new_df = gather_texts_and_labels(df)

数据的统计

一些基本功能

一些视觉统计

更多统计数据

我们将依靠不同的指标来衡量模型的性能(精度、召回率、F1 得分)。

历史

B 在 ULMFit (2018)或 NLP 中的迁移学习之前准确地说，我们使用 word2Vec 或 GLove 等单词嵌入将单词表示为密集稀疏向量表示。通常，我们使用嵌入层作为模型中的第一层，然后根据我们的需要附加一个分类器。这使得该系统很难训练，因为它需要大量的数据。这些语言模型是早期的统计 LMs，使用概率分布来表示单词。(《由公司一言保管》)。

ULMfit，BERT，Universal sentence encoder，OpenAI GPT-2 使用一种叫做神经语言模型的东西来以分布式方式表示单词，并允许微调一个大型预训练语言模型来帮助我们完成任务。
具体来说，ULMfit (2018)引入了三种新技术来微调预训练语言模型
微调是计算机视觉中的一种流行方法，虽然这种方法在 NLP 上尝试过，但结果证明这种方法在 ULMFit 之前是错误的。

在本文的后面，我们将看到语言模型和分类器的概述。

设定基线

B 在任何机器学习实验之前，我们都应该设立一个基线，并与我们的结果进行比较。

为了建立基线，我们将使用 word2vec 嵌入矩阵来尝试预测情绪。

为了加载我们的 word2vec，我们将使用嵌入层，然后是基本的前馈神经网络来预测情绪。

我们也可以加载一个预先训练好的 word2vec 或 glove 嵌入，并输入到我们的嵌入层中。
我们可以在嵌入层之后使用 LSTM 或 CNN，然后激活 softmax。

# The word2vec requires sentences as list of lists.texts = df['text'].apply(cleanAscii).valuestokenizer = keras.preprocessing.text.Tokenizer(num_words=5000, oov_token='<OOV>')# fittingtokenizer.fit_on_texts(texts)vocab_size = len(tokenizer.word_index) + 1# max length to be padded (batch_size, 100)max_length = 100train_text = tokenizer.texts_to_sequences(df_train['text'].values)test_text = tokenizer.texts_to_sequences(df_test['text'].values)# getting the padded length of 100padded_train_text = keras.preprocessing.sequence.pad_sequences(train_text, max_length, padding='post')padded_test_text = keras.preprocessing.sequence.pad_sequences(test_text, max_length, padding='post')labels_train = keras.utils.to_categorical(df_train['label'].values, 3)labels_test = keras.utils.to_categorical(df_test['label'].values, 3)metrics = [keras.metrics.Accuracy()]net = Sequential()# return 50 dimension embedding representation with input_length as 100net.add(keras.layers.Embedding(vocab_size, 50, input_length=max_length))net.add(keras.layers.Flatten())net.add(keras.layers.Dense(512, activation='relu'))net.add(keras.layers.Dense(3, activation='softmax'))net.compile(optimizer='adam', loss=keras.losses.categorical_crossentropy, metrics=metrics)net.summary()# The word2vec requires sentences as list of lists.texts = df['text'].apply(cleanAscii).valuestokenizer = keras.preprocessing.text.Tokenizer(num_words=5000, oov_token='<OOV>')# fittingtokenizer.fit_on_texts(texts)vocab_size = len(tokenizer.word_index) + 1# max length to be padded (batch_size, 100)max_length = 100train_text = tokenizer.texts_to_sequences(df_train['text'].values)test_text = tokenizer.texts_to_sequences(df_test['text'].values)# getting the padded length of 100padded_train_text = keras.preprocessing.sequence.pad_sequences(train_text, max_length, padding='post')padded_test_text = keras.preprocessing.sequence.pad_sequences(test_text, max_length, padding='post')labels_train = keras.utils.to_categorical(df_train['label'].values, 3)labels_test = keras.utils.to_categorical(df_test['label'].values, 3)metrics = [keras.metrics.Accuracy()]net = Sequential()# return 50 dimension embedding representation with input_length as 100net.add(keras.layers.Embedding(vocab_size, 50, input_length=max_length))net.add(keras.layers.Flatten())net.add(keras.layers.Dense(512, activation='relu'))net.add(keras.layers.Dense(3, activation='softmax'))net.compile(optimizer='adam', loss=keras.losses.categorical_crossentropy, metrics=metrics)net.summary()

模型摘要

培养

# test the baseline model
def test_baseline_sentiment(text):"""Test the baseline modelArguments:text:str"""padded_text = keras.preprocessing.sequence.pad_sequences(tokenizer.texts_to_sequences([text]), max_length, padding='post')print(net.predict(padded_text).argmax(axis=1))net.evaluate(padded_test_text, labels_test)preds = net.predict(padded_test_text).argmax(axis=1)

如您所见，使用简单的前馈神经网络和嵌入层，我们很难达到 12%的精度

加载语言模型和微调

astAI 为我们提供了一个易于使用的基于维基文本(AWD)的语言模型。

我们将从加载 LM 数据并使用所需的数据初始化它开始。

data_lm = TextLMDataBunch.from_df(train_df = df_train, valid_df = df_val, path = "")# Saving the data_lm as backupdata_lm.save("data_lm_twitter.pkl") # saving as a back stop# Loading the language model (AWD_LSTM)learn = language_model_learner(data_lm, AWD_LSTM, drop_mult=0.3)print(learn)

我们的样本数据

正如你所看到的，fastai 库使用了 spacy tokenizer，所以除了删除 asci 字符之外，我们不对数据进行任何预处理。ULMFit 的作者在经验上很好地检验了标记化过程。

培养

# Finding the optimal learning ratelearn.lr_find(start_lr=1e-8, end_lr=1e2)learn.recorder.plot()# Fit using one cycle policylearn.fit_one_cycle(1, 1e-2)# Unfreeze all layerslearn.unfreeze()# fit one cycle for 10 epochslearn.fit_one_cycle(10, 1e-3, moms=(0.8,0.7))# save the encoderlearn.save_encoder('fine_tuned_enc') # we need the encoder in particular..FOr classifier

模型进度

文本分类

我们现在创建添加我们的分类器在下面的网络(微调)。这是将指定的任务分类器添加到预训练语言模型中的最后一步

这是逐步冻结步骤。

# Preparing the classifier datadata_clas = TextClasDataBunch.from_df(path = "", train_df = df_train, valid_df = df_val, test_df=df_test, vocab=data_lm.train_ds.vocab)# Building the classifierlearn = text_classifier_learner(data_clas, AWD_LSTM, drop_mult=0.5)# loading the saved encoderlearn.load_encoder('fine_tuned_enc') # load th encoder from the LM# slanted learning rate scheduler# fine tuning the whole networklearn.fit_one_cycle(3, 1e-2, moms=(0.8,0.7))  # you can of course train more, Jeremy promises its hard to over fit here :D# fine tuning the network layer by layer to preserve as much information is possible.learn.freeze_to(-2) # unfreeze last 2 layerslearn.fit_one_cycle(2, slice(1e-2/(2.6**4),1e-2), moms=(0.8,0.7))learn.freeze_to(-3) # unfreeze last 3 layerslearn.fit_one_cycle(2, slice(5e-3/(2.6**4),5e-3), moms=(0.8,0.7))learn.freeze_to(-4) # unfreeze last 4 layerslearn.fit_one_cycle(2, slice(5e-3/(2.6**4),5e-3), moms=(0.8,0.7))learn.freeze_to(-5) # unfreeze last 5 layerslearn.fit_one_cycle(2, slice(5e-3/(2.6**4),5e-3), moms=(0.8,0.7))# Unfreezing all the layers and traininglearn.unfreeze() # unfreze alllearn.fit_one_cycle(3, slice(1e-3/(2.6**4),1e-3), moms=(0.8,0.7))

我们达到了 94%的准确率

ULMFit 概述

ULMfit 流程的回顾

https://arxiv.org/abs/1801.06146

不同类型的流程如下:

LM 预训练:这是我们遵循无监督学习来捕获大型语料库的语义和概率表示的步骤。(维基文本-103)
LM 微调:这是我们通过使用某些新技术来微调 LM 的步骤。由于 AWD-LSTM(预训练模型)的每一层都捕获关于语料库的不同信息，我们首先微调最后一层，因为它包含最少的信息，而所有其他层都被冻结。然后，我们解冻所有其他层，用指定的任务重新训练模型。这样，我们不会丢失信息。通过使用倾斜的三角形学习率(模式为三角形的循环学习率)来完成训练。
最后一步是分类器微调，其中分类器模型附加到模型的顶部，并通过使用逐步解冻来训练，我们通过逐层解冻来训练模型。

T 这些技术是:

区别微调
倾斜三角形学习率
逐渐冻结

乌尔菲特在推特上表达了美国航空公司的观点。(预测和准确性)

def get_sentiment(text:str):"""Get the sentiment of text.Arguments:text: the text sentiment to be predicted"""index = learn.predict("This was a great movie!")[2].numpy().argmax()print("Predicted sentiment: {}".format(mapping[index]))def evaluate():"""Evaluates the networkArguments:NoneReturns:accuracy: float"""texts = df_test['text'].valueslabels = df_test['label'].valuespreds = []for t in texts:preds.append(learn.predict(t)[1].numpy())acc = (labels == preds).mean() * 100print("Test Accuracy: {}".format(acc))return preds, labelsget_sentiment("This is amazing")preds, labels = evaluate()print(classification_report(labels, preds, labels=[0,1,2]))print(confusion_matrix(labels, preds))

模型结果

混淆矩阵

如你所见，我们的模型很好，但可以通过试验超参数来改进。
如果我们看到混淆矩阵，我们可以看到我们的模型对大多数类别进行了正确的分类。
黑色代表 0，从图上看，我们得到的大多数预测都是黑色的

结论和未来方向

到得出结论，我们取得以下结果:

我们使用美国航空公司的推文数据库训练一个模型来预测推文的情绪。
我们使用 ULMFit (Ruder 等人，2018 年)通过上面给出的新技术来训练我们的模型。
我们使用流行的 fastai 库来训练模型，因为它包含 AWD-LSTM 的预训练权重。
我们实现了 94 的测试准确度，由于我们的数据集不*衡，我们使用 F1 分数等指标。
我们得到一个 F1 分，即 89 的准确度。
我们使用混淆矩阵进一步检验我们的模型的性能。

为了建立一个更好的模型，我们还可以使用其他语言模型和技术，如 BERT、use、Transformers、XLNet 等。

Colab 笔记本:https://Colab . research . Google . com/drive/1 eismifjg 1 aengepsfseb 55 bjcciop 5 pq？usp =共享

混合蛙跳算法综述

原文：https://towardsdatascience.com/a-survey-on-shuffled-frog-leaping-algorithm-d309d0cf7503?source=collection_archive---------27-----------------------

自然；人类最优秀的老师

穆罕默德·N·穆罕默迪的图片

T 何混合蛙跳算法(SFLA)是受自然界中青蛙的社会行为启发的最具创新性的优化算法之一，在分类方面，行为算法或模因算法都包含在其中。蛙跳优化算法的其他名称包括蛙跳算法、蛙跳算法和 SFLA 算法。该算法由 Eusuff 和 Lansey 在 2003 年首次提出，尽管此后提交了许多论文来改进该算法。在下载链接的底部是青蛙优化算法的主要文章。

什么是 SFLA 算法？

SFLA 算法是一种基于元启发式模因论的算法。memetic 算法是一种基于种群的算法，用于复杂而重要的优化问题。该算法的主要思想是在遗传算法的结构中使用一种局部搜索方法来提高搜索强化过程的水性能。memetic 算法首先加密初始答案的总和，然后 Ibn 算法基于一个适应度函数计算每个答案的效用，并生成新的解。

SFLA 算法的灵感来自青蛙寻找食物的方式。该算法使用诺模法在青蛙子群中进行局部搜索。青蛙混合跳转算法使用混合策略，并允许在局部搜索中交换消息。该算法结合了诺模算法和粒子群优化的优点。在青蛙混合跳转算法中，不仅在局部搜索中而且在全局搜索中交换单词。因此，局部和全局搜索在该算法中得到了很好的结合。青蛙混合跳转算法是高度可搜索和易于实现的。青蛙混合跳转算法可以解决许多非线性、不可检测和多状态问题。

青蛙变异算法的描述

该算法结合了两类基于遗传算法(如模因论)和基于社会行为算法(如粒子群鸟算法)的优点。它试图在可能的答案空间中的广泛审查之间取得*衡。在这种群体算法中，一群青蛙(答案)组成，每只青蛙在遗传算法中都有一个类似染色体的结构。青蛙的整个种群被分成更小的组，每组代表不同类型的青蛙，它们分散在答案空间的不同地方。然后，每组青蛙开始在它们的栖息地周围进行精确的局部搜索。

每一类中的每一只青蛙都受到其群体中其他成员以及其他群体的影响。几个步骤之后，混合发生了，信息在所有组中传播，以建立收敛和到达答案的条件。如何在该算法中找到最优解包括全局和局部搜索两个阶段。

初级种群形成

在初始种群的形成中，首先确定群体的数量和每个类别中应该有的青蛙数量。如果群体的数量和每个群体中青蛙的数量被认为是 1，那么样本的总数量将是 F = m * n。然后为生产的所有样本计算成本函数。分类和分配基于计算的成本函数来计算选择的青蛙的总数，使得具有最低成本函数和最佳位置的示例在第一位置。最佳青蛙的位置存储在整个种群中。然后将所有的青蛙分成 m 个选定的类别，这样每个类别中就有一只青蛙。

划分方法如下:在有序群体中，第一个成员在第一个类别中，第二个成员在第二个类别中，依此类推，直到受托人被选择并被置于“m”类别中，然后 1 + m 成员将在第一个类别中，因此划分青蛙的过程将继续。

群体的进化青蛙在每个群体的不同类别之间的划分以预定的数量重复进化的步骤。在这个步骤之后，所有的青蛙被组合，并且重复全局搜索步骤。

SFLA 流程图

SFLA 蛙跳算法的步骤

SFLA 算法的元探索策略按照以下步骤概括为全局探索和局部探索两个主要阶段。

全球勘探阶段

第一步:初始化

选择 M，N. M 代表 memeplex 的数量，n 代表每个 meme plex 中青蛙的数量，所以池塘的总种群大小由关系式 f = m * n 得到。

步骤 2:虚拟人口的产生

从可用空间中，采样 F 个虚拟青蛙 U(1)，U(2)，…，U(F)。计算每个 U(i)的能力值。

u(I)=(ui1 \u 2，…\u Uid)。此外，d 是决策变量的数量。

步骤 3:对青蛙进行分级和分类

将青蛙按优劣降序存放在数组 X = {U(i)，f(i) & i=1…，F}中。记录种群中最好的 Px 蛙的位置。(U = Px(1))。

第四步:把青蛙分成复合物

将数组 X 分成 Y，每个数组包含 n 只青蛙。

第五步:模因论在每个模因丛中的进化

每个 Yk memeplex(k = 1，2，3，…，m)由下面描述的局部搜索蛙跳算法进化而来。

第六步:合并 memeplexes

在每个模因丛中发生一定数量的模因进化后，将模因丛(Y1，…，Ym)置于 X 中，使得关系 X = {Y(k)，k = 1，2，…。，m}成立。然后，更新(Px)种群的最佳位置。

步骤 7:趋同研究

如果满足收敛条件，则停止。否则，转到全局搜索的第四步。

穆罕默德·N·穆罕默迪的图片

当地探险步骤:

在全局搜索的第五阶段，每个迷因复合体的进化被独立执行 N 次。在 memeplexes 进化之后，算法返回到全局搜索以完成组合。以下描述了每个 memeplex 中本地搜索的详细信息:

步骤 1:初始化

将中的 im、和置零，im 统计 memeplexes 的个数，iN 统计进化步数。

第二步:1 + im = im
第三步:1 + iN = iN
步骤 4:创建一个子复合体

青蛙的目标是通过改善它们的迷因来移动到最佳位置。选择子丛的方法是给性能较高的青蛙分配较多的权重，给性能值较低的青蛙分配较低的权重。权重通过三角概率分布来分配，Pi = {2(j-1 + n) / n(n+1)，j = 1，…，n}。为了构建子 memeplex Z 数组，从每个 memeplex 的 n 只青蛙中随机选择 q 只青蛙。子丛中的那些分别用 PB 和 PW 表示。

第五步:纠正最差青蛙的位置。

子模板中最差的青蛙(具有最差性能的青蛙)的新位置通过关系 U(q) = S + PW 来计算。s 是青蛙的步长(跳跃的速率),它将被获得:

如果新位置比前一个位置更好，那么用前一个 U(q)替换新的 U(Q ),并转到局部搜索的步骤 8。否则，转到本地搜索的步骤 6。

第六步:用 PX 计算步长。

如果在步骤 5 中没有获得更好的结果，那么使用下面的等式计算青蛙的步长:

并且通过关系式 U (q) = S + PW 来计算新位置(U(q))。如果 U(q)在可能的空间内，则计算新效率 f(q)的值。如果 f(q)新的优于前一个，那么用前一个 U(q)替换新的 U(q ),进入局部搜索的第八步。否则，转到本地搜索的第七步。

第七步:审查

如果新位置不在可实现区域内或不比先前位置好，则在可用位置随机产生新的辙叉(r ),并替换其新位置不适合前进的辙叉。计算 f(r)，设 U(q)等于 r，f(q)等于 f(r)。

第八步:更新 memeplex。

在子丛中最差的青蛙模仿变化后，将 Z 中的青蛙放在 Yim 上它们原来的位置。按性能降序排列 Yim。

第九步:如果 N > iN，转到第三步本地搜索。
第十步:如果 m > im，则进入本地搜索的第一步。否则，返回全局搜索以合并 memeplexes。

希望有帮助。如果您对 Linkedin 有任何问题或反馈，请告诉我。

Common Lisp 快速入门

原文：https://towardsdatascience.com/a-swift-introduction-to-common-lisp-16a2f154c423?source=collection_archive---------18-----------------------

熟悉有史以来第二种高级编程语言。

在 1958 年，一个新成员以第二高级和第一函数式编程语言 Lisp 的形式出现了。Lisp 是一种伟大的开源语言，尽管它已经存在了很长时间，但这些年来一直在不断地发展。此外，Lisp 已经发展成许多更小的方言，这些方言通常允许在 Lisp 内部更容易地完成特定的任务。Lisp 是一种很棒的语言，因为它得到了很好的支持，有很好的文档记录，并且非常受人尊敬。最流行的现代 Lisp 方言有 Common Lisp、闭包、Scheme、Machine Lisp、Arc，当然还有 Emacs Lisp。

如果你来自任何一种不是基于 Lisp 本身的语言，Lisp 是一种非常不同的语言。Lisp 编程非常具有功能性，它围绕着使用宏来断言数据的功能。这是一件需要注意的重要事情，因为语法一点都不相似。

获取 CLisp

Common Lisp (CLisp)实际上是可爱的 GNU 基金会的产品，并且是完全免费和开源的。要在非 Unix 系统上安装 Common Lisp，您需要从 SourceForge 或其他地方找到的镜像下载二进制文件。由于我不知道如何在 Windows 上安装应用程序，我就不讲我不知道如何做的东西了。至于 Linux，你当然可以使用你的包管理器，在我的例子中是 dnf。

sudo dnf install clisp

至于 MacOS，你也可以通过你的软件包管理器来安装它:

brew install clisp

(这里是公式化)

要测试您的 CLisp 安装，只需在终端中输入以下命令就可以进入 REPL

clisp

变成巴什。

基本语法

今天，我将专门在 REPL 工作。这是为了确保文本编辑保持编译器、编辑器和语法高亮之间的一致性，而且我们不必保存文件。因此，首先，我将像之前一样使用命令进入 CLisp REPL

clisp

关于 Lisp 首先需要了解的是语法。Lisp 的语法当然很漂亮，也很酷，但最重要的是它是独一无二的。在 Lisp 中，几乎所有的命令都包含在括号中，并且使用空格作为语法，所有的命令都不区分大小写(所有的命令都是大写的)。)在我开始解释 Lisp 之前，我认为需要解释 Lisp 的范例，函数式编程范例。这对于学习 Lisp 非常重要，尤其是在学习非函数式语言的时候。

阅读更多关于函数式编程的内容(由我！)

首先，构造类型只能保存数据，不能保存函数。Lisp 的独特之处在于数据可以作为代码使用，甚至可以在后台编写代码。构造类型被称为构造函数，与面向对象的类不同，尽管它们填补了同样的空白。换句话说，如果不使用多态，我们就不能将函数作为构造函数的属性来应用。例如，在 Python 中，我们可以有一个名为 cl 的类，该类可以有一个子类，并有可以用 cl.function 或 cl.subclass 调用的子方法。

换句话说，Lisp 函数调用总是以方法开头，而不是以变量开头。这也可以和另外两种函数式语言相提并论，它们是我一生的挚爱，

朱莉娅

另一个很酷，

稀有

所以很可能来自这两种语言会让你更接*。所以让我们从定义一个变量开始。当我们命名一个变量时，注意语法的结构是很重要的。在下面的例子中，我使用 setq，它将生成一个全局变量。我们使用 setq 的方式与使用 Lisp 中任何其他函数的方式基本相同。

 v-method   vvv-Variable Value
(setq x '(5 4 8 4))
      ^-Variable Name

这将创建一个我们可以用列表类型的 x 调用的变量，它是通过在括号前放一个'来定义的。下面是 Lisp 中的简单加法:

 vvv Parameters
(+ 5 5)
 ^ Method (addition)

这里有一个类似的例子，打印一个字符串:

(prin1 "Hello World!")

要记住的最重要的事情是方法和变量是如何对齐的，因为这将使你更习惯于在 Lisp 中调用函数的方式。

函数和 For 循环

Lisp 中的函数是用 defunc 定义的。我们可以定义一个函数，它有一个名字，和一组参数，参数之间用空格分开，放在一组单独的括号中。

(defunc add (x y)
; (We'll add logic later)
)

这个函数定义非常典型，就好像我们把它与 Python、Julia 和 R 相比，R 是唯一一个显著不同的。

计算机编程语言

def add(x, y):

朱莉娅

function add(x, y)

稀有

add <- function(x, y){}

因此，给定我前面展示的添加 5 + 5 的代码，很容易猜到我们在这里需要做什么，特别是有了其他语言的经验之后。

(defunc add (x y) (+ x y))

是的，真的就这么简单。

当我学习一门新语言时，我总是喜欢写一个函数，它是一个均值函数。虽然这是非常基本的，但是尝试写一个需要 sigma(总和)和 n(样本大小)。)求和以及样本大小对于很多编程都是必不可少的，尤其是统计编程，这也是我特别使用 Lisp 的原因。

如上所述，我们需要两个东西，n 和σx。幸运的是，Lisp 有一个长度函数，可以这样使用:

(length x)

很简单，对吧？唯一的问题是求和没那么简单。为了对数组求和，我们需要使用 reduce。我们可以通过简单的操作做到这一点:

(defun sum  (x) (reduce '+ y)
)

Lisp 中的 Reduce 是一种简单的说法，即从开始处开始，到列表的末尾。为了进行这样的操作，因为它是基于数组的，我们需要使用'+操作数，而不是+操作数。现在，我们可以用我们的函数来总结一个数组:

(sum x)

现在我们已经有了求和的方法，我们需要决定如何来设计这个函数。以最简洁的方式，不定义任何变量，并通过计算建立回报。这当然是编写这个函数的最佳方式，但是以这种方式思考公式可能会特别令人困惑——所以在这种情况下，我每次都会使用它，而且在大多数情况下我都会这样做。然而，当有大量的数学运算时，这可能会很困难，有时会导致使用更多的编译能力和内存。)

但是首先，让我们写出我们的*均函数。

(defunc mean (x) (/ (sum x) (length x))

为了更好地理解这一点，我们首先在括号中进一步计算数学(运算顺序)，然后对 sigma 和 n 执行除法运算。

为了使用我们的函数，记住‘是指数组，所以在 Lisp 中创建一个数组，我们使用:

(setq x '(5 8 4 6 8))

所有的暗都被空间隔开。

至于 for 循环，想象一下 Python、Julia 或 R 中典型的简明 for 循环:

x = [u = u * 5 for u in x]

在 Lisp 中，我们将完全遵循这种循环风格，除了一个例外，我们将首先在括号中使用 loop，并且逻辑将需要翻转，使用单词“do”来代替，就像这样:

(loop for w in array do (+ w 1))

这当然只是给每个元素加一。另一个需要记住的重要事情是，do 后面的括号之外的任何逻辑都不会包含在循环中，这意味着层次结构中的所有内容都将期待一个返回，类似于我们的 mean 函数，操作的顺序决定了先做什么。

再用力一点…

最后一部分，我们要写一个函数来计算标准差。为了计算一个数组的标准差，我们需要μ。幸运的是，我们刚刚创建了一个函数，它将为我们提供 mu。使用 mean 函数和 setq，我前面谈到的全局变量定义(这会使 dims 公开，这并不总是一个好主意，但我认为知道如何使用全局变量比私有变量更好。)我们可以将*均值定义为μ，并使用一个简单的 for 循环来计算。在 for 循环内部，我们有(x 减去 mu)，我们可以通过将这个数乘以它本身来执行。

正如我前面讨论的，这个选项可能不总是优于 setq，为了看起来更简洁，可能不值得这样做。无论如何，在我们将这个 for 循环应用到我们的列表之后，我们将能够求*均值的*方根并返回标准偏差。

(defun std (x) (setq μ (mean x)) (loop for y in x do
  (* (- x μ) (- x μ)))) (sqrt (mean x)
)

总结一下…

我喜欢编写 Lisp，我真的希望这篇文章能为有兴趣学习它的人提供很多信息。我有可能在未来做类似的工作。在我看来，Lisp 是一种美丽的语言，它在我心中占有一席之地。虽然 Lisp 肯定不同于许多其他语言，但我认为它的语法看起来很酷也很漂亮。在相关新闻中，我的 Julia 模块，用于机器学习、统计和数据处理的车床即将进入 Lisp、Python 和 R，Python 和 R 在 Julia 中本地运行包，Lisp 从包的 Lisp 端口本地运行包。此外，这让我对 Lisp 感到兴奋和激动。

Julia 对 Flux 的快速介绍(使用 CUDA)

原文：https://towardsdatascience.com/a-swift-introduction-to-flux-for-julia-with-cuda-9d87c535312c?source=collection_archive---------21-----------------------

用 Flux 在 Julia 中建立你的第一个渐变模型

(src = http://fluxml.ai)

自从经典的 Mocha.jl 时代以来，Julia 中的机器学习已经走过了漫长的道路，对该生态系统做出贡献的最具开创性的创造之一是 Flux.jl. Flux 是 Julia 的权威梯度下降库，可以与 Python 的 Tensorflow 相提并论。Flux 遵循与许多 Julia 包类似的概念，如 Lathe.jl 和 DataFrames.jl，只用大约 1000 行代码编写，并且只依赖于 Julia 本身。与 Tensorflow 和 Pytorch 等解决方案相比，它们都使用各种语言，包括 C++、Go 和 C。

(src = http://juliacomputing.com)

Julia 的一个优点是并行计算*台和多线程与语言的无缝结合。没有比这更形象化的了(明白吗？相比 NVIDIA 图形处理器的古老*台 CUDA。Julia 和您的硬件之间的紧密集成很好地延续到 Flux 中，使 Flux 和 CUDA 成为真正的天作之合。将机器代码中的零标志设置为一，系好安全带，因为这肯定会令人兴奋！

获取数据

对于我今天的样本数据，我选择了来自 MLDatasets.jl 的数据集，它是可爱的 Julia Computing 的产品，您可以使用 Pkg 添加它:

using Pkg;Pkg.add("MLDatasets")

或者，在 Pkg REPL:

bash -$ julia
julia> ]
pkg> add "MLDatasets"

我通常不从常用的包中选择数据集，但是我做了这个例外，以确保这段代码不需要任何下载就可以重现(至少不需要通过您的 web 浏览器)。我要使用的数据集是时尚敏斯特数据集，我们可以这样下载:

**using** MLDatasets FashionMNIST.download(i_accept_the_terms_of_use=true)
train_x, train_y = FashionMNIST.traindata();  
test_x,  test_y  = FashionMNIST.testdata();

您还可以选择添加一个验证集，或者用 Lathe 分割您自己的数据集:

using Pkg; Pkg.add("Lathe")
using Lathe.preprocess: TrainTestSplitusing DataFrames
# Validation:
train_x, train_y = FashionMNIST.traindata();
test_x, test_y = FashionMNIST.testdata();
df = DataFrame(:Feature => train_x, :Target => train_y)
train, val = TrainTestSplit(df)f = :Featuret = :Target
val_x = val[f]
val_y = val[t]
train_x = train[f]
train_y = train[t]# Bring your own data:
using CSV
df = CSV.read("data.csv")
train, test = TrainTestSplit(df)

因为我的数据集处理图像，所以我应该将数据从各自的文件格式转换成图像，我们可以这样做:

**using** ImageCore
FashionMNIST.convert2image(FashionMNIST.traintensor(4))

建模

首先，我们需要导入通量本身:

**using** Flux, Statistics 
**using** Flux: onehotbatch, onecold, crossentropy, throttle, params **using** Lathe.stats: mean 
**using** Base.Iterators: partition 
**using** Random

我还直接从 Flux 导入了几个模块包括 onehotbatch，onecold，crossentropy，throttle，params，还有从 Lathe.stats 导入的 mean 函数，从 Julia 的迭代器导入的 partition，还有 Random。所有这些都是我们可以用来制作通量模型的拼图的一部分。下一步将是构建模型链。这是 Flux 真正闪光的地方，因为与大多数其他机器学习库不同，Flux 的渐变层使用链工作。Flux 使用 Julia 语言中各种独特而令人敬畏的语法点的组合来创建一个非常优雅的机器学习环境，chain 就是一个很好的例子。

model() = Chain(
  Conv((5, 5), 1 => 64, elu, pad=(2, 2), stride=(1, 1)),
  BatchNorm(64),
  MaxPool((3, 3), pad=(2, 2), stride=(2, 2)),
  Dropout(0.25),
  Conv((5, 5), 64 => 128, elu, pad=(2, 2), stride=(1, 1)),
  BatchNorm(128),
  MaxPool((2, 2), stride=(2, 2)),
  Dropout(0.25),
  Conv((5, 5), 128 => 256, elu, pad=(2, 2), stride=(1, 1)),
  BatchNorm(256),
  MaxPool((2, 2), stride=(2, 2)),
  Dropout(0.25),
  x -> reshape(x, :, size(x, 4)),
  Dense(2304, 256, elu),
  Dropout(0.5),
  Dense(256, 10),
  softmax) |> gpu

接下来，我们需要为我们的训练数据获取 N:

N = size(train_x)[**end**]

现在，我们可以使用 N 通过范围迭代来随机混洗和排列我们训练索引:

ixs = collect(1:N)
shuffle!(ixs)
n = Int(floor(.9 * N))

这里需要注意的重要一点是，我们的数据需要存储在子数组或字典中。鉴于这将适用于字典，它很可能也适用于数据帧。将我们的数据转换成 Flux 批处理可以接受的格式后，我们可以像这样对数据进行批处理:

**function** make_batches(data; bs=100)
    n = size(data[1])[**end**]
    sz = (28, 28, 1, bs)
    iter = [(reshape(Float32.(data[1][:, :, i]), sz), onehotbatch(data[2][i], 0:9)) **for** i **in** partition(1:n, bs)] |> gpu
**end**

train = make_batches(train)
val = make_batches(val)
test = make_batches(test);

现在，我们简单地用预期回报构建我们的模型:

m = model()

这是输出:

**Chain(Conv((5, 5), 1=>64, elu), BatchNorm(64), MaxPool((3, 3), pad = (2, 2), stride = (2, 2)), Dropout(0.25), Conv((5, 5), 64=>128, elu), BatchNorm(128), MaxPool((2, 2), pad = (0, 0, 0, 0), stride = (2, 2)), Dropout(0.25), Conv((5, 5), 128=>256, elu), BatchNorm(256), MaxPool((2, 2), pad = (0, 0, 0, 0), stride = (2, 2)), Dropout(0.25), #9, Dense(2304, 256, elu), Dropout(0.5), Dense(256, 10), softmax)**

我没有为这个特定的模型进行超参数调整，所以很可能只需要一点优化就可以提高精度。

接下来，我们需要一个度量函数，它将允许我们的模型检测它什么时候做得好或者坏。为此，我们需要三大部分:

尝试、验证、重建

我喜欢把这种尝试称为网络学习任何东西之前的初步猜测。验证是该过程中的一个重要步骤，模型需要检测它是变得更准确了，还是变得不准确了。最后但同样重要的是，重构是一个递归过程，在这个过程中，猜测被恢复并从中学习。这是我的函数:

**function** met(data)
    **global** batch_idx
    acc = 0
    **for** batch **in** data
        x, y = batch
        pred = m(x) .> 0.5
        tp = Float32(sum((pred .+ y) .== Int16(2)))
        fp = Float32(sum((pred .- y) .== Int16(1)))
        fn = Float32(sum((pred .- y) .== Int16(-1)))
        tn = Float32(sum((pred .+ y) .== Int16(0)))
        acc += (tp + tn) / (tp + tn + fp + fn)
    **end**
    acc /= length(data)
    push!(eval_acc, acc)
    **if** batch_idx % 100 == 0
        @show(batch_idx)
    **end**

    batch_idx += 1
**end**

然后我们可以将所有这些部分插入语法表达式:

loss(x, y) = crossentropy(m(x), y)
evalcb = () -> met(val)

然后训练我们的模型！

Flux.train!(loss, params(m), train, opt, cb = evalcb)

现在，我们可以使用相同的度量函数来检查我们的精度:

met(test)
println("accuracy:", eval_acc[1])

百分之九十七的准确率！

结论

Flux 的语法、表达式和速度使其成为在 Julia 工作的数据科学家的一个非常有价值的工具。Flux 在许多测试中击败了竞争对手，因为它体积小、简单、快速且有效。Flux 的另一个巨大好处是模块化模型可以是什么样的，正如我通过在一个链中构建我的网络层，然后在其上传递更多内置来说明的那样。总的来说，我对 Flux 的发展以及 Julia 在机器学习和统计方面的整体发展感到兴奋。如果你对 Flux 感兴趣，另一个你可能感兴趣的很酷的东西是 KNet，我将很快写一篇关于它的“快速介绍”!你现在可以亲自去看看 Metalhead.jl，这是一个用 Flux 编写的图像分类器，可以适应新数据，并可回收用于任何分类用例。

车床快速入门:面向对象建模语言

原文：https://towardsdatascience.com/a-swift-introduction-to-lathe-oop-ml-for-julia-8208bcbb4fc8?source=collection_archive---------61-----------------------

车床机器学习库使用介绍。

(图片由作者提供)

介绍

在 Julia 生态系统中，有许多针对数据科学学科的包。有用于分布、推理和贝叶斯统计、数据可视化甚至深度学习的包。虽然这些包中的许多都是很棒的解决方案，并且分别工作得很好，但是还有一个更新的、更具包容性的解决方案，它在 Julia 语言中提供了类似 Sklearn 的语法，这通常有助于编写更多的函数代码。

车床。jl 是一个统计，预测建模，数据处理和深度学习库，所有这些都浓缩到一个单一的包中，您可以通过 Pkg 添加。与机器学习的其他 Julian 解决方案相比，Lathe.jl 的一个优势是，Lathe 利用 Julia 的调度类型来创建具有子调度方法的类型。这对于像模型这样的东西非常有用，在这种情况下，您可能希望有一个在拟合或预测之前执行一些逻辑的初始化函数。此外，使用包含在给定类型中的类型和数据的能力，而不是为了使用给定的方法而需要提供它们，对于机器学习来说也是非常有价值的。

笔记本

入门指南

为了开始用车床处理算法，你首先需要安装它。虽然这很简单，但重要的是要确保你使用的是正确的分支和版本的车床。要添加最新版本的车床，可以这样做

using Pkg;Pkg.add("Lathe")

你体内的朱莉娅·REPL。

(图片由作者提供)

这将给你车床版本 0.1.1“黄油球。”只要您使用的是车床“Butterball”的版本，本教程应该适用于所有涉及的代码。如果您想先睹为快，也可以添加不稳定分支:

julia>]
pkg> add Lathe#Unstable

您还可以为 0.1.0 以上的每个特定版本添加分支:

add Lathe#Butterball
add Lathe#0.1.0
add Lathe#0.1.1
add Lathe#0.1.2

您还需要添加 DataFrames.jl。它不仅是这台车床唯一的依赖项，而且还与车床中的许多函数相关联，这些函数将采用数据帧类型。

add DataFrames

现在你应该可以导入车床了:

using Lathe

关于使用任何 Julia 包，我能给出的一些很好的建议是熟悉如何使用？()方法来浏览文档。大多数软件包使用 Documenter.jl 来创建它们的文档，这些文档通常是通过 Juliahub 生成的(这真的很酷)，所以经常会有一些文档，你可以很容易地在你的 REPL 或笔记本中访问它们。如果你想了解更多关于用 doc-strings 和 Documenter.jl 创建自动化文档的知识，我写了一个完整的教程，你可以在这里查看:

[## 如何用 Documenter.jl 自动化 Julia 文档

没有文档，软件是没有用的，所以用 Documenter.jl 把文档的痛苦去掉吧

towardsdatascience.com](/how-to-automate-julia-documentation-with-documenter-jl-21a44d4a188f)

每当我们运行我们的。()方法放在车床模块上，我们得到这样的回报:

(图片由作者提供)

让我们先来看看 Lathe.stats，它是 Lathe.jl 包含的统计库。我们将在下面的代码中直接使用它:

using Lathe: stats

现在我们将调用我们的？()方法在上面:

(图片由作者提供)

作为回报，我们得到了这个库中所有可用函数的详细列表。今天，我们将忽略统计库，直接进入预处理，但是如果您需要的话，统计数据总是存在的。

数据

为了开始使用车床，我们当然需要一些数据来支持它。用于基本示例的一个很好的格式是逗号分隔值，我们需要 CSV.jl 包来读取它。如果您的计算机上没有该包，您可以使用以下命令获取它:

pkg> add CSV

在本例中，我将使用一些汽车数据训练一个模型，这些数据包含欧洲汽车的信息，如里程、价格和转售价值。

using CSV
df = CSV.read("car data.csv")

该数据有两个可能相关联的特征，并且用线性回归来探索是有趣的，那就是汽车的销售价格和它的制造年份。让我们从删除所有我们不需要的特性开始。为此，我们可以创建一个全新的数据框，或者删除我们不需要的要素。我更喜欢后者。

using DataFrames
df = DataFrame(:Year => df[:Year], :Price => df[:Selling_Price])

为了检查缺少的值，我们将运行一个快速 for 循环来检查值是否缺少:

for year in df[:Year]
    if year == Missing
        println("missing")
    end
end
for price in df[:Price]
    if price == Missing
        println("missing")
    end
end

幸运的是，这个数据没有值，所以我们将继续把数据分成测试和训练集。为此，我们将使用车床:

(图片由作者提供)

我们正在寻找的方法是 TrainTestSplit()。要找到关于函数的更多信息，我们可以使用？()方法上也是如此:

(图片由作者提供)

这不是最好的文档，但是它确实给了我们一个概念，我们需要为这个函数提供什么参数。有趣的是，这个函数使用 Julia 的 dispatch，所以我们也可以直接调用 dispatch 函数，就像这样:

train, test = preprocess._dfTrainTestSplit(df, .75)

(图片由作者提供)

现在，我们将把它放入新的数组中，用于训练值和测试值:

trainX = train[:Price]
trainY = train[:Year]
testX = test[:Price]
testY = test[:Year]

建模

最后，我们可以从 Lathe.models 获取 LinearRegression。如果您使用的是更新版本的 Lathe，您可能需要调用 SimpleLinearRegression。

?(models.LinearRegression)

(图片由作者提供)

如您所见，我们需要为 y 和 x 提供一个一维数组，并将调用 predict 函数来返回一个预测值。我们可以像在 Julia 甚至 Python 中创建类型一样拟合模型:

model = models.LinearRegression(trainX, trainY)

现在我们可以在没有测试数据的情况下调用这个模型。

yhat = model.predict(testX)

(图片由作者提供)

因为年份是整数，所以我将遍历这些值，并将它们四舍五入为最接*的整数:

yhat = [year = Int64(round(year)) for year in yhat]

(图片由作者提供)

注意:

如果您使用的是车床 1.2 +，那么在直接调用模块时，您将能够调用所有函数作为导出。或者，您可以调用作为由车床导出的模块的子模块的函数。

为了验证我们的模型，我们可以使用来自 Lathe.stats 的*均绝对误差指标:

using Lathe.stats: mae
println(mae(yhat, testY))

我认为这是非常准确的！如果我们真的需要，我们也可以使用来自 Lathe.preprocess 的规格化器。对于这个例子，我打算迭代最小可行产品，但是 MAE 为 0 意味着模型在这个测试中是完美的，所以我真的没有任何改进可以做，除非我着手建立一个验证集并进一步提高模型的准确性——并冒过度拟合的风险。

结论

车床是一个伟大的上升和未来的工具，我非常兴奋。虽然肯定还有很多工作要做，但我认为它对 Julia 语言的影响是相当大的。有了类似 Sklearn 的语法，以及非常容易理解的函数和类型，我认为它可以为许多 Python 用户搭建一座桥梁，这些用户不太习惯于将参数放入一个结构并将它们作为参数传递，以使方法适合模型类型和数据。

Julia 中元编程的快速介绍

原文：https://towardsdatascience.com/a-swift-introduction-to-metaprogramming-in-julia-5eef529f5a8a?source=collection_archive---------68-----------------------

在 Julia 中使用 Julia 的元包进行编程的基础。

(茱莉亚 logo src = http://julialang.org)

笔记本

介绍

Julia 语言因其许多相对有用的特性而备受推崇。然而，我认为在 Julia 语言中经常被忽略的一个特性是 Julia 的元编程能力。元编程是一种编程方式，其中一个程序使用另一个程序作为其数据。当我说程序时，我指的是可以在该语言中运行的任何可执行代码，而不是单独的语言或应用程序。

元编程非常有用。有些事情你可以用代码作为数据来做，而这些事情在编程语言中是无法做到的。我想从我的文件夹中给大家带来一个很好的例子是 Hone.jl. Hone.jl 使用元标记，这些元标记只是包含代码的字符串，可以随后连接和修改这些字符串以形成图和绘图。如果不使用这些元标记，有些事情是不可能实现的，那就是扩展 Hone 的能力。如果你想了解更多关于如何编写 Hone 扩展的知识，你可以看看这篇文章:

[## 我是如何在 Julia 中编写第一个 Hone 扩展的

在 Julia 中创建和使用我的绘图库的扩展。

towardsdatascience.com](/how-i-programmed-the-first-hone-extension-in-julia-edf7813d0e1b)

幸运的是，Julia 中的元编程很容易上手。朱莉娅的元是很容易掌握和学习的东西之一，但要掌握起来要困难得多。使用元编程的一个很大的缺点是，它会使调试变得特别困难，因为您的代码都包含在表达式中，一个小错误，比如省略一个逗号，就会使您的代码无法运行。这是因为在线上读取错误返回比解析错误要容易得多。

表达式类型

为了在 Julia 中有效地进行元编程，你需要很快习惯的一件事是一种新的类型。让我给你介绍一下:

:Expr

表达式类型是一种旨在存储可评估的已解析元代码的类型。为了进行基本的字符串到表达式的转换，您需要熟悉 Base.Meta 中的 parse()方法。

using Base.Meta: parse

让我们试着在一个字符串上使用它:

请注意，我们的输出现在变成了一个符号。这个符号在某种程度上可以被看作是我之前谈到的应用程序。这是一个运行该符号内部代码的表达式。或者，我们也可以创建一个我们自己的符号来执行这个运算。

正如您所看到的，这两个都是表达式，一个是解析的，另一个是使用内部带有语法的符号创建的。这实际上是存储在符号数据类型中的代码。

表达式的属性

Expr 类型实际上有一些您可能没有想到的有趣属性。真正酷的是，它们允许我们剖析数据/代码的内容，并对它们有更多的了解。我想给你看的第一个财产是人头。Expr 类型包含两种主要的数据类型，头数据和参数数据。head 用于界定要传递的是哪种表达式。在这个例子以及大多数例子中，我们使用:call 类型。这不是一个实际的数据类型，只是一个存储在 Expr 结构中的符号。

接下来我们有参数。Args 是我们的数据包含的所有参数。这些争论可以分为两类。他们要么是

操作

其中包括方法和操作数。这些将用符号数据类型来表示。事实上，这些是你的元表达式的元部分。然而，如果没有数据，这些操作是没有用的，所以除了操作之外，我们还有

数据。

我们可以通过打印所有参数的类型来可视化这一点。

这基本上就是解析器为我们做的事情。解析器将需要执行的功能和数据相互分离。之后，它会把所有东西按正确的顺序排列，这样它就可以被正确地评估。另一件应该提到的事情是从字符串类型到表达式类型的转换。

解析和评估

既然我们理解了 parse()的作用，以及它如何将字符串转换成表达式类型，我们现在可以开始创建一些表达式，然后用 eval()对其求值:

data_code = "mean([5,10,15,20])"
expression = parse(data_code)
mu = eval(expression)

这是相对基本的，但也有一些事情你应该注意。首先，如果你所有的数据都在一个字符串中，你如何使用字符串数据类型？不幸的是，在 Julia 中没有办法像在 Python 中那样在字符串内部分隔字符串，所以我们需要使用正则表达式。仔细想想，正则表达式本身也是元程序；所以我们真的是在兜圈子。在 Julia 中获取字符串而无需创建字符串的最简单方法是使用一个符号:

symb = :hello_world
a_string = string("\"",string(symb),"\"")

正则表达式\ "用于在字符串中分隔引号。

这真的就是全部了！

元编程是一个强大的工具，我相信有时会被忽略。我认为茱莉亚的处理方式是最完美的处理方式。虽然它肯定不是这门语言的重点，但是它的实现非常好，使用起来也非常简单。Julia 有很强的元编程能力，我已经享受了很长时间了！

一种表格检测、单元格识别和文本提取算法，用于将图像中的表格转换为 excel 文件

原文：https://towardsdatascience.com/a-table-detection-cell-recognition-and-text-extraction-algorithm-to-convert-tables-to-excel-files-902edcf289ec?source=collection_archive---------0-----------------------

如何使用 OpenCV 和 pytesseract 将表格截图转换成可编辑的数据

来源:pixabay

假设您在文章、pdf 或图像中有一个表格，并希望将其转换为 excel 表格或数据框架，以便能够对其进行编辑。特别是在机器学习的预处理领域，这种算法将非常有助于将许多图像和表格转换为可编辑的数据。如果您的数据存在于基于文本的 pdf 文件中，已经有一些免费的解决方案。最受欢迎的是表格式，卡梅洛特/神剑，你可以在https://tabula.technology/，https://camelot-py.readthedocs.io/en/master/，https://excalibur-py.readthedocs.io/en/master/下找到。

但是，如果您的 PDF 是基于图像的，或者您在网上找到一篇带有表格的文章，该怎么办？为什么不直接截图转换成 excel 表呢？因为基于图像的数据(jpg、png、基于图像的 pdf 等)似乎没有免费或开源软件。)的想法是开发一个通用的解决方案，将表格转换成可编辑的 excel 文件。

但是现在已经足够了，让我们看看它是如何工作的。

入门指南

该算法由三部分组成:第一部分是使用打开 CV 的表格检测和单元格识别，第二部分是将单元格彻底分配到适当的行和列，第三部分是使用 pytesseract 通过光学字符识别(OCR)提取每个分配的单元格。

和大多数表格识别算法一样，这种算法是基于表格的行结构的。清晰和可检测的线条对于正确识别细胞是必要的。具有虚线、间隙和孔洞的表格导致较差的识别，并且没有检测到仅部分被线包围的单元。如果您的某些文档出现断行，请务必阅读本文并修复断行:单击此处。

首先，我们需要输入数据，在我的例子中是 png 格式的截图。目标是拥有一个具有相同表格结构的数据框架和 excel 文件，其中每个单元格都可以编辑并用于进一步分析。

用于进一步表格识别和提取的输入数据。

让我们导入必要的库。

关于图书馆的更多信息:
cv2—https://opencv.org/宇宙魔方—https://pypi.org/project/pytesseract/

**import** cv2
**import** numpy as np
**import** pandas as pd
**import** matplotlib.pyplot as plt
**import** csvtry:
    **from** PIL **import** Image
except ImportError:
    **import** Image
**import** pytesseract

第一步是从正确的路径读入文件，使用阈值将输入图像转换为二进制图像，并将其反转以获得黑色背景、白色线条和字体。

**#read your file** file=r'/Users/YOURPATH/testcv.png'
img = cv2.imread(file,0)
img.shape**#thresholding the image to a binary image** thresh,img_bin = cv2.threshold(img,128,255,cv2.THRESH_BINARY |cv2.THRESH_OTSU)**#inverting the image** img_bin = 255-img_bin
cv2.imwrite('/Users/YOURPATH/cv_inverted.png',img_bin)**#Plotting the image to see the output**
plotting = plt.imshow(img_bin,cmap='gray')
plt.show()

二进制反转图像。

[## 请继续关注马里乌斯·哈克的新文章

请继续关注 Marius Hucker 的新文章。如果您还没有注册，您将创建一个中型帐户…

medium.com](https://medium.com/subscribe/@hucker.marius)

下一步是定义一个内核来检测矩形框，然后是表格结构。首先，我们定义核的长度，然后沿着垂直和水*核检测所有的垂直线和水*线。

**# Length(width) of kernel as 100th of total width**
kernel_len = np.array(img).shape[1]//100**# Defining a vertical kernel to detect all vertical lines of image** ver_kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (1, kernel_len))**# Defining a horizontal kernel to detect all horizontal lines of image** hor_kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (kernel_len, 1))**# A kernel of 2x2** kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (2, 2))

下一步是垂直线的检测。

**#Use vertical kernel to detect and save the vertical lines in a jpg**
image_1 = cv2.erode(img_bin, ver_kernel, iterations=3)
vertical_lines = cv2.dilate(image_1, ver_kernel, iterations=3)
cv2.imwrite("/Users/YOURPATH/vertical.jpg",vertical_lines)**#Plot the generated image**
plotting = plt.imshow(image_1,cmap='gray')
plt.show()

提取的垂直线。

现在所有的水*线都一样。

**#Use horizontal kernel to detect and save the horizontal lines in a jpg**
image_2 = cv2.erode(img_bin, hor_kernel, iterations=3)
horizontal_lines = cv2.dilate(image_2, hor_kernel, iterations=3)
cv2.imwrite("/Users/YOURPATH/horizontal.jpg",horizontal_lines)**#Plot the generated image**
plotting = plt.imshow(image_2,cmap='gray')
plt.show()

提取的水*线。

我们通过用 0.5 对水*线和垂直线进行加权，将它们组合成第三幅图像。目的是得到一个清晰的表格结构来检测每个细胞。

**# Combine horizontal and vertical lines in a new third image, with both having same weight.** img_vh = cv2.addWeighted(vertical_lines, 0.5, horizontal_lines, 0.5, 0.0)**#Eroding and thesholding the image**
img_vh = cv2.erode(~img_vh, kernel, iterations=2)
thresh, img_vh = cv2.threshold(img_vh,128,255, cv2.THRESH_BINARY | cv2.THRESH_OTSU)
cv2.imwrite("/Users/YOURPATH/img_vh.jpg", img_vh)bitxor = cv2.bitwise_xor(img,img_vh)
bitnot = cv2.bitwise_not(bitxor)**#Plotting the generated image**
plotting = plt.imshow(bitnot,cmap='gray')
plt.show()

提取的不包含文本的表格结构。

有了表格结构后，我们使用 findContours 函数来检测轮廓。这有助于我们检索每个盒子的准确坐标。

**# Detect contours for following box detection** contours, hierarchy = cv2.findContours(img_vh, cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE)

以下函数是获取轮廓序列并从上到下对其进行排序所必需的(https://www . pyimagesearch . com/2015/04/20/sorting-contours-using-python-and-opencv/)。

def sort_contours(cnts, method="left-to-right"): **# initialize the reverse flag and sort index** reverse = False
    i = 0 **# handle if we need to sort in reverse**
    if method == "right-to-left" or method == "bottom-to-top":
    reverse = True **# handle if we are sorting against the y-coordinate rather than
    # the x-coordinate of the bounding box** if method == "top-to-bottom" or method == "bottom-to-top":
    i = 1 **# construct the list of bounding boxes and sort them from top to
    # bottom** boundingBoxes = [cv2.boundingRect(c) for c in cnts]
    (cnts, boundingBoxes) = zip(*sorted(zip(cnts, boundingBoxes),
    key=lambda b:b[1][i], reverse=reverse)) **# return the list of sorted contours and bounding boxe**s
    return (cnts, boundingBoxes) **# Sort all the contours by top to bottom.** contours, boundingBoxes = sort_contours(contours, method=”top-to-bottom”)

如何检索单元格的位置

需要进一步的步骤来定义每个单元的正确位置，这意味着正确的列和行。首先，我们需要检索每个单元格的高度，并将其存储在列表 heights 中。然后我们从高处取*均值。

**#Creating a list of heights for all detected boxes**
heights = [boundingBoxes[i][3] for i in range(len(boundingBoxes))]**#Get mean of heights**
mean = np.mean(heights)

接下来，我们检索每个轮廓的位置、宽度和高度，并将其存储在盒子列表中。然后我们在所有的盒子周围画出矩形，并绘制图像。在我的例子中，我只对宽度小于 1000 像素、高度小于 500 像素的盒子这样做，以忽略可能没有单元格的矩形，例如整个表格。这两个值取决于你的图像大小，所以如果你的图像变小或变大，你需要调整两者。

**#Create list box to store all boxes in** 
box = []**# Get position (x,y), width and height for every contour and show the contour on image**
for c in contours:
    x, y, w, h = cv2.boundingRect(c) if (w<1000 and h<500):
        image = cv2.rectangle(img,(x,y),(x+w,y+h),(0,255,0),2)
        box.append([x,y,w,h])plotting = plt.imshow(image,cmap=’gray’)
plt.show()

由检测到的轮廓/方框包围的每个单元。

现在我们有了每个单元格，它的位置、高度和宽度，我们需要在表格中得到正确的位置。因此，我们需要知道它位于哪一行哪一列。只要一个盒子的差异不超过它自己的(高度+*均值/2 ),这个盒子就在同一行。一旦高度差高于当前值(高度+*均值/2)，我们就知道新的一行开始了。列在逻辑上从左到右排列。

**#Creating two lists to define row and column in which cell is located** row=[]
column=[]
j=0**#Sorting the boxes to their respective row and column**for i in range(len(box)): if(i==0):
        column.append(box[i])
        previous=box[i] else:
        if(box[i][1]<=previous[1]+mean/2):
            column.append(box[i])
            previous=box[i] if(i==len(box)-1):
                row.append(column) else:
            row.append(column)
            column=[]
            previous = box[i]
            column.append(box[i])print(column)
print(row)

接下来，我们计算最大列数(意味着单元格),以了解我们最终的数据框架/表格将有多少列。

**#calculating maximum number of cells**countcol = 0
for i in range(len(row)):
    countcol = len(row[i])
    if countcol > countcol:
        countcol = countcol

拥有最大数量的单元格后，我们将每列的中点存储在一个列表中，创建一个数组并对值进行排序。

**#Retrieving the center of each column**center = [int(row[i][j][0]+row[i][j][2]/2) for j in range(len(row[i])) if row[0]]center=np.array(center)
center.sort()

此时，我们有了所有的框和它们的值，但是正如您可能在您的行列表的输出中看到的，这些值并不总是按照正确的顺序排序。这就是我们下一步要做的，关于到列中心的距离。我们存储在列表最终框中的正确顺序。

**#Regarding the distance to the columns center, the boxes are arranged in respective order**finalboxes = []for i in range(len(row)):
    lis=[]
    for k in range(countcol):
        lis.append([])
    for j in range(len(row[i])):
        diff = abs(center-(row[i][j][0]+row[i][j][2]/4))
        minimum = min(diff)
        indexing = list(diff).index(minimum)
        lis[indexing].append(row[i][j])
    finalboxes.append(lis)

让我们提取值

在下一步中，我们将使用我们的列表终结框。我们取每一个基于图像的盒子，通过扩张和腐蚀来为光学字符识别做准备，并让 pytesseract 识别包含的字符串。循环遍历每个单元格，并将值存储在外部列表中。

**#from every single image-based cell/box the strings are extracted via pytesseract and stored in a list**outer=[]
for i in range(len(finalboxes)):
    for j in range(len(finalboxes[i])):
        inner=’’
        if(len(finalboxes[i][j])==0):
            outer.append(' ') else:
            for k in range(len(finalboxes[i][j])):
                y,x,w,h = finalboxes[i][j][k][0],finalboxes[i][j][k][1], finalboxes[i][j][k][2],finalboxes[i][j][k][3]
                finalimg = bitnot[x:x+h, y:y+w]
                kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (2, 1))
                border = cv2.copyMakeBorder(finalimg,2,2,2,2,   cv2.BORDER_CONSTANT,value=[255,255])
                resizing = cv2.resize(border, None, fx=2, fy=2, interpolation=cv2.INTER_CUBIC)
                dilation = cv2.dilate(resizing, kernel,iterations=1)
                erosion = cv2.erode(dilation, kernel,iterations=1)

                out = pytesseract.image_to_string(erosion)
                if(len(out)==0):
                    out = pytesseract.image_to_string(erosion, config='--psm 3')
                inner = inner +" "+ out outer.append(inner)

最后一步是将列表转换成数据帧，并将其存储到 excel 文件中。

**#Creating a dataframe of the generated OCR list** arr = np.array(outer)
dataframe = pd.DataFrame(arr.reshape(len(row),countcol))
print(dataframe)
data = dataframe.style.set_properties(align="left")**#Converting it in a excel-file** data.to_excel(“/Users/YOURPATH/output.xlsx”)

终端中的最终数据帧。

包含所有单元格的最终 excel 文件。

就是这样！您的表格现在应该存储在数据帧和 excel 文件中，可用于自然语言处理、通过统计进行进一步分析或仅用于编辑。这适用于结构清晰简单的表格。如果你的表格有一个非常特殊的结构，在某种意义上说，许多单元格被组合在一起，单元格的大小变化很大，或者使用了许多颜色，那么这个算法可能必须被采用。此外，OCR 在识别计算机字体方面*乎完美。但是，如果您有包含手写输入的表格，结果可能会有所不同。

如果你把它用在你自己的桌子上，让我知道它是如何工作的。

[## 请继续关注马里乌斯·哈克的新文章

请继续关注 Marius Hucker 的新文章。如果您还没有注册，您将创建一个中型帐户…

medium.com](https://medium.com/subscribe/@hucker.marius)

你喜欢这个故事？

支持我和我在这里的工作

亦读:

如何修复表格识别中的断线

Python 系列的触觉指南

原文：https://towardsdatascience.com/a-tactile-guide-to-python-collections-final-4a25039deea9?source=collection_archive---------9-----------------------

由 Unsplash 上的 chuttersnap 拍摄

Python 是一种功能强大的编程语言，具有动态语义，由被称为“python 之禅”的 19 条原则指导。这些原则列举如下:

谓美丽胜过丑陋。
显性比隐性好。简单比复杂好。
复杂总比复杂好。
扁*比嵌套好。
稀不如密。
可读性很重要。特例不足以特殊到违反规则。
虽然实用性胜过纯粹性。错误永远不会悄无声息地过去。
除非明确消音。
面对暧昧，拒绝猜测的诱惑。应该有一种——最好只有一种——显而易见的方法来做这件事。虽然这种方式一开始可能并不明显，除非你是荷兰人。
现在总比没有好。
虽然永远也不会比现在好。如果实现很难解释，这是个坏主意。
如果实现起来容易解释，这也许是个好主意。名称空间是一个非常棒的想法——让我们多做一些吧！”

如果我们不想违背 python 的原则，我们必须适当地充分存储我们的数据。Python 提供了一些内置的容器来帮助存储我们的数据，如列表、元组、集合、字典等。已经开发了几个模块，它们提供附加的数据结构来存储数据集合。Python 集合模块就是这样一个模块，它的目的是改进内置容器的功能。坚持 python 说“… 很难解释，这是个坏主意”的禅，我会进一步解释什么是模块。

模块化编程指的是将一个庞大、笨拙的编程任务分解成单独的、更小的、更易于管理的子任务或模块的过程。然后可以将各个模块拼凑在一起，创建一个更大的应用程序。

照片由弗兰拍摄。开退溅

模块化代码的一些优势包括:

简单
可维护性
复用性

模块是包含 Python 定义和语句的文件，有助于实现一组函数。模块可以定义函数、类和变量。文件名是模块名加上后缀.py。而包是堆叠在一起的相关模块的集合。它们也被称为图书馆。

Python 模块和 Python 包，两种便于模块化编程的机制。

收集模块

collections 模块提供了内置容器数据类型的替代方法，如 list、tuple 和 dict。在本文中，我们考虑 python 集合模块中六(6)种常用的数据结构。它们如下:

命名元组
双端队列
计数器
有序直接
默认字典
链式地图

回想起来，内置容器的概要如下。

List 是一个有序的、异构的、可变的 python 容器。它是用“[]”创建的。
Tuple 非常类似于一个列表，但有一个主要区别——它是不可变的。我们用括号“()”创建一个元组。
集合也类似于列表，只是它是无序的。它可以存储异构数据，并且是可变的。我们通过用花括号“{}”将数据括起来来创建一个集合。
Dictionary 是一个无序的、异构的、可变的 python 容器。它与一个密钥对值相关联。它只能通过它的键进行索引。

named tuple:‘named tuple’生成一个类似于元组的类，但是有命名条目。namedtuple 返回一个元组，其中包含元组中每个位置(索引)的名称，而不是一个数字。普通元组的一个最大问题是，你必须记住元组对象的每个字段的索引。

namedtuple 的代码段

2.dequee:dequee 是一个为插入和删除项目而优化的列表。我们可以把一个“队列”想象成一个列表，我们通常关心的是处理列表的末尾。

deque 的代码段

3.计数器:计数器是一个非常有用的对象。它对一些 iterable 中的元素进行计数，并返回一个类似字典的结构，其中包含每个元素的计数。

4.order dict:Python 字典没有自然的顺序，但是有时候让字典条目的属性通过排序来访问是很有用的。“OrderedDict”与“Dict”完全一样，但它会记住键的插入顺序。

5.字典的一个常见范例是处理丢失键的情况。defaultdict 的工作方式与 python 字典完全一样，只是当您试图访问一个不存在的键时，它不会抛出 KeyError。相反，它使用创建 defaultdict 时作为参数传递的数据类型的元素来初始化键。数据类型称为 default_factory。

ChainMap: 这是用来合并几个字典，它返回一个字典列表。

我希望这篇文章能让你体会到 python 集合的重要性和应用，以便你能更频繁地使用它。感谢阅读。

由凯利·西克玛在 Unsplash 上拍摄

一个关于巨人、机器学习药丸和汽车工业的故事

原文：https://towardsdatascience.com/a-tale-about-a-giant-a-machine-learning-pill-and-the-automotive-industry-1b339550dbad?source=collection_archive---------30-----------------------

汽车中的人工智能

关于人工智能对世界上最重要的行业之一的影响的童话三部曲的大结局。

从前，有一个巨人。一个巨大而强大的巨人，每个人都知道这个巨人。然后，一位友好的仙女给了巨人一颗神奇的机器学习药丸。药丸承诺让巨人变得更加强大，但也给他带来了剧烈的疼痛。巨人吞下了药丸，成长的烦恼开始了。

来源

这是这个关于机器学习对汽车行业影响的三部曲的最后一部。为了更好地说明复杂性和挑战，这个关于巨人和机器学习药丸的故事补充了主要观点。这些见解基于我在汽车行业的工作经验以及与来自世界各地的汽车专家的长期对话。三部曲分为以下几个部分:重要性(一)、机遇(二)、汽车行业在实现机器学习的超越性技术方面的挑战(三)。

这部分阐述了机器学习对汽车行业的挑战。成长的烦恼发生在以下几个部分:数据、基础设施、算法。让我们看看怎么做。

数据

汽车行业坐拥未来最宝贵的资源之一——数据。一辆配备现代传感器的汽车每天可以产生 4-10tb 的数据。最大的数据生产者是相机和激光雷达传感器。摄像机观察环境以检测物体或车道标志。激光雷达传感器有助于获得与其他物体的精确距离。机器学习有助于解释输入的数据。

让我们客观地看待产生的大量数据。如果你的智能手机有 256 GB 的存储空间，10 TB 的数据相当于 40 部智能手机每天的使用量。数据是机器学习的关键因素，教会算法学习什么。因此，访问大量数据是构建智能系统的先决条件。但这种过多的数据给汽车行业的存储、过滤和分析带来了新的挑战。

竞争对手，或者说小巨人，明白数据的价值。他们竞相收集公路上行驶的数百万英里。2019 年，电动汽车制造商特斯拉收集了超过 20 亿英里的数据。自动驾驶汽车公司 Waymo 在 2018 年 10 月已经超过了 1000 万英里大关。此外，这些公司已经在模拟中驾驶数十亿英里。Elon Musk 声称特斯拉目前收集了所有收集的汽车数据的 99.5% 。今天有超过 50 万辆配备摄像头的特斯拉汽车在行驶。然而，曲棍球棒曲线在收集英里是最令人印象深刻的。小巨人拥有创建成功的机器学习算法的原材料。

来源

然而，价值并不在于纯粹的记录数据量。训练机器学习算法需要多样化的数据集。在红灯前站几个小时记录数据会产生大量数据，但价值有限。关键是收集智能数据。角落案例数据尤其有价值，例如，一个孩子在追球时突然穿过街道。在这些情况下，您需要 100%确定算法运行正确。

为了测试非正统的情况，Waymo 首席执行官约翰·克拉夫茨克(John Krafcik)公开描述了他们如何测试不寻常的场景。据说约翰装扮成芝麻街里的大鸟，看看汽车是否会停下来！让一只大鸟穿过街道肯定是汽车以前没有见过的情况，但它仍然应该停下来。

理解了处理数据的挑战之后，让我们继续讨论让机器学习工作所必需的基础设施。

基础设施

具有智能功能的汽车需要先进的传感器来感知环境。根据 Udacity 的估计，制造一辆研究车可能要花费 25 万美元以上。为卡车配备足够的传感器以实现自动驾驶功能需要花费数百万美元。

最昂贵的传感器是顶级激光雷达，大约 12 万美元。一旦激光雷达传感器大规模生产，成本预计将大幅下降。Waymo 出售其自主开发的激光雷达传感器 Honeycomb，，他们声称这可以降低 90%的成本。大多数汽车公司都同意，激光雷达是安全高级驾驶功能所必需的。特斯拉省略了传感器，著名的称之为【拐杖】。

一个主要的突破点是量产汽车制造商的成本敏感性。大众或丰田等公司的新车利润率只有 5%左右。所以，如果你花 25.000 美元买了一辆车，公司只有 500 美元的利润。插入新的传感器会立即降低企业的盈利能力。将传感器成本降低到仍然能够实现人工智能驱动功能的水*仍然是一个挑战。

此外，考虑下图。它没有显示一个不断演变的组织结构图。的。gif 展示了自 20 世纪 70 年代以来现代汽车电子架构的演变。如您所见，架构变得越来越复杂，越来越难以维护。

即使该架构使用了与 Kubernetes 协调的微服务，它仍然非常复杂。请记住，汽车从来都不是纯粹的软件产品，它们与关键硬件相互作用。这使得收集数据和集成机器学习算法成为一项复杂的挑战。

让我们看看在机器学习的帮助下使巨人成长的最后一块拼图。

算法

在汽车功能中包含机器学习算法带来了新的挑战。传统的编程被认为是安全的，因为它的确定性地工作。机器学习被认为是不安全的，因为它的操作是概率性的。

想想声称神经网络可以根据一个人的脸来检测他是否是罪犯的研究。除了这项研究的道德和伦理风险，它被证明是完全错误的。

研究人员以不同的方式从罪犯和非罪犯那里收集输入数据。他们从政府颁发的罪犯身份证上获取面部图像。另一方面，他们从一个公共网站上获取非罪犯的面部图像。现在，谁会愿意把自己的身份证照片放在个人资料上呢？我在护照照片上看起来确实像个罪犯！本质上，该算法学会了区分政府 ID 和你的 LinkedIn 个人资料图片，而不是区分罪犯和非罪犯。

另一个值得警惕的例子来自加州大学欧文分校。一名学生训练了一个神经网络来区分哈士奇和狼。这个学生很高兴在这个任务中达到了 94%的准确率。然后教授问学生，他怎么能确定网络学到了它应该学的东西？分析数据后，该小组发现了关键的区别点。大多数哈士奇图片的背景是雪，而狼图片的背景是没有雪的。本质上，算法并没有学会区分哈士奇和狼，而是在后台区分“下雪”和“没下雪”。

这些例子表明，理解算法学习什么对开发安全函数很重要。功能开发人员必须确保他们的算法在驾驶车辆绕过人类时能够按预期工作。该行业需要对输入数据进行清晰的检查，以及测试和批准基于机器学习的功能的清晰流程。

结局(三)

通过这个童话，我希望你能更好地理解汽车巨头实施机器学习的当前机遇和挑战。这种机器学习药丸可以让巨人变得如此强大，但也会带来剧烈的疼痛。

谢谢你跟随巨人的旅程！然而，这个故事远未结束。巨人需要你来帮助它处理成长的烦恼。鉴于这个行业的重要性，我希望你能考虑加入这个巨人的故事。加入巨人，帮助它处理痛苦，这是最激动人心的时刻。

如果你喜欢这个故事，你可以在这里重读童话三部曲。第一部分讨论了汽车工业的重要性，第二部分解释了未来的机遇。

这个故事是在数据节 2019 上呈现的。点击此处查看本次演讲的视频。如果你想听更多关于商业、项目管理和数据科学的交集，在 Medium 、 LinkedIn 或 Twitter 上关注 me。

一个关于巨人、机器学习药丸和汽车工业的故事

原文：https://towardsdatascience.com/a-tale-about-a-giant-a-machine-learning-pill-and-the-automotive-industry-7c74b2bcb09c?source=collection_archive---------23-----------------------

汽车中的人工智能

关于人工智能对世界上最重要的行业之一的影响的童话三部曲的第二个故事。

从前，有一个巨人。一个巨大而强大的巨人，每个人都知道这个巨人。人们为巨人工作，为自己和他人创造巨大的财富。然后，巨人从一个友好的仙女那里收到了一颗神奇的机器学习药丸，承诺让巨人变得更加强大。

来源

这是这个关于机器学习对汽车行业影响的三部曲的第二部。为了更好地说明在老牌汽车制造商中使用机器学习的复杂性和挑战，这个关于巨人和神奇药丸的故事补充了主要观点。这些见解基于我在汽车行业的工作经验以及与来自世界各地的汽车专家的长期对话。三部曲分为以下几个部分:重要性(一)、汽车行业在实现机器学习这一超越性技术方面的机遇(二)、挑战(三)。

第二部分详细阐述了机器学习药丸可以给巨人带来的机会。它承诺让这个巨人变得更大更强大。让我们看看怎么做。

自动驾驶

今天，汽车由人类驾驶，从一个地方到达另一个地方。机器学习是一项关键技术，可以让人们或货物自动驾驶到目标目的地。这就是所谓的自动驾驶(AD)。

来源

AD 允许创建多种应用程序。机器人轴立即浮现在脑海中，它在城市环境中运送人们。谷歌子公司 Waymo 被视为未来城市交通的领跑者。2019 年，该公司开始在亚利桑那州凤凰城测试其自动驾驶出租车服务，车辆中没有安全驾驶员。

然而，AD 要大得多，不仅允许人类自主地从 A 地运输到 B 地，还允许货物运输。汽车制造商大众承认，物流行业对自动驾驶的需求最为迫切。因此，它将大众汽车自主有限公司从其商用车子公司中剥离出来。在物流业务中，三个主要的成本构成是车辆价格、汽油和工资。降低薪资成本最能提高物流行业的盈利能力。

来源

AD 技术还支持其他用例，如斯堪尼亚的自主运输设备、采矿卡车、拖拉机或任何其他工作车辆。重型设备制造商 John Deere 已经研发半自动拖拉机 20 年了。在一些农田需要一整天犁一条线的地方，自动拖拉机有望带来巨大的好处。

斯堪尼亚自主采矿卡车概念

自动驾驶车辆承诺打破车辆的神奇产品三角。产品三角形表明，你应该致力于在短时间内，以高质量和低成本创造任何产品。你可以沿着神奇的产品三角排列任何产品。当今汽车的产品三角如下。

汽车可以在短时间内把人或货物从 A 地送到 B 地，成本低，质量合理。AD 提供了将每种产品的能力扩展到可以想象的最大限度的机会。

打车公司优步估计，无人驾驶汽车可以将每英里费用从 T2 的 2.86 美元降低到仅 0.35 美元。这种几乎 90%的成本降低提高了产品三角的成本能力。AD 通过让司机有时间在车内阅读、睡觉或工作，潜在地提高了乘坐的质量。当卡车可以自主移动时，卡车司机所需的休息时间也可以减少到最低限度。AD 扩展了移动车辆的所有产品功能，从而为客户满意度和公司发展提供了巨大的机会。

鉴于人们对广告的极度兴奋，消费者期待着无人驾驶汽车的到来。主要汽车制造商宣布了自主打车服务的雄心勃勃的开始日期，从而加剧了这种兴奋。电动汽车制造商特斯拉宣布其计划在 2019 年年底推出自动驾驶班车服务。这一切似乎都很容易，到处都有关于自动驾驶汽车的精彩玩具视频。此外，在线学习*台 Udacity 从 2011 年开始提供自动驾驶汽车工程师纳米学位。创业公司如此接*解决 AD 的故事比比皆是，就像下面这个。

谷歌正在研究自动驾驶汽车，他们似乎也在努力。人们在驾驶汽车方面如此糟糕，以至于计算机不必那么好就能好得多。— 马克·安德森，风险投资家于 a16z ， NYT 2011

硅谷著名企业家、 comma ai 创始人乔治·霍兹，在 2016 年底差点提供自动驾驶功能。乔治入侵了一辆 Acure 汽车，给它配备了一部智能手机，让它的摄像头透过挡风玻璃对准前方的道路。然后他突然打方向盘、加速和刹车信号来操纵汽车。点击此处查看open pilot 发布视频。Comma.ai 开始以 999 美元的价格出售广告硬件，外加每月订阅费。在第三部分，你会听到这个故事是如何展开的。

来源

不管这些雄心勃勃的声明，许多汽车制造商已经推迟了将广告投放市场的时间表。机器学习是帮助这家巨头创造变革性新产品的关键促成因素。让我们调查一下机器学习药丸如何帮助这个巨人带来另一个基石产品。

个人助理

让我们假设有一天自动驾驶能力无处不在。那么是什么将一辆车与另一辆区分开来呢？越来越多的关注将转向室内用户体验。

如今，汽车驾驶舱是手动操作的。按钮和旋钮让驾驶员无法选择操纵汽车设置。想提高汽车温度？打开空调，向右转动两个轮子以提高目标温度，并增大风扇。四个步骤，为了一个目的。机器学习使汽车能够预测用户需求，并立即满足基于语音的请求。

机器学习是实现汽车个人助理的关键技术。这个助手可以学习司机喜欢的温度，并自动调整汽车的设置。用户通过语音与汽车互动，省略了按钮和旋钮。

据 Samsung Next 报道，风险投资者对投资*台感兴趣。正如、 Greylock Partners 的风险投资人 Sarah Guo 在 2018 人工智能前沿大会期间提到的，互联网*台催生了谷歌或脸书这样的独角兽。移动作为下一个*台推动了像 Lyft 或 AirBnB 这样的公司达到独角兽的估值。自动驾驶汽车会成为下一个*台，推动独角兽游戏、娱乐或 VR/AR 初创企业的崛起吗？

机器学习为汽车公司提供了巨大的新产品机会。个人助理和自动驾驶只是机器学习使之成为可能的少数面向客户的应用。在智能生产、RPA 和营销领域存在更多机会。

回到故事。现在，这位巨人明白了这种神奇的机器学习药丸是如何让它变得更大更强的。但是巨人仍然在思考经历这些成长的烦恼是否值得。毕竟，它是世界上最强大的巨人之一，不怕任何人。然后，在远处的地*线上，巨人发现了一个小巨人。走*小巨人，巨人意识到它一直在享用机器学习药丸。小巨人还不会走路，但很明显，一旦它长到最大力气，它就能轻而易举地打败巨人。接下来我们来检查一下小巨人。

竞争对手

以下两张图表值得你高度关注。下图显示了六家移动公司的公司估值。Waymo 目前的估值最高，为1050 亿美元。特斯拉的股票一直不稳定，仅在过去的两个月里，公司价值在 2020 年 1 月就翻了一番，达到约 810 亿美元。像 Waymo、优步或特斯拉这样的公司代表了这个小巨人。这个巨人的代表是大众、宝马或戴姆勒这样的汽车巨头。

Waymo 的估值超过了所有其他公司的估值。在获得一美元收入之前，它的价值已经高于宝马和戴姆勒的总和。 Waymo 的技术非常依赖机器学习来创造世界上最安全的司机。优步和泰斯拉的估值也受到他们努力将广告变成现实的推动。优步创始人特拉维斯·卡兰尼克称自动驾驶汽车是优步未来最重要的技术。特斯拉著名的自动驾驶功能完全依靠机器学习来检测物体，并使汽车保持在车道上。

相比之下，下图显示了每家公司达到预期估值所需的员工数量。2018 年，Waymo 勉强跨过了 1000 名员工的大关。另一个极端是，大众汽车目前在全球雇佣了超过 66 万名员工。你可以看到这个小巨人比巨人需要更少的员工来创造惊人的市场估值。

现在，让我们不要不公*。汽车制造商今天生产有形的价值。他们每年销售数千万辆汽车。如果自动驾驶汽车技术没有得到验证，投资者将会损失很多钱，但也仅此而已。但是如果它被证实了呢？

又怕又急，巨人吞下了苦涩的机器学习药丸。

结局(二)

这篇文章展示了通过机器学习药丸可以实现的变革机会。虽然巨人仍然对服用这种药丸犹豫不决，但其他一直在享用这些机器学习药丸的小巨人看到他们的力量爆炸了。

接下来会发生什么，当巨人吞下药丸，对它的身体造成严重压力？继续在这里(即将于 1 月 19 日)阅读在这个成熟的行业中实现机器学习的挑战和副作用。重读三部曲开篇这里。

一个关于巨人、机器学习药丸和汽车工业的故事

原文：https://towardsdatascience.com/a-tale-about-a-giant-a-machine-learning-pill-and-the-automotive-industry-part-i-299a9ad5653f?source=collection_archive---------35-----------------------

汽车中的人工智能

打开童话三部曲，讲述人工智能对世界上最重要的行业之一的影响。

从前，有一个巨人。一个巨大而强大的巨人，每个人都知道这个巨人。它有一种相当特殊的气味，对环境有害，但那是另一回事了。世界各地的人们热爱这个巨人，顺从地为它工作。

来源

一天，一个仙女飞向巨人。仙女给了巨人一颗药丸，并说:“这颗机器学习药丸是来自一个很远很远的地方的强大魔术师创造的。它会给你巨大的力量，但是要小心，它也会给你带来严重的痛苦。".

图片由 Pixabay 上的 Oberholster Venita 拍摄

这是这个关于机器学习对汽车行业影响的三部曲的第一部。为了更好地说明在老牌汽车制造商中使用机器学习的复杂性和挑战，这个关于巨人和神奇药丸的故事补充了主要观点。这些见解基于我在汽车行业的工作经验以及与来自世界各地的汽车专家的长期对话。该三部曲分为以下几个部分:汽车行业在实施机器学习的卓越技术方面的重要性(I)、机遇(II)和挑战(III)。

让我们在第一部分集中讨论为什么这个童话的主角是一个巨人而不是一只乌龟或小马。虽然汽车行业可能面临严峻的挑战，但你为什么要在乎呢？让我们看看汽车行业的经济、社会和未来影响。

汽车工业的经济影响

汽车行业是世界上最重要的行业之一。为了证明这一点，让我们来看看对世界 GDP 贡献最大的四个国家中的两个，美国和德国，以及汽车行业在其中的重要性。

来源

下图显示了按行业分组的上市公司的市值。市值表明市场认为某个公司或行业有多大价值。它的计算方法是将当前股票价格乘以发行在外的股票数量。例如，美国大型汽车制造商通用汽车的股票在2019 年 12 月 30 日今天的价格是 36.56 美元。该公司有 14.3 亿股流通股。因此，通用汽车的市场价值为 36.56 美元* 1.43 亿美元= 52.28 亿美元。

来源

如果你把美国所有汽车行业公司的市值加起来，你会得到 8000 亿美元的行业估值。如上图所示，汽车工业比航空业或烟草业更重要。软件业的价值远远高于所有其他行业。对汽车行业未来发展方向的暗示？尽管如此，图表显示了汽车行业对世界最大经济体的重要性。

接下来，让我们考虑一下汽车行业对世界第四大经济体德国的重要性。

来源

德国拥有全球汽车公司，如大众、宝马、戴姆勒、大陆或博世。他们的总市值超过了 2000 亿€，略微超过了化学工业的头把交椅。德国经济的主要驱动力是汽车。

在理解了汽车工业的经济影响之后，让我们更个人化地评价一下汽车工业对全球就业的社会影响。

汽车工业的社会影响

根据国际汽车制造商组织的数据，全球汽车行业雇佣了超过 900 万人在 T2 工作。此外，汽车行业创造了一个相邻企业的生态系统。汽车经销商、保险公司或洗车店依赖于汽车工业的持续运转。如果算上在汽车相邻企业工作的人，超过 5000 万人间接受雇于汽车行业。这相当于 60 个工作成年人中有 1 个。

来源

如果我们比较德国的数据，我们会发现类似的分布。德国汽车工业协会估计超过 80 万人直接受雇于汽车工业，* 200 万人间接受雇于汽车工业。在德国，依赖汽车行业的成年人中有 1/50 的比例更为极端。

来源

在了解了汽车行业对你或你邻居的薪水有多重要之后，让我们来看看汽车行业的现状和未来预测。

汽车工业的前景

来源

根据丰业银行 2019 年的报告，过去 5 年来，全球汽车销量一直持*。自 1990 年以来，汽车行业取得了巨大的增长，汽车销量在 15 年内翻了一番。然而，这种增长停滞不前，尤其是富裕市场的需求停滞不前，正如下面的按地区分列的大众汽车销量信息图所示。一些希望在于南美等新兴市场需求的上升，但尚不清楚它们是否能弥补现有市场的增长不足。为了扩大业务和市值，汽车公司可以做些什么？

来源

另一方面，全球对移动解决方案的需求预计将在未来十年内激增。 Statista 估计对打车、公共交通或航班等服务的需求将继续增长。对于一些客户来说，共享移动解决方案而非所有权将变得更具吸引力。抓住这个机会，一些汽车公司开始将自己重新定位为移动提供商。例如，宝马的企业使命是“塑造明天的个人高级流动性”，而不是生产汽车。

来源

总而言之，目前全球汽车销售停滞不前，而对移动性的需求却在增加。汽车行业在寻找发展和繁荣的机会方面面临着严峻的挑战。机器学习药丸能延长巨人的寿命并帮助它成长为新的力量吗？

结局(一)

第一部分向您展示了汽车行业有多重要，以及您为什么应该关注它。汽车巨头就在我们身边，影响着许多人的生活。

继续下一集(将于 1 月 12 日播出)，阅读机器学习药丸对巨人的影响。最后一部分(将于 1 月 19 日发布)详细阐述了在这个成熟的行业中实施机器学习的挑战和副作用。

这个故事是在数据节 2019 上呈现的。点击这里可以找到这个演讲的视频。如果你想了解更多关于商业、项目管理和数据科学的交集，在 Medium 、 LinkedIn 或 Twitter 上关注我。

TF Lite 中模型量化的故事

原文：https://towardsdatascience.com/a-tale-of-model-quantization-in-tf-lite-aebe09f255ca?source=collection_archive---------29-----------------------

生产中的机器学习

模型优化策略和量化技术，帮助在资源受限的环境中部署机器学习模型。

在此与结果仪表板互动。

最新的机器学习模型通常体积庞大，这使得它们在资源受限的环境中部署时效率低下，如移动电话、树莓 pi、微控制器等。即使您认为您可以通过在云上托管您的模型并使用 API 来提供结果来解决这个问题，也要考虑到互联网带宽可能并不总是很高，或者数据不能离开特定设备的受限环境。

我们需要一套工具来无缝过渡到设备上的机器学习。在这篇报道中，我将向你展示 TensorFlow Lite (TF Lite) 如何在这种情况下大放异彩。我们将讨论 TensorFlow 支持的模型优化策略和量化技术。

查看 GitHub 上的代码 →

感谢 Arun 、 Khanh 和 Pulkit (谷歌)为这篇报道分享了非常有用的技巧。

不同量化实验之间的性能概述(此处可用

概观

在本文中，我们将涵盖以下主题

对设备上机器学习的需求
TensorFlow 支持的模型优化策略
量化技术
执行量化时需要记住的事项

对设备上机器学习的需求

在他们的演讲tensor flow Lite:ML for mobile and IoT devices(TF Dev Summit ' 20)中，Tim Davis 和 T.J. Alumbaugh 强调了以下几点:

更低的延迟&紧密互动:在许多关键应用中，你可能希望预测的延迟为零，例如无人驾驶汽车。您可能还需要保持系统的所有内部交互非常紧凑，这样就不会引入额外的延迟。
网络连接:正如我之前提到的，当你依赖云托管模式时，你实际上是将你的应用程序限制在一定的网络带宽水*上，而这可能并不总是能够实现的。
隐私保护:对隐私有硬性要求，例如，数据不能离开设备。

为了使大型 ML 模型能够部署在小型设备上，我们需要对它们进行优化，例如，将 1.9GB 的模型放入 2GB 的应用程序中。为了帮助 ML 开发者和移动应用开发者，TensorFlow 团队提出了两个解决方案:

TensorFlow 支持的模型优化策略

通过 TensorFlow Lite 和模型优化工具包，TensorFlow 目前支持以下模型优化策略-

量化你可以使用不同的低精度格式来减小模型的大小。
修剪在这里，您可以丢弃模型中对模型预测意义不大的参数。

在本文中，我们将重点讨论量子化。

量化技术

通常，我们的机器学习模型以float32精度格式运行。所有模型参数都以这种精度格式存储，这通常会导致模型更重。模型的重量与模型进行预测的速度直接相关。因此，你可能会自然而然地想到，如果我们能降低模型运行的精度，我们就能减少预测时间。这就是量化的作用——它将精度降低到更低的形式，如 float16、int8 等，来表示模型的参数。

量子化可以以两种方式应用于一个模型

训练后量化在训练后应用于模型。
量化感知训练通常对模型进行训练，以补偿量化可能带来的精度损失。当您降低模型参数的精度时，可能会导致信息丢失，您可能会看到模型的精度有所降低。在这些情况下，感知量化的训练会非常有帮助。

我们将在这份报告中看到这两种味道。我们开始吧！

实验设置

我们在这份报告中做的所有实验都是在 Colab 上进行的。我使用 flowers 数据集进行实验，并微调了一个预先训练好的 MobileNetV2 网络。这是定义网络架构的代码-

对网络进行 10 个时期的训练，批次大小为 32。

正常微调下的性能

运行页面可用此处

所有这些文件都可以在这里找到

我们看到网络运行良好，达到 35.6 MB。

量化微调后的模型

当你在tf.keras中训练好一个模型后，量化部分只是几行代码的事情。所以，你可以这样做-

首先将您的模型加载到一个TFLiteConverter转换器类中，然后指定一个优化策略，最后，您要求 TFLite 使用优化策略转换您的模型。序列化转换后的 TF Lite 文件非常简单

这种量化形式也被称为训练后动态范围量化。它将模型的权重量化到 8 位精度。在这里你可以找到关于这个和其他训练后量化方案的更多细节。

关于为转换设置配置选项的说明

TF Lite 允许我们在转换模型时指定许多不同的配置。我们在前面提到的代码中看到过一次这样的配置，其中我们指定了优化策略。

除了tf.lite.Optimize.DEFAULT，还有另外两个政策可供选择- tf.lite.Optimize.OPTIMIZE_FOR_SIZE & tf.lite.Optimize.OPTIMIZE_FOR_LATENCY。从名称中可以看出，基于策略的选择，TF Lite 会相应地尝试优化模型。

我们可以指定其他事情，比如-

target_spec
representative_dataset

点击了解更多关于TFLiteConverter类的信息。值得注意的是，这些不同的配置选项允许我们在模型的预测速度和准确性之间保持*衡。在这里，你可以找到 TF Lite 中不同训练后量化方案的一些权衡。

下面我们可以看到这个转换模型的一些有用的统计数据。

餐桌可用此处

我们看到模型的规模大幅缩小，但这是以准确性为代价的。理想情况下，我们不希望转换后的模型精度损失这么大。这表明，我们需要探索其他量化方案，以进一步提高转换模型的准确性。

具有相同模型的量化感知训练(QAT)

这里一个好的第一个方法是训练你的模型，让它学会补偿可能由量化引起的信息损失。通过量子化感知训练，我们可以做到这一点。为了以量化感知的方式训练我们的网络，我们只需添加以下代码行-

现在，你可以像训练一个tf.keras模型一样训练qat_model。在这里你可以找到 QAT 的全面报道。

下面，我们可以看到这个量化感知模型比我们之前的模型稍好一些。

运行可用的这里

QAT 与非 QAT 模型的简要比较

就模型大小而言，QAT 模型与非 QAT 模型相似:

请记住，这些文件可以在任何运行的“文件”选项卡下找到

但是在模型训练时间方面，我们看到 QAT 模型需要更多的时间。这是因为在 QAT 过程中，模型中引入了伪量化节点来补偿信息损失，这使得 QAT 模型需要更多的时间来收敛。

在优化收敛时间的情况下，记住这一点很重要。如果你的训练模型需要很长的训练时间，那么引入 QAT 会进一步增加这个时间。

量化 QAT 模型与我们在上一节中看到的完全相同(我们将使用相同的量化配置)。

现在让我们比较量化版本的 QAT 模型的性能。

模型训练时间的比较

评估量化的 QAT 模型

在下表中，我们看到量化版本的 QAT 模型确实比以前的模型表现得更好。

此处可用的表为

我们清楚地看到，用 QAT 训练的模型没有引起任何精度下降。在下一节中，我们将把两个模型的参数都保持为浮点数，看看我们能在多大程度上推动模型大小和准确性之间的权衡。

量化为浮动模型

为了将我们的模型量化到浮点精度，我们只需要丢弃这条线— converter.optimizations = [tf.lite.Optimize.DEFAULT]。如果你想利用 GPU 代理，这个策略尤其有用。注意， float16 量化在 TensorFlow Lite 中也是支持的。在下表中，我们可以看到使用该方案量化的模型的大小和精度。

此处可用的表为

虽然这些型号的尺寸有所增加，但我们看到这些型号的原始性能仍然很高。注意，不建议使用这种方案转换 QAT 模型，因为在 QAT 期间，插入的伪量化运算具有int精度。因此，当我们使用这种方案量化 QAT 模型时，转换后的模型可能会出现不一致。

此外，硬件加速器，如边缘 TPU USB 加速器，将不支持浮动模型。

探索其他量化方案和总结思路

还有其他训练后量化技术可用，如全整数量化、浮点量化等。这是你可以了解他们更多的地方。请记住，全整数量化方案可能并不总是与 QAT 模型兼容。

有许多 SoTA 预训练的 TF Lite 模型可供开发人员在其应用中使用，它们可以在以下位置找到:

对于希望在应用程序中集成机器学习的移动开发人员来说，TF Lite 中有许多示例应用程序值得一试。TensorFlow Lite 还为嵌入式系统和微控制器提供工具，您可以从这里了解更多信息。

如果您想重现此分析的结果，您可以–

查看 GitHub 上的代码→

双城记！(用数据讲故事)

原文：https://towardsdatascience.com/a-tale-of-two-cities-e693c15b3ddb?source=collection_archive---------34-----------------------

基于 Foursquare 数据和机器学习的城市对比分析

关键词:数据科学、机器学习、Python、网络抓取、Foursquare

图片来源:【https://www.sussexscenes.co.uk/view-shard-london/

【https://br.pinterest.com/pin/92816442292506979/

这篇文章涵盖了在 IBM 数据科学专业 课程中用于最终顶点项目的方法和分析。详细的报告、代码和结果可以在 Github 上找到，并在文章末尾有链接。

1。简介

当谈到伦敦和巴黎时，选择一个城市总是一个艰难的决定，因为这两个城市都是真正的全球化、多元文化和国际化城市，位于两个欧洲国家的中心。除了作为欧洲两个最重要的外交中心，它们还是金融、商业、科学、时尚、艺术、文化和美食的主要中心。伦敦(英国首都)和巴黎(法国首都)都有着丰富的历史，是欧洲游客最多、最受欢迎的两个城市。伦敦是英国最大的城市，位于英格兰东南部的泰晤士河畔。另一方面，巴黎位于国家的中北部。与伦敦相似，这座城市也坐落在一条通常被称为塞纳河的河边。

我们的目标是对这两个城市进行比较，看看它们有多相似或不相似。这种技术使用户能够根据当地提供的便利设施或服务来确定城市中的类似社区，从而有助于了解当地的活动，不同活动的中心是什么，市民如何体验城市，以及他们如何利用城市资源。

什么样的客户会从这样的分析中受益？

具有可转移技能的潜在求职者可能希望在特定的城市寻找工作，这些城市在工资、社会福利，甚至在适合外籍人士的文化方面，为他们的资格和经验提供最合适的匹配。
此外，在新城市购买或租赁房屋的人可能想要寻找该城市中与他们所知的其他城市相似的位置的推荐。
类似地，一家希望将其地点扩展到其他城市的大公司可能会从这种分析中受益。
许多市内城市规划计算也可能受益于模拟一个城市与其他城市的关系。

2。数据准备

为了解决手头的问题，数据提取如下进行:

网络抓取: 城市数据是使用请求和 BeautifulSoup 库从各自的维基百科页面【1】【2】中提取的。

*## URL to extract City neighbourhood information*
urlL = "https://en.wikipedia.org/wiki/List_of_London_boroughs"
urlP = "https://en.wikipedia.org/wiki/Arrondissements_of_Paris"
pageLondon = urllib.request.urlopen(urlL)
pageParis = urllib.request.urlopen(urlP)wikitablesL = read_html(urlL,  attrs={"class":"wikitable"})
print ("Extracted **{num}** wikitables from London Wikipedia".format(num=len(wikitablesL)))
wikitablesP = read_html(urlP,  attrs={"class":"wikitable"})
print ("Extracted **{num}** wikitables from Paris Wikipedia".format(num=len(wikitablesP)))dfP = wikitablesP[0]
dfL0 = wikitablesL[0]
dfL1 = wikitablesL[1]*## Request & response* 
s = requests.Session()
responseL = s.get(urlL,timeout=10)

对提取的数据执行进一步的数据清理，以便存储关于其邻*地区、其相应的坐标、面积和人口以及相应的区编号的相关信息。

**def** scrapeLondonTable(table):
    c1=[]
    c2=[]
    c3=[]
    c4=[]
    c5=[]
    c6=[]
    c7=[]
    c8=[]
    c9=[]
    c10=[]
    c11=[]

    **for** row **in** table.findAll("tr"):
        cellsL = row.findAll('td')
        **if** len(cellsL)==10: *#Only extract table body not heading*
            c1.append(cellsL[0].find('a').text)
            c2.append(cellsL[1].find(text=**True**))   
            c3.append(cellsL[2].find(text=**True**))
            c4.append(cellsL[3].find(text=**True**))
            c5.append(cellsL[4].find(text=**True**))
            c6.append(cellsL[5].find(text=**True**))
            c7.append(cellsL[6].find(text=**True**))
            c8.append(cellsL[7].find(text=**True**))
            c9.append(cellsL[8].find('span',{'class': 'geo'}))
            c10.append(cellsL[9].find(text=**True**))
    *# create a dictionary*
    d = dict([(x,0) **for** x **in** headerL])
    *# append dictionary with corresponding data list*
    d['Borough'] = c1
    d['Inner']= c2
    d['Status']=c3
    d['Local authority']=c4
    d['Political control']=c5
    d['Headquarters']=c6
    d['Area (sq mi)']=c7
    d['Population (2013 est)[1]']=c8
    d['Co-ordinates']=c9
    d[' Nr. in map']=c10
    *# convert dict to DataFrame*
    dfL_table = pd.DataFrame(d)
    *## convert Area units to kms^2*
    *#dfL["Area"] = 2.59 * (pd.to_numeric(dfL["Area"]))*
    Latitude = []
    Longitude = []
    **for** i **in** range(len(dfL_table)):
        locationSplit = dfL_table['Co-ordinates'].iloc[i].getText().split("; ") 
        Latitude.append(locationSplit[0])
        Longitude.append(locationSplit[1])
    dfL_table['Latitude'] = Latitude
    dfL_table['Longitude'] = Longitude
    dfL_table.drop(['Inner','Status','Local authority','Political control','Headquarters','Co-ordinates'],axis=1,inplace=**True**)
    dfL = dfL_table.rename(columns={'Area (sq mi)': 'Area', 'Population (2013 est)[1]': 'Population',' Nr. in map':'District Number'})
    dfL['District Number']  = dfL['District Number'].astype(int)
    **for** i **in** range(len(dfL)):
        dfL['Area'].iloc[i] = float(re.findall(r'[\d\.\d]+', dfL['Area'].iloc[i])[0])
        dfL['Population'].iloc[i] = int(dfL['Population'].iloc[i].replace(',',''))
    **return** dfL

在必要的数据清理之后，我们获得了以下用于研究的数据框架:

伦敦市区列表。

巴黎市的区列表(1-4 区合并为 1 区)。

Foursquare 位置数据: Foursquare 是一个社交位置服务，允许用户探索周围的世界。Foursquare API 提供了基于位置的体验，包含关于地点、用户、照片和签到的各种信息。我们利用 Foursquare 数据来提取所有被研究社区的基于地点的信息。对 API 的调用返回一个 JSON 文件，我们需要将它转换成数据帧。然后，位置数据被用来在每个街区寻找顶级和独特的场地。我决定在方圆 1 公里内的每个街区挑选 100 个最受欢迎的景点。

3.探索性数据分析

城市数据

维基百科的数据为我们提供了各个城市中每个行政区的坐标、面积和人口信息。人们可以利用这一信息来绘制一张城市地图，根据人口密度标出每个行政区。 Geocoder 和“leave map库用于活页地图上的数据可视化，根据人口密度标记行政区。密度越高，标记的半径越大。

基于人口密度的伦敦(左)和巴黎(右)地图。(注:伦敦地图上的标记已按 1/1000 的比例缩小，巴黎地图上的标记已按 1/2000 的比例放大)。

场馆数据

Foursquare 的位置数据给出了每个区 1 公里半径内的地点列表信息。这是了解街区特征的合理距离。

## Extracting Foursquare venue data
LIMIT = 100 *# limit of number of venues returned by Foursquare API*
radius = 1000 *# define radius*

**def** getNearbyVenues(names, latitudes, longitudes, radius=500):

    venues_list=[]
    **for** name, lat, lng **in** zip(names, latitudes, longitudes):
        print(name)

        *# create the API request URL*
        url = 'https://api.foursquare.com/v2/venues/explore?&client_id=**{}**&client_secret=**{}**&v=**{}**&ll=**{}**,**{}**&radius=**{}**&limit=**{}**'.format(
            CLIENT_ID, 
            CLIENT_SECRET, 
            VERSION, 
            lat, 
            lng, 
            radius, 
            LIMIT)

        *# make the GET request*
        results = requests.get(url).json()["response"]['groups'][0]['items']

        *# return only relevant information for each nearby venue*
        venues_list.append([(
            name, 
            lat, 
            lng, 
            v['venue']['name'], 
            v['venue']['location']['lat'], 
            v['venue']['location']['lng'],  
            v['venue']['categories'][0]['name']) **for** v **in** results])

    nearby_venues = pd.DataFrame([item **for** venue_list **in** venues_list **for** item **in** venue_list])
    nearby_venues.columns = ['Borough', 
                  'Borough Latitude', 
                  'Borough Longitude', 
                  'Venue', 
                  'Venue Latitude', 
                  'Venue Longitude', 
                  'Venue Category']

    **return**(nearby_venues)print("Getting venues inside the following Boroughs of London:")
London_venues = getNearbyVenues(names=tableL['Borough'],
                                   latitudes=tableL['Latitude'],
                                   longitudes=tableL['Longitude']
                                  )

伦敦总共有大约 219 个独特的场馆类别，巴黎有 180 个。我用这些信息在一个条形图上显示了伦敦市中心和巴黎市中心区的一些最常见的场馆。

*## Picking major districts inside inner London and inner Paris respectively*
districtsL = ['City of London','Westminster','Kensington and Chelsea','Hammersmith and Fulham', 'Wandsworth']
districtsP = ['Louvre, Bourse, Temple, Hôtel-de-Ville', 'Panthéon', 'Luxembourg', 'Palais-Bourbon', 'Élysée']

**def** nearbyvenues_count(venues_df, district):
    venues_count = venues_df
    venues_count = venues_count.rename(columns={'Venue Category': 'Category'})
    venues_count = venues_count.groupby(['Borough']).Category.value_counts().to_frame("Counts")
    fig, ax = plt.subplots(1,1,figsize=(20, 7)) 
    fig.subplots_adjust(left=0.115, right=0.88)
    venues_plot =  venues_count['Counts'].loc[district][:10].head(10) 
    pos = np.arange(len(venues_plot))
    ax.set_title(district,size=20)
    freqchart = ax.barh(pos, venues_plot,align='center',height=0.5,tick_label=venues_plot.index)

    **return** freqchart

伦敦内城区(上图)和巴黎内城区(下图)最常见的比赛场地。

虽然伦敦市中心最常见的场所在咖啡馆/咖啡店、酒吧、果汁吧或酒店之间，但在巴黎市中心或主要地区的行政区，最常见的场所大多是法国或意大利餐馆以及酒店。

为了以更全面的方式探索场馆数据并进一步用于分析，foursquare 场馆数据被安排到 pandas 数据框架中，如下所示:

首先，为每个场馆类别创建一个带有熊猫和一个热编码的数据框
使用熊猫组通过方法在区列获得每个一个热门编码场馆类别的*均值
使用场地类别均值获取每个城市的基于场地的数据框，给出每个行政区十个最常见的场地

## Categorizing venues into pandas
*# one hot encoding*
London_onehot = pd.get_dummies(London_venues[['Venue Category']], prefix="", prefix_sep="")

*# add neighborhood column back to dataframe*
London_onehot['Borough'] = London_venues['Borough'] 

*# move neighborhood column to the first column*
fixed_columns = [London_onehot.columns[-1]] + list(London_onehot.columns[:-1])
London_onehot = London_onehot[fixed_columns]
London_onehot.head()
London_grouped = London_onehot.groupby('Borough').mean().reset_index()**def** return_most_common_venues(row, num_top_venues):
    row_categories = row.iloc[1:]
    row_categories_sorted = row_categories.sort_values(ascending=**False**)
    **return** row_categories_sorted.index.values[0:num_top_venues]num_top_venues = 10
indicators = ['st', 'nd', 'rd']

*# create columns according to number of top venues*
columns = ['Borough']
**for** ind **in** np.arange(num_top_venues):
    **try**:
        columns.append('**{}{}** Most Common Venue'.format(ind+1, indicators[ind]))
    **except**:
        columns.append('**{}**th Most Common Venue'.format(ind+1))

*# create a new dataframe for London*
Londonboroughs_venues_sorted = pd.DataFrame(columns=columns)
Londonboroughs_venues_sorted['Borough'] = London_grouped['Borough']**for** ind **in** np.arange(London_grouped.shape[0]):
    Londonboroughs_venues_sorted.iloc[ind, 1:] = return_most_common_venues(London_grouped.iloc[ind, :], num_top_venues)

Londonboroughs_venues_sorted.head(10)

伦敦(左)和巴黎(右)的熊猫数据框中排列的 Foursquare 场馆数据部分。

然后，使用“”k-means”将提供每个区最常见的场地数据的信息用于对街区进行分类。

4。聚集街区

我使用' k-means '算法进行了聚类分析，以便根据场地类别提供的相似性将相似的街区分类成簇。为了获得一些理解，我决定对将要使用的聚类数(k)进行一些研究，如下所示:

肘形法:我尝试使用肘形法确定伦敦聚类分析的有效聚类数(k)，并在 k = 6 附*看到一个小扭结(虽然不清楚也不尖锐)。肘形法对不同的 k 值使用组内误差*方和(WSS ),并且可以选择 WSS 开始减小的 k 值，并且可以被视为 WSS 对 k 图中的肘形。然而，对于 Paris 数据，没有明显看到扭结，因此我试图查看每个 k 值的聚类的剪影得分。剪影值衡量一个点与其自己的聚类(内聚)相比与其他聚类(分离)的相似程度。k = 2 左右的值给出了轮廓分数的全局最大值。尽管从这些研究中可以看出，我们没有明确的聚类数据，但为了我们的分析目的，我决定将伦敦街区分为 6 组聚类，将巴黎街区分为 2 组聚类。这可能是有益的，看看一个更详细的分析，以优化 k 在未来的此类研究。

5。结果讨论

为了解决手头的业务问题，我们考虑了伦敦内外的 33 个区和巴黎内的 16 个区。虽然这些社区中的每一个都可能是独一无二的，但其中一些在提供的便利设施方面可能更相似。执行聚类分析以找到那些相似的邻域。值得注意的一点是，从伦敦维基中提取的数据给出了伦敦内外各区的信息，因此将郊区也考虑在内。而巴黎维基提供的数据只给出了巴黎市内各区的信息，不包括巴黎周围大部分人口居住的郊区的信息。因此，这项研究中进行的分析需要更多的信息，以便在*等的基础上比较这些城市。

从解释性分析中得出的一些推论如下:

巴黎市中心的大部分地区比伦敦市中心的类似地区人口更稠密。伦敦 33 个区中有 9 个区的人口密度超过 1 万，而巴黎 16 个区中只有 3 个区的人口密度低于 1 万，4 个街区的人口密度超过 3 万。
在地图上，密集的行政区更多地集中在伦敦的内部区域，而不是外部区域，对于巴黎来说，最密集的行政区位于塞纳河以北。
对 Foursquare 场所数据的初步研究显示，咖啡店、咖啡馆、酒吧和果汁吧是伦敦市中心五个主要行政区最常见的场所。类似地，法国餐馆、意大利餐馆和酒店是在内巴黎五个主要行政区最常见的场所。

此外，对基于地点的数据的机器学习分析揭示了伦敦的大部分区可以被分组到一个聚类中。在这些区最常见的场所总是咖啡店、咖啡馆、酒吧、旅馆或餐馆，然后是某种服装、便利店或药店。巴黎总共被分为两个独立的区域。虽然两个集群中最常见的场所总是法国餐厅，但第一个集群中有大量的意大利餐厅、酒店和咖啡馆，第二个集群中有其他美食餐厅、酒吧、小酒馆、服装店或超市。

在这两个城市中，最常见的场所类型大多是餐馆、咖啡馆、酒店、酒吧、服装店或公园。这在某种程度上凸显了伦敦和巴黎在提供服务方面的相似性。

人们可以进一步使用场馆数据来比较城市，这是一种更全面的方式，人们也可以探索不同层次的空间聚合，即网格、街区和城市整体。当从场馆的角度来描述一个城市时，空间聚集的水*可能是一个重要的因素。

使用不同级别的空间聚合可以回答的一些问题可能是:

场馆类别在一个街区内是如何分布的，也就是说，这个街区是居住区还是商业区？
哪个城市的各种便利设施(酒吧、餐馆、公园、大学、图书馆、购物中心等)的数量最多？)

6。结论

总之，使用 Foursquare 基于场馆的数据分析城市，可以对每个街区的场馆类型有一个总体的了解，并呈现城市的一些关键特征，但是数据水*不足以提供城市间比较的全面分析。对于潜在的感兴趣的人(求职者或决定搬到两个城市之一的人)或更大的客户，如商业公司或城市规划者，需要做更详细的分析，增加诸如租金、工资、交通、生活成本、增长率、经济等特征。

capstone 项目提供了一个深入了解现实生活中数据科学项目如何工作以及构建数据科学方法的所有步骤的媒介。这里详细讨论了从理解业务问题、数据理解到数据准备和模型构建的所有步骤。还提到了目前分析的许多缺点和改进分析的进一步方法。这是理解和解决手头业务问题的初步尝试。然而，这个项目在现实生活中仍然有巨大的扩展潜力。

参考

[1] 伦敦维基百科

[2] 巴黎百科

关于我:

我是一名物理学家，几年来一直在分析粒子物理数据。在过去的几年里，我在卡尔斯鲁厄、日内瓦、圣保罗和芝加哥之间工作，目前居住在巴黎。尽管这样的数据分析将是设计一种方法来比较任何城市的垫脚石，但比较伦敦和巴黎是出于个人对这些城市的热爱。❤

你可以在 Linkedin 上找到更多关于我的信息。

链接到项目概要和代码。

"此刻做得最好会让你在下一刻处于最好的位置."保持安全和健康。

两种框架的故事

原文：https://towardsdatascience.com/a-tale-of-two-frameworks-985fa7fcec?source=collection_archive---------9-----------------------

Tensorflow 和 Pytorch:终于并肩了。

如果你像我一样，你在每个项目中都有一个最喜欢的框架。对我来说，这是 Tensorflow，特别是因为他们在 tf2.0 中更好地集成了 Keras。但每次 PyTorch 中发布另一个功能时，另一边的草看起来会更绿一些。所以本教程是为那些对一个框架有很强理解，对另一个有好奇心的人准备的。

在本教程中，我将带您浏览两个框架中的相同示例，包括一些最佳实践的并排比较，例如:

数据生成器应对大数据集
从头开始创建模型
设置一个损失函数和优化器和
带张量板测井和检查点T21 的训练循环
通过微调预训练模型 改善结果
评估你的一个测试集的模型

克里斯·亚瑟·柯林斯在 Unsplash 上拍摄的照片

资料组

我将使用一个熟悉的数据集，Cats v Dogs，因为本指南不是要解决一个棘手的问题(您可能已经想到了自己的问题)，而是要创建一个您可以轻松适应的通用、最小的示例。不过，最主要的是，我使用这个数据集是因为如果我要花大量时间看图片，我宁愿它们是可爱的动物。如果你想完全跟随，从这里下载数据。

我的数据集存储在包含我的训练脚本(“文件夹”)的文件夹的子目录(“数据”)中，其结构如下:

folder/
├── data/
    ├── test/
        ├──1.jpg
        ├──...
    └── train/
        ├──cat.0.jpg
        ├──dog.0.jpg
        ├──...

设置数据生成器

我的数据集不是很大(25，000 个相当小的图像，其中我只使用 1000 个作为最小的例子)，所以我可以将它们全部加载到内存中。但是数据集太大而无法加载到内存中变得越来越常见，因此拥有一个能够处理这些情况的管道非常重要。数据生成器是一个很好的选项，它允许您实时生成数据，批量运行预处理和扩充，并将其直接输入到模型中。这可以在训练期间带来巨大的效率，因为它允许在 GPU 正在运行训练的 CPU 上准备数据。

张量流数据生成器

对于我的 Tensorflow 数据生成器，我将从 tf 中继承。 keras 。实用工具。序列，这样我就可以利用多处理这样的额外好处。你会注意到我在这段代码中调用了一个函数‘augment ’,你可以在这里找到那个的代码，或者创建你自己的函数，其中输入是一个图像，输出是那个图像的放大版本，大小固定(im_size ),范围在-1 和 1 之间。

我们将重要信息作为参数，例如包含数据的目录(data_dir)、批量大小、图像将被重新缩放的大小(为此，它们将具有相同的高度和宽度)、要使用的图像数量(将此设置为小于图像总数的数字有助于测试网络和调试)，以及数据是否应该在每个时期被打乱。

该类需要一些方法才能正常工作:

init 是初始化方法，在类被实例化时调用。在这里，它定位我们的图像名称，把它们放在一个列表中，并洗牌。
on_epoch_end 在每个 epoch 结束时触发，这里只是对数据进行洗牌。
每次训练循环从生成器请求新数据时，索引将从 0 递增到由 len 定义的上限。最佳实践是将该上限值设置为每个时期中的批次数量，以便每个时期可以看到每个图像一次。
getitem 在每次请求数据时被调用，它获取前面提到的索引，基于该索引获得图像名称的 batch_size 列表，并获取它们。

该类中的另外两个方法不是严格必需的:

__get_data 是一个私有方法，由 getitem 调用以获取图像并对其进行扩充。您可以将代码放在 getitem 中，但是这种布局使代码更加模块化。
load_val 一次性加载所有验证图像。这与使用数据生成器处理大型数据集的目的背道而驰，但不幸的是，我将使用的一种训练方法(“fit”)不接受生成器作为验证数据集，希望在未来的版本中可以解决这个问题。

然后，在训练脚本中创建一个生成器实例，并读入所有验证图像，这是一件非常简单的事情。

PyTorch 数据生成器

PyTorch 数据生成器与 Tensorflow 生成器非常相似。然而在这种情况下，传承自的火炬。 utils 。数据。数据集允许我们使用多重处理，类似于上一节中 tf.keras.utils.Sequence 的继承。还有很多其他的相似之处，我们使用了增强功能，我们也使用了类似的参数，包括批量大小、图像大小、图像数量和随机播放。

生成器包含三种相同的方法:

init 是初始化方法，这里是打乱图像文件名(它已经被传递了)，并设置增强参数。
len 的操作方式与上述相同
getitem 读取一幅图像并放大。注意，这个生成器与前面的生成器的一个关键区别是，这里的生成器只生成一个图像，而 label - PyTorch 管理图像的批处理。

这里需要注意的一件重要事情是，如果 mobilenet 中的模型类型是应用于图像的归一化，这是因为我们将用于“mobilenet”的网络是一个预先训练的 torchvision 模型，它是使用在这种情况下归一化的图像训练的。因此，在使用这个模型时，我们需要以同样的方式进行归一化。

在培训管道中创建 PyTorch 生成器需要一些额外的工作。首先，我们设置一些参数，包括用于并行加载数据的线程数量。然后我们实例化该类，并将其传递给 DataLoader 类，该类也接受我们设置的参数。我们为验证创建第二个生成器，传递验证标志以确保图像不会被放大。

创建简单的模型

现在让我们看看创建一个简单的 CNN 是什么样子的。在这两个框架中，我将设置一个具有 4 个卷积层的 CNN，由最大池分隔，然后是 50%的下降，然后是两个线性层。我们在这里不是为了表演，只是为了演示。

这两个框架都允许你从头开始创建你需要的层，这意味着你有相当多的可定制性。然而，除非你有一个非常好的理由想要创建你自己的定制层，否则我鼓励你省去麻烦，使用两个框架都提供的用户友好的包装器。

张量流简单模型

Tensorflow 最*正确集成了 Keras，这是一种非常受欢迎的包装器，可以简化深度神经网络的创建和训练。这就是在 Tensorflow Keras 中创建我们的简单 CNN 的样子。

使用顺序模型类型将一堆层组合在一起。层在序列内堆叠的顺序表示层在网络中的顺序。与我们将在 PyTorch 中看到的不同，所有的层，包括那些没有可训练参数的层(比如 MaxPooling 和 activation 函数)都包含在模型中。这是因为这个函数既声明了模型的结构，又定义了向前(和向后)传递的数据流。

PyTorch 简单模型

在 PyTorch 中，模型被定义为从 nn 继承的类。模块，包含图层的 init 和定义数据如何通过网络的 forward()方法，并返回网络的输出。

请记住，任何具有需要训练的参数的层(如卷积层)都需要在 init 中注册。没有可训练参数(如最大池和激活函数)的层可以在 init 或 forward()中注册。

这可能比我们在 Tensorflow 中连接网络的方式要复杂一点，但是层和连接的分离为 PyTorch 提供了相当大的灵活性，这在 Tensorflow 中是不容易实现的。

定义损失函数和优化器

损失函数将模型的输出与目标值进行比较，并估计它们之间的差距。您使用的损失函数将取决于您的应用，我使用的是二元交叉熵和 Logit 损失，因为我正在训练一个二元分类器。“logit 损失”部分是因为我的模型的输出具有线性激活函数，这在 DL 框架术语中意味着我的损失函数的输入是“logit”，该术语用于分类输出在通过 sigmoid 或 softmax 层之前。使用交叉熵计算 sigmoid/softmax 的计算效率更高，具有 logit 丢失层的 BCE 就是这样做的。

优化器用于更新模型的参数，以减少损失。有很多优化器可供选择，但我使用的是亚当。

张量流损失函数和优化器

在 Tensorflow 中，有和没有 logit 损失的二元交叉熵是通过相同的函数定义的。

PyTorch 损失函数和优化器

在 PyTorch 中，有 logit 损失的二元交叉熵是一个独立于没有 logit 损失的函数。此外，优化器将模型参数和学习率作为输入。因此，如果您没有训练所有的参数(即，如果您正在微调模型)，那么请确保只传入您正在训练的参数。

训练循环(带记录)

最后，我们得到了好东西，训练我们的网络。我们还将在训练循环中添加两个独立的函数，一个用于将训练过程记录到 Tensorboard，另一个用于模型检查点。

Tensorboard 用于记录模型在训练过程中的损耗和精度。您还可以添加其他功能，如记录图像(如果您正在训练图像生成器，这将非常方便)和直方图(非常适合跟踪梯度)。

Tensorboard 提供了一个很好的方法来检查训练的结果，并比较不同的模型。

模型检查点在训练期间定期(默认为每个时期)将模型或权重保存在所选文件夹中。如果验证精度大于当前检查点，我们将只覆盖每一步的权重。

你可以(也应该)添加许多其他功能，比如学习率计划和提前停止。

Tensorflow 训练循环(选项 1)

在 Tensorflow 中，有多种训练网络的方法。第一种是最简单的，它利用 Keras 的“fit”方法，使用您的数据生成器作为训练数据输入(请注意，在 Tensorflow 2.0 之前，您必须使用“fit_generator”将生成器作为输入，但这在最*的版本中已被否决)。不幸的是，验证数据不能作为生成器传入。

在调用“fit”之前，我们需要用优化器和 loss 编译我们的模型。我们还为多重处理设置了一些参数，以加速训练循环。这里要注意的另一件事是回调的使用，这就是我们如何定义 Tensorboard 和前面提到的模型检查点行为。