[论文总结] 深度学习在农业领域应用论文笔记9

文章目录

1. A Scalable Machine Learning System for Pre-Season Agriculture Yield Forecast （2018 IEEE 14th International Conference on e-Science， 2018）
2. Machine learning and data mining advance predictive big data analysis in precision animal agriculture （综述，动物，2018）
3. A review of the use of convolutional neural networks in agriculture （The Journal of Agricultural Science ，IF=1.082, 2018）
- 3.1 农业深度学习的未来
4. A 30-m landsat-derived cropland extent product of Australia and China using random forest machine learning algorithm on Google Earth Engine cloud computing platform（ISPRS Journal of Photogrammetry and Remote Sensing， IF=7.319，2019，耕地类别鉴别）
5. Applying machine learning on sensor data for irrigation recommendations: revealing the agronomist’s tacit knowledge （Precision Agric，IF=4.454, 2017）
6. Current and future applications of statistical machine learning algorithms for agricultural machine vision systems （Computers and Electronics in Agriculture， IF=3.889, 2020）
7.CropDeep: The Crop Vision Dataset for Deep-Learning-Based Classification and Detection in Precision Agriculture（sensors， IF=3.35）
8. Statistical Machine Learning Methods and RemoteSensing for Sustainable Development Goals:A Review （ remote sensing, IF=4.557,2018）
9. Convolutional Neural Networks for the Automatic Identification of Plant Diseases （IF=4.402, 2019，改论文对深度学习进行了科普解释）
10. A Cloud-Based Multi-Temporal Ensemble Classifier to Map Smallholder Farming Systems （ remote sensing, IF=4.557, 2018）

1. A Scalable Machine Learning System for Pre-Season Agriculture Yield Forecast （2018 IEEE 14th International Conference on e-Science， 2018）

摘要：产量预测对于农业利益相关者至关重要，可以使用机器学习模型和来自多个来源的数据来获得。大多数产量预测解决方案都依赖NDVI（归一化植被指数） 数据，除了获取和处理过程很耗时外，仅在作物季节开始后才可以进行预测。为了使产量预测具有可扩展性，在本文中，我们描述了一个系统，该系统将卫星衍生的降水和土壤属性数据集，物理模型的季节气候预测数据以及其他来源结合在一起，以产生大豆/玉米单产的季节前预测。无需NDVI数据。通过免除对高分辨率遥感数据的需求，并使农民为气候对作物周期的不利影响做好准备，该系统可提供非常有用的结果。在我们的研究中，我们预测了巴西和美国的大豆和玉米单产，占2016年世界谷物产量的44％。结果表明，大豆和玉米单产预测的误差指标与仅提供单产预测的类似系统相当作物周期的前几周到几个月的信息。

1.1 前言

先从遥感、无人机、场传感器、卫星、农用设备等多方面的应用。当前的机器学习算法、场传感器，卫星，无人机和农用设备可以提供有关土壤条件，植物的大量数据生理，天气，气候和一些过程发生在一个农场。这些数据集允许创建可能非常极端的分类和预测模型对农业生产有帮助。

产量预测领域中完成的大部分工作通过ML利用某种遥感数据
场，特别是以标准化差异的形式，植被指数（NDVI），是植被的流行指标可以从近红外和红色光谱中检索到的活性渠道。这些索引具有提供以下优点对农场的直接观察，对于遵循作物周期。这些数据集提供了关于近乎真实的见解有时间解决诸如疾病和缺陷之类的问题只有在种植后才能进行产量预测，因为人们可以进行分析作物发育并尝试预测其最终结果收获。

在本文中，我们介绍了一种基于ML的系统，该系统使用来自多个来源的数据在农作物季节开始之前进行大豆单产预测（称为季前预测）。该系统由循环神经网络（RNN）组成，该网络以降水，温度和土壤特性为特征进行了训练，并在巴西和美国的1500多个城市的城市水平上观察到了大豆和/或玉米的历史单产作为标签。在操作上，气象数据由基于重新分析的温度和降水的季节性预报产品提供，这使得未来最多可以预报7个月。结果是可比较的，在某些情况下，其结果优于需要在农场中使用遥感数据的类似模型，因此只能在作物周期的前几周/几个月提供预报（早期预报）。这项工作的两个主要贡献是：
与需要大量遥感数据的现有产量预测解决方案相比，基于较少数据需求的产量预测系统。我们的系统会从适当的来源自动检索给定坐标的必要气候和土壤属性数据。另一个优点是该系统还可以在较大的区域上运行，并以高分辨率提供预测
与最佳输入数据分辨率兼容，在这种情况下，原始数据分辨率为250m。
在作物季节开始之前预测产量的能力。这为用户提供了执行策略变更的能力，例如在种植前选择更健壮的遗传变异，甚至改变作物类型，以适应作物周期前期的极端气候变化。

1.2 材料与方法

由气候危害小组带站红外降水（CHIRPS）数据集提供了月降水量数据[16]。土壤特性数据来自SoilGrids.org [18]，这是一个开放的全球土壤数据集，每像素分辨率为250m，可提供有关粘土，粉砂和沙子含量以及细土和粗碎屑堆积密度的信息。所有这些数据都可以在七个深度（0、5、15、30、60、100和200cm）中使用。 SoilGrids数据是基于用于训练的150，000个土壤剖面和158个基于遥感的土壤协变量的预测结果。这些被用来拟合随机的合奏森林，梯度提升和多项式逻辑回归楷模。作为训练的标签，模型使用实际的产量数据。验证和测试中使用的数据集大小。对于每种情况，测试集由总数据点的20％组成，而训练和验证集则由其余的点组成**（其中30％的验证和70％的训练）**。
在这里插入图片描述

1.3 结论

我们提出了一种提供季前产量预测的机器学习系统，这意味着农民可以在播种之前做出农场管理决策(比如选择不同的作物或基因变异)。在本工作中提出的系统是由一个神经网络，其中输入被分开处理。静态土壤数据采用全连通层处理，动态气象数据采用周期性LSTM层处理。根据两种作物(玉米和大豆)和两个地区(巴西和美国)的历史产量标签，针对几种土壤特性、降水量、最低温度和最高温度的历史数据，对这个特殊的结构进行了训练，这两个地区的产量相当于全球44%的粮食产量[6]。经过训练后，该模型在一个单独的数据集中进行了测试，并显示了与现有数据集相当的结果利用广泛的远程数据预测产量的方法数据。我们从实验中得到的主要教训是，由于所提出的神经网络模型可以检测和利用土壤和天气数据中的冗余信息，因此获得可伸缩的产量预测是可能的。此外，模型可能已经能够学习考虑到使用的季节性大气数据，本文中评估的作物周期的隐式表示作为输入。

[个人总结] 论文没有提到精度，F1, 灵敏度等，训练集验证集和测试集的比例也不合理，相当于没有测试集。没有对模型进行改进，结论写的相当啰嗦。

参数	内容
方法	RNN等
速度	否
模型大小	否
准确率accuracy	否
精度precision	否
召回率recall	否
F1参数	否
数据集大小	2608个数据
训练集、验证集、测试集情况	7：3
与其他方法对比	多种方法融合
数据集来源	试验和公共数据
软硬件平台	未知
开源	无
其他	无

2. Machine learning and data mining advance predictive big data analysis in precision animal agriculture （综述，动物，2018）

略

3. A review of the use of convolutional neural networks in agriculture （The Journal of Agricultural Science ，IF=1.082, 2018）

摘要： 深度学习（DL）构成了具有巨大潜力的现代图像处理技术。它已成功地应用于各个领域，最近也进入了农业领域。在当前的论文中，对采用卷积神经网络（CNN）的研究工作进行了调查，卷积神经网络构成了DL的特定类别，适用于各种农业和粮食生产挑战。本文根据作者使用的绩效指标，对正在研究的农业问题，所采用的模型，所使用的数据来源以及所获得的总体精度进行了研究。将卷积神经网络与其他现有技术进行了比较，并列举了在农业中使用CNN的优缺点。此外，还讨论了该技术的未来潜力，以及作者在使用CNN估算哥斯达黎加的甘蔗种植园中发现缺少的植被后的个人经验。总体发现表明，CNN构成了一种有前途的技术，具有很高的精度和分类精度，优于现有的常用图像处理技术。但是，每个CNN模型的成功很大程度上取决于所使用数据集的质量。

在这里插入图片描述

3.1 农业深度学习的未来

当前的研究表明，CNN仅估算了12个与农业相关的问题（参见前面）。这将是有趣的是，我们可以看到CNN在其他农业相关领域的表现这些问题包括作物物候，种子鉴定，土壤和叶中的氮含量，灌溉，植物水分胁迫检测，水蚀评估，病虫害检测和除草剂的使用，污染物的识别，食物疾病或缺陷的鉴定，作物冰雹的危害和温室监测。直观地讲，由于许多上述研究领域都采用了数据分析技术具有与CNN类似的概念并且具有可比的性能（即线性和逻辑回归，SVM，KNN，K-means聚类，基于小波的滤波，傅立叶变换），那么值得研究CNN对这些问题的适用性。其他可能的应用领域可能是天线的使用影像（即通过无人机）以监控效果播种过程，提高葡萄酒生产质量通过在适当的时候收获葡萄以达到最佳成熟水平，监视动物及其运动以考虑其整体福利并确定可能的疾病以及许多其他情况涉及计算机视觉的地方。

如前所述，当前调查中考虑的所有论文都使用了基本的CNN架构，这些架构仅构成了DL模型的一个特定的，更简单的类别。该研究未考虑/包括更高级和复杂的模型，例如递归神经网络（RNN； Mandic和Chambers，2001）或**长短期记（LSTM）**体系结构（Gers等，2000）。这些架构倾向于表现出动态的时间行为，既可以记住（即RNN），又可以在一段时间后或需要时（例如LSTM）忘记。一个示例应用可以是基于先前的连续观察来估计植物，树木甚至动物的生长，以预测其产量，评估其水需求或预防疾病的发生。这些模型也可以在环境信息学中找到适用性，以了解气候变化，预测天气状况和现象，估算各种物理或人工过程对环境的影响等。

4. A 30-m landsat-derived cropland extent product of Australia and China using random forest machine learning algorithm on Google Earth Engine cloud computing platform（ISPRS Journal of Photogrammetry and Remote Sensing， IF=7.319，2019，耕地类别鉴别）

摘要： 参考培训和验证数据来自：（a）实地考察，（b）米至5米的超高空间分辨率影像（VHRI）数据，以及（c）辅助资源，例如来自国家农业局的数据。MFDC使用958个澳大利亚参考培训样本和2130个中国参考培训样本从MFDC中获得了用于训练RF算法的农田与非农田知识库。使用独立的验证样本对所得的30米长的农田范围产品的准确性进行了评估：澳大利亚为900个，中国为1972年。澳大利亚30公顷农田产品的整体精度为97.6％，生产者精度为98.8％（遗漏误差= 1.2％），用户精度为79％（佣金误差= 21％）。在中国，总体精度为94％，而生产商的准确性为80％（遗漏错误= 20％），使用者对耕地类别的准确度为84.2％（佣金错误= 15.8％）。

澳大利亚的耕地总面积估计为3510万公顷，而中国为1.652亿公顷。与传统的国家统计数据相比，澳大利亚和中国的估算值分别高出8.6％和3.9％。农田范围产品进一步证明了估算国家以下水平的能力与中国的省级耕地相比，R2值为0.85，可以准确地确定耕地面积。

在这里插入图片描述

4.1 方法

这项研究的目的是为澳大利亚和中国生产准确的Landsat 30米衍生的农田范围产品。我们在GEE云计算平台上使用基于像素的监督分类方法和RF分类器，使用Landsat 30米，16天时间序列数据（图2a和2b）为澳大利亚和中国开发农田范围产品（图2a和2b）， 2013-2015年期间。该方法的概述如图5所示。

4.1.1 随机森林机器学习算法

我们选择基于像素的监督随机森林（RF）机器学习算法，因为它通常不受数据噪声和过度拟合的影响，并且在分类遥感数据方面非常有用。此外，与其他方法（例如最大拟合，单决策树和单层神经网络）相比，RF分类器可以成功处理高数据维数并通常获得更高的准确性。随机森林算法是一种机器学习方法，其中RF分类器构造多个不相关的随机决策树，通过使用所有决策树的预测模式对这些决策树进行引导和聚合，以对数据集进行分类。 RF分类器比单个决策树更强大，并且比熊雄等人最近建立的许多其他高级分类器（如支持向量任务（SVM（Pelletier等人，2016））更易于实现。

4.2 结论

该研究表明，在非常大的范围内（例如，澳大利亚，中国）使用多年（2013-2015年）的16天Landsat数据，利用Google Earth Engine云计算平台的大数据管理和处理能力，从多个来源获取随机森林机器学习算法，大量参考培训和验证数据集。这些方法和方法证明了在涉及PB级大数据的大陆\大国规模上快速准确地绘制耕地图的能力。在标称的2015年，澳大利亚和中国生产的3000万枚Landsat衍生的农田范围产品的总体精度超过94％。绘制的农田类别以澳大利亚的生产者准确度为98.8％（遗漏错误= 1.2％）和中国的准确性为80％（遗漏错误= 20％）。在澳大利亚，用户的准确性为79％（佣金错误= 21％），在中国为84.2％（佣金错误= 15.8％）。该研究还证明了计算省级以下国家级耕地面积统计数据的能力，与中国的国家统计数据相比，可以解释85％的变化。 30米耕地范围产品测绘的复杂系列。

在这里插入图片描述
测试和验证的数据集分布非常不合理，数据分布很随意，总体训练和测试集的分别为5：5.
[个人总结] 看不懂太懂这个论文，主要讲通过随机森林和监督分类方法对数据进行分析和分类，来判别农田的类型。但也没有提到精度和准确率等具体指标。优点是：有澳大利亚和中国的两个地方的数据，且数据类型包括大田实拍，国家农业局的数据，空间分布影像。

参数	内容
方法	RF分类器、监督分类方法
速度	否
模型大小	否
准确率accuracy	否
精度precision	否
召回率recall	否
F1参数	否
数据集大小	没有介绍具体多少张图
训练集、验证集、测试集情况	7：3
与其他方法对比	多种方法融合
数据集来源	试验和公共数据
软硬件平台	未知
开源	无
其他	无

5. Applying machine learning on sensor data for irrigation recommendations: revealing the agronomist’s tacit knowledge （Precision Agric，IF=4.454, 2017）

摘要：荷荷巴油以色列公司是荷荷巴油产品的世界领先生产商，其果园中覆盖着传感器，传感器收集土壤水分数据以实时监测植物的需求。根据这些数据，该公司的农艺师制定了每周灌溉计划。此外，还从其他来源（例如气象站和灌溉计划记录）记录了有关天气，灌溉和单产的数据。但是，到目前为止，还没有尝试使用整个收集的数据来揭示见解和有趣的关系
在不同的变量之间进行比较，例如土壤，天气，灌溉特征以及最终的产量。通过整合和利用来自不同来源的数据**，我们的研究旨在将收集到的数据不仅用于监测和控制农作物，而且还用于预测灌溉建议。特别是，通过整合从近两年来收集的数据来构建数据集，这些数据来自分布在四个主要地块（分为28个子样地和八个灌溉组），气象台和实际灌溉记录中的22个土壤传感器。将不同的回归和分类算法应用于此数据集，以开发能够预测农学家建议的每周灌溉计划的模型。使用八个不同的变量子集来开发模型，以确定哪些变量一致地有助于预测准确性。通过比较结果模型，可以看出最佳回归模型是梯度提升的回归树，准确度为93％，最好的分类模型是提升树的分类器，准确度为95％（在测试集上）。还确定了对模型预测成功率没有贡献的数据。所结果的该模型可以极大地促进农艺师的灌溉计划过程。此外，还讨论了在公司数据上应用机器学习进行产量和疾病预测的潜力。

研究过程：
在这里插入图片描述

5.1 材料与方法

这项研究整合了来自各种来源的数据。土壤水分数据是uMANAGE TM1收集的，uMANAGE TM1是一个基于Web的实时作物管理系统，连接到不同类型的传感器。研究集中在四个主要区域自2014年以来收集的数据。每个样地均以播种年份（年龄），播种类型（种子或无性系），播种是否为有机以及土壤类型来表征。每个地块进一步分为4-10个分别浇灌的子图。共有八组子图灌溉在一起，每个子图都是特定组的一部分（突出显示了每个灌溉组的边界）。每个子图还与11个传输站之一相关联，这些传输站从位于两个深度（浅（地下0.4m以下）和深（地下0.4m以上））的两个湿度传感器传输数据。总共从28个地块收集了数据，覆盖了22个湿度传感器。

5.2 选择深度学习模型

数据集的每一行都在特定的一周和一年中捕获了特定灌溉组（有八个组）的上述周级数据。每行还包括灌溉组的特征：其所属的地块（确定土壤类型），是否为有机物，以及实际灌溉量（以毫米（mm）为单位）作为因变量。结果数据集包括695条记录，代表98周。为了选择用于本研究的特定算法，需要进行基本比较进行了以下过程：首先，将集成数据集分为训练（70％）和测试（30％）集。其次，在训练集上应用了不同的机器学习算法（具有默认设置）来训练不同的机器学习模型。最后，产生的结果在测试集上检查了模型，并相互比较。

5.3 传感器数据

为了清理嘈杂数据，按照农艺师提供的指导，将水分值小于17或高于39％（视为异常）滤除。在完整的数据集中，这种异常可能是由传感器或变送器的故障或未校准造成的，仅发生了两次。在这两种情况下，通过使用空间均值插补（Kennedy and Tobler 1983），即从两个最近的传感器收集的平均值来代替这些值。然后计算每个灌溉组的每周土壤平均湿度。湿度传感器位于两个深度：深（小于0.4 m）和浅（小于0.4 m深）。因此，每周计算两次湿度平均值，每个深度一个。在此外，对于每个深度的每个灌溉组，土壤饱和（农艺师确定的水分含量高于27％）和干旱胁迫（水分含量低于20％）的持续时间（天），由农艺师确定）。这些持续时间用整数表示（1-7天）。每周汇总数据的原因是，根据前一周收集的数据，每周进行一次灌溉计划过程。

5.4 气象资料

根据从附近气象站收集的数据计算前一周和前一天的平均气温，湿度和辐射，每20分钟测量一次。一整天计算平均值。
、

5.5 其他属性

数据集的每一行都在特定的一周和一年中捕获了特定灌溉组（有八个组）的上述周级数据。每行还包括灌溉组的特征：其所属的地块（确定土壤类型），是否为有机物，以及实际灌溉量（以毫米（mm）为单位）作为因变量。结果数据集包括695条记录，代表98周。然后将此数据集划分为训练集和验证集：将70％的记录（随机选择）定义为训练集并用于训练模型，其余的则作为训练集。记录（30％）被定义为测试集，并用于评估模型的性能。

5.6 机器学习

机器学习（ML）领域涉及如何构建随经验而自动改善的计算机程序的问题。机器学习的主要目标是构建可以从数据中学习并进行使用数据进行预测。通常，这些算法使用大量输入观测值（称为训练集）来调整自适应模型的参数。机器学习算法针对各种任务，包括回归-一种估计因变量与一个或多个自变量之间关系的过程。分类-根据先前分类的观察值的训练集来确定观察值在给定类别（类）集中属于哪个类别的过程；聚类-将一组观测值划分为多个组（集群）的过程，以使在同一聚类中分组的观测值更类似于彼此之间的区别（根据给定的相似度函数）；和关联规则学习-一种基于大量观察值来识别变量之间强烈的有趣关系（规则）的统计过程。在本研究中，开发了回归模型和分类模型来预测农艺师推荐的灌溉量（在分类模型的情况下，观测值分为五个灌溉等级类别）。

5.7 ML模型的开发

为了进行数据分析和模型开发，使用了Turi2 machin学习平台的graphLab创建。 GraphLab create是基于python的ML框架，可用于开发和部署智能应用程序和服务。它包括用于数据转换和处理的库，以及用于创建，评估和可视化ML模型的可伸缩ML工具包。它可以有效且快速地处理大量数据。

5.8 ML模型的选择

为了开发灌溉建议预测模型，研究了不同类型的ML算法：线性回归，回归树和分类算法。为了选择用于本研究的特定算法，需要进行基本比较进行了以下过程：首先，将集成数据集分为训练（70％）和测试（30％）集。其次，在训练集上应用了不同的机器学习算法（具有默认设置）来训练不同的机器学习模型。最后，产生的结果在测试集上检查了模型，并相互比较。

在这项研究中，使用了梯度增强回归树（GBRT）的回归树模型。GBRT和BTC模型的高预测成功率(分别为93和95%)表明，它们确实可以促进甚至自动化灌溉决策。

5.10 结论

这项研究的目的是建立一个模型，以捕捉农艺师的灌溉计划过程并预测其灌溉建议。通过将ML应用于集成了来自不同来源的数据的数据集来实现此目标。除了农学家确定的灌溉水平外，数据集还捕获了各种基于传感器的特征，天气特征和描述地块的特征。基于此综合数据集，得出了不同的灌溉建议预测模型开发了三种ML方法：传统的线性回归和两种非参数方法GBRT和BTC。针对八个不同的特征子集对模型进行了训练。结果表明，非参数模型（即GBRT和BTC模型）在预测灌溉决策方面比线性回归模型更为准确，并取得了成功。

这项研究的目的是建立一个模型，以捕捉农艺师的灌溉计划过程并预测其灌溉建议。通过将ML应用于集成了来自不同来源的数据的数据集来实现此目标。除了农学家确定的灌溉水平外，数据集还捕获了各种基于传感器的特征，天气特征和描述地块的特征。基于此综合数据集，得出了不同的灌溉建议预测模型
开发了三种ML方法：传统的线性回归和两种非参数方法GBRT和BTC。针对八个不同的特征子集对模型进行了训练（如表2中所述）。结果表明，非参数模型（即GBRT和BTC模型）在预测灌溉决策方面比线性回归模型更准确，成功率分别为93％和95％。此外，与线性回归相比，GBRT和BTC模型需要较少的变换来捕获变量之间的非线性关系。

但是，他们提供的模型更难以解释，因为它们包括五十个决策树。尽管为整个功能集（第1套）开发的GBRT和BTC模型提供了最佳结果，但表明第6套的GBRT模型具有与第1套相同的成功率，这可能表明干旱/饱和度和IPPD天气数据可以从数据集中排除，而准确性损失很小。此外，结果表明，不同的要素集在不同的样地上均能达到最佳效果，这表明，通过提供更细粒度的灌溉决策基础设施，更多细粒度的数据可以改善决策。

这项研究的贡献是三方面的。首先，本研究阐述了指导农艺师抽象决策过程的默认知识。所得模型可用于使灌溉决策过程自动化。农民决定灌溉量的常用方法是使用Penman-Monteith方程，该方程近似于净蒸散量（ET）。但是，由于所有方程参数都是由气象站对整个土地进行测量的，因此农艺师可以为所有地块计算一个ET值，这将导致对所有地块的单个灌溉建议。以色列霍霍巴省的农艺师将其灌溉决策过程中的ET值与其他测得的参数和与地块相关的特征相结合，以定义特定于地块的灌溉量，从而导致不同子图的灌溉量不同。现在，已开发的模型将捕获此决策过程，该模型通过使灌溉计划过程自动化或半自动化，并且无需每周进行逐个图分析植物和土壤数据的分析，可以提高农艺师的效率。对农艺师的决策过程进行建模可实现将其复制到其他果园或更频繁地执行它，而无需付出额外的努力。

其次，通过开发具有不同特征子集的模型，可以得出有关不同特征及其对预测模型的贡献的见解。特别是，显示出至少不包含干旱/饱和度和IPPD天气数据的特征集以及包含所有可用数据的特征集都表现出色，这使这些数据在预测灌溉量方面的价值受到质疑。此外，结果表明，不同的特征集对于不同的地块是最佳的，这表明为不同地块开发独特的模型可能很有用。
第三，这项工作产生了对不同ML模型对灌溉计划问题的适用性的见解，表明基于梯度增强的非参数模型比传统的线性回归要好得多。

总之，这三个贡献代表了一种可以应用于其他作物以及农业中其他决策过程（例如施肥和害虫控制决策）的方法。

参数	内容
方法	线性回归和梯度增强回归树， BTC
速度	否
模型大小	否
准确率accuracy	否
精度precision	93%
召回率recall	否
F1参数	否
数据集大小	793
训练集、验证集、测试集情况	7：3
与其他方法对比	多种方法对比
数据集来源	试验
软硬件平台	未知
开源	无
其他	无

6. Current and future applications of statistical machine learning algorithms for agricultural machine vision systems （Computers and Electronics in Agriculture， IF=3.889, 2020）

机器学习技术对于农业机器视觉系统。 ML技术用于杂草检测，植物病害和胁迫检测，产量预测和估算，植物含水量确定，分级和分选，土壤分析和实时田间作业的使用可能在不久的将来成为常规作业。机器视觉在机器学习方面的进步将使农业技术更加准确，强大和低成本。机器视觉可能需要图像采集和处理，这可能需要鉴别器来对具有高维数据的目标进行分类。令人信服的机器学习技术将适当的特征提取和选择过程与适当的预测算法结合在一起。机器学习方法的潜在应用在很大程度上取决于机器学习算法在作物系统特定领域的适当应用。基于目前用于机器视觉系统特征分析的机器学习技术和方法的研究动态，预计未来精确农业系统中特征数据分析的未来趋势。

•基于NB的ML算法适用于处理能力强的任务数据分布和相关级别的先验知识在不同功能之间。观察到NB算法不同功能的组合效果不佳。这个可能是因为此算法无法学习互动由于功能之间的相关性。但是要小心功能选择（使用PCA或其他功能选择过程）可以帮助实现功能的条件独立性。在针对NB的文献综述中，发现47％的论文与农产品等级有关，使用了29％用于作物病害检测，18％用于杂草检测和6％用于检测植物中的营养缺乏（表格1）。

•像NB这样的DA也适用于已知的数据分发；但是，这些类型的算法能够学习不同功能之间的相互作用。通常，非线性算法（QDA，KDA）的性能优于LDA和NB。在有关DA的文献综述中，有50％的论文用于解决与农产品分级有关的问题，42％的用于杂草检测，8％的用于作物病害检测

•对于几乎不了解数据分布的应用程序，可以使用kNN，因为它无需做任何假设关于数据。应该注意的是，kNN通常占用很大
处理时间。回顾文献表明kNN的性能不同功能的组合比NB更好。在kNN综述文献摘要，发现47％的论文用于解决与农业有关的问题产品分级，21％用于作物病害检测，16％用于杂草检测，其余用于养分缺乏，土地分类等。

•尽管支持向量机在训练和测试中有一些限制，但该分类器在植物病害检测和杂草识别方面具有良好的潜力。尤其是在大田作物种植中，基于SVM的机器学习分类器在田间条件下非常有效，数据偏斜的地方。在SVM的综述文献中，有70％的论文用于作物病害检测，有18％的论文用于解决与SVM相关的问题。
农产品分级和12％用于杂草检测。

•在无监督的ML算法中，当数据点明显可分离时，可以使用K-均值聚类，因此可以将这些点归为一类。如果类有一些重叠，则K-means算法不适合。在有关K均值聚类的综述文献中，有39％的论文用于解决与农产品分级相关的问题，21％的作物病害检测，18％的杂草检测，11％自动化机器人应用程序，其余的用于产量估算，作物行检测，树图绘制，可变速率（VR）灌溉和作物基因型分类。

（这篇论文之前看过了）

7.CropDeep: The Crop Vision Dataset for Deep-Learning-Based Classification and Detection in Precision Agriculture（sensors， IF=3.35）

摘要：为了鼓励在具有挑战性的现实农业条件下取得进一步的进展，我们提供了CropDeep物种分类和检测数据集，包括31,147幅图像和超过49,000个注释实例。与现有的视觉数据集不同的是，图像是用温室中的不同摄像机和设备收集的，在各种各样的情况下捕获。它以视觉上相似的物种和周期性变化为特色，带有更有代表性的注释，这为基于深度学习的分类和检测提供了更强的基准。为了进一步验证应用前景，我们提供了广泛的基线实验使用最先进的深度学习分类和检测模型。结果表明，目前基于深度学习的分类方法的分类准确率达到99%以上。而目前的深度学习方法只能达到92%的检测准确率，这说明了数据集的困难和先进的深度学习模型在应用于作物生产和管理时的改进空间。具体地说，YOLOv3网络在农业上有很好的应用潜力。

[个人总结] 通过多个摄像设备得到了数据，再用不同的方法去比较、分类的精度与速度。改论文没有创新点。

8. Statistical Machine Learning Methods and RemoteSensing for Sustainable Development Goals:A Review （ remote sensing, IF=4.557,2018）

摘要：回顾了通常用于遥感数据的统计机器学习方法的文献。我们特别关注与联合国世界银行可持续发展目标有关的应用，包括农业（粮食安全），森林（陆上生命）和水（水质）。我们提供了有用的统计机器学习方法的综述，它们在遥感环境中的工作方式以及它们在文献中对这些类型的数据的应用示例。与其为特定的应用规定特定的方法，我们从文献中为遥感从业人员和应用统计学家提供指导，示例和案例研究。在补充材料中，我们还描述了遥感数据分析前后的必要步骤；预处理和评估步骤。

[个人总结] 写的很一般，把机器学习中的分类、聚类、回归、降维在不同情景下介绍了两遍。

9. Convolutional Neural Networks for the Automatic Identification of Plant Diseases （IF=4.402, 2019，改论文对深度学习进行了科普解释）

摘要：深度学习技术，尤其是卷积神经网络（CNN），已经在图像处理方面取得了重大进展。自2016年以来，已经开发了许多自动识别作物病害的应用程序。这些应用程序可以作为开发专业知识帮助或自动筛选工具的基础。此类工具可有助于更可持续的农业实践和更大的粮食生产安全。为了评估这些网络在此类应用中的潜力，我们调查了19项依靠CNN自动识别农作物疾病的研究。我们描述了它们的概况，它们的主要实现方面以及它们的性能。我们的调查使我们能够确定该研究领域的主要问题和不足之处。

9.1 所选研究概况

在选定的语料库中，人们对市场园艺产生了浓厚的兴趣，在选定的19篇文章中有10篇带有番茄。作物病害自动识别的问题可以用一般方法或专门方法解决。在一般方法（6/19）中，对多作物和多病害模型进行了训练，而专门方法则针对一种作物（13/19）。这些研究的主要相似之处在于他们专注于分析单个器官：叶子。只有两项研究整合了其他植物部分.

9.1.1 数据来源和特征

图像之间的信息量和多样性在研究之间有所不同。可以定义三种类型的数据集，具体取决于它们的复杂程度（图2）。第一类包括在受控条件下捕获的图像。在这种情况下，图像显示了在光照受控的环境中，一片叶子从田间捡起并放在均匀的背景上（图2A）。通过消除与外部条件或植物形态有关的任何可变性，从而专注于症状表达，可以简化图像分析过程。19项研究中共有13项使用了此类图像。数据集的第二种类型（稍微复杂一点）由在不受控制的条件下捕获的图像组成，但聚焦于特定的植物器官，通常是叶子。在这种情况下，图像具有复杂的背景，但是最大面积被感兴趣的对象占据（图2B）。19个研究中只有3个使用了此类图像。最后，数据集的最后一种类型是在不受控制的条件下且不关注特定植物器官的情况下捕获的图像。因此，这些图像反映了操作员在野外所见的事物，并且具有与枝叶架构相关的所有复杂性（图2C）。这种数据集是最适合构建可操作的植物检疫自动监测工具的数据集。19个研究中只有3个使用了此类图像。

这些研究中使用的大多数图像来自公共数据集（19个研究中的11个）。使用最广泛的数据集是PlantVillage，该数据库最初在Hughes和Salathé（2015）中进行了描述，现在包含87,848张健康和受感染植物的叶子照片（Ferentinos，2018）。58个类别代表了总共25种，其中62.7％的图像是在受控条件下拍摄的。Barbedo（2018b）使用了一个开放式数据库，其中包含56类的12种植物的1,383张图像。其获取条件主要受到控制。另一方面，DeChant等。（2017）使用了在不受控制的条件下且未关注特定植物器官的数据集。**该数据集高度专门用于鉴定受北方叶枯病（NLB）感染的玉米植物。该数据集的扩展版本的描述可以在Wiesner-Hanks等人的文章中找到。（2018）。**它包含18222个带注释的手持式，吊杆和无人机图像，其中105705个NLB病变。这样的数据库的可用性非常重要，因为它提供了大量带注释的图像，这是深度学习成功的关键因素。这些图像还可以用于基准测试，从而可以比较不同研究小组创建的模型的准确性。在野外收集图像并将其收集到诸如PlantVillage之类的数据库中，是提高社区研究能力的理想解决方案。

9.1.2 训练集、验证集、测试集

使用深度神经网络时，需要三个独立的数据集来开发模型。第一组是训练集，是网络用来自动学习其隐藏参数（例如权重和偏差）的图像的集合。第二组是验证集，用于手动调整超参数，这些参数实际上是在训练期间无法自动学习的设置。其中包括学习率，批量大小和网络体系结构。有关超参数的更多信息（请参阅Goodfellow等，2016）。这些超参数的值通常是凭经验设置的，因为它们与问题，数据集和模型架构相关联。因此，没有好的预定义值，因为必须根据在验证集上获得的性能（就准确性而言）对其进行调整。这意味着有关验证数据的信息会间接泄漏到模型中，从而导致在这些图像上表现良好的人为能力（Chollet，2017）。因此，验证图像仅应用于调整超参数。对模型性能的最终评估是使用测试集完成的，该测试集将在下一段中进行讨论。可以在每个时期结束时在验证集上评估正在训练的模型，从而可以监视训练过程并检测过度拟合。

所需的第三个数据集是测试集。它在训练阶段完成后使用，目的是评估模型的最终泛化能力。因此，测试集的准确性是要计算的最重要指标，因为它提供了超参数探索过程之外的模型性能概览。测试集必须独立于训练集和验证集，因此无法从简单的细分中获得

9.1.3 数据预处理

在将图像发送到网络之前，通常需要两个预处理步骤。首先，通常必须调整图像大小以匹配CNN输入层的大小。从一个网络到另一个网络的大小非常标准，例如AlexNet的分辨率为227×227，DenseNet，ResNet和VGG的分辨率为224×224，Inception的分辨率为299×299。其次，必须对图像进行归一化以帮助模型更快地收敛以及更好地归纳看不见的数据（Chollet，2017年）。

9.2 训练阶段

在训练阶段，模型的内部权重会在多次迭代中自动更新。训练策略，体系结构，正则化技术或超参数值等外部因素会影响此训练过程。

比较研究及其结果以获取有关如何定义训练阶段的见解是很复杂的，因为它们不使用相同的数据，并且没有提供再现实验所需的所有参数。很难理解这些研究中得出的结论的重要性，因为他们的实验并未进行多次以评估随机初始化和训练样本排序的影响。尽管如此，我们还是决定对培训和架构策略进行一些比较，同时，它们的某些结果可能存在偏差。

9.2.1培训策略

训练CNN的方法有两种：从头开始或通过转移学习。转移学习是指使用对大量图像进行预训练的网络（例如ImageNet，及其在1,000类中的120万幅图像）并适用于其他任务。此类学习是由于CNN的第一层学习了并非特定于类别的通用低层功能而引起的（Zeiler和Fergus，2014年））。实际上，使用先前训练中的网络权重来完成这种调整。使用转移学习使我们即使在训练数据量有限的情况下也可以使用CNN，在作物病害识别的情况下通常就是这种情况。由于该网络先前已学会处理数百万个示例，因此该技术有助于实现更高的通用性。这也是节省计算时间和容量的一种方式。

CNN基于三个主要组件：卷积层，池化层和激活函数（通常为整流线性单元（ReLU））。所使用的层数，它们的排列以及其他处理单元的引入因一种体系结构而异，从而决定了它们的特异性。

9.2.2 正则化技术

机器学习的主要挑战是获得训练有素的模型，该模型能够分析新的和看不见的数据。高培训精度并不能保证这方面。确实，深度学习的主要陷阱是过拟合。当输入样本的数量与网络的学习能力相比太小时，就会发生这种情况。过度拟合不允许学习课程的一般特征，而是捕获训练集的噪音（Srivastava等人，2014年）。这导致模型在训练过程中具有很高的准确性，但无法推广。

9.3 可视化技术

为了提高学习过程的透明度，已经开发了几种可视化方法，使我们能够描绘网络中正在发生的事情。Atabay（2017）使用遮挡技术，该技术包括在图像上滑动遮挡窗口来研究属于正确类别的概率的变化。他们指出，有时会因为属于背景的像素而分配了该类，这表明所学习的功能不仅仅是与症状相关的功能。Brahimi等。（2018）还使用了遮挡技术，但强调它在计算上昂贵且耗时。他们基于梯度值计算显着性图，以估计像素中与地面真实性相对应的重要性。他们用两种方法进行了计算：有和没有导向反向传播，通过激活函数仅传播正梯度，这有助于获得更精确的可视化效果。Mohanty等。（2016年）在早期卷积层的输出处可视化了顶部激活的特征图（图7A）。Zhang K.等。（2018）使用t分布随机邻居嵌入（t-SNE）可视化其最终完全连接层的特征并评估其类之间的距离（图7B）。所有这些可视化方法带来的见解可以帮助我们了解经过训练的模型的行为，同时提出新的改进建议。它们的实现将黑匣子效应降到最低，巩固了可归因于模型的可靠性，这对于实际农业条件下的应用至关重要。在医学图像分析领域也已建议实施可视化解决方案，在该领域中了解预测系统对于确保正确的诊断至关重要（Litjens et al。，2017）。有关可视化技术的更多详细信息，请参见Zeiler和Fergus，2014年; Qin等人，2018年。

9.4 讨论

9.4.1 采用最佳实践

目标图像采集
训练模型的鲁棒性与其训练数据集的质量有关。数据多样性是确保模型泛化的关键要素之一。诚然，正Barbedo（2018a）中所强调的那样，训练数据集必须反映运营环境的现实，这非常具有挑战性。在数据获取之前考虑目标应用程序可以使我们捕获更合适的图像。

9.4.1 数据集准备

模型的体系结构不是获得良好准确性所必须考虑的主要因素。而是训练数据的质量及其预处理和扩充可以提供最显着的准确性改善.

9.4.2 培训和评估阶段

如果时间和计算资源允许，那么使用相同的超参数进行几次训练可以提高准确性，因为随机初始化可能会对结果产生影响。比较超参数时，建议考虑固定随机数生成器，以防止它们对比较产生偏差。试用一种以上类型的体系结构也可以起到积极的作用。对于同等精度，从操作角度来看，选择最不复杂的体系结构更为有利。如果适用，建议使用转移学习来提高计算时间和通用性。固定所有超参数后，应通过将先前用于训练和验证的图像组合到全局训练集中来重新训练模型。确实，一旦定义了所有超参数，就不再有任何理由保留验证集。然后值得使用这一全局训练集来尝试最后一次提高准确性（即，无需对任何超参数进行后续调整）。然后可以在测试集中评估重新训练的模型。可视化步骤也很重要，因为它有助于更好地了解模型中发生的事情并确保结果的鲁棒性。这种方法还可以提供改善性能的机会。可视化步骤也很重要，因为它有助于更好地了解模型中发生的事情并确保结果的鲁棒性。这种方法还可以提供改善性能的机会。可视化步骤也很重要，因为它有助于更好地了解模型中发生的事情并确保结果的鲁棒性。这种方法还可以提供改善性能的机会。

9.5 结论

在本文中，我们确定了使用CNN自动识别农作物病害的一些主要问题和不足。我们还提供了指导原则和程序，以最大限度地利用实际应用程序中部署的CNN。许多基于CNN的已经发布的解决方案当前由于无法与机器学习的几个重要概念保持一致而无法在现场使用。缺乏一致性可能导致不熟悉的数据样本和/或成像条件的综合能力差，从而降低了训练模型的实际使用率。尽管如此，研究工作显示了深度学习技术在作物病害识别中的潜力。

[个人总结] 该综述对深度学习进行了科普介绍，概念上的东西以及在实际应用要注意的方面也有提及。

10. A Cloud-Based Multi-Temporal Ensemble Classifier to Map Smallholder Farming Systems （ remote sensing, IF=4.557, 2018）

摘要：小农户耕种了非洲80％以上的耕地。这种农场的内在特征包括复杂的农作物种植模式，以及隐约划定的小田野。这些特征给从空间上绘制农作物和田地提出了挑战。在这项研究中，我们评估了在南部马里的案例研究中使用基于云的多时间集合分类器来绘制小农耕作系统的地图。该集合结合了从多光谱Worldview-2图像，田野数据和五个机器学习分类器中选出的空间和光谱特征，以绘制出我们研究区域内最流行的作物地图。使用两个组合规则（即多数投票和加权多数投票majority voting and weighted majority voting）评估了不同的合奏大小。两种策略均优于任何经过测试的单一分类器。基于加权多数投票策略的合奏获得了更高的整体准确性（75.9％）。与本研究中测试的最佳单个分类器的平均总体准确性相比，这意味着准确性提高了4.65％。集合中的75个分类器可达到最大集合准确度。这表明添加更多的分类器无助于持续改善分类结果。我们的结果证明了集成分类器在绘制西非小农种植的农作物时的潜力。集成的使用要求很高的计算能力，但是云计算解决方案可用性的提高允许其高效实施，甚至为本地组织的数据处理需求打开了大门。

参数	内容
方法	线性回归和梯度增强回归树， BTC
速度	否
模型大小	否
准确率accuracy	否
精度precision	75.9%
召回率recall	否
F1参数	否
数据集大小	3000多个
训练集、验证集、测试集情况	2：1
与其他方法对比	最大熵模型（MaxEnt）。随机森林（RF）。支持带有线性核（SVML）的向量机（SVM）。具有多项式内核（SVMP）的SVM。具有高斯内核（SVMR）的SVM。多数投票（投票）。加权多数投票（WVoting）
数据集来源	采集的大田图片数据
软硬件平台	未知
开源	无
其他	无

posted @ 2021-11-03 21:05 落痕的寒假阅读(73) 评论(0) 编辑收藏举报

刷新页面返回顶部

落痕的寒假

今天也要加油鸭