综述:基于深度学习的植物表型图像识别技术

发布时间 2023-12-10 17:02:55作者: 生物信息与育种


分享一篇基于深度学习的植物表型图像识别技术的综述。

摘要

植物表型图像识别(PPIR)是智慧农业的一个重要分支。近年来,深度学习在图像识别方面取得了重大突破。因此,基于深度学习的PPIR技术正变得越来越流行。本文首先介绍了PPIR技术的发展和应用,然后对其进行了分类和分析。其次,介绍了四种深度学习方法的理论及其在PPIR中的应用。这些方法包括卷积神经网络、深度置信网络、递归神经网络和堆叠自编码器,应用于植物物种识别、植物病害诊断等。最后,讨论了PPIR中深度学习的难点和挑战。

传统PPIR技术

PPIR技术的发展早在几十年前就开始了,专注于使用传统方法对植物进行特征提取和训练。PPIR的研究在国内起步较晚,但值得借鉴。

现有的PPIR方法主要可分为三类。

(1)关系结构匹配的基本方法。
该方法首先对输入图像进行预处理以提取特征,同时利用多尺度曲率空间描述几何特征,以及模糊粒子群算法和遗传算法;其次,设置算法匹配规则和参数。最后,将提取的特征与样本数据库中的特征进行匹配,并根据匹配度对图像进行分类。

关系结构匹配方法流程图

2)基于数理统计的PPIR是应用最广泛的方法。
首先,建立数学模型,然后对图像进行定量分析和分类。这类方法基于贝叶斯判别函数、KNN、核PCA、Fisher判别方法等。

数理统计方法的流程图

(3)传统的基于机器学习的PPIR主要由人工神经网络、动心超球分类器、SVM等组成。

植物表型的应用可归纳为(a)识别和检测,(b)分类,(c)定量和估计,(d)预测。此外,数据预处理步骤,如降维、聚类和分割,也可能是决策成功的关键。

移动中心超球体分类器将植物表型图像数据的采样点视为一系列超球体。一组采样点被认为是超球体的一部分,其半径被扩展为包含尽可能多的采样点。SVM 是一种监督学习模型,适用于线性或非线性可分离和少量样本。该方法可以扩展到高维模式识别,将数据点投射到更高维的空间中,并计算出最大边际超平面决策曲面。SVM可用于对植物表型图像数据进行分类。

支持向量机(SVM)的流程图

特征提取是PPIR中的一个重要步骤,涉及形状、纹理、颜色和其他主要特征信息。这些特征学习方法侧重于植物表型的属性,大多包括需要手动特征提取的浅层学习方法。

  • 在基于形状的特征学习中,为了从输入图像中提取植物轮廓以实现植物识别,边缘检测和形状上下文描述方法被广泛使用。
  • 基于纹理的特征学习包括植物表型的内部信息,通常它基于局部二值模式(LBP)算法,该算法计算物体中像素与其周围像素之间的相关性。
  • 基于颜色的特征学习更加稳定可靠,它对目标大小和颜色特征的方向不敏感。通常使用红、绿、蓝(RGB)或色相、饱和度和亮度(HSV)图像中不同颜色像素的百分比及其直方图进行特征提取和图像识别。

为收集与生物或非生物胁迫(如疾病、昆虫、干旱和盐度)的生长、产量和适应性相关的复杂性状,使用了多种成像技术,包括可见光成像(如机器视觉)、成像光谱学(如多光谱和高光谱遥感)、热红外成像、荧光成像、3D成像和断层扫描(如正电子发射计算机断层扫描)以及图像和计算机断层扫描)。

虽然基于光学成像的植物表型分析具有许多优点,但也面临一些困难。例如,当使用机器视觉方法处理可见光图像以获得表型信息时,例如植物种类、果实数量和害虫类别,很难解决相邻的叶子问题,如由穗和果实引起的重叠和遮挡。在实验室环境中收集的图像通常具有纯净的背景、均匀的照明以及图像中包含的少量植物或器官。解决现场的实际问题往往是由复杂的背景、照明差异和遮挡引起的。

对于PPIR,特别是对于大型植物表型图像数据库,由于识别准确率低和干扰因素多,浅层和单一特征学习方法的性能不尽如人意。

传统植物表型识别技术的比较

基于深度学习的PPIR技术

深度学习的本质在于具有多个抽象函数和数据表示的多层学习模型。与模式识别和目标检测领域的现有技术相比,它大大提高了性能。在深度学习中,通过BP算法对内部参数进行逐层优化,并挖掘复杂、高维数据中的特征。

图像识别技术的质量评估如下:

  • (a)模型参数优化问题。基于深度神经网络的图像识别技术需要训练大量的参数才能提取图像特征,这占用了大量的运行时间和计算机存储内存。研究者应在保证图像识别准确性的同时,改进模型结构,增加模型的时间复杂度;
  • (b)训练数据优化问题。 深度学习网络模型依赖于大量的训练集进行特征提取,训练数据集不平衡甚至缺失,极大地限制了深度学习技术的应用。
  • (c) 改善无监督学习。对于监督学习算法,训练数据需要大量的手动数据标注,浪费资源。后续研究应加强无监督学习算法的构建,以解决数据标注问题。

在植物表型图像识别中,深度学习不同于传统的浅层学习,因为前者无需人工干预即可选择复杂、高维的特征。

浅层网络学习流程图

以下是四种不同的基于深度学习的植物表型图像识别框架。

1.卷积神经网络(Convolutional neural network, CNN)

CNN在图像和语音识别方面表现出了出色的性能。目前,CNN是植物表型图像识别应用最广泛的深度学习模型,其性能优于其他深度学习模型。

CNN是一个本地访问多层神经网络,每层由多个独立的神经元组成。该网络由特征提取和特征映射两部分组成,包括卷积层、激活层、池化层和全连接层。在PPIR中,由于CNN的特征提取能力,神经元不需要单独连接到输入图像的所有部分。取而代之的是,通过每个神经元之间的权重共享直接提取图像中的植物表型特征信息,这有效地提高了运算速度和准确性。在训练和识别不同植物表型图像的过程中,CNN不关注单个像素,而是通过卷积运算从整个输入图像中提取块,有效地整合了特征信息,提高了对图像数据的理解。

卷积神经网络结构

2. 深度置信网络(Deep belief network, DBN)

DBN在人脸识别与检测、遥感图像应用等领域表现出了显著的性能。在PPIR领域,基于DBN的NIR(近红外光谱)定性模型已应用于植物分类和病害检测,有效解决了高维和非线性问题,取得了良好的效果。

DBN 是贝叶斯概率模型的一种特殊形式。在该模型中,输入信息的分布由联合概率分布产生,训练数据基于模型中神经元的权重生成。DBN中的神经元分为两部分:(1)优势神经元,接收输入信息;(2)不可见神经元,从高级数据中提取特征信息。DBN主要由许多受限玻尔兹曼机(RBM)组成,其维度由网络层中的神经元数量决定。这些神经元不在同一层内相互连接,它们彼此独立,而隐藏层之间存在双向连接。在DBN训练过程中,需要对RBM进行优化,以获得最优训练样本的联合概率分布,获得最优权重,提取特征信息。

深度置信网络(DBN)示意图。

上图显示了两个隐藏层和一个分类层。隐藏神经元和可见神经元分别用 h 和 v 表示,o 是模型的输出。首先,进行训练以获得第一隐藏层中的权重和偏差,然后将其输出用作第二隐藏层的输入。在第二个隐藏层的训练结束后,其输出将作为输入传递到第一层。此过程以迭代方式继续进行,并更新每个隐藏层中的权重和偏差,直到满足所需的训练标准。

上述阶段之后是微调阶段进行分类,采用监督学习方法进行多样化学习和参数调整。BP算法是一种监督学习方法,可以将样本标签反馈到各层,加强层间学习能力,进一步优化训练参数。

PPIR中DBN的一般操作流程图

基于 DBN 的 PPIR 流程图。第一步包括图像数据预处理,其中使用不同的算法提取和融合特征。这些特征可以包括颜色、形状、纹理和其他导致多维特征向量的特征。在此阶段,为了保证数据规模的一致性,还进行了归一化。第二步是准备分类器训练。在此步骤中,数据分为两组:测试组和训练组。第三步,按照上述过程进行训练,最后利用训练结束时得到的DBN权重和偏差,得到并检验分类结果。

3.循环神经网络(Recurrent neural network, RNN)

循环/递归神经网络(RNN)是另一种深度学习模型,主要用于处理序列数据。在该模型中,网络具有记忆功能,用于存储来自先前时间步的数据信息,即既有反馈连接,也有前馈连接。上一个时间步的输出用作下一个时间步的输入。RNN隐藏层中的神经元相互连接,神经元的输入由输入层的数据和上一个时间步的神经元输出组成。

RNN具有良好的动态特性,一般可分为Jordan型和Elman型网络,其中前者属于具有本地存储单元和本地反馈连接的前向神经网络范畴。

典型的循环神经网络 (RNN) 结构

RNN的最初应用主要包括语音和手写识别。然而在实践中,RNN的训练效率低下,可能需要相当长的时间。因此,一些研究人员致力于改进RNN结构。

RNN模型近年来已应用于植物表型图像,在复杂病害植物表型检测方面具有相当的应用前景。RNN的使用使得在很长一段时间内学习不同特征之间的关系,并减少了参数的数量。

4. 堆叠自编码器(Stacked autoencoder, SAE)

堆叠自编码器是一种特殊的深度学习模型,已广泛应用于数据分类、图像识别、光谱处理和异常检测等领域。它由多个串联堆叠的自动编码器组成。通过逐层降低输入数据的维数,提取数据的高阶特征,然后输入到分类层进行分类。

SAE方法的具体过程描述如下:

  • (1)给定初始输入,以无监督方式训练第一层自编码器,以将重构误差降低到设定值。
  • (2)将第一自编码器隐藏层的输出作为第二自编码器的输入,使用相同的方法训练自编码器。
  • (3) 重复第二步,直到所有自动编码器都初始化完毕。
  • (4)使用最后一个堆叠自编码器的隐藏层的输出作为分类器的输入,然后使用监督方法训练分类器的参数。

在实际应用中,监督学习网络模型需要大量的标注数据样本来优化网络参数,计算量大,不利于网络训练和学习。

堆叠式自动编码器(SAE)结构示意图。输入 X 首先通过映射函数 f 映射到 Y,然后通过重构函数 g 将 Y 转换回 X。训练期间的目标是重建 X,使其接近输入 X。这是通过修改一组权重和对输入数据进行编码来实现的。这个过程在多次迭代中执行,导致损失函数最小化。

堆叠式自动编码器识别流程图

上图显示了基于 SAE 的 PPIR 流程图。首先,将自动编码器堆叠起来,以构建深度学习的神经网络,即编码区。其次,对输入图像进行预处理,包括灰度图像的分割。第三,利用预处理后的数据训练基于深度学习神经网络的堆叠编码器。然后使用编码器生成的特征来生成分类结果。

四种深度学习网络概要

PPIR中深度学习的问题与展望

(1)在深度学习的应用中需要考虑几个因素,如层数、架构、神经网络中用于优化权重的学习算法、偏差等。在PPIR过程中,深度学习严重依赖大数据,而植物表型大数据则严重依赖专家知识,优化模型需要根据不同种类的植物进行试错调整。

未来,开发和测试不同的模型,最大限度地提取特征信息,实现最优的模型精度,是一个重要的研究方向。此外,新兴的深度学习模型,如生成对抗网络(GAN)和胶囊网络(CapsNet),在PPIR方面具有广阔的应用前景。研究人员在深度学习中更喜欢监督模型,主要是因为许多植物表型的特征难以理解和获取,而无监督模型的学习往往会导致无序。

(2)在深度学习网络中,另一个重要因素是训练速度。一般来说,训练迭代次数越多,精度越高,但训练时间越长,影响仿真结果。因此,在整个应用过程中,应全面调整网络规模、精度要求和训练速度之间的关系。此外,实验表明,针对不同的植物表型特征信息选择合适的分类器可以提高深度学习网络的分类性能。

(3)植物表型图像采集过程中输入数据的变化,如图像大小、像素、平移、缩放、遮挡等不确定性,都会影响输出结果。复杂背景图像的植物表型识别直接影响分类结果。换言之,PPIR缺乏统一的标准,因此,很难在应用于不同类型植物物种的深度学习模型之间实现定量比较。此外,由于图像数据的收集受到地区限制、植物品种和疾病类型的影响,因此各个研究人员会根据各自的规则构建数据集。因此,建立一个可以作为基准的通用植物表型数据库是必不可少的。

(4)有些研究人员致力于提取新的植物特征。但这种情况下有几个悬而未决的问题:(a)植物特征是否易于提取?(b)它们是否受到噪音的严重影响?(c) 它们可否用来准确区分不同种类的植物?事实上,植物表型的应用主要针对遗传组学,即与遗传变化相对应的作物性状变化。近年来,它已应用于作物形态控制、育种、物种鉴定、灌溉控制和疾病预警。一般来说,随着时间和环境的变化,同一植物的颜色或形状也可能发生变化。因此,选择适合PPIR的特征是未来研究要考虑的重要问题。

更多信息请关注微信公众号: