基于高光谱图像的密度峰值k-均值算法估算小麦植被覆盖度
应用关键词
植被覆盖度;k-means算法;NDVI;植被指数;小麦
背景
植被覆盖度(Fractional vegetation cover, FVC)是测量地球表面植被分布的重要参数。在评价小麦生长状况时,准确测定小麦各生育期的FVC具有指导意义。此外,在监测小麦生物量时,需要快速提取FVC、植物含水量、叶绿素、叶黄素含量和氮含量数据。然而,本研究发现,现有的针对小麦生长不同时期和土壤条件的FVC提取方法效果各异,无法满足小麦多时相生长监测的精度要求。因此,开发一种操作简单、提取精度高、受环境、时间、空间等外界条件影响较小的FVC提取新方法具有重要意义。
目前,大多数研究采用像素二分法或监督分类法分离植被与非植被,提取FVC。但是,不同时间、不同条件下采集的植被和非植被的光谱反射率的变化,会使像素二分法的阈值发生很大变化,从而使得提取效果产生较大的波动。监督分类受人为因素和样本影响较大。当测试样本和训练样本之间没有差异时,提取效果会很好。然而,当样本之间存在时空差异时,提取的精度将显著降低。
考虑到无监督学习算法无需人为干预,通过确定的分类标准对植被和非植被进行分类,受人为和环境因素影响较小。因此,假设无监督学习算法可以准确地提取FVC,将其应用于各种条件下收集的数据,理论上应该可以达到相同的效果。k-means算法通过像素点到聚类中心的距离来划分像素点的类型。该算法能有效减小时间和空间对提取精度的影响。然而,k-means算法对初始选择的质心点比较敏感,不同初始质心点的聚类结果可能有很大差异。为了减小初始质心点对k-means算法结果的影响,根据植被像素与非植被像素的不同特点,增加了密度峰值计算算法。将植被像素和非植被像素的密度峰值作为k-means算法的初始质心,以减少异常结果带来的提取误差,提高FVC的提取精度。
基于上述问题,本研究利用高光谱相机获取小麦的高光谱图像数据,计算NDVI(Normalized difference vegetation index),并基于NDVI图像采用DPK-means(Density peak k-means)聚类算法和像素二分法提取FVC。本研究比较了像素二分法与DPK-means算法的精度和稳定性,并分析了基于植被指数图像的DPK-means算法的优势。
试验设计
试验地点位于江苏扬州大学,包括小麦盆栽试验和大田试验。中国农业科学院刘升平研究员团队利用GaiaSky-mini2-VN高光谱相机(江苏双利合谱)于近地面采集了干性土壤和湿性土壤的高光谱图像,同时将其搭载在DJI M600无人机上,获取了大范围小麦冠层高光谱图像。采集设备如图1所示。
图1 采集设备。GaiaSky-mini2-VN相机(A)、地面数据采集设备(B)、无人机数据采集设备(C)。
如图2所示,小麦在绿光550 nm处有一个反射峰,在红光680 nm处有一个吸收谷,在近红外光780 ~ 900 nm处有一个连续反射峰。小麦红光波段与近红外波段反射率有明显差异。土壤的光谱反射率在整个波段范围内呈缓慢上升趋势,没有明显的反射峰和吸收谷。红光波段和近红外波段可以很好地指示植被与土壤的差异,结合它们构建的植被指数可以有效地用于植被与土壤的区分。因此,本研究选取近红外波段800 nm和红光波段680 nm构建NDVI。
图2 小麦和土壤的典型反射率曲线
为了检验基于NDVI提取的小麦植被灰度图像上植被和非植被像素的分布,本研究制作了NDVI灰度图像的像素频率分布图(图3)。从图中可以看出,小麦植被、土壤和盆像素都近似于高斯分布,小麦植被与土壤和盆的高斯分布距离较远。结果表明,在NDVI灰度图像中,植被像素与非植被像素可以很好地分离。
图3 植被指数灰度图像的像素分布。NDVI灰度图(A)、NDVI灰度图像像素分布的高斯拟合(B)。
为了解决k-means算法的局部优化问题,本研究以密度峰值作为初始聚类中心点对算法进行改进。DPK-means算法流程如下所示:
(1) 对灰度图像进行多模态高斯拟合,计算k个拟合密度峰值作为初始聚类中心进行搜索和计算。
(2) 计算数据集中每个样本点与k个聚类中心之间的距离,并将其划分为距离*小的聚类中心对应的类。
(3) 计算每个类别的平均值作为新的聚类中心。
(4) 重复步骤2和步骤3,直到聚类中心的位置没有改变,然后停止迭代。
然后,本研究基于SVM监督分类结果,比较分析了两种方法的提取效果。具体提取过程如图4所示。本研究采取的评价指标为EF = (FSVM – FVI) / FSVM,式中EF为FVC提取误差,FSVM和FVI分别为基于SVM的FVC以及实测FVC。
图4 小麦FVC的提取过程
结论
采用像素二分法和DPK-means提取FVC。两种土壤条件下阈值的平均值,如表1所示。将像素二分的固定阈值设置为T0、T1和T2,DPK-means算法采用高斯核函数。两种土壤条件下像元二分法的阈值差异较大。干土的光谱反射率明显高于湿土。湿土的NDVI值高于干土,更接近植被的NDVI值。这可能导致在潮湿土壤条件下像素二分法的固定阈值更高。两种土壤条件下不同方法对小麦FVC的提取效果如图5所示。
基于DPK-means算法的EF**值和RMSE的均值*低(表2),这表明DPK-means算法具有良好稳定的提取精度。在湿润土壤条件下,T1阈值像素二分法效果*好,EF**值仅为0.034,但其RMSE值为0.061,EF分布较为分散,集中使用大样本数据难以获得较好的提取效果。DPK-means算法EF的均值**值为0.051,仅高于T1阈值,但其RMSE值为0.032,EF分布相对集中,在大样本数据集中使用时效果较好。在不考虑土壤条件的情况下,DPK-means算法的EF主要分布在-0.05 ~ 0.05之间,EF相对集中。T0、T1、T2阈值下的EF分布分散,EF范围较大。对四种方法的FVC提取结果进行线性拟合,DPK-means算法的拟合精度*高,R2达到0.87(图6)。
DPK-means算法在无人机高光谱影像中提取FVC的效果如图7所示。平均误差**值为0.044,RMSE为0.030,误差相对集中,与地面高光谱图像的提取误差相似。SVM与DPK-means拟合的FVC的R2达到0.93。综上所述,DPK-means算法可以有效地从无人机高光谱图像中提取小麦的FVC,且该算法受图像采集日期的影响较小。
综合地面和无人机高光谱影像的FVC提取结果,与其他算法相比,DPK-means算法受土壤条件和采集日期的影响较小,误差分布更集中,提取精度更高。相对于像素二分法,DPK-means算法具有更高的准确性和鲁棒性,在不同条件下都能取得更好的结果。
表1 两种土壤条件的平均阈值
图5 两种土壤条件下小麦FVC提取效果。土壤干燥状况(1)和湿润状况(2)。A1和2为RGB图像;B1和2为NDVI灰度图像;C1和2为干土阈值提取的灰度图像;D1和2为DPK-means提取的灰度图像;E1和2为湿土阈值提取的灰度图像;F1和2为整体阈值提取的灰度图像;G1和2为SVM提取的灰度图像。
表2 两种土壤条件和不同提取方法下小麦FVC提取误差**值
图6 采用多种方法拟合小麦FVC的结果。DPK-means(A)、T0(B)、T1(C)、T2(D)。
图7 不同日期的无人机高光谱图像提取结果。RGB图像(A)、NDVI灰度图像(B)、DPK-means提取的灰度图像(C)、SVM提取的灰度图像(D)。
作者信息
刘升平,博士,中国农业科学院农业信息研究所研究员,硕士生导师。
主要研究方向:农业智能管控技术、智慧蜂业、农产品质量**控制。
参考文献:
Liu, D.Z., Yang, F.F., & Liu, S.P. (2021). Estimating wheat fractional vegetation cover using a density peak k-means algorithm based on hyperspectral image data. Journal of Integrative Agriculture, 20, 2880-2891.
https://doi.org/10.1016/S2095-3119(20)63556-0