随机森林方法在玉米-大豆精细识别中的应用
王利民, 刘佳, 杨玲波, 杨福刚, 富长虹
中国农业科学院农业资源与农业区划研究所, 北京 100081

作者简介: E-mail: wanglimin01@caas.cn

摘要

研究基于遥感影像的作物精确识别技术方法, 对获取作物分布信息具有重要意义。随机森林分类(random forest classification, RFC)是机器学习的一种, 本文使用Landsat-8 OLI卫星影像数据, 针对研究区内的大豆、玉米和其他地物等3种主要作物类型, 系统比较了该方法与较为成熟的最大似然分类(maximum likelihood classification, MLC)、支持向量机分类(support vector machine, SVM)方法的分类精度。结果表明, MLC、SVM、RFC的总体分类精度分别为91.68%、91.49%、94.32%, Kappa系数分别为0.87、0.87、0.91, RFC方法作物识别精度比MLC和SVM分类显著提升。对原始7波段影像进行主成分变换(principal component analysis, PCA), 提取前4个主成分分量, 同时计算归一化植被指数(normalized difference vegetation index, NDVI)和归一化水体指数(normalized difference water index, NDWI), 将6个额外辅助特征波段叠加到原始7个波段影像上进行再次分类, MLC和SVM方法作物识别精度未有提升, RFC方法总体精度提高了1.49个百分点, Kappa系数提高0.03, 精度提升幅度有限, 主要原因是6个辅助波段在类型识别中作用较小。在分类耗时上, MLC、SVM、RFC分别为145 s、11 000 s、1800 s, 表明随机森林分类具有最好的分类精度和适中的耗时。综合评价后, 随机森林分类方法在进行大豆-玉米精细识别中具有较大优势, 具有业务应用的潜力。

关键词: Landsat-8; 随机森林; 玉米; 大豆; 遥感; 识别能力
Application of Random Forest Method in Maize-soybean Accurate Identification
WANG Li-Min, LIU Jia, YANG Ling-Bo, YANG Fu-Gang, FU Chang-Hong
Institute of Agricultural Resources and Regional Planning, Chinese Academy of Agricultural Sciences, Beijing 100081, China
Abstract

It is very important to obtain the crop identification information based on remote sensing image. Remote sensing images have the advantages of high efficiency, high accuracy, low costs, and wide monitoring scope. Applying remote sensing images in maize-soybean accurate identification and planting area evaluation can give full play to the advantages of remote sensing images. Random forest classification (RFC) is a new classification method, a type of machine learning. Currently, there are very few studies on crop classification based on RFC. In order to evaluate the potential of the method on maize-soybean crop accurate identification, the paper conducted classification of major crops of soybean, maize, and other ground objects. Utilizing Landsat-8 OLI satellite image data, and three methods including maximum likelihood classification (MLC), support vector machine (SVM), and random forest classification (RFC). The overall classification accuracies of MLC, SVM, and RFC were 91.68%, 91.49%, and 94.32%, with their kappa coefficients of 0.87, 0.87, and 0.91, respectively, showing that RFC is better. The principal component analysis (PCA) was made on original seven wave band images, and the first four wave bands of the major components were extracted. Meanwhile, the normalized difference vegetation index (NDVI) and normalized difference water index (NDWI) were calculated; six additional supporting characteristic wave bands were overlapped on original seven wave band images, and the classifications with MLC, SVM, and RFC were conducted again. After adding characteristic wave bands, crop identification accuracies by MLC and SVM methods were not improved. The accuracy of RFC method was increased slightly with overall accuracy of 95.81% increasing by 1.49 percent, and Kappa coefficient of 0.94 increasing by 0.03, showing accuracy slightly increased, and limited improvement effect. Near-infrared band and two short infrared wave bands were most important, while newly added wave band was not significant for soybean-maize identification, showing the limited improvement effect of supporting wave band. SVM had the longest time spent on classification, with about 11 000 s; MLC the least, only 145 s; and RFC about 1800 s. It indicates that SVM doesn’t have any advantages in both accuracy and time-consumed, however, MLC can quickly get the classification results, and RFC has the highest classification accuracy with moderate time consumed. In conclusion, RFC has greater advantage in soybean-maize accurate identification, and is suitable to be widely applied in the operation of regional agriculture remote sensing monitoring crop area extraction.

Keyword: Landsat-8; random forest; maize; soybean; remote sensing; identification capacity

使用遥感影像进行农作物精确识别及面积提取有实时性、可靠性, 且成本低, 还可以进行作物分布空间制图[1]。农情遥感监测作物面积的关键技术是作物识别分类技术。农作物种类繁多, 且由于都属于植被, 光谱差异不显著, 同谱异物、异物同谱现象更加严重[2], 对于作物分类方法的要求较高。传统的分类方法包括监督分类[3, 4, 5]、非监督分类[6, 7]、面向对象分类[8, 9]、决策树分类[10, 11]等, 各具优缺点, 目前, 农情遥感监测作物面积业务化提取的主要方法包括最大似然分类、支持向量机分类、决策树分类等。其中决策树分类方法具有分类速度快、适用性强等优点, 广泛应用于作物面积提取工作。主要的决策树分类方法包括专家知识决策树[12]、ID3算法[13]、C4.5算法[14]、CART (classification and regression tree)决策树算法[15]、随机森林分类(random forest classification, RFC)算法[16]等。

刘磊等[17]基于TM影像和专家知识决策树及研究区作物的波谱特征, 构建专家知识决策树, 成功提取了小麦、大麦、油菜、草场等地物, 总体精度达86.9%, Kappa系数达0.8311; 唐峻等[18]基于MODIS EVI (enhanced vegetation index, 增强植被指数)数据进行植被物候特征参数分析提取, 构建专家决策树, 结果表明, 作物和森林的分类效果较好, 总体精度达到了73.63%; 张旭东等[19]利用TM影像, 研究使用C4.5算法构建分类决策树, 综合使用MODIS时间序列数据进行分类, 对比传统最大似然分类, 表明精度更高, 与统计数据吻合较好; 黄健熙等[20]基于GF-1 WFV单景影像, 计算NDVI (normalized difference vegetation index, 归一化植被指数), 并对原影像进行主成分变换, 建立多特征数据集, 使用CART算法构建分类决策树, 识别研究区的水稻和玉米, 分类总体精度达到了96.15%, Kappa系数0.94, 相比最大似然分类方法, 精度和Kappa系数分别提高了5.28%和0.08; Kandrika等[21]使用多时相IRS-P6卫星AWiFS (advanced wide field sensor, 先进宽视场传感器)数据, 基于See-5决策树方法对Orissa地区进行土地利用覆盖分类, 获得了较高的Kappa系数。Peñ a等[22]在对影像进行面向对象分割的基础上, 对比分析了C4.5方法、支持向量机方法(support vector machine, SVM)等多种机器学习分类方法对研究区夏季作物进行分类识别的效果, 结果表明支持向量机方法的总体精度高于C4.5方法。

随机森林方法是一种新型高效的组合决策树分类方法, 比传统的决策树构建方法, 具有一系列的优势, 如训练速度快、实现简单、精度高、易实现并行化、抗噪声能力强的优点, 目前在国外各领域中得到了广泛的应用。Pal等[23]利用Landsat影像及随机森林法进行土地覆盖分类, 并与迭代算法、集成学习法、支持向量机法对比, 表明随机森林方法在效率和精度上都具有更高的优势; Gislason等[24]利用多光谱数据和DEM (digital elevation model, 数字高程模型)、坡度、坡向等辅助数据, 以及随机森林和CART决策树对比分类表明, 随机森林法在精度上优于CART算法; Ok等[25]利用随机森林方法及最大似然方法进行作物分类识别表明, 随机森林方法的精度达到了85.89%, 比最大似然分类方法提高了大约8%; Deschamps等[26]基于雷达数据, 在加拿大东部和西部区域作物识别的对比表明, 随机森林方法相比传统决策树, 作物分类精度提升了7%。在国内, 随机森林法的应用逐渐兴起, 相关研究报道显著增多, 主要集中在土地利用、林地分类等方面, 同时在农业方面的应用也已取得一定的成果。张晓羽等[27]利用随机森林方法对漠河县林地植被进行分类, 结果表明, 总体识别精度为81.65%, Kappa系数0.812, 与传统的最大似然分类方法相比, 精度提高较多; 郭玉宝等[28]利用国产GF-1卫星影像, 及随机森林方法实现了北京市某区域的城市用地分类对比研究, 结果表明其较高的精度适合于高分辨率、大数据量和多特征参数的高分影像分类实际生产应用。黄健熙等[29]基于多时相的GF-1 WFV数据, 构建归一化植被指数、增强植被指数、宽动态植被指数(wide dynamic range vegetation index, WDRVI)、归一化水指数(normalized difference water index, NDWI) 4个特征指数, 并使用随机森林方法提取嫩江玉米和大豆种植面积, 总体分类精度达84.82%。

从上文可看出, 随机森林方法在影像分类方面具有较大的优势, 分类精度及效率较高, 但当前在农业遥感作物精细识别分类方面的应用较少, 有必要研究其应用潜力。优化玉米种植结构, 调减非优势区域玉米种植面积, 鼓励农民改种综合效益好的其他作物(如大豆等), 是近年来我国种植业结构调整的重点。研究使用适合的遥感作物分类识别方法精确统计“ 粮豆轮作” 区域玉米、大豆的种植面积, 对于“ 粮豆轮作” 政策补贴的发放, “ 粮豆轮作” 效果的评估有着重要的意义。本文以黑龙江省黑河市部分地区主要农作物大豆、玉米及其他地类作为分类对象, 选用单景Landsat-8 OLI影像数据作为分类数据源, 均匀选取适当数量的样本数据, 并分别选用最大似然分类、支持向量机分类、随机森林分类3种分类方法, 比较其分类精度、耗时等; 同时为了评价辅助信息对于不同分类方法分类精度的影响, 对原始影像进行主成分变化、NDVI计算、NDWI计算, 选取主成分变换前4个波段、NDVI影像、NDWI影像作为附加特征波段添加到原始影像中, 再次进行最大似然分类(maximum likelihood classification, MLC)、支持向量机分类、随机森林方法分类, 并对比增加辅助特征波段前后的分类精度, 从而为农作物面积提取分类方法的选用提供科学合理的实验支持和理论依据, 表明基于随机森林方法, 使用单时相的OLI影像对东北地区大豆-玉米识别的可行性。

1 材料与方法
1.1 研究区概况

黑龙江省黑河市(图1), 包括北安市西北部、五大连池市中南部及克东县东北部, 地处47° 42′ ~ 51° 03′ N、124° 45′ ~129° 18′ E, 面积68 726 km² , 春季气温低、干旱多风, 夏季温热多雨, 秋季凉爽舒适, 冬季漫长、严寒而干燥, 冬长夏短、四季分明。全市平均年降雨量500~550 mm, 有效积温1950~2300℃, 日照时数2560~2700 h, 无霜期90~120 d, 年均气温-1.3~0.4℃, 最高气温38.2℃, 最低气温-40℃。耕地面积192万公顷, 是国家重要商品粮基地和绿色食品主产区。主要耕地土壤为黑土, 其次包括草甸土、暗棕壤及沼泽土。第一产业是黑河市的主要产业, 2015年, 农林牧渔总产值达264.5亿元, 主要农作物为玉米、水稻、小麦、薯类和大豆。自2015年以来农业部在该市开展粮豆轮作试点, 优化作物种植结构, 适当调减玉米种植面积, 增加大豆种植面积。2015年共落实轮作面积1800 hm2

图1 研究区地理位置Fig. 1 Location of study area

1.2 试验数据获取与处理

1.2.1 遥感数据处理 主要使用Landsat 8卫星数据, 该卫星由NASA于2013年2月11日发射, OLI是其携带的主要传感器, 包括7个波段, 分别是海岸/气溶胶(430~450 nm)、蓝(450~510 nm)、绿(530~590 nm)、红(640~670 nm)、近红(850~880 nm)、短波红外1 (1570~1650 nm)和短波红外2 (2110~ 2290 nm), 空间分辨率均为30 m。根据研究区主要农作物玉米和大豆的生育期特征, 本文选取了覆盖整个研究区的2014年8月7日Landsat 8 OLI卫星影像, 该景影像无云覆盖, 只在东部有少量薄雾。

使用ENVI 5.0软件对获取的遥感影像进行辐射定标、大气校正和几何精校正处理。其中辐射定标公式如下:

\[{{L}_{z}}({{\lambda }_{z}})=\text{Gain}\times \text{DN}+\text{Bias}\] (1)

式中, \[{{L}_{z}}({{\lambda }_{z}})\]为传感器入瞳处的光谱辐射亮度(W m-2 sr-1 μ m-1), Gain为定标斜率, DN为影像灰度值, Bias为定标截距, Gain及Bias都由卫星数据供应方提供, 可从原始Landsat影像的元数据文件中读取。Landsat 8 OLI各波段的辐射定标系数如表1所示。

表1 Landsat 8 OLI影像各波段辐射定标系数 Table 1 Radiometric calibration coefficient of Landsat 8 OLI image

采用ENVI/FLAASH大气校正模块进行大气校正, ENVI/OLI校正模块进行几何校正。

1.2.2 地面样方调查 地面样方是进行监督分类的重要基础, 根据研究区作物分布情况和各类作物的光谱特征, 在整个研究区随机选取均匀分布的131个样方地块, 利用同一研究区更高分辨率的RapidEye影像进行目视解译分类, Landsat原始影像及样方的分布如图2所示。样方的总面积为5961.15 hm2, 其中大豆面积为1351.98 hm2, 占样方总面积的22.68%, 玉米面积为1404.09 hm2, 占样方总面积的23.55%, 其他地类主要包括城镇、林地、水体、湿地、裸地、水稻等, 共3205.08 hm2, 占样方总面积的53.77%。

图2 研究区Landsat 8 OLI影像及样方分布
a: Landsat 8原始影像及样方分布; b: 样方原图; c: 样方分类结果。
Fig. 2 Landsat 8 OLI image and distribution of ground sample in study area
a: Landsat 8 image and distribution of ground samples; b: original image of sample; c: classification of sample.

1.2.3 作物发育时期 春玉米从播种开始, 依次经历出苗、三叶、七叶、拔节、抽雄、乳熟、成熟等发育时期, 研究区每年4月下旬开始播种, 8月上旬成熟, 9月下旬以后收获。播种— 出苗、出苗— 三叶、三叶— 七叶、七叶— 拔节、拔节— 抽雄、抽雄— 乳熟、乳熟— 成熟等7个生长阶段历时平均分别为9、9、12、23、15、29和19 d, 全生育期所需时间约为116 d。以北安地区4月25日播种计算, 7个关键生育期起始日期分别为5月4日、5月13日、5月25日、6月17日、6月22日、7月21日和8月9日。

大豆从播种开始, 一般经历种植期、发芽期、早期生长期、出枝期、开花期、结荚期、收割期等发育时期, 种植期一般位于6月份, 通常在种植1~2周内发芽, 在发芽后25 d内为早期生长期, 作物高度可以达到15~21 cm。一般在发芽40 d后大豆可生长出1~6枝。在发芽期(6月中旬至7月下旬)和开花期(7月中旬至7月下旬)之间的大豆生长情况将决定大豆开花的数量, 并直接影响大豆的产量; 开花期一般在种植后45~50 d左右, 持续约30 d; 结荚期一般在7月下旬和8月上旬, 而收割期则一般为9月或10月份。

综合考虑研究区内作物的发育时期, 选择位于8月7日的卫星影像进行单时相作物分类识别。该时期研究区主要地物类型(大豆、玉米、林地、城镇用地)的光谱曲线如图3所示, 可以看出, 植被生长旺盛, 大豆的近红外和2个短波红外波段的反射率都处于最高水平, 玉米和林地则较为接近, 但是在海岸、蓝、绿波段林地反射率普遍高于玉米。该时期正处于春玉米抽雄至乳熟期及大豆结荚期内, 作物生长旺盛, 作物光谱类内一致性强, 而类间差异显著, 避免作物生长早期由于播种早晚导致光谱差异以及作物生长晚期不同成熟、收割时间导致的光谱差异有利于基于遥感影像的农作物识别; 同时, 根据王利民等[30]研究, OLI影像具有的短波红外波段对于玉米-大豆识别具有较为显著的作用, 因此, 本文选用8月7日单时相的OLI数据即可识别研究区玉米-大豆。

图3 研究区主要地物类别光谱曲线Fig. 3 Spectral curves of main ground objects in study area

1.3 研究方法算法描述

1.3.1 技术思路 整体研究思路如图4所示。针对研究区的作物分布情况, 选用2014年第218天的单景Landsat-8/OLI卫星影像, 选取合适的样本数据, 分别使用最大似然分类、支持向量机分类、随机森林分类3种分类方法对研究区的主要作物玉米-大豆进行分类识别, 利用研究区更高分辨率的RapidEye影像目视解译成果作为分类真值影像, 对各种方法的分类精度进行评价, 同时分析各类方法的分类时间, 以此评价各分类方法的适用性。另外在原始影像基础上, 依据玉米-大豆-其他三大类别具有较为明显的差异这一原则, 另外增加主成分变换的前4个波段(包含原始数据的绝大部分有效信息, 并去除噪音)、归一化植被指数NDVI (作物分类识别常用指数, 可以区分植被和非植被)、归一化水体指数NDWI (区分水库以及湿地、水稻等)等额外的信息数据, 共13个波段, 再次使用3种分类方法进行作物的分类, 以此评价增加信息对分类精度的影响, 分析利用OLI数据进行大豆-玉米分类是否有必要添加额外信息。

图4 研究技术流程Fig. 4 Technical flow chart of the study

1.3.2 最大似然算法 最大似然法又称最大概似估计或贝叶斯(Bayes)分类方法, 是监督分类方法的一种。最大似然法以统计学原理, 利用最大似然比贝叶斯判决准则建立非线性的判别函数集, 并假定各类分布函数为正态分布, 通过训练样本, 计算待分类像元对各类别的归属概率, 哪一类归属概率高即将其划分为此类。该方法是当前农情遥感监测作物分类提取业务化流程中经常使用的监督分类方法, 具有分类精度较高、分类结果稳定可靠、分类速度快的优势[31]

1.3.3 支持向量机 支持向量机(SVM)是Cortes和Vapnik等于1995年首先提出的机器学习分类方法[32]。它建立在统计学VC维(Vapnik-Chervonenkis Dimension)理论和结构风险最小原理基础上, 根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷, 以期获得最好的推广能力。对于影像而言, 将影像的多个波段灰度值视为一个向量, 将该向量映射到一个更高维的空间里, 并构造一个最大间隔的超平面, 即在将数据分开的超平面两边构建2个互相平行的超平面, 使两者间距离最大。平行超平面间的距离或差距越大, 分类器的总误差越小, 因此可以达到最优化分类的目的。该法能在较小样本情况下自动学习样本分类知识, 获得较高精度的分类结果, 在多个领域广泛应用。

1.3.4 随机森林分类 随机森林分类(RFC)是Breiman于2001年提出来的一种较新的多决策树分类方法[33], 该方法通过在数据上及特征变量上的随机重采样, 构建多个CART类型决策树(不剪枝), 通过多决策树投票的方式确定数据的类别归属。随机森林方法对于遥感影像分类具有很好的抗噪声性能, 分类精度较高。该法利用样方数据自动构建分类决策树, 属于监督分类的一种。

(1) 随机森林算法从原始样本数据集中抽取N个训练样本集, 每个训练样本集都是从原始样本集中随机有放回地抽取大约2/3, 剩余的约1/3作为验证样本, 称为袋外数据(out-of-bag, OOB) 进行内部误差估计, 并利用OOB数据计算各特征变量的重要性。

(2) 随机森林在构建每颗树时并不选用全部特征, 而是通过有放回随机抽取的方式, 从原始的特征集中(假设共K个特征)抽取k个(kK)特征作为决策树分类依据, 构建数据特征预测变量集。一般情况下, k值设置为K的平方根即可。

(3) 根据选取的训练样本、验证样本, 以及特征预测变量集, 参照CART决策树构建方法, 通过递归建立一个分类二叉树。假设样本有k个属性特征, 对于每个属性特征, 参照Gini指数选取一个最佳划分值x, Gini指数越小即认为划分后的类别中杂质含量越低, 分类纯度越高。假设一个样本共有m类, 则二叉树节点A的Gini指数计算方式如下。

\[\text{Gini}(\text{A})\text{=}1-\sum\nolimits_{i=1}^{m}{p_{i}^{2}}\] (2)

式中, pi代表属于i类的概率, 当Gini(A)=0时所有样本属于一类。递归的过程则是针对当前节点, 尝试样本每一个属性特征, 计算各属性变量中Gini指数最小的值作为该节点的最佳属性划分值, 构建一个最优分支子树。根据以上分裂规则, 对样本进行充分的二叉树生长, 构建一个完整的CART树, 一般情况下不对该树进行剪枝操作。

(4) 重复步骤3, 直到构建完成N颗分类树, 进而形成一个随机分类树的森林, 将影像的每一个像元使用所有的分类树进行分类, 采用多数投票方式综合分类结果, 确定该像元的最终从属类别。

对于随机森林采用样本和特征的双重随机抽样构建决策树, 因此即使不对分类树进行剪枝操作也不会出现传统CART决策树过拟合的现象。

1.3.5 精度验证方法 主要基于5 m空间分辨率Rapideye影像, 针对整个研究区的玉米、大豆及其他地物类型进行监督分类, 结合地面调查, 采用目视方法修正, 目视解译结果作为研究结果精度验证的数据, 图5给出基于Rapideye影像目视解译结果。采用混淆矩阵、Kappa系数、总体分类精度、制图精度和用户精度5种方式描述和比较分类精度, 相关定义及详细表述可参照文献[34, 35, 36]。

图5 基于RapidEye影像的目视解译结果
a: Rapideye影像(5/4/3波段); b: Rapideye影像的目视解译结果。
Fig. 5 Visual interpreting result based on the RapidEye image
a: Rapideye image (5/4/3 band); b: Result of manual visual interpretation based on RapidEye image.

2 结果与分析

基于研究技术流程, 对原始影像经过预处理后, 使用样本数据分别进行最大似然分类、支持向量机分类及随机森林分类, 获取研究区的大豆、玉米、其他3种地物的分类结果, 并利用基于RapidEye影像的目视解译结果作为真值进行分类精度评价, 分析3种方法的优劣。同时, 在原始7波段影像的基础上, 另外计算NDVI、NDWI, 并对原始影像进行主成分变换, 提取主成分的前4个波段, 总共6个辅助波段与原始影像进行叠加, 形成包含13个特征波段的分类原始影像数据, 再次使用3种分类方法进行分类, 评价增加额外特征波段对于作物分类精度的影响情况。

2.1 3种分类方法作物分类结果对比

利用3种分类方法和相同的地面样方进行地物分类, 结果如图6所示。随机森林方法的决策树数量设定为100, 节点分裂时输入的特征变量数设置为所有特征数量的平方根; 支持向量机方法的核函数选择为径向基函数(radial basis function, RBF), 核函数的Gamma值设置为0.071; 最大似然分类方法设置分割概率阈值为单一阈值。表2表明, 最大似然分类方法、支持向量机方法、随机森林方法的总体分类精度分别为91.68%、91.49%和94.32%, Kappa系数分别为0.87、0.87和0.91, 可以看出, 随机森林方法比另两种方法有更高的分类精度。从分项看, 最大似然分类方法玉米的产品精度较高, 但是用户精度较低, 说明存在较多的错分情况(其他错分为玉米), 而其他的用户精度较高, 但是产品精度较低, 说明存在较多的漏分情况(其他错分为大豆和玉米); 而支持向量机方法情况与最大似然分类方法类似; 随机森林相比其他2类方法, 各类作物无论是制图精度还是用户精度, 都有明显的提升, 说明随机森林方法比传统监督分类方法具有更高的作物分类识别能力。

图6 基于原始影像3种方法分类结果
a: 最大似然分类结果; b: 支持向量机分类结果; c: 随机森林分类结果; d: 最大似然分类结果局部; e: 支持向量机分类结果局部; f: 随机森林分类结果局部。
Fig. 6 Classification results by three methods based on original image
a: maximum likelihood classification result; b: support vector machine classification result; c: random forest classification result; d: part of maximum likelihood classification result; e: part of support vector machine classification result; f: part of random forest classification result.

表2 基于原始影像3种分类方法的混淆矩阵 Table 2 Confusion matrix of three classification methods based on original image
2.2 增加辅助分类信息后3种分类方法结果对比

分别计算原始影像的归一化植被指数NDVI、归一化水体指数NDWI, 并进行主成分变换, 提取主成分波段的前4个波段, 共获得6个辅助分类波段, 与原始OLI影像的7个波段叠加组合, 形成13个波段的待分类影像。与原始影像分类相同, 分别采用3种分类方法, 使用相同的地面样方数据进行作物分类, 并与真值影像对比, 结果如图7所示。分类精度如表3所示, 增加辅助信息后, 最大似然分类和支持向量机的分类精度基本没有变化, Kappa系数也未提高; 而随机森林方法的总体分类精度则由原来的94.32%提高到95.81%, 提高了1.49个百分点, Kappa系数则由0.91提高到0.94, 表明辅助信息的加入可以在一定程度上提高作物的分类识别能力和精度, 但是整体提升的效果有限。在添加了辅助信息后, 相比最大似然分类方法, 总体识别精度从90.22%提高到95.81%, 提高了5.59个百分点, 大豆的制图精度从90.22%提高到98.32%, 提高了8.1个百分点, 玉米的用户精度从84.27%提高到94.88%, 提高了10.61个百分点。

图7 增加辅助特征后的3种方法分类结果
a: 最大似然分类结果; b: 支持向量机分类结果; c: 随机森林分类结果; d: 最大似然分类结果局部; e: 支持向量机分类结果局部; f: 随机森林分类结果局部。
Fig. 7 Classification results of three methods based on the stacked image
a: maximum likelihood classification result; b: support vector machine classification result; c: random forest classification result; d: part of maximum likelihood classification result; e: part of support vector machine classification result; f: part of random forest classification result.

表3 增加辅助特征波段后的3种分类方法分类结果混淆矩阵 Table 3 Confusion matrix of three methods based on the stacked image

分析随机森林方法增加辅助特征前后各特征在决策分类中的重要性, 结果如图8所示。原始OLI数据中, 红光波段和2个短波红外波段对于分类的重要性较高, 而海岸、蓝、绿、红光波段的重要性则较低; 在增加了NDVI、NDWI和PCA前4个波段后, 对于分类重要性较高的依然是近红外和2个短波红外波段。可以认为, OLI原始数据中已经包含了较为丰富的作物识别信息, 而通过波段运算、主成分变化生成的新特征波段, 实际上是一种人工的信息挖掘方式, 在原有信息已能被充分利用的情况下, 这些变换并不能提高数据中对于分类有效的信息, 因此对于分类精度提升效果并不明显。可以在表3中发现, 即使是随机森林方法, 精度也没有明显的提升。

图8 增加辅助特征前后各特征变量的重要性
a: 增加辅助特征前各波段重要性; b: 增加辅助特征后各波段重要性。
Fig. 8 Variable importance before and after adding auxiliary features
a: variable importance before adding auxiliary features; b: variable importance after adding auxiliary features.

2.3 3种分类方法分类时间对比

利用普通工作站统计3类方法的分类时间, 工作站的CPU为i7处理器, 频率为3G Hz, 内存为8G, 统计结果如表4所示。最大似然分类方法的耗费时间最少, 仅约145 s; 支持向量机分类时间耗费最多, 大约为11 000 s; 随机森林的分类时间居中, 约为1800 s。综合考虑各分类方法的作物分类精度及时间, 可以看出, 最大似然分类方法分类时间上具有明显的优势, 但是分类精度相对较低; 而支持向量机方法耗费时间最长, 约为最大似然分类方法的76倍, 随机森林方法的6倍多, 且作物分类识别精度并未有显著提升, 整体上劣势较大; 随机森林方法的作物识别精度最高, 且分类时间相对适中, 对于农情遥感监测作物面积提取具有较大的整体优势。

表4 3种分类方式作物分类提取耗费时间 Table 4 Classification time of the three methods

根据随机森林方法的原理, 其决策树可以很方便地并行生成, 且每棵树都不需要剪枝处理, 使其训练时间大幅减少。且随机森林分类方法继承了决策树分类方法分类速度快的优势, 应用训练完成的随机森林模型进行影像分类的耗时也很少。综合这两个因素, 使随机森林方法在获取较高分类精度的同时, 耗时也较少。

3 讨论

随机森林方法作为机器学习中的重要算法, 具有简单、容易实现、计算开销小、调整参数少等优点, 且能快速处理海量高维度数据。相比最大似然分类和支持向量机分类, 随机森林方法能在适当的时间内取得更高的分类精度。同时, 该方法通过对样本和特征属性的双重随机抽样, 使得最终训练获取的分类模型具有更强的泛化性能, 能更好地处理包含噪声(如云、雾等)的数据并获取较高的精度。

在本文中, 最大似然分类、支持向量机、随机森林分类都使用默认参数。对于最大似然分类和随机森林分类, 一般默认参数即可获得较高的分类精度, 参数调整对于分类结果影响较小。而不同的核函数及相应参数的设置, 可能对支持向量机分类结果产生较大影响, 通过参数优化可能实现更高的分类精度。但参数优化的耗时将成倍于分类耗时, 且优化后的参数在其它影像分类中可能并非最优。这些因素限制了支持向量机在农情遥感监测实际业务中的应用。随机森林分类基本无需调整参数, 且精度相比同样无需调整参数的最大似然分类方法更高。因此, 随机森林方法可作为最大似然分类方法的替代方法, 广泛应用到农情遥感监测实际业务工作中。

随机森林方法另一个优势是能对影像特征的重要性进行排序, 当输入影像具有较多的特征维度时, 可以利用特征重要性进行特征的筛选, 剔除无关特征, 并降低计算量, 提高识别精度。这一优势对于数据特征数量较多的多时序影像分类、面向对象分类等应用领域具有重要的意义。

4 结论

相比传统的最大似然分类法及支持向量机方法, 随机森林方法在遥感影像作物识别分类中具有较高的精度, 且分类耗时适中, 智能化程度较高, 具有高分辨率遥感影像作物精细识别业务化应用的潜力。

The authors have declared that no competing interests exist.

作者已声明无竞争性利益关系。

参考文献
[1] 许文波, 田亦陈. 作物种植面积遥感提取方法的研究进展. 云南农业大学学报, 2005, 20(1): 94-98
Xu W B, Tian Y C. Overview of extraction of crop area from remote sensing. J Yunnan Agric Univ, 2005, 20(1): 94-98 (in Chinese with English abstract) [本文引用:]
[2] 尤淑撑, 孙毅, 李小文. 成像光谱技术在土地利用动态遥感监测中的应用研究. 遥感信息, 2005, (3): 31-33
You S C, Sun Y, Li X W. Reseach on land use dynamic monitoring using high spectral resolution remote sensing data. Remote Sens Inf, 2005, (3): 31-33 (in Chinese with English abstract) [本文引用:1]
[3] Gleriani J M, da Silva J D S, Epiphanio J C N. Comparative performance of neural networks and maximum likelihood for supervised classification of agricultural crops: single date and temporal analysis. Radal Ba Fnon, 2004, 4: 2959-2964 [本文引用:1]
[4] Liang Y J, Xu Z M. Crop identification in the irrigation district based on SPOT-5 satellite imagery. Pratacult Sci, 2013, 30: 161-167 [本文引用:1]
[5] Baup F, Flanquart S, Maraissicre C, Fieuzal R. Satellite monitoring at high spatial resolution of water bodies used for irrigation purposes. Sci Technol Innovation Herald, 2012, 32(3): 103-119 [本文引用:1]
[6] Luo B, Yang C, Chanussot J, Zhang L. Crop yield estimation based on unsupervised linear unmixing of multidate hyperspectral imagery. IEEE Trans Geosci Remote Sens, 2013, 51: 162-173 [本文引用:1]
[7] Wu B, Li Q. Crop planting and type proportion method for crop acreage estimation of complex agricultural land scapes. Int J Appl Earth Obs Geoinf, 2012, 16: 101-112 [本文引用:1]
[8] Long J A, Lawrence R L, Greenwood M C, Marshall L, Miller P R. Object-oriented crop classification using multitemporal ETM+ SLC-off imagery and rand om forest. Gisci Remote Sens, 2013, 50: 418-436 [本文引用:1]
[9] Jiao X F, Kovacs J M, Shang J L, McNairn H, Walters D, Ma B L, Geng X Y. Object-oriented crop mapping and monitoring using multi-temporal polarimetric RADARSAT-2 data. ISPRS J Photogramm Remote Sens, 2014, 96: 38-46 [本文引用:1]
[10] Rosales H S, Bruno C, Balzarini M. Identifying yield and environment relationships using classification and regression trees (CART). Interciencia, 2010, 35: 876-882 [本文引用:1]
[11] Arvor D, Jonathan M, Simoes M, Durieux L. Classification of MODIS EVI time series for crop mapping in the state of Mato Grosso, Brazil. Int J Remote Sens, 2011, 32: 7847-7871 [本文引用:1]
[12] 李鑫川, 徐新刚, 王纪华, 武洪峰, 金秀良, 李存军, 鲍艳松. 基于时间序列环境卫星影像的作物分类识别. 农业工程学报, 2013, 29(2): 169-176.
Li X C, Xu X G, Wang J H, Wu H F, Jin X L, Li C J, Bao Y S. Crop classification recognition based on time-series images from HJ satellite. Trans CSAE, 2013, 29(2): 169-176 (in Chinese with English abstract) [本文引用:1]
[13] Kaur P, Singh S, Garg S, Harmanpreet. Analytical and CASE study on limited search, ID3, CHAID, C4. 5, improved C4. 5 and OVA decision tree algorithms to design decision support system. Strategic Change, 2010, 1324: 253-267 [本文引用:1]
[14] Deng X, Zhao C, Yan H. Systematic modeling of impacts of land use and land cover changes on regional climate: a review. Adv Meteorol, 2013, 2013: 317678 [本文引用:1]
[15] 刘建光, 李红, 孙丹峰, 张微微, 周连第. MODIS土地利用/覆被多时相多光谱决策树分类. 农业工程学报, 2010, 26(10): 312-318
Liu J G, Li H, Sun D F, Zhang W W, Zhou L D. Land use/cover decision tree classification fusing multi-temporal and multi-spectral of MODIS. Trans CSAE, 2010, 26(10): 312-331 (in Chinese with English abstract) [本文引用:1]
[16] 刘毅, 杜培军, 郑辉, 夏俊士, 柳思聪. 基于随机森林的国产小卫星遥感影像分类研究. 测绘科学, 2012, 37(4): 194-196
Liu Y, Du P J, Zheng H, Xia J S, Liu S C. Classification of China small satellite remote sensing image based on rand om forests. Sci Surv Mapping, 2012, 37(4): 194-196 (in Chinese with English abstract) [本文引用:1]
[17] 刘磊, 江东, 徐敏, 尹芳. 基于多光谱影像和专家决策法的作物分类研究. 安徽农业科学, 2011, 39(25): 1703-1706
Liu L, Jiang D, Xu M, Yin F. Crops classification based on multi-spectral image and decision tree method. J Anhui Agric Sci, 2011, 39(25): 1703-1706 (in Chinese with English abstract) [本文引用:1]
[18] 康峻, 侯学会, 牛铮, 高帅, 贾坤. 基于拟合物候参数的植被遥感决策树分类. 农业工程学报, 2014, 30(9): 148-156
Kang J, Hou X H, Niu Z, Gao S, Jia K. Decision tree classification based on fitted phenology parameters from remotely sensed vegetation data. Trans CSAE, 2014, 30(9): 148-156 (in Chinese with English abstract) [本文引用:1]
[19] 张旭东, 迟道才. 基于异源多时相遥感数据决策树的作物种植面积提取研究. 沈阳农业大学学报, 2014, 45: 451-456
Zhang X D, Chi D C. Mapping crop fields by using multi-sensor and multi-temporal remote sensing data with decision-tree. J Shenyang Univ, 2014, 45: 451-456 (in Chinese with English abstract) [本文引用:1]
[20] 黄健熙, 贾世灵, 武洪峰, 苏伟. 基于GF-1 WFV影像的作物面积提取方法研究. 农业机械学报, 2015, 46(1): 253-259
Huang J X, Jia S L, Wu H F, Su W. Extraction method of crop planted area based on GF-1 WFV Image. Trans CSAM, 2015, 46(1): 253-259 (in Chinese with English abstract) [本文引用:1]
[21] Kand rika S, Roy P S. Land use land cover classification of Orissa using multi-temporal IRS-P6 awifs data: A decision tree approach. Int J Appl Earth Obs Geoinf, 2008, 10: 186-193 [本文引用:1]
[22] Peña J M, Gutiérrez P A, Hervás-Martínez C, Six J, Plant R E, López-Granados F. Object-based image classification of summer crops with machine learning methods. Remote Sens, 2014, 6: 5019-5041 [本文引用:1]
[23] Pal M. Rand om forest classifier for remote sensing classification. Int J Remote Sens, 2007, 26: 217-222 [本文引用:1]
[24] Gislason P O, Benediktsson J A, Sveinsson J R. Rand om forests for land cover classification. Pattern Recognit Lett, 2003, 27: 294-300 [本文引用:1]
[25] Ok A O, Akar O, Gungor O. Evaluation of rand om forest method for agricultural crop classification. Eur J Remote Sens, 2012, 45: 421-432 [本文引用:1]
[26] Deschamps B, Mcnairn H, Shang J, Jiao X. Towards operational radar-only crop type classification: comparison of a traditional decision tree with a rand om forest classifier. Can J Remote Sens, 2012, 38: 60-68 [本文引用:1]
[27] 张晓羽, 李凤日, 甄贞, 赵颖慧. 基于随机森林模型的陆地卫星-8遥感影像森林植被分类. 东北林业大学学报, 2016, 44(6): 53-57
Zhang X Y, Li F R, Zhen Z, Zhao Y H. Forest vegetation classification of Land sat8 remote sensing image based on rand om forest model. J Northeast For Univ, 2016, 44(6): 53-57 (in Chinese with English abstract) [本文引用:1]
[28] 郭玉宝, 池天河, 彭玲, 刘吉磊, 杨丽娜. 利用随机森林的高分一号遥感数据进行城市用地分类. 测绘通报, 2016, (5): 73-76
Guo Y B, Chi T H, Peng L, Liu J L, Yang L N. Classification of GF-1 remote sensing image based on rand om forests for urban land -use. Bull Surv Mapping, 2016, (5): 73-76 (in Chinese with English abstract) [本文引用:1]
[29] 黄健熙, 侯矞焯, 苏伟, 刘峻明, 朱德海. 基于GF-1 WFV数据的玉米与大豆种植面积提取方法. 农业工程学报, 2017, 33(7): 164-170
Huang J X, Hou Y Z, Su W, Liu J M, Zhu D H. Mapping corn and soybean cropped area with GF-1 WFV data. Trans CSAE, 2017, 33(7): 164-170 (in Chinese with English abstract) [本文引用:1]
[30] 王利民, 刘佳, 杨玲波, 杨福刚, 富长虹. 短波红外波段对玉米大豆种植面积识别精度的影响. 农业工程学报, 2016, 32(19): 169-178
Wang L M, Liu J, Yang L B, Yang F G, Fu C H. Impact of short infrared wave band on identification accuracy of corn and soybean area. Trans CSAE, 2016, 32(19): 169-178 (in Chinese with English abstract) [本文引用:1]
[31] 王增林, 朱大明. 基于遥感影像的最大似然分类算法的探讨. 河南科学, 2010, 28: 1458-1461
Wang Z L, Zhu D M. A study of maximum likelihood classification algorithm based on remote sensing image. Henan Sci, 2010, 28: 1458-1461 (in Chinese with English abstract) [本文引用:1]
[32] Cortes C, Vapnik V. Support-vector networks. Mach Learn, 1995, 20: 273-297 [本文引用:1]
[33] Breiman L. Rand om forests. Machine Learning, 2001, 45: 5-32 [本文引用:1]
[34] Congalton R G. A Review of assessing the accuracy of classifications of remotely sensed data. Remote Sens Environ, 1991, 37: 35-46 [本文引用:1]
[35] Hay A M. The derivation of global estimation from a confusion matrix. Int J Remote Sens, 1988, 9: 1395-1398 [本文引用:1]
[36] Congalton R G. A comparison of sampling schemes used in generating error matrices for assessing the accuracy of maps generated from remotely sensing data. Photogramm Eng Remote Sens, 1988, 54: 593-600 [本文引用:1]