• 卓越行动计划二期中文领军期刊
  • 中国科学引文数据库核心期刊
  • 中文核心期刊、中国科技核心期刊
  • 第1、2届国家期刊奖
  • 第3届国家期刊奖百种重点期刊奖
  • 中国精品科技期刊、中国百强报刊
  • 百种中国杰出学术期刊

基于不同因子筛选方法的LightGBM-SHAP滑坡易发性研究

陈丹璐, 孙德亮, 文海家, 辜庆渝

陈丹璐, 孙德亮, 文海家, 辜庆渝. 基于不同因子筛选方法的LightGBM-SHAP滑坡易发性研究[J]. 北京师范大学学报(自然科学版), 2024, 60(1): 148-158. DOI: 10.12202/j.0476-0301.2023098
引用本文: 陈丹璐, 孙德亮, 文海家, 辜庆渝. 基于不同因子筛选方法的LightGBM-SHAP滑坡易发性研究[J]. 北京师范大学学报(自然科学版), 2024, 60(1): 148-158. DOI: 10.12202/j.0476-0301.2023098
CHEN Danlu, SUN Deliang, WEN Haijia, GU Qingyu. LightGBM-SHAP landslide susceptibility by different factor screening methods[J]. Journal of Beijing Normal University(Natural Science), 2024, 60(1): 148-158. DOI: 10.12202/j.0476-0301.2023098
Citation: CHEN Danlu, SUN Deliang, WEN Haijia, GU Qingyu. LightGBM-SHAP landslide susceptibility by different factor screening methods[J]. Journal of Beijing Normal University(Natural Science), 2024, 60(1): 148-158. DOI: 10.12202/j.0476-0301.2023098

基于不同因子筛选方法的LightGBM-SHAP滑坡易发性研究

基金项目: 教育部人文社科规划资助项目(20XJAZHO02);国家自然科学基金资助项目(42071217)
详细信息
    通讯作者:

    孙德亮(1976—),男,副教授,硕士生导师.研究方向:滑坡易发性.E-mail:20130831@cqnu.edu.cn

  • 中图分类号: X87

LightGBM-SHAP landslide susceptibility by different factor screening methods

  • 摘要:

    以重庆市黔江区为例,选取23个评价因子构建滑坡致灾因子数据库,利用地理探测器与皮尔逊-主成分分析2种因子筛选方法选择因子最优组合;基于Bayesian-LightGBM-SHAP混合模型进行滑坡易发性评价,并对模型精度进行验证,分析影响黔江区滑坡发生的主导因子.初始模型的AUC值为0.801,Pearson Correlation Coefficient-Bayesian-LightGBM模型AUC值为0.824,GeoDetector-Bayesian-LightGBM模型AUC为0.835;由因子重要性可知,多年平均降雨量、高程、POI核密度与距河流距离是滑坡发生的最主要因子,而输沙指数、水流动力指数与坡位对滑坡的发生影响较弱.因子筛选法-Bayesian-LightGBM相结合的混合模型能够提高模型的准确性,为构建合理因子数据库提供参考框架;通过与因子重要性的结合分析,验证了地理探测器能够准确探测各因子对滑坡发生的贡献值,突出各滑坡地理因子组合之间的相关性,从而探究各因子与滑坡之间的关系.

    Abstract:

    To study Qianjiang District of Chongqing Municipality, 23 evaluation factors are selected to construct a landslide disaster-causing factor database, optimal combination of factors is chosen utilizing two factor-screening methods: geodetector and Pearson-principal component analysis. Bayesian-LightGBM-SHAP hybrid model for landslide susceptibility evaluation was applied to verify model accuracy, and to analyze dominant factors affecting landslide occurrence in Qianjiang District. The initial model had an AUC value of 0.801, Pearson Correlation Coefficient-Bayesian-LightGBM model had an AUC value of 0.824, whereas GeoDetector-Bayesian-LightGBM model had an AUC of 0.835. Importance of factors was ranked. Average multi-year rainfall, elevation, POI kernel density and distance from rivers were found the most important factors for landslides to occur, while the sand transport index, hydrodynamic index and slope position had a weaker effect. The hybrid model combining factor screening method-Bayesian-LightGBM could improve accuracy of the model and provide a reference framework for constructing a rational factor database. Integrating analysis with factor significance verified that geo-probe could accurately detect contribution value of each factor to landslide occurrence. This highlights correlation between each combination of landslide conditioning factors, thus clarifies the relationship between each factor and landslides.

  • 滑坡是一种发生频率高、强度大、破坏性强的地质灾害,且主要发生在山区[1].据中国统计年鉴,从2000—2020年我国共发生自然灾害33万起,经济总损失高达762亿元,其中滑坡灾害发生22.7万起,占总数的68.8%[23].滑坡灾害所造成的经济和人员损失巨大,因此,潜在滑坡易发性区域的识别与预测是不可或缺的[4].滑坡易发性区划(landslide susceptibility mapping,LSM)是定量预测研究区内滑坡易发性程度空间分布的方法,对滑坡的防治与城市规划及治理有着重要意义[5]

    在构建LSM之前,选择合适的因子建立滑坡数据库是关键所在,由于地理因子之间存在复杂的作用关系,不同的地理因子之间可能具有不同程度的相关性.若将初始因子直接作为输入数据参与模型的建立,冗余的评价因子会增加模型的不稳定性,降低模型预测精度[6],因此评价因子的筛选与确定、建立科学的评价体系是滑坡易发性分析中的关键任务[7].Cheng等[8]、Wang等[9]、Lee等[10]、Vasu等[11]的研究表明,因子特征筛选可以提高滑坡易发性分析的可靠性.常用的方法有信息增益比(IGR)[12]、地理探测器(GeoDetector,GD)[1314]、皮尔逊相关系数(Pearson correlation coefficient,PCC)[1516]和特征递归消除法[17]等.GD能够度量、挖掘和利用空间异质性,分析滑坡发生的驱动力和影响因子以及多因子交互的作用.PCC常用于衡量特征到特征信息和特征到标签信息,反映每个属性值和类分布的关系.因此,本文采用GD与皮尔逊-主成分分析2种因子筛选方法进行对比分析,以期得到黔江区滑坡评价因子体系的最优组合.

    LSM模型主要有物理模型、启发式模型、统计模型与机器学习模型,其中,由于机器学习模型对过拟合现象有较强的鲁棒性、对分类与回归应用具有较高的精确度、可处理缺失数据等优点[18]被广泛应用.常用的算法如支持向量机模型(support vector machine, SVM)[19]、随机森林(random forest, RF)[20]、逻辑回归(logistic regression, LR)[21]等.此外,Light Gradient Boosting Machine(LightGBM,LGB)这类梯度提升算法(gradient boosting),因其出色的预测能力和稳定性得到学者们的重视.

    目前,国内外滑坡易发性研究多集中于对机器学习模型进行优化以获取更高的精度,对于模型内部决策机制和影响因子探究的研究相对较少.滑坡的成因机制复杂,各致灾因子对滑坡的分布有明显的区域特征,滑坡影响因素的分析显得尤为重要.事后解释算法为基于机器学习的LSM内部解释提供了新的方向,此算法能增加决策的公正性、鲁棒性并保证模型推理因果关系[22-23].因此,本文采用LightGBM-SHAP构建滑坡易发性可解释模型.

    近年来,重庆市黔江区地质环境恶化和人类工程活动加剧,全区地质灾害频发,灾害所造成的直接经济损失逐渐升高,危及近3.5万名群众的生命财产安全(https://www.qianjiang.gov.cn/).鉴于此,本文以重庆市黔江区作为研究区,选取地形地貌、地质条件、水文条件、环境条件和人类活动5方面的23个评价因子;采用地理探测器与皮尔逊-主成分分析2种方法对因子进行筛选,构建Bayesian-LightGBM模型,得到全区滑坡易发性评价结果;对比分析模型精度,基于SHAP算法对黔江区滑坡主导因子进行分析,探究各因子与滑坡之间的相关性,以期为黔江区地质灾害防治研究提供参考.

    重庆市黔江区(图1)地跨108°28′~108°56′E、29°04′~29°52′N,海拔325~1 953 m.该地位于武陵山区腹地和四川盆地东南部,以中低山、丘陵为主,山地面积约占全区土地面积的85%,约10%为丘陵地区,5%为河谷平坝与盆地.地形地貌受地质拼叠的控制,山脉走向多与构造线方向一致,山脉河流由东北向西南倾斜,其走向近似平行.就地质构造而言,黔江区位于新华夏第三隆起带南西段鄂西渝东褶皱带,该区出露地层以震旦系变质岩为基底,构造应力场复杂.黔江区属亚热带湿润性季风气候区,年平均气温为13.8~18.8 ℃,年平均降雨量为1 100~1 300 mm.植被垂直分布明显,植物种类多,含亚热带常绿阔叶林特点.

    图  1  研究区概况

    采用的2003—2019年黔江区历史滑坡事件545处及相关影响因子数据来源如表1所示.

    表  1  数据及数据来源
    数据名称 数据来源 年份 类型 精度
    多年平均降雨 地理国情监测云平台 2003—2019 栅格 30 m
    DEM Global digital elevation model(GDEM) 2019 栅格 30 m
    Landsat 8 美国地质调查局 2019 栅格 30 m
    Landsat 5 美国地质调查局 2019 栅格 30 m
    地质资料 国家地质资料数据中心 2019 矢量 1:200 000
    土地利用 地理国情监测云平台 2015 矢量 1:100 000
    行政区划 地理国情监测云平台 2019 矢量 1:100 000
    河网 中国科学院资源环境科学数据中心 2019 矢量 1:100 000
    道路 中国科学院资源环境科学数据中心 2019 矢量 1:100 000
    历史滑坡 重庆市地质监测站 2003—2019 数据表
    2016POI 网络爬虫 2016 矢量 1:100 000
    下载: 导出CSV 
    | 显示表格

    受自身地质、地貌条件和外界环境因素的共同作用影响[24],造成滑坡发生的影响因子繁多.根据已有研究[2527]和黔江区自身滑坡发育特征,选取地形地貌、地质条件、水文条件、环境条件、人类活动5个方面影响下的23个评价因子(部分因子专题如图2所示).

    图  2  黔江区滑坡影响因子专题(部分)

    所有的评价因子按照自然断点法(表2)进行重分类处理,此外,微地貌划分标准依据Weiss[28]重分类.

    表  2  滑坡因子分类表
    因子分组 影响因子 分级 分类标准
    地形地貌 高程/m 11 1) <530;2) 530~632;3) >632~723;4) >723~809;5) >809~895;6) >895~987;7) >987~1093;
    8) >1093~ 1225;9) >1225~1390;10) >1390~1600;11) >1600~1953
    地形位置指数 10 1) <−13;2) −13~−7;3) >−7~−4;4) >−4~−1;5) >−1~0;6) >0 ~2;7) >2~4;8) >4~8;9) >8~14;10) >14~58
    起伏度/m 7 1) <20;2) 20~30;3) >30~40;4) >40~50;5) >50~80;6) >80~170;7) >170
    坡度/(°) 8 1) <5;2) 5~10;3) >10~15;4) >15~20;5) >20~25;6) >25~30;7) >30~35;8) >35
    坡向 9 1) 平面;2) 北;3) >东北;4) >东;5) >东南;6) >南;7) >西南;8)西;9) >西北
    坡位 6 1) 谷底;2) 下坡;3) >平坡;4) >中坡;5) >山坡;6) >山脊
    曲率 6 1) <−1;2) −1~−0.5;3) >−0.5~0;4) >0~0.5;5) >0.5~1;6) >1
    剖面曲率 6 1) <−1;2) −1~−0.5;3) >−0.5~0;4) >0~0.5;5) >0.5~1;6) >1
    平面曲率 6 1) <−1;2) −1~−0.5;3) >−0.5~0;4) >0~0.5;5) >0.5~1;6) >1
    微地貌 10 1) 峡谷/深流;2) 中坡处水系/浅谷;3) 高地水系/水源;4) U形山谷;5) 平原;6) 空旷斜坡;7) 上斜坡/台地;8) 局部山谷中的山脊;9) 在平原中坡处山脊/小山;10) 山顶/山脊高处
    地表切割深度/m 6 1) <256;2) 256~545;3) >545~789;4) >789~1002;5) >1002~1197;6) >1197~1920
    粗糙度指数 6 1) <1.05;2) 1.05~1.12;3) >1.12~1.24;4) >1.24~1.41;5) >1.41~1.72;6) >1.72~3.77
    地质条件 岩性 9 1) є2-3;2) S2;3) >S1;4) >O1;5) >Qb2b;6) >Z;7) >D;8) >T1j;9) >J1z-2x;
    距断层距离/m 7 1) <2 276;2) 2 276~4 815;3) >4 815~7 355;4) >7 355~9 894;5) >9 894~12 521;6) >12 521~
    16 111;7) >16 111
    环境条件 归一化植被指数 5 1) <0.5;2) 0.5~0.6;3) >0.6~0.7;4) >0.7~0.8;5) >0.8~0.9
    距河流距离/m 7 1) <3 508;2) 3 508~7 380;3) >7 380~11 251;4) >11 251~15 123;5) >15 123~19 115;
    6) >19 115~23 713;7) >23 713
    土地利用 9 1) 林地;2) 草地;3) >耕地;4) >园地;5) >住宅用地;6) >交通运输用地;7) >工矿仓储用地;
    8) >水域及水利设施用地;9) >其他用地
    人类活动 距道路距离/m 7 1) <342;2) 342~755;3) >755~1 243;4) >1 243~1 827;5) >1 827~2 581;6) >2 581~3 578;
    7) >3 578
    POI核密度 8 1) 4;2) 4~10;3) >10~26;4) >26~50;5) >50~77;6) >77~120;7) >120~170;8) >170~233
    水文条件 多年平均降雨量/mm 7 1) <1 318;2) 1 318~1 347;3) >1 347~1 377;4) >1 377~1 409;5) >1 409~1 445;6) >1 445~1 489;
    7) >1 489~1 551
    地形湿度指数 6 1) <4;2) 4~6;3) >6~8;4) >8~10;5) >10~13;6) >13~26
    输沙指数 8 1) <20;2) 20~50;3) >50~100;4) >100~150;5) >150~200;6) >200~300;7) >300~400;
    8) >400~720
    水流动力指数 8 1) <250;2) 250~1000;3) >1000~2000;4) >2000~3000;5) >3000~5000;6) >5000~10000;
    7) >10000
    下载: 导出CSV 
    | 显示表格

    本文以重庆市黔江区545个滑坡历史事件为例,选取23个初始因子对黔江区滑坡进行滑坡易发性评价以及可解释性分析,模型构建流程如图3所示.

    图  3  滑坡易发性模型构建流程

    GD是一种检测空间分异并揭示背后驱动因素的统计方法,可评估控制或促成地理现象的不同因素的相对重要性[2930].PCC是反映2个因子之间相关程度的指标,是2个因素协方差除以标准差的乘积,相关系数的绝对值为0~1,若绝对值>0.5,则视为强相关变量.主成分分析(principal components analysis, PCA)[31]可用于提取数据的主要特征分量,在减少需要分析的指标的同时,减少原指标所包含的信息损失,从而达到对数据进行全面分析的目的[3233].LGB[34]是一个快速的、分布式的、高性能的算法,具有训练效果好、不易过拟合的特点,可用于排序、分类、回归等机器学习任务中.SHAP(SHapley Additive exPlanation) [3536]中SHAP值用于量化每个因子对滑坡易发性预测结果的贡献值.

    基于初始因子,利用GD进行探测的结果如图4所示.其中,q值表示影响因子对滑坡的解释能力,p值表示该因子显著性大小,p值<0.05表示差异显著.结果表明,多年平均降雨量对模型预测能力的影响最大(0.545),其次是POI核密度(0.208)、高程(0.152)、距断层距离(0.139)、距河流距离(0.127)等.因此,从初始因子中根据q值>0.05[37-38]p值<0.05进行筛选,剔除7个因子,即水流动力指数、坡位、输沙指数、坡向、地形位置指数、平面曲率与剖面曲率,筛选后为16个因子.

    图  4  地理探测器因子筛选结果

    基于初始因子,利用相关性分析得到因子间的PCC.通过对地形地貌类因子的研究,发现因子间强相关性呈现以下特征:只存在于2个因子间或多因子两两强相关,形成因子强相关组.由表3可发现,DEM和地表切割深度、DEM和地形位置指数存在2因子间的强相关性,为了去除这种强相关性,将DEM因子剔除.TRI、地形位置指数、坡度和起伏度形成一个强相关组,坡位、曲率和微地貌形成另一个强相关组.在环境条件、地质条件、水文因子和人类活动类中不存在强相关因子(表4).

    表  3  地形地貌因子的皮尔逊相关系数
    因子 TRI 地形位置指数 高程 平面曲率 坡度 坡位 坡向 剖面曲率 起伏度 地表切割深度 曲率 微地貌
    TRI 1
    地形位置指数 0.663 1
    高程 0.129 0.673 1
    平均曲率 0.040 0.086 −0.025 1
    坡度 0.874 0.654 0.073 0.055 1
    坡位 0.003 0.066 0.066 0.237 −0.029 1
    坡向 −0.028 −0.057 −0.02 0.003 −0.031 0.032 1
    剖面曲率 0.114 0.023 −0.074 0.014 0.118 −0.291 0.310 1
    起伏度 0.766 0.663 0.153 0.048 0.773 0.028 −0.017 0.110 1
    地表切割深度 −0.340 0.115 0.624 0.002 −0.392 −0.015 0.079 −0.003 0.083 1
    曲率 −0.014 0.014 0.041 0.195 −0.064 0.511 0.106 −0.309 0.007 0.065 1
    微地貌 0.022 0.104 0.105 0.226 −0.021 0.632 0.070 −0.346 0.051 0.033 0.535 1
    下载: 导出CSV 
    | 显示表格
    表  4  其他因子的PCC
    地质条件 距断层距离 岩性
    距断层距离 1
    岩性 0.395 1
    人类活动 POI核密度 距道路距离
    POI核密度 1
    距道路距离 −0.241 1
    环境条件 NDVI 距河流距离 土地利用
    NDVI 1
    距河流距离 −0.157 1
    土地利用 0.268 0.064 1
    水文条件 SPI STI TWI 多年平均降雨量
    SPI 1
    STI 0.476 1
    TWI 0.158 0.270 1
    多年平均降雨量 0.020 0.066 −0.090 1
    下载: 导出CSV 
    | 显示表格

    为消除上述组内因子的强相关性,采用PCA法,提取适当主成分作为新的因子以达到消除相关性的作用.处理后得到2组因子提取信息如表5所示.

    表  5  PCA筛选的因子组合
    因子组合 因子个数 主成分提取个数 命名
    TRI、地形位置指数、
    坡度和起伏度
    4 1 P1
    坡位、曲率和微地貌 3 1 P2
    下载: 导出CSV 
    | 显示表格

    综上,经过对因子的皮尔逊相关性筛选和PCA,初始因子库中剔除DEM因子,将TRI、地形位置指数、坡度和起伏度4个因子合并为P1组,作为1个因子,坡位、曲率和微地貌3个因子合并为P2组,单独为1个因子.筛选后因子数为17个.

    采用贝叶斯优化算法对3种模型的超参数进行优化[39],并获得最优超参数模型.基于Bayesian-LGB模型对整个研究区进行概率预测,利用自然断点法[40]将易发性区划图划分为:较低易发性区、低易发性区、中易发性区、较高易发性区以及高易发性区[41]5个水平.

    基于初始因子、PCC、GD与Bayesian-LGB构建滑坡易发性模型,分类结果如图5-a~c所示,所得到的统计结果如表6所示.结果表明,黔江大部分地区位于低和较低易发区,低易发区集中于北部与西部,较高和高易发区集中于东部、南部与水系附近.基于3种方法构建的LSM模型,其易发性等级从低至高,滑坡密度升高,得到的区划图较为合理,预测结果与实际情况相符.

    图  5  滑坡易发性区划
    表  6  3种模型的LSM分级统计
    模型 易发性分级 面积/km2 滑坡个数/个 滑坡密度/(个·km−2)
    初始因子-Bayesian-LGB 较低易发区 1981.105 42 0.021
    低易发区 780.323 101 0.129
    中易发区 242.908 130 0.535
    高易发区 99.845 115 1.152
    较高易发区 53.963 157 2.909
    PCC-Bayesian-LGB 较低易发区 2041.892 48 0.024
    低易发区 716.984 105 0.146
    中易发区 240.890 116 0.482
    高易发区 107.440 125 1.163
    较高易发区 50.962 151 2.963
    GD-Bayesian-LGB 较低易发区 2213.294 51 0.023
    低易发区 603.123 93 0.154
    中易发区 199.891 103 0.515
    高易发区 90.802 121 1.333
    较高易发区 51.052 177 3.467
    下载: 导出CSV 
    | 显示表格

    滑坡易发性评价模型精度常用受试者工作特征曲线(ROC)、曲线下所覆盖的面积值(AUC)、准确率、精确率、召回率与F1分数值衡量[4244].由表7可知,初始因子-Bayesian-LGB模型AUC值为0.801,PCC-Bayesian-LGB模型AUC值为0.824,GD-Bayesian-LGB模型AUC值为0.835,且3种模型的其余评价指标精度值均远高于0.5.

    表  7  3种模型滑坡易发性模型精度对比
    模型准确率精确率召回率F1分数AUC测试集AUC训练集
    初始因子-LightGBM0.9080.8080.9080.8980.8010.949
    PCC-LightGBM0.9220.8280.9220.9220.8240.981
    GD-LightGBM0.9250.8280.9260.9280.8350.989
    下载: 导出CSV 
    | 显示表格

    将初始因子代入SHAP算法得到因子重要性排序图(图6),可知,对滑坡发生影响程度排名前4的因子为多年平均降雨量、高程、POI核密度、距河流距离.

    图  6  因子重要性排序

    与地理探测器的q值结合分析可知(图4),对滑坡的发生产生影响较大的因子均为多年平均降雨量、POI核密度、高程、距河流距离与距断层距离,对滑坡发生几乎无关的因子为输沙指数、坡位与水流动力指数.

    图7的ROC曲线、表7的AUC值及其他评价指标可知,由于使用初始模型未考虑因子间的相关性,数据冗余较多,导致该模型AUC值最低(0.801).基于PCC进行因子筛选所构建的模型可一定程度去除因子间强相关性,AUC值比初始模型提升0.227,且较高-高易发区滑坡密度更高,预测结果准确且数据冗余较小,但并未考虑因子特征与滑坡之间的空间相关性,精度并非最佳.基于GD能够确定滑坡影响因子对滑坡发生的解释力大小,探究滑坡主导因子,去除噪声因素,AUC值比初始模型提升0.340,低-高易发区滑坡密度显著升高,有效提升滑坡易发性分区效果.因此,基于GD的评价模型精度最高,效果最好.

    图  7  3种模型ROC曲线

    综上,GD与PCC这2种方法均可通过去除数据冗余筛选因子,提高模型的评价精度,在滑坡易发性评价中呈现较好的预测结果.同时,GD可筛选出研究区与滑坡关系密切的因子,确定滑坡主导因子,评价模型精度最高.

    滑坡形成机制复杂,筛选主导因子及对单因子进行空间异质性分析可为滑坡灾害危险管理提供参考.利用SHAP算法的因子重要性排序(图6)与GD探测的各因子对滑坡的解释能力(图4)进行结合分析可知,GD分析的因子贡献值与SHAP计算的因子重要程度大致相符,即重要性排名前4的因子相同,说明GD探测滑坡易发性因子贡献程度具有一定准确性.

    通过SHAP单因子依赖性分析滑坡单个特征值大小对模型预测结果的影响.本文分别选择对滑坡影响程度最大(多年平均降雨量、POI核密度、高程、距河流距离)的4个评价因子进行因子依赖性分析(图8).

    图  8  单因子依赖性分析

    图8-a可知,当多年平均降雨量<1 275 mm时,对滑坡的发生产生的促进作用较强,而当>1 275 mm后,促进作用逐渐减弱.由于降雨对斜坡稳定性的影响与坡体物质透水性、亲水性以及降水前初始含水量等有关,会影响当地的地表径流水位、地下水流量.降雨所渗漏的雨水会渗入坡体,侵蚀边坡,冲刷坡体表面岩土体物质,加大孔隙水压力,软化岩与土体增大坡体容量,从而容易促使或诱发滑坡的发生.因此在低值区域降雨量对滑坡促进作用强.但由图8可知,在高值区域多年平均降雨量对滑坡促进作用减小,这是因为多年平均降雨量为长期观测所统计的数据,与直接触发滑坡发生的因子(如当日降雨量、前期降雨量等)相比,多年平均降雨量与滑坡孕育的过程相关程度更高,历次降水与滑坡的发育存在相关关系,虽不直接触发滑坡发生,但会作为形成滑坡的基础条件因子之一.

    图8-b可知,POI核密度对滑坡的发生的促进作用强,且随着POI核密度的升高促进作用逐渐增强.POI核密度涵盖了城市的各类基础性空间信息,作为一个典型的人类工程活动的因子,是统计人类社会经济活动的主要指标,与滑坡的发生有密切的相关性.随着黔江区开发建设增多,城市聚集大量人口,城市用地增多,植被覆盖程度降低;同时,由于人类活动的不合理性(污水排放、工矿产业开采)形成坡面采空区,使斜坡结构受到破坏,导致山体滑坡等自然灾害增加.因此,POI核密度对滑坡的影响程度大.

    图8-c可知,当海拔高度<600 m时,海拔高度对滑坡产生促进作用,随着海拔的升高,海拔高度对滑坡的促进作用减弱.由于黔江区平均海拔低,大部分地貌属于中低山、丘陵,在海拔低值地区易堆积松散沉积物,境内人类工程活动广泛(开挖坡脚、过度开采地下水、乱砍滥伐等),使边坡稳定性下降,增加滑坡发生概率.而高值地区人类活动少,植被覆盖度高、水土固结能力强,滑坡发生可能性小.

    图8-d可知,当距河流距离<3 000 m时,对滑坡起促进作用;而距河流距离越远,影响逐渐减弱.在滑坡发育的过程中,河流的侵蚀作用是常见的影响因素之一.由LSM图可知,黔江区发生滑坡的较高与高易发区均临近水系.河谷岸坡会因水流的冲刷而使斜坡变高变陡,降低斜坡稳定性;并且,水流的冲刷使坡脚和滑动面临空,导致土质滑动,岩土对滑体的支撑作用减弱,使岸坡坍塌.因此,在临近河流区域,滑坡发生概率大,随着距河流距离越远,发生概率减小.

    本文选择2种因子筛选法与LightGBM-SHAP模型耦合,将构建的LSM结果进行对比分析,探究不同筛选法下LSM的最佳评价因子体系并对影响黔江区滑坡发生的主导因子进行探讨.结果表明:

    1)因子筛选法与Bayesian-LGB所构建的模型均能取得较好的预测结果.从低到高易发区,采用筛选法的LSM滑坡占比呈稳定上升趋势,预测结果比初始模型高.因此,该混合模型能够提高模型的评价精度,证明模型的有效性.

    2)通过GD剔除冗余因子,其构建的模型精度最高(0.835),同时,GD所探测的各因子贡献能力与SHAP法计算的因子重要性吻合,说明该混合模型不仅能通过筛选因子提升模型精度,还可为探测地理的分层异质性和揭示背后驱动力提供一定的空间分析参考.因此,GD与Bayesian-LGB-SHAP的结合方法有助于优化模型、提高模型的可靠性与科学性,在LSM中具有良好的应用前景.

  • 图  1   研究区概况

    图  2   黔江区滑坡影响因子专题(部分)

    图  3   滑坡易发性模型构建流程

    图  4   地理探测器因子筛选结果

    图  5   滑坡易发性区划

    图  6   因子重要性排序

    图  7   3种模型ROC曲线

    图  8   单因子依赖性分析

    表  1   数据及数据来源

    数据名称 数据来源 年份 类型 精度
    多年平均降雨 地理国情监测云平台 2003—2019 栅格 30 m
    DEM Global digital elevation model(GDEM) 2019 栅格 30 m
    Landsat 8 美国地质调查局 2019 栅格 30 m
    Landsat 5 美国地质调查局 2019 栅格 30 m
    地质资料 国家地质资料数据中心 2019 矢量 1:200 000
    土地利用 地理国情监测云平台 2015 矢量 1:100 000
    行政区划 地理国情监测云平台 2019 矢量 1:100 000
    河网 中国科学院资源环境科学数据中心 2019 矢量 1:100 000
    道路 中国科学院资源环境科学数据中心 2019 矢量 1:100 000
    历史滑坡 重庆市地质监测站 2003—2019 数据表
    2016POI 网络爬虫 2016 矢量 1:100 000
    下载: 导出CSV

    表  2   滑坡因子分类表

    因子分组 影响因子 分级 分类标准
    地形地貌 高程/m 11 1) <530;2) 530~632;3) >632~723;4) >723~809;5) >809~895;6) >895~987;7) >987~1093;
    8) >1093~ 1225;9) >1225~1390;10) >1390~1600;11) >1600~1953
    地形位置指数 10 1) <−13;2) −13~−7;3) >−7~−4;4) >−4~−1;5) >−1~0;6) >0 ~2;7) >2~4;8) >4~8;9) >8~14;10) >14~58
    起伏度/m 7 1) <20;2) 20~30;3) >30~40;4) >40~50;5) >50~80;6) >80~170;7) >170
    坡度/(°) 8 1) <5;2) 5~10;3) >10~15;4) >15~20;5) >20~25;6) >25~30;7) >30~35;8) >35
    坡向 9 1) 平面;2) 北;3) >东北;4) >东;5) >东南;6) >南;7) >西南;8)西;9) >西北
    坡位 6 1) 谷底;2) 下坡;3) >平坡;4) >中坡;5) >山坡;6) >山脊
    曲率 6 1) <−1;2) −1~−0.5;3) >−0.5~0;4) >0~0.5;5) >0.5~1;6) >1
    剖面曲率 6 1) <−1;2) −1~−0.5;3) >−0.5~0;4) >0~0.5;5) >0.5~1;6) >1
    平面曲率 6 1) <−1;2) −1~−0.5;3) >−0.5~0;4) >0~0.5;5) >0.5~1;6) >1
    微地貌 10 1) 峡谷/深流;2) 中坡处水系/浅谷;3) 高地水系/水源;4) U形山谷;5) 平原;6) 空旷斜坡;7) 上斜坡/台地;8) 局部山谷中的山脊;9) 在平原中坡处山脊/小山;10) 山顶/山脊高处
    地表切割深度/m 6 1) <256;2) 256~545;3) >545~789;4) >789~1002;5) >1002~1197;6) >1197~1920
    粗糙度指数 6 1) <1.05;2) 1.05~1.12;3) >1.12~1.24;4) >1.24~1.41;5) >1.41~1.72;6) >1.72~3.77
    地质条件 岩性 9 1) є2-3;2) S2;3) >S1;4) >O1;5) >Qb2b;6) >Z;7) >D;8) >T1j;9) >J1z-2x;
    距断层距离/m 7 1) <2 276;2) 2 276~4 815;3) >4 815~7 355;4) >7 355~9 894;5) >9 894~12 521;6) >12 521~
    16 111;7) >16 111
    环境条件 归一化植被指数 5 1) <0.5;2) 0.5~0.6;3) >0.6~0.7;4) >0.7~0.8;5) >0.8~0.9
    距河流距离/m 7 1) <3 508;2) 3 508~7 380;3) >7 380~11 251;4) >11 251~15 123;5) >15 123~19 115;
    6) >19 115~23 713;7) >23 713
    土地利用 9 1) 林地;2) 草地;3) >耕地;4) >园地;5) >住宅用地;6) >交通运输用地;7) >工矿仓储用地;
    8) >水域及水利设施用地;9) >其他用地
    人类活动 距道路距离/m 7 1) <342;2) 342~755;3) >755~1 243;4) >1 243~1 827;5) >1 827~2 581;6) >2 581~3 578;
    7) >3 578
    POI核密度 8 1) 4;2) 4~10;3) >10~26;4) >26~50;5) >50~77;6) >77~120;7) >120~170;8) >170~233
    水文条件 多年平均降雨量/mm 7 1) <1 318;2) 1 318~1 347;3) >1 347~1 377;4) >1 377~1 409;5) >1 409~1 445;6) >1 445~1 489;
    7) >1 489~1 551
    地形湿度指数 6 1) <4;2) 4~6;3) >6~8;4) >8~10;5) >10~13;6) >13~26
    输沙指数 8 1) <20;2) 20~50;3) >50~100;4) >100~150;5) >150~200;6) >200~300;7) >300~400;
    8) >400~720
    水流动力指数 8 1) <250;2) 250~1000;3) >1000~2000;4) >2000~3000;5) >3000~5000;6) >5000~10000;
    7) >10000
    下载: 导出CSV

    表  3   地形地貌因子的皮尔逊相关系数

    因子 TRI 地形位置指数 高程 平面曲率 坡度 坡位 坡向 剖面曲率 起伏度 地表切割深度 曲率 微地貌
    TRI 1
    地形位置指数 0.663 1
    高程 0.129 0.673 1
    平均曲率 0.040 0.086 −0.025 1
    坡度 0.874 0.654 0.073 0.055 1
    坡位 0.003 0.066 0.066 0.237 −0.029 1
    坡向 −0.028 −0.057 −0.02 0.003 −0.031 0.032 1
    剖面曲率 0.114 0.023 −0.074 0.014 0.118 −0.291 0.310 1
    起伏度 0.766 0.663 0.153 0.048 0.773 0.028 −0.017 0.110 1
    地表切割深度 −0.340 0.115 0.624 0.002 −0.392 −0.015 0.079 −0.003 0.083 1
    曲率 −0.014 0.014 0.041 0.195 −0.064 0.511 0.106 −0.309 0.007 0.065 1
    微地貌 0.022 0.104 0.105 0.226 −0.021 0.632 0.070 −0.346 0.051 0.033 0.535 1
    下载: 导出CSV

    表  4   其他因子的PCC

    地质条件 距断层距离 岩性
    距断层距离 1
    岩性 0.395 1
    人类活动 POI核密度 距道路距离
    POI核密度 1
    距道路距离 −0.241 1
    环境条件 NDVI 距河流距离 土地利用
    NDVI 1
    距河流距离 −0.157 1
    土地利用 0.268 0.064 1
    水文条件 SPI STI TWI 多年平均降雨量
    SPI 1
    STI 0.476 1
    TWI 0.158 0.270 1
    多年平均降雨量 0.020 0.066 −0.090 1
    下载: 导出CSV

    表  5   PCA筛选的因子组合

    因子组合 因子个数 主成分提取个数 命名
    TRI、地形位置指数、
    坡度和起伏度
    4 1 P1
    坡位、曲率和微地貌 3 1 P2
    下载: 导出CSV

    表  6   3种模型的LSM分级统计

    模型 易发性分级 面积/km2 滑坡个数/个 滑坡密度/(个·km−2)
    初始因子-Bayesian-LGB 较低易发区 1981.105 42 0.021
    低易发区 780.323 101 0.129
    中易发区 242.908 130 0.535
    高易发区 99.845 115 1.152
    较高易发区 53.963 157 2.909
    PCC-Bayesian-LGB 较低易发区 2041.892 48 0.024
    低易发区 716.984 105 0.146
    中易发区 240.890 116 0.482
    高易发区 107.440 125 1.163
    较高易发区 50.962 151 2.963
    GD-Bayesian-LGB 较低易发区 2213.294 51 0.023
    低易发区 603.123 93 0.154
    中易发区 199.891 103 0.515
    高易发区 90.802 121 1.333
    较高易发区 51.052 177 3.467
    下载: 导出CSV

    表  7   3种模型滑坡易发性模型精度对比

    模型准确率精确率召回率F1分数AUC测试集AUC训练集
    初始因子-LightGBM0.9080.8080.9080.8980.8010.949
    PCC-LightGBM0.9220.8280.9220.9220.8240.981
    GD-LightGBM0.9250.8280.9260.9280.8350.989
    下载: 导出CSV
  • [1] 殷坤龙,朱良峰. 滑坡灾害空间区划及GIS应用研究[J]. 地学前缘,2001,8(2):279 doi: 10.3321/j.issn:1005-2321.2001.02.010
    [2]

    SUN D L,GU Q Y,WEN H J,et al. A hybrid landslide warning model coupling susceptibility zoning and precipitation[J]. Forests,2022,13(6):827 doi: 10.3390/f13060827

    [3] 史培军,刘连友. 北京师范大学灾害风险科学研究回顾与展望[J]. 北京师范大学学报(自然科学版),2022,58(3):458 doi: 10.12202/j.0476-0301.2022112
    [4]

    HONG H Y,POURGHASEMI H R,POURṪAGHI Z S. Landslide susceptibility assessment in Lianhua County (China):a comparison between a random forest data mining technique and bivariate and multivariate statistical models[J]. Geomorphology,2016,259:105 doi: 10.1016/j.geomorph.2016.02.012

    [5]

    SUN D L,WEN H J,XU J H,et al. Improving geospatial agreement by hybrid optimization in logistic regression-based landslide susceptibility modelling[J]. Frontiers in Earth Science,2021,9:713803 doi: 10.3389/feart.2021.713803

    [6]

    KAVZOGLU K C I. Selecting optimal conditioning factors in shallow translational landslide susceptibility mapping using genetic algorithm[J]. Engineering Geology,2015,192:101 doi: 10.1016/j.enggeo.2015.04.004

    [7]

    TEHRANY P M S. Optimization of landslide conditioning factors using very high-resolution airborne laser scanning (LiDAR) data at catchment scale[J]. Remote Sensing of Environment,2014,152:150 doi: 10.1016/j.rse.2014.05.013

    [8]

    CHENG C,YANG Y,ZHONG F C,et al. An optimization of statistical index method based on Gaussian process regression and GeoDetector,for higher accurate landslide susceptibility modeling[J]. Applied Sciences,2022,12(20):10196 doi: 10.3390/app122010196

    [9]

    WANG Y M,WU X L,CHEN Z J,et al. Optimizing the predictive ability of machine learning methods for landslide susceptibility mapping using SMOTE for Lishui City in Zhejiang Province,China[J]. International Journal of Environmental Research and Public Health,2019,16(3):368 doi: 10.3390/ijerph16030368

    [10]

    LEE S,RYU J H,LEE M J,et al. Use of an artificial neural network for analysis of the susceptibility to landslides at Boun,Korea[J]. Environmental Geology,2003,44(7):820 doi: 10.1007/s00254-003-0825-y

    [11]

    VASU N N,LEE S R. A hybrid feature selection algorithm integrating an extreme learning machine for landslide susceptibility modeling of Mt. Woomyeon,South Korea[J]. Geomorphology,2016,263:50 doi: 10.1016/j.geomorph.2016.03.023

    [12]

    BODAGHEE A,RAHOUI F,TOMSICK J A,et al. Chandra observations of five integral sources:new X-ray positions for igr j16393-4643 and igr j17091-3624[J]. The Astrophysical Journal Letters,2012,751(2):113 doi: 10.1088/0004-637X/751/2/113

    [13]

    OLSZEWSKI G,LINDAHL P,FRISK P,et al. Development of 148-Gd analysis method using stable Gd[J]. Talanta,2021,229:122295 doi: 10.1016/j.talanta.2021.122295

    [14]

    SUDAVTSOVA V S,SHEVCHENKO M A,KUDIN V G,et al. Thermodynamic properties of Gd-Sn and Gd-Sn-Ni melt systems[J]. Russian Journal of Physical Chemistry A,2021,95(2):237 doi: 10.1134/S0036024421020254

    [15]

    GRAZIOSI D,NAKAGAMI O,KUMA S,et al. An overview of ongoing point cloud compression standardization activities:video-based (V-PCC) and geometry-based (G-PCC)[J]. APSIPA Transactions on Signal and Information Processing,2020,9(1):E13

    [16]

    TRAUTMANN D,VOß B,WILDE A,et al. Microevolution in cyanobacteria:re-sequencing a motile substrain of synechocystis sp. PCC 6803[J]. DNA Research,2012,19(6):435 doi: 10.1093/dnares/dss024

    [17]

    JEON H,OH S. Hybrid-recursive feature elimination for efficient feature selection[J]. Applied Sciences,2020,10(9):3211 doi: 10.3390/app10093211

    [18]

    MERGHADI A,YUNUS A P,GOU J. Machine learning methods for landslide susceptibility studies:a comparative overview of algorithm performance[J]. Earth-Science Reviews,2020,207:103225 doi: 10.1016/j.earscirev.2020.103225

    [19]

    HUANG F M,WANG Y,DONG Z L. Regional landslide susceptibility mapping based on grey relational degree model[J]. Earth Science,2018,44(2): 664

    [20]

    SUN D L,WEN H J,WANG D Z,et al. A random forest model of landslide susceptibility mapping based on hyperparameter optimization using Bayes algorithm[J]. Geomorphology,2020,362:107201 doi: 10.1016/j.geomorph.2020.107201

    [21]

    SPERANDEI S. Understanding logistic regression analysis[J]. Biochemia Medica,2014:12

    [22]

    FLEMING S W,WATSON J R,ELLENSON A,et al. Machine learning in Earth and environmental science requires education and research policy reforms[J]. Nature Geoscience,2021,14(12):878 doi: 10.1038/s41561-021-00865-3

    [23]

    ZHOU X Z,WEN H J,LI Z W,et al. An interpretable model for the susceptibility of rainfall-induced shallow landslides based on SHAP and XGBoost[J]. Geocarto International,2022,37(26):13419 doi: 10.1080/10106049.2022.2076928

    [24] 杜常见,易庆林,周宝,等. 基于GIS和加权信息量的三峡库区云阳县滑坡灾害易发性评价[J]. 三峡大学学报(自然科学版),2017,39(2):48
    [25]

    REICHENBACH P,ROSSI M,MALAMUD B D,et al. A review of statistically-based landslide susceptibility models[J]. Earth-Science Reviews,2018,180:60 doi: 10.1016/j.earscirev.2018.03.001

    [26]

    KALANTAR B,PRADHAN B,NAGHIBI S A,et al. Assessment of the effects of training data selection on the landslide susceptibility mapping:a comparison between support vector machine (SVM),logistic regression (LR) and artificial neural networks (ANN)[J]. Geomatics,Natural Hazards and Risk,2018,9(1):49 doi: 10.1080/19475705.2017.1407368

    [27] 于宪煜. 基于多源数据和多尺度分析的滑坡易发性评价方法研究[D]. 武汉:中国地质大学
    [28]

    WEISS A. Topographic position and landforms analysis[R]. San Diego,CA:ERSI User Conference ,2001

    [29]

    LUO W,LIU C C. Innovative landslide susceptibility mapping supported by geomorphon and geographical detector methods[J]. Landslides,2018,15(3):465 doi: 10.1007/s10346-017-0893-9

    [30]

    WANG J F,LI X H,CHRISTAKOS G,et al. Geographical detectors-based health risk assessment and its application in the neural tube defects study of the Heshun region,China[J]. International Journal of Geographical Information Science,2010,24(1):107 doi: 10.1080/13658810802443457

    [31]

    MARUKATAT S. Kernel matrix decomposition via empirical kernel map[J]. Pattern Recognition Letters,2016,77:50 doi: 10.1016/j.patrec.2016.03.031

    [32]

    GEWERS F L,FERREIRA G R,DE ARRUDA H F,et al. Principal component analysis:a natural approach to data exploration[J]. ACM Computing Surveys,54(4):1

    [33]

    ADELOMOU P A,FAULI D C,RIBÉ E G,et al. Quantum case-based reasoning (qCBR)[J]. Artificial Intelligence Review,2023,56(3):2639 doi: 10.1007/s10462-022-10238-w

    [34]

    MENG Q. LightGBM:a highly efficient gradient boosting decision tree[Z]. Neural Information Processing Systems: Curran Associates Inc ,2017

    [35]

    LUNDBERG S M,LEE S I. A unified approach to interpreting model predictions[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems.Long Beach California USA: Curran Associates Inc,2017: 4768-4777

    [36]

    SHAPLEY L S. A value for n-person games[M]//The Shapley Value. Cambridge:Cambridge University Press,1988:31-40

    [37]

    CAO Y F,JIA H L,XIONG J N,et al. Flash flood susceptibility assessment based on geodetector,certainty factor,and logistic regression analyses in Fujian Province,China[J]. ISPRS International Journal of Geo-Information,2020,9(12):748 doi: 10.3390/ijgi9120748

    [38]

    YANG J T,SONG C,YANG Y. New method for landslide susceptibility mapping supported by spatial logistic regression and GeoDetector:a case study of Duwen Highway Basin,Sichuan Province,China[J]. Geomorphology,2019,324:62 doi: 10.1016/j.geomorph.2018.09.019

    [39]

    VICTORIA A H,MARAGATHAM G. Automatic tuning of hyperparameters using Bayesian optimization[J]. Evolving Systems,2021,12(1):217 doi: 10.1007/s12530-020-09345-2

    [40]

    WANG Y,WEN H J,SUN D L,et al. Quantitative assessment of landslide risk based on susceptibility mapping using random forest and GeoDetector[J]. Remote Sensing,2021,13(13):2625 doi: 10.3390/rs13132625

    [41]

    HONG H Y,CHEN W,XU C,et al. Rainfall-induced landslide susceptibility assessment at the Chongren area (China) using frequency ratio,certainty factor,and index of entropy[J]. Geocarto International,2016:1

    [42]

    DEVKOTA K C,REGMI A D,POURGHASEMI H R,et al. Landslide susceptibility mapping using certainty factor,index of entropy and logistic regression models in GIS and their comparison at Mugling-Narayanghat Road section in Nepal Himalaya[J]. Natural Hazards,2013,65(1):135 doi: 10.1007/s11069-012-0347-6

    [43]

    GUO C B,MONTGOMERY D R,ZHANG Y S, et al. Quantitative assessment of landslide susceptibility along the Xianshuihe fault zone,Tibetan Plateau,China[J]. Geomorphology,2015,248:93 doi: 10.1016/j.geomorph.2015.07.012

    [44]

    THAO P T N,PANAHI M,KUOSRAVI K, et al. Evaluation of deep learning algorithms for national scale landslide susceptibility mapping of Iran[J]. Geoscience Frontiers,2021,12(2):505 doi: 10.1016/j.gsf.2020.06.013

  • 期刊类型引用(11)

    1. 苏志萍,杨成生,王子倩. 结合负样本优化与机器学习模型的怒江洲峡谷段滑坡易发性评价. 地球信息科学学报. 2025(04): 979-993 . 百度学术
    2. 胡祥祥,石亚亚,胡良柏,吴涛,庞栋栋,刘帅令,宋宝. 融合InSAR与信息量–机器学习耦合模型的黄土滑坡易发性评价. 西北地质. 2025(02): 159-171 . 百度学术
    3. 曾韬睿,王林峰,张俞,程平,吴帆. 基于CatBoost-SHAP模型的滑坡易发性建模及可解释性. 中国地质灾害与防治学报. 2024(01): 37-50 . 百度学术
    4. 赵勇,柏晶晶,黄为民,邱超,缪锐. 计及源荷相关度类线性紧缩法的配电网有功无功协同优化. 电工技术. 2024(08): 87-92 . 百度学术
    5. 李炎隆,张雨春,王婷,殷乔刚,刘云贺. 土石坝风险等级智能预测分析及模型优化研究. 水力发电学报. 2024(07): 85-96 . 百度学术
    6. 曹放,孙徐,张钰. 基于“XGBoost—SHAP”的可解释性崩塌落石风险预测在公路工程中的应用. 工程技术研究. 2024(14): 1-4 . 百度学术
    7. 王毅,陈曦,方志策,杜宝裕. 基于数据驱动的降雨型浅层滑坡易发性时空建模方法. 资源环境与工程. 2024(05): 612-619 . 百度学术
    8. 张锦瑞,汪洋,冯霄,李远耀,金必晶,周超,张鑫,邓扬. 考虑地表形变和土地利用变更的滑坡时空易发性差异分析. 地质科技通报. 2024(06): 184-195 . 百度学术
    9. 朱祖腾,蓝燕金,简文彬,林昀昭,吴宜龙. 基于增量型贝叶斯概率统计的滑坡预测模型研究. 水利与建筑工程学报. 2024(06): 181-188 . 百度学术
    10. 马敏,王江立,陈琦,李景富. 基于随机森林赋权信息量的区域滑坡易发性评价——以三峡库区秭归至巴东段为例. 华南地质. 2024(04): 749-763 . 百度学术
    11. 马祥龙,文海家,张廷斌,孙德亮,潘明辰. 自动可解释机器学习滑坡易发性评价模型. 北京师范大学学报(自然科学版). 2024(06): 806-818 . 百度学术

    其他类型引用(4)

图(8)  /  表(7)
计量
  • 文章访问数:  304
  • HTML全文浏览量:  88
  • PDF下载量:  79
  • 被引次数: 15
出版历程
  • 收稿日期:  2023-05-28
  • 网络出版日期:  2023-09-17
  • 刊出日期:  2024-02-27

目录

/

返回文章
返回
x 关闭 永久关闭