• 卓越行动计划二期中文领军期刊
  • 中国科学引文数据库核心期刊
  • 中文核心期刊、中国科技核心期刊
  • 第1、2届国家期刊奖
  • 第3届国家期刊奖百种重点期刊奖
  • 中国精品科技期刊、中国百强报刊
  • 百种中国杰出学术期刊

基于GIS与XGBoost算法的新石器时代考古遗址预测模型研究

田洁, 朱有晨, 李林芝, 朱星, 李文然, 安雪莲

田洁, 朱有晨, 李林芝, 朱星, 李文然, 安雪莲. 基于GIS与XGBoost算法的新石器时代考古遗址预测模型研究[J]. 北京师范大学学报(自然科学版). DOI: 10.12202/j.0476-0301.2024241
引用本文: 田洁, 朱有晨, 李林芝, 朱星, 李文然, 安雪莲. 基于GIS与XGBoost算法的新石器时代考古遗址预测模型研究[J]. 北京师范大学学报(自然科学版). DOI: 10.12202/j.0476-0301.2024241
TIAN Jie, ZHU Youchen, ZHU Xing, LI Linzhi, LI Wenran, AN Xuelian. Research on the prediction model of Neolithic archaeological sites based on GIS and XGBoost algorithm[J]. Journal of Beijing Normal University(Natural Science). DOI: 10.12202/j.0476-0301.2024241
Citation: TIAN Jie, ZHU Youchen, ZHU Xing, LI Linzhi, LI Wenran, AN Xuelian. Research on the prediction model of Neolithic archaeological sites based on GIS and XGBoost algorithm[J]. Journal of Beijing Normal University(Natural Science). DOI: 10.12202/j.0476-0301.2024241

基于GIS与XGBoost算法的新石器时代考古遗址预测模型研究

基金项目: 2023年重庆市教育委员会人文社会科学研究重点研究基地资助项目(23SKJD049);重庆市教委科学技术研究资助项目(KJQN202400543)
详细信息
    通讯作者:

    李林芝(1985—),女,博士研究生,讲师. 研究方向:机器学习、历史文化遗产保护. E-mail:sclilinzhi@163.com

  • 中图分类号: K878

Research on the prediction model of Neolithic archaeological sites based on GIS and XGBoost algorithm

  • 摘要:

    构建考古遗址预测模型可以精准识别考古遗址的潜在空间范围,有助于对尚未发现的考古遗址进行前瞻性保护.本文以山东省为研究区域,收集新石器时代考古遗址(不含墓葬)1 916个为研究样本,按照1∶1的比例随机提取非考古遗址(1 916个)作为负样本,选取高程、坡度、坡向、剖面曲率、平面曲率、微地貌、坡位、濒水距离8个地理环境影响因素构建考古遗址预测模型的指标体系,运用GIS空间分析方法,采用XGBoost算法构建考古遗址预测模型,进行潜在考古遗址空间范围的预测同时进行了重要因子分析.研究结果表明:1)运用XGBoost算法构建的考古遗址预测模型可获取较高的精度,本研究的AUC测试值为0.85;2)用最佳样本训练后的模型,将结果划分为低、中、高这3种等级,并得出考古遗址主要分布在平原地区;3)根据XGBoost算法对影响因子重要性进行排序,坡位、微地貌、高程的影响因子重要性排前3位,是影响研究区域新石器时代考古遗址选址的主要因素.研究发现XGBoost算法具有较好的稳定性和预测能力,构建的模型为考古遗址预测提供了新的研究方法,并为田野考古发掘提供了重要技术支撑,揭示了新石器时代古人类选址与地理环境的关系.

    Abstract:

    This paper focuses on Shandong Province as the study area, collecting 1916 Neolithic archaeological sites (excluding burials) as the study sample. It randomly extracts 1916 non-archaeological sites as negative samples at a 1:1 ratio. Eight geographic environmental influencing factors, such as elevation, slope, aspect, profile curvature, planar curvature, micro-geomorphology, slope position, and distance to water boundaries, are selected to construct the index system for the archaeological site prediction model. The GIS spatial analysis method is employed to build the predictive model of archaeological sites using the XGBoost algorithm. The model predicts the spatial extent of potential archaeological sites and conducts an important factor analysis. The results indicate that: (1) the archaeological site prediction model constructed by the XGBoost algorithm achieves high accuracy, with an AUC value of 0.85 in this study; (2) the model trained with optimal samples categorizes the results into low, medium, and high grades, and concludes that the archaeological sites are mainly distributed in the plains area; (3) according to the XGBoost algorithm to rank the importance of the influencing factors, slope position, microgeomorphology, and elevation are the top three factors influencing the siting of Neolithic archaeological sites in the study area. It is found that the XGBoost algorithm has good stability and prediction ability, and the constructed model provides a new research method for the prediction of archaeological sites, and provides an important technical support for field archaeological excavation, which reveals the relationship between the site selection of ancient human beings in the Neolithic era and the geographic environment.

  • 考古遗址预测模型是一种基于特定区域内,通过环境变量的定量分析,预测某一位置存在考古遗址的概率的工具[12].关于考古遗址预测的研究可以追溯到1953年,国外研究学者Viru Valley对微鲁河谷展开的研究中,首次提出构建考古遗址预测模型的理论和方法[3],并探讨了考古遗址与环境变量的关系.1980年后,统计学分析方法和GIS技术在考古预测模型领域兴起,如Kvammme[4]结合统计学和空间分析,构建区域模型;Koohpayma等[5]使用GIS和Weights-of-Evidence方法预测伊朗地区古代定居的潜在位置;Kolmogorov-Smirnov[6]结合统计检验方法以及权重叠加模型,探究了龙山文化时期考古遗址的空间分布特征.国内对于考古遗址预测模型的研究开展相对国外较晚,最早由倪金生[7]建立山东沭河上游流域遗址的预测模型;彭淑贞[8]利用GIS技术研究了山东省汶泗流域大汶口文化时期的遗址分布概率.考古遗址预测模型中,考古遗址与环境的关系成为探究的重点.这种关系在地理学和考古学学科交叉下尝试探索,如牛少静[9]分析了山东沂沭河流域龙山文化考古遗址分布与环境的关系;刘帅[10]利用GIS空间分析技术,研究山东省旧石器-商周时期的考古遗址与环境的关系.前人研究中利用GIS技术的空间分析和空间可视化的优点,提取如坡度、坡向、高程等自然地理环境因子预测考古遗址的空间分布特征和范围,其准确性虽得到了提升,但在定性[1112]和定量[1314]的研究方法结合中仍存在不足.如Ange N[15]采用层次分析法,主观性较强,缺乏客观的数据支撑;其他诸如最小噪声分离变换[16]、证据权重方法[5]等定量分析方法又过度依赖数据和模型,忽略了一些难以量化的因素.

    机器学习算法因有效避免了对专家的依赖和实施过程中时间损耗的问题,已在众多研究领域开展了一系列的研究,如Miao[17],Peteani[18]在医学领域,以及刘坚[19], 洪浩源[20]在滑坡中应用了机器学习.近年来,考古学领域尝试使用机器学习技术,如De Laet VU将机器学习运用于考古预测[21],Gino[22]则利用更加复杂的卷积神经网络模型,预测了欧亚草原精英墓葬;Alessandr等人[23]利用四种监督分类算法,对巴西中西部进行了考古遗址预测;郭飞[24]利用逻辑回归及改进随机梯度上升法预测了汾河流域龙山文化时期的古遗址;李林芝[25]分别运用了逻辑回归等机器学习,尝试划定了襄阳新石器时代考古遗址空间范围.这些研究都体现了机器学习算法在考古学应用的可行性.XGBoost算法由于在准确性、可解释性、高效性和可扩展性等方面优势凸显,是机器学习在考古遗址预测中的新尝试[2628]

    截至目前,利用机器学习算法构建考古领域预测模型已在国外取得了一定进展,而中国目前相应工作的开展仍显不足.山东省是研究中国古代文明的重要地区,且以新石器时代为代表,该时期不仅是农业起源和发展的重要时期,不仅考古遗存丰富,而且新石器时代文化具有典型性和代表性,如大汶口文化、龙山文化与红山文化、良渚文化共同奠定了中国考古学文化面貌.境内的城子崖遗址、后李遗址等新石器时代遗址,以及同时期的黑陶、彩陶为探寻中华文明的起源、还原历史发展脉络和研究史前文化提供了宝贵依据[2932].这些发现不仅有助于构建完整的史前文化序列,还为探究中华文明多元文化格局提供重要依据.截至目前,山东省考古工作较为成熟,但仍缺乏对考古遗址空间范围的精准识别,且主要侧重于对文化发展谱系的建立和重点分析特定流域的考古聚落布局、结构和演变的聚落考古研究[33],以机器学习技术预测考古遗址并以整个山东省为区域研究和分析较少,且主要依赖空间分析和统计学方法,缺少对该省在新石器时代考古遗址的空间分布格局的精确预测和以及各环境要素的重要性关系研究.因此,分析山东省新石器时代潜在的考古遗址分布区域,明确考古遗址与影响因子的关系,成为亟待解决的问题.同时提高预测模型的精度,摸清境内考古遗址情况,已成为山东省第四次文物普查工作的有效支撑.

    综上所述,本文以山东省为实证研究区,基于新石器时代考古遗址数据,结合地理信息系统(GIS)技术和XGBoost的机器学习算法,构建了考古遗址预测模型.通过GIS技术分析自然环境的影响因素,提取了包括高程、坡度、坡向等定量化的环境数据;利用XGBoost算法的高精度预测能力,对考古遗址进行定量化预测,划定山东省新石器时代考古遗址的分布概率及其潜在空间分布范围.研究不仅展示了GIS技术与XGBoost算法在考古遗址预测中的应用潜力,还为考古学研究和文化资源管理提供了一种新模型.

    山东省处于东部沿海、黄河下游地区,地跨114°48′~122°42′E,34°23′~38°17′N,以平原和丘陵为主.该地区水系发达,河流密集,多分属于淮河、黄河、海河流域(图1).依据地理环境特征和历史文化可将全省分为鲁西北、鲁中、鲁南和胶东四个不同的地理区域,鲁南被誉为海岱地区和中原地区的连接区域,鲁西北是农业的兴起较早的区域,鲁中目前遗址分布最多,胶东三面环海.境内由鲁西北平原,胶东平原和丘陵,鲁中山地,鲁南为丘陵和平原组成,主要以平原、丘陵为主,占全省总面积81%.

    图  1  山东省分区及考古遗址空间分布

    山东省新石器时代考古遗址数量众多,文化遗存丰富,如北辛文化、大汶口文化、龙山文化和岳石文化等形成了独具特色的山东史前文明.其中,新石器时代晚期的大汶口古遗址[3435],入选中国“百年百大考古发现”,具有重要的文化价值[3637]

    考古遗址数据来自中国文物地图集·山东分册(上、下册)[38]、《中国考古学年鉴2019[39]、山东省相关考古发掘报告[4042].其中,《中国文物地图集·山东分册》中的数据为核心,《中国考古学年鉴》和山东省考古发掘报告为补充材料.在数据筛选过程中,剔除了调查不完全和地理位置不明确的遗址,共整理出1916个新石器时代考古遗址(不含墓葬),作为本文的研究考古数据集.

    地理环境具有一定的稳定性,现今的地理特征一定程度上能够反映过去的环境.因此,本文结合前人研究成果,结合数字高程模型(DEM)与收集到的考古遗址数据,分析新石器时代遗址的空间分布,并分析影响考古遗址预测的因素.主要研究数据及相关研究数据来源见表1

    表  1  数据类型及数据来源
    数据名称 数据来源 类型 精度
    考古遗址点 《中国文物地图集·山东分册》(上、下册) [38]、《中国考古学年鉴2019》[39]、考古发掘报告[4042] 文本
    DEM 地理空间数据云 栅格 100 m
    水体 中国科学院资源环境科学数据中心 矢量 1∶20万
    行政区划图 地理国情监测云平台 矢量 1∶20万
    下载: 导出CSV 
    | 显示表格

    新石器时代考古遗址多受自然地理环境的约束.本文筛选地形因素如高程、坡度和坡向.高程对气候、农业和择址均有一定影响,坡度直接影响古人类的通行能力以及防御能力,坡向有助于判别农作物生长的位置;濒水距离是考量河流作为古人类日常活动以及劳作的重要因素.史前古人类难以改造环境,对河流的依赖程度高;微地形特征包括微地貌、坡位、剖面曲率和平面曲率提供了局部的地理环境信息[4345],是对古人类择址的局部区域的描述.影响因子是古人类择址的重要依据,影响遗址空间分布,并为探索史前人地关系的提供了重要窗口.因此,本文选取了8个影响因子:高程、坡度、坡向、坡位、微地貌、平面曲率、剖面曲率和濒水距离[46]图2),预测了山东省新石器时代考古遗址的空间范围.

    图  2  考古遗址影响因子图集

    在ArcGIS 10.4中,首先利用数字高程模型(DEM)数据提取了坡度、坡向、坡位、微地貌、曲率等因子;通过欧式距离工具计算了考古遗址与地表水体之间的距离,以构建濒水距离因子.考虑到本文的研究单元是栅格单元,将所有选取的地理环境因素均转换为与DEM分辨率相匹配的栅格数据(100 m×100 m).由于微地貌、坡位、坡向等变量并非连续型数据,因此进行了重分类处理,得到分类结果(表2).

    表  2  影响因子分类结果
    影响因素 分级标准
    高程/m 1. <50;2.50~100;3.100~200;4.200~500;5.>500
    坡度/° 1.0~3;2.3~5;3.5~7;4.7~10;5.10~15;6.>15
    坡位 1.谷底;2.下坡、悬崖基部;3.平坡;4.中坡;5.上坡、悬崖边缘;6.山脊
    坡向 1.平;2.北;3.东北;4.东;5.东南;6.南;7.西南;8.南;9西北
    微地貌 1.峡谷、深流;2.中坡处水系、浅谷;3.高地水系、水源;4.U 型山谷;5.平原;6.空旷斜坡、脊高;7.上斜坡、台地;
    8.局部山谷中的山脊;9.在平原中坡处山脊,小山;10.山顶,山
    平面曲率 1. <−0.27;2. −0.27~−0.09;3. −0.09~0.11;4. 0.11~0.35;5. 0.35~1.13;6. >1.13
    剖面曲率 1. <−0.43;2. −0.43~−0.16;3. −0.16~0.03;4. 0.03~0.16;5. 0.16~1.25;6. >1.25
    濒水距离/m 1. <500;2. 500~1000;3. 1000~1500;4. 1500~2000;5. 2000~2500;6. 2500~3000;7. >3000
    下载: 导出CSV 
    | 显示表格

    XGBoost(eXtreme Gradient Boosting)是一种梯度提升树算法,基于传统的梯度提升树算法进行了多项优化,通过迭代训练多个决策树并组合起来建立一个强大的集成模型.其核心思想是通过最小化损失函数的负梯度来优化模型[47].决策树是XGBoost的基本构建单元,其工作原理是通过递归地选择最优特征来划分数据集,形成树状结构[48],通过递归的选择最优特征来划分数据集,在每个节点上,评估每个特征对数据集的贡献(如信息增益、基尼不纯度减少等),并选择最优特征将数据进行分割成多个子集.最终的叶节点代表一个决策结果,即数据所属的分类或预测的数值.同时采用诸如学习率缩减、树的深度限制和叶子节点权重的L1、L2正则化等技术[49],通过并行计算和缓存优化提高训练速度.

    在基于XGBoost算法的考古遗址概率预测模型,预测式为:

    $$ \hat {y} = \sum _{k = 1}^{K}{f}_{k} ( {x}_{i} )\text{,} $$ (1)

    式中:$ {f}_{k} $为第k棵决策树;$ {x}_{i} $为第$ i $个样本的特征向量值;$ {f}_{k} $($ {x}_{i} $)为第k棵决策树上第i个样本的预测分数值,即叶子的权重;$ \hat {y} $为k棵决策树的叶子权重之和,也是XGBoost的预测结果.

    叶子权重值表达式为:

    $$ {f}_{t}\left(x\right) = {\omega }_{q\left(x\right)} \text{,} $$ (2)

    式中:ω为叶子的向量,是叶子节点的预测值;q为树的结构,是一个样本到叶子节点的映射.

    正则化惩罚项函数为:

    $$ \Omega {f}_{t} = {\gamma }^{T} + \frac{1}{2} \lambda {\sum }_{j = 1}^{T}{\omega }_{j}^{2} \text{,} $$ (3)

    式中:$ {\gamma }^{T} $为惩罚力度,$ T $为叶子的个数;$ \dfrac{1}{2} $λ$ \displaystyle\sum _{j = 1}^{T}{\omega }_{\mathrm{j}}^{2} $表示正则项;$ {\omega }_{j} $为叶子节点的权重值.

    本文以山东省为研究区域,先对数据进行收集,基于新石器时代考古遗址数据、DEM数据、水体数据和山东省行政区域图.再利用ArcGIS平台选取1 916个已知考古遗址作为正样本,并按1∶1比例随机抽取相同数量的非考古遗址作为负样本;再提取高程、坡度、坡向等自然环境因素.最后利用XGBoost算法对数据进行预测分析(图3).

    图  3  流程

    为了降低数据的离散型,减少不同量纲的影响,对8个影响因素的原始数据的数值进行归一化处理,将数值归1到[0,1]之间,归一化公式为:

    $$ Y = \frac{X-{X}_{\mathrm{m}\mathrm{i}\mathrm{n}}}{{X}_{\mathrm{m}\mathrm{a}\mathrm{x}}-{X}_{\mathrm{m}\mathrm{i}\mathrm{n}}} $$ (4)

    式中:Y为各因素归一化处理后的所得结果;X为各因素的原始数据;$ {X}_{{\mathrm{min}}} $为原始因素的最小值;$ {X}_{{\mathrm{max}}} $原始因素的最大值.

    选取研究区内1 916个考古遗址数据作为正样本,剔除考古遗址500 m缓冲区所在的区域作为潜在的非考古遗址样本,并按照1∶1的比例随机提取1 916个点作为伪缺失点[50],构成包含正样本和伪缺失点的全体数据集,并采用XGBoost算法在python中进行训练.

    先对数据按照7∶3划分训练集和测试集,再通过交叉验证训练XGBoost模型,基于贝叶斯优化的超参数搜索方法,对超参数优化:最大树深、学习率、子样本比例等,并通过循环100次,查找最佳种子数,以优化模型性能.

    考古预测模型所应用的XGBoost算法通过ROC曲线和混淆矩阵的精确率来衡量(接受者操作特性)模型的有效性.混淆矩阵的精确率可以用来衡量模型预测为正类的样本中,实际为正类的比例,表示模型的准确性.AUC(area under the curve)是一种评估模型准确性的指标,通过计算ROC曲线下的面积来评价模型的性能.在正常情况下,ROC的曲线通常位于y = x这条直线的上方,因此AUC的取值范围为0.5~1,值越接近1表示模型性能越好,当<0.5时,表明模型精度较低,没有应用价值.

    将优化后的模型通过测试集进行评估,模型的混淆矩阵的精确率为0.77,F1分数作为精确率和召回率的调和平均数值为0.76,图4为本研究中XGBoost算法的ROC曲线,模型的训练和测试AUC值分别为0.88和 0.85,测试值>0.7,综合各项指标,表明了该模型具有较好的精确性和预测能力.

    图  4  ROC曲线

    将经过训练的XGBoost算法应用于整个研究区域,模拟研究区域内每个栅格概率值,为了更好的表达概率的高低等级,提取了3个分类断点并划分为:低、中、高3个概率区.在选择分段点时,采用Youden指数确定了测试集的最优阈值为0.53,该阈值可使模型在相应范围内最大化真阳性率,同时最小化假阳性率[5152].考虑到考古挖掘的特殊性,为了将预测结果与本研究区实际情况相接近,将较多聚类的考古遗址划分为落入高概率区,无考古遗址划分为低概率区.结合前人研究和多次调整后[24],将>0.55划分为高概率区,0.35~0.55划分为中概率区,<0.35为低概率区,得到山东省新石器时代考古遗址预测概率图(图5).

    图  5  考古遗址预测图

    根据上文得到的山东省新石器时代考古遗址预测概率结果(图5),并统计分析了各概率区间内栅格单元数及对应的考古遗址数量,得到表3

    表  3  考古遗址预测概率分级统计
    结果 级别 栅格数/个 面积比/% 古遗址数/个 古遗址数占比/% 密度/(个·km−2)
    ≤0.35 3 962 412 25.26 247 12.89 0.001 5
    0.35~0.55 8 653 448 55.18 706 36.85 0.004 5
    ≥0.55 3 068 168 19.56 963 50.26 0.006 2
    下载: 导出CSV 
    | 显示表格

    山东省新石器时代古遗址空间概率分布特征明显,高概率区(概率值>55%)主要分布在鲁中、鲁南中部、鲁西南地区,少部分处于胶东地区,占总面积19.56%,考古遗址的密度为0.0062个·km−2,包含50.26%的考古遗址.该区域多围绕鲁中山地附近,考古遗址数量密集.鲁西南的菏泽市与河南省接壤地区分布概率较高,可能是源于中原地区新石器时代文化的影响,该时期不仅经历了裴李岗文化到仰韶文化的演进,区域间的交流促进了遗址在该区域的聚集.因此,考古遗址的分布可视为区域文化交流在地理空间中的体现.

    考古遗址的中概率区(概率值0.35~0.55)占总面积55.18%,范围最广,考古遗址密度为0.0045个·km−2,包含36.85%的考古遗址.中概率区主要分布在山东省鲁西北、鲁中的东部、鲁南西部及胶东西南部平原地区,大部分处于沿海地带,这些区域距离海岸线的距离为3~150 km.新石器时代古人类可能依赖海洋资源,沿海的新石器时代遗址,如龙山文化遗址,显示出明显的海洋资源利用痕迹,间接表明该时期的古人类可能有渔猎、海洋采集等方面活动,进一步证实了中概率区的选址可能受到海洋资源的影响[53]

    考古遗址的低概率区(概率值<0.35)仅占总面积25.26%,考古遗址密度0.0015个·km−2,包含12.89%的考古遗址.该区域主要分布于鲁中的山地、丘陵地带,以及胶东部分丘陵地区,海拔通常较高,且多处于山脊等复杂地形区域,该区域因复杂的地形和自然环境,气候变化较大,不利于史前古人类的农业生产和定居[54],考古遗址在空间分布呈现出较为分散且规模较小的特征.

    低概率区从空间分布来看,多集聚山体周围,说明新石器时代古人类择址的偏好.当然,这并不完全排除遗址存在的可能性,部分低概率区虽然概率较小,但仍可能存在尚未被发现的考古遗址.山地边缘或山谷地带以及境内的高概率区与低概率区接壤部分,在特定条件下仍具有一定的考古潜力,未来可根据考古发掘进一步验证.

    本文利用XGBoost模型得出本研究区域的影响因子的重要性排序,同时利用ArcGIS平台统计坡度、高程、濒水距离与考古遗址的关系,得到重要因子排序从大到小依次为:坡位、微地貌、高程、坡度、坡向、剖面曲率、平面曲率、濒水距离(图6).这表明,新石器时代古人类选址的影响因素与坡位,地貌类型和海拔高度具有显著的相关性.

    图  6  因子重要性排序

    根据统计数据可知(图7),新石器考古遗址多集中分布平坡地区占考古遗址数量的33.6%,其次分布在下坡、中坡等地区,山脊和谷底地区考古遗址分布最少,约占考古遗址的11.7%.这表明新石器时代古人类择址时主要倾向选择地势平缓的平坡,该地区土壤和动植物资源丰富,更适合驯养家畜、家禽和聚居,考古遗址数量众多.中坡、下坡、上坡地区可能有丰富的自然资源,在坡度适中的情况下,古人类既能满足采集和狩猎,又不至于因地势过于陡峭增加活动难度,考古遗址也相对较多.悬崖基部和边缘地区可能提供了天然的防御优势,为古人类聚居提供了安全保障,也分布了部分遗址.谷底通常为河流汇聚地,容易受到洪涝等影响,山脊则因地势过高,容易存在安全隐患,无论是定居或者耕作都增加了古人类的劳动成本.受到新石器时代生产技术的限制,早期的古人类的择址大多受到地理环境的约束.

    图  7  考古遗址的坡位分布

    根据统计数据可知(图8),新石器考古遗址多集中分布平原地区,其余主要分布在U型山谷、高地以及峡谷和靠近水源附近,占考古遗址总数32%,而在平原中坡处山脊和小山区域,考古遗址分布较少.其中平原地区遗址数量占比最多,约为现有总数的18.1%,这表明新石器时代古人类择址时倾向地势平缓区域,这可能是由于平坦的土地便于开垦和种植农作物,能够提供稳定的食物来源.U型山谷地区,地形相对平坦、开阔,在一定程度上具有天然的防御优势,同时狭窄的活动空间促进了古人类更为频繁地交流合作,遗址数量同样较多.峡谷、中坡处水系和浅谷等区域因拥有较为稳定的水源,同样适宜古人类定居.空旷斜坡、脊高、台地和山顶等区域,因其复杂的地理特征和自然资源限制,古人类搭建居所的难度较大,因而考古遗址相对较少.平原中坡处山脊和小山附近,因该区域附近有更为优越的平原地区选择,遗址数量分布最少.

    图  8  考古遗址的微地貌分布图

    山东省考古遗址主要分布在0~200 m的高程范围内的平原地区(图9),该区域是新石器古人类活动频繁区.根据统计可知,考古遗址落在高程<50 m的范围内占比为37.8%;33.4%的考古遗址落入高程为50~100 m的范围内;24.8%的考古遗址落入高程为100~200 m的范围内;只有3.9%的考古遗址落入高程为200~500 m的范围内;且没有考古遗址位于高程>500 m,且随着高程增加,考古遗址数量逐渐减少.总体来说,新石器时代考古遗址主要分布在高程较低的平地区域.这表明该时期的古人类通常选择低海拔平原区域择址,如高程在50 m以内范围,通常为冲积平原,土壤肥沃且深厚,气候温和且降雨充沛,这些优越的自然环境更利于古人类劳动耕作和生活,同时低海拔地区相对开阔,适合形成规模较大的聚落.在50~100 m范围,通常为平原地区,同样适宜古人类聚居.当海拔在100~200 m的平原丘陵地带,地形起伏增加,虽然自然资源相对下降,但在地形上具有一定防御能力,考古遗址数量相对较多.200~500 m范围,通常为山坡和丘陵地带,自然资源进一步下降,但因具有较好的防御功能,考古遗址少且呈现围绕山体周围聚居的特点.而>500 m的山脉区域,地形复杂,难以维持长期的农业生产,几乎没有考古遗址.

    图  9  考古遗址的高程分布图

    模型优势方面:本研究基于GIS技术与XGBoost算法构建考古预测模型,相较于传统考古预测模型,使用的机器学习算法在处理高维数据和非线性关系方面具有显著优势,这一观点通过本文的分析和在巴西塞拉诺波利斯市的地质考古学预测建模中得到了验证[23].模型精度评估方法用于表征模型的利用价值,是构建和使用模型的关键.传统评估方法,如准确度、精确度、召回率和F1分数,虽有应用价值,但受限于数据不平衡、单一阈值依赖、缺乏平衡性和可视化效果差等缺陷.如Kolmogorov-Smirnov统计检测虽然能够识别数据分布的差异,但不适用于所有类型的数据分布,且对于样本量较小的数据集可能不够敏感[5556];同时考古遗址模型中可视化评估工具,有助于全面评估模型的性能.本研究模型中使用的AUC值作为一个综合的评估方法,能够更加全面、客观评估模型的性能.

    考古遗址影响因素识别方面:模型的特征影响因子重要性的识别,对预测结果的准确性至关重要[57],通过对主要影响因子分析,有利于针对性地制定对考古遗址等其他方面的保护政策和措施.相较于传统方法,本文所构建的模型能自动对特征变量进行重要性排序,这有助于识别古人类选址的所考虑主要影响因素,认识其选择居住地址的偏好.本研究还弥补了以往对山东省考古遗址与环境影响因素之间研究的不足,为后续研究提供了基础依据.

    田野考古工作方面:考古遗址预测模型将考古理论和预测模型相结合,在考古学领域中提供了一种更加精确和科学的预测方法,能够为田野考古工作提供支撑,有助于在大范围内快速定位并发现潜在的考古遗址,减少盲目挖掘的成本和时间.XGBoost算法识别得到的山东省新石器时代考古遗址主要影响因子,有助于考古工作者理清自然地理环境对考古遗址的影响,制定更为合理的发掘策略.根据考古遗址预测的范围,建议各地有关部门整合考古资料,促进学术界和政府部门之间的数据共享与合作,有助于模型的准确性和适用性,同时明确考古遗址高概率区的研究范围,加大对该区域的保护,确保文化遗产得到有效保护.

    为了进一步证实研究的准确性,本文选取典型的考古遗址城子崖古遗址作为验证.

    城子崖古遗址是中国古代文明的重要遗存之一,距今约4 100~4 500年,该城址及周围附属聚落点总面积约22万km2[58],文化遗存丰富,城内包含周代城址、岳石文化古城和龙山文化古城,以及陶罐、陶鼎、陶碗等各种黑陶实物,反应了不同历史时期的人类活动和文化特征,这些发现否定了中国文化西来说,证实了中国文化的本土起源.

    通过将该考古遗址数据与XGBoost算法生成的考古预测模型结果图叠加得到了验证图(图10),得到该古遗址位于高概率区,这表明,模型预测较为准确.

    图  10  城子崖遗址考古遗址位置验证

    本文以山东省新石器时代考古数据为基础, 利用GIS和XGBoost机器学习算法构建的考古遗址预测模型,选取8个地理环境影响因子,预测山东省新石器时代考古遗址潜在遗址的空间分布概率,研究主要结论如下:

    1)本文的预测模型在山东省新石器时代考古遗址预测中,测试集AUC值达0.85,预测效果好,验证了该考古预测模型具有较好的稳定性和适用能力.

    2)根据XGBoost因子重要性分析显示,山东省新石器时代坡位、微地貌和高程是古人类择址的重要影响因素.

    3)考古遗址预测的概率在空间上呈现出一定的规律性,考古遗址高概率区主要分布于鲁中、鲁西南和部分胶东地带,且多处于高程在200 m以内的平原地区.

    今后,需补充更多的考古材料和历史文献,以便对现有结论进行更全面的验证.机器学习模型的可解释性问题仍需进一步探讨.未来可结合 SHAP 可解释性机器学习方法,深入探究考古遗址形成的影响机制,从而提供更为细致的理解和指导提高模型的准确性和精度.

  • 图  1   山东省分区及考古遗址空间分布

    图  2   考古遗址影响因子图集

    图  3   流程

    图  4   ROC曲线

    图  5   考古遗址预测图

    图  6   因子重要性排序

    图  7   考古遗址的坡位分布

    图  8   考古遗址的微地貌分布图

    图  9   考古遗址的高程分布图

    图  10   城子崖遗址考古遗址位置验证

    表  1   数据类型及数据来源

    数据名称 数据来源 类型 精度
    考古遗址点 《中国文物地图集·山东分册》(上、下册) [38]、《中国考古学年鉴2019》[39]、考古发掘报告[4042] 文本
    DEM 地理空间数据云 栅格 100 m
    水体 中国科学院资源环境科学数据中心 矢量 1∶20万
    行政区划图 地理国情监测云平台 矢量 1∶20万
    下载: 导出CSV

    表  2   影响因子分类结果

    影响因素 分级标准
    高程/m 1. <50;2.50~100;3.100~200;4.200~500;5.>500
    坡度/° 1.0~3;2.3~5;3.5~7;4.7~10;5.10~15;6.>15
    坡位 1.谷底;2.下坡、悬崖基部;3.平坡;4.中坡;5.上坡、悬崖边缘;6.山脊
    坡向 1.平;2.北;3.东北;4.东;5.东南;6.南;7.西南;8.南;9西北
    微地貌 1.峡谷、深流;2.中坡处水系、浅谷;3.高地水系、水源;4.U 型山谷;5.平原;6.空旷斜坡、脊高;7.上斜坡、台地;
    8.局部山谷中的山脊;9.在平原中坡处山脊,小山;10.山顶,山
    平面曲率 1. <−0.27;2. −0.27~−0.09;3. −0.09~0.11;4. 0.11~0.35;5. 0.35~1.13;6. >1.13
    剖面曲率 1. <−0.43;2. −0.43~−0.16;3. −0.16~0.03;4. 0.03~0.16;5. 0.16~1.25;6. >1.25
    濒水距离/m 1. <500;2. 500~1000;3. 1000~1500;4. 1500~2000;5. 2000~2500;6. 2500~3000;7. >3000
    下载: 导出CSV

    表  3   考古遗址预测概率分级统计

    结果 级别 栅格数/个 面积比/% 古遗址数/个 古遗址数占比/% 密度/(个·km−2)
    ≤0.35 3 962 412 25.26 247 12.89 0.001 5
    0.35~0.55 8 653 448 55.18 706 36.85 0.004 5
    ≥0.55 3 068 168 19.56 963 50.26 0.006 2
    下载: 导出CSV
  • [1] 张海,徐艺菁,周静. 陇东先秦遗址多光谱遥感与遗址预测模型研究[J]. 遥感学报,2021,25(12):2396
    [2] 姜湾,高华光,尚志鸣. 基于RS与GIS结合的喀什地区遗址预测模型构建[J]. 航天返回与遥感,2023,44(1):31 doi: 10.3969/j.issn.1009-8518.2023.01.004
    [3]

    WILLEY G R. Prehistoric settlement patterns in the Virú; Valley,Peru[J/OL]. Bureau of American Ethnology Bulletin1953[2024-11-01]. http://repository.si.edu/xmlui/handle/10088/15450.

    [4]

    KVAMME K,et al. Computer processing techniques for regional modeling of archaeological site locations[C/OL]. 1983[2024-12-13]. https://www.semanticscholar.org/paper/Computer-processing-techniques-for-regional-of-site-Kvamme/826cd4f223dfcd3b318a0a4f380123fff35ee58b.

    [5]

    KOOHPAYMA J,MAKKI M,LENTSCHKE J,et al. Predicting potential locations of ancient settlements using GIS and Weights-Of-Evidence method (case study:North-East of Iran)[J]. Journal of Archaeological Science:Reports,2021,40:103229

    [6]

    ESPA G,BENEDETTI R,DE MEO A,et al. GIS based models and estimation methods for the probability of archaeological site location[J]. Journal of Cultural Heritage,2006,7(3):147 doi: 10.1016/j.culher.2006.06.001

    [7] 倪金生. 山东沭河上游流域考古遗址预测模型[J]. 地理科学进展,2009,28(4):489 doi: 10.11820/dlkxjz.2009.04.002
    [8] 彭淑贞,张伟,陈栋栋. 汶泗流域大汶口文化考古遗址模型预测[J]. 泰山学院学报,2010,32(6):34
    [9] 牛少静,彭淑贞,张伟,等. 山东沂沭河流域龙山文化考古遗址分布与环境的关系[J]. 地域研究与开发,2013,32(6):140
    [10] 刘帅,邹春辉,毛龙江,等. 山东省旧石器-商周时期古遗址时空分布及其与水文地貌的关系[J]. 第四纪研究,2021,41(5):1394
    [11]

    LIESKOVSKý T,DURAČIOVá R,et al. Selected mathematical principles of archaeological predictive models creation and validation in the GIS environment[J]. Interdisciplinaria Archaeologica - Natural Sciences in Archaeology,2013,IV(2/2013):177 doi: 10.24916/iansa.2013.2.4

    [12]

    KAMERMANS H,LEUSEN M V,VERHAGEN P. Archaeological prediction and risk management:alternatives to current practice[M]. Leiden,the Netherlands:Leiden University Press,2009

    [13]

    BALLA A,PAVLOGEORGATOS G,TSIAFAKIS D,et al. Recent advances in archaeological predictive modeling for archaeological research and cultural heritage management[J]. Mediterranean Archaeology and Archaeometry,2014,14(4):143.

    [14]

    STANCIC Z,VELJANOVSKI T. Predictive modeling in archaeological location analysis and archaeological resource management:principles and applications[C/OL]//Mehrer M,Wescott K. CRC Press,2005:393-411[2024-12-13]. http://www.crcnetbase.com/doi/10.1201/9780203563359.ch18

    [15]

    NSANZIYERA A F,RHINANE H,OUJAA A,et al. GIS and remote-sensing application in archaeological site mapping in the awsard area (Morocco)[J]. Geosciences,2018,8(6):207 doi: 10.3390/geosciences8060207

    [16]

    SCHMIDT A,DABAS M,SARRIS A. Dreaming of perfect data:characterizing noise in archaeo-geophysical measurements[J]. Geosciences,2020,10(10):382 doi: 10.3390/geosciences10100382

    [17]

    MIAO J C,WU Y X,SUN Z X,et al. Valid inference for machine learning-assisted genome-wide association studies[J]. Nature Genetics,2024,56(11):2361 doi: 10.1038/s41588-024-01934-0

    [18]

    PETEANI G,HUYNH M T D,GEREBTZOFF G,et al. Application of machine learning models for property prediction to targeted protein degraders[J]. Nature Communications,2024,15(1):5764 doi: 10.1038/s41467-024-49979-3

    [19] 刘坚,李树林,陈涛. 基于优化随机森林模型的滑坡易发性评价[J]. 武汉大学学报(信息科学版),2018,43(7):1085
    [20] 洪浩源,王德生,朱阿兴. 面向机器学习型区域滑坡易发性评价的训练样本采样方法[J]. 地理学报,2024,79(7):1718 doi: 10.11821/dlxb202407006
    [21]

    DAVIS D S. Defining what we study:The contribution of machine automation in archaeological research[J]. Digital Applications in Archaeology and Cultural Heritage,2020,18:e00152 doi: 10.1016/j.daach.2020.e00152

    [22]

    CASPARI G,CRESPO P. Convolutional neural networks for archaeological site detection–Finding “princely” tombs[J]. Journal of Archaeological Science,2019,110:104998 doi: 10.1016/j.jas.2019.104998

    [23]

    PEREIRA A C,CREMON é H,DA SILVA R T,et al. Predictive modeling in geoarchaeology:an evaluation of machine learning algorithms and topographic variables on the Serranópolis City - Brazil[J]. Digital Applications in Archaeology and Cultural Heritage,2024,34:e00350 doi: 10.1016/j.daach.2024.e00350

    [24] 郭飞,于丽君,聂跃平,等. 改进随机梯度上升法在遗址预测中的应用[J]. 遥感信息,2018,33(4):49 doi: 10.3969/j.issn.1000-3177.2018.04.008
    [25]

    LI L Z,LI Y J,CHEN X Y,et al. A prediction study on archaeological sites based on geographical variables and logistic regression:a case study of the neolithic era and the bronze age of Xiangyang[J]. Sustainability,2022,14(23):15675 doi: 10.3390/su142315675

    [26]

    ZHANG W G,WU C Z,TANG L B,et al. Efficient time-variant reliability analysis of Bazimen landslide in the Three Gorges Reservoir Area using XGBoost and LightGBM algorithms[J]. Gondwana Research,2023,123:41 doi: 10.1016/j.gr.2022.10.004

    [27] 康俊锋,黄烈星,张春艳,等. 多机器学习模型下逐小时PM2.5预测及对比分析[J]. 中国环境科学,2020,40(5):1895 doi: 10.3969/j.issn.1000-6923.2020.05.005
    [28]

    CHEN T D,WEI W,JIAO J Y,et al. Machine learning-based identification for the main influencing factors of alluvial fan development in the Lhasa River Basin,Qinghai-Tibet Plateau[J]. Journal of Geographical Sciences,2022,32(8):1557 doi: 10.1007/s11442-022-2010-9

    [29] 钟倩. 李济与城子崖遗址的发掘[J]. 春秋,2023(2):61
    [30] 王永波,王守功,李振光,等. 山东临淄后李遗址第一、二次发掘简报[J]. 考古,1992(11):987
    [31] 霍东峰. 环渤海地区新石器时代考古学文化研究[D]. 长春:吉林大学,2010:7
    [32] 李步青,王锡平. 胶东半岛新石器文化初论[J]. 考古,1988(1):66
    [33] 孙波. 山东地区新石器文化的起源与发展[J]. 大众考古,2018(5):56
    [34] 吕政霖,李晨昊,杜玉菲. 基于GIS的山东史前聚落分布形态与演化研究[J]. 地理科学研究,2021(1):39
    [35] 吕凯,朱超,孙波. 山东泰安市大汶口遗址2012−2013年发掘简报[J]. 考古,2015(10):7
    [36] 卢瑞宇. 海岱地区新石器时代考古学文化研究[D]. 长春:吉林大学,2022
    [37] 高广仁,胡秉华. 山东新石器时代环境考古信息及其与文化的关系[J]. 中原文物,2000(2):4
    [38] 国家文物局主编[★]山东省文物局编制. 中国文物地图集:山东分册[M]. 北京:中国地图出版社,2007
    [39] 中国考古学会. 中国考古学年鉴-2019[M]. 北京:中国社会科学出版社,2021
    [40] 陈雪香,高继习,赵永生,等. 山东菏泽青邱堌堆遗址[J]. 大众考古,2021(10):12
    [41] 王芬,栾丰实,宋艳波. 山东即墨市北阡遗址2007年发掘简报[J]. 考古,2011(11):3
    [42] 王青,陈荣贤,刘灿,等. 山东邹城邾国故城遗址2017年发掘简报[J]. 东南文化,2019(3):37
    [43] 赵晶,冯健,王洋. 西安新石器时代聚落遗址文化重心迁移与环境考古研究[J]. 干旱区资源与环境,2021,35(5):87
    [44] 黄光庆. 珠江三角洲新石器考古文化与古地理环境[J]. 地理学报,1996,51(6):508 doi: 10.11821/xb199606004
    [45] 郭媛媛,莫多闻,毛龙江,等. 山东北部地区聚落遗址时空分布与环境演变的关系[J]. 地理学报,2013,68(4):559 doi: 10.11821/xb201304010
    [46]

    LI L Z,CHEN X Y,SUN D L,et al. A prediction model for Xiangyang Neolithic sites based on a random forest algorithm[J]. Open Geosciences,2023,15(1):20220467 doi: 10.1515/geo-2022-0467

    [47]

    ZHU X,CHU J,WANG K D,et al. Prediction of rockhead using a hybrid N-XGBoost machine learning framework[J]. Journal of Rock Mechanics and Geotechnical Engineering,2021,13(6):1231 doi: 10.1016/j.jrmge.2021.06.012

    [48]

    QUINLAN J R. Induction of decision trees[J]. Machine Learning,1986,1(1):81

    [49]

    ZHANG T. Statistical behavior and consistency of classification methods based on convex risk minimization[J]. The Annals of Statistics,2004,32(1):■

    [50]

    SILLERO N,ARENAS-CASTRO S,ENRIQUEZ‐URZELAI U,et al. Want to model a species niche? A step-by-step guideline on correlative ecological niche modelling[J]. Ecological Modelling,2021,456:109671 doi: 10.1016/j.ecolmodel.2021.109671

    [51]

    LIU C R,WHITE M,NEWELL G. Selecting thresholds for the prediction of species occurrence with presence-only data[J]. Journal of Biogeography,2013,40(4):778 doi: 10.1111/jbi.12058

    [52]

    MDHARRIS. Part 1:Youden's j as a replacement for the kvamme gain metric in the evaluation of archaeological predictive models [EB/OL]. Published:2018-04-16 [2024-12-26]. https://matthewdharris.com/2018/04/16/part-1-youdens-j-as-a-replacement-for-the-kvamme-gain-metric-in-the-evaluation-of-archaeological-predictive-models/.

    [53] 何德亮,毛晓平. 山东新石器时代的自然环镜[J]. 南方文物,2003(4):38 doi: 10.3969/j.issn.1004-6275.2003.04.007
    [54] 姚天,赵强,钱秀红,等. 山东省新石器时代聚落遗址时空分布及驱动因子分析[J]. 济南大学学报(自然科学版),2019,33(6):556
    [55]

    CONOVER W J. Practical nonparametric statistics / by W. J. Conover[M/OL]. Practical nonparametric statistics / by W. J. Conover,1980[2024-12-27]. http://library.um.ac.id/free-contents/index.php/buku/detail/practical-nonparametric-statistics-by-w-j-conover-13670.html.

    [56]

    GHASEMI A,ZAHEDIASL S. Normality tests for statistical analysis:a guide for non-statisticians[J]. International Journal of Endocrinology and Metabolism,2012,10(2):486 doi: 10.5812/ijem.3505

    [57]

    VERHAGEN P,WHITLEY T G. Integrating archaeological theory and predictive modeling:a live report from the scene[J]. Journal of Archaeological Method and Theory,2012,19(1):49 doi: 10.1007/s10816-011-9102-7

    [58] 朱超,孙波,吕凯,等. 济南市章丘区城子崖遗址2013−2015年发掘简报[J]. 考古,2019(4):3
图(10)  /  表(3)
计量
  • 文章访问数:  64
  • HTML全文浏览量:  15
  • PDF下载量:  19
  • 被引次数: 0
出版历程
  • 收稿日期:  2024-11-14
  • 录用日期:  2024-11-14
  • 网络出版日期:  2025-02-23

目录

/

返回文章
返回
x 关闭 永久关闭