掌桥专利:专业的专利平台
掌桥专利
首页

一种基于RS-XGBoost的隧道超前钻探定量解译方法及设备

文献发布时间:2023-06-19 12:24:27


一种基于RS-XGBoost的隧道超前钻探定量解译方法及设备

技术领域

本发明涉及隧道工程领域,特别是一种基于RS-XGBoost的隧道超前钻探定量解译方法及设备。

背景技术

进入21世纪以来,伴随着我国交通运输行业的高速发展,公路隧道的建设规模也日益庞大。根据数据统计,截至2020年底,全国公路隧道21316处、2199.93万延米,其中特长隧道1394处、623.55万延米,长隧道5541处、963.32万米,已成为目前世界上公路隧道规模最大、数量最多、发展速度最快的国家。在隧道整体建设逐渐向大埋深、长洞线方向转变的过程中,选址远、高应力、强岩溶、高水压、构造复杂等特点也逐步凸显,各类不良地质体造成当前隧道施工阶段灾害频发。

超前地质预报作为探明隧道地质条件,进而确保隧道施工安全的重要技术手段一直是隧道建设发展的研究重点。目前传统的超前地质预报方法主要包括地质雷达、地震波、红外探测等各类物探方法和超前钻探法,各种方法在操作便捷性、占用掌子面时间、预报准确率等方面的各具优势,具体如表1所示:

表1隧道常用超前地质预报方法

由表1可以看出,就隧道超前不良地质体的识别方面,常规的物探方法均存在一定的局限性,而超前钻探法通过对掌子面前方围岩进行钻进(即通过隧道打孔机对待挖掘隧道进行采样),能最直观的反映掌子面前方的真实地质信息。但目前研究的钻探数据解译工作主要依赖技术人员结合现场实际钻进情况进行开展,虽然钻机搭载的随钻测量系统可实时记录并提供各项钻进参数,但只是作为解译参考,并未被充分利用。该种解译方式未跳脱经验判断的范畴,较为粗糙,是一种"伪定量"解译。

随着大数据、计算机技术等信息化技术的发展,机器学习的理念已逐步渗入各个领域,为数据分析提供了新的思路。近些年开始有研究者将机器学习的方法引入到隧道超前地质预报中以用于定量解译,已分别在地质雷达、TSP中取得了一定的成果。

但现有研究仍然普遍存在两个问题:一是大多以围岩等级或地层属性作为预测结果,因为目前常用的围岩等级是一个比较大的概念,不同的不良地质体、不同的地层岩性都可能是同一个围岩等级,且围岩等级基本是在隧道设计阶段就定好的,导致经常与现场实际开挖情况不一致,虽然预测准确度较高,但对于隧道施工指导意义作用有限;二是传统的机器学习模型超参数较少,人工调参基本可以满足需求,但准确率低;现有XGBoost模型理论性能优异,准确率高,但需要调节的超参数众多,人工调参无法充分发挥模型性能。

发明内容

本发明的目的在于克服现有技术中所存在的上述不足,提供一种基于RS-XGBoost的隧道超前钻探定量解译方法。

为了实现上述发明目的,本发明提供了以下技术方案:

一种基于RS-XGBoost的隧道超前钻探定量解译方法,包括:

S1:对待挖掘隧道进行随机采样,获取待挖掘隧道的钻探数据并进行初步处理;所述钻探数据包括钻进速度、推进力、扭矩与旋转速度;

S2:将初步处理后的钻探数据输入到预先搭建的RS-XGBoost模型进行定量解译,并输出定量解译结果,所述定量解译结果包括较完整~较破碎、破碎~极破碎和软泥填充;

其中,所述RS-XGBoost模型是通过RS算法对XGBoost模型训练优化后得到的模型。本发明通过结合XGBoost机器学习模型强大的非线性数据分析性能以及RS随机搜索高效的超参数寻优能力,构建RS-XGBoost隧道超前钻探不良地质体定量解译模型,并高效的搜寻出能够充分发挥XGBoost模型性能的超参数组合,进而在保证了隧道不良地质体识别与分类的准确度的前提下大大降低了模型建立的难度,也避开了人工调参的不良影响;同时提出以不良地质体类型作为机器学习模型解译结果,以对隧道较为常见、危害性较强的三类不良地质体(较完整~较破碎、破碎~极破碎、软泥填充)作为定量智能解译结果,并根据解译结果及时调整开挖方式及支护措施,进而指导隧道现场施工。即本发明涉及的不良地质体类型是一个确定的概念,更加适合现场施工,指导作用更强。

作为本发明的优选方案,当所述定量解译结果为软泥填充时,进行进一步划分:

相邻解译单元解译出软泥填充时输出为泥质填充溶洞;

相邻解译单元未解译出软泥填充时输出为软弱夹层;

其中,所述解译单元为定量解译时的基础单位。本发明通过将软泥填充进一步划分为软弱夹层和泥质填充溶洞,告诉现场施工人员前方有软泥填充的岩体,是存在软弱夹层还是有溶洞,更加适合现场施工,指导作用更强。

作为本发明的优选方案,所述RS-XGBoost模型的搭建包括以下步骤:

S21:录入样本数据并进行标注,构成标注样本数据;所述标注为所述样本数据对应的定量解译结果;

其中,所述样本数据包括若干条地质数据,每条所述地质数据包括若干项定量指标,所述定量指标包括深度、钻进速度、稳压、切削力、推进力、扭矩和/或旋转速度;

S22:对所述标注样本数据进行预处理;

S23:将预处理后的标注样本数据输入XGBoost模型,并通过RS算法对所述XGBoost模型进行模型训练,输出RS-XGBoost模型。

作为本发明的优选方案,所述步骤S23中模型训练具体包括以下步骤:

S231:设置所述XGBoost模型中超参数的取值范围;

S232:将预处理后的标注样本数据输入XGBoost模型,在所述取值范围内通过随机搜索算法对所述XGBoost模型进行超参数寻优,并获取模型性能评价指标值及对应的超参数;

S233:当寻优次数小于预设值时,返回步骤S231;当寻优次数大于或等于预设值时,进入步骤S234;

S234:从所述模型性能评价指标值中选出模型性能评价指标值最高的值,并将模型性能评价指标值最高的值对应的超参数作为所述XGBoost模型的优选超参数。本发明通过RS算法进行自动寻优,并在预设寻优次数后,从中选取模型性能评价指标值最高的模型作为输出,进而在减少了模型训练调整的难度的同时极大的保证了模型的准确度。

作为本发明的优选方案,步骤S231中所述超参数包括弱评估器数量、最大深度、学习率、样本权重与随机抽样样本比例。

作为本发明的优选方案,在所述步骤S21中对所述定量指标进行相关性分析,得到优选定量指标;所述优选定量指标包括钻进速度、推进力、扭矩与旋转速度。本发明通过对定量指标的数据进行相关性分析,去除了所述样本数据中相关性较高的定量指标,在不影响模型准确度的前提下极大的降低了模型训练的计算量,进而也极大的减少了模型训练的时间成本。

作为本发明的优选方案,所述步骤S22中的预处理包括以下步骤:

a:通过删除所述标注样本数据中的上升段数据进行数据降噪,所述上升段数据为超前钻探的钻机未达到稳定状态时采集的数据;

b:遍历降噪后标注样本数据的缺失值,并通过所述缺失值对应指标数据的均值对所述缺失值进行填充,得到降噪补缺后的数据;

c:以预设的分割间距将降噪补缺后的数据等距分割为若干段落;

d:计算等距分割后每个段落中各个优选定量指标的二级指标;其中,所述二级指标包括各个优选定量指标的均值与方差;

e:采用标准差法对所述二级指标进行数据标准化。本发明通过在预处理时剔除无解译价值的上升段数据以及填充了稳定段中的缺失数据,提高了数据质量;并通过数据分割步骤,在保证了预测准确度的前提下,避免了用隧道“面”解译结果推定隧道“段”真实结果的情况,使后续输出结果更加直观可靠;同时本发明通过计算二级指标,准确反映了各类不良地质体在各个段落内的数据特征,为后续计算提供了良好的数据基础。

作为本发明的优选方案,所述步骤c中预设的所述分割间距为[0.5m,1.5m]。本发明通过将分割间距设置为[0.5m,1.5m],在保证了预测准确度的前提下尽可能的提升了本发明的预测精度。

作为本发明的优选方案,去除相关性低的所述二级指标,得到优选的二级指标为:钻进速度均值、钻进速度方差、推进力均值、扭矩均值、扭矩方差与旋转速度均值。

一种基于RS-XGBoost的隧道超前钻探定量解译设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述中任一项所述的方法。

与现有技术相比,本发明的有益效果:

1.本发明通过结合XGBoost机器学习模型强大的非线性数据分析性能以及RS随机搜索高效的超参数寻优能力,构建RS-XGBoost隧道超前钻探不良地质体定量解译模型,并高效的搜寻出能够充分发挥XGBoost模型性能的超参数组合,进而在保证了隧道不良地质体识别与分类的准确度的前提下大大降低了模型建立的难度,也避开了人工调参的不良影响;以对隧道较为常见、危害性较强的三类不良地质体(较完整~较破碎、破碎~极破碎、软泥填充)作为定量智能解译结果,并根据解译结果及时调整开挖方式及支护措施,进而指导隧道现场施工。即本发明涉及的不良地质体类型是一个确定的概念,更加适合现场施工,指导作用更强。

2.本发明通过将软泥填充进一步划分为软弱夹层和泥质填充溶洞,告诉现场施工人员前方有软泥填充的岩体,是存在软弱夹层还是有溶洞,更加适合现场施工,指导作用更强。

3.本发明通过RS算法进行自动寻优,并在预设寻优次数后,从中选取模型性能评价指标值最高的模型作为输出,进而在减少了模型训练调整的难度的同时极大的保证了模型的准确度。

4.本发明通过对定量指标的数据进行相关性分析,去除了所述样本数据中相关性较高的定量指标,在不影响模型准确度的前提下极大的降低了模型训练的计算量,进而也极大的减少了模型训练的时间成本。

5.本发明通过在预处理时剔除无解译价值的上升段数据以及填充了稳定段中的缺失数据,提高了数据质量;并通过数据分割步骤,在保证了预测准确度的前提下,避免了用隧道“面”解译结果推定隧道“段”真实结果的情况,使后续输出结果更加直观可靠;同时本发明通过计算二级指标,准确反映了各类不良地质体在各个段落内的数据特征,为后续计算提供了良好的数据基础。

6.本发明通过将分割间距设置为0.5m,在保证了预测准确度的前提下尽可能的提升了本发明的预测精度。

附图说明

图1为本发明实施例1所述的一种基于RS-XGBoost的隧道超前钻探定量解译方法的流程示意图;

图2为本发明实施例1所述的一种基于RS-XGBoost的隧道超前钻探定量解译方法的超前钻探地质预报流程图;

图3为本发明实施例1所述的一种基于RS-XGBoost的隧道超前钻探定量解译方法的中四类不良地质体示意图;

图4为本发明实施例1所述的一种基于RS-XGBoost的隧道超前钻探定量解译方法的钻探定量指标相关性热力图;

图5为本发明实施例1所述的一种基于RS-XGBoost的隧道超前钻探定量解译方法中钻进速度均值的分布散点图;

图6为本发明实施例1所述的一种基于RS-XGBoost的隧道超前钻探定量解译方法中扭矩均值的分布散点图;

图7为本发明实施例1所述的一种基于RS-XGBoost的隧道超前钻探定量解译方法中钻进速度方差的分布散点图;

图8为本发明实施例1所述的一种基于RS-XGBoost的隧道超前钻探定量解译方法中旋转速度方差的分布散点图;

图9为本发明实施例1所述的一种基于RS-XGBoost的隧道超前钻探定量解译方法中推进力均值的分布散点图;

图10为本发明实施例1所述的一种基于RS-XGBoost的隧道超前钻探定量解译方法中旋转速度均值的分布散点图;

图11为本发明实施例1所述的一种基于RS-XGBoost的隧道超前钻探定量解译方法中推进力方差的分布散点图;

图12为本发明实施例1所述的一种基于RS-XGBoost的隧道超前钻探定量解译方法中扭矩方差的分布散点图;

图13为本发明实施例1所述的一种基于RS-XGBoost的隧道超前钻探定量解译方法中XGBoost模型分类预测示意图;

图14为本发明实施例1所述的一种基于RS-XGBoost的隧道超前钻探定量解译方法中GS与RS寻参示意图;

图15为本发明实施例1所述的一种基于RS-XGBoost的隧道超前钻探定量解译方法中RS-XGBoost不良地质体预测模型流程图;

图16为本发明实施例1所述的一种基于RS-XGBoost的隧道超前钻探定量解译方法中预测集预测标签分布图;

图17为本发明实施例2所述的一种基于RS-XGBoost的隧道超前钻探定量解译方法中YK73+506~YK73+491钻探数据图;

图18为本发明实施例2所述的一种基于RS-XGBoost的隧道超前钻探定量解译方法中ZK73+570~ZK73+560钻探数据图;

图19为本发明实施例3所述的一种基于RS-XGBoost的隧道超前钻探定量解译设备的结构示意图。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。

实施例1

一种基于RS-XGBoost的隧道超前钻探定量解译方法,包括:

S1:通过超前钻探技术对待挖掘隧道进行随机采样,获取待挖掘隧道的钻探数据并进行初步处理;所述钻探数据包括钻进速度、推进力、扭矩与旋转速度四项定量指标;所述初步处理包括:

a:通过删除上升段数据对输入数据进行数据降噪,所述上升段数据超前钻探的钻机未达到稳定状态时采集的数据,优选为0~0.5m的数据;

b:遍历输入数据中的缺失值,并通过所述缺失值对应指标数据的均值对所述缺失值进行填充;

c:以预设的分割间距将降噪补缺后的所述输入数据等距分割为若干段落;

d:计算等距分割后每个段落中各个定量指标的二级指标;其中,所述二级指标包括各个定量指标的均值与方差;

e:采用标准差法对所述二级指标进行数据标准化。

S2:将初步处理后的钻探数据输入到预先搭建的RS-XGBoost模型进行定量解译,并输出定量解译结果,所述定量解译结果包括较完整~较破碎、破碎~极破碎和软泥填充;

当所述定量解译结果为软泥填充时,进行进一步划分:

相邻解译单元解译出软泥填充时输出为泥质填充溶洞;相邻解译单元未解译出软泥填充时输出为软弱夹层;所述解译单元为定量解译时的基础单位。

在解译出四种不良地质体后,施工方可根据解译报告,对各不良地质体段落进行围岩等级划分,在各等级围岩前期所制定的开挖与支护措施基础上,可提前准备如下的支护加强措施:

(1)当定量解译结果为较完整~较破碎与破碎~极破碎时,解译后优选的施工步骤如下:

①施作超前及径向注浆小导管:开挖前在掌子面周边及开挖后的围岩径向按一定角度将小导管打入地层中,借助注浆泵的压力使浆液通过小导管渗透,扩散到地层空隙或裂隙终,以改善岩体的破碎程度,提高岩体的物理力学性能。

②及时初喷:破碎岩体开挖后极易发生掉块以及塌方,应注意及时初喷。

(2)当定量解译结果为软弱夹层时,解译后优选的施工步骤如下:

①短进尺开挖:减小围岩暴露面积,缩短围岩暴露实践,避免坍塌,应采取短进尺进行开挖。

②减弱爆破强度:严格控制炮眼装药量,采用光面爆破,周边眼间距控制在30~40cm,光面层厚度控制在65~70cm左右。

(3)当定量解译结果为泥质填充溶洞时,解译后优选的施工步骤如下:

①采用分部开挖:当溶洞出现在隧道一侧,应先开挖该侧,待初期支护完成后再开挖另一侧。

②严格控制开挖循环长度,每循环炮眼钻孔宜多打眼、打浅眼,且控制爆破振动。

③溶洞揭露后,进一步勘察溶洞规模、溶腔大小等信息,根据现场情况采取下一步措施。

所述RS-XGBoost模型包括以下搭建流程:

S21:输入标注后的样本数据;

S211:数据来源

本次模型建立采用某隧道的样本数据,为分离式隧道,隧道总体由北至南先后穿越南北向的沟谷和东西向的岩溶石峰,左线起迄里程ZK72+040~ZK73+660,隧道长度1620m;右线起迄里程YK72+060~YK73+660,隧道长度1600m,设计路面高程250~280m,均为长大隧道。隧道工程地质条件较为复杂,围岩等级主要为Ⅳ~Ⅴ级,为中风化~强风化砂岩夹泥岩,溶洞发育且多为泥质填充。

现场使用Casagrande的C6-2型多功能履带式钻机进行超前钻探作业并基于钻探数据及现场情况进行地质预报,如图2所示。根据前期已积累的超前钻探地质预报数据进行样本数据的收集,共收集地质数据8893条,隧道长度累计约160米,涉及到的数据标签包括较完整~较破碎岩体、破碎~极破碎岩体及软泥填充(较完整~较破碎、破碎~极破碎是岩石完整程度的定性评价指标,其对应的定量指标是K

S212:钻探数据结构及特点

在超前钻探过程中,系统随进尺变化进行随机采样,每米采集样本数据约50条,所述样本数据包括若干条地质数据,每条所述地质数据共包括七项定量指标,分别为深度(Depth)、钻进速度(Drillingrate)、稳压(Retainingpressure)、切削力(Toolforce)、推进力(Thrust pressure)、扭矩(Torque)与旋转速度(Rotation)。通过对样本数据进行结构分析,其主要具备以下三个特点:

(1)采样阶段性:采样过程整体具有较强的连续性,同时呈现出明显阶段划分,及钻探采样开始的上升段及采样过程中的稳定段,其中上升段通常集中在0~0.5m的进尺范围内,具体参数意义涉及空钻及初喷混凝土钻探,对不良地质体的定量解译无参考意义。

(2)数据非线性:定量指标呈现较为明显的非线性相关。

(3)离散程度大:钻进速度、扭矩与旋转速度指标的具体采样参数都表现出了较大的离散性,具体的离散程度与不同不良地质体的钻探密切相关。

S213:一级指标相关性分析

除了定性对数据进行特点分析,定量的指标相关性分析也必不可少。为了提高训练集数据质量,降低数据分析维度,提高模型准确率,需要对钻探过程中涉及到的定量指标进行相关性分析,以探明各指标之间的相关性并去除相关性较高的指标。

本方法通过运用Scikit-learn中的pandas及matplotlib库,将收集到的原始样本数据导入后,对七项一级指标进行相关性分析,结果如下图4所示。

根据图4的内容,可以解读出,深度(Depth)与稳压(Retaining pressure)、钻进速度(Drillingrate)与切削力(Tool force)具有较高的相关性,相关性系数分别为0.89(正相关)与-0.54(负相关)。同时考虑到深度取值本身对不良地质体类别的解译无意义,最后为降低模型训练时间成本,同时参考相关文献,剔除深度、稳压与切削力,以钻进速度、推进力、扭矩与旋转速度四项作为钻探定量解译的一级指标。

S22:对标注样本数据进行预处理;

S221:数据降噪:根据钻机的作业情况与定量数据特征,可将钻探一个完整的循环段具体分为上升段和稳定段,上升段由于钻机未达到稳定状态,其钻进数据通常视作无意义,该段的深度范围通常为0~0.5m。因此本方法在数据分割前需要剔除上升段数据,通过将标注样本数据中的上升段(0~0.5m)数据剔除,达到数据降噪的目的。

S222:缺失值填充:在钻探系统对指标定量数据进行采集时,有时会因为机手的操作导致个别指标的数据少量缺失,针对这种数据缺失的情况,采用Scikit-learn中的impute.SimpleImputer模块进行缺失值的填充,具体选取参数为“strategy”中输入“mean”,即采用训练集中该指标数据的均值进行填充,以确保该训练集标注样本数据的完整性。

S223:数据等距分割:为了避免出现用隧道“面”解译结果推定隧道一“段”区间内真实情况的错误,采用数据等距分割的方式将训练集标注样本数据分割为若干段落,并以分割好的段落为单位进行二级指标的挖掘与计算。

数据等距分割:完成数据降噪与缺失值填充后,进行标注样本数据的等距分割,数据分割间距d定为0.5m,原因主要为以下两点:

①当分割间距d<0.5m,分割间距过小,钻机在作业过程中,由于机械系统及机手操作的原因,会不可避免的导致样本数据比实际数据偏高或偏低,且无法通过降噪进行剔除,分割间距过小会增加对这些异常数据的考虑权重,导致预测结果与实际不符;

②当分割间距d>0.5m,分割间距过大,在工程地质条件较为复杂的隧道中,围岩情况常常在1m或更大距离的范围内发生改变,如较破碎过渡到破碎甚至极破碎,过大的分割间距会造成忽略该分割间距内占比低于50%的不良地质体,导致预测结果与实际不符。

S224:二级指标计算:

在完成数据分割后,为了深度挖掘钻进数据所对应的各类不良地质体的数据特征及规律,对指标各自分割段落内的数据进行二次计算,形成二级指标作为机器学习模型训练集的指标体系。通过对标注样本数据的特征进行分析,本发明确定选取均值与方差作为二级指标:

(1)均值:不同不良地质体的数字钻进数据都存在一定的取值范围,均值是该取值范围的重要体现,且通过取均值的方式可以降低分割间距内异常数据对整体真实数据的影响,从而提高预测结果的准确率。

均值

式中,n为样本个数,x

(2)方差:钻探数据受围岩、机械等客观因素影响,都会在采样过程中出现不同程度的振幅,即离散程度,该离散程度在各类不良地质体中表现得尤为突出,如较完整围岩的样本数据相较于均值离散程度小,破碎围岩的样本数据相较于均值离散程度大,通过取方差的方式可以较为科学合理的反映各类不良地质体的样本数据离散程度,从而提高预测结果的准确率。

方差

在对某隧道进行钻探的过程中,所收集的8893条原始钻探样本数据经过等距分割与二级指标计算后,形成的机器学习模型训练集共有数据324条,其中较完整~较破碎有116条,占比35.80%,破碎~极破碎有107条,占比33.03%,软泥填充有101条,占比31.17%,三类不良地质体各自占比基本均衡。同时,为使机器学习模型准确对各类不良地质体进行解译判别,需要对数据集分类标签进行设置并编码。按照较完整~较破碎、破碎~极破碎与软泥填充的顺序将标签依次编码为“0”、“1”、“2”。具体训练集数据见表2所示。

表2超前钻探数据训练集

S225:数据标准化

机器模型训练集中数据取值范围的巨大差距往往会对模型预测效果产生影响,为了避免这种情况的发生,通常需要进行数据标准化。当数据(x)按均值(μ)中心化后,再按标准差(σ)缩放,数据就会服从为均值为0,方差为1的正态分布(即标准正态分布),这个过程就叫做数据标准化,公式(3)所示:

x

在Scikit-learn中,使用preprocessing.StandardScaler来实现这个功能。同时,为了验证0.5m作为等距分割间距的科学性与合理性,并对数据集指标进行进一步的筛选与降维,选取训练集数据中三类不良地质体各100条数据绘制散点图进行分析说明,结果如图5-图12所示。

由图5-图12可以看出,三类不良地质体的四项指标均值表现出不同程度的聚类现象,其中以钻进速度均值、推进力均值及扭矩均值最为明显。在四项指标的方差方面,钻进速度方差与扭矩方差分别在破碎~极破碎围岩及较完整~较破碎围岩上体现出了一定程度的区分,说明通过0.5m等距分割后计算均值与方差两个二级指标较为有效的对所需要解译的三类不良地质体进行分类。但同时推进力方差与旋转速度方差数据重叠度较高,为优化训练集数据质量,提高机器模型对各类不良地质体的预测准确率,将推进力方差与旋转速度方差两项训练集指标剔除。

下表为本发明通过多次实验获取的选用不同分割间距以及指标体系进行训练时,预测模型的准确度(ACC):

表3分割间距优选方案

ACC(准确率)=(TP+TN)/(TP+TN+FP+FN),

式中:TP=正例预测正确的个数,FP=负例预测错误的个数,TN=负例预测正确的个数,FN=正例预测错误的个数。

根据表3可知,以0.5m为分割间距,同时以筛选后二级指标(6)作为指挥体系时准确度最高,故本发明选择该方案进行计算。

本发明预处理步骤是针对超前钻探数据特征进行的数据处理手段,目的是为了将不同不良地质体类型进行有效区分。超前钻探样本数据可视化后可以明显发现,不同不良地质体的数据都具有明显的离散性,若直接以原始采集点(断面)为单位导入机器学习模型,必然导致分类准确率降低。因此,原有的一级指标及样本采集单位不适用,应该形成新的样本单位与根据一级指标所创造的二级指标。为了达到这个目的,首先将降噪后的,由四个一级指标组成的,不同不良地质体的样本数据以0.5m进行等距分割,以段落为样本单位代替之前的以断面(采集点)为样本单位。之后,计算每个指标在各0.5m范围内的自身的均值和方差(理由在前期资料已叙述)作为二级指标,将所有计算出的二级指标收集组成训练集。为了说明这样做的效果,绘制了8张散点图,有效证明了该种数据处理方式可以有效的对不同不良地质体类型进行区分,这位机器学习模型的训练与学习提供了质量极高的数据集,为高效区分各类不良地质体创造了条件。

S23:搭建RS-XGBoost模型:

①XGBoost模型概述及原理:

XGBoost模型本质上是一种基于梯度提升决策树的改进算法,它可以有效地构建增强树并且并行运行,该模型的具备计算复杂度低、运行速度快、准确度高等特点。其中目标函数Obj

目标函数如公式(4)所示:

式中:n表示导入第k棵树的数据总量,第一项代表传统的损失函数,衡量真实标签y

Ω(f

式中:γ、λ表示模型复杂度的系数,T表示模型决策树叶子节点个数。

为了求解目标函数,可以使用泰勒展开对式(4)进行运算,结果如式(6)所示:

同时,定义公式(7):

将公式(7)代入公式(6),得到Obj

以上述公式为原理,XGBoost模型的分类预测示意图如图13所示。

②RS超参数快速寻优

调节模型超参数取值,以提高模型性能是机器学习极为重要的一环,人为调参伴随着超参数数量的增加,很难找到最佳的超参数组合,因此需要借助自动超参数寻优工具。目前,常用的自动调参主要有网格搜索(Grid Search CV,GS)和随机搜索(RandomizedSearch CV,RS)两种。二者简单示意如图14所示。

图中,绿色曲线为g(x),黄色曲线为h(y),目标函数为f(x,y)=g(x)+h(y),求f(x,y)

左图为网格搜索,其原理是在参数空间内进行遍历,直至找出最佳的超参数组合,右图为随机搜索,两个图都在划定的参数空间内进行了9次搜索。根据f(x,y)=g(x)+h(y)≈g(x),左图实际探索了3个点,f(x,y)

在随机搜索和网格搜索中,所有影响模型的参数都是同时搜索,且二者探索的是完全相同的参数空间,参数设置的结果非常相似。但限于网格搜索的运行机制,当超参数个数大于三个且搜索精度较高时,运行成本将指数提高,此时综合搜索效果与运行时间双重因素,随机搜索会是更佳的选择。

③RS-XGBoost模型性能评估:

综合集成算法、弱评估器及其它运行过程,XGBoost模型可供调节的超参数超过20个,根据重要程度,选取其中的n_estimators(弱评估器数量)、max_depth(最大深度)、learning_rate(学习率)、min_child_weight(样本权重)与subsample(随机抽样样本比例)。首先根据随机搜索搜索算法的规则,结合XGBoost算法特点,划定网格搜索空间,即各超参数的取值范围及搜索精度。在超参数寻优过程中,以Accuray(准确率)为评估指标不断的调整网格搜索空间,最终得到最优参数组合,并带入XGBoost算法模型提高预测性能。

RS-XGBoost模型流程示意如图15所示,调整RS超参数组合寻优的思路,调整后的流程为利用RS进行寻优时,每一次寻优都对搜索网格进行人为调整,寻优次数一直循环到第十次(十次基本已经可以找到各个网格空间下的最优超参数组合,本次寻优次数设置为十),第十次后循环终止。由于每次寻优RS都会生成一个模型性能评价指标gard.best_score,因此只需要确定这十次寻优过程中的gard.best_score最大值,就可以确定最优超参数组合。

其中,本发明所述XGBoost模型利用RS进行寻优时也可根据需要,为了能够达到预设的准确度而为寻优过程设置结束条件。该方案可应用于对精确度要求较低且需要减少模型训练的情形,也可运用于对精确度有明确要求的情形。

根据XGBoost模型超参数取值的特点,选取XGBoost模型中常用的五项超参数(n_estimators、max_depth、learning_rate、min_child_weight与subsample)选取用于运算的超参数组合优选方案,每个所述优选方案的准确度如表4所示。

表4超参数组合优选方案

本发明为提高准确率,选择准确率最高的方案,即选择n_estimators、max_depth、learning_rate、min_child_weight与subsample五项超参数的方案,此时所构建的网格搜索空间依次为(10,100,1)、(5,10,1)、(0.1,1,0.1)、(0.1,1,0.1)与(0.1,1,0.1),其中括号内前两个值为超参数的搜索范围,第三个值为搜索精度。此外,在每次搜索后还设置5折交叉验证,以确保所选取超参数组合的真实性和有效性。将训练集划分为学习集70%,预测集30%,最终模型准确率为97.8%,预测情况如图16所示(所述训练集的划分比例根据实际需要设置,所述学习集用于训练模型,所述预测集用于检验模型准确率)。

为了评估XGBoost模型性能,将XGBoost模型与其他模型在默认超参数取值状态下的模型性能进行了对比。其最终结果如表5所示。

表5 XGBoost模型与其他模型的效果对比表(模型默认不调参)

其中:DT为决策树(Decision Tree);RF为随机森林(Random Forest);SVM为支持向量机(SupportVector Machine);ANN为人工神经网络(Artificial Neural Network)。

Accuracy(准确率)=(TP+TN)/(TP+TN+FP+FN);

Precision(精确率)=TP/(TP+FP);

Recall(召回率)=TP/(TP+FN);

F1-Score(F值)=(2×Precision×Recall)/(Precision+Recall);TP、TN、FP以及FN说明如表6所示:

表6 TP、TN、FP以及FN说明

同时,为了评估RS-XGBoost模型性能,在构建网格搜索空间进行随机搜索寻优后,还对GS在此搜索空间下的寻优结果,以及XGBoost默认超参数取值状态下的模型性能进行了对比。最终结果如表7所示。

表7 RS-XGBoost模型性能评估表

注:上述模型运行环境为Win 10系统、Intel(R)i7-6700HQ CPU@2.6GHz、16 GBRAM,编辑器为JupyterLab,基于Python 3.8,所述XGBoost模型的超参数取值为模型默认取值,所述GS-XGBoost模型以及所述RS-XGBoost模型的超参数取值分别为通过GS算法和RS算法寻优后的取值。

通过表3可以看出,RS-XGBoost模型的准确率最高,为97.8%,此时的超参数组合按照n_estimators、max_depth、learning_rate、min_child_weight与subsample的顺序为(68,7,0.75,0.3,0.55),GS-XGBoost的准确率与之较为接近,为96.6%,XGBoost模型默认超参数取值情况下准确率最低,仅为92%。同时,在运行时间方面,GS-XGBoost运行时间高达1347秒,大幅多余其它两种模型。综合准确率与运行时间,GS-XGBoost模型性能最佳。

实施例2

本实施例为采用实施例1建立模型进行实际预测的实例。为了对RS-XGBoost隧道不良地质体预测模型在超前钻探地质预报中的实际解译效果进行检验,本实施例选取依托工程某隧道中具有代表性的两个预报实例进行说明,通过对比预报中人工解译结论与实际开挖结果,验证该模型的合理性与实用性。需要说明的是,在解译过程中,标签“2”(软泥填充)在“0”(较完整~较破碎)与“1”(破碎~及破碎)中独立,可解译为“软弱夹层”,连续出现则可解译为“软泥充填型溶洞”。

①工程实例A

选取某隧道YK73+506~YK73+491段共15米作为验证样本。该段在超前钻探地质预报报告中的解译结果为:5~6m疑似软泥充填型溶洞,6~14m围岩较完整~较破碎,14~20m疑似软泥充填型溶洞,钻探图像如图17所示。

RS-XGBoost模型解译结果如下表8所示。

表8 YK73+507~YK73+491超前钻探RS-XGBoost解译结果

②工程实例B

选取某隧道ZK73+570~ZK73+560段共10米作为验证样本。该段在超前钻探地质预报报告中的解译结果为:0~2m疑似泥质填充溶洞,2~8m围岩较完整~破碎并伴有软弱夹层,8~10m软泥充填型溶洞。钻探图像如图18所示。

RS-XGBoost模型解译结果如下表9所示。

表9 YK73+507~YK73+491超前钻探RS-XGBoost解译结果

③模型解译结果分析:

将工程案例A与工程案例B的报告人工解译结果与RS-XGBoost模型定量解译结果进行对比,可以得知,凭借RS-XGBoost模型在训练集上的优异性能,在实际应用且不对样本数据进行过多降噪的前提下,定量解译结果与人工解译结果二者保持了较高的一致性,尤其是在较完整~较破碎围岩及泥质填充溶洞的预测方面,具备较高的准确率,总体满足超前地质预报工程应用的要求。

④实验结论:

(1)本发明针对隧道超前钻探数据的定量解译问题,通过对钻探样本数据进行定性与定量分析,以钻进速度(Drilling rate)、推进力(Thrust pressure)、扭矩(Torque)与旋转速度(Rotation)作为不良地质体分类预测的一级指标体系,并在此基础上通过等距数据分割、二级指标计算等数据预处理方法提高训练集质量,同时结合XGBoost机器学习模型强大的非线性数据分析性能以及RS随机搜索高效的超参数寻优能力,构建RS-XGBoost隧道超前钻探不良地质体定量解译模型,最终该模型在预测集上的表现优异,预测准确率高达97.8%。

(2)为评估RS-XGBoost模型性能,以Accuray为评估指标,将模型分别于XGBoost默认模型以及基于网格搜索的GS-XGBoost模型进行对比。对比结果显示,综合模型运行时间及模型准确率,RS-XGBoost表现最优。

(3)通过将RS-XGBoost模型应用于实际隧道工程的超前钻探地质预报中,结果表明RS-XGBoost模型可以提供较为精细的钻探数据解译结果供技术人员参考,且解译结果基本满足隧道对于不良地质体的预报需求,可以在很大程度上指导隧道施工。

实施例3

如图19所示,一种基于RS-XGBoost的隧道超前钻探定量解译设备,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述实施例所述的一种基于RS-XGBoost的隧道超前钻探定量解译方法。所述输入输出接口可以包括显示器、键盘、鼠标、以及USB接口,用于输入输出数据;电源用于为电子设备提供电能。

本领域技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read OnlyMemory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

当本发明上述集成的单元以软件功能单元的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种基于RS-XGBoost的隧道超前钻探定量解译方法及设备
  • 一种基于RS-XGBoost的隧道超前钻探定量解译方法及设备
技术分类

06120113283729