掌桥专利:专业的专利平台
掌桥专利
首页

一种低阻页岩含气量预测融合模型方法

文献发布时间:2023-06-19 19:28:50


一种低阻页岩含气量预测融合模型方法

技术领域

本发明设计的低阻页岩含气量预测融合模型方法,该方法融合数据挖掘领域的随机森林、XGBoost和深度神经网络模型,得到更高预测准确度的融合机器学习模型。具体提出了数据知识融合驱动思路筛选得到模型输入数据,利用学习曲线参数优化法建立随机森林、XGBoost和深度神经网络作为基模型,融合基模型建立了融合机器学习模型,对低阻页岩含气量作出了准确预测。本发明属于页岩气测井表征技术领域。

背景技术

页岩气是非常规油气藏开发主力、国家能源安全的压舱石。随着中国页岩气开发由浅层迈入深层,在许多工区储层电阻率偏低-特低普遍出现。低阻电阻率页岩气井的含气量存在着巨大差异,严重影响着页岩气开发进度。建立准确且可快速推广的低阻页岩储层含气量表征模型,是各大石油公司迫切需求,关系天然气增产上储的国家战略实现。

通过测井数据建立解释模型得到油气储层的含油气性,是储量计算的关键步骤。储量计算的准确性直接决定油气田开发策略的制定。按照油气藏一般规律,富集油气的层段电阻率较高。但是,由于深层页岩有机质碳化作用等特俗地化作用,变现出不一样的规律,常存在储层电阻率偏低或特低现象。而且,页岩存在强烈的非均质性,测井数据和含气量间关系复杂。低阻页岩情况更加复杂,需要既准确又适用性广的模型来预测其含气量。目前尚无可快速推广的测井解释模型,用于低阻页岩储层含气量准确表征。由此,低阻现象严重制约着页岩气的增产上储进程。

从国内外研究现状来看,对于低阻油藏的研究较为成熟。对于低阻油藏的定义边界给出了明确定义,对低阻油藏的含油饱和度也给出了相应的测井解释模型。修正的双水模型以及阿尔奇公式等方法已经在各低阻碎屑岩油藏评价中得以应用。中国的页岩气刚进入深层开发阶段,低阻现象是随着深层开发而出现的,因此,对于低阻页岩含气量准确预测的相关研究成果极少。一些学者按照传统地球物理测井解释思路,优选了密度测井、密度孔隙度、密度与中子孔隙度测井数据,优化最佳叠合系数的双孔隙度重叠等多种方法建立了页岩气含气饱和度计算模型。此外,有学者建立了基于TOC的低阻页岩含气饱和度计算模型,对前述方法进行了改进。基于传统的测井解释模型主要存在两点问题:(1)过程繁琐,需因地制宜建立不同模型,建模成本高;(2)存在较多地区经验常数,这些常数随工区改变而改变,每个新工区需要求取对应的常数。页岩气藏的开发有一定时间节点,而传统测井解释的这两点问题又限制了其快速推广应用。

发明内容

为了解决上述所提问题,本发明提出了一种融合机器学习模型用于低阻页岩含气量预测模型。融合模型是当下最先进的数据挖掘方法,它集成多个基础机器学习模型的优势,挖掘数据间非线性关系和泛化能力得到极大提升。本发明融合了随机森林、XGBoost和深度神经网络模型,前者有着很好的泛化性能、后两者则在挖掘数据间非线性关系有着非凡表现,融合三者使得模型兼具准确性和适用性。此外,在模型建立过程中提出了知识数据融合驱动的数据筛选思路,提高了数据筛选的科学性。本融合模型可以准确预测低阻页岩含气量,助力页岩气藏开发策略制定。

一种低阻页岩含气量的融合模型预测方法,其特征在于,详述其具体步骤如下:

S1:整理收集目标工区的岩心解吸实验实测总含气量以及测井数据,这些测井数据包括声波时差(AC)、自然伽马(GR)、密度(DEN)、电阻率(RT)、钾(K)、铀(U)和钍(TH)等,将两者数据按照测深对齐。制作好数据集后,利用LOF算法对每种测井数据的异常值进行检测,使用均值和众数对异常值进行替换。

S2:依据测井响应机理知识,筛选出能反映页岩含气量相测井数据的大致范围。在此基础之上,利用数理统计分析中的斯皮尔曼(Spearman)相关性分析方法,分析测井数据之间以及测井数据与岩心数据间的相关性。确保输入模型的各测井数据之间相互独立且与含气量数据间有较高相关性。斯皮尔曼相关性分析是一种更普适性的相关性分析方法,它既可以检测到数据间的线性和非线性相关性,其。

S3:针对深度神经网络的特殊要求,对筛选后的测井数据进行归一化处理。由于测井数据有不同量纲,导致不同测井数据数值存在较大差异。对于神经网络来说,会对数值较大的输入数据给与更大权重,数值较小的数据被忽略。利用最大最小值法对测井数据进行归一化处理,将所有测井数据变换到0-1之间。

S4:以筛选后测井数据为输入,以岩心总含气量为目标,分别建立随机森林和XGBoost模型。深度神经网络模型同样使用相同的数据和目标,只是输入深度神经网络的测井数据经过了归一化处理。模型的建立过程是参数寻优的过程,利用学习曲线和网格搜索法进行参数寻优。学习曲线可以确定模型单个参数最优值极小范围,单个参数最优不一定是全局最优,网格搜索法可以将多个参数进行联合寻优,更好地找到全局最优参数值。

S5:以S4步骤中得到的三个模型作为基模型,利用Stacking模型融合策略,将三者融和得到用于低阻页岩含气量预测的模型。融合模型的第一层由三个基学习器并列组成,得到中间输出,第二层由逻辑回归构成,学习第一层学习器输出到岩心总含气量间的关系。

S6:将输入测井数据、输出结果、岩心实测总含气量数据在CIFlog中呈图展示,直观展示储层变化情况以及模型预测效果。

与现有技术相比,本发明的有益效果

(1)知识+数据的数据筛选思路,为模型性能优化提供保证,更具科学性。

输入对机器学习模型性能有着决定性的影响,本发明提出了一套知识+数据数据处理流程。首先利用专家知识(地球物理测井知识)选定测井数据的大致范围,再利用数据统计分析方法(斯皮尔曼相关性分析方法),针对具体的页岩气井进行具体分析。这一套数据处理方案高效且更具科学性。

(2)本发明设计的模型以数据为驱动,无需过多专家知识,建模成本低,可快速推广至新工区。

本模型的主要部分以数据为驱动,相较于传统测井解释模型无需多次地校正地区经验常数。使用部分新工区数据便可快速建立准确的总含气量预测模型,这对于当下低阻页岩气增长上储、降本增效,具有十分重要的意义。

(3)本发明设充分考虑了低阻页岩非均质性等复杂情况以及各基础机器学习模型特性,构建融合模型具有更高准确性。

低阻页岩情况复杂,建立测井数据到总含气量间的拟合关系,需要兼具模型泛化性能和准确性。随机森林泛化性能强,XGBoost和深度神经网络非线性拟合独具优势,本发明模型融合了三者模型各自优势,相较于单个机器学习模型预测不同电阻率的页岩含气量具有更高精度。

附图说明

图1为本发明总体框架图(输入输出示意图);

图2为基模型超参数优化图;

图3为融合模型示意图;

图4为融合模型第一层学习器数据流图;

图5为本发明融合模型低阻页岩总含气量预测效果图;

图6为摘要附图。

具体实施方式

以下结合附图和案例,对本发明设计的低阻页岩含气量预测融合模型方法作出更具体说明,以使本发明的目的、技术方案及优点更加清楚明白。

S1:收集研究区A工区测井数据以及岩心含气量实测数据,将两者按照测深对齐,处理后的A工区内Q井的部分测井及其对应的岩心总含气量数据如图5所示。由于测井数据采集受到钻井液类型、井壁规则性以及测量过程中仪器旋转的影响,进而导致测井数据出现“异常值”。XGBoost和深度神经网络模型都对异常值比较敏感,需要检测出测井数据中的异常值加以处理。本发明利用Local outlier factor(LOF)算法进行测井数据异常值检测。LOF异常值检测基于距离的思想,在检测点可达距离点内的相邻数据点越少,该检测点为异常值的可能性越大。局部可达密度定义为:

式中,|N

对筛选出的异常值使用该种类型测井数据的均值或众数进行填补,利用多种填补方法可以使得数据较为丰富。

S2:利用地球物理测井知识,选定模型输入测井数据的大致范围。AC、DEN反映页岩储层孔隙度,含气量较高层段,孔隙发育,其AC较大、DEN较小。K、TH、U反映储层放射性,其中U/TH比大,反映储层为还原沉积环境,有利于页岩气的生成。依据地球物理测井知识,选定AC、DEN、GR、CNL、K、TH、U等测井数据作为筛选范围。机器学习模型要求数据数据间无相关性且输入数据和目标数据间有相关性。在机理筛选测井数据的基础之上,利用斯皮尔曼相关分析法针对具体页岩气井的测井数据和岩心分析数据,进行两两之间相关性分析。斯皮尔曼法不需要数据满足正态分布,适用性更广泛。斯皮尔曼公式相关性计算公式为:

其中,d

利用斯皮尔曼法分析Q井的测井和岩心分析数据如图6:由此,选择AC、DEN、GR、TH作为Q井模型的输入数据。

S3:对深度神经网络模型进行归一化处理。由于测井数据量纲影响,测井数据数值存在较大差异。神经网络在计算权重时,会给予数值大的输入更大权重,对于数值较小的输入则会忽略。数值相对大小不是表征数据间关系的本质特征,需要消除这种影响。本发明利用最大最小值法对测井数据进行归一化处理,其公式如下:

S4:构建随机森林、XGBoost和深度神经网络模型作为融合模型的基模型。随机森林是集成学习的典型代表,具有很强的抗过拟合和泛化性能。由于随机森林的这些特性,其在工业界的应用最为广泛。随机森林由多个决策树模型集成,它们性能互补单个决策树模型性能变差,不会对随机森林产生较大影响。随机森林的集成方式是并行的,既每次采用Boosttrap抽样方式,抽取部分数据样本构建决策树,模型的最终输出结果是每一棵决策树输出结果的平均。

随机森林的构建过程:由测井和岩心分析组成的数据空间D

对于测井数据X

R

其中,m等于测井数据种类数。

在区域R

其中

分割变量(j,p)的按下式进行:

将上述步骤循环进行,直至满足停止条件得到最后的随机森林模型如下:

影响随机森林性能的超参数主要有:基评估器数目:n_estimators,决策树最大深度:max_depth,学习率:learn_rate。基评估器也就是决策树数目,决定随机森林的规模;决策树深度对直接决定基评估器的性能;学习率决定每棵决策树改变的大小。这些参数对随机森林含气量预测性能有着决定性影响。

通过学习曲线进行参数寻优(附图2),得到适合Q井随机森林参数:

n_estimators=60,max_depth=3,learn_rate=0.8。

XGBoost是当下性能最优异的集成学习模型,拟合数据间非线性关系能力强,在各数据挖掘竞赛中都有着非凡表现。与随机森林算法不同之处在于XGBoost集成基学习器的方式为每个决策树加权求和,最终输出结果是所有最后的决策树叶子节点之和。

XGBoost构建过程为串行方式,依据已经建立的决策树F

F

XGBoost算法建立过程向着目标函数减小的方向进行,目标函数考虑了模型的结构风险Ω(f

式中

式中,γ,λ,α为正则项系数,T为决策树中叶子节点的个数ω

模型的输出为各叶子节点之和:

XGBoost的超参数和随机森林一致,经过学习曲线超参数寻优(附图2)得到n_estimators=8,max_depth=3,learn_rate=0.72。

深度神经网络是深度学习的基本单元,其非线性拟合能力强于一般的机器学习模型。利用深度神经网络作为基模型参与融合,可以极大的提升融合模型的整体非线性拟合能力,获得较高的页岩总含气量预测精度。

神经网络的训练过程分为前向传播和后项传播,多次迭代训练使得模型预测误差不断减小且趋于稳定。前向传播过程中,给定权值和偏置矩阵,通过各神经元节点运算处理得到输出的预测值。在反向传播过程中,通过损失函数对权重系数ω和偏置b求导而不断更新这两者的值从而使得网络不断地减小预测值与实际值的误差,直至找到最适合的权值和偏置让损失函数收敛。

1前向传播过程

对于第i层第j个神经元的输入

其中ω为连接权重,b为偏置项,σ(·)为ReLU函数,其表达式如下:

σ(x)=max(0,x)

2后项传播过程

后向传播考量权重系数和偏置如何影响损失函数,其具体含义为:计算

对于回归类任务,神经网络一般使用Mean Square Error(MSE)作为损失函数

经过多次实验,采用Adam作为深度神经网络模型的优化器,Adam为自适应调整优化器可以较快向着参数全局最优点前进。Adam中学习率learning_rate=0.01,num_hinddenLayer=3。

S5:以上述三个模型作为基模型,将三者融合得到最终用于低阻页岩总含气量的模型。模型融合通过不同策略将基模型融合,达到强强联合的效果。模型融合是提升模型整体泛化能力最新手段,对于复杂数据挖掘任务十分有效。本发明采用Stacking模型融合策略,是模型融合最适用的方法。

Stacking模型融合策由两个层级学习器构成,分别为level

在Stacking中,level

元学习器只是接收每个基学习器单个输出会导致元学习器输入属性数据维度过低,不能达到较好的训练效果。为解决此问题,各元学习器采用了K折交叉验证训练策略(附图4),每个基学习器得到K个预测结果,大大增加了元学习器输入数据维度。由此,保证了元学习器的性能得以体现。此外,Stacking交叉验证采取了Stratified-K-Fold抽样策略,使得抽取样本数据和总体数据保持同分布。

融合模型的元学习器采用具有上述最优参数的随机森林、XGBoost和深度神经网络模型,元学习器采用简单的线性回归器。在Q井上训练得到融合模型,并预测未知层段的总含气量。

S6:将各输入测井数据和模型预测总含气量以及岩心实测总含气量在CIFlog中成图(附图5),用以展现本发明低阻页岩含气量预测性能。

本发明设计的用于低阻页岩总含气量预测融合模型方法,具有准确性高、可推广性强的特点。本发明的推广应用,可为低阻页岩气开发策略制定提供参考,有效解决当下低阻页岩气藏开发的难点,助力国家天然气增产上储。

技术分类

06120115927894