一种基于集成学习建立的海相页岩原地气量预测模型

文献发布时间：2023-06-19 19:30:30

技术领域

本发明涉及原地气量预测技术领域，具体涉及一种基于集成学习建立的海相页岩原地气量预测模型。

背景技术

伴随着绿色低碳能源的广阔前景和双碳目标的发展要求，页岩气成为了目前最现实的清洁资源之一，页岩含气性是其勘探潜力最直观的表现，含气性越高，则勘探潜力越大，在实际地质特征中，由于页岩含气量受页岩自生属性和外界条件多种因素制约，因此，单因素对于含气性的作用似乎并不是一定的。

对于深层页岩气，为了满足其勘探效益，划定优质储层的原地气量(GIP)标准应当更高，然而原地气量(GIP)准确预测很困难，虽然现场解析法操作简单，对样品采集、处理与过程控制已形成规范，是目前页岩气勘探开发中使用最广泛的一种方法，但是在实际操作中受限于页岩解析仪器条件和解析时间，不可能对所有岩心样品进行解析实验。准确快速的含气量评价手段一直是一个尚待完善的问题。

为了解决前述方法，在现有技术中基于机器学习的方法来进行相应的预测，但是机器学习虽然可以显著减少耗时和劳动密集型的工作，然而，在一些复杂问题中，受到样本数量限制，单一机器学习模型可能无法发挥其自身的优势并有效地解决问题。对于页岩含气性的预测来说，在当前的现有技术中，一般是通过拟合的方式进行分析，对于这类技术方案其一般在构建模型时需要包含一定的条件，另外，在进行拟合模拟分析时，其预测的精度取决于地质参数的数据质量和数量，当地质参数个数较少时模型精度较低，又由于地质参数精度以及共线性的问题，当地质参数个数较多时，预测模型会出现过度拟合。基于前述两个方面的因素，通常制约着精准预测模型的构建，而如何准确把握地质参数数据的质量和数量又是一个不可控的问题。

发明内容

本发明的目的在于提供一种基于集成学习建立的海相页岩原地气量预测模型，以解决现有技术中无法通过少量有限的数据通过机器学习构建对页岩含气量精准预测模型的技术问题。

为解决上述技术问题，本发明具体提供下述技术方案：

一种基于集成学习建立的海相页岩原地气量预测模型，包括以下步骤：

输入原地气量和地质参数，并且将原地气量和地质参数构成一个开放式的数据集，对所述数据集进行聚类分析以确定不同地质参数对原地气量的影响权重；

依据聚类分析的影响权重，将不同地质参数输入至不同的预测模型中，并根据平均绝对百分比误差和决定系数筛选基模型并建立最终的预测元模型；

利用最终的预测模型以及对应的特征参数对具有相同或相近地质条件的无含气性数据的井段进行预测，并根据预测外推并评价其含气性剖面。

进一步地，将不同地质参数输入至不同的预测模型中的具体方法为：

将各类地质变量进行标准化处理使得各变量均处于同一个数量级；

利用主成分分析对所述地质参数进行数据降维处理；

将处理结果随机分为训练集和测试集，并将所述训练集输入不同的预测模型中进行训练，且通过训练集的滚动式收集以不断精细化所述预测模型；

其中：

对预测模型进行训练时采用k折交叉验证以避免机器学习过程中可能发生的过度拟合。

进一步地，在对所述预测模型进行精细化的过程中采用平均绝对百分比误差和决定系数对所述预测模型进行质量评价，并依次筛选出最佳的预测模型作为基模型；

其中：

所述基模型来自于不同类型的算法，并且各个所述基模型之间的性能表达差距在设定的阈值范围以内。

进一步地，对不同类型的基模型利用stacking方法集成建立元模型。

进一步地，所述元模型在利用训练集和测试集中的数据进行检验，检验条件为：

所述元模型在测试集的平均绝对百分比误差应当整体低于基模型，决定系数应当高于基模型。进一步地，在预测模型中进行训练且通过训练集的滚动式收集以不断精细化所述预测模型时，通过网格搜索的方式以优化所述预测模型的超参数。

进一步地，网格搜索的次数不少于5000次。

进一步地，对不同地质参数变量进行聚类分析，并将组间聚类分析结果作为判断依据，其具体的操作步骤为：

设定各地质参数的变量为i，不同地质参数中的样品数为n

设定每种地质参数变量与原地气量在向量空间中的组间距离为L

本发明搭建了一个基于有限样品数量、且从聚类分析到预测元模型的GIP评价框架，通过聚类分析结果进行输入特征的确定可以有效地避免信息遗漏或者过度拟合，并利用主成分分析对输入特征进行处理可以达到对数据的降维处理，从而对系统数据进行冗余分析和特征提取，有效解决数据共线性的问题，通过集成算法建立的泛化能力强的元模型，借助少量有限的小样本即可实现对页岩含气性进行预测和评价，有助于指导深层页岩气下一步的勘探部署，有效降低勘探的风险性。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例提供的预测模型的建立流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在实际勘查中，由于地质参数复杂而多变，且不同地质参数之间的相互影响关系不同而且不统一，因此基于多种地质参数建立油气预测模型一直是一个难以解决的问题。

在当前的现有技术中，主要包括两个方面：

第一方面，通过建立含气性和多种地质参数的元回归模型，从而计算和预测页岩的GIP(原地气量)；

第二方面，通过对不同地质参数进行无量纲化处理，随后利用多元线性回归分析方法计算了不同地质参数的权重，通过多参数加权叠加公式建立页岩气量的多远线性回归模型。

但是从现有技术的两个方向来说，可以明确的是，GIP预测模型的准确性取决于构建所述预测模型所用地址参数的数据质量和数量。当地质参数个数较少而且质量较低时，预测模型的精度就较低，当地质参数个数过多时，由于地质参数之间存在共线性问题，预测模型会出现过度拟合，从而导致原有的数据失真，得不到满意的预测效果。

如图1所示，本发明提供了一种基于集成学习建立的海相页岩原地气量预测模型，包括原地气量主控因素分析、确定数据参数个数、主成分分析、数据切分、模型优选、模型集成、模型评价和验证。其具体包括以下步骤：

依据聚类分析的影响权重，将不同地质参数输入至不同的预测模型中，并根据平均绝对百分比误差和决定系数筛选基模型并建立最终的预测元模型；

利用最终的预测模型以及对应的特征参数对具有相同或相近地质条件的无含气性数据的井段进行预测，并根据预测外推并评价其含气性剖面。

在前述中，一般建议的地质参数包括有机碳含量(TOC，％)，矿物组成(硅质矿物，黏土矿物，碳酸盐矿物，％)，孔隙度(％)，含水饱和度(％)和地层压力系数。

在获得原始的地质参数后，首先对形成的数据集进行系统聚类分析，并明确不同影响因素对原地气量的重要程度。在对数据集的聚类分析中一般采用距离来进行判断，首先将距离相近的变量先聚成类，距离较远的变量后聚成类，直到每个变量都归入合适的类中。

对不同地质参数变量进行聚类分析，并将组间聚类分析结果作为判断依据，其具体的操作步骤为：

设定各地质参数的变量为i，不同地质参数中的样品数为n

设定每种地质参数变量与原地气量在向量空间中的组间距离为L

在前述方式中，将各类不同地质参数作为变量进行组间聚类，对各变量标准化到Z分数以消除量纲，如有些参数的单位为％，有些单位为无量纲参数等，将其进行无量纲化后便于直接比较，从而提高后期的预测模型建立的准确性。

依据聚类分析的影响权重，将不同地质参数输入至不同的预测模型中，一般从最重要的参数利用各种算法，建议选择经典学习方法，包括RR/SVM/RF/XGBoost，开始依次循环尝试，并采用平均绝对百分比误差(MAPE)(公式1)和决定系数(R

其中：

通过聚类分析结果确定输入特征数量，能够有效地避免信息遗漏或者过度拟合。实际操作中发现在输入特征为7个时，各种经典模型表现更加良好，即将所有的影响因素作为特征输入模型可能不会遗漏信息，即使这些影响因素间存在着不同权重。

在实现对地质参数的聚类分析后，即可对不同的预测模型进行训练，从而进行筛选和优化。

应对对所述训练集中的多组地质参数对其进行标准化处理，经过上述标准化处理，原始数据均转换为无量纲化指标测评值，即各指标值都处于同一个数量级别上。

在前述中，针对同一地质变量在训练的过程中可以以此为标准进行数据修正，防止出现奇异样本数据导致的不良影响。

主成分分析：采用主成分分析降低数据的维度，各主成分之间互不相关，数据冗余少，能够有效地避免特征参数间可能存在的共线性。主成分分析中可以令PCA＝0.99或者根据碎石图确定主成分个数。

因此，本实施方式搭建了一个基于有限样品数量、且从聚类分析到预测元模型的GIP评价框架，通过聚类分析结果进行输入特征数量的确定，能够有效地避免信息遗漏或者过度拟合。此外，对输入特征进行的主成分分析能够对得到的系统数据进行冗余分析和特征提取，可以有效地解决共线性问题。

在完成主成分分析后，根据得到的主成分进行预测模型的训练，其中，模型的数据必须规范化，在本实施例中，数据集随机分为80％的训练集和20％的测试集，并将所述训练集输入不同的预测模型中进行训练，且通过训练集的滚动式收集以不断精细化所述预测模型。由此确保了测试数据从未输入到模型训练过程中。

其中：

对预测模型进行训练时采用k折交叉验证以避免机器学习过程中可能发生的过度拟合。在本实施例的预测模型训练中使用5折交叉验证以避免机器学习过程中可能发生的过度拟合。

在对预测模型进行训练的过程中，可以在使用网格搜索以调优模型的初始值-超参数在所有候选的参数选择中，按步长依次调整参数，通过循环遍历，尝试每一种可能性，从所有的参数中找到在验证集上精度最高的参数。其中，网格搜索m次，其中m应足够大，如大于5000。

如前述的公式(1)和公式(2)，前述预测模型训练集中的MAPE和R

所述元模型在利用训练集和测试集中的数据进行检验，检验条件为：

集成的元模型应该性能更好、更加稳定，尤其是测试集，因为其预测效果是模型质量的重要评估依据，测试集的均绝对百分比误差应当整体低于基模型，决定系数应当高于基模型。

模型评价和验证：利用元模型对具有相同或者类似地质条件的无含气性数据的井段进行预测外推，评价其含气性剖面。

综合前述可知，在本实施方式中，其本质上相当于搭建了一个基于有限样品数量的从聚类分析到预测元模型的GIP评价框架，通过聚类分析结果进行输入特征的确定，能够有效地避免信息遗漏或者过度拟合。

此外，通过对输入特征进行的主成分分析能够对得到的系统数据进行冗余分析和特征提取，可以有效地解决共线性问题。

本实施方式利用集成算法建立了泛化能力强的元模型，可以基于小样本对页岩含气性进行预测和评价，有助于指导深层页岩气下一步的勘探部署，有效降低勘探的风险性。

以上实施例仅为本申请的示例性实施例，不用于限制本申请，本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内，对本申请做出各种修改或等同替换，这种修改或等同替换也应视为落在本申请的保护范围内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：冯越;卢晨刚;李刚;高平;肖贤明;
专利申请人：中国地质大学(北京);

上一篇：解题方法及装置
下一篇：一种基于深度强化学习的水声通信链路自适应方法