掌桥专利:专业的专利平台
掌桥专利
首页

一种基于距离度量学习的流体识别方法

文献发布时间:2024-04-18 20:02:18


一种基于距离度量学习的流体识别方法

技术领域

本发明属于测井解释技术领域,具体涉及一种基于距离度量学习的流体识别方法。

背景技术

测井是利用岩层的电化学特性、导电特性、声学特性、放射性等地球物理特性,测量地球物理参数的一种方法。测井所得的参数数据是在实际环境之中通过设备直接测量的,能够反映储层,油气的详细信息,可以应用于地质分层、储层划分、流体识别中。目前主流的测井解释方式是根据阿尔奇公式和威利时间平均公式等建立解释模型,根据测井曲线求解孔隙度、渗透率等参数建立交会图,通过相关专家的经验进行储层划分、流体识别的分类工作。

在实际获取测井参数时会不可避免的受到采集、地质环境等内在和外在的噪声和失真的干扰。仅依赖于人工的经验利用测井数据进行分类,效率较低且结果往往有多解性。而随着测井技术和勘探开发技术的发展,在勘探过程中能够获得测井的参数越来越多,其种类已超过百种,这些参数具有明确的物理意义但其对应的地质意义并不清晰,仅仅靠人工处理这些测井数据需要耗费大量的人工成本,时间成本。

国内外开始将机器学习算法应用于测井领域,如利用支持向量机,神经网络,随机森林等算法来进行流体识别等任务。但这些方法仍存在分类准确率较低,无法精准分类的问题。

发明内容

本发明的目的在于克服上述现有技术的缺点,提供一种基于距离度量学习的流体识别方法,以解决现有技术中人工处理测井数据进行分为需要耗费大量的人工成本和时间成本,机器学习算法分类准确率低,无法精准分类的问题。

为达到上述目的,本发明采用以下技术方案予以实现:

一种基于距离度量学习的流体识别方法,包括以下步骤:

步骤1,选择若干个测井曲线作为分析曲线,所述测井曲线中具体数据组成数据集,所述数据集中的每一个样本点包括若干个数据,所述若干个数据分别属于一个测井曲线;

步骤2,对所述数据集进行标准化处理,得到标准化处理后的数据集;

步骤3,对标准化处理后的数据集学习获得马氏距离度量矩阵,将距离目标样本最近的训练集通过马氏距离度量矩阵映射到特征空间,通过特征空间获得最优的马氏距离度量矩阵;所述训练集为测井试油数据;

步骤4,通过最优的马氏距离度量矩阵,将训练集和测试集映射到特征空间;所述测试集为待归类的测井数据;

步骤5,在特征空间中,找到与测试集样本距离最小的训练集中试油样本,获得匹配的试油样本和测试集样本,通过匹配的试油样本类型获得测试集样本的流体类别。

本发明的进一步改进在于:

优选的,步骤1中,所述测井曲线包括随钻深度曲线、自然伽马曲线、自然电位曲线、声波时差曲线、阵列感应电阻率AT90曲线和阵列感应电阻率AT20曲线。

优选的,步骤2中,所述数据集进行标准化处理前,剔除异常数据和未测量的数据。

优选的,步骤2中,所述标准化处理的公式为:

其中,x′表示标准化处理后的数据,x表示数据集中的原始数据,μ表示测井曲线的数据均值,σ表示测井曲线数据的标准差。

优选的,步骤3中,映射过程中,将训练集中与目标样本类别相同的样本更靠近目标样本,训练集中与目标样本类别不同的样本远离目标样本,进而获得最优的马氏距离度量矩阵。

优选的,步骤3中,对标准化处理后的数据集通过优化损失函数学习获得马氏距离度量矩阵,所述损失函数为:

(条件1)M≥0

(条件2)ξ

其中M=L

优选的,步骤4中,映射公式为:

X′=X*L (4)

其中,X表示原始测井数据,L表示转换矩阵,X′为映射到新的特征空间的数据。

优选的,步骤5中,所述距离最小为相似度最高。

优选的,所述相似度的计算公式为:

优选的,步骤5中,找到训练集中与测试集样本最相似的K个样本,K的取值范围为[1,3,5,…,61],获得最优K的取值。

与现有技术相比,本发明具有以下有益效果:

本发明公开了一种基于距离度量学习的流体识别方法,该方法基于距离度量学习方法在测井试油数据上学习出转换矩阵,通过转换矩阵将试测井数据转换到新的特征空间,通过将测试数据与试油数据进行比较实现流体识别任务,从而提高流体识别等测井任务的准确率。本发明与传统机器学习方法相比,基于距离度量学习的方法能够训练学习出马氏距离度量矩阵,将数据映射到新的特征空间,能够更好的挖掘测井数据的特征,提升流体识别任务的准确率。

附图说明

图1为本发明基于距离度量学习的流体识别方法的流程图;

图2为马氏距离度量矩阵参数调优曲线图;

图3为特征空间中邻域K参数调优曲线图;

图4为原始空间中邻域K参数调优曲线图。

具体实施方式

下面结合附图对本发明做进一步详细描述:

在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制;术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性;此外,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

本发明提出一种基于距离学习的流体识别方法,基于距离度量学习方法在测井试油数据上学习出转换矩阵,通过转换矩阵将试测井数据转换到新的特征空间,通过将测试数据与试油数据进行比较实现流体识别任务,从而提高流体识别等测井任务的准确率。

本发明的实现包括以下步骤:

步骤一,选取测井数据。测井试油数据中的试油结论是实际勘测得到的,能反应地层中真实的油气水储藏情况,因此选择测井试油数据作为训练数据。将需要解释的测井数据作为测试集数据。在测井曲线当中选择6条信息独立的测井曲线作为分析曲线,曲线的具体数据作为数据集;信息独立为,信息之间关联度小的。

优选的,选择的6条测井曲线为随钻深度(Depth)曲线、自然伽马(GR)曲线、自然电位(SP)曲线、声波时差(AC)曲线、阵列感应电阻率AT90曲线和阵列感应电阻率AT20曲线。

步骤二,数据预处理。首先,找到测井数据中的存在异常数据,保证每个样本点的6个特征都含有有效数据,6个特征点为上述的6条信息独立的测井曲线。然后,对测井数据进行标准化处理;得到标准化处理后的数据。

需要找到传感器测得的异常数据(例如数据不在指定范围)和未测量的数据(-9999),并将该数据对应的深度的样本数据进行剔除。

采用Z-Score标准化进行数据标准化处理,其公式为:

其中,x′表示标准化处理后的数据,x表示数据集中的原始数据,μ表示测井曲线的数据均值,σ表示测井曲线数据的标准差。

步骤三,经过预处理后,对数据学习马氏距离度量矩阵;通过优化损失函数学习出马氏距离度量矩阵,将距离目标样本最近的K个训练集样本,通过马氏距离度量矩阵将训练数据映射到特征空间,使与目标样本类别相同的样本更靠近目标样本,使与目标样本类别不同的样本远离目标样本;

损失函数为:

(条件1)M≥0

(条件2)ξ

其中M=L

步骤四,测试数据特征空间映射。采用步骤三中获得的马氏距离度量矩阵将测试数据映射到与训练数据相同的特征空间当中;

数据的映射公式为:

X′=X*L(4)

其中X表示原始测井数据,L表示转换矩阵,X′为映射到新的特征空间的数据。

步骤五,流体识别。在特征空间中,找到与测试数据距离最小的(相似度最高)测井试油数据样本,根据匹配的试油数据流体类别得到测试数据的流体类别。

在步骤五中,采用欧式距离衡量样本之间的相似程度,其公式为:

K邻近的参数K值从[1,3,5,…,61]中进行选择,找到最优的参数,并以混淆矩阵、准确率、精确率和召回率作为评估标准。

下面结合具体的实施例进一步的分析:

参照图1,一种基于距离度量学习的流体识别方法,包括以下步骤:

步骤一:选取测井数据。

在本实施例中,选择某油田的测井试油数据作为训练集,其中流体油气水结论包含‘油水层’、‘水层’、‘油水同层’、‘油层’、‘干层’、以及‘含油水层’等6个油气结论。选择随钻深度Depth、自然伽马GR、自然电位SP、声波时差AC、阵列感应电阻率AT90和AT20共6条测井曲线作为数据的特征,测井曲线示意图如图2所示。测井试油数据如表1所示:

表1测井数据集形式示例

步骤二:数据预处理。

由于地质环境,噪声和失真等因素的干扰,在传感器测试油井的物理属性时,会得到0,-1等异常值。同时由于不同物理属性的测试深度不同,对未测量数据,原始数据中通常用用-9999表示。首先,为了使每个深度的6个特征均为有效数据,需要提前剔除存在无效数据的样本。其次,由于各个测井曲线对应的属性的量纲不同,不同曲线对应数据的范围也有较大差距,需要对其进行标准化处理,使在训练过程中每个属性权重相同。这里采用Z-Score标准化处理,其公式如下:

其中μ表示测井曲线的数据均值,σ表示测井曲线数据的标准差。

步骤三,学习马氏距离度量矩阵。

本例中学习马氏距离度量矩阵的目标函数表达式如下:

(条件一)M≥0

(条件二)ξ

其中M=L

步骤四:数据映射到特征空间。

采用步骤三中得到的马氏度量矩阵,将训练数据和测试数据都映射到新的特征空间中,映射公式为:

X′=X*L

其中X表示原始测井数据,L表示转换矩阵,X′为映射到特征空间的数据。

步骤五:流体识别。

采用欧式距离衡量样本之间的相似程度,在特征空间中选择试油样本中与测试样本最相似的K个样本,采用多数投票的方式,判断测试样本的标签。这里K值的取值范围为:[1,3,5,…,61],经过参数调优发现当K值选择25时效果最好,其参数调优的曲线图如附图4所示。在原始空间中重复上述操作,选择K值为17时效果最好。原始空间和新特征空间在测试数据流体识别上分类结果的混淆矩阵分别如表2、表3所示:

表2原始空间中测试数据的流体识别混淆矩阵

表3新特征空间中测试数据的流体识别混淆矩阵

经过对比可以看到,测试数据在原始空间中流体识别准去率72.1%、在新特征空间准确率75.1%。测试数据在新特征空间中比在原始空间中流体识别的分类准确率高出约3%,精确率和召回率高出约6%,这说明采用本方法能很好的提高流体识别任务准确率。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术分类

06120116576121