掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明涉及鉴别器的生成方法。

背景技术

在气相色谱装置或液相色谱装置中,将包含各种成分的试样导入色谱柱,在该试样通过色谱柱的过程中使各种成分在时间方向上分离,由设置在色谱柱的出口的检测器进行检测。在由检测器得到的色谱图中,出现与试样中的成分相对应的峰。由于峰被观测到的时间(保留时间)与成分的种类相对应,因此能够根据峰的保留时间来确定成分,即能够进行定性分析。此外,由于峰的高度或面积与该成分的浓度或者含量相对应,因此能够根据峰的高度值或面积值求出该成分的浓度或含量,即能够进行定量分析。

为了进行定性分析或定量分析,需要在色谱图波形上进行峰检测(包括决定峰的起点与终点的位置、以及决定峰位置处的强度)。在实际的色谱图波形中,有时由于源自多种成分的峰重叠而检测出未分离峰。

以往提出有各种算法作为基于色谱图波形的峰检测法以供实际应用。例如,提出有使用了连续小波变换的峰的检测方法(参照非专利文献1)。

现有技术文献

非专利文献

非专利文献1:Pan Du,Warren A.Kibbe和Simon M.Lin著《Improved peakdetection in mass spectrum by incorporating continuous wavelet transform-based pattern matching(通过结合基于连续小波变换的模式匹配来改进质谱中的峰检测)》Oxford University Press,2006年,22卷,17号,第2059-2065页。

发明内容

发明要解决的技术问题

然而,在以往的峰的检测方法中,操作者需要设定检测用参数。因此,根据操作者的手法优劣,存在无法正确地进行峰检测、或者在峰检测中需要过量的试错进而花费时间这样的问题。

于是,为了解决上述技术问题,本发明的目的在于提供一种鉴别器的生成方法,即使在各种成分的峰重叠的未分离峰中也可对各种成分进行正确的峰检测。

用于解决上述技术问题的方案

本发明的示例性的鉴别器的生成方法是生成用于进行峰检测的鉴别器的方法,具有:得到具有第1峰的第1波形数据的工序;得到具有第2峰的第2波形数据的工序,所述第2峰具有与所述第1峰不同的峰位置;将所述第1波形数据的所述第1峰与所述第2波形数据的所述第2峰重合而生成未分离波形数据的工序;将包含所述未分离波形数据的训练数据输入至鉴别器进行学习的工序。在本发明中,在峰检测中,例如包括峰位置的检测、峰起点与终点的检测、峰强度的检测、面积的检测等。

发明效果

根据本发明,通过将由测量得到的各种成分的峰彼此重合从而生成未分离峰的学习数据,因此能够将未分离峰生成前的各峰作为训练数据使用。由此,能够使机器学习的精度提高,能够正确地检测测量对象的试样的各种成分的峰。

附图说明

图1是示出数据解析装置的功能构成的框图。

图2是示出计算机的功能构成的框图。

图3A是用于说明以往的未分离峰的学习方法的图。

图3B是用于说明以往的未分离峰的学习方法的图。

图3C是用于说明以往的未分离峰的学习方法的图。

图3D是用于说明以往的未分离峰的学习方法的图。

图4是示出进行本实施方式的用于决定未分离峰的最佳分离方法的机器学习的计算机的动作的流程图。

图5A是用于说明本实施方式的未分离峰的学习方法的图。

图5B是用于说明本实施方式的未分离峰的学习方法的图。

图5C是用于说明本实施方式的未分离峰的学习方法的图。

具体实施方式

以下参照附图对本发明的优选实施方式详细地进行说明。

<数据解析装置1的构成例>

首先,对检测试样中包含的各种成分的峰的数据解析装置1进行说明。在本实施方式中,对例如采用了液相色谱仪作为数据解析装置1的例子进行说明。图1是示出数据解析装置1的功能构成的一例的框图。

如图1所示,数据解析装置1具备测量装置10与运算装置60。测量装置10具有流动相容器100、送液泵110、试样注入部120、色谱柱130、检测器140。

流动相容器100是用于贮存流动相的容器。送液泵110抽吸贮存在流动相容器100内的流动相并以恒定流量进行输送。试样注入部120从标准试样以及未知试样这样的多种液体试样中选择一种液体试样,将所选择的液体试样注入由送液泵110所输送的流动相中。另外,在需要的情况下,也能够在对试样进行稀释或浓缩等前处理之后将处理后的试样注入流动相中。

在被注入流动相的试样通过色谱柱130的期间,色谱柱130将该试样中包含的成分在时间上分离。检测器140例如是使用了分光测量装置的检测器,且将由色谱柱130分离出的试样的成分转换为电信号的波形数据(也可以称为光谱)并输出至数据处理部30。另外,在本实施方式中,在波形数据中包含对第2变量(例如纵轴的强度)相对于第1变量(例如横轴的频率)进行标绘的二维数据,或者包含除第1变量、第2变量以外还加上第3变量(例如波长、质量数)的三维数据。此外,波形数据的峰表示第2变量的值相对于作为第1变量的规定的值的峰位置取极大值乃至最大值。峰具有规定的宽度(峰宽度),峰宽度表示相对于作为第1变量的峰中心的峰位置对称或非对称地扩展。

运算装置60具有控制部20、数据处理部30、输入部40、显示部50、接口52。

在控制部20分别连接有送液泵110、试样注入部120、检测器140、数据处理部30、输入部40、显示部50以及接口52。控制部70例如包含CPU(Central Processing Unit:中央处理单元),通过执行存储在ROM(Read Only Memory:只读存储器)等存储器中的程序或数据处理部30的程序等来控制装置整体的动作。

数据处理部30分别与控制部20以及检测器140连接,通过控制部20以及程序来具体实现。数据处理部30具有数据收集部310、峰检测处理部320、定性与定量解析部330。

数据收集部310对由测量装置10测量的基于试样的各种成分的色谱图的波形数据分别进行收集,并存储收集的波形数据。

峰检测处理部320具有学习完毕模型存储部322、峰决定部324作为功能模块。在数据处理部30中的存储器储存有由后述的计算机所创建的学习完毕模型,作为学习完毕模型存储部322发挥功能。在此,学习完毕模型是指使后述的鉴别器利用训练数据进行机器学习而得的模型。例如在由测量装置10测量的波形数据中包含未分离峰的情况下,峰检测处理部320的峰决定部324使用储存在学习完毕模型存储部322中的学习完毕模型,将未分离峰自动分离为与各种成分相对应的多个峰。由此,能够检测出与各种成分相对应的分离峰。

定性与定量解析部330基于由峰检测处理部320所提供的峰信息鉴定与各峰相对应的成分,计算峰高度以及峰面积值,根据该值计算出各成分的浓度或者含量。

另外,通常数据处理部30的实际形态是安装有规定的软件的个人计算机或性能更高的工作站,或者是包含经由通信线路与这些计算机连接的高性能的计算机的计算机系统。即,数据处理部30中包含的各模块的功能通过执行搭载于计算机单体或者包含多个计算机的计算机系统的软件来实施。

输入部40例如由键盘、鼠标、触摸屏等构成,进行测量装置10的各种操作,进行由测量装置10所供给的色谱图的波形数据的解析等操作。显示部50例如是由液晶显示器等构成的监视器,显示由检测器140检测出的各种成分的波形数据等,显示定性与定量分析结果。

接口52由LAN(Local Area Network:局域网)、WAN(Wide Area Network:广域网)、USB(Universal Serial Bus:通用串行总线)等构成,例如在与后述的计算机2之间进行双向通信,接收在计算机2侧创建的学习完毕模型等。

<计算机2的构成例>

接下来,对基于输入的学习数据进行机器学习的计算机2进行说明。图2是示出计算机2的功能构成的一例的框图。

如图2所示,计算机2具备控制部70、模型创建部80、存储部92、显示部94、输入部96、接口98。控制部70、模型创建部80、存储部92、显示部94、输入部96以及接口98经由总线72互相连接。

控制部70例如包含CPU,通过执行存储在ROM等存储器中的程序或模型创建部80的程序等来控制装置整体的动作,实施用于推定未分离峰的分离方法的机器学习。

模型创建部80例如构建用于决定多个峰重合后的未分离峰中的最佳分离方法的学习完毕模型。模型创建部80具有学习数据生成部810、鉴别器820作为功能模块。另外,模型创建部80也能够储存在存储部92内。

学习数据生成部810使用由数据解析装置1测量的各种试样的色谱图的波形数据来生成包含多个峰重合后的未分离峰的学习用的波形数据。此外,学习数据生成部810将未分离峰在重合之前的各峰的波形数据作为训练数据相对于生成的包含未分离峰的波形数据进行关联。在训练数据中,例如能够利用波形数据的各峰的面积值或高度值。进而,学习数据生成部810考虑在由数据解析装置1测量的试样中不包含未分离峰的波形数据的情况,还通过测量获取未分离峰以外的分离出的各种波形数据。

另外,在上述实施方式中,由计算机2的学习数据生成部810创建未分离峰的波形数据D12,将该创建的波形数据D12读取至鉴别器820使其进行机器学习,但不限定于此。例如,也可以通过计算机2之外的其它装置根据获取的波形数据D1、D2创建包含未分离峰的波形数据D12,将该创建的波形数据D12输入至计算机2的鉴别器820。

此外,在本实施方式中,为了方便起见而对使用图1所示的数据解析装置1的测量装置10获取在机器学习中使用的试样的波形数据的例子进行说明,也能够使用具有与测量装置10同等功能的其它测量装置来获取学习用的试样的波形数据。

鉴别器820使用包含由学习数据生成部810生成的未分离峰的波形数据、与生成未分离峰前的各峰的波形数据的学习数据来实施机器学习,创建用于决定未分离峰中的最佳分离方法的学习完毕模型。在本实施方式中,由于对未分离峰附有构成未分离峰的各峰的训练数据,因此能够实现机器学习的精度的提高。此外,鉴别器820还读取未分离峰以外的波形数据来实施机器学习,在学习完毕模型中还包括可正确地检测未分离峰以外的峰的功能。在此,作为鉴别器820的机器学习的方法,例如能够使用神经网络、SVM(支持向量机)、AdaBoost等公知的算法。

存储部92由ROM(Read only Memory:只读存储器)、快闪存储器、EPROM(ErasableProgrammable ROM:可擦除可编程ROM)、HDD(Hard Disc Drive:硬盘驱动器)、SSD(SolidState Drive:固态驱动器)等非易失性存储装置构成。在存储部92中例如储存有OS(Operating System:操作系统)等。

显示部94例如是由液晶显示器等构成的监视器。输入部96例如由键盘、鼠标、触摸屏等构成,进行与机器学习的实施有关的各种操作。

接口98由LAN或WAN、USB等构成,例如在与数据解析装置1之间进行双向通信,从数据解析装置1接收色谱图的波形数据,将创建的学习完毕模型发送至数据解析装置1。

<机器学习方法>

接下来,对构建学习完毕模型的机器学习方法进行说明,该学习完毕模型用于在由数据解析装置1测量的试样的色谱图为多个峰重合后的未分离峰的情况下,使用鉴别器820正确地分离各种成分的峰。以下,对以往的机器学习方法进行说明,接着再对本实施方式中的机器学习方法进行说明。此外,例如使用包含成分A、B的试样作为由数据解析装置1进行分离、检测的试样。

[以往的未分离峰的机器学习方法]

首先,通过数据解析装置1进行包含成分A、B的试样的分离、检测,获取包含成分A的峰P3与成分B的峰P4被重合的未分离峰的波形数据D34。图3A示出波形数据D34的一例。如图3A所示,波形数据D34在保留时间t1具有成分A的峰P3,在保留时间t2具有成分B的峰P4。获取的波形数据D34作为学习数据被输入至鉴别器820。

在此,在通过输入的波形数据D34进行机器学习的情况下,为了正确地分离未分离峰中的成分A的峰P3与成分B的峰P4,需要准备与波形数据D34相对应的训练数据。作为训练数据,例如能够分别使用由操作者分离未分离峰而得到的包含峰P3的波形数据D3与包含峰P4的波形数据D4。在该情况下,由于能够预先知道分离的峰P3以及峰P4的各面积值,因此能够将峰P3与峰P4从输入的波形数据D34中的未分离峰中分离。另外,也可由计算机利用算法自动实施未分离峰的分离作业。

作为未分离数据的分离方法,有以下这样的方法。图3B示出垂直分割法。如图3B所示,在垂直分割法中,利用从波形数据D34中的峰P3与峰P4之间的振幅值达到最小的地点(以下称为边界点)在基线上垂直划出的垂线,将峰P3与峰P4分离,得到波形数据D3与波形数据D4。

图3C示出第1基线分割法。如图3C所示,在第1基线分割法中,在峰P3中的起点与上述边界点之间划出基线,在峰P4中的上述边界点与终点之间划出基线,由此将峰P3与峰P4分离,得到波形数据D3与波形数据D4。

图3D示出与图3C不同的第2基线分割法。如图3D所示,在第2基线分割法中,在峰P3中的起点与峰P4的终点之间划出基线,在上述边界点与峰P4的终点之间划出基线,由此将峰P3与峰P4分离,得到波形数据D3与波形数据D4。

将通过上述的各分离方法得到的包含峰P3的波形数据D3以及包含峰P4的波形数据D4各自作为训练数据输入至鉴别器。在鉴别器中,使用未分离峰的波形数据D34、作为与波形数据D34相对应的训练数据的波形数据D3以及波形数据D4实施机器学习,构建用于将未分离峰正确地分离为各峰的学习完毕模型。

然而,在上述的未分离峰的分离方法中存在如下的问题。即,存在根据分离方法的种类不同而分离后的各峰的面积值、高度值不同这样的问题。因此,由于各峰P3、P4的训练数据也会根据采用的分离方法的种类不同而产生偏差,因此存在无法实施高精度的机器学习的问题。其结果为,存在连规定的试样中的各种成分的峰也无法正确地检测这样的问题。因此,通过以下所示的本实施方式的机器学习方法来解决上述以往的问题。

[本发明中的未分离峰的机器学习方法]

图4是示出本实施方式的用于构建将成分A、B的未分离峰分离的鉴别器820的机器学习方法的一例的流程图。图5A示出成分A的波形数据D1的一例。图5B示出成分B的波形数据D2的一例。图5C示出波形数据D12的一例。计算机2通过执行模型创建部80等的程序来执行图4所示的动作。

在步骤S10中,计算机2的输入部96对例如由图1所示的数据解析装置1测量而得的成分A的波形数据D1的输入进行受理。如图5A所示,在波形数据D1中,在保留时间t1出现与成分A相对应的振幅A1的峰P1。

在步骤S20中,计算机2的输入部96对由数据解析装置1得到的成分B的波形数据D2的输入进行受理。如图5B所示,在波形数据D2中,在保留时间t2出现与成分B相对应的振幅A2的峰P2。另外,保留时间t2是比保留时间t1迟的时间,峰P2具有与峰P1不同的峰位置。振幅A1是比振幅A2大的振幅。

在步骤S30中,计算机2的学习数据生成部810将从输入部96读取的作为时间序列信号的波形数据D1与波形数据D2重合来创建包含未分离峰的波形数据D12。即,有意地创建峰P1与峰P2呈未分离这样的波形数据D12。如图5C所示,波形数据D12在保留时间t1具有峰P1,在保留时间t2具有峰P2,彼此相邻的峰P1的终点与峰P2的起点呈未分离的状态。

在步骤S40中,计算机2的鉴别器820读取创建的未分离峰的波形数据D12作为学习数据,并且读取与波形数据D12相对应的波形数据D1、D2作为训练数据。作为训练数据,如上所述,利用各峰P1、P2的面积值。

在步骤S50中,计算机2的鉴别器820使用读取的波形数据D12以及作为训练数据的波形数据D1、D2实施机器学习,基于其学习结果构建用于推定未分离峰的正确的分离方法(分离位置)的学习完毕模型。通过这样的学习方法创建的学习完毕模型例如被保存在计算机2的存储部92等存储器中。

此外,上述学习完毕模型经由通信线路被发送至图1所示的数据解析装置1,被保存在学习完毕模型存储部322。在数据解析装置1中,在检测规定的试样的峰时检测出未分离峰的情况下,通过使用学习完毕模型存储部322的学习完毕模型将未分离峰的波形数据分离为与每种成分对应的峰。通过使用实施了与未分离峰有关的机器学习的学习完毕模型,例如由于能够计算出在未分离峰的哪个位置分割为最佳,因此能够将未分离峰正确地分离为与各种成分相对应的峰。

如以上所说明的那样,根据本实施方式,通过将预先独立测量而得的各成分的峰彼此重合来生成未分离峰的学习数据,因此能够将生成未分离峰前的各峰作为训练数据使用,能够提高机器学习的精度。由此,由于能够使用精度提高的机器学习来实施未分离峰的分离,因此能够正确地检测成为测量对象的试样的各种成分的峰。此外,根据本实施方式,即使在难以大量获取学习数据的情况下,由于能够通过将多个峰重合从而生成学习数据,因此能够实现学习数据的扩充,能够实现机器学习的精度的进一步提高。

此外,在本实施方式中,相对于将分别测量的2个峰P1、P2重合生成的未分离峰的波形数据D12,将在生成该未分离峰前的各峰P1、P2作为训练数据与该波形数据D12进行关联并输入至鉴别器820。由于峰P1、P2分别独立地由数据解析装置1检测,因此能够预先获取各峰P1、P2的正确的面积值。由此,能够利用各峰P1、P2的已知的面积值来实施用于正确地分离未分离峰的机器学习,因此能够构建可决定未分离峰中的最佳分离方法的鉴别器820。

另外,本发明的技术范围并不限定于上述的实施方式,在不脱离本发明的主旨的范围内,包括对上述实施方式附加了各种变更的方案。

例如,在本说明书中,用于进行扩充的学习数据并不限定于将使用分析装置实测出的光谱的峰重合而得的数据,也可以是将模拟了实测的光谱而得的光谱的峰重合而得的数据。该模拟的光谱例如可以是模拟了峰的宽化(也包括拖尾(tailing)、前延(leading))、肩峰的出现、峰裂分等的光谱,也可以是模拟了基线的漂移、噪声的光谱。该模拟的峰能够使用公知的算法、例如i-PDeA II(岛津制作所制)创建。

此外,在上述实施方式中,将成分A、B的2个峰P1、P2重合而有意地生成了未分离峰,但不限定于此。例如,也能够通过将3种以上的成分中的3个以上的峰重合来生成未分离峰,并作为学习数据使用。在该情况下,能够将各峰的面积值作为训练数据利用。此外,有时在成分A、B的峰P1、P2中分别包含2个以上的峰,有时在使用3种以上的成分的3个以上的峰的情况下也相对于各峰包含2个以上的峰。

此外,在上述实施方式中,对使用了由液相色谱装置测量而得的波形数据作为机器学习的对象的例子进行了说明,但不限定于此。例如,除了液相色谱装置以外,还能够对由气相色谱装置(GC)、气相色谱质量分析仪(GC-MS)、液相色谱质量分析仪(LC-MS)、光电二极管阵列检测器(LC-PDA)、液相色谱串联质量分析装置(LC/MS/MS)、气相色谱串联质量分析装置(GC/MS/MS)、液相色谱质量分析仪(LC/MS-IT-TOF)等得到的波形数据应用本实施方式的机器学习法。

附图标记说明

1 数据解析装置

2 计算机

80 模型创建部

810 学习数据生成部

820 鉴别器

D1、D2、D12 波形数据

P1、P2 峰。

相关技术
  • 信息处理装置、处理信息的方法、鉴别器生成装置、生成鉴别器的方法、以及程序
  • 基于多鉴别器条件生成对抗网络的雷达图像目标识别方法
技术分类

06120113107202