导航：首页> 染料；涂料；抛光剂；天然树脂；黏合剂；其他类目不包含的组合物；其他类目不包含的材料的应用>数据扩充

数据扩充

文献发布时间：2023-06-19 11:39:06

技术领域

本公开涉及数据扩充。特别地，本公开涉及表示身体部分的数据集的生成。

背景技术

身体部分的计算模型被用于许多场景中。例如，在医学训练中，器官的计算模型对于研究不同的医学现象很有用。例如，在现代应用中，人工智能(AI)系统可用于识别来自患者的扫描中的此类现象。为此，系统必须学习不同现象看起来什么样，以便可以准确识别它们。在许多情况下，这是通过将大量训练数据集输入到AI系统中来实现的。训练数据集是表示真实患者的模型，该模型已经由该领域的专家进行了研究。这使AI系统知道应该在数据集中找到什么，从而学习识别其他输入数据集中存在的感兴趣特征。这就是所谓的机器学习。

为了尽可能全面而鲁棒地训练计算系统，需要大量的训练数据集。但是，只有有限数量的真实患者模型可用，并且该数目通常不足以鲁棒地训练AI系统。因此，通常扩充用于机器学习应用的训练数据集的数量，以增加示例的数量，从而增加训练模型的稳定性。通常，这是通过修改现有数据集以生成新的不同数据集来实现的。通过旋转、缩放、平移和/或变形现有数据集来执行此修改。在应用变形的情况下，现有模型以随机，非系统的方式变形。

采用这种方法导致许多问题，因为生成的数据集可能不真实。实际上，不同患者的身体部分并不是其他患者的身体部分的简单转变。随机变形不能准确传达真实的患者间差异。此类不真实的数据集可能导致对AI系统的错误训练，从而在识别其他输入数据集中存在的感兴趣特征时导致这些系统的性能不佳。

因此，本公开的目的是建立表示身体部分的更真实的数据集。

发明内容

根据本公开的一方面，提供了一种用于生成表示身体的部分的体积的数据的方法，该方法包括基于输入数据集生成点分布模型“PDM”，输入数据集包括表示身体的部分的至少一个表面的数据，PDM基于平均数据集和一个或多个权重特征向量对来定义表面模型数据集；通过修改一个或多个权重特征向量对中的至少一个权重，基于PDM生成第一表面模型数据集，其中，第一表面模型数据集不同于平均数据集；并基于第一表面模型数据集和第一参考数据集生成输出体积数据集，第一参考数据集包括表示身体的对应部分的体积的数据，输出体积数据集包括表示身体的对应部分的变形体积的数据。

可选地，身体的部分包括至少一个器官。可选地，身体是人类身体。可选地，输入数据集是从至少一个真实身体得出的。可选地，输入数据集包括多个数据集，每个数据集表示相应身体的相同部分。

可选地，生成第一表面模型数据集包括修改一个或多个权重特征向量对中的至少一个权重，使得第一表面模型数据集总体上对应于第二参考数据集，方法还包括修改一个或多个权重特征向量对中的至少一个权重，以提供不同于第一表面模型数据集的第二表面模型数据集，以及确定第一和第二表面模型数据集之间的映射。

可选地，第二参考数据集表示身体的对应部分并且从真实身体中得出。可选地，确定映射包括基于第一和第二表面模型数据集使用可变形图像配准算法。可选地，可变形图像配准算法仅产生正雅可比行列式。可选地，生成输出体积数据集包括将映射应用于第一参考数据集。

可选地，生成PDM包括使用主成分分析。可选地，平均数据集是输入数据集的均值平均。可选地，一个或多个权重特征向量对包括多个权重特征向量对。可选地，多个权重特征向量对包括特征向量的线性组合。可选地，PDM由以下等式定义

其中，x

可选地，修改一个或多个权重特征向量对中的至少一个权重包括：在基于输入数据集的标准偏差定义的间隔内，修改权重。可选地，修改一个或多个权重特征向量对中的至少一个权重包括随机地修改权重。可选地，修改一个或多个权重本征向量对中的至少一个权重包括从初始权重递增地修改权重。可选地，修改一个或多个权重特征向量对中的至少一个权重包括修改一个或多个权重特征向量对中的所有权重。

可选地，第一参考数据集表示身体的对应部分，并且是从真实身体中得出的。可选地，该方法还包括使用输出体积数据集作为用于人工智能系统的深度学习过程的训练集的一部分。

根据另一方面，提供了一种用于生成表示身体的部分的体积的数据的方法，该方法包括基于输入数据集生成点分布模型“PDM”，输入数据集包括表示身体部分的至少一个体积的数据，PDM基于平均数据集和一个或多个权重特征向量对来定义输出体积数据集；并通过修改一个或多个权重特征向量对中的至少一个权重，基于PDM生成输出体积数据集，其中输出体积数据集不同于平均数据集。

可选地，身体的部分包括至少一个器官。可选地，身体是人类身体。可选地，输入数据集是从至少一个真实身体得出的。

可选地，输入数据集包括多个数据集，每个数据集表示相应身体的相同部分。

可选地，生成PDM包括使用主成分分析。可选地，平均数据集是输入数据集的均值。可选地，一个或多个权重特征向量对包括多个权重特征向量对。可选地，多个权重特征向量对包括特征向量的线性组合。可选地，PDM由以下等式定义

其中，x

可选地，该方法还包括使用输出体积数据集作为用于人工智能系统的深度学习过程的训练集的一部分。

根据另一方面，提供了一种计算机可读介质，该计算机可读介质包括当在处理器上运行时使处理器执行该方法的指令。

附图说明

现在将参考附图描述本公开的示例性实施例，其中：

图1示出了感兴趣区域的计算模型的视图；

图2示出了根据本公开的用于生成表示身体的部分的体积的数据的方法；

图3示出了根据本公开的用于生成表示身体的部分的体积的数据的另一方法；以及

图4示出了计算环境的示意图。

在整个说明书和附图中，相同的附图标记指代相同的部分。

具体实施方式

图1示出了感兴趣区域(ROI)100的计算模型的视图。在这种情况下，ROI是人类身体的并且包括多个器官。可以看出，ROI 100包括两个肺102、104和心脏106。在其他实施例中，ROI可以是动物身体的。在其他实施例中，ROI可以包括不同数量的器官，例如单个器官、两个器官或四个或更多个器官。

该计算模型可以从患者的扫描得出。例如，可以使用计算机断层摄影(CT)扫描、磁共振成像(MRI)扫描或本领域已知的其他类型的扫描来捕获患者中的ROI 100。然后可以对扫描进行分割以界定ROI中的不同特征。例如，分割过程可以界定第一肺102、第二肺104和心脏106。分割过程还可以识别各个器官的内部特征。所得的计算模型可以包括在三个维度上表示ROI 100的几何形状的数据，例如器官102-106的表面和体积坐标。

该计算模型是数据集的示例，该数据集可以在训练数据集中用于AI系统的机器学习过程，例如，用于识别患者ROI中的物理特征。这样的训练数据集应包括尽可能多的不同模型，以使得AI系统可以获取尽可能多的不同特征，并因此在将来的输入数据集中准确地识别这些特征。但是，由于各种原因，对于任何给定的ROI，只有相对少量的患者得出模型。

本公开提出一种生成表示与现有数据集不同并且也是真实的(类似于人类的)ROI的数据的方法，而不是不产生ROI的真实几何形状的当前已知的人工几何形状的方法。

该方法包括基于输入数据集为特定的ROI生成点分布模型(PDM)。点分布模型表示形状的平均几何形状以及从形状的输入集中推断出的一些几何变化的统计模式。输入数据集包括多个数据集，每个数据集表示要为其生成PDM的ROI。在一些实施例中，输入数据集中的每个数据集可以从患者的扫描中得出，如上所述。在其他实施例中，输入数据集中的每个数据集可以被人工得出。还在其他实施例中，输入数据集可以包括从真实患者扫描得出的数据集和人工得出的数据集的组合。

输入数据集中的每个数据集包括多个数据点，从而可以充分表示原始形状的几何形状。包括m个数据点的数据集x可以被二维描述为x＝(x

主成分分析(PCA)可用于计算跨输入数据集的归一化特征向量和协方差矩阵的特征值，其中每个特征向量均描述沿集合的主要变化模式。最后，特征向量的线性组合用于定义新的形状/模型数据集x

其中x

在一些实施例中，平均值是均值平均值(mean average)。在一些实施例中，可能仅存在单个变化模式(即，n＝0)。在其他实施例中，存在多种变化模式(即，n＞0)。在这种情况下，e

如果所有权重α

从零修改任何权重将产生与平均数据集不同的模型数据集x

通过在PDM中实现权重的不同修改，可以生成不同的模型数据集。如上所述，由于PDM基于包括真实几何形状的输入数据集，因此捕获的变化是真实的，因此模型数据集也是真实的。在诸如ROI 100的ROI包括多个器官的实施例中，所描述的方法允许器官在模型数据集中相对于彼此变形，因此器官中的一个不相对于其他器官发生不真实的变形(例如，产生两个大小不同的肺，在真实中是罕见的)。已知的几何图形生成方法不能保证这一点。

在输入数据集包括体积数据的实施例中，从PDM生成的模型数据集x

图2示出了用于生成表示身体的部分的体积的数据的方法200。如上所述，身体的部分可以是包括诸如器官102-106的至少一个器官的ROI，诸如ROI 100。在一些实施例中，身体是人类身体。

在步骤202处，基于输入数据集生成用于ROI的PDM。输入数据集包括表示ROI的体积的数据，并且在一些实施例中，从至少一个真实身体，例如从患者得出。输入数据集可以包括多个数据集，每个数据集表示来自不同患者的相同的ROI。

PDM基于平均数据集和一个或多个权重特征向量对定义输出数据集。在一些实施例中，PDM是使用主成分分析生成的，并且包括输入数据集的平均值和特征向量的线性组合。

在步骤204处，基于PDM生成输出数据集。通过修改权重特征向量对中的至少一个权重来生成输出数据集，以使输出数据集不同于平均数据集。在一些实施例中，在由输入数据集的标准偏差定义的间隔内修改权重。权重可以从初始权重随机地或增量地修改。可以修改线性组合中的一个、一些或所有权重以产生输出数据集。

在步骤206处，将输出数据集用作用于AI系统的机器学习的训练集的一部分。例如，这可能是针对图像分割算法的深度学习。可以生成多个输出数据集，以使训练集尽可能大，从而确保鲁棒地训练AI系统。这导致系统具有改善的性能。

在一些实施例中，可以开发从PDM生成的模型数据集，以相对低的计算成本来产生另外的数据集。如下所述，表面数据只能在不同的阶段使用以生成不同的体积数据集。通过使用表面数据而非体积数据，可以大大减少与计算特征向量相关的计算负担。为了针对从PDM生成的给定模型数据集x

在一些实施例中，PDM用于使用上述方法来生成第一模型数据集。在这种情况下，输入数据集仅包括表示ROI的表面数据，因此，从PDM生成的模型数据集也包括表示新几何形状的ROI的表面数据。在一些实施例中，执行上述权重的修改，以使得第一模型数据集总体上尽可能对应于参考数据集。参考数据集是从真实身体得到的，并且表示与输入数据集和PDM对应的ROI。在一些实施例中，参考数据集包括表示对应的ROI的表面数据，而在其他实施例中，参考数据集包括表示对应的ROI的体积数据。使用表面数据允许对PDM进行更简单的修改以匹配参考ROI。原因是，当模型数据集(其是三角形的表面)适合于对应于例如体积数据和来自CT扫描的图像时，有必要提取不同类型的图像特征，其描述了ROI的不同部分之间的边缘。这被称为图像分割，并且对于ROI或带有模糊边界的ROI部分来说可能困难。通过使用表面数据，专家，例如医生已经从图像中对表面/ROI/器官进行了分割，从而使PDM更加适合于现有的表面。由PDM生成的模型数据集的旋转、平移和缩放也可以用于提供与参考数据集的更好对应。

为了确保对应尽可能准确，可以应用相似性度量。在一些实施例中，使用骰子相似性系数(DSC)。DSC是介于0和1之间的数字，它描述了几何形状对象之间的几何形状相似性。如果在给定的迭代次数后DSC不够高，则认为自适应已失败。

一旦生成了第一表面模型数据集，就可以进一步修改权重以提供不同于第一模型数据集的第二表面模型数据集。权重的修改可以以上述任何方式进行。

这样，生成了两个表面模型数据集。然后可以确定第一和第二表面模型数据集之间的几何映射。该映射描述了将第一表面模型数据集改变为第二表面模型数据集所需的变形。在一些实施例中，基于第一模型数据集和第二模型数据集，使用可变形图像配准(DIR)算法来确定映射。DIR算法生成三维变形场或映射。在这种情况下，生成的映射将把第一表面模型数据集映射到第二表面模型数据集。如果第一和第二表面模型数据集相同，则映射将无效。在一些实施例中，可变形图像配准算法被配置为使得它产生单射的映射。也就是说，它不将不同的点映射到同一点。仅生成正雅可比矩阵的函数可以保证这一点。这样，映射不在生成的表面中产生任何折叠。在大多数情况下，通过最小化基于像素/体素值的图像之间的某些误差度量来驱动DIR。这通常使用两个不同的图像扫描，例如一对吸气/呼气图像来实现。由于这两个图像不同，因此一个图像可以变形到另一个图像上。然而，在这里公开的实施例中，仅使用一个图像扫描，并且使用两个表面模型来驱动变形。然后，由于表面之间的映射，图像扫描可能被变形。

一旦确定了映射，就可以生成输出数据集。为此，将映射应用于参考数据集。在这种情况下，参考数据集包括体积数据，使得将映射应用于参考数据集的输出是表示所关注的ROI的变形体积的数据集。参考数据集可以与用于确定第一模型数据集的相同，或者可以是不同的参考数据集。为了确保生成真实的输出数据集，参考数据集是从真实身体得到的，并且表示与映射的ROI对应的ROI。通过将模型数据集与不同阶段的真实几何形状相关联，可以确保真实的变形。例如，如果将描述ROI 100的PDM错误地放置在身体的另一部分上，则ROI100的肺部102、104和心脏106的形状变化将应用于完全不同的解剖区域。通过将PDM与对应ROI的实际几何形状相关联，可以避免这种情况。

使用映射方法生成的每个输出数据集可以在训练数据集中使用，以为AI系统以及更准确的AI系统提供更全面且鲁棒的机器学习过程。在图像分割算法的示例中，该算法可能能够更准确地分割输入到该算法中的ROI的图像。在其他实施方式中，从PDM生成的几何形状可用于期望预测未来患者几何形状的自适应方案，或用于需要真实变形数据的任何应用领域。

图3示出了用于生成表示身体的部分的体积的数据的方法300。类似于方法200，身体的部分可以是包括诸如器官102-106的至少一个器官的ROI，诸如如ROI 100。在一些实施例中，身体是人类身体。

在步骤302处，基于输入数据集生成用于ROI的PDM。输入数据集包括表示ROI的一个或多个表面的数据，并且在一些实施例中，是从至少一个真实身体，例如从患者得到的。输入数据集可以包括多个数据集，每个数据集表示来自不同患者的相同的ROI。PDM基于平均数据集和一个或多个权重特征向量对定义输出数据集。在一些实施例中，PDM是使用主成分分析生成的，并且包括输入数据集的平均值和特征向量的线性组合。

在步骤304处，基于PDM生成第一模型数据集。通过修改权重特征向量对中的至少一个权重来生成输出数据集，以使输出数据集不同于平均数据集。这可以包括修改权重，使得第一模型数据集总体上对应于参考数据集。参考数据集表示从真实身体得到的对应ROI。在一些实施例中，在由输入数据集的标准偏差定义的间隔内修改权重。权重可以从初始权重随机地或增量地修改。可以修改线性组合中的一个、一些或所有权重以产生第一模型数据集。

在步骤306处，修改与第一模型数据集对应的权重值以提供与第一模型数据集不同的第二模型数据集。在一些实施例中，在由输入数据集的标准偏差定义的间隔内修改权重。权重可以从初始权重随机地或增量地修改。可以修改线性组合中的一个、一些或所有权重，以产生第二模型数据集。

在步骤308处，生成第一模型数据集和第二模型数据集之间的映射。在一些实施例中，使用基于第一模型数据集和第二模型数据集的可变形图像配准算法来生成映射。在一些实施例中，可变形图像配准算法被配置为使得它产生单射的映射。也就是说，可变形图像配准算法仅生成正雅可比行列式。

在步骤310处，基于第一模型数据集和参考数据集生成输出数据集。具体而言，将基于第一模型数据集确定的映射应用于参考数据集。参考数据集表示从真实身体得到的对应ROI的体积。这样，输出数据集包括表示所关注的ROI的变形体积的数据。

在步骤312处，将输出数据集用作用于AI系统的机器学习的训练集的一部分。例如，这可能是针对图像分割算法的深度学习。可以生成多个输出数据集，以使训练集尽可能大，从而确保鲁棒地训练AI系统。这导致系统具有改善的性能。

上述方法减轻了针对人类或动物的ROI训练AI系统的问题。所公开的方法允许生成可用于增强AI系统的训练集的多个几何形状，其中当前仅有限数量的真实患者模型可用，并且该数目通常不足以鲁棒地训练AI系统。此外，在由于随机或非自然变形而当前生成的数据集可能不真实的情况下，所公开的方法允许生成合成的但类似于人的几何形状。通过生成这种真实的几何形状，从而扩充AI系统的训练集，可以更全面且鲁棒地进行训练。这样，改善了训练的AI系统的性能。在图像分割算法的示例中，该算法可能能够更准确地分割输入到该算法中的ROI的图像。在其他实施方式中，从PDM生成的几何形状可用于期望预测未来患者几何形状的自适应方案，或用于需要实际变形数据的任何应用领域。

图4示出了用指令410编码的计算机可读介质400的示意图，该指令410在处理器上执行时执行上述方法。在该实施例中，计算机可读介质400是数据盘。在一个实施例中，数据盘可以是磁性数据存储盘。数据盘可以被配置为携带指令410，该指令410在被加载到诸如处理器的控制器中时执行根据以上公开的实施例的方法或过程。数据盘可以被布置为连接到读取设备420或在读取设备420内并由读取设备420读取，以将指令加载到控制器中。与一个(或多个)数据盘组合的读取设备420的一个这样的示例是硬盘驱动器。应当注意，计算机可读介质还可以是其他介质，诸如光盘、数字视频盘、闪存或其他常用的存储技术。在这样的实施例中，数据盘可以是一种类型的有形计算机可读介质400。

通过将指令410包括在计算机可读信号440中，指令410也可以被下载到计算机数据读取设备430，诸如能够读取计算机可读介质上的计算机编码数据的计算机或其他设备，计算机可读信号440经由无线(或有线)接口(例如，通过因特网)被发送到计算机数据读取设备430，以将指令410加载到控制器中。在这样的实施例中，计算机可读信号440是一种类型的非有形计算机可读介质400。

该控制器负责计算机数据读取设备430的整体操作，并且优选地由任何市售的CPU(“中央处理单元”)、DSP(“数字信号处理器”)或任何其他电子可编程逻辑设备来实现。可以使用使能硬件功能的指令，例如，通过在通用或专用处理器中使用可以存储在计算机可读存储介质(磁盘、存储器等)上以由该处理器执行的可执行的计算机程序指令，来实现控制器。控制器可以被配置为从存储器中读取指令并执行这些指令以控制计算机数据读取设备430的操作。可以使用用于诸如ROM、RAM、SRAM、DRAM、CMOS、FLASH、DDR、EEPROM存储器、闪存、硬盘驱动器、光学存储器或其任何组合的计算机可读存储器的任何公知技术来实现该存储器。

根据一些实施例，计算机数据读取设备430可以进一步包括用户界面，该用户界面可以例如包括显示器和小键盘或触摸屏。本领域中已知的其他用户界面元素可以等同地用于用户界面的一部分。

对计算机程序、指令、代码等的引用应被理解为包含用于可编程处理器的软件或固件，诸如例如硬件设备的可编程内容，无论是用于处理器的指令，还是用于固定功能设备的配置设置，门阵列或可编程逻辑器件等。

受益于前述说明书和相关附图中呈现的教导，本领域技术人员将想到所描述的实施例的修改和其他变型。因此，应当理解，实施例不限于本公开中描述的具体示例实施例，并且修改和其他变型旨在被包括在本公开的范围内。此外，尽管本文可以采用特定术语，但是它们仅在一般性和描述性意义上使用，而不是出于限制的目的。因此，本领域技术人员将认识到对所描述的实施例的多种变型仍将落入所附权利要求的范围内。如本文所使用的，术语“包括”或“包含”不排除其他元件或步骤的存在。此外，尽管各个特征可以包括在不同的权利要求中，但是可以将这些特征有利地组合，并且包含不同的权利要求并不意味着特征的组合是不可行和/或不利的。另外，单数引用不排除多个。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：奥拉·韦斯特兰德;
专利申请人：光线搜索实验室公司;