掌桥专利:专业的专利平台
掌桥专利
首页

使用机器学习模型来抑制偏差数据

文献发布时间:2023-06-19 10:32:14


使用机器学习模型来抑制偏差数据

技术领域

本公开涉及使用机器学习模型抑制(reject)偏差数据。

背景技术

一般地说,偏差是统计数据高估或低估参数的趋势。在这方面,收集数据和分析数据通常包括一些固有偏差。这些偏差可能由收集和分析的方法或执行收集和分析的实体产生。例如,由人类设计并执行的数据研究可以迎合特定假设、人类设计约束(例如,人类能力)、采样约束等。通过迎合这些要素,研究的数据结果很可能包括各种采样误差、测量误差、或更广泛地基于不表示研究目标群体(target population)的样本的误差。由于计算机处理使得技术能够以与人类活动不可比拟的速率收集数据和分析数据,所以数据处理技术必须同样地克服偏差的问题。否则,数据处理尤其对于大块数据,可能放大偏差问题并产生与由人类活动生成的偏差不可比拟的结果。

发明内容

本公开的一个方面提供一种用于使用机器学习模型来抑制偏差数据的方法。该方法包括在数据处理硬件处接收偏差训练数据集,该偏差训练数据集基于目标群体的偏差敏感变量的概率分布。该方法还包括由数据处理硬件基于目标群体的至少一个相应的偏差敏感变量将偏差训练数据集分段成聚类,这些聚类中的每个聚类包括对应的偏差聚类权重。该方法还包括:在数据处理硬件处接收用于机器学习模型的训练数据集;以及由数据处理硬件将用于机器学习模型的训练数据集分段成训练聚类。每个训练聚类与目标群体的至少一个对应的偏差敏感变量相关联并且包括对应的训练数据集权重。该方法还包括由数据处理硬件调整每个训练数据集权重以与相应的偏差聚类权重匹配以形成调整后的训练数据集。该方法还包括由数据处理硬件将调整后的训练数据集作为无偏差训练数据集提供给机器学习模型。

本公开的实现方式可以包括以下任选特征中的一个或多个。在一些实现方式中,该方法包括将调整后的训练数据集作为无偏差训练数据集提供给机器学习模型还包括用无偏差训练数据集来训练机器学习模型。该方法可以包括由数据处理硬件用无偏差训练数据集来训练机器学习模型或者可以包括在数据处理硬件处接收包括至少一个相应的偏差敏感变量的样本数据集。在这里,该方法还可以包括由数据处理硬件使用所训练的机器学习模型基于所接收的样本数据集来生成无偏差预测值。

在一些示例中,调整每个训练数据集权重以与相应的偏差聚类权重匹配包括:对于每个训练数据集权重,基于公共偏差敏感变量来使该训练数据集权重与相应的偏差聚类权重匹配;以及从训练数据集中移除数据,直到该训练数据集权重与相应的偏差聚类权重匹配为止。在其他示例中,调整每个训练数据集权重以与相应的偏差聚类权重匹配包括:对于每个训练数据集权重,基于公共偏差敏感变量来使该训练数据集权重与偏差聚类权重匹配;以及从训练数据集中复制数据,直到每个训练数据集权重与相应的偏差聚类权重匹配为止。

在一些配置中,对于每个训练数据集权重,调整每个训练数据集权重以与相应的偏差聚类权重匹配包括基于公共偏差敏感变量来使该训练数据集权重与偏差聚类权重匹配。当训练数据集权重小于相应的偏差聚类权重时,该方法可以包括关联指示关于与训练数据集权重相对应的训练数据增加机器学习模型的训练的重要性权重。附加地或替换地,对于每个训练数据集权重,调整每个训练数据集权重以与相应的偏差聚类权重匹配可以包括基于公共偏差敏感变量来使该训练数据集权重与偏差聚类权重匹配。在这里,当训练数据集权重大于相应的偏差聚类权重时,该方法可以包括关联指示关于与训练数据集权重相对应的训练数据减少机器学习模型的训练的重要性权重。

在一些实现方式中,调整训练数据集权重中的每个训练数据集权重以与相应的偏差聚类权重匹配包括,对于每个训练数据集权重,基于公共偏差敏感变量来使该训练数据集权重与相应的偏差聚类权重匹配。当训练数据集权重小于相应的偏差聚类权重时,该方法包括关联指示关于与训练数据集权重相对应的训练数据增加机器学习模型的训练的重要性权重,而当训练数据集权重大于相应的偏差聚类权重,该方法包括关联指示关于与训练数据集权重相对应的训练数据减少机器学习模型的训练的重要性权重。

在一些示例中,将偏差训练数据集分段成聚类包括基于相应的聚类的大小与偏差训练数据集的目标群体的大小的比率来确定用于每个聚类的偏差聚类权重。训练偏差训练数据集可以包括定义偏差特征,这些偏差特征与偏差敏感变量相对应。

本公开的另一方面提供一种用于使用机器学习模型来抑制偏差数据的系统。该系统包括数据处理硬件和与该数据处理硬件通信的存储器硬件。存储器硬件存储指令,这些指令当在数据处理硬件上执行时使数据处理硬件执行操作。操作包括接收偏差训练数据集,该偏差训练数据集基于目标群体的偏差敏感变量的概率分布。操作还包括基于目标群体的至少一个相应的偏差敏感变量将偏差训练数据集分段成聚类,这些聚类中的每个聚类包括偏差聚类权重。操作还包括:接收用于机器学习模型的训练数据集;以及由数据处理硬件将用于机器学习模型的训练数据集分段成训练聚类。每个训练聚类与目标群体的至少一个对应的偏差敏感变量相关联并且包括对应的训练数据集权重。该方法还包括调整每个训练数据集权重以与相应的偏差聚类权重匹配以形成调整后的训练数据集。该方法还包括将经调整后的训练数据集作为无偏差训练数据集提供给机器学习模型。

这个方面可以包括以下任选特征中的一个或多个。在一些配置中,将经调整后的训练数据集作为无偏差训练数据集提供给机器学习模型的操作包括用无偏差训练数据集来训练机器学习模型。操作还可包括:用无偏差训练数据集来训练机器学习模型;接收包括至少一个相应的偏差敏感变量的样本数据集;以及使用机器学习模型来基于所接收到的样本数据集生成无偏差预测值。

在一些实现方式中,调整每个训练数据集权重以与相应的偏差聚类权重匹配的操作还包括:对于每个训练数据集权重,基于公共偏差敏感变量使该训练数据集权重与相应的偏差聚类权重匹配;以及从训练数据集中移除数据,直到该训练数据集权重与相应的偏差聚类权重匹配为止。在其他示例中,调整每个训练数据集权重以与相应的偏差聚类权重匹配的操作包括:对于每个训练数据集权重,基于公共偏差敏感变量使该训练数据集权重与偏差聚类权重匹配;以及从训练数据集中复制数据,直到每个训练数据集权重与相应的偏差聚类权重匹配为止。

在一些示例中,调整每个训练数据集以与相应的偏差聚类权重匹配的操作包括,对于每个训练数据集权重,基于公共偏差敏感变量使该训练数据集权重与偏差聚类权重匹配。在此示例中,当相应的训练数据集权重小于相应的偏差聚类权重时,操作包括关联指示关于与训练数据集权重相对应的训练数据增加机器学习模型的训练的重要性权重。在其他示例中,调整每个训练数据集权重以与相应的偏差聚类权重匹配的操作可以包括基于公共偏差敏感变量使训练数据集权重与偏差聚类权重匹配。在此示例中,当相应的训练数据集权重大于对应的偏差聚类权重时,操作包括关联指示关于与训练数据集权重相对应的训练数据减少机器学习模型的训练的重要性权重。

附加地或替换地,调整每个训练数据集权重以与相应的偏差聚类权重匹配的操作可以包括,对于每个训练数据集权重,基于公共偏差敏感变量使该训练数据集权重与相应的偏差聚类权重匹配。在这里,当相应的训练数据集权重小于相应的偏差聚类权重时,关联指示关于与训练数据集权重相对应的训练数据增加机器学习模型的训练的重要性权重,而当训练数据集权重大于相应的偏差聚类权重时,关联指示关于与训练数据集权重相对应的训练数据减少机器学习模型的训练的重要性权重。

在一些配置中,将偏差训练数据集分段成聚类的操作包括基于相应的聚类的大小与偏差训练数据集的目标群体的大小的比率来确定用于每个聚类的偏差聚类权重。训练偏差训练数据集的操作可以包括定义偏差特征,这些偏差特征与偏差敏感变量相对应。

在附图和以下描述中阐述了本公开的一种或多种实施方式的细节。根据描述和附图以及根据权利要求书,其他方面、特征和优点将是显而易见的。

附图说明

图1是示例机器学习环境的示意图。

图2A是用于偏差抑制模型的示例处理阶段的示意图。

图2B是在图2A的训练阶段期间的示例偏差抑制模型的示意图。

图2C是在图2A的无偏差阶段期间的示例偏差抑制模型的示意图。

图2D和2E是在图2A的无偏差阶段期间由偏差抑制模型进行的示例调整的示意图。

图3是并入来自偏差抑制模型的无偏差训练数据的机器学习模型的示例处理阶段的示意图。

图4是用于在机器学习环境内使机器学习模型无偏差的示例方法的流程图。

图5是可以被用于实现本文描述的系统和方法的示例计算设备的示意图。

在各个附图中,相似的附图标记指示相似的元件。

具体实施方式

图1是机器学习环境10的示例。机器学习环境10通常包括具有可经由网络120访问的资源110的分布式系统100(例如,诸如云环境的远程系统)、偏差抑制模型200和机器学习模型300。资源110可供偏差抑制模型200和/或机器学习模型300访问,以用于训练偏差抑制模型200和/或机器学习模型300,以及用于执行在此公开的机器学习功能。分布式系统100可以是具有能够执行偏差抑制模型200和/或机器学习模型300的计算资源(例如,资源110)的任何计算机处理系统。在一些示例中,偏差抑制模型200和/或机器学习模型300在可经由网络120访问分布式系统100或以其它方式与分布式系统100通信的设备上执行。例如,该设备可以执行与分布式系统100相关联的基于web的应用。

通常,分布式系统100的资源110可以包括硬件资源110h、110h

软件应用(即,软件资源110s)可以指使计算设备执行任务的计算机软件。在一些示例中,软件应用可以被称为“应用”、“app”或“程序”。示例应用包括但不限于系统诊断应用、系统管理应用、系统维护应用、文字处理应用、电子表格应用、消息传递应用、媒体流应用、社交联网应用和游戏应用。

存储器硬件114是非暂时性存储器,其可以是用于在临时或永久基础上存储程序(例如,指令序列)或数据(例如,程序状态信息)以供数据处理硬件112使用的物理设备。存储器硬件114可以是易失性和/或非易失性可寻址半导体存储器。非易失性存储器的示例包括但不限于闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电子可擦除可编程只读存储器(EEPROM)(例如,通常用于固件,诸如引导程序)以及磁盘或磁带。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)和相变存储器(PCM)。

在所示的示例中,偏差抑制模型200结合资源110执行以解决偏差问题以防不利地影响机器学习模型300。换句话说,偏差抑制模型200被配置成通过以下来防止在包括偏差数据的机器学习(ML)训练数据集302上训练机器学习模型300:生成/输出用于在训练ML模型300时使用的与ML训练数据集302相关联的、其中偏差数据被移除的无偏差训练数据集。通过防止机器学习模型300在ML训练数据集302内的偏差数据上训练,机器学习模型300不受偏差数据影响,因此能够在推理期间生成无偏差预测值310(图3)。因此,偏差抑制模型200与过滤器相对应,该过滤器在通过输出/生成用于在训练ML模型300时使用的无偏差训练数据集206来在训练ML模型300之前移除/调整ML训练数据集302内的偏差数据。

图2A示出在第一训练阶段202和在第一训练阶段202之后的第二无偏差阶段204的执行期间的偏差抑制模型200。在训练阶段202期间,偏差抑制模型200接收偏差训练数据集130并输出偏差聚类权重214。在无偏差阶段204期间,偏差抑制模型200接收ML训练数据集302并使用从训练阶段202输出的偏差聚类权重214来输出使偏差数据被从ML训练数据集302中移除的无偏差训练数据集206。

在这里,术语“权重”(例如,偏差聚类权重214、214a-n和训练数据集权重218、218a-n)是指映射到由聚类的过程形成的独特聚类的值,诸如比率。对于群体,每个聚类可以和群体的部分有关,因此该部分的值可以是与该聚类(例如,群体的子集)相关联的权重。换句话说,通过将群体聚类成子集,每个子集固有地具有关于群体的特性(例如,权重)。更一般地,诸如偏差聚类212或训练聚类216的聚类是指人们的能够用于对和那些人们有关的训练数据进行分组的群组。人们的群组可以包含在其训练数据中共享连续范围的变量值的人们(例如,针对25-27岁亚洲女性的聚类可能包含具有25岁亚洲女性的一个训练示例、具有26岁亚洲女性的另一训练示例以及共享此值集的其他训练示例)。

在其他实现方式中,聚类包含通过聚类算法(例如,聚类模型)对其训练数据进行聚类的人们。聚类算法基于在人们(或人们的特性)之间具有较短距离而将人们放入算法认为类似的组。按较短距离分组可以避免聚类数目随着变量值数目在相应的群体中增长而呈指数增长。可以根据所关注变量(例如,偏差变量)和/或其他变量来执行聚类以确定训练数据(例如,人们)之间的距离。例如,基于其他变量执行聚类,但是用于对数据进行聚类的最终确定是基于所关注变量(例如,偏差变量)。作为示例,聚类过程将18岁和19岁的男性奥地利人和德国人分组成单个聚类,因为它基于定义的度量(例如,所用语言、相关利益、在社交网络中连接或成为相同组织的成员的频率)来识别相似性。作为用于说明大量潜在聚类方法的另一示例,聚类过程可以具有覆盖这些类别的四个单独的组:(1)18岁的奥地利人;(2)18岁的德国人;(3)19岁的奥地利人;和(4)19岁的德国人。

进一步参考图2A,在训练阶段202期间,偏差抑制模型200基于目标群体的偏差敏感变量132的概率分布接收偏差训练数据集130。偏差敏感变量132是指变量,所述变量当在目标群体的数据样本中过表示或欠表示时,导致根据目标群体的采样的偏差预测的可能性增加。换句话说,与偏差敏感变量132的准确表示的微小偏离很可能产生偏斜的预测分析。因此,当在没有偏差敏感变量132的准确训练数据集的情况下构造(即训练)诸如机器学习模型300的机器学习模型时,机器学习模型可以固有地产生偏差预测和偏差计算分析。偏差敏感变量132的一些示例包括种族、性别、性、年龄、国籍、宗教隶属、政治隶属、富裕程度等。换句话说,偏差敏感变量132可以是人类特性或属性(也称为偏差特征)。

在一些配置中,偏差敏感变量132基于诸如政治气候(例如,移民/公民身份、种族关系等)、时事(抗议、丑闻、新闻、天气等)或流行文化(电影、书籍、艺术、电影、名人、体育等)的因素动态地变化。在一些实现方式中,基于与机器学习模型300一起使用的数据的类型或由机器学习模型300执行的建模的类型来确定偏差敏感变量132。例如,对加利福尼亚州的人口统计数据进行建模的机器学习模型300与对新罕布什尔州的人口统计数据进行建模的机器学习模型300比可能具有不同的偏差敏感变量132。即,新罕布什尔州作为种族不多样化的州,可能自然地不包括影响加利福尼亚州的人口统计数据的一些偏差敏感变量132。

在其他配置中,偏差敏感变量132是一旦被标识和/或预编程就是不改变的全局变量。任选地,如果实体定义了偏差敏感变量132,则该实体可以首先对机器学习模型300的预测结果进行建模以分析对预测具有最大影响的偏差敏感变量132。例如,实体具有用于机器学习模型300的预测的预期结果的基线,并且当与预期结果进行比较时,基于诸如偏离和方差的统计数据来确定偏差敏感变量132的影响。

在一些示例中,目标群体是给定变量或变量集的完整数据集。在这里,偏差抑制模型200和/或机器学习模型300可以被训练和/或做出与目标群体相对应的预测。作为基本示例,机器学习模型300可以被配置成预测作为加利福尼亚州的群体的目标群体的值。为了准确地做出关于加利福尼亚州的群体的预测,每个模型200、300在与加利福尼亚州的群体相关联的数据上训练。

在所接收到的偏差训练数据集130上训练偏差抑制模型200之后,偏差抑制模型200被配置成在无偏差阶段204期间调整意在供训练ML模型300时使用的ML训练数据集302。通过在训练ML模型300之前调整ML训练数据集302,偏差抑制模型200生成无偏差训练数据集206并将无偏差训练数据集206提供给ML模型300。换句话说,在无偏差阶段204期间,偏差抑制模型200基于在训练阶段202期间在偏差训练数据集130上对偏差抑制模型200进行的训练来将ML训练数据集302(例如,可能潜在地包括偏差数据)转换成无偏差训练数据集206。在一些示例中,偏差抑制模型200用不止一个偏差训练数据集130来训练。例如,偏差抑制模型200在新的或更新的偏差训练数据集130上动态地训练,以连续地了解(accountfor)偏差训练数据集130随时间的变化。训练阶段202和无偏差阶段204可以连续地或同时地执行,或两者的某种组合。

图2B图示在训练阶段202期间的偏差抑制模型200的示例。在这里,偏差抑制模型200接收与目标群体相对应的偏差训练数据集130。在一些实现方式中,诸如偏差抑制模型200的管理员或能够访问偏差抑制模型200的用户(例如,关注特定偏差特征集的用户)的实体140为偏差训练数据集130定义与偏差敏感变量132相对应的偏差特征。例如,图2B描绘与虚线相关联的实体140以指示定义偏差特征和/或偏差敏感变量132的实体140在训练阶段202期间是任选的。在一些示例中,实现偏差抑制模型200的设计者或实体针对特定偏差特征集设计偏差抑制模型200。在这些示例中,实体140可能不需要供应偏差特征和/或偏差敏感变量132。在一些配置中,偏差训练数据集130包括完整目标群体数据集。例如,当偏差敏感变量132与人口统计敏感变量(例如,种族、性别、年龄、国籍等)相对应时,偏差抑制模型200可以接收美国人口统计数据的完整数据集作为偏差训练数据集130。

偏差抑制模型200包括分段器210和调整器220。分段器210被配置成基于目标群体的至少一个相应的偏差敏感变量132将偏差训练数据集130分段成偏差聚类212、212a-n。例如,图2B将偏差敏感变量132、132a-n图示为种族、性别和年龄。在一些示例中,每个偏差聚类212与每个偏差敏感变量132组合相对应。作为示例,在种族、性别和年龄的偏差敏感变量132的情况下,每个偏差聚类212对应于一种类型的种族(例如,黑人、白人、西班牙裔等)、一种类型的性别(例如,男性、女性、变性者)和一种类型的年龄分档(例如,19-30、31-44、45-59、60+等)。当分段器210将偏差训练数据集130分段成偏差聚类212时,分段器210还被配置成为每个偏差聚类212确定对应的偏差聚类权重214,使得偏差聚类212、212a-n具有关联的偏差聚类权重214、214a–n。在一些示例中,偏差聚类权重214表示偏差聚类212关于目标群体的群体部分。例如,偏差聚类权重214可以表示相应的偏差聚类212的大小与偏差训练数据集130的目标群体的大小的比率。在一些示例中,为了确定每个偏差聚类权重214,分段器210确定每个偏差聚类212的群体部分并且将每个群体部分除以所有偏差聚类212的最大群体部分(例如,每个偏差聚类权重214小于1)。在其他示例中,为了确定每个偏差聚类权重214,分段器210确定每个偏差聚类212的群体部分并且将每个群体部分除以所有偏差聚类212的最低群体部分(例如,每个偏差聚类权重214大于1)。

在一些配置中,分段器210在训练阶段202期间将偏差聚类212的偏差聚类权重214传送给调整器220。例如,调整器220包括偏差聚类权重214的数据存储222。在其他示例中,分段器210存储偏差聚类权重214(例如,在分段器210的数据存储中)以供调整器220在无偏差阶段204期间访问。

图2C图示在无偏差阶段204期间的偏差抑制模型200的示例。在无偏差阶段204期间,偏差抑制模型200接收意在供在训练ML模型300时使用的ML训练数据集302。例如,训练数据集302可以包括可能潜在地偏差的原始训练数据集(例如,包括偏差数据)。在一些实现方式中,训练数据集302是目标群体的样本,并且因此,可能不准确地反映目标群体的偏差敏感变量132。例如,目标群体可以具有25%白人的种族组成,然而训练数据集302可以指示45%白人的采样种族组成。因此,为了防止在不准确地反映目标群体的偏差敏感变量132的ML训练数据302上训练ML模型300,偏差抑制模型200设法在无偏差阶段204期间用分段器210和调整器220来调整此偏差(例如,20%差异)。

类似于分段器210如何在图2B的训练阶段202期间将偏差训练数据集130分段成偏差聚类212,分段器210被配置成在无偏差阶段204期间将所接收到的ML训练数据集302分段成训练聚类216。在这里,每个训练聚类216与目标群体的至少一个对应的偏差敏感变量132相关联。分段器210还被配置成为每个分段的训练聚类216生成对应的训练数据集权重218、218a-n,使得经分段的训练聚类216a-n包括关联的训练数据集权重218、218a-n。在一些示例中,相应的训练数据集权重218表示训练聚类216关于与训练数据集302相关联的样本群体的群体部分。例如,训练数据集权重218可以表示相应的训练聚类216的大小与训练数据集302的样本群体的大小的比率。在一些示例中,为了确定每个训练数据集权重218,分段器210确定每个训练聚类216的群体部分并将每个群体部分除以训练聚类216a-n的最大群体部分(例如,每个训练数据集权重218小于1)。在其他示例中,为了确定每个训练数据集权重218,分段器210确定每个训练聚类216的群体部分并将每个群体部分除以训练聚类216a-n的最低群体部分(例如,每个训练数据集权重218大于1)。

调整器220被配置成调整训练数据集权重218a-n以便与目标群体的偏差敏感变量132的概率分布匹配。在一些实现方式中,调整器220执行过程226,该过程通过将训练数据集权重218与偏差聚类权重214进行比较来调整训练数据集权重218。例如,图2C-2E描绘调整器220执行过程226以检索并比较来自偏差聚类权重数据存储222的偏差聚类权重218和来自训练权重数据存储224的训练数据集权重218,并且基于比较调整训练数据集权重218。例如,基于相应的训练数据集权重218与偏差聚类权重214之间的比较差异,调整器220可以调整相应的训练数据集权重218以与对应的偏差聚类权重214匹配。因此,由调整器220执行以用于调整训练数据集权重218的过程226生成/输出形成用于训练ML模型300的无偏差训练数据集206的经调整后的训练数据集权重或更一般地调整后的训练数据集208。

在一些实现方式中,调整器220通过首先基于匹配的偏差敏感变量132使一个或多个训练数据集权重218与一个或多个偏差聚类权重214匹配来执行过程226。例如,当训练数据集权重218和偏差聚类权重214每一个均共享公共偏差敏感变量132或偏差敏感变量132的组合时,调整器220可以用匹配的(即,对应的)偏差聚类权重214来调整训练数据集权重218以输出对应的调整后的训练数据集权重或调整后的训练数据集208。

参考图2D,调整器220比较共享公共偏差敏感变量132或偏差敏感变量132的组合的训练数据集权重218和偏差聚类权重214。当ML训练数据集302过表示偏差敏感变量132时,训练数据集权重218超过(例如,大于)偏差聚类权重214(例如,训练数据集302指示20%以上的白人种族组成)。响应于这种过表示,由调整器220执行的过程226可以对应于数据移除调整过程,该数据移除调整过程通过从训练数据集302中移除数据来调整训练数据集权重218,直到训练数据集权重218与偏差聚类权重214匹配为止。另一方面,当训练数据集302欠表示偏差敏感变量132时,训练数据集权重218小于偏差聚类权重214(例如,训练数据集302指示20%以下的黑人种族组成)。响应于这种欠表示,在调整器220上执行的过程226可以对应于数据复制过程,该数据复制过程通过从训练数据集302复制数据来调整训练数据集权重218,直到训练数据集权重218与偏差聚类权重214匹配为止。在一些实现方式中,调整器220从训练数据集302中随机地复制或移除数据以维持训练数据集302的完整性。

同图2C的任一个向/从训练数据集302中移除/添加数据直到训练数据集权重218与偏差聚类权重214匹配为止的过程226对比,图2E示出在调整器220上执行的调整与每个训练数据集权重218相关联的重要性权重228的过程226。具体地,过程使重要性权重228与训练数据集302的对应于关联的训练数据集权重218的数据相关联。重要性权重228向机器学习模型300的训练阶段304(图3)提供指示以理解在训练机器学习模型300的同时要向与训练数据集权重218相对应的基础数据提供多少权重。在一些示例中,当训练数据集权重218大于偏差聚类权重214时,调整器220关联指示关于与相应的训练数据集权重218相对应的训练数据减少机器学习模型300的训练的重要性权重228。在其他示例中,当训练数据集权重218小于偏差聚类权重214时,调整器220关联指示关于与相应的训练数据集权重218相对应的训练数据增加机器学习模型300的训练的重要性权重228。

在一些配置中,调整器220基于统计分析确定经调整后的训练数据集权重和/或经调整后的训练数据集208以形成无偏差训练数据集206。例如,在无偏差阶段204期间,分段器210和/或调整器220识别与偏差聚类212共享公共偏差敏感变量132或偏差敏感变量132的组合的训练聚类216。在这里,偏差抑制模型200可以在偏差训练数据集130的目标群体与ML训练数据集302内的数据的分布之间执行统计检验(例如,卡方检验)。当统计检验指示(例如,通过置信度区间,诸如95%)偏差训练数据集130和训练数据集302不具有相同分布(例如,关于偏差敏感变量132)时,调整器220生成乘数作为调整后的训练数据集权重,其中乘数指示生成与偏差训练数据集130匹配的ML训练数据集302的数据分布的ML训练数据集302内的样本的数目。

如由图2A-2E所示,偏差抑制模型200生成用于训练机器学习模型300的无偏差训练数据集206。图3是在无偏差训练数据集206上训练的机器学习模型300的示例。通常基于数据集和结果集来教导(或训练)机器学习模型,诸如机器学习模型300,以基于与数据集类似的输入数据预测它自己的输出。在一些实现方式中,非常类似于偏差抑制模型200,机器学习模型300首先在训练阶段304期间经历训练,然后经历预测阶段(例如,推理)306,该预测阶段接收样本数据集308作为输入并输出无偏差预测值310。在预测阶段306期间,机器学习模型300接收样本数据集308,诸如包括至少一个偏差敏感变量132的样本数据集,并且利用关联的在无偏差训练数据集206上训练的机器学习功能性来基于所接收到的样本数据集308生成无偏差预测值310。

在一些示例中,机器学习模型300用不止一个无偏差训练数据集206来训练。例如,机器学习模型300在操作期间动态地训练以连续地了解动态地改变的数据集。换句话说,训练304和预测306的阶段可以连续地或同时地操作,或两者的某种组合。

偏差抑制模型200和/或机器学习模型300可以是采用机器学习算法来执行本文描述的任一个模型200、300的功能性的任何类型的机器学习模型(例如,监督式、非监督式、强化、集成/决策树、深度学习、神经网络、递归、线性等)。广义上讲,算法可能涉及监督式学习、非监督式学习、主动学习或这些算法的某种混合组合。这些广泛算法的一些具体示例包括机器学习算法,诸如线性回归算法、逻辑回归算法、基于决策树的算法、支持向量机算法、朴素贝叶斯分类器、k近邻算法、降维算法、梯度提升算法等。

图4是具有使图1的机器学习环境10内的机器学习模型300无偏差的操作的示例方法400。在操作402处,方法400接收偏差训练数据集130。偏差训练数据集130基于目标群体的偏差敏感变量132的概率分布。在操作404处,方法400基于目标群体的至少一个相应的偏差敏感变量132将偏差训练数据集130分段成聚类212。每个聚类212包括偏差聚类权重214。在操作406处,方法400接收意在供在训练机器学习模型300时使用的训练数据集302。在操作408处,方法400将训练数据集302分段成训练聚类,其中每个训练聚类216与目标群体的至少一个对应的偏差敏感变量132相关联。在操作410处,方法400生成与所分段的训练数据集302的每个训练聚类216相对应的训练数据集权重218。在操作412处,方法400调整每个训练数据集权重以与相应的偏差聚类权重214匹配。

图5是可用于实现本文档中所述的系统和方法(例如,偏差抑制模型200和/或机器学习模型300)的示例计算设备500的示意图。计算设备500旨在表示各种形式的数字计算机,诸如膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片服务器、大型机以及其它适当的计算机。本文所示的组件、它们的连接和关系以及它们的功能仅是例证性的,并不意味着限制本文档中描述和/或要求保护的发明的实施方式。

计算设备500包括处理器510、存储器520、存储设备530、连接到存储器520和高速扩展端口550的高速接口/控制器540,以及连接到低速总线570和存储设备530的低速接口/控制器560。组件510、520、530、540、550和560中的每个组件使用各种总线互连,并且可以安装在公共主板上或以其它适当的方式安装。处理器510能够处理用于在计算设备500内执行的指令,包括存储在存储器520中或存储在存储设备530上的指令,以在诸如耦合到高速接口540的显示器580之类的外部输入/输出设备上显示用于图形用户界面(GUI)的图形信息。在其它实施方式中,可以适当地使用多个处理器和/或多个总线,以及多个存储器和存储器类型。而且,可以连接多个计算设备500,其中每个设备提供必要操作的部分(例如,作为服务器组、刀片服务器组或多处理器系统)。

存储器520在计算设备500内非暂时性地存储信息。存储器520可以是计算机可读介质、易失性存储器单元或非易失性存储器单元。非暂时性存储器520可以是用于在临时或永久基础上存储程序(例如,指令序列)或数据(例如,程序状态信息)以供计算设备500使用的物理设备。非易失性存储器的示例包括但不限于闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦可编程只读存储器(EPROM)/电子可擦可编程只读存储器(EEPROM)(例如,通常用于固件,诸如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。

存储设备530能够为计算设备500提供大容量存储。在一些实施方式中,存储设备530是计算机可读介质。在各种不同的实施方式中,存储设备530可以是软盘设备、硬盘设备、光盘设备或磁带设备、闪存或其它类似的固态存储设备,或设备阵列,包括在存储区域网络或其它配置中的设备。在另外的实施方式中,计算机程序产品有形地体现为信息载体。该计算机程序产品包含指令,所述指令在被执行时执行一种或多种方法,诸如上述那些方法。信息载体是计算机或机器可读介质,诸如存储器520、存储设备530或处理器510上的存储器。

高速控制器540管理计算设备500的带宽密集型操作,而低速控制器560管理较低带宽密集型操作。这种职责分配仅是例证性的。在一些实施方式中,高速控制器540耦合到存储器520、显示器580(例如,通过图形处理器或加速器)和可以接受各种扩展卡(未示出)的高速扩展端口550。在一些实施方式中,低速控制器560耦合到存储设备530和低速扩展端口590。可能包括各种通信端口(例如,USB、蓝牙、以太网、无线以太网)的低速扩展端口590可以例如通过网络适配器耦合到一个或多个输入/输出设备,诸如键盘、定点设备、扫描仪或联网设备,诸如交换机或路由器。

如图所示,可以以多种不同形式来实现计算设备500。例如,其可以被实现为标准服务器500a或在这样的服务器500a的组中多次实现,被实现为膝上型计算机500b或被实现为机架服务器系统500c的一部分。

本文所述的系统和技术的各种实施方式能够以数字电子和/或光学电路、集成电路、专门设计的ASIC(应用专用集成电路)、计算机硬件、固件、软件和/或其组合实现。这些各种实施方式能够包括在一个或多个计算机程序中的实现,该计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用的或通用的,耦合以从存储系统、至少一个输入设备以及至少一个输出设备接收数据和指令,并将数据和指令传送到这些设备。

这些计算机程序(也称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令,并且能够以高级过程和/或面向对象的编程语言和/或以汇编/机器语言实现。本文中使用的,术语“机器可读介质”和“计算机可读介质”是指任何计算机程序产品、非暂时性计算机可读介质、用于向可编程处理器提供机器指令和/或数据的装置和/或设备(例如,磁盘、光盘、存储器、可编程逻辑设备(PLD)),包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。

本说明书中所述的过程和逻辑流程能够由执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能的一个或多个可编程处理器来执行。过程和逻辑流程也能够由专用逻辑电路执行,例如FPGA(现场可编程门阵列)或ASIC(应用专用集成电路)。例如,适于执行计算机程序的处理器包括通用和专用微处理器,以及任何种类的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储设备。通常,计算机还将包括一个或多个用于存储数据的大容量存储设备或可操作地耦合至大容量存储设备以从中接收数据或对其传输数据,或者两者,所述大容量存储设备例如是磁盘、磁光盘或光盘。然而,计算机不必具有此类设备。适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,例如包括半导体存储器设备,例如EPROM、EEPROM和闪存设备;磁盘,例如内部硬盘或可移动磁盘;磁光盘;以及CD ROM和DVD-ROM盘。处理器和存储器能够由专用逻辑电路补充或被并入专用逻辑电路中。

为了提供与用户的交互,本公开的一个或多个方面能够在具有显示设备或以向用户显示信息的触摸屏和可选的键盘与定点设备的计算机上实现,所述显示设备例如是CRT(阴极射线管)、LCD(液晶显示器)监视器,所述定点设备例如为鼠标和轨迹球,用户能够通过其向计算机提供输入。其它类型的设备也能够用于提供与用户的交互;例如,提供给用户的反馈能够为任何形式的感觉反馈,例如视觉反馈、听觉反馈或触觉反馈;并且能够以任何形式接收来自用户的输入,包括声音、语音或触觉输入。另外,计算机能够通过向用户使用的设备发送文档以及从用户使用的设备接收文档来与用户进行交互;例如,通过响应于从Web浏览器收到的请求,将网页发送到用户客户端设备上的Web浏览器。

已经描述了许多实施方式。然而,应理解,在不脱离本公开的精神和范围的情况下,可以做出各种修改。因而,其它实施方式也在所附权利要求的范围内。

技术分类

06120112579677