导航：首页> 计算；推算；计数>分类树生成

分类树生成

文献发布时间：2023-06-19 09:49:27

背景技术

计算系统已经被成功编程以理解人类语言的语法。然而，向计算机系统提供对人类语言隐含含义的理解和欣赏是另一不同且更具挑战性的目标。例如，计算机系统可以在数据集合中检测到术语“塔科马”，但可能无法区分华盛顿州的城市“塔科马”和皮卡车型号“塔科马”。在人为监督的技术中，人为领域专家可以提供隐含含义，但是无监督计算系统无法访问此类人为提供的含义。这样，无监督计算系统在对人类语言的理解上往往不如受监督计算系统准确，但是人为监督比无监督技术昂贵且可扩展性较差。然而，计算系统无法以近乎人类的准确性识别人类语言中的含义可能降低数据搜索、网络搜索、产品推荐、拼写检查、语音到文本和文本到语音转换、人类-计算机言语交互、数据分类和其他计算服务的价值。

发明内容

所描述的技术提供了以无监督方式(例如，无人为干预)生成针对域的分类树。从文档索引收集所述域的文档的层次结构。针对所述层次结构中的每个层次结构的每个节点提取类别。将所提取的所述类别作为多维类别向量嵌入到多维向量空间中。将所述多维类别向量分组为多个组，第一组的所述多维类别向量比第二组的所述多维类别向量更满足针对所述第一组的相似性条件。每组所述多维类别向量构成类别簇。每个类别簇包括针对来自所述层次结构的不同层次水平的所提取的类别的多维类别向量。生成所述分类树，其中每个类别簇被插入作为所述分类树的类别节点。

提供本发明内容以简化形式介绍一系列概念，这些概念将在下面的具体实施方式中进一步描述。本发明内容既不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于限制所要求保护的主题的范围。

本文还描述和讲述了其他实施方式。

附图说明

图1示出了示例性主题提取计算系统。

图2示出了用于从非结构化文本中提取针对域的类别的示例性类别提取器。

图3示出了用于从结构化web文档中提取针对域的分类树的示例性分类树提取器。

图4示出了示例性类别合并以增强从分层web文档结构中提取针对域的统一分类树的准确性。

图5示出了用于生成针对域的分类树的示例性操作。

图6示出了可以用于实施所描述的技术以生成针对域的分类树的示例性计算设备。

具体实施方式

计算系统可以通过构造分类树(结构化类别集合)以自动化方式或半自动化方式为域(例如，行业、研究领域)确定短语(例如，主题)的准确含义，那些短语可被准确分类到所述分类树中。域数据可以按本质而被结构化，例如以web文档的层次结构的形式(e.g.,“products.office.com/en-us/business/small-business-solutions”)，或者可以是非结构化的，例如从web搜索中捕获的文本术语集合的形式(例如，查询、网页标题、web网页的文本环境或来自选定搜索结果的文本)，分类树和主题从所述域数据来构建。在所描述的技术中，结构化域和非结构化域两者可以组合使用，以获取和细化即使对于例如万维网这样的大型高度异构文档集合而言也很准确的域特定主题。

通过生成统一分类树，计算系统能够从多个网站或其他文档存储库捕获人为创建的标签和关系。这些人为创建的标签和关系在主题生成过程中替代了人工监督，从而使主题提取计算系统能够提取大量术语和文档的准确主题信息，并省略人机交互。省略人为监督也分离(decouple)了可能由单个人为监督者引起的偏见。因此，在所描述的技术中，对在文档集合的层次结构中发现的人为创建的标签和关系以及从查询-URL点击图提取的类别的客观评估能够在无需人为监督的情况下生成非常准确的(例如，近乎人类准确的或更好的)的主题。准确的统一分类树是此类无监督主题提取的组成部分。

图1示出了示例性主题提取计算系统100。主题提取计算系统100的输出可以包括以无监督方式从大量文档集合中生成的域特定主题的列表。为此类主题提取识别域，例如特定行业、研究领域、产品市场等，并在该域的背景中生成结果主题。例如，术语“野马”在域“汽车市场”中的含义与其在域“马”中的含义不同。因此，识别域并将域的背景应用于主题提取过程能够消除术语的歧义，并提供优于其他无监督方法的改进结果。

将一组域特定网站种子102输入到主题提取计算系统100中，作为识别特定域的一个因素。例如，对于域“汽车市场”，可以提供主要汽车销售商的顶级域作为种子102。示例包括可以将“www.ford.com”、“www.chevrolet.com”和“www.audi.com”提供为种子102，用于定义域的范围和细节。如参照图2和图3更详细描述的，种子102可以被用于通过被称为域网站挖掘的过程来识别域中的其他网站。在主题提取过程中使用的网站越多，潜在的域特定主题的数量就越多，并且在此过程中获得的准确性就越好。

将查询-URL点击图104输入到主题提取计算系统100。查询-URL点击图104包括节点和边缘的图，其中边缘表示两个节点之间的关系。在查询-URL点击图104中，边缘表示在用户的web浏览活动期间文档(例如，由“URL”指定的)被选择(例如，“点击”)以进行查询。当用户在浏览会话中键入或以其他方式调用查询然后选择搜索结果时，查询-URL关联被创建。通过记录大量点击事件，搜索引擎能够将大量查询-URL对累积到查询-URL点击图中，其中每个查询与一个或多个URL相邻，并且每个URL与一个或多个查询相邻。因此，查询-URL点击图104提供了与对文档(例如，由URL标识的)的查询相关的聚集的用户活动的描述。在一些实施方式中，查询-URL点击图104还可以包括与每个查询相关联的附加元数据，例如从其执行查询和/或URL点击的地理位置、通过其执行查询和/或URL点击的计算设备。通常，将从查询-URL点击图104中提取的文本被视为“非结构化的”。

将web文档索引106也被输入到主题提取计算系统100。web文档索引106存储遍及万维网的网站上的web页面的层次结构，包括web页面内容。层次结构中的示例性层次路径包括但不限于“www.microsoft.com/en-us”、“www.microsoft.com/en-us/p/surface-laptop/90fc23dv6snz？activetab＝pivot％3aoverviewtab”和“https://www.microsoft.com/en-us/p/surface-book-2/8mcpzjjcc98c？activetab＝pivot％3aoverviewtab”。通常，在每个层次水平的层次结构及其关联的标签是由网络管理员或开发人员指定的，并遵循web标准，例如schema.org。作为web文档索引创建过程的一部分，通常可以通过诸如HTML解析和模式匹配这样的编程机制来提取层次结构及其标签。在域“计算设备”内可能相关的示例性标签和短语可以包括但不限于“surface-laptop”和“surface-book-2”。应当理解，可以采用其他文档索引，例如针对专用文档存储库的索引(例如，基于云的文件系统、企业内联网的索引)。通常，借助于被传送到主题提取计算系统100的层次结构从web文档索引106提取的文本被认为是“结构化的”。

基于来自域网站种子102、查询-URL点击图104和web文档索引106的输入，主题提取计算系统100使用类别提取器108来为非结构化文本提取类别并使用分类树提取器110来为结构化文本提取类别。类别提取器108与输入和分类树提取器110一起工作以为所标识的域生成类别簇122，并通过主题细化器116将这些类别簇122进一步细化为域特定主题集合114。相对的，分类树提取器110与输入和类别提取器108一起工作以生成分类树124，该分类树表示从web文档索引106中提取的针对所标识的域的类别的统一层次结构。参照图2提供类别提取器108的更多细节，并且参照图3提供分类树提取器110的更多细节。

作为主题提取计算系统100的操作的示例，假定“汽车工业”域，并且种子102包括“www.ford.com”、“www.chevrolet.com”和“www.audi.com”。在一个实施方式中，主题提取计算系统100将基于种子102“挖掘”额外的域特定网站，以提供更大的域特定网站集合用于提取。类别提取器108从查询-URL点击图104(并且可能从web文档索引106)提取被确定为与所标识的域相关(例如，由域网站种子和其他“被挖掘的”网站表达的)的非结构化文本(例如，缺乏层次结构)。类别提取器108从所述非结构化文本收集包括一个或多个术语的短语。具有相似含义的短语被聚在一起成为单个类别簇(例如，类别簇122中的一个)，从而每个类别的含义通常由多个短语表示。类别提取器108将代表标签赋予每个类别簇。每个类别簇代表由主题细化器116进行评估的“候选”主题。

分类树提取器110从web文档索引106提取被确定与所标识的域相关的层次结构(例如，如由域网站种子和其他“被挖掘的”网站表达的)，并生成分类树124，分类树124为所标识的域统一层次结构和类别标签(例如，在树的每个节点处)。这样，分类树提取器110对结构化数据进行操作，其中在每个层次水平的文档的层次结构及其相关标签由网络管理员或开发人员指定，并提供对关联标签中的人类归因(human-attributed)的含义和/或关系的理解。

主题细化器116包括由一个或多个处理器执行的分类评估器，所述处理器对照分类树124评估分类簇122以确定所生成的分类簇122是否满足一致性条件。例如，在一个实施方式中，主题细化器116确定为在分类树124中处于相同层次结构级别的十个类别可被视为满足一致性条件，因此将其输出为域特定主题集合114。可替代地或另外地，主题细化器116确定为在分类树124中处于相同直接世系(direct lineage)的十个类别的簇可被视为满足一致性条件，因此将其输出为域特定主题集合114。这样，主题细化器116还包括由一个或多个处理器执行的主题集合创建器，所述处理器将类别簇集合122插入到针对域的域特定主题集合114中。相对地，如果确定十个类别的簇不在分类树124的相同层次结构级别或不在同一直接世系中，则十个类别的簇被确定为不满足一致性条件，因此，主题细化器116向类别提取器108发信号，以提供不同的类别集合用于评估。在一些实施方式中，不满足一致性条件也可能会招致一定程度的人工干预来选择新的、细化的类别簇集合122，尽管在大多数实施方式中所述选择可能是无监督的。

图2示出了用于从非结构化文本中提取针对域的类别的示例性类别提取器208。在一个实施方式中，主题提取计算系统的域网站挖掘机(miner)200分析域特定网站种子、查询-URL点击图和web文档索引，以识别将从其提取域特定信息的其他网站。在其他实施方式中，提供了足够数量的域特定网站作为种子，因此没有必要进行额外的挖掘步骤。

在一个实施方式中，域网站挖掘机200接收域特定网站种子，分析与那些网站种子相关联的层次结构、内容和相关联的查询-URL点击图数据，以识别具有相似域主题的其他网站。例如，来自针对域的种子网站和针对域的其他候选网站的短语可以作为矢量嵌入到多维矢量空间中。然后，将具有与种子网站满足域关系条件的短语的那些网站与域特定网站种子一起视为域特定网站202的成员。域关系条件的一个示例是确定是否将来自另一网站的阈值数量的短语聚集在与种子网站的短语相同的相位簇中。可以使用其他分组和/或相似性确定以确定是否满足域关系条件，例如余弦相似性。

主题提取计算系统的域特定文本提取器204还接收层次结构、内容和相关的查询-URL点击图数据、以及域特定网站202，以从输入提取域特定文本。可以使用相似的域关系条件来确定来自这些输入的查询、搜索结果、文本、内容等是否是域元素的一部分。来自域特定文本提取器204的文本与主题提取计算系统的域特定嵌入器209中的通用嵌入文本206组合，域特定嵌入器209将域特定文本映射为多维矢量空间中的向量。

域特定文本也被传递到主题提取计算系统的类别提取器208中的短语提取器210。短语提取器210从域特定文本中提取具有一个或多个术语的短语(提取的短语212)以为短语提供顺序环境和语法环境。域“汽车销售商”中的示例性短语可以包括但不限于“丰田塔科马”、“塔科马丰田”和“F-150”。在每个示例中，术语及其在短语中的位置提供了当审视各个术语本身时可能不太明显的短语含义的背景。例如，术语“塔科马”根据其在术语“丰田”之前还是之后具有不同的含义。另外，短语“F-150”的含义超出了其组成部分“F”和“150”，尤其是与短语“F-250”相比时。

短语嵌入器214随后将提取的短语212作为向量嵌入由域特定嵌入器209提供的域特定嵌入的域特定多维向量空间中。域特定嵌入为提取的短语212提供了附加的背景。例如，域“汽车销售商”中的术语“塔科马”更可能具有作为卡车型号的含义，而非华盛顿的城市。因此，域特定嵌入将提取的短语212映射到域特定多维向量空间中，以保留此域特定含义。

短语聚类器216将实体查询向量分配为具有相对相似性的组(“簇”)以产生短语簇218作为域特定多维向量空间中的相似向量的组。簇包括彼此满足相似条件的矢量(例如，在多维矢量空间中彼此相距预定距离内)。短语聚类器216可以被操作以生成预定数量(“K”)的簇。K是一个聚类参数，可以根据类别提取的精度进行调整，以生成更多或更少的簇，如下将进行描述。

簇标签器220从每个类别簇中的短语簇218的集合中选择代表标签。例如，在包括短语“服饰”、“西装”、“男”和“女”的类别簇中，可以选择标签“服饰”。在一个实施方式中，主题细化器224对照一致性条件评估带标签的类别簇222，其使用用于相关域的分类树来评估类别簇222。如果带标签的类别簇满足一致性条件，则类别簇被认为是针对由主题提取计算系统的输出的令人满意的主题。如果类别簇不满足一致性条件，则认为类别簇针对输出作为主题提取计算系统的主题不能令人满意。主题细化器224对照一致性条件评估每个带标签的类别簇并输出满足一致性条件的任何类别簇的标签。这样的评估可以一直持续到生成了所需数量的域特定主题为止。

在一个实施方式中，主题细化器224迭代带标签的类别簇222的不同集合。例如，如果主题细化器224处理所有带标签的类别簇222并且没有生成足够的域特定主题(例如，基于预定数量的期望主题)，则主题细化器224能够向短语簇216请求短语簇218的新的集合，将其打标签以产生新的(不同的)带标签的类别簇222的集合。在一个实施方式中，短语聚类器216能够使用不同的聚类参数(例如，K)或聚类技术(如虚线箭头226所示)来生成短语簇218的新的集合。在其他实施方式中，可以至少部分地通过合并人为监督输入、调整域特定嵌入或域特定网站202的集合或至少一些其他技术来生成新的(不同的)带标签的类别簇222的集合。

然后对照一致性条件评估带标签的类别簇222的新的集合。主题细化的过程可以迭代，直到获得可接受数量的细化的主题为止。

图3示出了用于从结构化文档中提取针对域的分类树的示例性分类树提取器310。在一个实施方式中，主题提取计算系统的域网站挖掘器300分析域特定网站种子、查询-URL点击图和网络文档索引，以识别将从其提取域特定信息的其他网站。在其他实施方式中，提供了足够数量的域特定网站作为种子，使得不需要额外的挖掘步骤。在各种实施方式中，域网站挖掘器300可以与图2的域网站挖掘器200相同或者是独立的域网站挖掘器。同样地，域特定网站302可以是与图2的域特定网站202相同或者是独立的不同的域特定网站。

主题提取计算系统的域特定文本提取器304还接收层次结构、内容和相关联的查询-URL点击图数据、以及域特定网站302，以从输入提取域特定文本。可以使用类似的域关系条件来确定来自这些输入的查询、搜索结果、文本，内容等是否是域元素的一部分。域特定文本提取器304可以与图2的域特定文本提取器204相同或者是单独的不同的域特定文本提取器。来自域特定文本提取器304的文本通过迁移学习与主题提取计算系统的域特定嵌入器309中的通用嵌入文本306相组合，域特定嵌入器309将域特定文本映射为多维矢量空间中的向量。在各个实施方式中，通用嵌入文本306和域特定嵌入器309可以与图2中的通用嵌入文本206和域特定嵌入器209相同或者是单独的且不同的通用嵌入文本以及单独的且不同的域特定嵌入器。

分类树提取器310的层次提取器314分析域特定网站302的层次和语义数据，并提取每个节点的标签(例如，标签或类别)以及层次结构中的节点的关联的祖先-后代关系。每个的所得到的网站结构数据和类别316被输入到类别嵌入器326，类别嵌入器326基于由域特定嵌入器309提供的嵌入来将域特定文本作为多维类别向量映射到域特定多维矢量空间中。例如，目录嵌入的一个实施方式中的因素是针对每个节点的类别以及针对每个节点的祖先-后代关系。在各个实施方式中，各种其他类别和语义信息的组合可以被包括在目录嵌入中。

考虑到人们会以可能合理的方式构造网站的层次结构，每个网站的层次结构传达了人们对每个web页面中所包含的意义的某种层次理解。因此，第一个有关零售服饰的网站可以将男式服装和女式服装分组在“服装”节点下作为网站层次结构的同胞节点，而另一网站可以将男式服装和女式服装沿着网站层次结构的不同分支划分，其中“男士”和“女士”是同胞节点，“服装”、“鞋类”和“饰品”是每个性别节点下特定于性别的同胞。通过分析大量的网站层次结构，分类树提取器310可以合并具有相似含义的节点，然后创建新的统一的分类树，该分类树具有连贯的树系，所述树系代表含义和共享相似性的同胞群体的继承关系。

相应地，类别合并器328从每个不同层次结构的不同级别接收针对每个层次结构的嵌入类别和类别向量。簇包括彼此满足相似条件的向量(例如，在多维向量空间中彼此相距预定距离内)。以这种方式，独立于与类别向量的层次结构中的其他节点的层次关系，类别合并器328生成共享共同含义的类别向量的簇。

分类体系生成器320从类别合并器328接收合并的类别向量和层次结构数据。祖先-后代分析器330分析与每个节点相关联的层次结构，以确定针对每个节点的祖先-后代关系，包括但不限于与节点的父节点、子节点、祖父节点和/或孙节点的一种或多种关系。示例性分析可以提供与网站的层次结构中存在的祖先-后代关系有关的分支统计。例如，通过使用从域特定网站302的层次结构中获取的分支统计，祖先-后代分析器330能够确定网站层次结构中针对给定的合并的类别簇最常使用的祖先-后代关系。每个合并的类别簇构成新的分类树318的新的“候选”节点。在评估祖先-后代关系时还可以采用其他考虑因素(即，除了“最常使用的”以外)，包括但不限于导致较深或较浅的树、具有最多或最少节点的树或具有更多或最少分支的树的因素。基于祖先-后代分析器330的确定，分支创建器332为每个新的候选节点创建分支。

分支去重复器334分析每个分支，以在每个层次水平识别来自同一节点的重复分支。当删除节点的子节点时，在分类树生成过程中可能出现来自同一节点的重复分支。例如，如果层次结构包括来自标签为“女士”的节点的路径“女士→饰品→珠宝”和路径“女士→珠宝”，则该层次结构上的统计信息可能显示路径“女士→饰品→珠宝”比路径“女士→珠宝”少见。因此，分支创建器332可以将所有分支从节点“饰品”连接到节点“女士”，然后删除节点“饰品”。这种优化导致节点“女士”有两个“女士→珠宝”分支。分支去重复器334检测这些重复分支，并将重复分支合并成单个“女士→珠宝”分支。

祖先-后代分析器330、分支创建器332和分支去重复器334产生一组新的节点和分支，每个分支具有相关联的类别。树创建器336将所得的节点和分支合并到新的统一分类树318中。

图4示出了示例性类别合并400以增强从分层web文档结构404至分层web文档结构406中针对域提起统一分类树402的准确性。分层web文档结构404(卖方A)和分层web文档结构406(卖方Z)仅仅是此示例中包含的许多单个网站结构中的两个。分层web文档结构404包括被标签有节点类别“服饰”、“女士”、“男士”、“鞋类”和“运动服”的节点，所有这些节点与分层web文档结构406中的节点类别“衣服”、“女性”、“男性”、“鞋子”和“运动型”分别具有相似的含义。如前所述，这些含义上的相似性通过对类别向量进行聚类来标识。

聚类被应用于针对每个层次结构的不同级别的节点的类别向量。例如，在分层web文档结构404中被标签为“男士”的节点与在分层web文档结构406中被标签为“鞋子”的节点处于同一层次水平。相对的，与针对分层web文档结构406的被标签为“男性”的节点的类别向量相比，针对分层web文档结构404的被标签为“男士”的节点的类别向量处于不同的级别，但是类别合并器将这些节点聚类为统一分类树402的同一类别节点。对于多个分层web文档结构，在多个类别节点上执行这种合并，其中一些类别节点被合并，而其他类别节点由于缺乏足够的相似性而被删除或忽略(例如，分层web文档404中的“珠宝”和分层web文档结构406中的“商务”)。然后，分类体系生成操作创建统一的层次结构，将合并的类别节点安装到该层次结构中以填入统一分类树402。

分类体系生成操作还为统一分类树402的每个节点选择类别作为标签。在一个实施方式中，类别标签是从针对域特定网站的层次结构集合中对应节点的最频繁应用的类别标签中选择的。例如，在对应于分层web文档结构404中的“服饰”和分层web文档结构406中的“衣服”(以及404和406之间的所有其他分层web文档结构)的类别向量的第一簇中，从所有分层web文档结构中选择该簇中最常用的标签作为统一分类树402中针对该节点的对应类别标签(本示例中的“服饰”)。在其他实施方式中，可以应用其他统计和非统计考虑因素，包括但不限于查询-URL点击图和词频逆文本频率(TF-IDF)中的某些适用术语的使用频率。

图5示出了用于生成针对域的分类树的示例性操作500。收集操作502从文档索引(例如，web文档索引)收集域(例如，行业、研究领域、产品市场)的文档(例如，web文档)的层次结构。提取操作504针对每个层次结构的每个节点提取类别。在一个示例中，提取操作504遍历每个层次结构的节点，并从每个节点的分层路径中提取标签以及语义信息(例如，祖先-后代关系、祖先-后代关系或网站的分层导航信息，有时也称为“面包屑”)。

嵌入操作506将提取的类别作为多维类别向量嵌入到多维向量空间中。例如，节点的类别“服饰”可以被映射为向量空间中的数字，其中向量的某些列对应于节点的类别标签(即“服饰”)、节点的父节点和节点的类别标签、以及节点的一个或多个子节点和相应的类别标签。通过将类别节点映射到类别向量，聚类操作508通过应用相似性条件(例如，将彼此之间位于向量空间中的预定距离内的向量进行分组)将类别向量聚类为多个组，以获得类别簇。生成操作510生成统一分类树，其中插入每个类别簇作为统一分类树的类别节点。生成操作510还针对统一分类树中的每个类别节点选择统一类别标签。

图6示出了示例性计算设备600，示例性计算设备600可用于实施所描述的技术以生成针对域的分类树。示例性计算设备600可以被用于检测对象相对于天线的接近度，例如应用间的背景播种。计算设备600可以是个人或企业计算设备，例如膝上型计算机、移动设备、台式机、平板电脑或服务器/云计算设备。计算设备600包括一个或多个处理器602和存储器604。存储器604通常包括易失性存储器(例如，RAM)和非易失性存储器(例如，闪存)。操作系统610和一个或多个应用640可以驻留在存储器604中，并由处理器602执行。

一个或多个模块或部分被加载到存储器604和/或储存器620上的操作系统610中并由处理器602执行，所述一个或多个模块或部分例如是域特定文本提取器、短语提取器、短语嵌入器、短语聚类器、簇选择器、域网站挖掘器、域特定嵌入器、层次提取器、类别嵌入器、类别合并器、分类体系生成器、祖先-后代分析器、分支创建器、分支去重复器、树创建器和其他组件。诸如域特定网站、提取的短语、短语簇、类别簇、网站结构数据和类别、统一分类树以及其他数据和对象可被存储在存储器604或储存器620中，并且可以被处理器602获取。存储器620可以在计算设备600本地，也可以位于远程并与计算设备600通信地连接。

计算设备600包括电源616，电源616由一个或多个电池或其他电源供电并且向计算设备600的其他组件提供电力。电源616也可以连接到外部电源，所述外部电源比内置电池或其他电源更重要或者为内置电池或其他电源充电。

计算设备600可以包括一个或多个通信收发器630，通信收发器630可以连接到一个或多个天线632，以向一个或更多个其他服务器和/或客户端设备(例如，移动设备、台式计算机或膝上型计算机)提供网络连接性(例如，移动电话网络、

计算设备600可以包括一个或多个输入设备634，以便用户可以输入命令和信息(例如，键盘或鼠标)。这些输入设备和其他输入设备可以通过一个或多个接口638-例如串行端口接口、并行端口或通用串行总线(USB)-耦合到服务器。计算设备600可以进一步包括显示器622，例如触摸屏显示器。

计算设备600可以包括各种有形处理器可读存储介质和无形处理器可读通信信号。有形处理器可读存储可以由计算设备600能访问的任何可用介质来体现，并且包括易失性和非易失性存储介质、可移动和不可移动存储介质。有形处理器可读存储介质不包括无形通信信号，并且包括以任何用于存储诸如处理器可读指令、数据结构、程序模块或其他数据之类的信息的方法或技术实现的易失性和非易失性存储介质、可移动和不可移动存储介质。有形处理器可读存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储技术、CDROM、数字多功能磁盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁性存储设备，或可被用于存储所需信息并可由计算设备600访问的任何其他有形介质。与有形处理器可读存储介质相反，无形处理器可读通信信号可以在诸如载波这样的调制数据信号或其他传输机制中体现为计算机可读指令、数据结构、程序模块或其它数据。术语“调制数据信号”是指具有以将信息编码为信号的方式来设置或改变其一个或多个特征的信号。作为示例而非限制，无形通信信号包括通过诸如有线网络或直接有线连接这样的有线介质以及诸如声学、RF、红外和其他无线介质这样的无线介质传播的信号。

一些实施方式可以包括一种制品。制品可以包括用于存储逻辑的有形存储介质。存储介质的示例可以包括能够存储电子数据的一种或多种类型的计算机可读存储介质，包括易失性或非易失性存储器、可移动或不可移动存储器、可擦除或不可擦除存储器，可写或可重写存储器等等。逻辑的示例可以包括各种软件元素，例如软件组件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、操作段、方法、过程、软件接口、应用程序接口(API)、指令集、计算代码、计算机代码、代码段、计算机代码段、词语、值、符号或其任意组合。在一个实施方式中，例如，一件制品可以存储可执行的计算机程序指令，当所述可执行的计算机程序指令由计算机执行时，所述可执行的计算机程序指令使计算机执行根据所描述的实施例的方法和/或操作。可执行的计算机程序指令可以包括任何合适类型的代码，例如源代码、编译代码、解释代码、可执行代码、静态代码、动态代码等。可执行的计算机程序指令可以根据预定义的计算机语言、方式或语法来实现，以指示计算机执行特定的操作段。可以使用任何合适的高级的、低级的、面向对象的、可视的、编译的和/或解释的编程语言来实现指令。

生成针对域的分类树的示例性方法包括：从文档索引收集所述域的文档的层次结构；针对所述层次结构中的每个层次结构的每个节点提取类别；将所提取的所述类别作为多维类别向量嵌入到多维向量空间中；将所述多维类别向量分组为多个组。第一组的所述多维类别向量比第二组的所述多维类别向量更满足针对所述第一组的相似性条件。每组所述多维类别向量构成类别簇。每个类别簇包括针对来自所述层次结构的不同层次水平的所提取的类别的多维类别向量。所述示例性方法还包括生成所述分类树，其中每个类别簇被插入作为所述分类树的类别节点。

提供了任何前述方法的另一种方法，其中所述嵌入操作包括：将所提取的所述类别和关联的祖先-后代关系作为多维类别向量嵌入到所述多维向量空间中。

提供了任何前述方法的另一种方法，其中所述分组操作包括：将所述多维类别向量分组为多个组。所述第一组的所述多维类别向量比所述第二组的所述多维类别向量更满足针对所述第一组的相似性条件。每组所述多维类别向量构成类别簇。每个类别簇包括针对来自所述层次结构的不同层次水平的所提取的类别和关联的祖先-后代关系的多维类别向量。

提供了任何前述方法的另一种方法，其中所述提取操作包括：针对所述层次结构的每个层次结构的每个节点提取祖先-后代关系；以及将每个节点的所提取的所述祖先-后代关系分配给所述节点的所述类别所对应的所述类别簇。所述生成操作包括：基于每个类别簇的所分配的所述祖先-后代关系，从所述分类树中的每个类别簇创建分支。

提供了任何前述方法的另一种方法，其中所述生成操作包括：基于从来自所述文档索引的所述域的所述文档的所述层次结构收集的分支统计，从所述分类树的每个类别节点生成分支。

提供了任何前述方法的另一种方法，其中所述分类树包括来自共同节点的重复分支，并且所述生成操作包括：将所述重复分支合并到来自所述分类树中的所述共同节点的单个分支。

提供了任何前述方法的另一种方法，其中所述生成操作包括：从所述层次结构的类别标签中为所述分类树的每个节点选择类别标签。

提供了任何前述方法的另一种方法，其中所述嵌入操作包括：将所提取的所述类别作为多维类别向量嵌入到所述多维向量空间中，所述多维向量空间是从域特定文本的域特定嵌入生成的。

一种用于生成针对域的分类树的示例性计算系统，所述计算系统包括：一个或多个处理器；层次提取器，由所述一个或多个处理器执行并被配置以从文档索引收集所述域的文档的层次结构并且针对所述层次结构中的每个层次结构的每个节点提取类别；类别嵌入器，由所述一个或多个处理器执行并被配置以将所提取的所述类别作为多维类别向量嵌入到多维向量空间中；类别合并器，由所述一个或多个处理器执行并被配置以将所述多维类别向量分组为多个组，第一组的所述多维类别向量比第二组的所述多维类别向量更满足针对所述第一组的相似性条件；以及分类体系生成器，由所述一个或多个处理器执行并被配置以生成所述分类树，其中每个类别簇被插入作为所述分类树的类别节点。每组所述多维类别向量构成类别簇。每个类别簇包括针对来自所述层次结构的不同层次水平的所提取的类别的多维类别向量。

提供了任何前述计算系统的另一种计算系统，其中所述类别嵌入器进一步被配置以将所提取的所述类别和关联的祖先-后代关系作为多维类别向量嵌入到所述多维向量空间中。

提供了任何前述计算系统的另一种计算系统，其中所述类别合并器进一步被配置以将所述多维类别向量分组为多个组，所述第一组的所述多维类别向量比所述第二组的所述多维类别向量更满足针对所述第一组的相似性条件。每组所述多维类别向量构成类别簇。每个类别簇包括针对来自所述层次结构的不同层次水平的所提取的类别和关联的祖先-后代关系的多维类别向量。

提供了任何前述计算系统的另一种计算系统，其中所述层次提取器进一步被配置以：针对所述层次结构中的每个层次结构的每个节点提取祖先-后代关系，并将每个节点的所提取的所述祖先-后代关系分配给所述节点的所述类别所对应的所述类别簇。

提供了任何前述计算系统的另一种计算系统，其中所述分类体系生成器进一步被配置以基于每个类别簇的所分配的所述祖先-后代关系，从所述分类树中的每个类别簇创建分支。

提供了任何前述计算系统的另一种计算系统，其中所述类别嵌入器进一步被配置以将所提取的所述类别作为多维类别向量嵌入到所述多维向量空间中，所述多维向量空间是从域特定文本的域特定嵌入生成的。

一个或多个示例性的有形制品的有形处理器可读存储介质，对处理器可执行指令编码以用于在电子计算系统上执行生成针对域的分类树的处理，所述处理包括：从文档索引收集所述域的文档的层次结构；针对所述层次结构中的每个层次结构的每个节点提取类别；将所提取的所述类别作为多维类别向量嵌入到多维向量空间中；将所述多维类别向量分组为多个组；以及生成所述分类树，其中每个类别簇被插入作为所述分类树的类别节点。第一组的所述多维类别向量比第二组的所述多维类别向量更满足针对所述第一组的相似性条件。每组所述多维类别向量构成类别簇。每个类别簇包括针对来自所述层次结构的不同层次水平的所提取的类别的多维类别向量

任何先前介质的一个或多个其他示例性有形处理器可读存储介质提供一种处理，其中所述嵌入操作包括将所提取的类别和所关联的祖先-后代关系作为多维类别向量嵌入到所述多维向量空间中。

任何先前介质的一个或多个其他示例性有形处理器可读存储介质提供一种处理，其中所述分组操作包括将所述多维类别向量分组为多个组，第一组的所述多维类别向量比第二组的所述多维类别向量更满足所述第一组的相似性条件，每组多维类别向量构成类别簇，每个类别簇包括来自所述层次结构的不同层次水平的所提取的类别和所关联的祖先-后代关系的多维类别向量。

任何先前介质的一个或多个其他示例性有形处理器可读存储介质提供一种处理，其中所述提取操作包括针对所述层次结构的每个层次结构的每个节点提取祖先-后代关系并且将每个节点的所提取的祖先-后代关系分配给所述节点的所述类别所对应的类别簇。所述生成操作包括基于每个类别簇的所分配的祖先-后代关系，从所述分类树中的每个类别簇创建分支。

任何先前介质的一个或多个其他示例性有形处理器可读存储介质提供一种处理，其中所述生成操作包括从所述层次结构的类别标签针对所述分类树的每个节点选择类别标签。

任何先前介质的一个或多个其他示例性有形处理器可读存储介质提供一种处理，其中所述嵌入操作包括将所提取的类别作为多维类别向量嵌入到所述多维向量空间中，所述多维向量空间是从域特定文本的域特定嵌入生成的。

生成针对域的分类树的示例性系统包括：从文档索引收集所述域的文档的层次结构的装置，用于针对所述层次结构中的每个层次结构的每个节点提取类别的装置，用于将所提取的类别作为多维类别向量嵌入到多维向量空间中的装置，以及用于将所述多维类别向量分组为多个组的装置。第一组的所述多维类别向量比第二组的所述多维类别向量更满足针对所述第一组的相似性条件。每组所述多维类别向量构成类别簇。每个类别簇包括针对来自所述层次结构的不同层次水平的所提取的类别的多维类别向量。所述示例性系统还包括用于生成所述分类树的装置，其中每个类别簇被插入作为所述分类树的类别节点。

提供了任何前述系统的另一系统，其中用于嵌入操作的所述装置包括用于将所提取的所述类别和所关联的祖先-后代关系作为多维类别向量嵌入到所述多维向量空间中的装置。

提供了任何前述系统中的另一系统，其中用于分组操作的所述装置包括用于将所述多维类别向量分组为多个组的装置。所述第一组的所述多维类别向量比所述第二组的所述多维类别向量更满足针对所述第一组的相似性条件。每组所述多维类别向量构成类别簇。每个类别簇包括针对来自所述层次结构的不同层次水平的所提取的类别和关联的祖先-后代关系的多维类别向量。

提供了任何前述系统的另一系统，其中用于提取操作的所述装置包括用于为所述层次结构中的每个层次结构的每个节点提取祖先-后代关系的装置以及用于将每个节点的所提取的所述祖先-后代关系分配给所述节点的所述类别所对应的所述类别簇的装置。用于产生操作的所述装置包括以基于每个类别簇的所分配的所述祖先-后代关系从所述分类树中的每个类别簇创建分支的装置。

提供了任何前述系统的另一系统，其中用于生成操作的所述装置包括基于从来自所述文档索引的所述域的所述文档的所述层次结构收集的分支统计来从所述分类树的每个类别节点生成分支的装置。

提供了任何前述系统的另一系统，其中所述分类树包括来自共同节点的重复分支，并且所述生成操作包括将所述重复分支合并到来自所述分类树中的所述共同节点的单个分支。

提供了任何前述系统的另一系统，其中用于生成操作的所述装置包括用于从所述层次结构的类别标签中为所述分类树的每个节点选择类别标签的装置。

提供任何前述系统的另一系统，其中用于所述嵌入操作的装置包括用于将所提取的所述类别作为多维类别向量嵌入到所述多维向量空间中的装置，所述多维向量空间是从域特定文本的域特定嵌入生成的。

本文所描述的实施方式被实现为一个或多个计算机系统中的逻辑步骤。逻辑操作可以被实现为(1)在一个或多个计算机系统中执行的一系列处理器实现的步骤，以及(2)一个或多个计算机系统中的互连的机器模块或电路模块。实施方式是选择问题，取决于所使用的计算机系统的性能要求。因此，组成本文所描述的实施方式的逻辑操作被多样化地称为操作、步骤、对象或模块。此外，应该理解的是，逻辑操作可以任何顺序执行，除非另外明确声明或者权利要求语言固有地需要特定的顺序。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：A·古铁雷斯·穆尼奥斯;S·亚帕拉吉特;
专利申请人：微软技术许可有限责任公司;