导航：首页> 医学或兽医学；卫生学>一种数据标注的方法、装置、可读存储介质和电子设备

一种数据标注的方法、装置、可读存储介质和电子设备

文献发布时间：2023-06-19 11:05:16

技术领域

本发明涉及数据处理领域，具体涉及一种数据标注的方法、装置、可读存储介质和电子设备。

背景技术

随着互联网应用的发展，在线教学改变了传统的教学方式，在人们的日常生活使用越来越广泛，在线教学平台同时会有大量的用户同时使用，所述用户包括教师和学生，教师需要准确了解学生对知识点的掌握情况，由于学习资源的数量庞大，为了清晰直观的表示出学习资源对应的知识点，通过知识点标签的形式对学习资源进行标注。

现有技术中，通过有监督学习和无监督学习两种方式为学习资源标注知识点，其中，所述有监督学习的方式需要采用人工的方式为大量的学习资源标注知识点，然后进行有监督学习，最后自动为学习资源标注知识点；但是人工标注的注效率较低，工作量很大，并且人工标注的主观性比较强，标准不统一，不利于后续处理；所述无监督学习自动标注方法的召回率差，存在大量知识点漏标的问题。

综上所述，如何准确高效的对学习资源进行知识点标注，是目前需要解决的问题。

发明内容

有鉴于此，本发明实施例提供了一种数据标注的方法、装置、可读存储介质和电子设备，提高了对学习资源进行知识点标注的准确度。

第一方面，本发明实施例提供了一种数据标注的方法，该方法包括：获取待处理文本数据；根据知识图谱确定所述待处理文本数据对应的至少一个知识点信息；将所述待处理文本数据与每个所述知识点信息输入到预先训练的匹配模型中，确定所述待处理文本数据与所述知识点信息的匹配度；响应于所述匹配度大于或等于第一设定阈值，将所述知识点信息标注到所述待处理文本信息。

优选地，训练所述匹配模型的步骤包括：

获取标注样本数据，其中，所述标注样本数据包括文本信息和标注信息，所述标注样本数据分为标注正样本数据和标注负样本数据，所述标注信息包括知识点信息；对所述标注正样本数据进行扩充，确定扩充后的标注正样本数据，其中，扩充后的标注正样本数据的标注信息根据扩充前的标注正样本数据的标注信息确定；将所述扩充后的标注正样本数据和所述标注负样本数据作为所述匹配模型的输入，所述扩充后的标注正样本数据和所述标注负样本数据对应的匹配度作为所述匹配模型的输出，训练所述匹配模型，其中，所述标注正样本数据对应的匹配度为所述标注正样本数据的文本信息与所述标注正样本数据标注信息的匹配度，所述标注正样本数据对应的匹配度为第一设定数值；所述标注负样本数据对应的匹配度为所述标注负样本数据的文本信息与所述标注负样本数据标注信息的匹配度，所述标注负样本数据对应的匹配度为第二设定数值。

优选地，训练所述匹配模型的步骤包括：

获取标注样本数据，其中，所述标注样本数据包括文本信息和标注信息，所述标注样本数据分为标注正样本数据和标注负样本数据，所述标注信息包括知识点信息；对所述标注正样本数据进行扩充，确定扩充后的标注正样本数据，其中，扩充后的标注正样本数据的标注信息根据扩充前的标注正样本数据的标注信息确定；将所述扩充后的标注正样本数据和所述标注负样本数据进行随机遮挡，将遮挡后的向量输入到预先训练的语言模型中，输出所述扩充后的标注正样本数据和所述标注负样本数据对应无遮挡的向量；将所述遮挡后的向量与所述无遮挡的向量作为全连接层的输入，所述扩充后的标注正样本数据和所述标注负样本数据对应的匹配度作为所述全连接层的输出，训练所述匹配模型，其中，所述匹配模型为所述语言模型的基础上增加全连接层，所述标注正样本数据对应的匹配度为所述标注正样本数据的文本信息与所述标注正样本数据标注信息的匹配度，所述标注正样本数据对应的匹配度为第一设定数值；所述标注负样本数据对应的匹配度为所述标注负样本数据的文本信息与所述标注负样本数据标注信息的匹配度，所述标注负样本数据对应的匹配度为第二设定数值。

优选地，训练所述语言模型的步骤包括：

获取历史文本数据；将所述历史文本数据中的文本进行随机遮挡；

将随机遮挡的文本数据作为所述语言模型的输入，所述随机遮挡的文本数据对应的文本数据作为所述语言模型的输出，训练所述语言模型。

优选地，所述将所述标注正样本数据进行扩充，确定扩充后的标注正样本数据，具体包括：

将所述标注正样本数据进行文本提取，确定出所述标注正样本数据中的可替换词汇；通过与所述可替换词汇相同类别的词汇替换所述可替换词汇，确定扩充后的标注正样本数据的文本信息，将所述标注正样本数据的标注信息作为所述扩充后的标注正样本数据的标注信息。

优选地，所述将所述标注正样本数据进行扩充，确定扩充后的标注正样本数据，具体还包括：

将所述标注正样本数据进行文本提取，确定出所述标注样本数据中的至少两项可交换词汇；将所述至少两项可交换词汇进行任意交换，确定扩充后的标注正样本数据的文本信息，将所述标注正样本数据的标注信息作为所述扩充后的标注正样本数据的标注信息。

优选地，所述将所述标注正样本数据进行扩充，确定扩充后的标注正样本数据，具体还包括：

在数据库中确定与所述标注正样本数据相似度大于第二设定阈值的候选样本数据；将所述样本候选样本数据确定为所述扩充后的标注正样本数据的文本信息，将所述标注正样本数据的标注信息作为所述扩充后的标注正样本数据的标注信息。

优选地，所述获取待处理文本数据，具体包括：

确定初始文本数据；

将所述初始文本数据进行格式转换，确定所述待处理文本数据。

优选地，该方法还包括：

对所述待处理文本数据进行分块标记。

优选地，该方法还包括：

对所述扩充后的标注正样本数据和所述标注负样本数据分别进行分块标记。

第二方面，本发明实施例提供了一种数据标注的装置，其特征在于，该装置包括：

获取单元，用于获取待处理文本数据；

确定单元，用于根据知识图谱确定所述待处理文本数据对应的至少一个知识点信息；

处理单元，用于将所述待处理文本数据与每个所述知识点信息输入到预先训练的匹配模型中，确定所述待处理文本数据与所述知识点信息的匹配度；

标注单元，响应于所述匹配度大于或等于第一设定阈值，用于将所述知识点信息标注到所述待处理文本信息中。

优选地，训练所述匹配模型时所述获取单元还用于，获取标注样本数据，其中，所述标注样本数据包括文本信息和标注信息，所述标注样本数据分为标注正样本数据和标注负样本数据，所述标注信息包括知识点信息；

所述确定单元还用于，对所述标注正样本数据进行扩充，确定扩充后的标注正样本数据，其中，扩充后的标注正样本数据的标注信息根据扩充前的标注正样本数据的标注信息确定；

训练单元，用于将所述扩充后的标注正样本数据和所述标注负样本数据作为所述匹配模型的输入，所述扩充后的标注正样本数据和所述标注负样本数据对应的匹配度作为所述匹配模型的输出，训练所述匹配模型，其中，所述标注正样本数据对应的匹配度为所述标注正样本数据的文本信息与所述标注正样本数据标注信息的匹配度，所述标注正样本数据对应的匹配度为第一设定数值；所述标注负样本数据对应的匹配度为所述标注负样本数据的文本信息与所述标注负样本数据标注信息的匹配度，所述标注负样本数据对应的匹配度为第二设定数值。

所述确认单元还用于，对所述标注正样本数据进行扩充，确定扩充后的标注正样本数据，其中，扩充后的标注正样本数据的标注信息根据扩充前的标注正样本数据的标注信息确定；

所述处理单元还用于，将所述扩充后的标注正样本数据和所述标注负样本数据进行随机遮挡，将遮挡后的向量输入到预先训练的语言模型中，输出所述扩充后的标注正样本数据和所述标注负样本数据对应无遮挡的向量；

所述训练单元还用于，将所述遮挡后的向量与所述无遮挡的向量作为全连接层的输入，所述扩充后的标注正样本数据和所述标注负样本数据对应的匹配度作为所述全连接层的输出，训练所述匹配模型，其中，所述匹配模型为所述语言模型的基础上增加全连接层，所述标注正样本数据对应的匹配度为所述标注正样本数据的文本信息与所述标注正样本数据标注信息的匹配度，所述标注正样本数据对应的匹配度为第一设定数值；所述标注负样本数据对应的匹配度为所述标注负样本数据的文本信息与所述标注负样本数据标注信息的匹配度，所述标注负样本数据对应的匹配度为第二设定数值。

优选地，训练所述语言模型时所述获取单元还用于，获取历史文本数据；

所述处理单元还用于，将所述历史文本数据中的文本进行随机遮挡；

所述训练单元还用于，将随机遮挡的文本数据作为所述语言模型的输入，所述随机遮挡的文本数据对应的文本数据作为所述语言模型的输出，训练所述语言模型。

优选地，所述确定单元具体还用于：

优选地，所述获取单元具体用于：

确定初始文本数据；将所述初始文本数据进行格式转换，确定所述待处理文本数据。

优选地，所述处理单元具体还用于：

对所述待处理文本数据进行分块标记。

优选地，所述处理单元具体还用于：

对所述扩充后的标注正样本数据和所述标注负样本数据分别进行分块标记。

第三方面，本发明实施例提供了一种计算机可读存储介质，其上存储计算机程序指令，所述计算机程序指令在被处理器执行时实现如第一方面或第一方面任一种可能中任一项所述的方法。

第四方面，本发明实施例提供了一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面或第一方面任一种可能中任一项所述的方法。

本发明实施例通过知识图谱的方式可以确定待处理文本数据对应的多个知识点信息，所述知识点信息包括知识点和知识点对应的属性信息，将所述待处理文本数据分别与每个所述知识点信息输入到预先训练的匹配模型中，确定所述待处理文本数据与每个所述知识点信息的匹配度；当所述匹配度大于或等于第一设定阈值，将所述知识点信息标注到所述待处理文本信息。通过上述方法，可以在通过知识图谱为待处理文本数据确定的多个知识点信息中，确定匹配度符合要求的至少一个知识点信息，然后将每个符合的知识点信息都标注到所述待处理文本数据中，提高了对学习资源进行知识点标注的准确度。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明实施例的一种数据标注的方法流程图；

图2是本发明实施例的一种数据标注的方法流程图；

图3是本发明实施例的一种训练匹配模型的方法流程图；

图4是本发明实施例的一种训练匹配模型的方法流程图；

图5是本发明实施例的一种训练匹配模型的方法流程图；

图6是本发明实施例的一种匹配模型的结构示意图；

图7是本发明实施例的一种训练语言模型的方法流程图；

图8是本发明实施例的一种数据流向示意图；

图9是本发明实施例的一种数据标注的方法流程图；

图10是本发明实施例的一种数据标注的装置示意图；

图11是本发明实施例的一种电子设备的示意图。

具体实施方式

以下基于实施例对本发明公开进行描述，但是本发明公开并不仅仅限于这些实施例。在下文对本发明公开的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明公开。为了避免混淆本发明公开的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则整个申请文件中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明公开的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明公开的描述中，除非另有说明，“多个”的含义是两个或两个以上。

通常在现有技术中，通过有监督学习和无监督学习两种方式为学习资源标注知识点，其中，所述有监督学习的方式需要采用人工的方式为大量的学习资源标注知识点，然后进行有监督学习，最后自动为学习资源标注知识点；例如，假设需要标注100个知识点，针对每个知识点需要标注了该知识点的至少20条学习资源，人工标注的注效率较低，且工作量很大；并且人工标注的主观性比较强，标准不统一，不利于后续处理；所述无监督学习自动标注方法的召回率差，存在大量知识点漏标的问题，例如，一个学习资源包括两个以上的知识点，假设包括三个知识点，但是通过无监督学习自动标注方法只能标注其中一个知识点，造成两个知识点漏标，即所述召回率差，也就是说对学习资源进行知识点标注时，标注的准确度差。

本发明实施例中，通过知识图谱的方式可以确定待处理文本数据对应的多个知识点信息，所述知识点信息包括知识点和知识点对应的属性信息，将所述待处理文本数据分别与每个所述知识点信息输入到预先训练的匹配模型中，确定所述待处理文本数据与每个所述知识点信息的匹配度；当所述匹配度大于或等于第一设定阈值，将所述知识点信息标注到所述待处理文本信息；实现了对学习资源快速准确的打上各类知识点标签，直观的反应出学生对知识点的掌握情况。

本发明实施例中，图1是本发明实施例的一种数据标注的方法流程图。如图1所示，具体包括如下步骤：

步骤S100、获取待处理文本数据。

具体的，所述待处理文本数据还可以称为学习资源，不同的学习资源对应着不同的格式类型，例如，所述待处理文本数据为英语选择题，具体为，“Fill in theblank..They__have an apple..do.do not.not.doesn't”，其中，“Fill in the blank”为题干，“They__have an apple”为题目，“do.do not.not.doesn't”为选项，所有的英语选择题都处理成上述格式类型的文本，上述格式类型仅仅为示例性说明，具体情况根据实际情况确定，本发明实施例不做限定。

步骤S101、根据知识图谱确定所述待处理文本数据对应的至少一个知识点信息。

具体的，所述知识点信息包括知识点以及知识点属性信息，其中，所述知识点属性信息可以为知识点类型或者知识点示例等，举例说明，待处理文本数据为“Fill in theblank..fill in the blank.....do not.They__have an apple..they do not have anapple...Picture..do.do not.not.doesn't”，其对应的知识点类型为“助动词的用法”，知识点示例为“do/do not”。

在一种可能的实现方式中，根据词频-逆文档频率(Term Frequency-InverseDocument Frequency，TF-IDF)或者最佳匹配25(Best Match 25，BM25)算法从知识图谱中获取对应的至少一个知识点信息，具体的，所述TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比；所述BM25算法是一种用来评价搜索词和文档之间相关性的算法，是一种基于概率检索模型提出的算法；其中，所述知识点信息为所述学习资源所属领域的知识点信息，不限于所述学习资源中包括的知识点信息，还包括所述学习资源所属领域中与所述学习资源中包括的知识点信息相关的知识点信息，例如，待处理文本数据为“Fill in the blank..fill in the blank.....do not.They__have anapple..they do not have an apple...Picture..do.do not.not.doesn't”的知识点信息为“do/do not”，属于助动词的用法，因此其他助动词也可以作为所述待处理文本数据的候选知识点信息，具体的，可以通过知识图谱中选取20个所述待处理文本数据的候选知识点信息。

步骤S102、将所述待处理文本数据与每个所述知识点信息输入到预先训练的匹配模型中，确定所述待处理文本数据与所述知识点信息的匹配度。

具体的，在将所述待处理文本数据与每个所述知识点信息输入到预先训练的匹配模型之前，该方法还包括：对所述待处理文本数据进行分块标记。

举例说明，学习资源和知识点信息可以通过特定的符号连接，例如符号[SEP]，具体的，Fill in the blank..fill in the blank.....do not.They__have anapple..they do not have an apple...Picture.do.do not.not.doesn't.[SEP]助动词的用法do/do not；由于学习资源中不同位置所蕴含的信息量可能不同，为了提高匹配模型的准确性，因此需要采用分块标记的方式对学习资源进行处理，同样的知识点信息中除了包括知识点之外，还包括知识点类型，因此，所述知识点信息也采用分块标记的方式进行处理，具体示例如下：[分块(FRAGMENT)1]Fill in the blank..fill in the blank.....[FRAGMENT2]do not.[FRAGMENT3]They__have an apple..they do not have anapple...Picture.do.do not.not.doesn't.[SEP][知识点(KNOWLEDGE)1]助动词的用法[KNOWLEDGE2]do/do not；上述仅仅为示例性说明，所述学习资源还会对应其他知识点信息，将每个所述学习资源与每个所述知识点信息输入到预先训练的匹配模型中，确定所述学习资源与所述知识点信息的匹配度，即确定所述待处理文本数据与所述知识点信息的匹配度，具体的，所述匹配度可以为0-1之间的任一数值，也可以为其他数值，本发明实施例对其不做限定。

在一种可能的实现方式中，将所述待处理文本数据与20个知识点信息分别进行组合，然后分别输入到预先训练的匹配模型中，确定出20个匹配度。

步骤S103、响应于所述匹配度大于或等于第一设定阈值，将所述知识点信息标注到所述待处理文本信息。

举例说明，假设所述第一设定阈值为0.5，所述待处理文本数据与所述知识点信息的匹配度为0.6，大于所述第一设定阈值，则将所述知识点信息标注到所述待处理文本信息；或者，假设所述第一设定阈值为0.5，所述待处理文本数据与所述知识点信息的匹配度为0.4，小于所述第一设定阈值，则将所述知识点信息不标注到所述待处理文本信息。

在一种可能的实现方式中，假设步骤S102的具体实施例中确定出的20个匹配度，只有两个匹配度大于所述第一设定阈值，则所述待处理文本数据标记所述两个匹配度大于所述第一设定阈值的知识点信息。

通过上述实施例，可以在通过知识图谱为待处理文本数据确定的多个知识点信息中，确定匹配度符合要求的至少一个知识点信息，然后将每个符合的知识点信息都标注到所述待处理文本数据中，提高了对学习资源进行知识点标注的准确度。

在一种可能的实现方式中，在步骤S100之前，该方法还包括步骤S104和步骤S105，具体如图2所示，图2是本发明实施例的一种数据标注的方法流程图，具体如下：

步骤S104、确定初始文本数据。

具体的，所述初始文本数据可以为文本格式的资源、也可以图像格式的资源经过转化获取的，还可以是音视频格式的资源通过自动语音识别(Automatic SpeechRecognition，ASR)技术转化获取的，本发明实施例对初始文本数据的来源不做限定。

步骤S105、将所述初始文本数据进行格式转换，确定所述待处理文本数据。

通过上述方法，可以根据不同的来源获取初始文本数据，使数据标注的方法的使用范围和使用场景扩大。

在一种可能的实现方式中，需要预先训练匹配模型，具体的训练所述匹配模型包括两种方式：

方式一、训练所述匹配模型的步骤如图3所示，具体包括：

步骤S300、获取标注样本数据，其中，所述标注样本数据包括文本信息和标注信息，所述标注样本数据分为标注正样本数据和标注负样本数据，所述标注信息包括知识点信息。

具体的，所示标注样本数据包括学习资源文本信息text a和知识点信息text b，text a从知识图谱中获取的text b有多个，将text a和正确的text b采用[SEP]符号连接形成标注正样本数据，将text a和错误的text b采用[SEP]符号连接形成标注负样本数据，也可以采用其他符号连接，具体的，所示标注正样本数据和标注负样本数据的示例分别如下：所述标注正样本数据为Fill in the blank..fill in the blank.....do not.They_have an apple..they do not have an apple...Picture.do.do not.not.doesn't.助动词的用法do/do not；所述标注正样本数据可能是音频转换获取的。所述标注负样本数据为Fill in the blank..fill in the blank.....do not.They_have an apple..they donot have an apple...Picture.do.do not.not.doesn't.have的用法I have a book.Shehas an apple。

步骤S301、对所述标注正样本数据进行扩充，确定扩充后的标注正样本数据，其中，扩充后的标注正样本数据的标注信息根据扩充前的标注正样本数据的标注信息确定。

在一种可能的实现方式中，由于步骤S300中标注正样本数据和标注负样本数据在数量上存在很大差异，有可能标注正样本数据和标注负样本数据的比例会达到1：20，如果直接按照上述比例训练匹配模型，会影响匹配模型的准确度，因此，为了让匹配模型更好的学习到学习资源与知识点之间的对应关系，需要充分利用少量的标注正样本数据，将标注正样本数据进行扩充，也可以称为将标注正样本数据进行文本增强，所述将所述标注正样本数据进行扩充，确定扩充后的标注正样本数据，具体包括以下三种情况：

情况一、将所述标注正样本数据进行文本提取，确定出所述标注正样本数据中的可替换词汇；通过与所述可替换词汇相同类别的词汇替换所述可替换词汇，确定扩充后的标注正样本数据的文本信息，将所述标注正样本数据的标注信息作为所述扩充后的标注正样本数据的标注信息。

举例说明，假设标注正样本数据为“Fill in the blank..fill in theblank.....do not.They_have an apple..they do not have anapple...Picture.do.do not.not.doesn't”，确定出所述可替换词汇为“apple(苹果)”，“apple”属于水果，与“apple”相同类别的词汇可以为“banana(香蕉)”、“orange(橘子)”等，通过“banana(香蕉)”、“orange(橘子)”替换“apple(苹果)”，替换后的标注正样本数据为“Fill in the blank..fill in the blank.....do not.They_have an banana..they donot have an apple...Picture.do.do not.not.doesn't”或者“Fill in theblank..fill in the blank.....do not.They_have an apple..they do not have anorange...Picture.do.do not.not.doesn't”，通过上述方式扩充了标注正样本数据的数量。

情况二、将所述标注正样本数据进行文本提取，确定出所述标注样本数据中的至少两项可交换词汇；将所述至少两项可交换词汇进行任意交换，确定扩充后的标注正样本数据的文本信息，将所述标注正样本数据的标注信息作为所述扩充后的标注正样本数据的标注信息。

举例说明，假设标注正样本数据为“Fill in the blank..fill in theblank.....do not.They_have an apple..they do not have anapple...Picture.do.do not.not.doesn't”，确定给出至少两项可交换词汇为选项“do.donot.not.doesn't”，可以将“do.do not.not.doesn't”的顺序任意交换，例如，交换后的选项为“do not.do.not.doesn't”、“doesn't.do not.do.not”等，在此不做赘述，交换换后的标注正样本数据为“Fill in the blank..fill in the blank.....do not.They_have anbanana..they do not have an apple...Picture.do not.do.not.doesn't”或者“Fillin the blank..fill in the blank.....do not.They_have an apple..they do nothave an orange...Picture.doesn't.do not.do.not”，通过上述方式扩充了标注正样本数据的数量。

情况三、在数据库中确定与所述标注正样本数据相似度大于第二设定阈值的候选样本数据；将所述样本候选样本数据确定为所述扩充后的标注正样本数据的文本信息，将所述标注正样本数据的标注信息作为所述扩充后的标注正样本数据的标注信息。

具体的，所述数据库中包括海量无标注的学习资源，在所述海量无标注的学习资源中确定与所述标注正样本数据相似度大于第二设定阈值的候选样本数据，其中，所述第二设定阈值可以为0.9，也可以为其他数值，本发明实施例对其不做限定。

步骤S302、将所述扩充后的标注正样本数据和所述标注负样本数据作为所述匹配模型的输入，所述扩充后的标注正样本数据和所述标注负样本数据对应的匹配度作为所述匹配模型的输出，训练所述匹配模型。

具体的，所述标注正样本数据对应的匹配度为所述标注正样本数据的文本信息与所述标注正样本数据标注信息的匹配度，所述标注正样本数据对应的匹配度为第一设定数值；所述标注负样本数据对应的匹配度为所述标注负样本数据的文本信息与所述标注负样本数据标注信息的匹配度，所述标注负样本数据对应的匹配度为第二设定数值，假设所述标注正样本数据中学习资源与知识点的匹配度为1，所述标注负样本数据中学习资源与知识点的匹配度为0，根据扩充后的标注正样本数据和所述标注负样本数据和扩充后的标注正样本数据和所述标注负样本数据对应的匹配度通过训练所述匹配模型的参数，由于标注正样本的数量进行了扩充，使标注正样本数据和所述标注负样本数据数量大致相同，训练出的匹配模型的准确性更高。

在一种可能的实现方式中，所述步骤S302之前，还包括步骤S303，具体的，如图4所示：

步骤S303、对所述扩充后的标注正样本数据和所述标注负样本数据分别进行分块标记。

举例说明，标注正样本数据为[FRAGMENT1]Fill in the blank..fill in theblank.....[FRAGMENT2]do not.[FRAGMENT3]They_have an apple..they do not havean apple...Picture.do.do not.not.doesn't.[SEP][KNOWLEDGE1]助动词的用法[KNOWLEDGE2]do/do not；标注负样本数据为：[FRAGMENT1]Fill in the blank..fill inthe blank.....[FRAGMENT2]do not.[FRAGMENT3]They__have an apple..they do nothave an apple...Picture.do.do not.not.doesn't.[SEP][KNOWLEDGE1]have的用法[KNOWLEDGE2]I have a book.She has an apple。

由于学习资源中不同位置所蕴含的信息量可能不同，为了在训练匹配模型时，提高所述匹配模型的准确性，采用分块标记的方式对学习资源和知识点信息进行处理，可以训练所述匹配模型中的权重系数。

方式二、训练所述匹配模型的步骤如图5所示，具体包括：

步骤S500、获取标注样本数据，其中，所述标注样本数据包括文本信息和标注信息，所述标注样本数据分为标注正样本数据和标注负样本数据，所述标注信息包括知识点信息。

步骤S501、对所述标注正样本数据进行扩充，确定扩充后的标注正样本数据，其中，扩充后的标注正样本数据的标注信息根据扩充前的标注正样本数据的标注信息确定。

步骤S502、将所述扩充后的标注正样本数据和所述标注负样本数据进行随机遮挡，将遮挡后的向量输入到预先训练的语言模型中，输出所述扩充后的标注正样本数据和所述标注负样本数据对应无遮挡的向量。

步骤S503、将所述遮挡后的向量与所述无遮挡的向量作为全连接层的输入，所述扩充后的标注正样本数据和所述标注负样本数据对应的匹配度作为所述全连接层的输出，训练所述匹配模型，其中，所述匹配模型为所述语言模型的基础上增加全连接层。

具体的，所述标注正样本数据对应的匹配度为所述标注正样本数据的文本信息与所述标注正样本数据标注信息的匹配度，所述标注正样本数据对应的匹配度为第一设定数值；所述标注负样本数据对应的匹配度为所述标注负样本数据的文本信息与所述标注负样本数据标注信息的匹配度，所述标注负样本数据对应的匹配度为第二设定数值。举例说明，所述第一设定数值可以为1，所述第二设定数值可以为0，也可以为其他数值，本发明实施例对其不做限定。

举例说明，假设所述语言模型为11层的模型，所述匹配模型在所述11层的基础上增加全连接层，即所述匹配模型为12层的模型，具体的示意图如图6所示，包括语言模型601和全连接层602，所述语言模型601和全连接层602组成了匹配模型，其中，所述语言模型601的输入为扩充后的标注正样本数据和所述标注负样本数据进行随机遮挡后的向量，所述语言模型601的输出为扩充后的标注正样本数据和所述标注负样本数据的无遮挡的向量；将所述语言模型601的输入和输出作为全连接层602的输入，匹配度作为全连接层602的输出，上述语言模型的层数仅仅为示例性说明。

在一种可能的实现方式中，所述扩充后的标注正样本数据和所述标注负样本数据进行随机遮挡后也需要进行分块处理，本发明实施例在此不做赘述。

在一种可能的实现方式中，训练所述语言模型的步骤如图7所述，具体包括：

步骤S700、获取历史文本数据。

具体的，假设历史文本数据为特定一个年级的学习资源，则将海量无标注的学习资源预处理成统一格式的文本数据，即所述历史文本数据。

步骤S701、将所述历史文本数据中的文本进行随机遮挡。

具体的，假设历史文本数据为一个完整的句子，将所述完整的句子中任意一个或多个词汇进行遮挡，确定所述文本数据对应的随机遮挡的文本数据。

步骤S702、将随机遮挡的文本数据作为所述语言模型的输入，所述随机遮挡的文本数据对应的文本数据作为所述语言模型的输出，训练所述语言模型。

通过上述方法，可以获取大量的语言模型的训练资源提高语言模型的准确性。

在一种可能的实现方式中，上述步骤S700至步骤S701的处理流程中，数据的流向如图8所示：S800、历史文本数据预处理；S801、历史文本数据内容随机遮挡；S802、构建句子对，其中，随机遮挡的所述历史文本数据内容与未遮挡的历史文本数据内容为一个句子对；S803、训练语言模型，结束处理。

下面通过一个完整实施例对本发明种数据标注的方法进行完整说明，具体如图9所示：

步骤S900、将原始内容数据进行预处理，确定第一文本数据，其中，所述第一文本数据为所述原始内容数据设定格式转换生成的。

步骤S901、通过知识图谱确定所述第一文本数据的知识点信息。

步骤S902、根据所述第一文本数据与所述第一文本数据的知识点信息构建正样本数据和负样本数据。

步骤S903、对所述正样本数据进行文本增强，确定扩充后的正样本数据。

步骤S904、根据所述扩充后的正样本数据和负样本数据训练匹配模型。

步骤S905、获取待处理文本数据，确定待处理文本数据的知识点信息。

步骤S906、通过匹配模型计算所述待处理文本数据与所述待处理文本数据的知识点信息的匹配度。

步骤S907、根据匹配度确定所述待处理文本数据的知识点标注结果。

本发明实施例中，通过上述方案可以准确的对待处理文本数据进行知识点的准确标注。

图10是本发实施例的一种数据标注的装置示意图。如图10所示，本实施例的装置包括获取单元1001、确定单元1002、处理单元1003和标注单元1004。

其中，获取单元1001，用于获取待处理文本数据；确定单元1002，用于根据知识图谱确定所述待处理文本数据对应的至少一个知识点信息；处理单元1003，用于将所述待处理文本数据与每个所述知识点信息输入到预先训练的匹配模型中，确定所述待处理文本数据与所述知识点信息的匹配度；标注单元1004，响应于所述匹配度大于或等于第一设定阈值，用于将所述知识点信息标注到所述待处理文本信息中。

本发明实施例中，可以在通过知识图谱为待处理文本数据确定的多个知识点信息中，确定匹配度符合要求的至少一个知识点信息，然后将每个符合的知识点信息都标注到所述待处理文本数据中，提高了对学习资源进行知识点标注的准确度。

进一步地，训练所述匹配模型时所述获取单元还用于，获取标注样本数据，其中，所述标注样本数据包括文本信息和标注信息，所述标注样本数据分为标注正样本数据和标注负样本数据，所述标注信息包括知识点信息；所述确定单元还用于，对所述标注正样本数据进行扩充，确定扩充后的标注正样本数据，其中，扩充后的标注正样本数据的标注信息根据扩充前的标注正样本数据的标注信息确定；训练单元，用于将所述扩充后的标注正样本数据和所述标注负样本数据作为所述匹配模型的输入，所述扩充后的标注正样本数据和所述标注负样本数据对应的匹配度作为所述匹配模型的输出，训练所述匹配模型，其中，所述标注正样本数据对应的匹配度为所述标注正样本数据的文本信息与所述标注正样本数据标注信息的匹配度，所述标注正样本数据对应的匹配度为第一设定数值；所述标注负样本数据对应的匹配度为所述标注负样本数据的文本信息与所述标注负样本数据标注信息的匹配度，所述标注负样本数据对应的匹配度为第二设定数值。

本发明实施例中，通过对标注正样本数据的扩充，增加了标注正样本数据的数量，使标注正样本数据与标注负样本数据持平，使训练出的匹配模型准确性更高。

进一步地，训练所述匹配模型时所述获取单元还用于，获取标注样本数据，其中，所述标注样本数据包括文本信息和标注信息，所述标注样本数据分为标注正样本数据和标注负样本数据，所述标注信息包括知识点信息；所述确认单元还用于，将对所述标注正样本数据进行扩充，确定扩充后的标注正样本数据，其中，扩充后的标注正样本数据的标注信息根据扩充前的标注正样本数据的标注信息确定；所述处理单元还用于，将所述扩充后的标注正样本数据和所述标注负样本数据进行随机遮挡，将遮挡后的向量输入到预先训练的语言模型中，输出所述扩充后的标注正样本数据和所述标注负样本数据对应无遮挡的向量；所述训练单元还用于，将所述遮挡后的向量与所述无遮挡的向量作为全连接层的输入，所述扩充后的标注正样本数据和所述标注负样本数据对应的匹配度作为所述全连接层的输出，训练所述匹配模型，其中，所述匹配模型为所述语言模型的基础上增加全连接层，所述标注正样本数据对应的匹配度为所述标注正样本数据的文本信息与所述标注正样本数据标注信息的匹配度，所述标注正样本数据对应的匹配度为第一设定数值；所述标注负样本数据对应的匹配度为所述标注负样本数据的文本信息与所述标注负样本数据标注信息的匹配度，所述标注负样本数据对应的匹配度为第二设定数值。

进一步地，训练所述语言模型时所述获取单元还用于，获取历史文本数据；所述处理单元还用于，将所述历史文本数据中的文本进行随机遮挡；所述训练单元还用于，将随机遮挡的文本数据作为所述语言模型的输入，所述随机遮挡的文本数据对应的文本数据作为所述语言模型的输出，训练所述语言模型。

本发明实施中，通过随机遮挡的方式确定语言模型的训练样本，提高语言模型的准确性。

进一步地，所述确定单元具体还用于：将所述标注正样本数据进行文本提取，确定出所述标注正样本数据中的可替换词汇；通过与所述可替换词汇相同类别的词汇替换所述可替换词汇，确定扩充后的标注正样本数据的文本信息，将所述标注正样本数据的标注信息作为所述扩充后的标注正样本数据的标注信息。

本发明实施中，通过相同类别的词汇替换的方式，增加标注正样本数据的数量。

进一步地，所述确定单元具体还用于：将所述标注正样本数据进行文本提取，确定出所述标注样本数据中的至少两项可交换词汇；将所述至少两项可交换词汇进行任意交换，确定扩充后的标注正样本数据的文本信息，将所述标注正样本数据的标注信息作为所述扩充后的标注正样本数据的标注信息。

本发明实施中，通过交换词汇的方式，增加标注正样本数据的数量。

进一步地，所述确定单元具体还用于：在数据库中确定与所述标注正样本数据相似度大于第二设定阈值的候选样本数据；将所述样本候选样本数据确定为所述扩充后的标注正样本数据的文本信息，将所述标注正样本数据的标注信息作为所述扩充后的标注正样本数据的标注信息。

本发明实施中，在海量无标注数据中通过相似度计算的方式，增加标注正样本数据的数量。

进一步地，所述获取单元具体用于：确定初始文本数据；将所述初始文本数据进行格式转换，确定所述待处理文本数据。

本发明实施例中，初始文本数据的来源可以多样化，本发明实施例的应用场景也可以比较广泛。

进一步地，所述处理单元具体还用于：对所述待处理文本数据进行分块标记。

本发明实施例中，对所述待处理文本数据进行分块标记可以提高文本标注的准确性。

进一步地，所述处理单元具体还用于：对所述扩充后的标注正样本数据和所述标注负样本数据分别进行分块标记。

本发明实施例中，对所述待处理文本数据进行分块标记可以提高文本标注的准确性。

图11是本发明实施例的电子设备的示意图。图11所示的电子设备为通用数据标注装置，其包括通用的计算机硬件结构，其至少包括处理器1101和存储器1102。处理器1101和存储器1102通过总线1103连接。存储器1102适于存储处理器1101可执行的指令或程序。处理器1101可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器1101通过执行存储器1102所存储的指令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线1103将上述多个组件连接在一起，同时将上述组件连接到显示控制器1104和显示装置以及输入/输出(I/O)装置1105。输入/输出(I/O)装置1105可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出装置1105通过输入/输出(I/O)控制器1106与系统相连。

如本领域技术人员将意识到的，本发明实施例的各个方面可以被实现为系统、方法或计算机程序产品。因此，本发明实施例的各个方面可以采取如下形式：完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实施方式。此外，本发明实施例的各个方面可以采取如下形式：在一个或多个计算机可读介质中实现的计算机程序产品，计算机可读介质具有在其上实现的计算机可读程序代码。

可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置，或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项：具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明实施例的上下文中，计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。

计算机可读信号介质可以包括传播的数据信号，所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式，包括但不限于：电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质：不是计算机可读存储介质，并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。

可以使用包括但不限于无线、有线、光纤电缆、RF等或前述的任意适当组合的任意合适的介质来传送实现在计算机可读介质上的程序代码。

用于执行针对本发明实施例各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写，所述编程语言包括：面向对象的编程语言如Java、Smalltalk、C++等；以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行；部分地在用户计算机上且部分地在远程计算机上执行；或者完全地在远程计算机或服务器上执行。在后一种情况下，可以将远程计算机通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接至用户计算机，或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。

上述根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图图例和/或框图描述了本发明实施例的各个方面。将要理解的是，流程图图例和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据处理设备的处理器，以产生机器，使得(经由计算机或其它可编程数据处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。

还可以将这些计算机程序指令存储在可以指导计算机、其它可编程数据处理设备或其它装置以特定方式运行的计算机可读介质中，使得在计算机可读介质中存储的指令产生包括实现在流程图和/或框图块或块中指定的功能/动作的指令的制品。

计算机程序指令还可以被加载至计算机、其它可编程数据处理设备或其它装置上，以使在计算机、其它可编程设备或其它装置上执行一系列可操作步骤来产生计算机实现的过程，使得在计算机或其它可编程设备上执行的指令提供用于实现在流程图和/或框图块或块中指定的功能/动作的过程。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：胡科;李理;
专利申请人：北京大米科技有限公司;

上一篇：一种用于智能机器人的运输包装结构
下一篇：一种软胶囊囊壳及由其制备的软胶囊及其制备方法