掌桥专利:专业的专利平台
掌桥专利
首页

一种文本标注方法、装置、终端及存储介质

文献发布时间:2023-06-19 10:24:22


一种文本标注方法、装置、终端及存储介质

技术领域

本申请涉及文本处理技术领域,尤其涉及一种文本标注方法、装置、终端及存储介质。

背景技术

随着人工智能产业的高速发展,其对标注数据的海量需求推动了人工智能数据标注服务行业的发展繁荣,行业需求及规模正在日益扩大。目前国内外在人工智能方面取得了不少成果,同样需要大量的标注数据,对其中的人工智能算法及模型进行训练。

文本标注是人工智能进行模型训练必不可少的一环。这是将最原始的数据变成算法可用数据的过程:原始数据一般通过数据采集获得,随后的数据标注相当于对文本进行加工,然后输送到人工智能算法和模型里进行调用,目前文本标注包括:词义标注和关联标注,具体实施方式为人工标注,标注的准确率与标注者相关联,即使是专业人员,其标注的准确率受制于标注效率,当标注量大且关联的标注相距较远时,存在准确率明显下降的现象。

发明内容

本申请提供了一种文本标注方法、装置、终端及存储介质,用于解决目前文本标注实施方式为人工标注,标注的准确率与标注者相关联,当标注量大且关联的标注相距较远容易导致标注准确率明显下降的技术问题。

首先,本申请第一方面提供了一种文本标注方法,包括:

获取待标注的文本数据;

对所述文本数据进行分词处理,得到所述文本数据中包含的词汇信息,并识别所述词汇信息中的实体词;

根据所述实体词,结合上下文的关键词,通过语义识别方式,确定各个所述实体词的词义标注信息;

根据第一实体词的词义标注信息,结合预置的词义关联关系,从所述实体词中筛选出第二实体词,以及所述第一实体词与所述第二实体词的词义关系信息,其中,所述第二实体词为所述实体词中,词义标注信息与所述第一实体词的词义标注信息存在关联关系的实体词;

根据所述第一实体词、所述第二实体词和所述词义关系信息,生成词义关联标注信息。

优选地,所述识别所述词汇信息中的实体词之后还包括:

根据所述实体词在所述文本数据中位置,生成所述实体词的文本定位信息。

优选地,所述根据所述实体词,结合所述实体词的上下文文本,通过语义识别方式,确定各个所述实体词的词义标注信息之后还包括:

分别根据所述实体词的文本定位信息,确定所述实体词对应的第一标注显示区域,以便在所述第一标注显示区域上显示所述实体词的词义标注信息。

优选地,根据所述第一实体词、所述第二实体词和所述词义关系信息,生成词义关联标注信息之后还包括:

根据所述第一实体词与所述第二实体词的文本定位信息,确定第二标注显示区域,以便在所述第二标注显示区域上显示所述词义关联标注信息,其中,所述词义关联标注信息包括:词义关联标注文本和词义关联向量图形。

同时,本申请第二方面提供了一种文本标注装置,包括:

文本获取单元,用于获取待标注的文本数据;

实体词识别单元,用于对所述文本数据进行分词处理,得到所述文本数据中包含的词汇信息,并识别所述词汇信息中的实体词;

词义标注处理单元,用于根据所述实体词,结合上下文的关键词,通过语义识别方式,确定各个所述实体词的词义标注信息;

关联实体词识别单元,用于根据第一实体词的词义标注信息,结合预置的词义关联关系,从所述实体词中筛选出第二实体词,以及所述第一实体词与所述第二实体词的词义关系信息,其中,所述第二实体词为所述实体词中,词义标注信息与所述第一实体词的词义标注信息存在关联关系的实体词;

词义关联标注信息生成单元,用于根据所述第一实体词、所述第二实体词和所述词义关系信息,生成词义关联标注信息。

优选地,还包括:

实体词定位单元,用于根据所述实体词在所述文本数据中位置,生成所述实体词的文本定位信息。

优选地,还包括:

词义标注显示单元,用于分别根据所述实体词的文本定位信息,确定所述实体词对应的第一标注显示区域,以便在所述第一标注显示区域上显示所述实体词的词义标注信息。

优选地,还包括:

词义关联标注显示单元,用于根据所述第一实体词与所述第二实体词的文本定位信息,确定第二标注显示区域,以便在所述第二标注显示区域上显示所述词义关联标注信息,其中,所述词义关联标注信息包括:词义关联标注文本和词义关联向量图形。

本申请第三方面提供了一种文本标注终端,包括:存储器和处理器;

所述存储器用于存储程序代码,所述程序代码与本申请第一方面所述的文本标注方法相对应;

所述处理器用于执行所述程序代码。

本申请第四方面提供了一种存储介质,所述存储介质中保存有与本申请第一方面任意一项所述的文本标注方法相对应的程序代码。

从以上技术方案可以看出,本申请具有以下优点:

本申请提供的一种文本标注方法,包括:获取待标注的文本数据;对所述文本数据进行分词处理,得到所述文本数据中包含的词汇信息,并识别所述词汇信息中的实体词;根据所述实体词,结合上下文的关键词,通过语义识别方式,确定各个所述实体词的词义标注信息;根据第一实体词的词义标注信息,结合预置的词义关联关系,从所述实体词中筛选出第二实体词,以及所述第一实体词与所述第二实体词的词义关系信息,其中,所述第二实体词为所述实体词中,词义标注信息与所述第一实体词的词义标注信息存在关联关系的实体词;根据所述第一实体词、所述第二实体词和所述词义关系信息,生成词义关联标注信息。

本申请利用对待标注的文本进行分词处理得到的实体词,第一实体词的词义标注信息,结合预置的词义关联关系,从实体词中筛选出第二实体词,以及第一实体词与第二实体词的词义关系信息,生成第一实体词和第二实体词的词义关联标注信息,实现了对文本中的实体词以及实体词关联关系的自动标注,从而提高文本标注的准确率,解决了现有的标注方式,当标注量大且关联的标注相距较远容易导致标注准确率明显下降的技术问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。

图1为本申请提供的一种文本标注方法的第一个实施例的流程示意图;

图2为本申请提供的一种文本标注方法的第二个实施例的流程示意图;

图3为本申请提供的一种文本标注装置的第一个实施例的结构示意图;

图4为按照本申请提供的一种文本标注方法进行标注的效果示意图。

具体实施方式

本申请实施例提供了一种文本标注方法、装置、终端及存储介质,用于解决目前文本标注方式为人工标注,标注的准确率与标注者相关联,当标注量大且关联的标注相距较远容易导致标注准确率明显下降的技术问题。

为使得本申请的发明目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本申请一部分实施例,而非全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。

请参阅图1,本申请第一个实施例提供了一种文本标注方法,包括:

步骤101、获取待标注的文本数据。

步骤102、对文本数据进行分词处理,得到文本数据中包含的词汇信息,并识别词汇信息中的实体词。

需要说明的是,首先,获取需要进行标注处理的文本数据,并对该文本数据进行分词处理,得到待标注的文本数据分词处理后的各个词汇,以及由上述各个词汇组成的词汇信息,并结合各个词汇的词性,识别出词汇中的实体词。

步骤103、根据实体词,结合上下文的关键词,通过语义识别方式,确定各个实体词的词义标注信息。

需要说明的是,基于步骤102识别出的实体词,结合该实体词上下文的关键词信息,通过语义识别方式,如机器学习语义识别方式等现有的识别方式,识别出上述实体词在文中的词义或释义,确定各个实体词对应的词义标注信息,从而实现实体词词义的自动标注。

步骤104、根据第一实体词的词义标注信息,结合预置的词义关联关系,从实体词中筛选出第二实体词,以及第一实体词与第二实体词的词义关系信息,其中,第二实体词为实体词中,词义标注信息与第一实体词的词义标注信息存在关联关系的实体词。

需要说明的是,从步骤102的实体词中任意选取一个作为第一实体词,根据该第一实体词的词义标注信息,结合预置的词义关联关系,从实体词中筛选出与该第一实体词的词义标注信息存在关联关系的实体词,作为第二实体词,然后基于上述的词义关联关系,确定第一实体词与第二实体词的词义关系信息。

步骤105、根据第一实体词、第二实体词和词义关系信息,生成词义关联标注信息。

需要说明的是,根据第一实体词与第二实体词的词义关系信息,生成与第一实体词、第二实体词关联的词义关联标注信息,从而实现实体词关联关系的自动标注。

本申请实施例利用对待标注的文本进行分词处理得到的实体词,第一实体词的词义标注信息,结合预置的词义关联关系,从实体词中筛选出第二实体词以及第一实体词与第二实体词的词义关系信息,生成第一实体词和第二实体词的词义关联标注信息,实现了对文本中的实体词以及实体词关联关系的自动标注,从而提高文本标注的准确率,解决了现有的标注方式,当标注量大且关联的标注相距较远容易导致标注准确率明显下降的技术问题。

以上为本申请提供的一种文本标注方法的第一个实施例的详细说明,下面为本申请提供的一种文本标注方法的第二个实施例的详细说明。

请参阅图2和图4,在上述第一个实施例的基础上,本申请第二个实施例提供了一种文本标注方法,包括:

步骤201、获取待标注的文本数据。

步骤202、对文本数据进行分词处理,得到文本数据中包含的词汇信息,并识别词汇信息中的实体词。

需要说明的是,首先,获取需要进行标注处理的文本数据,并对该文本数据进行分词处理,得到待标注的文本数据分词处理后的各个词汇,以及由上述各个词汇组成的词汇信息,并结合各个词汇的词性,识别出词汇中的实体词。

步骤2001、根据实体词在文本数据中位置,生成实体词的文本定位信息。

需要说明的是,本实施例将文本字符进行拆分后,给予每个实体词一对(x,y)坐标定位作为该实体词的文本定位信息,以便于实现对实体词的快速定位和/或用于后续步骤中的标注显示处理。

步骤203、根据实体词,结合上下文的关键词,通过语义识别方式,确定各个实体词的词义标注信息。

步骤2002、分别根据实体词的文本定位信息,确定实体词对应的第一标注显示区域,以便在第一标注显示区域上显示实体词的词义标注信息。

需要说明的是,如图4所示,基于步骤2001得到的文本定位信息,以文本定位信息计算标注实体或关系的区域作为第一标注显示区域,如实体词的上方或下方等临近区域,以便后续将实体词的词义标注信息显示在该第一标注显示区域内。例如,以实体词“高校”为例,通过识别确定实体词“高校”对应的词义标注信息为“学校”,则可以在临近“高校”的位置形成第一标注显示区域,以同步显示实体词及实体词对应的词义标注信息。

步骤204、根据第一实体词的词义标注信息,结合预置的词义关联关系,从实体词中筛选出第二实体词,以及第一实体词与第二实体词的词义关系信息,其中,第二实体词为实体词中,词义标注信息与第一实体词的词义标注信息存在关联关系的实体词。

步骤205、根据第一实体词、第二实体词和词义关系信息,生成词义关联标注信息。

步骤2003、根据第一实体词与第二实体词的文本定位信息,确定第二标注显示区域,以便在第二标注显示区域上显示词义关联标注信息,其中,词义关联标注信息包括:词义关联标注文本和词义关联向量图形。

如图4所示,基于步骤2001得到的文本定位信息,以文本定位信息计算标注实体或关系的区域作为第二标注显示区域,如第一实体词和第二实体词之间的上方或下方等区域,以便后续将第一实体词和第二实体词对应的词义关联标注信息显示在该第二标注显示区域内。例如,预置的词义关联关系中设置有学校/单位与职工之间的词义关联关系为雇佣/被雇佣,假设当前的第一实体词为“高校”,当筛选到词义标注信息为职工的第二实体词“心理专业教师”时,则根据第一实体词与第二实体词的文本定位信息,确定并形成第二标注显示区域,以便在第二标注显示区域上显示词义关联标注信息,当第一实体词为“心理专业教师”或其他实体词时,生成词义关联标注信息的生成方式相同,在此不做赘述。

需要说明的是,本实施例的步骤201、202、203、204以及205与第一个实施例的步骤101至步骤105对应,在此不再对这些步骤进行赘述。

以上为本申请提供的一种文本标注方法的第二个实施例的详细说明,下面为本申请提供的一种文本标注装置的第一个实施例的详细说明。

请参阅图3,本申请第三个实施例提供了一种文本标注装置,包括:

文本获取单元301,用于获取待标注的文本数据;

实体词识别单元302,用于对文本数据进行分词处理,得到文本数据中包含的词汇信息,并识别词汇信息中的实体词;

词义标注处理单元303,用于根据实体词,结合上下文的关键词,通过语义识别方式,确定各个实体词的词义标注信息;

关联实体词识别单元304,用于根据第一实体词的词义标注信息,结合预置的词义关联关系,从实体词中筛选出第二实体词,以及第一实体词与第二实体词的词义关系信息,其中,第二实体词为实体词中,词义标注信息与第一实体词的词义标注信息存在关联关系的实体词;

词义关联标注信息生成单元305,用于根据第一实体词、第二实体词和词义关系信息,生成词义关联标注信息。

进一步地,还包括:

实体词定位单元3001,用于根据实体词在文本数据中位置,生成实体词的文本定位信息。

进一步地,还包括:

词义标注显示单元3002,用于分别根据实体词的文本定位信息,确定实体词对应的第一标注显示区域,以便在第一标注显示区域上显示实体词的词义标注信息。

进一步地,还包括:

词义关联标注显示单元3003,用于根据第一实体词与第二实体词的文本定位信息,确定第二标注显示区域,以便在第二标注显示区域上显示词义关联标注信息,其中,词义关联标注信息包括:词义关联标注文本和词义关联向量图形。

以上为本申请提供的一种文本标注装置的一个实施例的详细说明,下面为本申请提供的一种文本标注终端和一种存储介质的详细说明。

本申请第三方面提供了一种文本标注终端,包括:存储器和处理器;

存储器用于存储程序代码,程序代码与本申请第一个实施例或第二个实施例提及的文本标注方法相对应;

处理器用于执行程序代码,以实现本申请第一个实施例或第二个实施例提及的文本标注方法。

本申请第四方面提供了一种存储介质,存储介质中保存有与本申请第一个实施例或第二个实施例提及的文本标注方法相对应的程序代码。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例,例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

相关技术
  • 一种文本标注方法、装置、终端及存储介质
  • 一种基于双数组Trie的文本标注方法、终端设备及存储介质
技术分类

06120112532417