掌桥专利:专业的专利平台
掌桥专利
首页

信息识别方法、装置、设备、介质和程序产品

文献发布时间:2023-06-19 16:08:01



技术领域

本申请涉及人工智能技术领域,尤其涉及一种信息识别方法、装置、设备、介质和程序产品。

背景技术

在一些旅行场景下,有很多的用户会发布旅游景点的攻略信息,例如当前旅行地的景点攻略、美食攻略、住宿攻略或者是包括了景点、美食和住宿的全方位攻略等。不同的攻略信息的类别不同,导致了浏览者可能需要花费大量时间才能查阅到其想要的攻略信息。

现有技术中,为了便于浏览者的查阅,通常会在浏览者进行查阅前,对攻略信息进行分类。具体地,采用人工的方式查阅攻略信息,确定不同的攻略信息的标签,然后根据标签对不同的攻略信息进行分类,如此浏览者根据所属类别就可以实现快速查找。

但是,现有技术这种人工打标的方式,由于攻略信息通常都是千万量级,而且每天都会有新的攻略信息产生,仅依靠人工打标效率很低。

发明内容

本申请提供一种信息识别方法、装置、设备、介质和程序产品,用于解决现有攻略信息人工标注效率低的问题。

第一方面,本申请实施例提供一种信息识别方法,包括:

获取待识别文本信息,提取所述待识别文本信息的词语特征;

根据预设模型和所述词语特征,确定所述待识别文本信息所属的目标类别,所述目标类别为非攻略内容、多主题攻略内容、目标主题攻略内容中的任一种,所述预设模型包括攻略检测模型、攻略识别模型和主题攻略预测模型中的至少一种;

根据所述待识别文本信息所属的目标类别,获取所述待识别文本信息的标签并与所述待识别文本信息关联。

在第一方面的一种可能设计中,所述预设模型为攻略检测模型或攻略识别模型或主题攻略预测模型;所述根据预设模型和所述词语特征,确定所述待识别文本信息所属的目标类别,包括:

根据所述攻略检测模型和所述词语特征,确定所述待识别文本信息所属的目标类别;

或者,

根据所述攻略识别模型和所述词语特征,确定所述待识别文本信息所属的目标类别;

或者,

根据所述主题攻略预测模型和所述词语特征,确定所述待识别文本信息所属的目标类别。

在第一方面的另一种可能设计中,所述根据预设模型和所述词语特征,确定所述待识别文本信息所属的目标类别,包括:

根据所述攻略检测模型和所述词语特征,确定所述待识别文本信息所属的目标类别是否为所述非攻略内容;

若所述待识别文本信息所属的目标类别不为所述非攻略内容,则根据所述攻略识别模型和所述词语特征,确定所述待识别文本信息所属的目标类别是否为多主题攻略内容;

若所述待识别文本信息所属的目标类别不为所述多主题攻略内容,则根据所述主题攻略预测模型和所述词语特征,确定所述待识别文本信息所属的目标主题攻略内容。

在第一方面的再一种可能设计中,若所述待识别文本信息所属的目标类别为所述多主题攻略内容,则所述根据所述待识别文本信息所属的目标类别,获取所述待识别文本信息的标签,包括:

在所述待识别文本信息中获取至少两个攻略主题;

获取每个攻略主题对应的标签,作为所述待识别文本信息的标签。在第一方面的又一种可能设计中,所述根据所述主题攻略预测模型和所述词语特征,确定所述待识别文本信息所属的目标主题攻略内容,包括:

根据所述主题攻略预测模型和所述词语特征,确定所述待识别文本信息的目标主题;

根据所述目标主题,确定所述待识别文本信息所属的目标主题攻略内容。

在第一方面的又一种可能设计中,若所述待识别文本信息所属的目标类别为目标主题攻略内容,则所述根据所述待识别文本信息所属的目标类别,获取所述待识别文本信息的标签,包括:

根据所述目标主题,确定所述待识别文本信息的标签。

在第一方面的又一种可能设计中,所述提取所述待识别文本信息的词语特征,包括:

提取所述待识别文本信息中的标题和内容;

对所述标题和内容分别进行分词,获取标题分词、内容分词和所述内容的分词词性;

将标题分词、内容分词和所述内容分词的词性作为所述词语特征。

在第一方面的又一种可能设计中,所述方法还包括:

获取标注样本,所述标注样本包括非攻略内容标注样本、攻略内容标注样本、多主题攻略内容标注样本、目标主题攻略内容标注样本;

根据所述非攻略内容标注样本和攻略内容标注样本,对第一初始模型进行训练,获得所述攻略检测模型;

根据所述多主题攻略内容标注样本和目标主题攻略内容标注样本,对第二初始模型进行训练,获得所述攻略识别模型;

根据所述目标主题攻略内容标注样本,对第三初始模型进行训练,获得所述主题攻略预测模型。

在第一方面的又一种可能设计中,所述根据所述非攻略内容标注样本和攻略内容标注样本,对第一初始模型进行训练,获得所述攻略检测模型,包括:

获取所述非攻略内容标注样本的标题和内容及所述攻略内容标注样本的标题和内容;

对所述非攻略内容标注样本的标题和内容、所述攻略内容标注样本的标题和内容进行分词,提取得到标题的分词词语、内容的分词词语和内容的分词词性;

根据所述标题的分词词语、内容的分词词语和内容的分词词性,对所述第一初始模型进行训练,得到所述攻略检测模型。

在第一方面的又一种可能设计中,所述根据所述多主题攻略内容标注样本和目标主题攻略内容标注样本,对第二初始模型进行训练,获得所述攻略识别模型,包括:

获取所述多主题攻略内容标注样本的标题和内容和所述目标主题攻略内容标注样本的标题和内容;

对所述多主题攻略内容标注样本的标题和内容、所述目标主题攻略内容标注样本的标题和内容进行分词,得到标题的分词词语和内容的分词词语;

根据所述标题的分词词语和内容的分词词语,对所述第二初始模型进行训练,获得所述攻略识别模型。

在第一方面的又一种可能设计中,所述根据所述目标主题攻略内容标注样本,对第三初始模型进行训练,获得所述主题攻略预测模型,包括:

对所述目标主题攻略内容标注样本进行标点过滤、表情词语过滤、超文本标记语言过滤和通用词过滤,提取得到标题的分词词语和内容的分词词语;

根据所述标题的分词词语和内容的分词词语,对第三初始模型进行训练,获得所述主题攻略预测模型。

第二方面,本申请实施例提供一种信息识别装置,包括:

特征提取模块,用于获取待识别文本信息,提取所述待识别文本信息的词语特征;

类别确定模块,用于根据预设模型和所述词语特征,确定所述待识别文本信息所属的目标类别,所述目标类别为非攻略内容、多主题攻略内容、目标主题攻略内容中的任一种,所述预设模型包括攻略检测模型、攻略识别模型和主题攻略预测模型中的至少一种;

标签获取模块,用于根据所述待识别文本信息所属的目标类别,获取所述待识别文本信息的标签并与所述待识别文本信息关联。

第三方面,本申请实施例提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;

所述存储器存储计算机执行指令;

所述处理器执行所述存储器存储的计算机执行指令,以实现上述的方法。

第四方面,本申请实施例提供一种可读存储介质,所述可读存储介质中存储有计算机指令,所述计算机指令被处理器执行时用于实现上述的方法。

第五方面,本申请实施例提供一种程序产品,包括计算机指令,该计算机指令被处理器执行时实现上述的方法。

本申请实施例提供的信息识别方法、装置、设备、介质和程序产品,通过提取待识别文本信息中的词语特征,根据预设模型和该词语特征可以自动确定出待识别文本信息所属的类别,能够快速实现对待识别文本信息进行分类并贴入对应的打标,提高待识别文本信息的标注效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理;

图1为本申请实施例提供的信息识别方法的应用场景示意图;

图2为本申请实施例提供的信息识别方法的流程示意图;

图3为本申请实施例提供的信息识别装置的结构示意图;

图4为本申请实施例提供的电子设备的结构示意图。通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

首先对本申请所涉及的名词进行解释:

POI:

兴趣点(Point of Interest,POI)在地理信息系统中,一个POI可以是一栋房子、一个商铺、一个邮筒、一个公交站等。

绘文字:

绘文字(emoji)是日本在无线通信中所使用的视觉情感符号,绘指图画,文字指的则是字符,可用来代表多种表情,如笑脸表示笑、蛋糕表示食物等。在中国,emoji通常叫做“小黄脸”,或者直称emoji。

图1为本申请实施例提供的信息识别方法的应用场景示意图。如图1所示,用户在旅游之前通常会事先通过手机中旅游相关的APP软件查询旅游地的相关攻略,这些攻略通常也是其他游客整理上传的。具体可以包括盘点攻略(盘点攻略根据主题的不同可以分为景点攻略、住宿攻略、赏花攻略、美食攻略等)和目的地全攻略(目的地全攻略包括的内容通常比较全面,例如可能既包括住宿又包括美食和景点等攻略)。其中,游客除了上传攻略内容之外也有可能上传其他非攻略内容,例如旅游评价或者旅游感受等。对于APP 软件的运营方而言,这些游客上传的内容需要进行分类识别,保证内容生态以方便用户的查阅。以创作者上传的某市景点必游攻略为例,运营平台可以提取出创作者上传的文本中的词语特征,例如标题中的分词词语和内容中的分词词语,通过预设模型对词语特征进行预测识别,可以确定创作者该篇内容介绍的是某市的景点旅游攻略,则运营平台可以确定该篇内容所属的目标类别为景点攻略,然后为该篇内容贴上标签#景点#。

在实际应用中,APP软件的运营方通常都是通过人工查阅游客上传的内容,然后依靠人工打标的方式来为这些内容贴上不同的标签以实现内容的分类,这样可以方便用户的查阅。但是这种人工打标的方式效率很低,而且由于人工打标时间的差异性,先曝光出来的内容会获得更多的曝光,如此往复,长尾的攻略类内容就会被隐没,这对于浏览者来说也是一种损失,很可能错过一些优质长尾攻略,而对于提交攻略内容的创作者来说也会降低其创作的积极性,使得内容生态质量下降。

针对上述问题,本申请实施例提供的信息识别方法、装置、设备、介质和程序产品,为了提高攻略内容的打标效率以及提高内容生态质量,需要将大量人工打标的操作转为机器自动打标。具体的,通过提取文本信息中的词语特征并依赖预设模型,可以自动识别出文本信息所属的类别,然后根据所属的类别获取到对应的标签贴入文本信息中,实现对文本信息的自动打标,提高打标效率,同时也有利于提高整个内容生态的质量。

下面,通过具体实施例对本申请的技术方案进行详细说明。需要说明的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。

图2为本申请实施例提供的信息识别方法的流程示意图。该方法可以应用于计算机或服务器等电子设备上。如图2所示,该方法可以包括如下步骤:

S201、获取待识别文本信息,提取待识别文本信息的词语特征。

在本实施例中,待识别文本信息可以是创作者发布的创作信息,例如创作者在某个旅游地发布的攻略内容或非攻略内容。其中,攻略内容可以包括目标主题攻略内容(例如单一的景点攻略、美食攻略、住宿攻略、赏花攻略)、多主题攻略内容(例如既包含景点又包含美食的多主题攻略内容),非攻略内容则可以是创造者在旅游地的一些感受或者评价等。

示例性的,创作者在使用APP软件发布创作信息时,APP软件中通常有对应的模板,例如模板中包括有标题栏和内容栏,创作者可以总结一个标题输入至标题栏,然后在内容栏中再输入详细的攻略信息。

其中,词语特征就可以包括标题中的词语和内容中的词语。具体的,可以通过分词工具对标题和内容分别进行分词,得到标题的分词词语、内容的分词词语以及内容的分词词性等作为词语特征。

S202、根据预设模型和词语特征,确定待识别文本信息所属的目标类别。

其中,目标类别为非攻略内容、多主题攻略内容、目标主题攻略内容中的任一种,预设模型包括攻略检测模型、攻略识别模型和主题攻略预测模型中的至少一种。

在本实施例中,攻略检测模型、攻略识别模型和主题攻略预测模型都是预先训练好的,其中,不同的模型采用的是不同的训练样本训练的。示例性的,对于攻略检测模型可以使用非攻略内容标注样本和攻略内容标注样本训练得到,对于攻略识别模型则可以使用多主题攻略内容标注样本和目标主题攻略内容标注样本训练得到,对于主题攻略预测模型则可以使用多种不同的目标主题攻略内容标注样本训练得到。

其中,通过攻略检测模型和词语特征,可以识别出该待识别文本信息为非攻略内容或攻略内容,若该待识别文本为攻略内容,则可以通过攻略识别模型进一步识别出该待识别文本为多主题攻略内容或主题攻略内容,若该待识别文本为主题攻略内容,则可以再通过主题攻略预测模型预测出该待识别文本信息为哪一种目标主题攻略内容(例如赏花攻略或者住宿攻略或者美食攻略或者景点攻略)。

S203、根据待识别文本信息所属的目标类别,获取待识别文本信息的标签并与待识别文本信息关联。

示例性的,标签可以包括有基础标签、主题标签等。示例性的,基础标签可以是“非攻略”,即当待识别文本信息所属的目标类型为非攻略内容时,就可以贴上“非攻略”标签。而如果待识别文本信息所属的目标类型为攻略内容,则可以添加主题标签,具体的,如果待识别文本信息为多主题攻略内容,例如包括住宿攻略和美食攻略,则待识别文本会贴上“住宿”和“美食”的主题标签;如果待识别文本信息为目标主题攻略内容,例如住宿攻略,则待识别文本会贴上“住宿”标签。即如果待识别文本信息为多主题攻略内容,则会根据其包含的主题个数,贴上多个主题标签,而如果待识别文本信息为目标主题攻略内容,则只会贴上目标主题标签。

本申请实施例通过提取创作者发布的创作信息中的词语特征,根据预设的模型可以自动确定出创作信息所属的类别,能够快速实现对创作信息的打标,提高创作信息的标注效率,提高软件中内容生态的质量。

在一些实施例哄和,步骤S202具体可以通过如下步骤实现:

根据攻略检测模型和词语特征,确定待识别文本信息所属的目标类别;

或者,

根据攻略识别模型和词语特征,确定待识别文本信息所属的目标类别;

或者,

根据主题攻略预测模型和词语特征,确定待识别文本信息所属的目标类别。

在本实施例中,攻略检测模型是通过非攻略内容标注样本和攻略内容标注样本训练得到的,其可以识别出待识别文本信息的目标类别为非攻略内容或攻略内容。其中,非攻略内容标注样本和攻略内容标注样本是由人工标注得到的,即运营人员事先对创作者发布的创作信息进行标注,确定哪些创作信息为攻略内容,哪些为非攻略内容。标注为攻略内容的创作信息作为攻略内容标注样本,标注为非攻略内容的创作信息作为非攻略内容标注样本。

攻略识别模型则是通过多主题攻略内容标注样本、目标主题攻略内容标注样本训练得到的,其可以识别出待识别文本信息的目标类别为多主题攻略内容或单一主题攻略内容。多主题攻略内容标注样本、目标主题攻略内容标注样本同样也是由人工标注得到。例如创作者发布的创作信息包含了美食、住宿等主题,则该创作信息被标注为多主题攻略内容,若创作者发布的创作信息只包含美食这一主题,则该创作信息被标注为美食攻略内容。示例性的,标注为多主题攻略内容的创作信息作为多主题攻略内容标注样本,标注为美食攻略内容的创作信息作为目标主题攻略内容标注样本。

主题攻略预测模型是通过多种不同主题的目标主题攻略内容标注样本训练得到的,例如目标主题攻略内容标注样本可以为美食主题攻略内容或者住宿主题攻略内容或者赏花主题攻略内容或者景点主题攻略内容。通过主题攻略预测模型可以识别出待识别文本信息具体属于哪一目标主题攻略内容。

本申请实施例通过多个模型可以准确识别出待识别文本信息所属的目标类别,不需要人工查阅识别分类,可以提高对创作信息的标注效率。

在一些实施例中,上述步骤S202也可以通过如下步骤实现:

根据攻略检测模型和词语特征,确定待识别文本信息所属的目标类别是否为非攻略内容;

若待识别文本信息所属的目标类别不为非攻略内容,则根据攻略识别模型和词语特征,确定待识别文本信息所属的目标类别是否为多主题攻略内容;

若待识别文本信息所属的目标类别不为多主题攻略内容,则根据主题攻略预测模型和词语特征,确定待识别文本信息所属的目标主题攻略内容。

在本实施例中,对于创作者发布的创作信息,首先可以通过攻略检测模型确定其所属的目标类别是否为非攻略内容;如果不为非攻略内容,再根据攻略识别模型进一步进行识别,确定其是否为多主题攻略内容或单一主题攻略内容;如果其为单一主题攻略内容,则再通过主题攻略预测模型进一步预测其属于哪一目标主题攻略内容。

其中,目标主题攻略内容可以是美食攻略内容、住宿攻略内容、赏花攻略内容和景点攻略内容中的任一种。

本申请实施例通过顺序依次使用不同的模型排查检测,确定攻略信息的类别,如此可以提高排查检测效率,快速确定出创作信息所属的目标类别,进一步提高攻略信息的标注效率。

进一步的,在一些实施例中,在上述实施例的基础上,上述“根据主题攻略预测模型和词语特征,确定待识别文本信息所属的目标主题攻略内容”,具体可以通过如下步骤实现:

根据主题攻略预测模型和词语特征,确定待识别文本信息的目标主题;

根据目标主题,确定待识别文本信息所属的目标主题攻略内容。

在本实施例中,当待识别文本信息不为非攻略内容,也不为多主题攻略内容时,则待识别文本信息可能为单一主题攻略内容,例如待识别文本可能是创作者针对住宿发布的攻略内容,或者针对美食发布的攻略内容。

示例性,目标主题则相应的可以为住宿或者美食。以目标主题为住宿为例,则待识别文本的目标主题攻略内容就为住宿攻略内容。

本申请实施例在确定待识别文本信息为单一主题攻略内容时,可以通过其主题来确定待识别文本信息属于哪个目标主题攻略内容,例如,住宿攻略内容或者美食攻略内容或者景点攻略内容等,从而准确的为其进行主题分类,方便浏览者查阅。

再进一步的,在上述实施例的基础上,在一些实施例中,若待识别文本信息所属的目标类别为目标主题攻略内容,则上述“根据待识别文本信息所属的目标类别,获取待识别文本信息的标签”,具体可以通过如下步骤实现:

根据目标主题,确定待识别文本信息的标签。

示例性的,如果目标主题为美食,则对应的标签可以为#美食#,如果目标主题为赏花,则对应的标签可以为#赏花#,如果目标主题为住宿,则对应的标签可以为#住宿#,如果目标主题为景点,则对应的标签可以为#景点#。

本申请实施例通过不同的标签来标识出不同目标主题的待识别文本信息,可以实现对不同目标主题的待识别文本进行分类,可以提高打标效率,同时也方便浏览者浏览。

在一些实施例中,若待识别文本信息所属的目标类别为多主题攻略内容,则可以在待识别文本信息中获取至少两个攻略主题;并获取每个攻略主题对应的标签,作为待识别文本信息的标签。

在本实施例中,如果待识别文本所属的目标类别为多主题攻略内容,则其中至少会包括两个以上的主题攻略,例如美食攻略、住宿攻略等。

具体的,可以通过对待识别文本信息中的词语进行识别,根据词语确定出其包含的攻略主题。例如待识别文本中包括的词语有“美食”、“景点”、“赏花”,则可以得到美食攻略、景点攻略和赏花攻略三个攻略主题。

其中,标签的形式可以是文字加字符的形式,例如#美食#、#景点#、# 赏花#。这些标签会打入到待识别文本信息中进行持久化存储。

本申请实施例通过获取至少两个攻略主题,可以对创作信息添加多个主题标签,从而准确的实现对创作信息的分类,便于浏览者确定出哪些创作信息是多主题攻略信息,哪些创作信息是单一的目标主题攻略信息,提高浏览者的查阅效率。

在一些实施例中,上述步骤S201具体可以通过如下步骤实现:

提取待识别文本信息中的标题和内容;

对标题和内容分别进行分词,获取标题分词、内容分词和内容的分词词性;

将标题分词、内容分词和内容分词的词性作为词语特征。

在本实施例中,标题中可以包括旅游地名、所处城市名等,内容中则可以包括各种攻略。示例性的,可以通过结巴分词工具等对标题和内容进行分词,得到标题的分词词语、内容的分词词语和内容的分词词性。

本申请实施例通过从标题和内容中提取出词语特征,可以更加准确的确定出创作者发布的创作信息所属的目标类别,精确的为创作信息进行分类,提高分类准确率。

在一些实施例中,上述信息识别方法还可以包括如下步骤:

获取标注样本;

根据非攻略内容标注样本和攻略内容标注样本,对第一初始模型进行训练,获得攻略检测模型;

根据多主题攻略内容标注样本和目标主题攻略内容标注样本,对第二初始模型进行训练,获得攻略识别模型;

根据目标主题攻略内容标注样本,对第三初始模型进行训练,获得主题攻略预测模型。

其中,标注样本包括非攻略内容标注样本、攻略内容标注样本、多主题攻略内容标注样本、目标主题攻略内容标注样本。

在本实施例中,在训练得到攻略检测模型之前,可以先获取训练样本并通过手工标注的方式标注出哪些训练样本为非攻略内容标注样本,哪些训练样本为攻略内容标注样本,哪些训练样本为多主体攻略内容标注样本,哪些训练样本为目标主题攻略内容标注样本。

具体的,运营人员可以通过收集创作者发布的创作信息并查阅,如果创作信息不包含攻略内容,则将其标记为非攻略内容标注样本,如果创作信息包含攻略内容,则先将其标记为攻略内容训练样本,之后再对攻略内容训练样本做进一步标记,确定其是否包含多主题攻略,如果其包含多主题攻略,则攻略内容训练样本可以再继续被标记为多主题攻略内容标注样本,如果其只包含单主题攻略,则确定其所包含的目标主题,并标记为目标主题攻略内容标注样本。

示例性的,第一初始模型可以是texcnn的模型,可以通过非攻略内容标注样本和攻略内容标注样本中提取得到的特征,对texcnn的模型进行分类训练,获得攻略检测模型。第二初始模型可以是texcnn的模型,可以对多主题攻略内容标注样本和目标主题攻略内容标注样本的内容进行处理,提取特征,采用textcnn模型进行分类训练,获得攻略识别模型。第三初始模型可以是 fasttext模型,通过对目标主题攻略内容标记样本进行特征提取,得到词语特征以对fasttext模型进行主题识别训练,得到目标主题预测模型。

本申请实施例通过标注样本来实现对各个模型的训练,通过不同的模型实现对待识别文本信息所属目标类别的识别,可以快速对待识别文本信息进行分类,提高标注效率。

进一步的,在一些实施例中,对第一初始模型进行训练,获得攻略检测模型,具体可以通过如下步骤实现:

获取非攻略内容标注样本的标题和内容及攻略内容标注样本的标题和内容;

对非攻略内容标注样本的标题和内容、攻略内容标注样本的标题和内容进行分词,提取得到标题的分词词语、内容的分词词语和内容的分词词性;

根据标题的分词词语、内容的分词词语和内容的分词词性,对第一初始模型进行训练,得到攻略检测模型。

本申请实施例中,可以通过分词工具(例如结巴分词)对非攻略内容标注样本和攻略内容标注样本进行处理,提取出标题的分词词语、内容的分词词语和内容的分词词性,然后通过构建的词库,对相应的词语重新进行词性标注,最终得到标题的分词词语、内容的分词词语和内容的二次标注词性。

其中,示例性的,词库可以包括表情包库,emoji表情库,数字变体库, poi词库,实体词库。不同的词库的词性不同。在得到标题的分词词语、内容的分词词语和内容的分词词性之后,最后通过标题的分词词语、内容的分词词语和内容的分词词性进行分类训练,采用textcnn的模型作为第一初始模型,训练得到攻略检测模型。

本申请实施例通过获取非攻略内容标注样本的标题和内容及攻略内容标注样本的标题和内容,提取得到标题的分词词语、内容的分词词语和内容的分词词性,以训练得到攻略检测模型,能够实现对待识别文本信息所属的目标类别进行自动识别,提高人工标注效率。

在一些实施例中,对第二初始模型进行训练,获得攻略检测模型,具体可以通过如下步骤实现:

获取多主题攻略内容标注样本的标题和内容和目标主题攻略内容标注样本的标题和内容;

对多主题攻略内容标注样本的标题和内容、目标主题攻略内容标注样本的标题和内容进行分词,得到标题的分词词语和内容的分词词语;

根据标题的分词词语和内容的分词词语,对第二初始模型进行训练,获得攻略识别模型。

本申请实施例中,可以通过分词工具(例如结巴分词)对多主题攻略内容标注样本和目标主题攻略内容标注样本进行处理,提取出标题的分词词语、内容的分词词语作为训练样本,并采用textcnn模型作为第二初始模型进行分类训练以获得攻略识别模型。

本申请实施例通过获取多主题攻略内容标注样本的标题和内容、目标主题攻略内容标注样本的标题和内容,提取得到题的分词词语和内容的分词词语以训练得到攻略识别模型,能够实现对待识别文本信息所属的目标类别进行自动识别,提高人工标注效率。

在一些实施例中,对第三初始模型进行训练,获得主题攻略越策模型,具体可以通过如下步骤实现:

对目标主题攻略内容标注样本进行标点过滤、表情词语过滤、超文本标记语言过滤和通用词过滤,提取得到标题的分词词语和内容的分词词语;

根据标题的分词词语和内容的分词词语,对第三初始模型进行训练,获得主题攻略预测模型。

在本实施例中,对目标主题攻略内容标注样本进行处理,通过标点过滤、表情词语过滤、超文本标记语言(Hyper Text Markup Language,html)过滤和通用词过滤,提取得到标题的分词词语和内容的分词词语,最终采用fasttext 模型作为第三初始模型,训练得到主题攻略预测模型。

本申请实施例通过对目标主题攻略内容标注样本进行处理,通过标点过滤、表情词语过滤、html过滤和通用词过滤,提取得到标题的分词词语和内容的分词词语以训练得到主题攻略预测模型,能够实现对待识别文本信息所属的目标类别进行自动识别,提高人工标注效率。

下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。

图3为本申请实施例提供的信息识别装置的结构示意图。如图3所示,该信息识别装置可以集成于计算机等电子设备上,也可以独立于电子设备且与电子设备协同实现本方案。如图3,该信息识别装置30具体可以包括特征提取模块31、类别确定模块32和标签获取模块33。

其中,特征提取模块31用于获取待识别文本信息,提取待识别文本信息的词语特征。类别确定模块32用于根据预设模型和词语特征,确定待识别文本信息所属的目标类别。标签获取模块33用于根据待识别文本信息所属的目标类别,获取待识别文本信息的标签并与待识别文本信息关联。

其中,目标类别为非攻略内容、多主题攻略内容、目标主题攻略内容中的任一种,预设模型包括攻略检测模型、攻略识别模型和主题攻略预测模型中的至少一种。

在一些实施例中,若预设模型为攻略检测模型或攻略识别模型或主题攻略预测模型,则上述类别确定模块具体可以用于:

根据攻略检测模型和词语特征,确定待识别文本信息所属的目标类别;

或者,

根据攻略识别模型和词语特征,确定待识别文本信息所属的目标类别;

或者,

根据主题攻略预测模型和词语特征,确定待识别文本信息所属的目标类别。

可选的,在一些实施例中,上述类别确定模块具体可以用于:

根据攻略检测模型和词语特征,确定待识别文本信息所属的目标类别是否为非攻略内容;

若待识别文本信息所属的目标类别不为非攻略内容,则根据攻略识别模型和词语特征,确定待识别文本信息所属的目标类别是否为多主题攻略内容;

若待识别文本信息所属的目标类别不为多主题攻略内容,则根据主题攻略预测模型和词语特征,确定待识别文本信息所属的目标主题攻略内容。

在一些实施例中,若待识别文本信息所属的目标类别为多主题攻略内容,则上述标签获取模块具体可以用于:

在待识别文本信息中获取至少两个攻略主题;

获取每个攻略主题对应的标签,作为待识别文本信息的标签。

在一些实施例中,上述类别确定模块具体可以用于:

根据主题攻略预测模型和词语特征,确定待识别文本信息的目标主题;

根据目标主题,确定待识别文本信息所属的目标主题攻略内容。

在一些实施例中,若待识别文本信息所属的目标类别为目标主题攻略内容,则上述标签获取模块具体可以用于根据目标主题,确定待识别文本信息的标签。

在一些实施例中,上述特征提取模块具体可以用于:

提取待识别文本信息中的标题和内容;

对标题和内容分别进行分词,获取标题分词、内容分词和内容的分词词性;

将标题分词、内容分词和内容分词的词性作为词语特征。

在一些实施例中,上述信息识别装置还可以包括模型训练模块,用于:

获取标注样本,标注样本包括非攻略内容标注样本、攻略内容标注样本、多主题攻略内容标注样本、目标主题攻略内容标注样本;

根据非攻略内容标注样本和攻略内容标注样本,对第一初始模型进行训练,获得攻略检测模型;

根据多主题攻略内容标注样本和目标主题攻略内容标注样本,对第二初始模型进行训练,获得攻略识别模型;

根据目标主题攻略内容标注样本,对第三初始模型进行训练,获得主题攻略预测模型。

可选的,上述模型训练模块具体可以用于:

获取非攻略内容标注样本的标题和内容及攻略内容标注样本的标题和内容;

对非攻略内容标注样本的标题和内容、攻略内容标注样本的标题和内容进行分词,提取得到标题的分词词语、内容的分词词语和内容的分词词性;

根据标题的分词词语、内容的分词词语和内容的分词词性,对第一初始模型进行训练,得到攻略检测模型。

可选的,上述模型训练模块具体可以用于:

获取多主题攻略内容标注样本的标题和内容和目标主题攻略内容标注样本的标题和内容;

对多主题攻略内容标注样本的标题和内容、目标主题攻略内容标注样本的标题和内容进行分词,得到标题的分词词语和内容的分词词语;

根据标题的分词词语和内容的分词词语,对第二初始模型进行训练,获得攻略识别模型。

可选的,上述模型训练模块具体可以用于:

对目标主题攻略内容标注样本进行标点过滤、表情词语过滤、超文本标记语言过滤和通用词过滤,提取得到标题的分词词语和内容的分词词语;

根据标题的分词词语和内容的分词词语,对第三初始模型进行训练,获得主题攻略预测模型。本申请实施例提供的装置,可用于执行上述实施例中的方法,其实现原理和技术效果类似,在此不再赘述。

需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,特征提取模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上特征提取模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

图4为本申请实施例提供的电子设备的结构示意图。如图4所示,该电子设备40包括:至少一个处理器41、存储器42、总线43及通信接口44。

其中:处理器41、通信接口44以及存储器42通过总线43完成相互间的通信。

通信接口44用于与其它设备进行通信。该通信接口44包括用于进行数据传输的通信接口以及用于进行人机交互的显示界面或者操作界面等。

处理器41用于执行存储器42中存储的计算机指令,具体可以执行上述实施例中所描述的方法中的相关步骤。处理器41可能是中央处理器。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU。

存储器42用于存放计算机指令。存储器42可能包含高速RAM存储器,也可能还包括非易失性存储器,例如至少一个磁盘存储器。

本实施例还提供一种可读存储介质,可读存储介质中存储有计算机指令,当电子设备的至少一个处理器执行该计算机指令时,电子设备执行上述的各种实施方式提供的信息识别方法。

本实施例还提供一种程序产品,该程序产品包括计算机指令,该计算机指令存储在可读存储介质中。电子设备的至少一个处理器可以从可读存储介质读取该计算机指令,至少一个处理器执行该计算机指令使得电子设备实施上述的各种实施方式提供的信息识别方法。

本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A 和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系;在公式中,字符“/”,表示前后关联对象是一种“相除”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个) 或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中,a,b,c可以是单个,也可以是多个。

可以理解的是,在本申请实施例中涉及的各种数字编号仅为描述方便进行的区分,并不用来限制本申请的实施例的范围。在本申请的实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请的实施例的实施过程构成任何限定。

最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

相关技术
  • 信息的质量识别方法、装置、设备、存储介质及程序产品
  • 数据信息识别方法、装置、设备、存储介质及程序产品
技术分类

06120114718930