掌桥专利:专业的专利平台
掌桥专利
首页

内容识别方法、电子设备及存储介质

文献发布时间:2023-06-19 13:49:36


内容识别方法、电子设备及存储介质

技术领域

本公开涉及电子书技术领域,尤其涉及一种内容识别方法、电子设备及存储介质。

背景技术

随着互联网技术的快速发展,电子版的书籍得到越来越多地使用和关注。

目前,在阅读电子版的书籍时可以通过展示精彩内容的提示来激发用户的兴趣,但是相关技术中对电子书中精彩内容识别的准确率较低,影响体验。

发明内容

为了解决电子书中精彩内容识别的准确率低的技术问题,本公开提供了一种内容识别方法、电子设备及存储介质,以提升电子书中精彩内容识别的准确率。

第一方面,本公开实施例提供了一种内容识别方法,包括:

获取待识别书籍的目标数据,目标数据包括待识别书籍的属性数据和内容数据;

根据属性数据确定内容识别策略,内容识别策略包括至少两个维度的内容识别算法;

基于内容识别策略和内容数据,确定待识别书籍中多个章节中的精彩章节。

第二方面,本公开实施例提供了一种电子设备,包括:

处理器;

存储器,用于存储可执行指令;

其中,处理器用于从存储器中读取可执行指令,并执行可执行指令以执行以下操作:

获取待识别书籍的目标数据,目标数据包括待识别书籍的属性数据和内容数据;

根据属性数据确定内容识别策略,内容识别策略包括至少两个维度的内容识别算法;

基于内容识别策略和内容数据,确定待识别书籍中多个章节中的精彩章节。

第三方面,本公开实施例提供了一种计算机可读存储介质,该存储介质存储有计算机程序,当计算机程序被处理器执行时,使得处理器实现第一方面的内容识别方法。

上述技术方案中的一个技术方案具有如下优点或有益效果:

依据本公开实施例的内容识别方法、电子设备及存储介质,能够获取待识别书籍的目标数据,目标数据包括待识别书籍的属性数据和内容数据,根据属性数据确定内容识别策略,内容识别策略包括至少两个维度的内容识别算法,并基于内容识别策略和内容数据,确定待识别书籍中多个章节中的精彩章节。本公开实施例可以根据书籍的属性数据所确定的内容识别策略识别书籍中的精彩章节,由于内容识别策略包括多个维度的内容识别算法,可以实现多维度的识别,提升了对书籍精彩内容识别的准确率,进而通过提示该精彩内容能够增强用户的阅读粘性和兴趣度,提升了用户的阅读体验效果。

附图说明

结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。

图1为本公开实施例提供的一种内容识别方法的流程示意图;

图2为本公开实施例提供的另一种内容识别方法的流程示意图;

图3为本公开实施例提供的一种精彩章节的提示信息的示意图;

图4为本公开实施例提供的另一种精彩章节的提示信息的示意图;

图5为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。

应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。

图1为本公开实施例提供的一种内容识别方法的流程示意图,该方法可以由内容识别装置执行,其中该装置可以采用软件和/或硬件实现,一般可集成在电子设备中。如图1所示,该方法包括:

步骤101、获取待识别书籍的目标数据,目标数据包括待识别书籍的属性数据和内容数据。

其中,待识别书籍可以是任意一个需要进行精彩内容识别的电子版的书籍,具体来源不限,例如待识别书籍可以为用户当前上传的一个电子书,也可以为互联网中下载的一个电子书。目标数据可以为电子书的相关数据,本公开实施例中目标数据可以包括属性数据和内容数据,属性数据可以理解为电子书的书籍类型、撰写时间和作者等性质层面的数据,内容数据可以包括电子书的书籍内容、交互数据等主体层面的数据。

在本公开实施例中,内容识别装置可以针对待识别书籍发送数据获取请求给数据存储端,以获取待识别书籍对应的属性数据和内容数据,数据存储端可以是存储待识别书籍及其相关数据的服务器。

步骤102、根据属性数据确定内容识别策略,内容识别策略包括至少两个维度的内容识别算法。

其中,内容识别策略可以为用于对电子书进行精彩内容识别的综合性解决方案,该内容识别策略中可以包括至少两个维度的内容识别算法,内容识别算法可以是能够对电子书进行精彩内容的识别和判断的算法,可以包括多种类型的算法,例如内容识别算法可以包括统计类的算法或深度学习算法等,具体不限。

在本公开实施例中,属性数据可以包括书籍类型,根据属性数据确定内容识别策略,可以包括:当书籍类型为女性类型,则内容识别策略包括交互维度以及情感维度的内容识别算法;当书籍类型为男性类型,则内容识别策略包括交互维度的内容识别算法以及内容维度中的至少一个内容识别算法。

书籍类型可以是对电子书按照一定标准划分的分类,本公开实施例中的书籍类型可以按照用户性别划分,具体可以包括女性类型和男性类型,女性类型可以是女性用户较多的一种类型,女性类型可以包括言情等,男性类型可以是男性用户较多的一种类型,男性类型可以包括武侠、玄幻等。

当待识别书籍的书籍类型为女性类型时,由于女性用户较为感性,内容识别策略可以设置为包括交互维度以及情感维度这两个维度的内容识别算法;当待识别书籍的书籍类型为男性类型时,由于男性用户较为理性,内容识别策略可以设置为包括交互维度以及内容维度这两个维度的内容识别算法,由于内容维度的内容识别算法可以包括多个,因此针对内容维度可以将其中的至少一个内容识别算法添加至内容识别策略中。

上述根据属性数据中的书籍类型确定内容识别策略仅为示例,也可以根据属性数据中的其他数据来确定,例如可以根据不同的撰写时间确定不同的内容识别策略,具体可以根据实际情况设置。

步骤103、基于内容识别策略和内容数据,确定待识别书籍中多个章节中的精彩章节。

其中,内容数据可以包括电子书的书籍内容、交互数据等主体层面的数据。书籍内容可以是电子书的正文文本内容,一个书籍的书籍内容中可以包括多个章节,精彩章节可以是一个书籍的多个章节中具有精彩内容或重要情节等亮点的章节。交互数据可以包括用户对书籍的阅读数量、点赞数量和评论数量等中的至少一种。

示例性的,图2为本公开实施例提供的另一种内容识别方法的流程示意图,如图2所示,基于内容识别策略和内容数据,确定待识别书籍中多个章节中的精彩章节,可以包括如下步骤:

步骤201、将待识别书籍中的各章节依次确定为目标章节。

其中,目标章节可以是当前进行内容识别处理的章节。由于待识别书籍中可以包括多个章节,内容识别装置可以依次对每个章节进行内容识别处理,也即将各章节依次确定为目标章节进行后续处理。

步骤202、根据内容识别策略中的各内容识别算法以及内容数据中与内容识别算法对应的数据,确定目标章节的多个初始识别结果。

其中,内容数据可以包括书籍内容和/或交互数据,不同内容识别算法可以针对不同的内容数据,例如当内容识别算法为交互维度的统计算法时,对应的数据可以为交互数据;当内容识别算法为内容维度的命名实体识别算法、词性标注算法、分类算法等算法时,对应的数据可以为书籍内容。初始识别结果可以是内容识别算法对目标章节的内容识别结果,也即目标章节是否为精彩章节的一个初始判断结果。

具体的,内容识别装置针对上述目标章节,可以采用一个内容识别算法对目标章节的与当前内容识别算法对应的数据进行识别,得到目标章节的一个初始识别结果,每个内容识别算法均执行一次上述识别过程,最终得到目标章节的多个初始识别结果。

示例性的,假设内容识别算法为内容维度的命名实体识别算法,对应数据为书籍内容,也即目标章节的文本内容,采用命名实体识别算法对目标章节的文本内容进行分析,识别得到其中的命名实体,例如角色名称、物品名称、机构名称等,并根据预先设置的重要词汇确定上述命名实体中的重要词汇,之后可以统计重要词汇在目标章节中的出现次数,根据出现次数可以确定目标章节的初始识别结果,也即确定目标章节是否为精彩章节。上述根据出现次数确定目标章节的初始识别结果的方式,可以为如果存在出现次数大于或等于次数阈值的重要词汇,则可以确定初始识别结果为目标章节为精彩章节,否则确定初始识别结果为目标章节不是精彩章节。

步骤203、对多个初始识别结果进行加权计算,得到目标章节的精彩内容识别结果。

其中,精彩内容识别结果指示目标章节是否为精彩章节,也即精彩内容识别结果可以是目标章节是否为精彩章节的一个最终判断结果。

在本公开的一些实施例中,内容识别装置确定多个初始识别结果之后,可以对初始识别结果进行统计,得到不同结果的数量,比较不同结果的数量,将数量较多的结果确定为最终的精彩内容识别结果;如果不同结果的数量相同,则可以将权重值大的结果确定为最终的精彩内容识别结果,不同结果的权重值可以为该结果对应的不同内容识别算法的权重值之和。

示例性的,初始识别结果为目标章节为精彩章节的数量为第一数量,初始识别结果为目标章节不是精彩章节的数量为第二数量,当第一数量大于第二数量,则可以确定精彩内容识别结果为目标章节为精彩章节;当第一数量等于第二数量,但初始识别结果为目标章节不是精彩章节的权重值较大,可以确定精彩内容识别结果为目标章节不是精彩章节。

在本公开的另一些实施例中,对多个初始识别结果进行加权计算,得到目标章节的精彩内容识别结果,可以包括:分别对多个初始识别结果进行归一化计算,得到多个识别分数;根据多个识别分数及其对应的权重值进行加权计算,得到综合分数;根据综合分数确定目标章节的精彩内容识别结果。

上述识别分数是一个数值范围在0-1的数值。不同识别分数对应的权重值表示不同内容识别算法对应的权重值,由于不同内容识别算法识别的准确率不同,可以根据实际情况设置不同的权重值进行加权计算。内容识别装置可以对每个初始识别结果进行归一化处理,得到多个识别分数,之后可以将各初始识别结果的识别分数与对应的权重值的乘积进行求和,得到综合分数,根据该综合分数可以确定目标章节的精彩内容识别结果。

可选的,根据综合分数确定目标章节的精彩内容识别结果,包括:如果目标章节的综合分数大于或等于预设阈值,则确定目标章节的精彩内容识别结果为目标章节为精彩章节;否则,确定目标章节的精彩内容识别结果为目标章节不是精彩章节。预设阈值可以根据实际情况设置和调整。

内容识别装置确定目标章节的综合分数之后,可以将该综合分数与预设阈值进行比较,如果综合分数大于或等于预设阈值,则确定目标章节为精彩章节;否则,确定目标章节不是精彩章节。

依据本公开实施例的内容识别方法,能够获取待识别书籍的目标数据,目标数据包括待识别书籍的属性数据和内容数据,根据属性数据确定内容识别策略,内容识别策略包括至少两个维度的内容识别算法,并基于内容识别策略和内容数据,确定待识别书籍中多个章节中的精彩章节。本公开实施例可以根据书籍的属性数据所确定的内容识别策略识别书籍中的精彩章节,由于内容识别策略包括多个维度的内容识别算法,可以实现多维度的识别,提升了对书籍精彩内容识别的准确率,进而通过提示该精彩内容能够增强用户的阅读粘性和兴趣度,提升了用户的阅读体验效果。

在一些实施例中,内容识别算法可以包括以下至少一种:交互维度的统计算法、情感维度的分析算法以及内容维度的命名实体识别算法、词性标注算法、分类算法。

其中,交互维度的统计算法和情感维度的分析算法是基于用户的交互数据来进行内容识别,而内容维度的命名实体算法、词性标注算法、分类算法是基于书籍内容进行内容识别。

针对交互维度的统计算法,可以根据阅读数量、点赞数量、评论数量以及留存率趋势图等来确定初始内容识别结果,上述阅读数量为独立访客(Unique Visitor,UV)数量,留存率趋势图可以是绘制的一个书籍各章节对应的UV趋势图。针对情感维度的分析算法,可以对用户生成内容(User Generated Content,UGC):进行情感分析,具体可以对用户的评论以及发表的“想法”等进行情感分析,区分正向或负向,正向的表示用户觉得写的好并吸引人,负向的表示用户觉得写的差,不太有趣,具体实现上可以采用文本二分类模型来实现,统计正向、负向的百分比,来判断是否书籍中各章节是否为精彩章节。

针对内容维度的命名实体算法,采用命名实体识别算法对书籍的各个章节的文本内容进行分析,识别得到其中的命名实体,例如角色名称、物品名称、机构名称等,并根据预先设置的重要词汇确定上述命名实体中的重要词汇,之后可以统计重要词汇在章节中的出现次数,根据出现次数可以确定章节的初始识别结果,也即确定章节是否为精彩章节。上述根据重要词汇在章节中的出现次数确定章节的初始识别结果的方式,可以为如果存在出现次数大于或等于次数阈值的重要词汇,则可以确定章节为精彩章节,否则确定章节不是精彩章节,仅为示例。

针对内容维度的词性标注算法,可以采用分词算法识别书籍的各个章节中的不同词性的词,例如形容词、副词、动词和拟声词等,之后可以与预先设置的特征词汇进行匹配,确定其中匹配成功的特征词汇,之后可以统计匹配成功的特征词汇在章节中的出现次数,根据出现次数可以确定章节的初始识别结果,也即确定章节是否为精彩章节。上述根据匹配成功的特征词汇在章节中的出现次数确定章节的初始识别结果的方式,可以为如果存在出现次数大于或等于次数阈值的特征词汇,则可以确定章节为精彩章节,否则确定章节不是精彩章节,仅为示例。上述特征词汇可以根据书籍类型设置,不同书籍类型对应的特征词汇不同。针对内容维度的分类算法,可以利用预先训练的分类模型对书籍的各个章节的章节名或一整段内容进行分类,判断章节是否为精彩章节,上述分类模型可以根据实际情况设置,例如分类模型可以为Fasttext分类器、Bert分类模型等。

本公开实施例中的内容识别算法可以包括多种维度的算法,以在内容识别时实现多维度的识别,进而可以提升对书籍精彩内容识别的准确率。

在一些实施例中,本公开实施例中内容识别方法还可以包括:在待识别书籍的预设页面展示精彩章节的提示信息。可选的,预设页面可以包括与精彩章节关联的目标内容的第一页面、精彩章节之前的并与精彩章节之间的距离满足阈值的第二页面和/或待识别书籍的封面页面。可选的,提示信息包括预设提示文字、精彩章节的数量以及与精彩章节之间的距离中的至少一个。

其中,预设页面可以是用于展示待识别书籍的提示信息的页面,具体可以根据实际情况设置。本公开实施例中的预设页面可以是包括与精彩章节关联的目标内容的第一页面,该目标内容可以与精彩章节在情节或内容上存在关联,例如目标内容可以为精彩章节的伏笔内容;预设页面还可以是在精彩章节之前的并且与精彩章节之间的距离满足阈值的第二页面,距离可以理解为页面距离或文字距离,阈值可以设置较小,也即预设页面可以是精彩章节之前距离较近的一个页面,例如预设页面可以是精彩章节之前倒数第2页的页面;预设页面还可以是待识别书籍的封面页面,封面页面可以待识别书籍外部的一个页面。

提示信息可以为用于提示待识别书籍的精彩章节的信息,可以包括预设提示文字、精彩章节的数量以及与精彩章节之间的距离等信息中的至少一个,例如预设提示文字可以为“前方高能”。

示例性的,图3为本公开实施例提供的一种精彩章节的提示信息的示意图,图4为本公开实施例提供的另一种精彩章节的提示信息的示意图,图3和图4分别展示了两种不同的精彩章节的提示信息。如图3所示,图中展示了一个预设页面300,该预设页面300中展示了精彩章节的提示信息301,提示信息301中包括了提示文字“前方高能”,提示精彩章节即将到达。如图4所示,图中展示了另一个预设页面400,该预设页面400中展示了精彩章节的提示信息401以及与该精彩章节关联的目标内容402,目标内容402为“掉了一个钥匙”,提示信息401中包括了文字“此处重点关注哦,高能预告”,用于提示重点关注目标内容402,该目标内容402为一个伏笔内容并与后面的一个精彩章节关联。

上述方案中,在确定书籍的精彩章节之后,在用户阅读书籍的过程中可以对精彩章节进行提示,以使用户提前知晓精彩内容的分布,激发用户对书籍的兴趣,进而提升了书籍的阅读粘性和留存率。

本公开实施例还提供了一种电子设备,该电子设备可以包括处理器和存储器,存储器可以用于存储可执行指令。其中,处理器可以用于从存储器中读取可执行指令,并执行可执行指令以执行以下操作:获取待识别书籍的目标数据,目标数据包括待识别书籍的属性数据和内容数据;根据属性数据确定内容识别策略,内容识别策略包括至少两个维度的内容识别算法;基于内容识别策略和内容数据,确定待识别书籍中多个章节中的精彩章节。

图5为本公开实施例提供的一种电子设备的结构示意图。本发明实施例中的电子设备500可以为上述所说明的电子设备。还需说明的是,图5示出的电子设备500仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

该电子设备500传统上包括处理器510和以存储器520形式的计算机程序产品或者计算机可读介质。存储器520可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器520具有用于执行上述内容识别方法中的任何方法步骤的可执行指令(或程序代码)5211的存储空间521。例如,用于可执行指令的存储空间521可以包括分别用于实现上面的内容识别方法中的各种步骤的各个可执行指令5211。这些可执行指令可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,光盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为便携式或者固定存储单元。该存储单元可以具有与图5的电子设备中的存储器520类似布置的存储段或者存储空间等。可执行指令可以例如以适当形式进行压缩。通常,存储单元包括用于执行根据本发明的内容识别方法步骤的可执行指令,即可以由例如诸如处理器510之类的处理器读取的代码,这些代码当由电子设备运行时,导致该电子设备执行上面所描述的内容识别方法中的各个步骤。

本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序指令,计算机程序指令在被处理器运行时使得处理器执行本发明各实施例所提供的内容识别方法。

该计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。

在本发明实施例中,可以以一种或多种程序设计语言或其组合来编写用于执行本发明的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本发明的各个部件实施例可以全部或部分步骤以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的内容识别装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

根据本公开的一个或多个实施例,本公开提供了一种内容识别方法,包括:

获取待识别书籍的目标数据,目标数据包括待识别书籍的属性数据和内容数据;

根据属性数据确定内容识别策略,内容识别策略包括至少两个维度的内容识别算法;

基于内容识别策略和内容数据,确定待识别书籍中多个章节中的精彩章节。

可选的,属性数据包括书籍类型,根据属性数据确定内容识别策略,包括:

当书籍类型为女性类型,则内容识别策略包括交互维度以及情感维度的内容识别算法;

当书籍类型为男性类型,则内容识别策略包括交互维度的内容识别算法以及内容维度中的至少一个内容识别算法。

可选的,基于内容识别策略和内容数据,确定待识别书籍中多个章节中的精彩章节,包括:

将待识别书籍中的各章节依次确定为目标章节;

根据内容识别策略中的各内容识别算法以及内容数据中与内容识别算法对应的数据,确定目标章节的多个初始识别结果;

对多个初始识别结果进行加权计算,得到目标章节的精彩内容识别结果,精彩内容识别结果指示目标章节是否为精彩章节。

可选的,对多个初始识别结果进行加权计算,得到目标章节的精彩内容识别结果,包括:

分别对多个初始识别结果进行归一化计算,得到多个识别分数;

根据多个识别分数及其对应的权重值进行加权计算,得到综合分数;

根据综合分数确定目标章节的精彩内容识别结果。

可选的,根据综合分数确定目标章节的精彩内容识别结果,包括:

如果目标章节的综合分数大于或等于预设阈值,则确定目标章节的精彩内容识别结果为目标章节为精彩章节;否则,确定目标章节的精彩内容识别结果为目标章节不是精彩章节。

可选的,内容识别算法包括以下至少一种:交互维度的统计算法、情感维度的分析算法以及内容维度的命名实体识别算法、词性标注算法、分类算法,内容数据包括书籍内容和/或交互数据。

可选的,方法还包括:

在待识别书籍的预设页面展示精彩章节的提示信息。

可选的,预设页面包括与精彩章节关联的目标内容的第一页面、精彩章节之前的并与精彩章节之间的距离满足阈值的第二页面和/或待识别书籍的封面页面。

可选的,提示信息包括预设提示文字、精彩章节的数量以及与精彩章节之间的距离中的至少一个。

根据本公开的一个或多个实施例,本公开一种电子设备,包括:

处理器;

用于存储处理器可执行指令的存储器;

处理器,用于从存储器中读取可执行指令,并执行指令以执行以下操作:

获取待识别书籍的目标数据,目标数据包括待识别书籍的属性数据和内容数据;

根据属性数据确定内容识别策略,内容识别策略包括至少两个维度的内容识别算法;

基于内容识别策略和内容数据,确定待识别书籍中多个章节中的精彩章节。

可选的,属性数据包括书籍类型,可执行指令进一步使处理器执行以下操作:

其中,根据属性数据确定内容识别策略,包括:

当书籍类型为女性类型,则内容识别策略包括交互维度以及情感维度的内容识别算法;

当书籍类型为男性类型,则内容识别策略包括交互维度的内容识别算法以及内容维度中的至少一个内容识别算法。

可选的,可执行指令进一步使处理器执行以下操作:

其中,基于内容识别策略和内容数据,确定待识别书籍中多个章节中的精彩章节,包括:

将待识别书籍中的各章节依次确定为目标章节;

根据内容识别策略中的各内容识别算法以及内容数据中与内容识别算法对应的数据,确定目标章节的多个初始识别结果;

对多个初始识别结果进行加权计算,得到目标章节的精彩内容识别结果,精彩内容识别结果指示目标章节是否为精彩章节。

可选的,可执行指令进一步使处理器执行以下操作:

其中,对多个初始识别结果进行加权计算,得到目标章节的精彩内容识别结果,包括:

分别对多个初始识别结果进行归一化计算,得到多个识别分数;

根据多个识别分数及其对应的权重值进行加权计算,得到综合分数;

根据综合分数确定目标章节的精彩内容识别结果。

可选的,可执行指令进一步使处理器执行以下操作:

其中,根据综合分数确定目标章节的精彩内容识别结果,包括:

如果目标章节的综合分数大于或等于预设阈值,则确定目标章节的精彩内容识别结果为目标章节为精彩章节;否则,确定目标章节的精彩内容识别结果为目标章节不是精彩章节。

可选的,内容识别算法包括以下至少一种:交互维度的统计算法、情感维度的分析算法以及内容维度的命名实体识别算法、词性标注算法、分类算法,内容数据包括书籍内容和/或交互数据。

可选的,可执行指令进一步使处理器执行以下操作:

在待识别书籍的预设页面展示精彩章节的提示信息。

可选的,预设页面包括与精彩章节关联的目标内容的第一页面、精彩章节之前的并与精彩章节之间的距离满足阈值的第二页面和/或待识别书籍的封面页面。

可选的,提示信息包括预设提示文字、精彩章节的数量以及与精彩章节之间的距离中的至少一个。

根据本公开的一个或多个实施例,本公开提供了一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序用于执行如本公开提供的任一的内容识别方法。

以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本发明中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本发明的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

相关技术
  • 一种内容识别方法、装置、电子设备及可读存储介质
  • 屏幕内容识别方法、装置、电子设备及存储介质
技术分类

06120113822399