掌桥专利:专业的专利平台
掌桥专利
首页

基于内容的搜索建议生成方法及装置

文献发布时间:2023-06-19 10:46:31


基于内容的搜索建议生成方法及装置

技术领域

本发明的实施方式涉及互联网技术领域,更具体地,本发明的实施方式涉及基于内容的搜索建议生成方法及装置,存储介质和电子设备。

背景技术

本部分旨在为权利要求中陈述的本发明的实施方式提供背景或上下文,此处的描述不因为包括在本部分中就承认是现有技术。

用户在利用搜索引擎搜索内容时,搜索引擎会根据用户当前输入的文本做相关内容的推荐。一般来说,会在搜索框中展示推荐的内容,推荐内容可能为多个。例如,用户在搜索框中输入“搜”,对应展示的搜索建议依次为:搜狐、搜狐体育、搜狗以及搜房网等等。

发明内容

但是,在一些技术中,相关技术在生成搜索建议词条时,通常基于全局用户已使用过的搜索关键词,进行去重过滤后得到候选搜索词条。然而,相关技术存在“刷单”风险;并且,由于是基于已有的搜索词生成建议词条,存在时间滞后性的缺陷。

为此,非常需要一种改进的基于内容的搜索建议生成方法及装置、存储介质和电子设备,以解决现有技术中存在的人为刷数据和时效滞后的问题。

在本上下文中,本发明的实施方式期望提供一种基于内容的搜索建议生成方法和装置、存储介质和电子设备。

根据本公开的一个方面,提供一种基于内容的搜索建议生成方法,包括:获取待处理文本,按预设规则对所述待处理文本进行识别以提取短文本,并根据所述短文本生成候选集;

基于所述候选集中短文本对应的词频信息计算各所述短文本的权重,并根据各所述短文本的权重进行排序,以筛选待分析短文本;

对所述待分析短文本进行依存句法分析,以获取目标短句;

将所述目标短句加入搜索建议集合。

在本公开的一种示例性实施例中,所述获取待处理文本,按预设规则对所述待处理文本进行识别以提取短文本包括:

根据预设地址信息向目标地址读取所述待处理文本;

提取所述待处理文本中目标位置的文本内容作为短文本;其中,所述目标位置包括标题、副标题、摘要以及特殊标记内容中的任意一项或任意多项;以及

识别所述待处理文本中正文部分长度大于预设阈值的文本内容作为所述短文本。

在本公开的一种示例性实施例中,所述根据所述短文本生成候选集后,所述方法还包括:

根据预设关键词对所述候选集中各所述短文本进行匹配;并在所述短文本包含所述预设关键词时删除对应的所述短文本。

在本公开的一种示例性实施例中,所述基于所述候选集中短文本对应的词频信息计算各所述短文本的权重,并根据各所述短文本的权重进行排序,以筛选待分析短文本,包括:

对所述候选集中各所述短文本进行切词处理,并根据切词处理结果对应的词频信息计算各所述短文本的权重;

根据权重对所述短文本进行排序,并根据排序结果筛选所述待分析短文本。

在本公开的一种示例性实施例中,所述对所述待分析短文本进行依存句法分析,以获取目标短句,包括:

对所述待分析短文本进行切词处理以获取分词,并标记各所述分词对应的词性信息;

基于各所述分词对应的词性信息对所述待分析短文本进行依存句法分析,以获取所述待分析短文本对应的依存关系;

基于所述依存关系和所述分词对应的词性信息生成所述待分析短文本对应的所述目标短句。

在本公开的一种示例性实施例中,所述标记各所述分词对应的词性信息时,所述方法还包括:

识别所述待分析短文本中的目标类型分词,并标记各所述目标类型分词对应的偏移信息;其中,所述目标类型分词包括:否定词、修饰词和国家名称中的任意一项或任意多项。

在本公开的一种示例性实施例中,生成所述待分析短文本对应的所述目标短句后,所述方法还包括:

将所述目标短句与所述待分析短文本进行对比,并在所述目标短句中不存在所述目标类型分词时,根据所述目标类型分词及对应的偏移信息对所述目标短句进行增补处理。

在本公开的一种示例性实施例中,调用敏感词库,并利用所述敏感词库对所述目标短句进行过滤,以删除不符合预设规则所述目标短句。

在本公开的一种示例性实施例中,所述将所述目标短句加入搜索建议集合后,所述方法还包括:

统计目标监控周期内所述搜索建议集合中各短句的出现频率;

根据各所述短句对应的关注度信息、发表时间、所述短句中短文本的权重、以及基于所述短句识别的相关文章量,结合所述短句的出现频率对所述搜索建议集合中各所述短句进行排序。

根据本公开的一个方面,提供一种基于内容的搜索建议生成装置,包括:候选集生成模块,用于获取待处理文本,按预设规则对所述待处理文本进行识别以提取短文本,并根据所述短文本生成候选集;

短文本生成模块,用于基于所述候选集中短文本对应的词频信息计算各所述短文本的权重,并根据各所述短文本的权重进行排序,以筛选待分析短文本;

目标短句生成模块,用于对所述待分析短文本进行依存句法分析,以获取目标短句;

搜索建议集合处理模块,用于将所述目标短句加入搜索建议集合。

在本公开的一种示例性实施例中,所述候选集生成模块包括:

待处理文本获取模块,用于根据预设地址信息向目标地址读取所述待处理文本;

待处理文本处理模块,用于提取所述待处理文本中目标位置的文本内容作为短文本;其中,所述目标位置包括标题、副标题、摘要以及特殊标记内容中的任意一项或任意多项;以及

短文本筛选模块,用于识别所述待处理文本中正文部分长度大于预设阈值的文本内容作为所述短文本。

在本公开的一种示例性实施例中,所述装置还包括:

候选集预处理模块,用于根据所述短文本生成候选集后,根据预设关键词对所述候选集中各所述短文本进行匹配;并在所述短文本包含所述预设关键词时删除对应的所述短文本。

在本公开的一种示例性实施例中,所述短文本生成模块包括:

短文本权重计算模块,用于对所述候选集中各所述短文本进行切词处理,并根据切词处理结果对应的词频信息计算各所述短文本的权重;

短文本排序模块,用于根据权重对所述短文本进行排序,并根据排序结果筛选所述待分析短文本。

在本公开的一种示例性实施例中,所述目标短句生成模块包括:

词性分析模块,用于对所述待分析短文本进行切词处理以获取分词,并标记各所述分词对应的词性信息;

依存关系分析模块,用于基于各所述分词对应的词性信息对所述待分析短文本进行依存句法分析,以获取所述待分析短文本对应的依存关系;

目标短句生成模块,用于基于所述依存关系和所述分词对应的词性信息生成所述待分析短文本对应的所述目标短句。

在本公开的一种示例性实施例中,所述词性分析模块还用于识别所述待分析短文本中的目标类型分词,并标记各所述目标类型分词对应的偏移信息;其中,所述目标类型分词包括:否定词、修饰词和国家名称中的任意一项或任意多项。

在本公开的一种示例性实施例中,所述目标短句生成模块还用于在生成所述待分析短文本对应的所述目标短句后,将所述目标短句与所述待分析短文本进行对比,并在所述目标短句中不存在所述目标类型分词时,根据所述目标类型分词及对应的偏移信息对所述目标短句进行增补处理。

在本公开的一种示例性实施例中,所述装置还包括:

敏感词筛选模块,用于调用敏感词库,并利用所述敏感词库对所述目标短句进行过滤,以删除不符合预设规则所述目标短句。

在本公开的一种示例性实施例中,所述搜索建议集合处理模块还用于:将所述目标短句加入搜索建议集合后,统计目标监控周期内所述搜索建议集合中各短句的出现频率;以及根据各所述短句对应的关注度信息、发表时间、所述短句中短文本的权重、以及基于所述短句识别的相关文章量,结合所述短句的出现频率对所述搜索建议集合中各所述短句进行排序。

根据本公开的一个方面,提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的基于内容的搜索建议生成方法。

根据本公开的一个方面,提供一种电子设备,包括:

处理器;以及

存储器,用于存储所述处理器的可执行指令;

其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的基于内容的搜索建议生成方法。

根据本发明实施方式的基于内容的搜索建议生成方法,通过以实时获取或预先获取的方式从不同的途径获取待处理文本,并对待处理文本进行文本识别来提取对应的短文本生成候选集,再根据对候选集中短文本的分析结果来生成待处理文本对应的目标短句,将目标短句添加至搜索建议集合,作为候选搜索词条。通过以主动获取待处理文本生成对应的搜索建议词条的方式,可以有效的避免人为的刷搜索建议词条数据量的情况。并且,能够有效的提升搜索建议词条的时效性,能够为用户推荐出实时性更高的词条。尤其对于新闻领域来说,能够极大的提高相关推荐词条的时效性。

附图说明

通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:

图1示意性地示出了根据本发明实施方式的基于内容的搜索建议生成方法的流程图;

图2示意性地示出了根据本发明实施方式的生成短文本候选集的方法的流程图;

图3示意性地示出了根据本发明实施方式的筛选待分析短文本的方法的流程图;

图4示意性地示出了根据本发明实施方式的对待分析文本进行依存句法分析的方法的流程图;

图5示意性地示出了根据本发明实施方式的搜索建议集合中的词条进行排序的方法的流程图;

图6示意性地示出了根据本发明实施方式的基于内容的搜索建议生成装置的方框图;

图7示出了根据本发明实施方式的存储介质的示意图;以及

图8示意性示出了根据发明实施方式的电子设备的方框图。

在附图中,相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。

根据本发明的实施方式,提供一种基于内容的搜索建议生成方法、基于内容的搜索建议生成装置、存储介质和电子设备。

在本文中,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。

下面参考本发明的若干代表性实施方式,详细阐述本发明的原理和精神。

本发明人发现,现有技术中,用户在利用搜索引擎搜索内容、数据或图像时,当用户在搜索框中输入搜索关键词时,搜索系统能够给出和已输入内容前缀相同的搜索词列表;其目的是节省用户的输入成本。现有技术在生成搜索建议词条时,通常都是基于全局用户已使用过的搜索关键词,进行去重、过滤等操作后而得到候选列表。然而,存在部分作弊用户会通过大量发起相同“目的关键词”的搜索请求,把“目的关键词”通过搜索建议生成系统刷到搜索建议列表中,通过“刷数据”的方式达到其个人目的。虽然现有技术中能够通过一些策略过滤大部分作弊,但仍会有遗漏和不能准确识别的人为“刷数据”行为。另外,由于搜索建议是通过用户发起搜索并汇聚大量的搜索关键词计算得到的,故存在先天的时间滞后性缺陷。特别是对于新闻类搜索,大大滞后于新闻事件发生时间,使其失去了引导用户搜索的价值。此外,现有技术中也存在基于文章标题的搜索建议候选词生成方法,但局限于将标题进行简单分词后排列组合形成搜索建议候选词。但是,这样的技术方案可能出现标题中多个分词排列组合产生的搜索建议可能无意义或者产生歧义甚至完全反义的情况,以及容易受“标题党”干扰从而形成无意义的候选词,如“震惊”、“原来是这样”、“点击查看”等。

鉴于上述内容,本发明的基本思想在于:根据本发明实施方式的基于内容的搜索建议生成方法和基于内容的搜索建议生成装置,在获取相关内容的待处理文本后,能够通过对待处理文本进行分析而生成对应的目标短句,并将目标短句作为该待处理文本的搜索建议词条,从而解决现有技术方案中存在被“刷数据”风险和时间滞后的缺陷。并且,通过基于文本的内容生成推荐词条,也有效的避免了仅使用文章标题而导致的不能提供准确的词条的缺陷。另外,也能够减小对词条审核压力。

在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。

下面结合图1来描述根据本发明示例性实施方式的基于内容的搜索建议生成方法。

参考图1,所述基于内容的搜索建议生成方法可以包括以下步骤:

S1、获取待处理文本,按预设规则对所述待处理文本进行识别以提取短文本,并根据所述短文本生成候选集;

S2、基于所述候选集中短文本对应的词频信息计算各所述短文本的权重,并根据各所述短文本的权重进行排序,以筛选待分析短文本;

S3、对所述待分析短文本进行依存句法分析,以获取目标短句;

S4、将所述目标短句加入搜索建议集合。

根据本发明实施方式的基于内容的搜索建议生成方法,通过以实时获取或预先获取的方式从不同的途径获取待处理文本,并对待处理文本进行文本识别来提取对应的短文本生成候选集,再根据对候选集中短文本的分析结果来生成待处理文本对应的目标短句,将目标短句添加至搜索建议集合,作为候选搜索词条。通过以主动获取待处理文本生成对应的搜索建议词条的方式,可以有效的避免人为的刷搜索建议词条数据量的情况。并且,能够有效的提升搜索建议词条的时效性,能够为用户推荐出实时性更高的词条。尤其对于新闻领域来说,能够极大的提高相关推荐词条的时效性。

在步骤S1中,获取待处理文本,按预设规则对所述待处理文本进行识别以提取短文本,并根据所述短文本生成候选集。

在本公开的示例性实施方式中,参考图2所示,上述的步骤S1可以包括:

步骤S11,根据预设地址信息向目标地址读取所述待处理文本;

步骤S12,提取所述待处理文本中目标位置的文本内容作为短文本;其中,所述目标位置包括标题、副标题、摘要以及特殊标记内容中的任意一项或任意多项;以及

步骤S13,识别所述待处理文本中正文部分长度大于预设阈值的文本内容作为所述短文本。

具体来说,上述的预设地址可以是预先配置的社交网站、新闻网站或者搜索网站的网页地址;或者,也可以是内部网页的地址。可以设置定时任务或实时对网站的新增新闻进行刷新,在读取到新增新闻消息时,获取该新闻的文章的全部内容,并将其作为待处理文本。或者,也可以在获取编辑待发布的文章作为待处理文本。可以将文章的标题、摘要、内容等作为待处理文本。可以通过爬虫程序等方式来获取新闻文章。

在获取待处理文本后,便可以提取指定位置的文本内容作为短文本。举例来说,可以从文章中提取标题、副标题、摘要、文章内容中被特殊标记的内容,例如被加粗、添加下划线、特殊颜色等方式特殊标记的内容。此外,还可以从文章内容中选取长度最大的语句,或者也可以预先设定语句长度的阈值,并选取文章中大于该阈值的语句作为短文本;或者,也可以将文章的各章节标题作为关键的短文本。在通过上述方式提取到一个或多个短文本后,基于筛选出的短文本生成候选集。

在本公开的示例性实施方式中,在初步生成候选集后,还可以对候选集进行预处理。具体的,根据所述短文本生成候选集后,上述方法还可以包括:

步骤S14,根据预设关键词对所述候选集中各所述短文本进行匹配;并在所述短文本包含所述预设关键词时删除对应的所述短文本。

具体来说,可以预先配置一敏感词列表,将预先收集和筛选的“标题党”词汇和其他敏感词添加在该敏感词列表中。在生成候选集后,可以从敏感词表中筛选一定数据和类型的词汇作为关键词,或者也将敏感词表中的全部词汇作为关键词,将选取的关键词与候选集中的各短文本进行匹配;若短文本中包含关键词,便在候选集中删除该短文本。举例来说,敏感词可以是“标题党”文章惯用的:震惊、原来是这样、点击查看等词汇。

在本公开的其他示例性实施方式中,对于抓取的文章来说,可以首先根据标题、摘要、或者数据源对文章进行初步分类,确定对应的类别。例如,可以将文章划分为:娱乐、政治、体育或经济等类别。同样的,对于敏感词列表来说,也可以对其中的敏感词划分对应的类别,但一个敏感词和可以对应于多个类别;例如,“下一秒尴尬了”、“操作亮了”等词汇,可以被配置为娱乐、社会等类别。从而可以在对候选集中的短文本进行过滤时,可以选取对应类别的敏感词进行匹配,从而可以提高对候选集进行筛选的效率。

或者,也可以根据文章的来源配置对应的敏感词列表,例如,通过分析一新闻网站的的文章,来确定其写作风格以及常用词汇,进行配置对应的敏感词汇表。从而在从该网站抓取文章后,可以使用该网站对应的敏感词汇表对候选集进行筛选。从而可以使用更加准确的敏感词汇对候选集进行筛选,剔除其中的与文章实质内容相关度较低的短文本。

在步骤S2中,基于所述候选集中短文本对应的词频信息计算各所述短文本的权重,并根据各所述短文本的权重进行排序,以筛选待分析短文本。

在本公开的示例性实施方式中,具体来说,参考图3所示,上述的步骤S2可以包括:

步骤S21,对所述候选集中各所述短文本进行切词处理,并根据切词处理结果对应的词频信息计算各所述短文本的权重;

步骤S22,根据权重对所述短文本进行排序,并根据排序结果筛选所述待分析短文本。

具体来说,在生成候选集之后,便可以对候选集中的各短文本进行切词处理。例如,可以利用word2vec算法对短文本进行分词。在切词之后,便可以计算切词结果的词频,再计算各切词结果的权重。具体的,可以利用TF-IDF(term frequency–inverse documentfrequency词频-逆文档频率)方法计算各词的权重。

具体来说,可以首先计算词频(TF,Term Frequency),即切词后每个词出现的频率。具体的,可以利用以下公式进行计算:

词频=某个词出现的次数/总词数

在一个特定句子/文档中,TF越大,有两种可能,一种是“的”“了”等特别泛的词,对关键句无意义;另一种是关键词,多次强调表征了其重要性。要从这两种情况中再提取出重要的关键词,则需要计算IDF(Inverse Document Frequency,逆文档频率)。其计算公式可以包括:

逆文档频率=log(语料库中文档数/(包含该词的文档数+1))

越是常见的词,IDF值越小,反之越是不常见的词,IDF值越大,越可能是关键词。将TF和IDF相乘,就得到了一个term(关键词)的权重。将每个句子切词后的所有term的权重求和,得到每个候选句子的权重。具体的,候选集中各短文本权重计算公式可以包括:

在计算出候选集中各短文本的权重之后,便可以根据权重值进行排序,并将权重值最高的短文本作为待分析短文本。

或者,在本公开的其他示例性实施方式中,也可以设定权重的筛选阈值,从而可以筛选权重值大于阈值的多个短文本作为待分析短文本。

在步骤S3中,对所述待分析短文本进行依存句法分析,以获取目标短句。

在本公开的示例性实施方式中,在由候选集中根据权重筛选目标短文本之后,便可以对待分词短文本进行依存句法分析。具体来说,参考图4所示,可以包括:

步骤S31,对所述待分析短文本进行切词处理以获取分词,并标记各所述分词对应的词性信息;

步骤S32,基于各所述分词对应的词性信息对所述待分析短文本进行依存句法分析,以获取所述待分析短文本对应的依存关系;

步骤S33,基于所述依存关系和所述分词对应的词性信息生成所述待分析短文本对应的所述目标短句。

具体来说,可以首先对待分析短文本进行切词处理,从而得到对应的切词结果。切词处理可以采用word2vec算法等方式。在获取切词结果后,便可以标记各分词的对应的词性,再进行依存句法分析。例如,待分析短文本包括“北京市海淀区发生2.9级地震”,则对应标注词性的结果为“北京市(名词)海淀区(名词)发生(动词)2.9(数量词)级(量词)地震(名词)”。

依存句法分析能够将句子分析成一颗依存句法树,描述出各个词语之间的依存关系。依存句法认为“谓语”中的动词是一个句子的中心,其他成分与动词直接或间接地产生联系。一个依存关系连接两个词,分别是核心词(head)和依存词(dependent)。简单地,即通常意义上的主谓、主谓宾结构。举例而言,对于上述的待分析短文本“北京市海淀区发生2.9级地震”,对其进行依存句法分析后,便可以得到对应的目标短句“海淀区(核心词)发生(中心词)地震(依存词)”。

举例来说,依存句法分析方法也可以包括:通过句法分析得到构成句子的成分,形成由包括支配词、被支配词的成分以及成分间的依存关系构成的若干三元组;确定句子的中心词,并检测中心词分别与句子的其他成分的依存距离,构造满足约束的依存树,得到句子的最佳依存关系;根据预设规则约束最佳依存关系,得到并输出句子的最佳三元组。

当然,在本公开的其他示例性实施方式中,也可以使用包含其他具体步骤的依存句法分析方法,本公开对依存句法分析的具体过程不做特殊限定。

基于上述内容,在本公开的其他示例性实施方式中,上述的方法还可以包括:

步骤S341,识别所述待分析短文本中的目标类型分词,并标记各所述目标类型分词对应的偏移信息;其中,所述目标类型分词包括:否定词、修饰词和国家名称中的任意一项或任意多项;

步骤S342,将所述目标短句与所述待分析短文本进行对比,并在所述目标短句中不存在所述目标类型分词时,根据所述目标类型分词及对应的偏移信息对所述目标短句进行增补处理。

具体而言,在标记各分词对应的词性信息时,可以识别分词结果中是否包含目标类型分词,并标记对应的偏移信息。举例来说,目标类型分词可以是“不”、“没”、“否”等会导致反义的词,或者表示双重否定的词。此外,目标类型分词也可以是预先规定的修饰词、国家名称等。偏移信息可以是该目标类型分词在短句中位置信息。

在生成目标短句后,可以将目标短句与待分析短文本进行比对;例如通过对应的分词结果进行比对的方式,判断目标短句中是否缺失了相关的目标类型分词。若目标短句中缺失了相关的目标类型分词,便可以根据各目标类型分词对应的偏移信息增补至目标短句中。例如,待分析短文本为“昨晚北京市海淀区并没发生2.9级地震”;对应的目标短句为“海淀区发生地震”;增补后的目标短句包括“海淀区没发生地震”。

通过将目标短句与待分词短文本进行比对,并执行增补处理,可以有效的避免最终生成的目标短句与原文章的真实含义产生偏差,消除歧义,避免误导。

基于上述内容,在本公开的一些示例性实施方式中,在生成目标短句后,还可以调用一独立配置的敏感词库,并利用所述敏感词库对所述目标短句进行过滤,以删除不符合预设规则所述目标短句。

具体的,敏感词库中配置的敏感词可以是与上述敏感词列表中包含不同词组的词库。举例来说,可以根据搜索推荐词条的相关规则配置该敏感词库。并将该敏感词库中的每一个敏感词均与新生生成的目标短句进行匹配。若目标短句中包含敏感词,便将该目标短句删除。

在步骤S4中,将所述目标短句加入搜索建议集合。

在本公开的示例性实施方式中,在生成最终的目标短句后,便可以将该目标短句添加至搜索建议集合,以用于在搜索引擎的搜索框中展示,为用户提供输入引导。

此外,还可以将目标短句与搜索建议集合中当前包含的搜索建议词条进行比对,进行去重操作。

基于上述内容,在本公开的一些示例性实施方式中,参考图5所示,上述方法还可以包括:

步骤S51,统计目标监控周期内所述搜索建议集合中各短句的出现频率;

步骤S52,根据各所述短句对应的关注度信息、发表时间、所述短句中短文本的权重、以及基于所述短句识别的相关文章量,结合所述短句的出现频率对所述搜索建议集合中各所述短句进行排序。

具体的,可以设置监控周期,并统计监控周期内全体用户的搜索词条;计算搜索建议集合中各搜索建议词条的被调用频率;以及未包含在搜索建议集合中的词条的频率,根据各词条的被搜索频率计算该词条的热度,以及该词条相关联的文章的数量,计算该词条的关注度信息;其中,相关联的文章数量可以是不同数据源发表的关于本词条的文章。例如,该词条的被调用的频率越高,与该词条相关联的文章数量越多,则关注度信息越高。其计算方式可以是频率与相关文章数的乘积。

此外,还可以利用上述的TF-IDF方法计算各词条的权重。然后,可以结合各词条的关注度信息、发表时间、权重、相关文章数量,配置各项目的权重比例,计算各词条的被关注度,再根据被关注度值对各词条进行排序。排序位置越高,则在搜索时会被优先推荐。

另外,还可以对监控周期内生成的全部目标短句进行识别,判断当前的监控周期内是否重复生成了同一事件对应的相同目标短句,并计算各目标短句的重复频率,进行排序。若在监控周期内生成的目标短句重复次数较多,相关文章数量较多,则在搜索建议集合中优先排序。例如,如果在指定时间窗口内,例如10或30分钟内,多篇文章计算出的目标短句相同,则认为其为突发热点事件,在搜索建议集合中会被优先排序,优先展示。

综上所述,本公开提供的方法,通过从预设的地址中当时抓取新闻类或其他类别的文章,按指定的规则从抓取得到文章中提取的标题、副标题、摘要、文章正文中部分长语句生成候选集,再对候选集中的各短文本利用TF-ITF算法筛选出待分析短文本,并对待分析短文本进行依存句法分析,生成对应的目标短句,作为该文章对应的搜索推荐词条。能够有效的避免词条被用户刷数据而导致的人为作弊置顶词条的风险。通过使用依存句法分析的方式,能够较好地消除包含歧义的目标短句,避免误导。并且,由于是根据文章内容生成的搜索建议词条,具有较好的时效性,特别是对于新闻搜索,有非常好的搜索引导作用。基于相似文章短时间内爆发的热点具有良好的识别效果。同时,由于热点事件有限,同一热点事件的表述也有限,也能够降低数据的人工审核压力。

在介绍了本发明示例性实施方式的基于内容的搜索建议生成方法之后,接下来,参考图6对本发明示例性实施方式的基于内容的搜索建议生成装置进行描述。

参考图6所示,本发明示例性实施方式的基于内容的搜索建议生成600可以包括:候选集生成模块601、短文本生成模块602、目标短句生成模块603以及搜索建议集合处理模块604。其中:

所述候选集生成模块601可以用于获取待处理文本,按预设规则对所述待处理文本进行识别以提取短文本,并根据所述短文本生成候选集。

所述短文本生成模块602可以用于基于所述候选集中短文本对应的词频信息计算各所述短文本的权重,并根据各所述短文本的权重进行排序,以筛选待分析短文本。

所述目标短句生成模块603可以用于对所述待分析短文本进行依存句法分析,以获取目标短句。

所述搜索建议集合处理模块604用于将所述目标短句加入搜索建议集合。

根据本公开的示例性实施例,所述候选集生成模块601可以包括:待处理文本获取模块、待处理文本处理模块和短文本筛选模块(图中未示出)。其中,

所述待处理文本获取模块可以用于根据预设地址信息向目标地址读取所述待处理文本。

所述待处理文本处理模块可以用于提取所述待处理文本中目标位置的文本内容作为短文本;其中,所述目标位置包括标题、副标题、摘要以及特殊标记内容中的任意一项或任意多项。

所述短文本筛选模块可以用于识别所述待处理文本中正文部分长度大于预设阈值的文本内容作为所述短文本。

根据本公开的示例性实施例,所述装置还包括:候选集预处理模块(图中未示出)。

所述候选集预处理模块可以用于根据所述短文本生成候选集后,根据预设关键词对所述候选集中各所述短文本进行匹配;并在所述短文本包含所述预设关键词时删除对应的所述短文本。

根据本公开的示例性实施例,所述短文本生成模块602可以包括:短文本权重计算模块、短文本排序模块(图中未示出)。其中,

所述短文本权重计算模块可以用于对所述候选集中各所述短文本进行切词处理,并根据切词处理结果对应的词频信息计算各所述短文本的权重。

所述短文本排序模块可以用于根据权重对所述短文本进行排序,并根据排序结果筛选所述待分析短文本。

根据本公开的示例性实施例,所述目标短句生成模块603可以包括:词性分析模块、依存关系分析模块、目标短句生成模块(图中未示出)。

其中,

所述词性分析模块可以用于对所述待分析短文本进行切词处理以获取分词,并标记各所述分词对应的词性信息。

所述依存关系分析模块可以用于基于各所述分词对应的词性信息对所述待分析短文本进行依存句法分析,以获取所述待分析短文本对应的依存关系。

所述目标短句生成模块可以用于基于所述依存关系和所述分词对应的词性信息生成所述待分析短文本对应的所述目标短句。

根据本公开的示例性实施例,所述词性分析模块还可以用于识别所述待分析短文本中的目标类型分词,并标记各所述目标类型分词对应的偏移信息;其中,所述目标类型分词包括:否定词、修饰词和国家名称中的任意一项或任意多项。

根据本公开的示例性实施例,所述目标短句生成模块603还可以用于在生成所述待分析短文本对应的所述目标短句后,将所述目标短句与所述待分析短文本进行对比,并在所述目标短句中不存在所述目标类型分词时,根据所述目标类型分词及对应的偏移信息对所述目标短句进行增补处理。

根据本公开的示例性实施例,所述装置还可以包括:敏感词筛选模块(图中未示出)。

所述敏感词筛选模块可以用于调用敏感词库,并利用所述敏感词库对所述目标短句进行过滤,以删除不符合预设规则所述目标短句。

根据本公开的示例性实施例,所述搜索建议集合处理模块604还可以用于:将所述目标短句加入搜索建议集合后,统计目标监控周期内所述搜索建议集合中各短句的出现频率;以及根据各所述短句对应的关注度信息、发表时间、所述短句中短文本的权重、以及基于所述短句识别的相关文章量,结合所述短句的出现频率对所述搜索建议集合中各所述短句进行排序。

由于本发明实施方式的基于内容的搜索建议生成装置的各个功能模块与上述的基于内容的搜索建议生成方法发明实施方式中相同,因此在此不再赘述。

在介绍了本发明示例性实施方式的基于内容的搜索建议生成方法和装置之后,接下来,参考图7对本发明示例性实施方式的存储介质进行说明。

参考图7所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品700,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言-诸如Java、C++等,还包括常规的过程式程序设计语言-诸如"C"语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

在介绍了本发明示例性实施方式的存储介质之后,接下来,参考图8对本发明示例性实施方式的电子设备进行说明。

图8显示的电子设备800仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示,电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于:上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830、显示单元840。

其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元810执行,使得所述处理单元810执行本说明书上述"示例性方法"部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元810可以执行如图1中所示的步骤S1至步骤S4。

存储单元820可以包括易失性存储单元,例如随机存取存储单元(RAM)8201和/或高速缓存存储单元8202,还可以进一步包括只读存储单元(ROM)8203。

存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204,这样的程序模块8205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线830可以包括数据总线、地址总线和控制总线。

电子设备800也可以与一个或多个外部设备900(例如键盘、指向设备、蓝牙设备等)通信,这种通信可以通过输入/输出(I/O)接口850进行。电子设备800还包括显示单元840,其连接到输入/输出(I/O)接口850,用于进行显示。并且,电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器860通过总线830与电子设备800的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备800使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意,尽管在上文详细描述中提及了基于内容的搜索建议生成装置的若干模块或子模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

相关技术
  • 基于内容的搜索建议生成方法及装置
  • 基于用户反馈的赞助搜索广告的建议关键词生成方法
技术分类

06120112669797