掌桥专利:专业的专利平台
掌桥专利
首页

一种文本关键内容提取方法、装置及服务器

文献发布时间:2023-06-19 16:09:34



技术领域

本发明涉及计算机技术领域,尤其涉及一种文本关键内容提取方法、装置及服务器。

背景技术

随着计算机技术和互联网技术的不断发展进步、以及智能电子产品的逐步普及,考虑到电子产品学习的智能性以及便捷性,学生的学习也逐渐开始借助电子产品来完成。文本查找是学习中十分重要的一环,高效率的查找文本能够让学习更高效,因此对文本的关键内容进行提取是非常必要的。现有的文本关键内容提取的方法大多是根据文本标题及文中多次出现的词语进行主要内容的判别,但这种提取方式准确度较低。

发明内容

本发明的目的在于提供一种文本关键内容提取方法、装置及服务器,旨在解决现有文本关键内容提取方法不够准确的问题。

为实现上述目的,本发明提供了一种文本关键内容提取方法,包括:

获取文本集;

划分单元并提取单元候选关键词;

根据所述单元候选关键词出现频率获取单元关键词频率信息;

根据所述单元关键词频率信息提取文本候选关键词;

根据所述文本候选关键词出现频率获取文本关键词频率信息;

根据所述文本关键词频率信息获得文本关键词;

根据获得的所述文本关键词将文本与同关键词文本进行对比从而确定文本关键词。

其中,所述划分单元的具体方法为将文本根据自然段落划分为若干个单元。

其中,所述提取单元候选关键词的具体方法为提取单元中出现次数较多的词语及衍生词。

其中,所述获取单元关键词频率信息的具体步骤为:

根据提取的所述单元候选关键词与主题进行比较获取主题相关信息;

根据所述单元候选关键词出现的频率获取单元频率子信息;

基于所述候选关键词的词语长度,获取所述候选关键词对应的词语长度信息;

将所述主题相关信息、所述单元频率子信息以及所述词语长度信息进行融合,得到所述候选关键词针对所述文本单元的单元关键词频率信息。

其中,所述获取文本关键词频率信息的具体步骤为:

根据提取的所述文本候选关键词与主题进行比较获取主题相关信息;

根据所述文本候选关键词出现的频率获取文本频率子信息;

基于所述候选关键词的词语长度,获取所述候选关键词对应的词语长度信息;

将所述主题相关信息、所述文本频率子信息以及所述词语长度信息进行融合,得到所述候选关键词针对所述文本的文本关键词频率信息。

其中,一种文本关键内容提取装置,包括存储信息架、信息存储模块和对比模块,所述存储信息架用于存储大量的文本信息,所述信息存储模块用于存储关键内容,所述对比模块用于查找文本信息中的关键内容。

其中,一种文本关键内容提取服务器,包括处理器、存储器和收发器,所述处理器、存储器和收发器相互连接,其中,所述收发器用于接收或发送数据,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,执行权利要求1的所述文本关键内容提取方法。

本发明的一种文本关键内容提取方法、装置及服务器,通过将文本集划分为若干单元,然后对各个单元进行关键词获取,再从单元关键词中获取文本关键词,最后与同类型文本进行关键词对比,确定文本关键词,将文本集划分为多个单元再提取关键词能够避免关键词遗漏以及无效关键词的问题,使得关键词提取更加准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明的一种文本关键内容提取方法的流程图。

图2是获取单元关键词频率信息的具体步骤流程图。

图3是获取文本关键词频率信息的具体步骤流程图。

图4是根据获得的所述文本关键词将文本与同关键词文本进行对比从而确定文本关键词的具体步骤流程图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

请参阅图1至图3,本发明提供一种文本关键内容提取方法,包括:

S101获取文本集;

通过爬虫对文本集进行获取,并存储至信息存储模块内。

S102划分单元并提取单元候选关键词;

其中,所述划分单元的具体方法为将文本根据自然段落划分为若干个单元。

其中,所述提取单元候选关键词的具体方法为提取单元中出现次数多余预设次数的词语及衍生词。

S103根据单元候选关键词出现频率获取单元关键词频率信息;

其中,所述获取单元关键词频率信息的具体步骤为:

S301根据提取的单元候选关键词与主题进行比较获取主题相关信息;

所述主题为文本集标题主旨,通过比较所述单元候选关键词与所述主体的相关程度获得所述主题相关信息。

S302根据单元候选关键词出现的频率获取单元频率子信息;

所述单元频率子信息为每个单元候选关键词出现次数与单元文本长度的比例,体现每个所述单元候选关键词的比重。

S303基于所述候选关键词的词语长度,获取所述候选关键词对应的词语长度信息;

S304将主题相关信息、单元频率子信息以及词语长度信息进行融合,得到所述候选关键词针对所述文本单元的单元关键词频率信息。

S104根据单元关键词频率信息提取文本候选关键词;

S105根据文本候选关键词出现频率获取文本关键词频率信息;

其中,所述获取文本关键词频率信息的具体步骤为:

S501根据提取的所述文本候选关键词与主题进行比较获取主体相关信息;

所述主题为文本集标题主旨,通过比较所述文本候选关键词与所述主体的相关程度获得所述主题相关信息。

S502根据所述文本候选关键词出现的频率获取文本频率子信息;

所述文本频率子信息为每个文本候选关键词出现次数与文本长度的比例,体现每个所述文本候选关键词的比重。

S503基于所述候选关键词的词语长度,获取所述候选关键词对应的词语长度信息;

S504将所述主题相关信息、所述文本频率子信息以及所述词语长度信息进行融合,得到所述候选关键词针对所述文本的文本关键词频率信息。

S106根据所述文本关键词频率信息获得文本关键词;

S107根据获得的所述文本关键词将文本与同关键词文本进行对比从而确定文本关键词。

所述根据获得的所述文本关键词将文本与同关键词文本进行对比从而确定文本关键词的具体步骤是:

S701从文本库选取其关键词与所述文本关键词相同或相似的文本;

S702将所述文本库选取的文本与所述文本集的主题相关信息、文本频率子信息以及词语长度信息进行比较;

S703判断所述文本库选取的文本与所述文本集的主题相关信息、文本频率子信息以及词语长度信息的相似度是否达到预设相似度;

S704确定所述文本集的文本关键词。

其中,一种文本关键内容提取装置,包括存储信息架、信息存储模块和对比模块,所述存储信息架用于存储大量的文本信息,所述信息存储模块用于存储关键内容,所述对比模块用于查找文本信息中的关键内容。

其中,一种文本关键内容提取服务器,包括处理器、存储器和收发器,所述处理器、存储器和收发器相互连接,其中,所述收发器用于接收或发送数据,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,执行权利要求1的所述文本关键内容提取方法。

本发明的一种文本关键内容提取方法、装置及服务器,通过将文本集划分为若干单元,然后对各个单元进行关键词获取,再从单元关键词中获取文本关键词,最后与同类型文本进行关键词对比,确定文本关键词,将文本集划分为多个单元再提取关键词能够避免关键词遗漏以及无效关键词的问题,使得关键词提取更加准确。

以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

相关技术
  • 一种文本关键内容提取方法、装置及服务器
  • 文本内容关键信息的提取方法、装置、设备及存储介质
技术分类

06120114724540