掌桥专利:专业的专利平台
掌桥专利
首页

文本关键词提取方法、装置、设备及介质

文献发布时间:2023-06-19 19:30:30


文本关键词提取方法、装置、设备及介质

技术领域

本申请涉及人工智能技术领域,尤其涉及一种文本关键词提取方法、装置、设备及介质。

背景技术

随着经济的不断发展,人工智能技术在各个领域得到广泛应用,并发挥着越来越重要的作用。

其中自然语言处理是人工智能领域的重要研究领域之一,关键词提取作为自然语言处理的关键手段,有助于对文本语义的理解。在智能客服、智能导购、自动问答以及语音控制等场景下,平台与用户进行智能交互通常依赖于对文本语义的理解,只有理解了文本语义,才能给出较为合理的解答或推荐等。

然而目前的关键词提取技术,为了提高关键词提取准确率,通常需要匹配出大量的关键词并对这些关键词进行分析和确定进而确定最终的关键词组合,导致运算量过大、关键词提取效率低。

发明内容

本申请提供一种文本关键词提取方法、装置、设备及介质,用以解决关键词提取过程中运算量大、提取效率低的问题。

根据本申请的一方面,提供一种文本关键词提取方法,包括:

获取目标输入文本,并将所述目标输入文本与预设关键词库进行匹配;

根据匹配结果获取所述目标输入文本的若干候选关键词,并根据所述若干候选关键词和所述目标输入文本,构建所述目标输入文本对应的所有文本句式及其对应的候选关键词组合;

分别获取所述所有文本句式与所述目标输入文本之间的相似度,并将相似度大于预设阈值的文本句式确定为候选文本句式;

在所述候选文本句式存在多个的情况下,将所述候选文本句式对应的关键词组合输入至概率分析模型中,基于所述概率分析模型获取所述候选文本句式对应的关键词组合的组合概率,并将组合概率最大对应的关键词组合确定为所述目标输入文本的关键词组合。

在一种实施方式中,所述将所述目标输入文本与预设关键词库进行匹配,包括:

对所述目标输入文本中的字母词汇进行大小写之间的统一,和/或对所述目标输入文本中的相同词汇进行标注;

将经过大小写统一或者标注的目标输入文本进行分词,并根据分词结果与预设关键词库进行匹配。

在一种实施方式中,所述分别获取所述所有文本句式与所述目标输入文本之间的相似度,包括:

分别确定所述所有文本句式与所述目标输入文本之间的编辑距离,并基于所述编辑距离获取所述所有文本句式与所述目标输入文本之间的相似度。

在一种实施方式中,所述分别确定所述所有文本句式与所述目标输入文本之间的编辑距离,包括:

分别基于所述所有文本句式中各个词汇与所述目标输入文本中对应词汇之间的编辑处理次数确定所述文本句式与所述目标输入文本之间的编辑距离;

其中,所述编辑处理至少包括以下处理方式之一:词汇增加、词汇删除或者词汇替换。

在一种实施方式中,所述方法还包括:

分别获取所述所有文本句式中各个词汇与所述目标输入文本中对应词汇的词汇长度;

所述基于所述编辑距离获取所述所有文本句式与所述目标输入文本之间的相似度,包括:

基于所述编辑距离和所述词汇长度获取所述所有文本句式与所述目标输入文本之间的相似度。

在一种实施方式中,在将所述候选文本句式对应的关键词组合输入至概率分析模型中之前,还包括:

获取样本文本数据,所述样本文本数据包括句式规则模板以及各领域的语料文本;

从所述样本文本数据中依次提取一个当前待训练文本,所述当前待训练文本为句式规则模板或者语料文本,并输入初始概率分析模型中进行训练,得到训练后的概率分析模型;

在所述样本文本数据中的各句式规则模板或者各领域的语料文本全部提取和输入完毕后,输出所述概率分析模型。

在一种实施方式中,所述初始概率分析模型采用卷积长短期记忆神经网络CNN-LSTM模型。

根据本申请的另一方面,提供一种文本关键词提取装置,包括:

获取及匹配模块,其设置为获取目标输入文本,并将所述目标输入文本与预设关键词库进行匹配;

候选关键词获取模块,其设置为根据匹配结果获取所述目标输入文本的若干候选关键词,并根据所述若干候选关键词和所述目标输入文本,构建所述目标输入文本对应的所有文本句式及其对应的候选关键词组合;

相似度处理模块,其设置为分别获取所述所有文本句式与所述目标输入文本之间的相似度,并将相似度大于预设阈值的文本句式确定为候选文本句式;

关键词生成模块,其设置为在所述候选文本句式存在多个的情况下,将所述候选文本句式对应的关键词组合输入至概率分析模型中,基于所述概率分析模型获取所述候选文本句式对应的关键词组合的组合概率,并将组合概率最大对应的关键词组合确定为所述目标输入文本的关键词组合。

根据本申请的又一方面,提供一种电子设备,包括:存储器,处理器;

所述存储器存储计算机执行指令;

其中,当执行所述存储器中的指令时,所述处理器被配置为实现所述的文本关键词提取方法。

根据本申请的再一方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现所述的文本关键词提取方法。

本申请提供的文本关键词提取方法、装置、设备及介质,通过对目标输入文本进行关键词匹配,并构建目标输入文本对应的所有文本句式及其对应的候选关键词组合,同时引入语义相似度参数,计算所有文本句式和目标输入文本之间的相似度,根据各文本句式的相似度结果确定候选文本句式,并在概率分析模型中对候选文本句式对应的关键词组合进行分析及确定,以提取出最终的关键词组合,此过程中,一方面,保证了关键词提取准确率,另一方面,大大降低了运算量,有效提升了关键词的提取效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。

图1为本申请实施例提供的一种可能的场景示意图;

图2为本申请实施例提供的一种关键词提取方法的流程示意图;

图3为图2中步骤S201的流程示意图;

图4a为图2中步骤S203一示例的相似度线性示意图;

图4b为图2中步骤S203另一示例的相似度非线性示意图;

图5为本申请实施例提供的另一种关键词提取方法的流程示意图;

图6为本申请实施例提供的一种关键词提取装置的结构示意图;

图7为本申请实施例提供的一种电子设备的结构示意图。

通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

相关技术中,主要通过最大匹配算法和基于模版匹配的方法来提取文本关键词,其中最大匹配算法通常用于中文分词系统,其包括正向最大匹配和逆向最大匹配,以正向最大匹配为例,其是从左到右将待分词文本中的几个连续字符与关键词库的词表匹配,如果匹配上,则切分出一个长度最大的词;基于模版匹配的方法则是预先设计一些常用的模版,例如“我想看[actor]的[film]”。若用户的文本串为“我想看ABC的DE”,通过模版匹配就可以提取出关键词“ABC”和“DE”,然后再到相应的关键词库检查是否含有该关键词,如果有则返回结果。其中,最大匹配算法的优点是速度快,但是其关键词提取结果准确率不高,例如无法区分同名的关键词;而在基于模版匹配的方法中,用户的说法通常千奇百怪,要想达到比较好的效果,每个场景可能需要几十万的模版,这样不仅导致速度慢,而且一旦用户的询问模式不在模版中,那么将没有关键词能够被提取出来。

针对上述技术问题,本申请实施例提供了一种关键词提取方法、装置设备及介质,通过对目标输入文本进行关键词匹配,并构建所述目标输入文本对应的所有文本句式及其对应的候选关键词组合,同时引入语义相似度参数,计算所有文本句式和目标输入文本之间的相似度,当对应文本句式的相似度达到计算阈值时,在概率分析模型中对关键词组合进行分析及确定,并提取出最终的关键词组合,此过程中,一方面,保证了关键词提取准确率,另一方面,大大降低了运算量,有效提升了关键词的提取效率。

为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请的实施例中的附图,对本申请实施例中的技术方案进行更加详细的描述。在附图中,自始至终相同或类似的标号表示相同或类似的部件或具有相同或类似功能的部件。所描述的实施例是本申请一部分实施例,而不是全部的实施例。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

图1为本申请实施例提供的一种可能的场景示意图,如图1所示,包括用户终端110和服务器120,用户终端110和服务器120之间通过有线或者无线网络相互连接。可选地,用户可以通过用户终端101与服务器进行智能交互,用户终端获取用户输入的目标输入文本,或者是将用户输入的语音识别为目标输入文本,然后对目标输入文本中的关键词进行提取,为用户提供对应的智能服务,例如根据提取的关键词组合为用户播放相关电影,或者为用户提供对应的商品服务等。在一些实施例中,提取目标输入文本中的关键词,还可以为用户终端110获取对应的目标输入文本后传输至服务器120后在服务器120中进行。本实施例中,在提取关键词时,可以利用概率分析模型分析及确定,该概率分析模型可以由服务器120训练,并传输至用户终端110的,也可以是由服务器120提供对应的训练数据,由用户终端110训练得到。另一方面,该概率分析模型也可以是由用户终端110训练生成后,发送至服务器120,并由服务器120分发至其他的终端设备执行。

其中,用户终端110可以包括但不限于,电脑、智能手机、平板电脑、电子书阅读器、动态影像专家压缩标准音频层面3(Moving Picture experts group audio layer III,简称MP3)播放器、动态影像专家压缩标准音频层面4(Moving Picture experts group audiolayer IV,简称MP4)播放器、便携计算机、车载电脑、可穿戴设备、台式计算机、机顶盒、智能电视等等。

服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

可选地,上述用户终端110或服务器120的数量可以更多或更少,本申请实施例对此不加以限定。在一些实施例中,上述用户终端110和服务器120还可以作为区块链系统中的节点,将关键词提取过程及结果同步给区块链其它节点,以实现关键词数据的广泛应用。

需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。

上面对本申请的场景示意图进行了简单说明,下面以应用于图1中的用户终端110为例,来详细说明本申请实施例提供的文本关键词提取方法。

请参照图2,图2为本申请实施例提供的一种文本关键词提取方法的流程示意图,该方法包括步骤S201-S204。

步骤S201、获取目标输入文本,并将所述目标输入文本与预设关键词库进行匹配。

本实施例中,获取目标输入文本即对待提取关键词的文本,文本获取可以从其他形式的输入,包括流、文件、数据库或语音识别等得到一条待分析的文本。以智能手机为例,用户向智能手机发出一段语音数据,例如“我想看ABC的ZL”,智能手机识别该语音数据对应的目标输入文本,在其它实施方式中,用户可以向智能手机直接输入对应的目标输入文本,智能手机对该目标输入文本进行关键词提取。

可以理解的,预设关键词库中存储了大量关键词,这些关键词可以根据海量的历史智能交互数据提炼、生成及存储,在实际应用中,可以根据不同的智能交互场景,划分多个关键词库,例如影音观看场景、导购场景等,在对应的智能场景下,用户输入目标输入文本,基于对应的关键词库与目标输入文本进行匹配,匹配出所述目标输入文本对应的候选关键词,以提高关键词的提取效率。

在一种实施方式中,考虑到在对文本和关键词库进行匹配时,文本长度通常比关键词长很多,且文本中可能出现大小写字母等形式,导致关键词匹配效率较低,且容易导致匹配误差等,为了提高关键词匹配效率及准确率,本实施例首先对目标输入文本进行处理和分词,然后根据分词结果与关键词库进行匹配。具体地,如图3所示,步骤S201将所述目标输入文本与预设关键词库进行匹配,可以包括以下步骤:

步骤S201a、对所述目标输入文本中的字母词汇进行大小写之间的统一,和/或对所述目标输入文本中的相同词汇进行标注;

步骤S201b、将经过大小写统一或者标注的目标输入文本进行分词,并根据分词结果与预设关键词库进行匹配。

具体地,对目标输入文本中的字母词汇进行大小写统一,例如在文本中出现大小写词汇时,将所有大小写词汇全部转为大写词汇或者全部转为小写词汇。对相同词汇进行标注,可以仅对标注相同的多个词汇进行一次匹配,以提高关键词匹配效率。

在一可实现中,对目标输入文本可以结合模板匹配方法进行分词,例如,目标输入文本为“我想看ABC的DE”,其中“我想看XXX的XX”为模板句式,进一步对除了模板句式之外的其他词汇“ABC”和“DE”进行分词,然后根据分词结果和关键词库进行匹配,可以有效提高关键词匹配效率。

步骤S202、根据匹配结果获取所述目标输入文本的若干候选关键词,并根据所述若干候选关键词和所述目标输入文本,构建所述目标输入文本对应的所有文本句式及其对应的候选关键词组合。

示例性的,待提取文本为“我想看ABC的ZL”,演员实体为{“AB”,“ABC”},电影电视剧实体库为{“ZL”},其中,A、B、C、Z、L分别表示一个具体的字或者字符。那么,针对待提取文本为“我想看ABC的ZLX”,根据演员实体库{“AB”,“ABC”}和电影电视剧实体库{“ZL”,“ZLX”},匹配出的该待提取文本关键词则为:AB、ABC、ZL、ZLX,进而确定出的可能的文本句式包括:我想看ABC的ZLX、我想看[actor]C的ZLX、我想看[actor]的ZLX、我想看[actor]C的[film]、我想看[actor]的[file]等。其中文本句式及对应关键词组合如下表1所示:

表1

可以理解的是,表中空值部分表示关键词固定,没有其他的组合方式。

步骤S203、分别获取所述所有文本句式与所述目标输入文本之间的相似度,并将相似度大于预设阈值的文本句式确定为候选文本句式。

相关技术中,为了提高关键词提取准确率,在对目标输入文本进行关键词匹配后,将匹配关键词输入至对应的网络模型中来确定最终的关键词组合,但由于匹配出的关键词通常较多,并且在目标输入文本长度较长时,如果不对匹配关键词进行处理就全部输入到网络模型中,其输入数据集较大,系统运算量较大,无法保障关键词计算提取的效率。

本实施例中,在获取所有文本句式及对应的候选关键词组合后,首先计算所有文本句式与目标输入文本之间的相似度,并将该相似度与预设阈值进行比对,将相似度大于预设阈值的文本句式确定为候选文本句式,并将候选文本句式对应的关键词组合输入至概率分析模型中以提取关键词。

需要说明的是,本领域技术人员可以结合实际应用和现有技术对预设阈值进行适应性设定。在一些实施例中,如果所有文本句式的相似度结果均没有大于预设阈值,可以选择相似度最大的一个或多个文本句式确定为候选文本句式。

在一种更为具体的实施方式中,通过计算文本之间的编辑距离来获取相似度结果,具体地,步骤S203分别获取所述所有文本句式与所述目标输入文本之间的相似度,可以包括以下步骤:

分别确定所述所有文本句式与所述目标输入文本之间的编辑距离,并基于所述编辑距离获取所述所有文本句式与所述目标输入文本之间的相似度。

本实施例中,文本句式与目标输入文本之间的编辑距离指的是将文本句式转变为目标输入文本需要进行编辑处理的次数,如果需要进行操作的次数越多,编辑距离越长。

进一步地,分别确定所述所有文本句式与所述目标输入文本之间的编辑距离,具体为以下步骤:分别基于所述所有文本句式中各个词汇与所述目标输入文本中对应词汇之间的编辑处理次数确定所述文本句式与所述目标输入文本之间的编辑距离;

其中,所述编辑处理至少包括以下处理方式之一:词汇增加、词汇删除或者词汇替换。

在一可实现中,以编辑处理包括词汇增加、词汇删除和词汇替换为例,在其它实施例中编辑处理可以为上述方式之一,或者除了上述方式之外还可以包括其他处理方式。继续目标输入文本“我想看ABC的ZLX”为例,其长度为10,其编辑处理次数以及对应的相似度以如下表2所示:

表2

如上表2所示,文本相似度的阈值如果设置0.8,则概率分析模型输入的数据集大小为5;如果阈值设置为0.9,则概率分析模型输入的数据集大小为3。通过文本句式相似度的计算,大大降低了关键词概率分析模型的数据集规模,有效降低了运算量,并提升了文本关键词提取效率。

需要说明的是,本实施例中的修改次数n与编辑距离的值相匹配,例如,编辑处理次数和编辑距离可以是相同的,例如编辑处理次数为0,编辑距离业为0,也可以按照比例计算。

在一种实施方式中,除了考虑文本间的编辑距离之外,为了提高相似度计算效率,本实施例还考虑了文本的词汇长度,所述方法还可以包括以下步骤:

分别获取所述所有文本句式中各个词汇与所述目标输入文本中对应词汇的词汇长度;

所述基于所述编辑距离获取所述所有文本句式与所述目标输入文本之间的相似度,包括:

基于所述编辑距离和所述词汇长度获取所述所有文本句式与所述目标输入文本之间的相似度。

在一可实现中,结合模板匹配方法匹配的关键词,可以仅对文本句式中除了模板之外的其他词汇与目标输入文本中除了模板之外的对应词汇进行词汇长度的计算。可以理解的,词汇长度可以对应于词汇字数。

在一示例中,基于所述编辑距离和所述词汇长度获取所述所有文本句式与所述目标输入文本之间的相似度,可以根据以下公式计算获得:s=1-n/L,s表示相似度,n表示编辑距离(对应编辑处理次数,例如增加一个字符,删除一个字符和替换一个字符,每一次操作累加一次),L表示词汇长度(在文本句式和目标输入文本之间取最大值)之和。

在另一示例中,考虑实际应用场景中,相似度s和编辑距离n通常并非线性递减关系,而随着n变大,相似度s快速变小,属于非线性关系,为进一步提高相似度的准确性,替代上述示例中相似度的计算方式,采用如下公式进行计算:s=(1/e

步骤S204、在所述候选文本句式存在多个的情况下,将所述候选文本句式对应的关键词组合输入至概率分析模型中,基于所述概率分析模型获取所述候选文本句式对应的关键词组合的组合概率,并将组合概率最大对应的关键词组合确定为所述目标输入文本的关键词组合。

在一可实现中,如果在上述步骤S203中计算文本相似度环节,符合要求的文本语句为一个的情况下,可以直接将该文本语句对应的关键词组合确定为该目标输入文本的关键词组合,无需再输入至模型中进行训练分析。

本实施例中,概率分析模型可以在用户终端中训练获得,也可以有服务器训练并传输至用户终端中进行应用,本实施例对此不作具体限定。

相较于相关技术,本实施例通过对目标输入文本进行关键词匹配,并构建所述目标输入文本对应的所有文本句式及其对应的候选关键词组合,通过计算所有文本句式和目标输入文本之间的相似度,当对应文本句式的相似度达到计算阈值时,在概率分析模型中对关键词组合进行分析及确定,并提取出最终的关键词组合,此过程中,一方面,保证了关键词提取准确率,另一方面,大大降低了运算量,有效提升了关键词的提取效率。

请参照图5,图5为本申请实施例提供的另一种文本关键词提取方法的流程示意图,在上述实施例的基础上,本实施例为进一步提高目标输入文本的关键词提取准确率,利用样本文本数据训练出概率分析模型,具体地,在步骤S204将所述候选文本句式对应的关键词组合输入至概率分析模型中之前,还包括:

步骤S501、获取样本文本数据,所述样本文本数据包括句式规则模板以及各领域的语料文本;

步骤S502、从所述样本文本数据中依次提取一个当前待训练文本,所述当前待训练文本为句式规则模板或者语料文本,并输入初始概率分析模型中进行训练,得到训练后的概率分析模型;

步骤S503、在所述样本文本数据中的各句式规则模板或者各领域的语料文本全部提取和输入完毕后,输出所述概率分析模型。

本实施例中,待样本文本数据可以通过爬虫爬取的方式获取,在使用待样本文本数据进行训练时,不区分待训练文本是句式规则模板还是各领域的语料文本,在每一次训练的过程中,随机选取一次即可,基于上述方式获取的概率分析模型可以有效提高分析准确率。

进一步地,所述初始概率分析模型采用卷积长短期记忆神经网络CNN-LSTM模型。

本实施例中的概率分析模型采用CNN-LSTM模型,该模型结合卷积神经网络(convolutional neural network,简称CNN)和长短时记(long short-termmemory,简称LSTM)模型,可以理解的,LSTM模型为时间循环神经网络的一种,其在传统的循环神经网络基础上引入输入门、遗忘门、输入门,解决了循环神经网络网络存在的长期依赖问题,可有效应用时间序列的预测当地感知和CNN的权值共享以大大减少网络的数量,从而提高了模型学习的效率。

本申请实施例相应还提供一种文本关键词提取装置,如图6所示,包括获取及匹配模块61、候选关键词获取模块62、相似度处理模块63及关键词生成模块61,其中,

获取及匹配模块61,其设置为获取目标输入文本,并将所述目标输入文本与预设关键词库进行匹配;

候选关键词获取模块62,其设置为根据匹配结果获取所述目标输入文本的若干候选关键词,并根据所述若干候选关键词和所述目标输入文本,构建所述目标输入文本对应的所有文本句式及其对应的候选关键词组合;

相似度处理模块63,其设置为分别获取所述所有文本句式与所述目标输入文本之间的相似度,并将相似度大于预设阈值的文本句式确定为候选文本句式;

关键词生成模块64,其设置为在所述候选文本句式存在多个的情况下,将所述候选文本句式对应的关键词组合输入至概率分析模型中,基于所述概率分析模型获取所述候选文本句式对应的关键词组合的组合概率,并将组合概率最大对应的关键词组合确定为所述目标输入文本的关键词组合。

在一种实施方式中,所述获取及匹配模块61包括:

预处理单元,其设置为对所述目标输入文本中的字母词汇进行大小写之间的统一,和/或对所述目标输入文本中的相同词汇进行标注;

分词单元,其设置为将经过大小写统一或者标注的目标输入文本进行分词,并根据分词结果与预设关键词库进行匹配。

在一种实施方式中,所述相似度处理模块63包括:

距离确定单元,其设置为分别确定所述所有文本句式与所述目标输入文本之间的编辑距离;

相似度获取单元,其设置为基于所述编辑距离获取所述所有文本句式与所述目标输入文本之间的相似度。

在一种实施方式中,所述距离确定单元具体设置为分别基于所述所有文本句式中各个词汇与所述目标输入文本中对应词汇之间的编辑处理次数确定所述文本句式与所述目标输入文本之间的编辑距离;

其中,所述编辑处理至少包括以下处理方式之一:词汇增加、词汇删除或者词汇替换。

在一种实施方式中,所述装置还包括:

词汇长度获取模块,其设置为分别获取所述所有文本句式中各个词汇与所述目标输入文本中对应词汇的词汇长度;

所述相似度获取单元具体设置为,基于所述编辑距离和所述词汇长度获取所述所有文本句式与所述目标输入文本之间的相似度。

在一种实施方式中,所述装置还包括:

样本获取模块,其设置为获取样本文本数据,所述样本文本数据包括句式规则模板以及各领域的语料文本;

模型训练模块,其设置为从所述样本文本数据中依次提取一个当前待训练文本,所述当前待训练文本为句式规则模板或者语料文本,并输入初始概率分析模型中进行训练,得到训练后的概率分析模型;

模型输出模块,其设置为在所述样本文本数据中的各句式规则模板或者各领域的语料文本全部提取和输入完毕后,输出所述概率分析模型。

在一种实施方式中,所述初始概率分析模型采用卷积长短期记忆神经网络CNN-LSTM模型。

本申请实施例相应还提供一种电子设备,如图7所示,包括:存储器71,处理器72;

所述存储器71存储计算机执行指令;

其中,当执行所述存储器71中的指令时,所述处理器72被配置为实现所述的文本关键词提取方法。

本申请实施例相应还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现所述的文本关键词提取方法。

本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。

如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。

此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

在本申请实施例的描述中,术语“和/或”仅仅表示一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,术语“至少一种”表示多种中的任一种或多种中的至少两种的任意组合,例如,包括A、B、中的至少一种,可以表示包括A、B和C沟通的集合中选择的任意一个或多个元素。此外,术语“多个”的含义是两个或两个以上,除非是另有精确具体地规定。

在本申请实施例的描述中,术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

技术分类

06120115930445