掌桥专利:专业的专利平台
掌桥专利
首页

文本处理方法、装置、计算机设备及存储介质

文献发布时间:2023-06-19 10:38:35


文本处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及数据处理领域,特别是涉及一种文本处理方法、装置、计算机设备及存储介质。

背景技术

随着互联网技术的发展,搜索推荐已经被应用于各个场景中,比如应用在常见问答(Frequently Asked Questions,FAQ)系统中,FAQ系统中预先构建有问句数据库,当FAQ系统接收到用户所输入的目标问句时,FAQ系统可以根据该目标问句向用户展示出多个相似问句对用户进行推荐。

现有技术中,通常是根据用户输入的目标问句作为相似问句的前缀进行搜索推荐。

然而,通过根据用户输入的目标问句作为相似问句的前缀进行搜索推荐所得到的多个相似问句与目标问句的语义可能不同。

发明内容

基于此,本申请实施例提供了一种文本处理方法、装置、计算机设备及存储介质,可以提高用户输入的目标问句与问句数据库中相似问句的语义匹配程度。

一种文本处理方法,所述方法包括:基于用户输入的目标问句查询问句数据库,通过查询确定至少一个目标问句对应关系,所述问句数据库包括多个问句对应关系,各所述问句对应关系包括索引、标准问句以及相似问句,所述索引包括所述标准问句中的关键词,所述相似问句与所述标准问句的相似程度大于第一相似阈值,所述目标问句对应关系的索引包括的关键词与所述目标问句相匹配;从所述至少一个目标问句对应关系包括的相似问句中确定与所述目标问句匹配的目标相似问句,并输出所述目标相似问句。

在一些实施例中,所述基于用户输入的目标问句查询问句数据库,通过查询确定至少一个目标问句对应关系,包括:对所述目标问句进行分词处理,得到多个词语;根据所述多个词语查询所述问句数据库,通过查询确定目标索引,所述目标索引包括的关键词与所述多个词语中的至少一个词语的相似度大于第二相似度阈值;将所述目标索引所在的问句对应关系作为所述目标问句对应关系。

在一些实施例中,从所述至少一个目标问句对应关系包括的相似问句中确定与所述目标问句匹配的目标相似问句,包括:确定所述目标问句与所述至少一个目标问句对应关系包括的各个相似问句的相似程度;将相似程度最高的相似问句作为所述目标相似问句。

在一些实施例中,所述基于用户输入的目标问句查询问句数据库之前,所述方法还包括:从历史问句数据集中获取标准问句和相似问句的对应关系;将所述标准问句进行分词,将分词后得到的多个词语建立为索引;根据所述索引、所述标准问句以及所述相似问句建立所述问句数据库。

在一些实施例中,所述历史问句数据集包括目标时刻之前存储于本地数据库中的历史标准问句和历史相似问句的对应关系,以及,所述目标时刻之后根据用户的输入以及对用户的响应而获取的新增标准问句和新增相似问句的对应关系。

在一些实施例中,所述从历史问句数据集中获取标准问句和相似问句的对应关系,包括:将所述历史问句数据集中的所述标准问句和所述相似问句的对应关系格式化成JSON格式。

在一些实施例中,所述基于用户输入的目标问句查询问句数据库,包括:基于所述用户输入的语音问句查询所述问句数据库;和/或基于所述用户输入的文本问句查询所述问句数据库。

一种文本处理装置,所述装置包括:查询模块,用于基于用户输入的目标问句查询问句数据库,通过查询确定至少一个目标问句对应关系,所述问句数据库包括多个问句对应关系,各所述问句对应关系包括索引、标准问句以及相似问句,所述索引包括所述标准问句中的关键词,所述相似问句与所述标准问句的相似程度大于第一相似阈值,所述目标问句对应关系的索引包括的关键词与所述目标问句相匹配;确定模块,用于从所述至少一个目标问句对应关系包括的相似问句中确定与所述目标问句匹配的目标相似问句;输出模块,用于输出所述目标相似问句。

在一些实施例中,所述查询模块具体用于:对所述目标问句进行分词处理,得到多个词语;根据所述多个词语查询所述问句数据库,通过查询确定目标索引,所述目标索引包括的关键词与所述多个词语中的至少一个词语的相似度大于第二相似度阈值;将所述目标索引所在的问句对应关系作为所述目标问句对应关系。

在一些实施例中,所述确定模块具体用于:确定所述目标问句与所述至少一个目标问句对应关系包括的各个相似问句的相似程度;将相似程度最高的相似问句作为所述目标相似问句。

在一些实施例中,所述文本处理装置还包括:获取模块,用于从历史问句数据集中获取标准问句和相似问句的对应关系;将所述标准问句进行分词,将分词后得到的多个词语建立为索引;根据所述索引、所述标准问句以及所述相似问句建立所述问句数据库。

在一些实施例中,所述历史问句数据集包括目标时刻之前存储于本地数据库中的历史标准问句和历史相似问句的对应关系,以及,所述目标时刻之后根据用户的输入以及对用户的响应而获取的新增标准问句和新增相似问句的对应关系。

在一些实施例中,所述获取模块具体用于:将所述历史问句数据集中的所述标准问句和所述相似问句的对应关系格式化成JSON格式。

在一些实施例中,所述查询模块具体用于:基于所述用户输入的语音问句查询所述问句数据库;和/或基于所述用户输入的文本问句查询所述问句数据库。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:基于用户输入的目标问句查询问句数据库,通过查询确定至少一个目标问句对应关系,所述问句数据库包括多个问句对应关系,各所述问句对应关系包括索引、标准问句以及相似问句,所述索引包括所述标准问句中的关键词,所述相似问句与所述标准问句的相似程度大于第一相似阈值,所述目标问句对应关系的索引包括的关键词与所述目标问句相匹配;从所述至少一个目标问句对应关系包括的相似问句中确定与所述目标问句匹配的目标相似问句,并输出所述目标相似问句。

在一些实施例中,所述基于用户输入的目标问句查询问句数据库,通过查询确定至少一个目标问句对应关系,包括:对所述目标问句进行分词处理,得到多个词语;根据所述多个词语查询所述问句数据库,通过查询确定目标索引,所述目标索引包括的关键词与所述多个词语中的至少一个词语的相似度大于第二相似度阈值;将所述目标索引所在的问句对应关系作为所述目标问句对应关系。

在一些实施例中,从所述至少一个目标问句对应关系包括的相似问句中确定与所述目标问句匹配的目标相似问句,包括:确定所述目标问句与所述至少一个目标问句对应关系包括的各个相似问句的相似程度;将相似程度最高的相似问句作为所述目标相似问句。

在一些实施例中,所述基于用户输入的目标问句查询问句数据库之前,所述方法还包括:从历史问句数据集中获取标准问句和相似问句的对应关系;将所述标准问句进行分词,将分词后得到的多个词语建立为索引;根据所述索引、所述标准问句以及所述相似问句建立所述问句数据库。

在一些实施例中,所述历史问句数据集包括目标时刻之前存储于本地数据库中的历史标准问句和历史相似问句的对应关系,以及,所述目标时刻之后根据用户的输入以及对用户的响应而获取的新增标准问句和新增相似问句的对应关系。

在一些实施例中,所述从历史问句数据集中获取标准问句和相似问句的对应关系,包括:将所述历史问句数据集中的所述标准问句和所述相似问句的对应关系格式化成JSON格式。

在一些实施例中,所述基于用户输入的目标问句查询问句数据库,包括:基于所述用户输入的语音问句查询所述问句数据库;和/或基于所述用户输入的文本问句查询所述问句数据库。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:基于用户输入的目标问句查询问句数据库,通过查询确定至少一个目标问句对应关系,所述问句数据库包括多个问句对应关系,各所述问句对应关系包括索引、标准问句以及相似问句,所述索引包括所述标准问句中的关键词,所述相似问句与所述标准问句的相似程度大于第一相似阈值,所述目标问句对应关系的索引包括的关键词与所述目标问句相匹配;从所述至少一个目标问句对应关系包括的相似问句中确定与所述目标问句匹配的目标相似问句,并输出所述目标相似问句。

在一些实施例中,所述基于用户输入的目标问句查询问句数据库,通过查询确定至少一个目标问句对应关系,包括:对所述目标问句进行分词处理,得到多个词语;根据所述多个词语查询所述问句数据库,通过查询确定目标索引,所述目标索引包括的关键词与所述多个词语中的至少一个词语的相似度大于第二相似度阈值;将所述目标索引所在的问句对应关系作为所述目标问句对应关系。

在一些实施例中,从所述至少一个目标问句对应关系包括的相似问句中确定与所述目标问句匹配的目标相似问句,包括:确定所述目标问句与所述至少一个目标问句对应关系包括的各个相似问句的相似程度;将相似程度最高的相似问句作为所述目标相似问句。

在一些实施例中,所述基于用户输入的目标问句查询问句数据库之前,所述方法还包括:从历史问句数据集中获取标准问句和相似问句的对应关系;将所述标准问句进行分词,将分词后得到的多个词语建立为索引;根据所述索引、所述标准问句以及所述相似问句建立所述问句数据库。

在一些实施例中,所述历史问句数据集包括目标时刻之前存储于本地数据库中的历史标准问句和历史相似问句的对应关系,以及,所述目标时刻之后根据用户的输入以及对用户的响应而获取的新增标准问句和新增相似问句的对应关系。

在一些实施例中,所述从历史问句数据集中获取标准问句和相似问句的对应关系,包括:将所述历史问句数据集中的所述标准问句和所述相似问句的对应关系格式化成JSON格式。

在一些实施例中,所述基于用户输入的目标问句查询问句数据库,包括:基于所述用户输入的语音问句查询所述问句数据库;和/或基于所述用户输入的文本问句查询所述问句数据库。

上述文本处理方法、装置、计算机设备及存储介质,服务器首先基于用户输入的目标问句查询问句数据库,服务器通过查询确定与目标问句相匹配的索引,由于索引包括了标准问句中的关键词,从而确定了与目标问句相匹配的标准问句,并进一步根据确定的标准问句确定该标准问句对应的相似问句,最后根据对应的相似问句确定与目标问句匹配的目标相似问句,并输出该目标相似问句。相比于现有技术中根据用户输入的目标问句作为相似问句的前缀进行搜索推荐而言,本申请实施例所提供的技术方案将用户所输出的目标问句首先与标准问句进行匹配,并确定匹配成功的标准问句的多个相似问句,再根据多个相似问句与目标问句进行匹配,最终得到与目标问句最接近的相似问句,由于,目标问句需要先与标准问句匹配成功后再与相似问句再进行匹配,提高了用户输入的目标问句与问句数据库中相似问句的语义匹配程度。

附图说明

图1为一些实施例中文本处理方法的应用环境图;

图2为一些实施例中文本处理方法的流程示意图;

图3为一些实施例中文本处理方法的流程示意图;

图4为一些实施例中文本处理方法的流程示意图;

图5为一些实施例中文本处理装置的结构框图;

图6为一些实施例中文本处理装置的结构框图;

图7为一些实施例中计算机设备的内部结构图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

随着互联网技术的发展,搜索推荐已经被应用于各个场景中,比如应用在常见问答(Frequently Asked Questions,FAQ)系统中,FAQ系统中预先构建有问句数据库,当FAQ系统接收到用户所输入的目标问句时,FAQ系统可以根据该目标问句向用户展示出多个相似问句对用户进行推荐。

现有技术中,通常是根据用户输入的目标问句作为相似问句的前缀进行搜索推荐。

然而,通过根据用户输入的目标问句作为相似问句的前缀进行搜索推荐所得到的多个相似问句与目标问句的语义可能不同。

有鉴于此,本申请实施例提供了一种文本处理方法、装置、计算机设备及存储介质,可以提高用户所提出的问题与问句数据库中相似问句的语义匹配程度。

下面,将对本申请实施例提供的文本处理方法所涉及到的实施环境进行说明。

图1为本申请实施例提供的文本处理方法所涉及到的实施环境的示意图。如图1所示,该实施环境可以包括终端101和服务器102,其中,终端101通过网络与服务器102进行通信。终端101通过网络输入目标问句至服务器102,服务器102通过执行本申请实施例提供的问句推荐数据方法输出该目标问句对应的目标相似问句反馈给终端101。其中,终端101可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器102可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

请参考图2,其示出了本申请实施例提供的一种文本处理方法的流程图,该文本处理方法可以应用于上文所述实施环境中的服务器102中。如图2所示,该文本处理方法可以包括以下步骤:

步骤201、服务器基于用户输入的目标问句查询问句数据库,通过查询确定至少一个目标问句对应关系。

其中,问句数据库包括多个问句对应关系,各问句对应关系包括索引、标准问句以及相似问句,索引包括标准问句中的关键词,相似问句与标准问句的相似程度大于第一相似阈值。

在本申请实施例中,标准问句可以是FAQ系统中最书面的问句,例如“行李超重如何收费”。

相似问句可以是标准问句口语化的问句,相似问句与标准问句的相似程度大于第一相似阈值,其中第一相似阈值可以是指相似问句中的关键词与标准问句之间关键词数量接近,且为近义词。一个标准问句对应至少一个相似问句,例如当标准问句为“行李超重如何收费”,该标准问句的相似问句可以包括“行李超重怎么收钱”“行李超重了要怎么收钱呢”“行李超重要怎么收钱啊”等等。

索引包括标准问句中的各个关键词,可以通过分词得到,例如当标准问句为“行李超重如何收费”,索引可以为“行李”“超重”“收费”。

综上,本申请实施例中的一个问句对应关系可以是:

索引:“行李”“超重”“收费”;

标准问句:“行李超重如何收费”;

相似问句:“行李超重怎么收钱”“行李超重了要怎么收钱呢”“行李超重要怎么收钱啊”“托运行李超重怎么收钱”……。

服务器通过建立包括了索引、标准问句以及相似问句的问句对应关系,用户输入目标问句后,通过索引包括的关键词与目标问句相匹配,从而确定目标问句对应关系。其中,目标问句对应关系的索引包括的关键词与目标问句相匹配。

在本申请一个可选的实施例中,目标问句可以为语音问句,也可以为文本问句。

在目标问句为语音问句时,服务器可以对输入的语音问句识别为文本问句,并对于该文本问句查询问句数据库。例如,用户可以通过电话等语音方式通过终端向服务器发起询问,服务器在接收到终端发送的语音问句后通过语音识别技术将终端的语音问句转换为文本问句,而后,基于转换得到的文本问句查询问句数据库。

在目标问句为文本问句时,例如,用户可以通过终端向服务器发送文本问句,服务器在接收到终端发送的文本问句查询问句数据库。

例如,当用户输入的目标问句为:“托运行李超重怎么收钱”,通过索引“行李”“超重”“收费”符合目标问句中关键词,所以将“托运行李超重怎么收钱”与上述问句对应关系进行匹配。

步骤202、服务器从至少一个目标问句对应关系包括的相似问句中确定与目标问句匹配的目标相似问句,并输出该目标相似问句。

在本申请实施例中,每一个目标问句可以匹配多个目标问句对应关系,例如用户输入的目标问句为:“托运行李超重怎么收钱”,可以得到的目标问句对应关系可以包括:

(1)索引:“行李”“超重”“收费”;

标准问句:“行李超重如何收费”;

相似问句:“行李超重怎么收钱”“行李超重了要怎么收钱呢”“行李超重要怎么收钱啊”“托运行李超重如何收钱”……。

(2)索引:“托运”“行李”“收费”;

标准问句:“托运行李如何收费”;

相似问句:“托运行李怎么收钱”“托运行李要怎么收钱呢”“托运行李要怎么收钱啊”……。

可以看出,当目标问句为“托运行李超重如何收钱”所匹配到的标准问句至少包括了“行李超重如何收费”和“托运行李如何收费”。

从上述两个目标问句对应关系包括的相似问句中确定与目标问句“托运行李超重怎么收钱”匹配的目标相似问句,可以看出,与目标问句最为匹配的目标相似问句是“托运行李超重如何收钱”。

在本申请一个可选的实施例中,服务器可以确定目标问句与至少一个目标问句对应关系包括的各个相似问句的相似程度,并将相似程度最高的相似问句作为目标相似问句。

其中,确定目标问句与各个相似问句的相似程度可以通过目标问句与各个相似问句中的关键词匹配程度进行判断,例如,在上述目标问句“托运行李超重怎么收钱”中,关键词包括了“托运”“行李”“超重”“收钱”相似问句1“托运行李超重如何收钱”的关键词包括了“托运”“行李”“超重”“收钱”,而相似问句2“托运行李要怎么收钱呢”的关键词包括了“托运”“行李”“收钱”,可以看出相比于相似问句2中3个关键词与目标问句匹配,相似问句1中有4个关键词与目标问句匹配,相似问句1的匹配程度更高,将相似问句1作为目标问句最匹配的目标相似问句。

本申请实施例提供的技术方案中,服务器首先基于用户输入的目标问句查询问句数据库,服务器通过查询确定与目标问句相匹配的索引,由于索引包括了标准问句中的关键词,从而确定了与目标问句相匹配的标准问句,并进一步根据确定的标准问句确定该标准问句对应的相似问句,最后根据对应的相似问句确定与目标问句匹配的目标相似问句,并输出该目标相似问句。相比于现有技术中根据用户输入的目标问句作为相似问句的前缀进行搜索推荐而言,本申请实施例所提供的技术方案将用户所输出的目标问句首先与标准问句进行匹配,并确定匹配成功的标准问句的多个相似问句,再根据多个相似问句与目标问句进行匹配,最终得到与目标问句最接近的相似问句,由于,目标问句需要先与标准问句匹配成功后再与相似问句再进行匹配,提高了用户输入的目标问句与问句数据库中相似问句的语义匹配程度。

在本申请的可选实施例中,如图3所示,服务器基于用户输入的目标问句查询问句数据库,通过查询确定至少一个目标问句对应关系的技术过程包括以下步骤:

步骤301、服务器对目标问句进行分词处理,得到多个词语。

在本申请实施例中,对目标问句进行分词处理可以是将目标问句分成多个关键词,例如当目标问句为“行李超重如何收费”,分词后可以得到“行李”“超重”“如何”“收费”,由于“如何”“可以”“怎么”等属于每个问句中常用的词,可以通过设置将这些词语进行屏蔽。

步骤302、服务器根据多个词语查询问句数据库,通过查询确定目标索引。

其中,目标索引包括的关键词与多个词语中的至少一个词语的相似度大于第二相似度阈值,该第二相似度阈值可以通过常用的词义相似度算法进行计算,例如bm25算法。

在本申请实施例中,服务器根据目标问句分词得到的“行李”“超重”“收费”查询问句数据库,确定目标索引,得到的目标索引可以包括“行李”“超重”“收费”和“行李”“超重”“收钱”。

步骤303、服务器将目标索引所在的问句对应关系作为目标问句对应关系。

服务器将目标索引,例如,“行李”“超重”“收费”所在的问句对应关系作为目标问句对应关系,例如:

索引:“行李”“超重”“收费”;

标准问句:“行李超重如何收费”;

相似问句:“行李超重怎么收钱”“行李超重了要怎么收钱呢”“行李超重要怎么收钱啊”“托运行李超重如何收钱”……。

在本申请的可选实施例中,如图4所示,服务器建立问句数据库的技术过程包括以下步骤:

步骤401、服务器从历史问句数据集中获取标准问句和相似问句的对应关系。

其中,历史问句数据集可以是常用FAQ系统中所得到的问句集合,例如Yibot专属智能客服的FAQ系统。

在本申请一个可选的实施例中,历史问句数据集包括目标时刻之前存储于本地数据库中的历史标准问句和历史相似问句的对应关系,以及,目标时刻之后根据用户的输入以及对用户的响应而获取的新增标准问句和新增相似问句的对应关系。

其中,目标时刻之前存储于本地数据库中的历史标准问句和历史相似问句的对应关系可以是在服务器建立问句数据库时,已存在数据库中的历史标准问句和历史相似问句的对应关系。

目标时刻之后根据用户的输入以及对用户的响应而获取的新增标准问句和新增相似问句的对应关系可以是服务器建立问句数据库后,数据库维护人员新输入的历史标准问句和历史相似问句的对应关系。

在本申请一个可选的实施例中将历史问句数据集中的标准问句和相似问句的对应关系格式化成JSON格式。

步骤402、服务器将标准问句进行分词,将分词后得到的多个词语建立为索引。

在本申请实施例中,服务器对得到标准问句进行分词,例如当标准问句为“行李超重如何收费”进行分词后可以得到“行李”“超重”“如何”“收费”同样的,由于“如何”“可以”“怎么”等属于每个问句中常用的词,可以通过设置将这些词语进行屏蔽。

将得到的“行李”“超重”“收费”作为该标准问句的索引。

步骤403、服务器根据索引、标准问句和相似问句建立问句数据库。

在本申请实施例中,服务器将标准问句进行分词,并将分词后得到的多个词语建立为索引,建立了包括索引、标准问句和相似问句为问句对应关系的问句数据库,相比于现有技术中FAQ系统中根据用户输入的目标问句作为相似问句的前缀进行搜索推荐的问句数据库,本申请实施例所提供的问句数据库能够通过索引与用户所提出的问题进行匹配,从而确定问句对应关系,并通过问句对应关系中的相似问句与用户的目标问句进行匹配,可以看出本申请实施例所提供的问句数据库的问句推荐语义匹配程度相比于现有技术的问句推荐语义匹配程度更高。

请参考图5,其示出了本申请实施例提供的一种文本处理装置500的框图,该文本处理装置500可以配置于服务器中。如图5所示,该文本处理装置500可以包括:查询模块501、确定模块502以及输出模块503。

查询模块501,用于基于用户输入的目标问句查询问句数据库,通过查询确定至少一个目标问句对应关系,问句数据库包括多个问句对应关系,各问句对应关系包括索引、标准问句以及相似问句,索引包括标准问句中的关键词,相似问句与标准问句的相似程度大于第一相似阈值,目标问句对应关系的索引包括的关键词与目标问句相匹配;

确定模块502,用于从至少一个目标问句对应关系包括的相似问句中确定与目标问句匹配的目标相似问句;

输出模块503,用于输出目标相似问句。

在本申请的可选实施例中,查询模块501具体用于:对目标问句进行分词处理,得到多个词语;根据多个词语查询问句数据库,通过查询确定目标索引,目标索引包括的关键词与多个词语中的至少一个词语的相似度大于第二相似度阈值;将目标索引所在的问句对应关系作为目标问句对应关系。

在本申请的可选实施例中,确定模块502具体用于:确定目标问句与至少一个目标问句对应关系包括的各个相似问句的相似程度;将相似程度最高的相似问句作为目标相似问句。

请参考图6,本申请实施例还提供了另一种文本处理装置600,该文本处理装置600除了包括文本处理装置500包括的各个模块外,可选的,该文本处理装置600还包括获取模块601、索引建立模块602以及数据库建立模块603。

获取模块601,用于从历史问句数据集中获取标准问句和相似问句的对应关系;

索引建立模块602,用于将标准问句进行分词,将分词后得到的多个词语建立为索引;

数据库建立模块603,用于根据索引、标准问句以及相似问句建立问句数据库。

在本申请的可选实施例中,历史问句数据集包括目标时刻之前存储于本地数据库中的历史标准问句和历史相似问句的对应关系,以及,目标时刻之后根据用户的输入以及对用户的响应而获取的新增标准问句和新增相似问句的对应关系。

在本申请的可选实施例中,获取模块601具体用于:

将历史问句数据集中的标准问句和相似问句的对应关系格式化成JSON格式。

在本申请的可选实施例中,查询模块501具体用于:

基于用户输入的语音问句查询问句数据库;和/或基于用户输入的文本问句查询问句数据库。

关于文本处理装置的具体限定可以参见上文中对于文本处理方法的限定,在此不再赘述。上述文本处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本处理数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本处理方法。

本领域技术人员可以理解,如图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的处理设备的限定,具体的处理设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:

基于用户输入的目标问句查询问句数据库,通过查询确定至少一个目标问句对应关系,问句数据库包括多个问句对应关系,各问句对应关系包括索引、标准问句以及相似问句,索引包括标准问句中的关键词,相似问句与标准问句的相似程度大于第一相似阈值,目标问句对应关系的索引包括的关键词与目标问句相匹配;从至少一个目标问句对应关系包括的相似问句中确定与目标问句匹配的目标相似问句,并输出目标相似问句。

在本申请一个实施例中,处理器执行计算机程序时还实现以下步骤:对目标问句进行分词处理,得到多个词语;根据多个词语查询问句数据库,通过查询确定目标索引,目标索引包括的关键词与多个词语中的至少一个词语的相似度大于第二相似度阈值;将目标索引所在的问句对应关系作为目标问句对应关系。

在本申请一个实施例中,处理器执行计算机程序时还实现以下步骤:确定目标问句与至少一个目标问句对应关系包括的各个相似问句的相似程度;将相似程度最高的相似问句作为目标相似问句。

在本申请一个实施例中,处理器执行计算机程序时还实现以下步骤:从历史问句数据集中获取标准问句和相似问句的对应关系;将标准问句进行分词,将分词后得到的多个词语建立为索引;根据索引、标准问句以及相似问句建立问句数据库。

在本申请一个实施例中,历史问句数据集包括目标时刻之前存储于本地数据库中的历史标准问句和历史相似问句的对应关系,以及,目标时刻之后根据用户的输入以及对用户的响应而获取的新增标准问句和新增相似问句的对应关系。

在本申请一个实施例中,处理器执行计算机程序时还实现以下步骤:将历史问句数据集中的标准问句和相似问句的对应关系格式化成JSON格式。

在本申请一个实施例中,处理器执行计算机程序时还实现以下步骤:基于用户输入的语音问句查询问句数据库;和/或基于用户输入的文本问句查询问句数据库。

在本申请的一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

基于用户输入的目标问句查询问句数据库,通过查询确定至少一个目标问句对应关系,问句数据库包括多个问句对应关系,各问句对应关系包括索引、标准问句以及相似问句,索引包括标准问句中的关键词,相似问句与标准问句的相似程度大于第一相似阈值,目标问句对应关系的索引包括的关键词与目标问句相匹配;从至少一个目标问句对应关系包括的相似问句中确定与目标问句匹配的目标相似问句,并输出目标相似问句。

在本申请的一个实施例中,计算机程序被处理器执行时还实现以下步骤:对目标问句进行分词处理,得到多个词语;根据多个词语查询问句数据库,通过查询确定目标索引,目标索引包括的关键词与多个词语中的至少一个词语的相似度大于第二相似度阈值;将目标索引所在的问句对应关系作为目标问句对应关系。

在本申请的一个实施例中,计算机程序被处理器执行时还实现以下步骤:确定目标问句与至少一个目标问句对应关系包括的各个相似问句的相似程度;将相似程度最高的相似问句作为目标相似问句。

在本申请的一个实施例中,计算机程序被处理器执行时还实现以下步骤:从历史问句数据集中获取标准问句和相似问句的对应关系;将标准问句进行分词,将分词后得到的多个词语建立为索引;根据索引、标准问句以及相似问句建立问句数据库。

在本申请的一个实施例中,历史问句数据集包括目标时刻之前存储于本地数据库中的历史标准问句和历史相似问句的对应关系,以及,目标时刻之后根据用户的输入以及对用户的响应而获取的新增标准问句和新增相似问句的对应关系。

在本申请的一个实施例中,计算机程序被处理器执行时还实现以下步骤:将历史问句数据集中的标准问句和相似问句的对应关系格式化成JSON格式。

在本申请的一个实施例中,计算机程序被处理器执行时还实现以下步骤:基于用户输入的语音问句查询问句数据库;和/或基于用户输入的文本问句查询问句数据库。

本实施例提供的计算机可读存储介质,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以M种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(SyMchliMk)DRAM(SLDRAM)、存储器总线(RaMbus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

相关技术
  • 文本处理方法、文本处理装置、电子设备以及计算机可读存储介质
  • 文本处理方法、装置、计算机设备及计算机可读存储介质
技术分类

06120112623695