掌桥专利:专业的专利平台
掌桥专利
首页

一种语料库生成和调用方法及装置

文献发布时间:2023-06-19 09:43:16


一种语料库生成和调用方法及装置

技术领域

本申请涉及计算机技术领域,具体而言,涉及一种语料库生成和调用方法及装置。

背景技术

目前随着信息化的快速发展,人工智能领域取得了突飞猛进的进步。例如机器人等取得了更明显的进步。为了使得机器人能够适应不同场景以及面对不同类型的用户,机器人里面都会配置语料库,以便于通过该语料库与用户实现交互。

然而,目前的语料库构建都是采用人工标注构建语料库的方法,这需要花费大量的时间和人力,且构建的语料库中的语料精准度明显不够,很容易导致机器人与用户之间的交互出现混乱。

发明内容

本申请提供一种语料库生成和调用方法及装置,旨在改善上述问题。

第一方面,本申请提供的一种语料库生成和调用方法,所述方法包括:从待处理信息库中确定初始语料,生成初始语料向量,并确定所述初始语料向量的向量类型;其中,所述初始语料为所述待处理信息库中评分大于第一阈值的语料;根据所述向量类型和所述初始语料向量,生成第一子语料;采用预设算法对所述待处理信息库中的文本进行分类,并对得到的分类集合中的文本进行筛选,生成第二子语料;其中,所述第二子语料中包括至少一个语料;基于所述第一子语料和所述第二子语料生成目标语料库。

可选地,所述从待处理信息库中确定初始语料,生成初始语料向量,包括:基于预设路径以及访问权限访问待处理信息库,并从所述待处理信息库中确定出初始语料;计算出所述初始语料的分词结果;对所述分词结果进行分析,得到所述分词结果中每一分词对应的词向量;将分词结果中每一分词对应的词向量进行相乘,生成初始语料向量。

在上述实现过程中,通过先利用预设路径以及访问权限来访问待处理信息库,可以使得访问更加安全,确保了待处理信息库的安全,另外还可以避免非法访问,节约了待处理信息库的资源开销;在访问成功后再从该待处理信息库中确定出初始语料;并计算出该初始语料的分词结果;然后对该分词结果进行分析,以得到该分词结果中每一分词对应的词向量;最后通过将分词结果中每一分词对应的词向量进行相乘,以生成初始语料向量,从而可以使得所生成的初始语料向量较为靠近目标语料,以提高语料生成的准确性。

可选地,所述计算出所述初始语料的分词结果,包括:确定所述初始语料是否为全中文;若是,按照语义将所述初始语料进行词分割,得到分词结果;若所述初始语料包括中文和英文,将所述初始语料中的中文语料与英文语料进行分割;对所述中文语料按照中文语义进行切割,以及通过英文语义对所述英文语料进行切割,得到分词结果;若所述初始语料为全英文,通过英文语义对所述英文语料进行切割,得到分词结果;若所述初始语料为数字,确定所述初始语料是否为特定字符串;若是,按照所述特定字符串的定义对所述初始语料进行切割,得到分词结果;若所述初始语料为非特定字符串,将所述初始语料作为分词结果;或,若所述初始语料为非特定字符串,按照预设规则将所述初始语料进行切割,得到分词结果。

可选地,所述特定字符串包括用于表征手机号的第一特定子字符串、用于表征邮编的第二特定子字符串和用于表征区号的第三特定子字符串;所述确定所述初始语料是否为特定字符串,包括:获取所述初始语料的前三位数字;将所述前三位数字分别与所述第一特定子字符串、所述第二特定子字符串和所述第三特定子字符串的前三位数字进行比较;若所述初始语料的前三位数字与所述第一特定子字符串、所述第二特定子字符串和所述第三特定子字符串中任一字符串的前三位数字匹配,则判定所述初始语料为特定字符串;反之,则判定所述初始语料为非特定字符串。

可选地,在所述若所述初始语料的前三位数字与所述第一特定子字符串、所述第二特定子字符串和所述第三特定子字符串中任一字符串的前三位数字匹配之后,所述方法还包括:若所述初始语料的前三位数字与所述第一特定子字符串匹配,判定所述初始语料的数字位数是否为所述第一特定子字符串的位数的整数倍;若是,判定所述初始语料与所述第一特定子字符串匹配,判定所述初始语料为特定字符串;若所述初始语料的数字位数不为所述第一特定子字符串的位数的整数倍,则将所述初始语料的前三位数字与所述第二特定子字符串进行匹配;若所述初始语料的前三位数字与所述第二特定子字符串匹配,判定所述初始语料的数字位数是否为所述第二特定子字符串的位数的整数倍;若是,判定所述初始语料与所述第二特定子字符串匹配,判定所述初始语料为特定字符串;若所述初始语料的前三位数字与所述第二特定子字符串不匹配,则将所述初始语料的前三位数字与所述第三特定子字符串进行匹配;若所述初始语料的前三位数字与所述第三特定子字符串匹配,判定所述初始语料的数字位数是否为所述第三特定子字符串的位数的整数倍;若是,判定所述初始语料与所述第三特定子字符串匹配,判定所述初始语料为特定字符串。

可选地,在所述若所述初始语料的前三位数字与所述第一特定子字符串、所述第二特定子字符串和所述第三特定子字符串中任一字符串的前三位数字匹配之后,所述方法还包括:若所述初始语料的前三位数字与所述第二特定子字符串匹配,判定所述初始语料的数字位数是否为所述第二特定子字符串的位数的整数倍;若是,判定所述初始语料与所述第二特定子字符串匹配,判定所述初始语料为特定字符串;若所述初始语料的数字位数不为所述第二特定子字符串的位数的整数倍,则将所述初始语料的前三位数字与所述第一特定子字符串进行匹配;若所述初始语料的前三位数字与所述第一特定子字符串匹配,判定所述初始语料的数字位数是否为所述第一特定子字符串的位数的整数倍;若是,判定所述初始语料与所述第一特定子字符串匹配,判定所述初始语料为特定字符串;若所述初始语料的前三位数字与所述第一特定子字符串不匹配,则将所述初始语料的前三位数字与所述第三特定子字符串进行匹配;若所述初始语料的前三位数字与所述第三特定子字符串匹配,判定所述初始语料的数字位数是否为所述第三特定子字符串的位数的整数倍;若是,判定所述初始语料与所述第三特定子字符串匹配,判定所述初始语料为特定字符串。

可选地,在所述若所述初始语料的前三位数字与所述第一特定子字符串、所述第二特定子字符串和所述第三特定子字符串中任一字符串的前三位数字匹配之后,所述方法还包括:若所述初始语料的前三位数字与所述第三特定子字符串匹配,判定所述初始语料的数字位数是否为所述第三特定子字符串的位数的整数倍;若是,判定所述初始语料与所述第三特定子字符串匹配,判定所述初始语料为特定字符串;若所述初始语料的数字位数不为所述第三特定子字符串的位数的整数倍,则将所述初始语料的前三位数字与所述第二特定子字符串进行匹配;若所述初始语料的前三位数字与所述第二特定子字符串匹配,判定所述初始语料的数字位数是否为所述第二特定子字符串的位数的整数倍;若是,判定所述初始语料与所述第二特定子字符串匹配,判定所述初始语料为特定字符串;若所述初始语料的前三位数字与所述第二特定子字符串不匹配,则将所述初始语料的前三位数字与所述第一特定子字符串进行匹配;若所述初始语料的前三位数字与所述第一特定子字符串匹配,判定所述初始语料的数字位数是否为所述第一特定子字符串的位数的整数倍;若是,判定所述初始语料与所述第一特定子字符串匹配,判定所述初始语料为特定字符串。

可选地,在所述若所述初始语料的前三位数字与所述第一特定子字符串、所述第二特定子字符串和所述第三特定子字符串中任一字符串的前三位数字匹配之后,所述方法还包括:若所述初始语料的前三位数字与所述第二特定子字符串匹配,判定所述初始语料的数字位数是否为所述第二特定子字符串的位数的整数倍;若是,判定所述初始语料与所述第二特定子字符串匹配,判定所述初始语料为特定字符串;若所述初始语料的数字位数不为所述第二特定子字符串的位数的整数倍,则将所述初始语料的前三位数字与所述第三特定子字符串进行匹配;若所述初始语料的前三位数字与所述第三特定子字符串匹配,判定所述初始语料的数字位数是否为所述第三特定子字符串的位数的整数倍;若是,判定所述初始语料与所述第三特定子字符串匹配,判定所述初始语料为特定字符串;若所述初始语料的前三位数字与所述第三特定子字符串不匹配,则将所述初始语料的前三位数字与所述第一特定子字符串进行匹配;若所述初始语料的前三位数字与所述第一特定子字符串匹配,判定所述初始语料的数字位数是否为所述第一特定子字符串的位数的整数倍;若是,判定所述初始语料与所述第一特定子字符串匹配,判定所述初始语料为特定字符串。

可选地,所述确定所述初始语料向量的向量类型,包括:将每个所述初始语料向量均切分为N个子向量,并形成N个子向量集合,所述N为正整数;通过聚类算法分别对所述N个子向量集合进行聚类,生成W个类中心,所述W为正整数;根据每个子向量集合所属的类中心,确定每个所述初始语料向量的向量类型。

第二方面,本申请提供的一种语料库生成和调用装置,所述装置包括:处理模块,用于从待处理信息库中确定初始语料,生成初始语料向量,并确定所述初始语料向量的向量类型;其中,所述初始语料为所述待处理信息库中评分大于第一阈值的语料;第一生成模块,用于根据所述向量类型和所述初始语料向量,生成第一子语料;第二生成模块,用于采用预设算法对所述待处理信息库中的文本进行分类,并对得到的分类集合中的文本进行筛选,生成第二子语料;其中,所述第二子语料中包括至少一个语料;第三生成模块,用于基于所述第一子语料和所述第二子语料生成目标语料库。

上述本申请提供的一种语料库生成和调用方法及装置,通过从待处理信息库中确定初始语料,生成初始语料向量,并确定所述初始语料向量的向量类型;根据所述向量类型和所述初始语料向量,生成第一子语料;采用预设算法对所述待处理信息库中的文本进行分类,并对得到的分类集合中的文本进行筛选,生成第二子语料;基于所述第一子语料和所述第二子语料生成目标语料库。从而可以利用机器人来自动实现目标语料库的建立,以及生成可靠的目标语料库,使得降低人力成本的同时,提高目标语料库的精准,进而提升用户与机器人的交互体验。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本申请第一实施例提供的一种电子设备的结构示意图;

图2为本申请第二实施例提供的一种语料库生成和调用方法的流程图;

图3为本申请第三实施例提供的一种语料库生成和调用装置的功能模块示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

第一实施例

图1为本申请实施例提供的一种电子设备的结构示意图,在本申请中可以通过图1所示的示意图来描述用于实现本申请实施例的语料库生成和调用方法及装置的示例的电子设备100。

也就是说,电子设备100可以用来执行第二实施例所示的语料库生成和调用方法,以及实现如第三实施例所示的语料库生成和调用装置的功能。

可选地,电子设备100可以是机器人。

如图1所示的一种电子设备的结构示意图,电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108,这些组件通过总线系统和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备可以具有图1示出的部分组件,也可以具有图1 未示出的其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/ 或指令执行能力的其它形式的处理单元,并且可以控制所述电子设备100 中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/ 或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM) 和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令。

所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所示输出装置108可以是电子设备100用来输出语料的显示屏。

第二实施例:

参照图2所示的一种语料库生成和调用方法的流程图,该方法应用于机器人,方法具体包括如下步骤:

步骤S201,从待处理信息库中确定初始语料,生成初始语料向量,并确定所述初始语料向量的向量类型。

作为一种实施方式,从待处理信息库中确定初始语料,生成初始语料向量,包括:基于预设路径以及访问权限访问待处理信息库,并从所述待处理信息库中确定出初始语料;计算出所述初始语料的分词结果;对所述分词结果进行分析,得到所述分词结果中每一分词对应的词向量;将分词结果中每一分词对应的词向量进行相乘,生成初始语料向量。

可选地,预设路径为预先存储在本地的。访问权限用于表示本次访问是否被允许。例如,可以根据访问待处理信息库的指令上获取访问权限。

其中,所述初始语料为所述待处理信息库中评分大于第一阈值的语料。

可选地,第一阈值的设置可以根据实际需求进行配置,例如第一阈值可以是90,也可以是90且小于或等于100的整数。

其中,待处理信息库中会预先存储多个初始语料,且每个语料会对应有一个评分,该评分可以是工作人员来完成,也可以是机器自动完成。在此,不作具体限定。

在上述实现过程中,通过先利用预设路径以及访问权限来访问待处理信息库,可以使得访问更加安全,确保了待处理信息库的安全,另外还可以避免非法访问,节约了待处理信息库的资源开销;在访问成功后再从该待处理信息库中确定出初始语料;并计算出该初始语料的分词结果;然后对该分词结果进行分析,以得到该分词结果中每一分词对应的词向量;最后通过将分词结果中每一分词对应的词向量进行相乘,以生成初始语料向量,从而可以使得所生成的初始语料向量较为靠近目标语料,以提高语料生成的准确性。

作为一种实施方式,计算出所述初始语料的分词结果的步骤具体包括:确定该初始语料是否为全中文;若是,按照语义将该初始语料进行词分割,得到分词结果;若该初始语料包括中文和英文,将该初始语料中的中文语料与英文语料进行分割;对该中文语料按照中文语义进行切割,以及通过英文语义对该英文语料进行切割,得到分词结果;若该初始语料为全英文,通过英文语义对该英文语料进行切割,得到分词结果;若该初始语料为数字,确定该初始语料是否为特定字符串;若是,按照该特定字符串的定义对该初始语料进行切割,得到分词结果;若该初始语料为非特定字符串,将该初始语料作为分词结果;或,若该初始语料为非特定字符串,按照预设规则将该初始语料进行切割,得到分词结果。

应理解,上述的全中文是指中文汉字,而非除汉字外的中文字符。

在上述实现过程中,通过先确定该初始语料是否为全中文;如果该初始语料为全中文,则按照语义将该初始语料进行词分割,得到分词结果;如果该初始语料包括中文和英文,则将该初始语料中的中文语料与英文语料进行分割;然后分别对该中文语料按照中文语义进行切割,以及通过英文语义对该英文语料进行切割,得到中文以及英文的分词结果;如果该初始语料为全英文,则通过英文语义对该英文语料进行切割,得到分词结果;如果该初始语料为数字,则确定该初始语料是否为特定字符串;如果是,则按照该特定字符串的定义对该初始语料进行切割,得到分词结果;如果该初始语料为非特定字符串,则将该初始语料作为分词结果;或者,若该初始语料为非特定字符串,按照预设规则将该初始语料进行切割,得到分词结果。从而通过多维度以及多模式对初始语料进行处理,以得到更加准确的分词结果。

作为一种实施方式,所述特定字符串包括用于表征手机号的第一特定子字符串、用于表征邮编的第二特定子字符串和用于表征区号的第三特定子字符串;该确定初始语料是否为特定字符串,包括:获取所述初始语料的前三位数字;将所述前三位数字分别与所述第一特定子字符串、所述第二特定子字符串和所述第三特定子字符串的前三位数字进行比较;若所述初始语料的前三位数字与所述第一特定子字符串、所述第二特定子字符串和所述第三特定子字符串中任一字符串的前三位数字匹配,则判定所述初始语料为特定字符串;反之,则判定所述初始语料为非特定字符串。

举例来说,假设初始语料为18311111111,则其前三位数字为183。

应理解,上述举例仅为示例,而非限定。

在上述实现过程中,通过先获取所述初始语料的前三位数字;然后对该前三位数字进行分析,具体的将所述前三位数字分别与所述第一特定子字符串、所述第二特定子字符串和所述第三特定子字符串的前三位数字进行比较;若所述初始语料的前三位数字与所述第一特定子字符串、所述第二特定子字符串和所述第三特定子字符串中任一字符串的前三位数字匹配,则判定所述初始语料为特定字符串;反之,则判定所述初始语料为非特定字符串。从而实现精准分析,以提高对初始语料的识别的正确性。

在一可能的实施例中,在所述若所述初始语料的前三位数字与所述第一特定子字符串、所述第二特定子字符串和所述第三特定子字符串中任一字符串的前三位数字匹配之后,所述方法还包括:若所述初始语料的前三位数字与所述第一特定子字符串匹配,判定所述初始语料的数字位数是否为所述第一特定子字符串的位数的整数倍;若是,判定所述初始语料与所述第一特定子字符串匹配,判定所述初始语料为特定字符串;若所述初始语料的数字位数不为所述第一特定子字符串的位数的整数倍,则将所述初始语料的前三位数字与所述第二特定子字符串进行匹配;若所述初始语料的前三位数字与所述第二特定子字符串匹配,判定所述初始语料的数字位数是否为所述第二特定子字符串的位数的整数倍;若是,判定所述初始语料与所述第二特定子字符串匹配,判定所述初始语料为特定字符串;若所述初始语料的前三位数字与所述第二特定子字符串不匹配,则将所述初始语料的前三位数字与所述第三特定子字符串进行匹配;若所述初始语料的前三位数字与所述第三特定子字符串匹配,判定所述初始语料的数字位数是否为所述第三特定子字符串的位数的整数倍;若是,判定所述初始语料与所述第三特定子字符串匹配,判定所述初始语料为特定字符串。

在一可能的实施例中,在所述若所述初始语料的前三位数字与所述第一特定子字符串、所述第二特定子字符串和所述第三特定子字符串中任一字符串的前三位数字匹配之后,所述方法还包括:若所述初始语料的前三位数字与所述第二特定子字符串匹配,判定所述初始语料的数字位数是否为所述第二特定子字符串的位数的整数倍;若是,判定所述初始语料与所述第二特定子字符串匹配,判定所述初始语料为特定字符串;若所述初始语料的数字位数不为所述第二特定子字符串的位数的整数倍,则将所述初始语料的前三位数字与所述第一特定子字符串进行匹配;若所述初始语料的前三位数字与所述第一特定子字符串匹配,判定所述初始语料的数字位数是否为所述第一特定子字符串的位数的整数倍;若是,判定所述初始语料与所述第一特定子字符串匹配,判定所述初始语料为特定字符串;若所述初始语料的前三位数字与所述第一特定子字符串不匹配,则将所述初始语料的前三位数字与所述第三特定子字符串进行匹配;若所述初始语料的前三位数字与所述第三特定子字符串匹配,判定所述初始语料的数字位数是否为所述第三特定子字符串的位数的整数倍;若是,判定所述初始语料与所述第三特定子字符串匹配,判定所述初始语料为特定字符串。

在一可能的实施例中,在所述若所述初始语料的前三位数字与所述第一特定子字符串、所述第二特定子字符串和所述第三特定子字符串中任一字符串的前三位数字匹配之后,所述方法还包括:若所述初始语料的前三位数字与所述第三特定子字符串匹配,判定所述初始语料的数字位数是否为所述第三特定子字符串的位数的整数倍;若是,判定所述初始语料与所述第三特定子字符串匹配,判定所述初始语料为特定字符串;若所述初始语料的数字位数不为所述第三特定子字符串的位数的整数倍,则将所述初始语料的前三位数字与所述第二特定子字符串进行匹配;若所述初始语料的前三位数字与所述第二特定子字符串匹配,判定所述初始语料的数字位数是否为所述第二特定子字符串的位数的整数倍;若是,判定所述初始语料与所述第二特定子字符串匹配,判定所述初始语料为特定字符串;若所述初始语料的前三位数字与所述第二特定子字符串不匹配,则将所述初始语料的前三位数字与所述第一特定子字符串进行匹配;若所述初始语料的前三位数字与所述第一特定子字符串匹配,判定所述初始语料的数字位数是否为所述第一特定子字符串的位数的整数倍;若是,判定所述初始语料与所述第一特定子字符串匹配,判定所述初始语料为特定字符串。

在一可能的实施例中,在所述若所述初始语料的前三位数字与所述第一特定子字符串、所述第二特定子字符串和所述第三特定子字符串中任一字符串的前三位数字匹配之后,所述方法还包括:若所述初始语料的前三位数字与所述第二特定子字符串匹配,判定所述初始语料的数字位数是否为所述第二特定子字符串的位数的整数倍;若是,判定所述初始语料与所述第二特定子字符串匹配,判定所述初始语料为特定字符串;若所述初始语料的数字位数不为所述第二特定子字符串的位数的整数倍,则将所述初始语料的前三位数字与所述第三特定子字符串进行匹配;若所述初始语料的前三位数字与所述第三特定子字符串匹配,判定所述初始语料的数字位数是否为所述第三特定子字符串的位数的整数倍;若是,判定所述初始语料与所述第三特定子字符串匹配,判定所述初始语料为特定字符串;若所述初始语料的前三位数字与所述第三特定子字符串不匹配,则将所述初始语料的前三位数字与所述第一特定子字符串进行匹配;若所述初始语料的前三位数字与所述第一特定子字符串匹配,判定所述初始语料的数字位数是否为所述第一特定子字符串的位数的整数倍;若是,判定所述初始语料与所述第一特定子字符串匹配,判定所述初始语料为特定字符串。

作为一种实施方式,所述确定所述初始语料向量的向量类型,包括:将每个所述初始语料向量均切分为N个子向量,并形成N个子向量集合,所述N为正整数;通过聚类算法分别对所述N个子向量集合进行聚类,生成W个类中心,所述W为正整数;根据每个子向量集合所属的类中心,确定每个所述初始语料向量的向量类型。

步骤S202,根据所述向量类型和所述初始语料向量,生成第一子语料。

也就是说,第一子语料由初始语料向量以及其向量类型组成。

步骤S203,采用预设算法对所述待处理信息库中的文本进行分类,并对得到的分类集合中的文本进行筛选,生成第二子语料。

其中,所述第二子语料中包括至少一个语料。

可选地,预设算法可以是聚类算法,在此,不作具体限定。

当然,在实际使用中,用户也可以基于其他算法来进行分类。

步骤S204,基于所述第一子语料和所述第二子语料生成目标语料库。

作为一种实施方式,将第一子语料与第二子语料进行融合,以生成目标语料库。

也就是说,目标语料库中的语料包括第一子语料和第二子语料。

第三实施例:

参见图3所示的一种语料库生成和调用装置,该语料库生成和调用装 400应用于机器人,该语料库生成和调用装置400,包括:

处理模块410,用于从待处理信息库中确定初始语料,生成初始语料向量,并确定所述初始语料向量的向量类型;其中,所述初始语料为所述待处理信息库中评分大于第一阈值的语料。

可选地,处理模块410,还用于基于预设路径以及访问权限访问待处理信息库,并从所述待处理信息库中确定出初始语料;计算出所述初始语料的分词结果;对所述分词结果进行分析,得到所述分词结果中每一分词对应的词向量;将分词结果中每一分词对应的词向量进行相乘,生成初始语料向量,并确定所述初始语料向量的向量类型。

可选地,所述计算出所述初始语料的分词结果,包括:确定所述初始语料是否为全中文;若是,按照语义将所述初始语料进行词分割,得到分词结果;若所述初始语料包括中文和英文,将所述初始语料中的中文语料与英文语料进行分割;对所述中文语料按照中文语义进行切割,以及通过英文语义对所述英文语料进行切割,得到分词结果;若所述初始语料为全英文,通过英文语义对所述英文语料进行切割,得到分词结果;若所述初始语料为数字,确定所述初始语料是否为特定字符串;若是,按照所述特定字符串的定义对所述初始语料进行切割,得到分词结果;若所述初始语料为非特定字符串,将所述初始语料作为分词结果;或,若所述初始语料为非特定字符串,按照预设规则将所述初始语料进行切割,得到分词结果。

可选地,所述特定字符串包括用于表征手机号的第一特定子字符串、用于表征邮编的第二特定子字符串和用于表征区号的第三特定子字符串;所述确定所述初始语料是否为特定字符串,包括:获取所述初始语料的前三位数字;将所述前三位数字分别与所述第一特定子字符串、所述第二特定子字符串和所述第三特定子字符串的前三位数字进行比较;若所述初始语料的前三位数字与所述第一特定子字符串、所述第二特定子字符串和所述第三特定子字符串中任一字符串的前三位数字匹配,则判定所述初始语料为特定字符串;反之,则判定所述初始语料为非特定字符串。

在一可能的实施例中,该语料库生成和调用装置400,还包括:第一判断模块,该第一判断模块,用于:在所述若所述初始语料的前三位数字与所述第一特定子字符串、所述第二特定子字符串和所述第三特定子字符串中任一字符串的前三位数字匹配之后,若所述初始语料的前三位数字与所述第一特定子字符串匹配,判定所述初始语料的数字位数是否为所述第一特定子字符串的位数的整数倍;若是,判定所述初始语料与所述第一特定子字符串匹配,判定所述初始语料为特定字符串;若所述初始语料的数字位数不为所述第一特定子字符串的位数的整数倍,则将所述初始语料的前三位数字与所述第二特定子字符串进行匹配;若所述初始语料的前三位数字与所述第二特定子字符串匹配,判定所述初始语料的数字位数是否为所述第二特定子字符串的位数的整数倍;若是,判定所述初始语料与所述第二特定子字符串匹配,判定所述初始语料为特定字符串;若所述初始语料的前三位数字与所述第二特定子字符串不匹配,则将所述初始语料的前三位数字与所述第三特定子字符串进行匹配;若所述初始语料的前三位数字与所述第三特定子字符串匹配,判定所述初始语料的数字位数是否为所述第三特定子字符串的位数的整数倍;若是,判定所述初始语料与所述第三特定子字符串匹配,判定所述初始语料为特定字符串。

在一可能的实施例中,该语料库生成和调用装置400,还包括:第二判断模块,该第二判断模块,用于:在所述若所述初始语料的前三位数字与所述第一特定子字符串、所述第二特定子字符串和所述第三特定子字符串中任一字符串的前三位数字匹配之后,若所述初始语料的前三位数字与所述第二特定子字符串匹配,判定所述初始语料的数字位数是否为所述第二特定子字符串的位数的整数倍;若是,判定所述初始语料与所述第二特定子字符串匹配,判定所述初始语料为特定字符串;若所述初始语料的数字位数不为所述第二特定子字符串的位数的整数倍,则将所述初始语料的前三位数字与所述第一特定子字符串进行匹配;若所述初始语料的前三位数字与所述第一特定子字符串匹配,判定所述初始语料的数字位数是否为所述第一特定子字符串的位数的整数倍;若是,判定所述初始语料与所述第一特定子字符串匹配,判定所述初始语料为特定字符串;若所述初始语料的前三位数字与所述第一特定子字符串不匹配,则将所述初始语料的前三位数字与所述第三特定子字符串进行匹配;若所述初始语料的前三位数字与所述第三特定子字符串匹配,判定所述初始语料的数字位数是否为所述第三特定子字符串的位数的整数倍;若是,判定所述初始语料与所述第三特定子字符串匹配,判定所述初始语料为特定字符串。

在一可能的实施例中,该语料库生成和调用装置400,还包括:第三判断模块,该第三判断模块,用于:在所述若所述初始语料的前三位数字与所述第一特定子字符串、所述第二特定子字符串和所述第三特定子字符串中任一字符串的前三位数字匹配之后,若所述初始语料的前三位数字与所述第三特定子字符串匹配,判定所述初始语料的数字位数是否为所述第三特定子字符串的位数的整数倍;若是,判定所述初始语料与所述第三特定子字符串匹配,判定所述初始语料为特定字符串;若所述初始语料的数字位数不为所述第三特定子字符串的位数的整数倍,则将所述初始语料的前三位数字与所述第二特定子字符串进行匹配;若所述初始语料的前三位数字与所述第二特定子字符串匹配,判定所述初始语料的数字位数是否为所述第二特定子字符串的位数的整数倍;若是,判定所述初始语料与所述第二特定子字符串匹配,判定所述初始语料为特定字符串;若所述初始语料的前三位数字与所述第二特定子字符串不匹配,则将所述初始语料的前三位数字与所述第一特定子字符串进行匹配;若所述初始语料的前三位数字与所述第一特定子字符串匹配,判定所述初始语料的数字位数是否为所述第一特定子字符串的位数的整数倍;若是,判定所述初始语料与所述第一特定子字符串匹配,判定所述初始语料为特定字符串。

在一可能的实施例中,该语料库生成和调用装置400,还包括:第四判断模块,该第四判断模块,用于:在所述若所述初始语料的前三位数字与所述第一特定子字符串、所述第二特定子字符串和所述第三特定子字符串中任一字符串的前三位数字匹配之后,若所述初始语料的前三位数字与所述第二特定子字符串匹配,判定所述初始语料的数字位数是否为所述第二特定子字符串的位数的整数倍;若是,判定所述初始语料与所述第二特定子字符串匹配,判定所述初始语料为特定字符串;若所述初始语料的数字位数不为所述第二特定子字符串的位数的整数倍,则将所述初始语料的前三位数字与所述第三特定子字符串进行匹配;若所述初始语料的前三位数字与所述第三特定子字符串匹配,判定所述初始语料的数字位数是否为所述第三特定子字符串的位数的整数倍;若是,判定所述初始语料与所述第三特定子字符串匹配,判定所述初始语料为特定字符串;若所述初始语料的前三位数字与所述第三特定子字符串不匹配,则将所述初始语料的前三位数字与所述第一特定子字符串进行匹配;若所述初始语料的前三位数字与所述第一特定子字符串匹配,判定所述初始语料的数字位数是否为所述第一特定子字符串的位数的整数倍;若是,判定所述初始语料与所述第一特定子字符串匹配,判定所述初始语料为特定字符串。

可选地,所述确定所述初始语料向量的向量类型,包括:将每个所述初始语料向量均切分为N个子向量,并形成N个子向量集合,所述N为正整数;通过聚类算法分别对所述N个子向量集合进行聚类,生成W个类中心,所述W为正整数;根据每个子向量集合所属的类中心,确定每个所述初始语料向量的向量类型。

第一生成模块420,用于根据所述向量类型和所述初始语料向量,生成第一子语料。

第二生成模块430,用于采用预设算法对所述待处理信息库中的文本进行分类,并对得到的分类集合中的文本进行筛选,生成第二子语料;其中,所述第二子语料中包括至少一个语料。

第三生成模块440,用于基于所述第一子语料和所述第二子语料生成目标语料库。

进一步,本实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理设备运行时执行上述实施例二提供的任一项语料库生成和调用方法的步骤。

本申请实施例所提供的一种语料库生成和调用方法、装置的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。

综上所述,本申请提供一种语料库生成和调用方法及装置,通过从待处理信息库中确定初始语料,生成初始语料向量,并确定所述初始语料向量的向量类型;根据所述向量类型和所述初始语料向量,生成第一子语料;采用预设算法对所述待处理信息库中的文本进行分类,并对得到的分类集合中的文本进行筛选,生成第二子语料;基于所述第一子语料和所述第二子语料生成目标语料库。从而可以利用机器人来自动实现目标语料库的建立,以及生成可靠的目标语料库,使得降低人力成本的同时,提高目标语料库的精准,进而提升用户与机器人的交互体验。

需要说明的是,上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM, Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

相关技术
  • 一种语料库生成和调用方法及装置
  • 一种软件架构生成、调用方法及装置
技术分类

06120112274883