掌桥专利:专业的专利平台
掌桥专利
首页

文本分块方法、装置、计算机设备和存储介质

文献发布时间:2023-06-19 10:48:02


文本分块方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域,特别是涉及一种文本分块方法、装置、计算机设备和存储介质。

背景技术

随着文本处理技术的不断发展,为了提高处理效率,在对文本进行正式处理前,可以对文本进行分块处理,得到多个文本块。

在现有技术中,往往会根据文本中出现的标点对文本进行分块。然而,根据标点符号进行分块容易导致文本块的语义难以统一,例如不同语义的文本信息被分在同一文本块中,或者相同语义的文本信息被分在两个不同的文本块中。

发明内容

基于此,有必要针对上述技术问题,提供一种文本分块方法、装置、计算机设备和存储介质。

本申请实施例提供一种文本分块方法,所述方法包括:

获取待分块文本的至少两个待处理文本块;

获取所述至少两个待处理文本块对应的语义连贯度得分和语义相似度得分;

基于所述语义连贯度得分和所述语义相似度得分所分别对应的得分权重,确定所述至少两个待处理文本块对应的语义关联度值;

当所述语义关联度值超过预设阈值时,对所述至少两个待处理文本块进行合并,得到合并文本块;

基于所述合并文本块对所述待分块文本进行操作,得到目标文本。

在其中一个实施例中,所述基于所述合并文本块对所述待分块文本进行操作,得到目标文本,包括:

将所述合并文本块作为待处理文本块替换对应的至少两个待处理文本块,并确定当前的待处理文本块的总数;

判断所述总数是否小于数量阈值;

若是,将当前的待处理文本块,作为所述待分块文本对应的分块结果,得到目标文本;

若否,返回获取待分块文本的至少两个待处理文本块的步骤,直到任意两个待处理文本块的语义关联度值均小于所述预设阈值时,根据当前的待处理文本块,得到目标文本。

在其中一个实施例中,所述获取待分块文本的至少两个待处理文本块,包括:

从待分块文本对应的至少两个待处理文本块中,获取至少两个待处理文本块;

对获取的所述至少两个待处理文本块进行分组,得到至少一个文本块组合;属于同一文本块组合中的至少两个待处理文本块在位置上依次相邻。

在其中一个实施例中,所述获取所述至少两个待处理文本块对应的语义连贯度得分和语义相似度得分,包括:

确定出在位置上依次相邻的所述至少两个待处理文本块之间的语义连贯度,输出语义连贯度得分;

以及,

确定出在位置上依次相邻的所述至少两个待处理文本块之间的语义相似度,输出语义相似度得分。

在其中一个实施例中,所述语义关联度值为同一文本块组合中所有待处理文本块对应的语义关联度值;所述当所述语义关联度值超过预设阈值时,对所述至少两个目标待处理文本块进行合并,得到合并文本块,包括:

针对所述语义关联度值超过预设阈值的文本块组合,对文本块组合中的所有待处理文本块进行合并。

在其中一个实施例中,在所述针对所述语义关联度值超过预设阈值的文本块组合,对文本块组合中的所有待处理文本块进行合并的步骤之前,所述方法还包括:

若存在包含相同待处理文本块的至少两个目标文本块组合,对所述至少两个目标文本块组合中相同的待处理文本块去重。

在其中一个实施例中,所述对所述至少两个目标文本块组合中相同的待处理文本块去重,包括:

根据各个目标文本块组合对应的语义关联度值,确定语义关联度值小于最高语义关联度值的待去重文本块组合;

将所述待去重文本块组合中相同的待处理文本块删除。

在其中一个实施例中,还包括:

获取至少两个样本文本块和所述至少两个样本文本块对应的关联度标签;

确定所述至少两个样本文本块对应的语义连贯度得分,以及所述至少两个样本文本块对应的语义相似度得分;

根据所述语义连贯度得分、语义相似度得分和各自对应的得分权重,确定所述至少两个样本文本块的预测语义关联度值;

基于所述预测语义关联度值和所述关联度标签对第一神经网络模型、第二神经网络模型和所述各自对应的得分权重进行联合训练,得到训练好的语义连贯度模型、语义相似度模型和得分权重;

其中,所述语义连贯度模型用于确定输入到所述语义连贯度模型的至少两个待处理文本块对应的语义连贯度得分,所述语义相似度模型用于确定输入到所述语义相似度模型的至少两个待处理文本块对应的语义相似度得分。

本申请实施例提供一种文本分块装置,所述装置包括:

待处理文本块获取模块,用于获取待分块文本的至少两个待处理文本块;

得分获取模块,用于获取所述至少两个待处理文本块对应的语义连贯度得分和语义相似度得分;

语义关联度值确定模块,用于基于所述语义连贯度得分和所述语义相似度得分所分别对应的得分权重,确定所述至少两个待处理文本块对应的语义关联度值;

合并模块,用于当所述语义关联度值超过预设阈值时,对所述至少两个待处理文本块进行合并,得到合并文本块;

目标文本获取模块,用于基于所述合并文本块对所述待分块文本进行操作,得到目标文本。

本申请实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上任一项所述方法的步骤。

本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述方法的步骤。

本申请实施例提供一种文本分块、装置、计算机设备和存储介质,通过获取待分块文本的至少两个待处理文本块,并获取至少两个待处理文本块对应的语义连贯度得分和语义相似度得分,基于语义连贯度得分和语义相似度得分所分别对应的得分权重,确定至少两个待处理文本块对应的语义关联度值,当语义关联度值超过预设阈值时,对至少两个待处理文本块进行合并,得到合并文本块,基于合并文本块对所述待分块文本进行操作,得到目标文本,实现了根据语义关联度值,对已分块的至少两个待处理文本块进行合并,使得归属于不同文本块的文本信息可以被划分在语义相近的文本块中,提高文本块中语义的一致性,也有效提升文本分块的准确度和合理性。

附图说明

图1为一个实施例中一种文本分块方法的应用环境图;

图2为一个实施例中一种文本分块方法的流程示意图;

图3为一个实施例中一种获取文本块组合的步骤的流程示意图;

图4为一个实施例中一种文本分块装置的结构框图;

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请提供的一种文本分块方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中,如图2所示,提供了一种文本分块方法,以该方法应用于图1中的服务器为例进行说明,应当理解的是,本方法也可以在终端独立使用。具体的,本方法可以包括如下步骤:

步骤201,获取待分块文本的至少两个待处理文本块。

作为一示例,待分块文本可以是将进行分块处理的文本。

在具体实现中,可以获取待分块文本的至少两个待处理文本块,其中,至少两个待处理文本块中的每一待处理文本块,可以是对待分块文本进行预分块后得到的文本块。

步骤202,获取所述至少两个待处理文本块对应的语义连贯度得分和语义相似度得分。

作为一示例,语义连贯度可以是指至少两个文本块在语义上的连贯程度,如针对两相邻的文本块,在语义上是否前后连贯或者相互承接。语义连贯度得分可用于反映至少两个待处理文本块之间的语义连贯度,语义连贯度得分可以采用得分形式表征,也可以通过等级的形式表征。例如,针对m(m≥2)个待处理文本块,其对应的语义连贯度得分x可以从整体上反映m个待处理文本块之间的语义连贯度,语义连贯度得分与各个待处理文本之间的语义连贯度正相关。

语义相似度可以是指各个文本块所表达的语义的相似程度,例如各个文本块所表达的语义是否属于同一主题,或者各个文本块所表达的语义之间的相似程度。语义相似度得分可用于反映至少两个待处理文本块之间的语义相似度,语义相似度得分可以采用得分形式表征,也可以通过等级的形式表征。例如,针对m(m≥2)个待处理文本块,其对应的语义相似度得分y可以从整体上反映m个待处理文本块之间的语义相似度,语义相似度得分与各个待处理文本之间的语义相似度正相关。

在获取到至少两个待处理文本块后,可以获取至少两个待处理文本块中各待处理文本块之间的语意连贯度得分和语义相似度得分。

步骤203,基于所述语义连贯度得分和所述语义相似度得分所分别对应的得分权重,确定所述至少两个待处理文本块对应的语义关联度值。

作为一示例,语义关联度可以是指至少两个待处理文本块在语义上关联的程度,通过语义关联度值可以量化语义关联度,语义关联度值与至少两个待处理文本块中各待处理文本块之间的关联性呈正相关,即语义关联度值越高,在进行分块时,至少两个待处理文本块中的各个待处理文本块归属于同一文本块的几率越高。

在实际应用中,可以通过语义连贯度和语义相似度确定至少两个待处理文本块之间的语义关联度值,而语义连贯度和语义相似度对语义关联度值的影响程度可以存在差异,也可以相同,为了准确反映语义连贯度和语义相似度对语义关联度值的影响,可以获取语义连贯度得分和语义相似度得分各自对应的得分权重,进而可以根据语义连贯度得分、语义相似度得分,以及语义连贯度得分和语义相似度得分所分别对应的得分权重,确定至少两个待处理文本块中各待处理文本块之间的语义关联度值。

步骤204,当所述语义关联度值超过预设阈值时,对所述至少两个待处理文本块进行合并,得到合并文本块。

在具体实现中,可以判断至少两个待处理文本块对应的语义关联度值是否超过预设阈值,当语义关联度值超过预设阈值时,可以对至少两个待处理文本块中的各个文本块进行合并,得到合并文本块。

步骤205,基于所述合并文本块对所述待分块文本进行操作,得到目标文本。

在得到合并文本块后,可以基于该合并文本块对待分块文本进行操作,得到目标文本,目标文本中可以包括至少一个文本块,至少一个文本块中的每一文本块为待分块文本对应的分块结果。

在本实施例中,通过获取待分块文本的至少两个待处理文本块,并获取至少两个待处理文本块对应的语义连贯度得分和语义相似度得分,基于语义连贯度得分和语义相似度得分所分别对应的得分权重,确定至少两个待处理文本块对应的语义关联度值,当语义关联度值超过预设阈值时,对至少两个待处理文本块进行合并,得到合并文本块,基于合并文本块对所述待分块文本进行操作,得到目标文本,实现了根据语义关联度值,对已分块的至少两个待处理文本块进行合并,使得归属于不同文本块的文本信息可以被划分在语义相近的文本块中,提高文本块中语义的一致性,也有效提升文本分块的准确度和合理性。

在一个实施例中,所述基于所述合并文本块对所述待分块文本进行操作,得到目标文本,可以包括如下步骤:

步骤301,将所述合并文本块作为待处理文本块替换对应的至少两个待处理文本块,并确定当前的待处理文本块的总数。

在实际应用中,当获取到合并文本块后,可以将合并文本块作为待处理文本块,替换合并文本块对应的至少两个待处理文本块中的每一待处理文本块,在替换后,可以确定当前的待处理文本块的总数。

例如,针对至少两个待处理文本块T

步骤302,判断所述总数是否小于数量阈值,若是,则执行步骤303;若否,则执行步骤304。

在确定当前的待处理文本块的总数后,可以判断总是否小于数量阈值,若是,则可以执行步骤303,若否,则执行步骤304。

其中,数量阈值可以是停止进行待处理文本块合并时所对应数量,如数量阈值可以是2,在当前的待处理文本块的数量小于2时,例如待处理文本块为1,则可以停止合并。本领域技术人员可以根据实际需要

步骤303,将当前的待处理文本块,作为所述待分块文本对应的分块结果,得到目标文本。

由于当前的待处理文本块的总数小于数量阈值,则停止合并,可以将当前的待处理文本块,作为待分块文本最终的分块结果,并生成由当前的待处理文本块组成的目标文本。

步骤304,返回获取待分块文本的至少两个待处理文本块的步骤,直到任意两个待处理文本块的语义关联度值均小于所述预设阈值时,根据当前的待处理文本块,得到目标文本。

在当前的待处理文本块的总数超过数量阈值时,例如当前的待处理文本块为至少两个时,则可以继续确定至少两个待处理文本块之间的语义关联度值,基于此,可以返回到获取待分块文本的至少两个待处理文本块的步骤,即返回步骤201,重复执行确定至少两个待处理文本块之间语义关联度值的步骤,知道任意两个待处理文本块的语义关联度值均小于预设阈值,无需继续再进行文本块合并,则可以将当前的待处理文本块,作为待分块文本最终的分块结果,并生成由当前的待处理文本块组成的目标文本。

在本实施例中,通过判断当前的待处理文本块的总数是否小于数量阈值,能够在待处理文本块的数量小于数量阈值,或者,任意获取的至少两个待处理文本块的语义关联度均小于预设阈值时,确定待处理文本块的分块结果,生成目标文本,保证文本分块的准确度和合理性。

在一个实施例中,如图3所示,所述获取待分块文本的至少两个待处理文本块,可以包括如下步骤:

步骤401,从待分块文本对应的至少两个待处理文本块中,获取至少两个待处理文本块。

在本实施例中,服务器可以获取待分块文本对应的至少两个待处理文本块,进而可以从对应的至少两个待处理文本块中,获取至少两个待处理文本块。具体而言,待分块文本由m(m≥2)个待处理文本块组成,则从中获取的待处理文本块的数量范围可以是[2,m]。

在实际应用中,服务器可以接收终端或其他服务器发送的待分块文本,对待分块文本进行预分块,得到待分块文本块对应的至少两个;又如,由终端或其他服务器对待分块文本进行预分块,将得到的至少两个待处理文本块,向服务器发送。或者,终端也可以在文本分块请求中添加待分块文本对应的标识,并向服务器发送该请求,服务器可以从请求中获取该标识,并根据该标识进行数据搜索或查询,得到与标识对应的待分块文本。

在一个示例中,在得到待分块文本后,服务器可以根据预设的关键词或文本标识对待分块文本进行预分块,具体的,可以根据与业务规则匹配的关键进行预分块,或者,也可以根据标点符号等预设标识进行预分块,又如,可以将待分块文本输入到预先训练的分块模型,由分块模型输出预分块结果,得到待处理文本块。本领域技术人员可以根据实际需要,采用多种方式对待分块文本进行预分块,本申请对此不作具体限制。

步骤402,对获取的所述至少两个待处理文本块进行分组,得到至少一个文本块组合;属于同一文本块组合中的至少两个待处理文本块在位置上依次相邻。

在实际应用中,在获取至少两个待处理文本块后,可以对获取的至少两个待处理文本块中的各个待处理文本块进行分组,得到至少一个文本块组合,在同一个文本块组合中,可以包括至少两个待处理文本块,至少两个待处理文本块中的各个待处理文本块在位置上依次相邻。

具体而言,在获取到至少两个待处理文本块后,可以确定至少两个待处理文本块中的各个待处理文本块在待分块文本中的位置,并得到各待处理文本块对应的文本块顺序。进而在对获取的至少两个待处理文本块进行分组时,可以根据文本块顺序,将相邻的至少两个待处理文本块划分在同一文本块组合中。相较于随机选取至少两个待处理文本块并确定其对应的语义关联度值,通过对待处理文本块进行分组,使得每个文本块组合中包括至少两个相邻的文本块,能够提高获取的至少两个待处理文本块存在语义关联的几率。例如,通过对待分块文本进行预分块,可以得到顺序排列的待处理文本块A、B、C、D,其中,文本块A、B语义关联的几率高于文本块A、D语义关联的几率。

在本实施例中,对获取的至少两个待处理文本块进行分组,得到至少一个文本块组合,属于同一文本块组合中的至少两个待处理文本块在位置上依次相邻,有效提高待处理文本块语义关联的几率,在判断是否对待处理文本块进行合并时,能够减少数据处理量。

在一个实施例中,所述获取所述至少两个待处理文本块对应的语义连贯度得分和语义相似度得分,可以包括如下步骤:

确定出在位置上依次相邻的所述至少两个待处理文本块之间的语义连贯度,输出语义连贯度得分;以及,确定出在位置上依次相邻的所述至少两个待处理文本块之间的语义相似度,输出相似度得分。

在本实施例中,在得到至少一个文本块组合后,针对至少一个文本块组合中的每一文本块组合,可以确定文本块组合中在位置上依次相邻的至少两个待处理文本块对应的语义连贯度,并输出该语义连贯度对应的语义连贯度得分。以及,可以确定文本块组合中在位置上依次相邻的至少两个待处理文本块对应的语义相似度,输出该语义相似度对应的语义相似度得分。

在本实施例中,可以确定位置上依次相邻的至少两个待处理文本块之间的语义连贯度得分和语义相似度得分,避免随机选取待处理文本块进行计算,有效提高合并效率,减少数据处理量。

在一个实施例中,可以将所述至少两个待处理文本块输入到预设的语义连贯度模型,以通过所述语义连贯度模型确定所述至少两个待处理文本块之间的语义连贯度,输出语义连贯度得分;以及,将所述至少两个待处理文本块输入到预设的语义相似度模型,以通过所述语义相似度模型确定所述至少两个待处理文本块之间的语义相似度,输出语义相似度得分。

作为一示例,本实施例中的至少两个待处理文本块,可以是在位置上依次相邻的至少两个待处理文本块,也可以是随机选取的至少两个待处理文本块。

在实际应用中,在获取到至少两个待处理文本块时,可以将至少两个待处理文本块中的所有文本块输入到预先训练好的语义连贯度模型,以通过语义连贯度模型对输入的待处理文本块进行识别,例如进行文本识别和语义理解,并确定各个待处理文本块之间的语义连贯度,输出语义连贯度得分。服务器可以将语义连贯度模型输出的语义连贯度得分确定为待处理文本块对应的语义连贯度得分。

此外,服务器还可以将至少两个待处理文本块中的所有文本块输入到训练好的语义相似度模型,以通过语义相似度模型对输入的待处理文本块进行识别,确定各个待处理文本块之间的语义相似度,并输出语义相似度得分。服务器可以将语义连贯度模型输出的语义连贯度得分确定为待处理文本块对应的语义连贯度得分。

在本实施例中,通过将已获取的至少两个待处理文本块输入到语义连贯度模型和语义相似度模型,能够快速、准确地确定各个待处理文本块之间的语义连贯度得分和语义相似度得分,为后续判断是否对至少两个待处理文本块进行合并提供数据基础。

在一个实施例中,语义关联度值可以是同一文本块组合中所有待处理文本块对应的语义关联度值,所述当所述语义关联度值超过预设阈值时,对所述至少两个目标待处理文本块进行合并,得到合并文本块,可以包括如下步骤:

针对所述语义关联度值超过预设阈值的文本块组合,对文本块组合中的所有待处理文本块进行合并。

在实际应用中,在对至少两个待处理文本块组合进行分组后,可以得到至少一个文本块组合,针对至少一个文本块组合中每一文本块组合,可以获取该文本块组合中所有待处理文本块对应的语义关联度值,作为该文本块组合对应的语义关联度值。

在确定各文本块组合对应的语义关联度值后,针对语义关联度超过预设阈值的文本块组合,可以对文本块组合中的所有待处理文本块组合进行合并。

例如,对待处理文本块A、B、C、D进行分组后,可以得到文本块组合1和文本块组合2,文本块组合1中包括待处理文本块A、B,文本块组合2中包括待处理文本块C、D。在获取同一文本块组合中所有待处理文本块对应的语义关联度后,可以确定文本块组合1对应的语义关联度超过预设阈值,文本块组合2对应的语义关联度小于预设阈值,则可以对待处理文本块A、B进行合并,并用合并后的文本块替换A和B;针对语义关联度小于预设阈值的文本块组合,则可以不对其中的待处理文本块进行合并,保留文本块C、D。

在本实施例中,能够同时对语义关联度超过预设阈值的至少一个文本块组合进行文本块合并,有效提高文本分块过程中的处理效率

在一个实施例中,在所述针对所述语义关联度值超过预设阈值的文本块组合,对文本块组合中的所有待处理文本块进行合并的步骤之前,所述方法还可以包括如下步骤:

若存在包含相同待处理文本块的至少两个目标文本块组合,对所述至少两个目标文本块组合中相同的待处理文本块去重。

在实际用中,在获取待处理文本块并对其进行分组时,可以将相同的待处理文本块划分至不同的文本块组合中。若语义关联度值超过预设阈值的文本块组合为至少两个文本块组合,则可以判断其中是否存在包含相同待处理文本块的至少两个目标文本块组合,若存在,为了避免重复合并,可以对目标文本块组合进行文本块去重。

在本实施例中,若存在包含相同待处理文本块的至少两个目标文本块组合,对至少两个目标文本块组合中的文本块去重,能够避免对相同的文本块进行重复合并,保证文本分块结果的准确性。

在一个实施例中,所述对所述至少两个目标文本块组合中相同的待处理文本块去重,可以包括如下步骤:

根据各个目标文本块组合对应的语义关联度值,确定语义关联度值小于最高语义关联度值的待去重文本块组合;将所述待去重文本块组合中相同的待处理文本块删除。

在实际应用中,在确定包含相同待处理文本块的至少两个目标文本块组合后,可以将相同的待处理文本块合并在具有最高语义关联度值的文本块组合中,得到最优的文本块合并结果,而针对语义关联度值小于最高语义关联度值的文本块组合,则可以进行去重。

具体的,可以根据各个目标文本块组合对应的语义关联度值,对至少两个目标文本块组合中的各个文本块组合进行排序,并确定出语义关联度最高的文本块组合,以及语义关联度小于最高语义关联度的待去重文本块组合。在获取待去重文本块组合后,可以将其中的相同文本块删除。

在本实施例中,根据各个目标文本块组合对应的语义关联度值,确定语义关联度值小于最高语义关联度值的待去重文本块组合,并将待去重文本块组合中相同的待处理文本块删除,实现了将相同文本块保留在语义关联度最高的文本块组合中,并对其他文本块组合中相同文本块去重,能够避免在文本分块过程中重复分块,同时可以提供准确的分块结果。

在一个实施例中,所述方法还可以包括如下步骤:

步骤501,获取至少两个样本文本块和所述至少两个样本文本块对应的关联度标签。

在具体实现中,可以获取至少两个样本文本块,以及该至少两个样本文本块对应的关联度标签,其中,关联度标签用于表征该至少两个样本文本块中个样本文本块之间的语义关联度。

步骤502,确定所述至少两个样本文本块对应的语义连贯度得分,以及所述至少两个样本文本块对应的语义相似度得分。

在本实施例中,在得到至少两个样本文本块后,可以确定至少两个样本文本块对应的语义连贯度得分和语义相似度得分。

具体的,在获取到至少两个样本文本块后,可以将至少两个样本文本块分别输入待训练的第一神经网络模型和第二神经网络模型,以通过第一神经网络模型确定至少两个样本文本块中各样本文本块之间的语义连贯度,输出语义连贯度得分,以及,通过第二神经网络模型确定至少两个样本文本块中各样本文本块之间的语义相似度,输出语义相似度得分。

在一个示例中,第一神经网络模型和/或第二神经网络模型可以是深度神经网络模型。

步骤503,根据所述语义连贯度得分、语义相似度得分和各自对应的得分权重,确定所述至少两个样本文本块的预测语义关联度值。

在得到语义连贯度得分和语义相似度得分后,可以获取语义连贯度得分对应的待训练的得分权重,以及,获取语义相似度得分对应的待训练的得分权重,进而根据语义连贯度得分、语义相似度得分和各自对应的得分权重,进行加权计算,得到至少两个样本文本块对应的预测语义关联度值。

步骤504,基于所述预测语义关联度值和所述关联度标签对第一神经网络模型、第二神经网络模型和所述各自对应的得分权重进行联合训练,得到训练好的语义连贯度模型、语义相似度模型和得分权重。

作为一示例,语义连贯度模型用于确定输入到语义连贯度模型的至少两个待处理文本块对应的语义连贯度得分,语义相似度模型用于确定输入到语义相似度模型的至少两个待处理文本块对应的语义相似度得分,在得到语义连贯度得分和语义相似度得分后,可以根据训练好的各自对应的得分权重、语义连贯度得分和语义相似度得分,确定语义连贯度值。

在实际应用中,可以对第一神经网络模型、第二神经网络模型、语义连贯度得分待训练的得分权重,以及语义相似度得分待训练的得分权重,进行联合训练,即第一神经网络模型和第二神经网络模型作为两个独立的模型,可以与得分权重一起参与训练。

具体而言,在得到预测语义关联度值后,可以根据预测语义关联度和关联度标签,调整第一神经网络模型、第二神经网络模型的模型参数和得分权重,第一神经网络模型和第二神经网络模型可以使用相同的目标函数,例如“am1+bm2”,其中,m1为第一神经网络模型输出的语义连贯度得分,m2为第二神经网络模型输出的语义相似度得分,a为语义连贯度得分对应的得分权重,b为语义相似度得分对应的得分权重,在模型训练过程中,通过调整各模型的模型参数和得分权重,实现对目标函数的优化。

在联合训练过程中,可以重复输入至少两个样本文本块并确定其对应的预测语义关联度,并根据预测语义关联度和对应关联度标签,对模型参数和得分权重进行调整的步骤,直到满足训练结束条件,例如迭代次数达到预设值,可以确定当前的第一神经网络模型、第二神经网络模型、语义连贯度得分对应的得分权重和语义相似度得分对应的得分权重已训练好,得到训练好的语义连贯度模型、语义相似度模型和得分权重。

在本实施例中,通过对第一神经网络模型和第二神经网络模型进行联合训练,可以得到语义连贯度模型和语义相似度模型,并且,通过在模型训练中训练得分权重,能够得到准确合理的权重分配,避免人为主观设定,为提高语义关联度的预测结果准确性提供数据基础。

为了使本领域技术人员能够更好地理解上述步骤,以下通过一个例子对本申请实施例加以示例性说明,但应当理解的是,本申请实施例并不限于此。

针对待分块文本“由受益人出具的税务部门统一印制的增值税专用发票(含抵扣联-购买方扣税凭证及发票联-购买方记账凭证)原始正本一份。复印件一份。信用证号码、合同号码、开票日期须列于发票备注栏。”,可以根据待分块文本中的标点符号进行预分块,得到以下五个待处理文本块:

a、“由受益人出具的税务部门统一印制的增值税专用发票(含抵扣联-购买方扣税凭证及发票联-购买方记账凭证)原始正本一份。”

b、“复印件一份。”

c、“信用证号码、”

d、“合同号码、”

e、“开票日期须列于发票备注栏。”

在得到上述五个待处理文本块后,可以按照以下划分方式获得到多个文本块组合:“a、b”,“b、c”,“c、d”和“d、e”。在获取到四个文本块组合后,可以分别输入到语义连贯度模型和语义相似度模型,得到每个文本块组合对应的语义关联度h1、h2、h3、h4,其中h1和h3大于预设阈值,则可以将待处理文本块a和b进行合并,将待处理文本块c和d进行合并,得到以下分块结果:

a、“由受益人出具的税务部门统一印制的增值税专用发票(含抵扣联-购买方扣税凭证及发票联-购买方记账凭证)原始正本一份。复印件一份。”

b、“信用证号码、合同号码、”

c、“开票日期须列于发票备注栏。”

重复上述步骤,直到所有相邻的待处理文本块的语义关联度小于预设阈值,或者当前只有一个待处理文本块。

应该理解的是,虽然图1-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-3中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图4所示,提供了一种文本分块装置,所述装置包括:

待处理文本块获取模块601,用于获取待分块文本的至少两个待处理文本块;

得分获取模块602,用于获取所述至少两个待处理文本块对应的语义连贯度得分和语义相似度得分;

语义关联度值确定模块603,用于基于所述语义连贯度得分和所述语义相似度得分所分别对应的得分权重,确定所述至少两个待处理文本块对应的语义关联度值;

合并模块604,用于当所述语义关联度值超过预设阈值时,对所述至少两个待处理文本块进行合并,得到合并文本块;

目标文本获取模块605,用于基于所述合并文本块对所述待分块文本进行操作,得到目标文本。

在一个实施例中,所述目标文本获取模块605,包括:

替换子模块,用于将所述合并文本块作为待处理文本块替换对应的至少两个待处理文本块,并确定当前的待处理文本块的总数;

判断子模块,用于判断所述总数是否小于数量阈值;若是,调用第一结果确定子模块,若否,调用第二结果确定子模块;

第一结果确定子模块,用于将当前的待处理文本块,作为所述待分块文本对应的分块结果,得到目标文本;

第二结果确定子模块,用于调用待处理文本块获取模块601,直到任意两个待处理文本块的语义关联度值均小于所述预设阈值时,根据当前的待处理文本块,得到目标文本。

在一个实施例中,所述待处理文本块获取模块601,包括:

文分块确定子模块,用于从待分块文本对应的至少两个待处理文本块中,获取至少两个待处理文本块;

文本块组合生成子模块,用于对获取的所述至少两个待处理文本块进行分组,得到至少一个文本块组合;属于同一文本块组合中的至少两个待处理文本块在位置上依次相邻。

在一个实施例中,所述得分获取模块602,包括:

语义连贯度得分获取子模块,用于确定出在位置上依次相邻的所述至少两个待处理文本块之间的语义连贯度,输出语义连贯度得分;

语义相似度得分获取子模块,用于确定出在位置上依次相邻的所述至少两个待处理文本块之间的语义相似度,输出语义相似度得分。

在一个实施例中,所述语义关联度值为同一文本块组合中所有待处理文本块对应的语义关联度值;所述合并模块604,包括:

文本块组合合并子模块,用于针对所述语义关联度值超过预设阈值的文本块组合,对文本块组合中的所有待处理文本块进行合并。

在一个实施例中,所述装置还包括:

去重模块,用于若存在包含相同待处理文本块的至少两个目标文本块组合,对所述至少两个目标文本块组合中相同的待处理文本块去重。

在一个实施例中,所述去重模块,包括:

待去重文本块组合确定子模块,用于根据各个目标文本块组合对应的语义关联度值,确定语义关联度值小于最高语义关联度值的待去重文本块组合;

待处理文本块删除子模块,用于将所述待去重文本块组合中相同的待处理文本块删除。

在一个实施例中,所述装置还包括:

样本文本块获取模块,用于获取至少两个样本文本块和所述至少两个样本文本块对应的关联度标签;

训练得分获取模块,用于确定所述至少两个样本文本块对应的语义连贯度得分,以及所述至少两个样本文本块对应的语义相似度得分;

预测语义关联度值获取模块,用于根据所述语义连贯度得分、语义相似度得分和各自对应的得分权重,确定所述至少两个样本文本块的预测语义关联度值;

训练模块,用于基于所述预测语义关联度值和所述关联度标签对第一神经网络模型、第二神经网络模型和所述各自对应的得分权重进行联合训练,得到训练好的语义连贯度模型、语义相似度模型和得分权重;

其中,所述语义连贯度模型用于确定输入到所述语义连贯度模型的至少两个待处理文本块对应的语义连贯度得分,所述语义相似度模型用于确定输入到所述语义相似度模型的至少两个待处理文本块对应的语义相似度得分。

关于一种文本分块装置的具体限定可以参见上文中对于一种文本分块方法的限定,在此不再赘述。上述一种文本分块装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本分块方法。

本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:

获取待分块文本的至少两个待处理文本块;

获取所述至少两个待处理文本块对应的语义连贯度得分和语义相似度得分;

基于所述语义连贯度得分和所述语义相似度得分所分别对应的得分权重,确定所述至少两个待处理文本块对应的语义关联度值;

当所述语义关联度值超过预设阈值时,对所述至少两个待处理文本块进行合并,得到合并文本块;

基于所述合并文本块对所述待分块文本进行操作,得到目标文本。

在一个实施例中,处理器执行计算机程序时还实现上述其他实施例中的步骤。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

获取待分块文本的至少两个待处理文本块;

获取所述至少两个待处理文本块对应的语义连贯度得分和语义相似度得分;

基于所述语义连贯度得分和所述语义相似度得分所分别对应的得分权重,确定所述至少两个待处理文本块对应的语义关联度值;

当所述语义关联度值超过预设阈值时,对所述至少两个待处理文本块进行合并,得到合并文本块;

基于所述合并文本块对所述待分块文本进行操作,得到目标文本。

在一个实施例中,计算机程序被处理器执行时还实现上述其他实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

技术分类

06120112684971