掌桥专利:专业的专利平台
掌桥专利
首页

文本切分方法、装置、电子设备和存储介质

文献发布时间:2023-06-19 11:08:20


文本切分方法、装置、电子设备和存储介质

技术领域

本公开涉及信息处理领域,尤其涉及文本信息处理领域。

背景技术

现有技术中,对文本进行切分的处理,通常为先进行分词再根据词性生成分句。这种处理中工作流处理方法过于冗余庞大,并且分词需要依赖庞大的词库和分词算法,而分词之后需要回归分词的词性生成句子,又需要依赖庞大的词性模型,之后组合句子也可能因为词性涵盖不足或者词性冲突导致句子生成有误差。

发明内容

本公开提供了一种文本切分方法、装置、电子设备和存储介质。

根据本公开的一方面,提供了一种文本切分方法,包括:

基于标点符号对待处理文本进行划分,得到L个第一分句;L为大于等于1的整数;

基于所述L个第一分句确定M个待输出分句,将所述M个待输出分句作为所述待处理文本的切分结果;M为大于等于1的整数;

其中,所述基于所述L个第一分句确定M个待输出分句,包括:

在所述L个第一分句中的第i个第一分句的长度大于预设长度门限值的情况下,基于匹配规则对所述第i个第一分句进行处理,得到所述待输出分句;i为大于等于1且小于等于L的整数。

根据本公开的另一方面,提供了一种文本切分装置,包括:

第一划分模块,用于基于标点符号对待处理文本进行划分,得到L个第一分句;L为大于等于1的整数;

第二划分模块,用于基于所述L个第一分句确定M个待输出分句,将所述M个待输出分句作为所述待处理文本的切分结果;

其中,所述第二划分模块,用于在所述L个第一分句中的第i个第一分句的长度大于预设长度门限值的情况下,基于匹配规则对所述第i个第一分句进行处理,得到所述待输出分句;i为大于等于1且小于等于L的整数。

根据本公开的另一方面,提供了一种电子设备,包括:

至少一个处理器;以及

与至少一个处理器通信连接的存储器;其中,

存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开任一实施例提供的方法。

根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,计算机指令用于使计算机执行本公开任一实施例提供的方法。

根据本公开的技术方案,不需要采用复杂的模型就可以实现对待处理文本的切分处理,并同时保证了文本切分处理的准确性以及处理效率。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本公开的限定。其中:

图1是本公开一个实施例提供的文本切分方法的流程示意图一;

图2是本公开一个实施例提供的文本切分方法中的得到第一分句的处理流程示意图;

图3是本公开另一个实施例提供的文本切分方法中的切分第二分句的处理流程示意图;

图4是本公开另一个实施例提供的文本切分方法的流程示意图二;

图5是本公开一个实施例提供的一种文本切分装置的结构示意图;

图6是本公开一个实施例提供的另一种文本切分装置的结构示意图;

图7是用来实现本公开实施例的文本切分方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

本公开的第一实施例提供的文本切分方法的示意图。如图1所示,该方法包括:

S101:基于标点符号对待处理文本进行划分,得到L个第一分句;L为大于等于1的整数;

S102:基于所述L个第一分句确定M个待输出分句,将所述M个待输出分句作为所述待处理文本的切分结果;M为大于等于1的整数;

其中,基于所述L个第一分句确定M个待输出分句,包括:

在所述L个第一分句中的第i个第一分句的长度大于预设长度门限值的情况下,基于匹配规则对所述第i个第一分句进行处理,得到所述待输出分句;i为大于等于1且小于等于L的整数。

这里,所述待处理文本可以为一篇文章,其使用的语言可以包含中文和/或外文。

所述标点符号可以包括任意一种标点符号,比如可以包括句号、逗号、省略号等等,这里不做穷举。

所述第一分句的数量L可以为1个或更多,本实施例不对其进行限定。

所述L个第一分句可能存在一部分第一分句的长度大于所述预设长度门限值,这部分需要根据匹配规则进一步进行处理,从而得到最终的待输出分句。其中,所述匹配规则可以根据实际情况设置,可以包括一种或多个不同的匹配规则,所述匹配规则的功能为对分句进一步进行划分。

另外,所述L个第一分句中还可能存在一部分第一分句的长度不大于所述预设长度门限值,这部分可以不做处理直接作为待输出分句。

也就是说,可以依次判断所述L个第一分句中每一个第一分句的长度是否大于所述预设长度门限值,将当前判断的第一分句称为第i个第一分句,则基于所述L个第一分句确定M个待输出分句,包括:

在所述L个第一分句中的第i个第一分句的长度大于预设长度门限值的情况下,基于匹配规则对所述第i个第一分句进行处理,得到所述待输出分句;i为大于等于1且小于等于L的整数;

以及,在所述L个第一分句中的第i个第一分句的长度不大于所述预设长度门限值的情况下,将所述第i个第一分句作为所述待输出分句。

这里,所述预设长度门限值可以根据实际情况设置,比如可以是15个字符等等。

前述M可以为大于等于1的整数,优选的为大于等于2的整数。所述将所述M个待输出分句作为所述待处理文本的切分结果,具体可以指的是将所述M个待输出分句按照顺序排列作为所述待处理文件的切分结果。

可见,通过采用上述方案,就可以通过标点符号对待处理文本进行划分可以得到多个分句,进而再采用匹配规则对大于长度的部分分句进行处理最终得到待处理文本的切分结果。如此,不需要采用复杂的模型就可以实现对待处理文本的切分处理,并同时保证了文本切分处理的准确性以及处理效率。

另外,由于标点符号与待处理文本的语义具备一定的关联性,因此这样划分得到的第一分句对语义的表达没有影响。

本公开的第二实施例提供的文本切分方法中,所述基于标点符号对待处理文本进行划分,得到L个第一分句,如图2所示,包括:

S201:基于第一类标点符号对所述待处理文本进行划分,得到K个段落;K为大于等于1的整数;

S202:对所述K个段落中的第二类标点符号进行处理,得到处理后的K个段落;

S203:基于所述第三类标点符号对所述处理后的K个段落进行划分,得到所述L个第一分句。

这里,所述第一类标点符号、第二类标点符号与第三类标点符号相互均不同。

举例来说,第一类标点符号可以为表征句子结束的标点符号,比如,可以为句号、问号、叹号、省略号等等。

所述第二类标点符号可以为预设的对整个文章语义不存在影响的符号,比如可以包括有中括号、尖括号等等,这里不进行穷举。

所述第三类标点符号,可以为用于对整个长句进行语义划分的标点符号或称为表征句中停顿的标点符号,比如,逗号、顿号、分号等等。

所述基于第一类标点符号对所述待处理文本进行划分,得到K个段落,具体可以为:基于所述第一类标点符号分割所述待处理文本,得到分割后的K个段落。

对所述K个段落中的第二类标点符号进行处理,得到处理后的K个段落,可以包括:

在所述K个段落中的第r个段落中存在所述第二类标点符号的情况下,过滤所述第r个段落中的第二类标点符号,得到处理后的第r个段落;r为大于等于1且小于等于K的整数;

在所述K个段落中的第r个段落中不存在所述第二类标点符号的情况下,直接将所述第r个段落作为处理后的第r个段落。

也就是说,从K个段落中依次提取当前段落;判断当前段落中是否包含第二类标点符号;若当前段落包含第二类标点符号,则过滤所述当前段落中的第二类标点符号,得到处理后的当前段落;若当前段落不包含第二类标点符号,则直接将当前段落作为处理后的段落。

所述基于第三类标点符号对所述处理后的K个段落进行划分,得到所述L个第一分句,可以包括:

在所述处理后的K个段落中的处理后的第r个段落中存在所述第三类标点符号的情况下,基于所述第三类标点符号对所述处理后的第r个段落进行划分,得到多个第一分句;

在所述处理后的K个段落中的处理后的第r个段落中不存在所述第三类标点符号的情况下,将所述第r个段落作为所述第一分句。

这里,需要指出的是,不同的待处理文本最终划分得到的段落的数量可以是不同的,本实施例并不对分割后的段落的数量进行限定。

最终可以得到K个段落划分划分出来的L个第一分句。其中,L可以为大于等于2的整数。关于不同段落可以划分出来的第一分句的数量这里不做限定,只是将基于全部K个段落划分得到的全部第一分句称为L个第一分句。

如此,通过不同类型的标点符号对待处理文本进行划分可以得到多个分句,由于这种划分方式不需要复杂的模型就可以实现,因此可以更加高效;另外,由于标点符号与待处理文本的语义具备一定的关联性,因此这样划分得到的第一分句对语义的表达没有影响。另外,由于进一步对划分得到的段落进行无效标点符号的过滤,使得后续处理减少影响因素,提升处理效率,并且对语义不存在影响。

本公开的第三实施例提供的文本切分方法,如图3所示,所述基于匹配规则对所述第i个第一分句进行处理,得到所述待输出分句,包括:

S301:从所述第i个第一分句中获取与文本匹配规则匹配的目标文本,基于所述目标文本将所述第i个第一分句划分为多个第二分句;

S302:在所述多个第二分句中存在长度大于所述预设长度门限值的待调整第二分句的情况下,基于分隔符匹配规则从所述待调整第二分句中确定第一类分隔符,基于所述第一类分隔符对所述待调整第二分句进行处理,得到所述待输出分句。

需要理解的是,本实施例中虽然是对第i个第一分句的处理进行的说明,但前述已经说明,第i个第一分句为所述L个第一分句中长度大于预设长度门限值的第一分句中的任意之一,因此对所述L个第一分句中的每一个长度大于预设长度门限值的第一分句均可以采用本实施例提供的方案进行处理,只是不进行一一赘述。

所述预设长度门限值可以根据实际情况设置,比如可以是15个字符等等。

这里,所述文本匹配规则是用于从第i个第一分句中匹配对应的目标文本的。所述文本匹配规则可以采用第一正则表达式来表示,比如,所述第一正则表达式可以为【A*B】用于表达将符合开头字符为“A”结尾字符为“B”的一段文本作为所述目标文本。

基于所述目标文本将所述第i个第一分句划分为多个第二分句,可以为:将所述目标文本提取出来作为所述多个第二分句中之一;若剩余的第i个第一分句中包含的内容被所述目标文本划分为两部分,则将这两部分分别作为两个第二分句;若剩余的第i个第一分句中包含的内容为一个部分,则将这一个部分作为另一个第二分句。

所述分隔符匹配规则可以用于匹配预设类型的分隔符的,本实施例将所述预设类型的分隔符称为所述第一类分隔符。比如,所述分隔符匹配规则可以设置为([0-9]+%),则对应的所述第一类分隔符可以为百分数;当然,所述分隔符匹配规则可以包含多个,也就是说,可以匹配得到多种或多个第一类分隔符,这里不对全部可能的所述分隔符匹配规则进行穷举。

需要指出,本实施例的处理中还可以包括:

判断所述第i个第一分句中是否存在与文本匹配规则匹配的目标文本,若不存在,则将所述第i个第一分句作为待调整第二分句;

再判断所述待调整第二分句中是否存在与所述分隔符匹配规则匹配的所述第一类分隔符,若不存在,可以将所述待调整第二分句作为初始第三分句进行后续处理。

通过上述处理可以得到基于至少一种匹配规则划分得到待输出分句,由于基于匹配规则进行匹配的方式也并不需要依赖复杂的语言模型,因此可以降低整体流程的处理复杂度,并保证最终得到的待输出分句的准确性。

其中,所述基于所述目标文本将所述第i个第一分句划分为多个第二分句,包括:

在所述目标文本之后的相邻位置处为第二类分隔符的情况下,将所述第i个第一分句划分为多个初始第二分句以及所述第二类分隔符;将所述第二类分隔符添加至所述多个初始第二分句中之一,得到所述多个第二分句。

也就是说,判断所述第i个第一分句中是否存在与文本匹配规则匹配的目标文本,若不存在,则将所述第i个第一分句作为待调整第二分句;

若存在,则判断所述目标文本之后的相邻位置处是否存在第二类分隔符,若存在第二类分隔符,则将所述第i个第一分句划分为多个初始第二分句以及所述第二类分隔符,将所述第二类分隔符添加至所述多个初始第二分句中之一,得到所述多个第二分句;

若不存在第二类分隔符,则将所述目标文本提取出来作为一个所述第二分句;若除所述目标文本之外的剩余的第i个第一分句中包含的内容被所述目标文本划分为两部分,则将这两部分分别作为两个第二分句;若除所述目标文本之外的剩余的第i个第一分句中包含的内容为一个部分,则将这一个部分作为另一个第二分句。

具体来说,在所述目标文本之后的相邻位置处为第二类分隔符的情况下,将所述第i个第一分句划分为多个初始第二分句以及所述第二类分隔符;将所述第二类分隔符添加至所述多个初始第二分句中之一,得到所述多个第二分句,可以为:

在所述目标文本之后的相邻位置处为第二类分隔符的情况下,将所述第二类分隔符提取处理,并将剩余的第i个第一分句划分为多个初始第二分句;其中,所述目标文本作为所述多个初始第二分句中之一;

基于第一预设规则判断是否将所述第二类分隔符添加到所述多个初始第二分句中;若确定不添加,则直接删除所述第二类分隔符,将所述多个初始第二分句作为所述多个第二分句;若确定添加,则基于第二预设规则判断将所述第二类分隔符添加至与所述第二类分隔符相邻的第一初始第二分句或第二初始第二分句中;若确定将所述第二类分隔符添加至所述第一初始第二分句中,则将所述第二类分隔符添加至所述第一初始第二分句的结尾处,否则,将所述第二类分隔符添加至所述第二初始第二分句的开头处。

其中,所述第一初始第二分句为所述第二类分隔符前面的初始第二分句、所述第二初始第二分句为所述第二类分隔符后面的初始第二分句。

其中,所述第二类分隔符与所述第一类分隔符的类型均可以为预先设置的,但是两者不同,比如,所述第二类分隔符可以为$、¥、#等等,这里不对其进行穷举。

举例来说,第i个第一分句的内容为【1234¥567】;采用文本匹配规则【1*4】从第i个第一分句中提取目标文本为【1234】,在目标文本【1234】之后存在一个第二类分隔符“¥”,则确定所述第i个第一分句划分得到多个初始第二分句为【1234】和【567】,以及所述第二类分隔符“¥”;基于第一预设规则判断是否补入该符号,若确定补入,则进一步基于第二预设规则判断所述第二类分隔符的补入位置,若确定该第二类分隔符补入第一个初始第二分句,则最终得到的多个第二分句为【1234¥】以及【567】。

通过上述处理可以得到基于文本匹配规则划分得到第二分句的方式,在划分的处理中可能会存在目标文本后方的第二类分隔符被划分在目标文本之外的情况,通过基于预设规则进行判断可以确定是否补入第二类分隔符,如此可以保证最终得到的待输出分句的准确性。

本实施例提供的方案,还包括:基于预设类型的单元文本对所述待处理文本进行标记,得到所述待处理文本中标记的目标单元文本;

所述从所述第i个第一分句中获取与文本匹配规则匹配的目标文本,基于所述目标文本将所述第i个第一分句划分为多个第二分句,还包括:基于所述文本匹配规则从所述第i个第一分句中确定匹配的所述目标文本,在所述目标文本中不存在对所述目标单元文本进行分割的情况下,基于所述目标文本将所述第i个第一分句划分为多个第二分句。

另外,还可以包括:在所述目标文本中存在对所述目标单元文本进行分割的情况下,不对所述第i个第一分句进行划分处理,直接将所述第i个第一分句作为待调整第二分句,执行后续的基于所述分隔符匹配规则的判断处理。

所述目标单元文本可以为一个或多个,具体可以为不可分割的单元文本,具体的任意一个目标单元文本可以为一种或多种预设类型的单元文本中之一。比如,某一种所述预设类型的单元文本可以为以下任意之一:书名号内的词组、双引号内的词组、括号内的词组等等。

也就是说,在基于文本匹配规则进行目标文本的确定的时候,在提取所述目标文本之前,可以先判断所述目标文本中是否包含所述目标单元文本中的部分内容,若包含可以确定对目标单元文本存在分割的情况,否则,可以确定不存在对所述目标单元文本进行分割的情况。

举例来说,预设类型的单元文本为《*》,第i个第一分句为【123《ab-4》567】,基于预设类型的单元文本可以预先将第i个第一分句中包含的《ab-4》作为一个目标单元文本;采用文本匹配规则【1*a】从第i个第一分句中匹配的目标文本为【123《a】,很明显将目标单元文本进行了分割,因此,可以不继续执行后续处理也就是不对第i个第一分句进行分割,将所述第i个第一分句作为待调整第二分句执行后续处理。

通过上述处理可以在基于预设匹配规则划分的至少一个第二分句的处理中增加单元文本是否可以分割的情况,如此可以保证最终划分得到的结果更加符合实际语义,保证分句的准确性。

完成以上处理之后,若不存在待调整第二分句,也就是说在所述多个第二分句中不存在长度大于所述预设长度门限值的待调整第二分句的情况下,将所述第i个第一分句划分得到的所述多个第二分句均作为所述待输出分句。

在所述多个第二分句中存在长度大于所述预设长度门限值的待调整第二分句的情况下,基于分隔符匹配规则从所述待调整第二分句中确定第一类分隔符,基于所述第一类分隔符对所述待调整第二分句进行处理,得到所述待输出分句。

所述预设长度门限值可以根据实际情况设置,比如可以是15个字符等等。

前述实施例已经说明,关于基于所述分隔符匹配规则从所述待调整第二分句中确定第一类分隔符的方式,因此这里不做重复说明。

关于确定了所述第一类分隔符之后,基于所述第一类分隔符对所述待调整第二分句进行处理,得到所述待输出分句,可以包括:

基于所述第一类分隔符将所述待调整第二分句划分为多个初始第三分句以及所述第一类分隔符,将所述多个初始第三分句以及所述第一类分隔符作为多个第三分句;在所述多个第三分句中存在长度不大于所述预设长度门限值的候选第三分句的情况下,将所述候选第三分句作为所述待输出分句。

基于所述第一类分隔符将所述待调整第二分句划分为多个初始第三分句以及所述第一类分隔符,将所述多个初始第三分句以及所述第一类分隔符作为多个第三分句,可以包括:

将所述第一类分隔符从所述待调整第二分句中提取出来,将剩余的所述待调整第二分句中的文本划分为一个或多个第三分句。

比如,待调整第二分句为【在XXX中存在67%的XXXXXX】,分隔符匹配规则为([0-9]+%),则分割单元为“67%”;将该分割单元提取出来之后,剩余的文本包含【在XXX中存在】以及【的XXXXXX】,将分割单元作为一个第三分句,最终得到3个第三分句,分别为【在XXX中存在】、【67%】以及【的XXXXXX】。

进一步地,依次判断所述多个第三分句中的每一个第三分句的长度是否大于所述预设长度门限值,若大于,则将该第三分句作为待调整第三分句;若未大于,则将该第三分句作为候选第三分句,将所述候选第三分句直接作为所述待输出分句。

如此,可以得到基于预设的分隔符匹配规则划分的至少一个分句,由于基于预设规则进行匹配的方式并不需要依赖复杂的语言模型,因此可以降低整个流程的处理复杂度,并保证最终输出的待输出分句的语义准确性。

进一步地,还可以包括:在所述多个第三分句中存在长度大于所述预设长度门限值的待调整第三分句的情况下,对所述待调整第三分句进行分词,得到多个词组;基于所述多个词组进行组合,得到小于预设长度门限值的多个所述待输出分句。

这里,所述预设长度门限值可以根据实际情况设置,比如可以是15个字符等等。

上述多个第三分句中可能全部是长度不大于所述预设长度门限值的分句,这种情况,可以直接将所述多个第三分句作为多个所述待输出分句;又或者,所述多个第三分句中可能存在部分是长度大于所述预设长度门限值的第三分句,这种情况则将所述长度大于所述预设长度门限值的第三分句作为待调整第三分句进行处理,将长度不大于所述预设长度门限值的第三分句作为待输出分句。

也就是所述待调整第三分句的数量可能为0,又或者,可以为1个或更多,本实施例不对其进行限定,只要存在1个或多个所述待调整第三分句,则针对所述待调整第三分句进行分词,得到多个词组;基于所述多个词组进行组合,得到小于所述预设长度门限值的多个所述待输出分句。

其中,对所述待调整第三分句进行分词的方法可以是基于任意一种分词方法,比如基于语义进行划分等等。

需要指出的是,基于所述多个词组进行组合的处理中,还可以包括:组合中的最后一个词组的字数大于等于预设字数门限值;其中,所述预设门限值可以根据实际情况设置,比如可以为2个字符。

也就是说,在进行多个词组的组合处理中,可以是对每一个最终得到的待输出分句直接进行所述预设长度门限值的限定,此外,由于单个字符很有可能不能表达完整的语义,因此,还对每一个待输出分句中最后一个词组的字数增加限定。

举例来说,一个待调整第三分句为“我们今年的目标是abcd且保持攀升”,其对应的分词结果可以包含多个词组,分别可以为“我们”“今年”“的”“目标”“是”“abcd”“且”“保持”“攀升”;预设长度门限值可以为8,则可以组合得到“我们”“今年”“的”,“目标”“是”“abcd”,“且”“保持”“攀升”,这样的三个组合,但是其中第一个组合中的结束词组“的”不大于预设字数门限值,则需要重新进行划分,最终可以得到的待输出分句可以包括“我们今年的目标”、“是abcd”以及“且保持攀升”。

如此,可以得到至少一个第三分句的基础上,如果还存在大于预设长度门限值的待调整第三分句的时候,再对待调整第三分句进行分词得到词组,并对词组进行组合最终得到待输出分句;虽然本实施例也可能会使用到分词的处理,但是相比于现有技术已经大大减少了进行分词处理的数据量,如此,可以保证整体的处理效率不受影响,并且本实施例的方案不会使用到语言类较为庞大的模型,因此降低了整体处理流程的复杂度的基础上保证了最终得到的切分结果的准确性。

示例性的,结合图4对本实施例提供的方案进行说明:

S401:基于预设类型的单元文本对待处理文本进行标记,得到所述待处理文本中标记的目标单元文本;其中,所述预设类型的单元文本指的是在处理中不可分割的文本组合。

S402:基于第一类标点符号对所述待处理文本进行划分,得到K个段落。

S403:对所述K个段落中的第二类标点符号进行处理,得到处理后的K个段落。

S404:基于第三类标点符号对所述处理后的K个段落进行划分,得到所述L个第一分句。

S405:从L个第一分句中提取第i个第一分句,判断所述第i个第一分句的长度是否大于预设长度门限值,若大于,则执行S406;否则,将第i个第一分句作为待输出分句。

另外,将第i个第一分句作为待输出分句之后,还可以包括:从所述L个第一分句中提取第i+1个第一分句,将所述第i+1个分句作为第i个第一分句,重复执行S405。

S406:从所述第i个第一分句中获取与文本匹配规则匹配的目标文本,基于所述目标文本将所述第i个第一分句划分为多个第二分句。

S407:判断所述多个第二分句中的每一个第二分句是否长度大于预设长度门限值,若大于,则将该第二分句作为待调整第二分句,执行S408;否则,将长度不大于预设长度门限值的第二分句作为待输出分句。

S408:基于分隔符匹配规则从所述待调整第二分句中确定第一类分隔符,基于所述第一类分隔符将所述待调整第二分句划分为多个初始第三分句以及所述第一类分隔符,将所述多个初始第三分句以及所述第一类分隔符作为多个第三分句。

S409:判断所述多个第三分句中的每一个第三分句是否长度大于预设门限值,若大于,将该长度大于预设门限值的第三分句作为待调整第三分句,执行S410;否则,直接将长度不大于预设门限值的第三分句作为待输出第三分句。

S410:对所述待调整第三分句进行分词,得到多个词组,基于所述多个词组进行组合,得到小于所述预设长度门限值的多个所述待输出分句。

本公开第四实施例提供了一种文本切分装置,如图5所示,包括:

第一划分模块501,用于基于标点符号对待处理文本进行划分,得到L个第一分句;L为大于等于1的整数;

第二划分模块502,用于基于所述L个第一分句确定M个待输出分句,将所述M个待输出分句作为所述待处理文本的切分结果;

其中,所述第二划分模块502,用于在所述L个第一分句中的第i个第一分句的长度大于预设长度门限值的情况下,基于匹配规则对所述第i个第一分句进行处理,得到所述待输出分句;i为大于等于1且小于等于L的整数。

所述第一划分模块501,用于基于第一类标点符号对所述待处理文本进行划分,得到K个段落;K为大于等于1的整数;对所述K个段落中的第二类标点符号进行处理,得到处理后的K个段落;基于第三类标点符号对所述处理后的K个段落进行划分,得到所述L个第一分句。

所述第二划分模块502,用于从所述第i个第一分句中获取与文本匹配规则匹配的目标文本,基于所述目标文本将所述第i个第一分句划分为多个第二分句;在所述多个第二分句中存在长度大于所述预设长度门限值的待调整第二分句的情况下,基于分隔符匹配规则从所述待调整第二分句中确定第一类分隔符,基于所述第一类分隔符对所述待调整第二分句进行处理,得到所述待输出分句。

所述第二划分模块502,用于在所述目标文本之后的相邻位置处为第二类分隔符的情况下,将所述第i个第一分句划分为多个初始第二分句以及所述第二类分隔符;将所述第二类分隔符添加至所述多个初始第二分句中之一,得到所述多个第二分句。

如图6所示,所述装置还包括:

标记模块503,用于基于预设类型的单元文本对所述待处理文本进行标记,得到所述待处理文本中标记的目标单元文本;

所述第二划分模块502,用于基于所述文本匹配规则从所述第i个第一分句中确定匹配的所述目标文本,在所述目标文本中不存在对所述目标单元文本进行分割的情况下,基于所述目标文本将所述第i个第一分句划分为多个第二分句。

所述第二划分模块502,用于基于所述第一类分隔符将所述待调整第二分句划分为多个初始第三分句以及所述第一类分隔符,将所述多个初始第三分句以及所述第一类分隔符作为多个第三分句;在所述多个第三分句中存在长度不大于所述预设长度门限值的候选第三分句的情况下,将所述候选第三分句作为所述待输出分句。

所述第二划分模块502,用于在所述多个第三分句中存在长度大于所述预设长度门限值的待调整第三分句的情况下,对所述待调整第三分句进行分词,得到多个词组;基于所述多个词组进行组合,得到小于所述预设长度门限值的多个所述待输出分句。

根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或要求的本公开的实现。

如图7所示,电子设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序来执行各种适当的动作和处理。在RAM 703中,还可存储电子设备700操作所需的各种程序和数据。计算单元001、ROM 702以及RAM 703通过总线704彼此相连。输入输出(I/O)接口705也连接至总线704。

电子设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如内容推荐方法。例如,在一些实施例中,内容推荐方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到电子设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的内容推荐方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行内容推荐方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入、或者触觉输入来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

相关技术
  • 文本切分方法、装置、电子设备和存储介质
  • 语句文本的切分方法、装置、设备和计算机可读存储介质
技术分类

06120112810125