掌桥专利:专业的专利平台
掌桥专利
首页

一种数据处理方法、装置和电子设备

文献发布时间:2023-06-19 11:35:49


一种数据处理方法、装置和电子设备

技术领域

本发明涉及数据处理技术领域,特别是涉及一种数据处理方法、装置和 电子设备。

背景技术

随着互联网的快速发展,互联网已经成为了人们获取信息的主要渠道; 而随着信息时代的发展,互联网上的电子文档的数量也正急剧增长。面对越 来越多的文本资料,如何有效的阅读和筛选有价值的信息已经成为我们关注 的重点。

为了能够使得用户能够快速的获取文档资料中有价值的信息,现有技术 通常会从文本资料中提取关键词提供给用户。然而关键词本身的信息量是有 限的,因此用户通过关键词能够获取到的有价值的信息也是有限的。

发明内容

本发明实施例提供一种数据处理方法,以从文本资料中提取出准确的摘 要,使得用户通过摘要能够快速的获取文本资料中更多有价值的信息。

相应的,本发明实施例还提供了一种数据处理装置和一种电子设备,用 以保证上述方法的实现及应用。

为了解决上述问题,本发明实施例公开了一种数据处理方法,具体包括: 获取待处理文本;对所述待处理文本进行分段处理,得到多个文本段落;依 据预设的摘要确定模型分别确定各文本段落对应的摘要。

可选地,所述对待处理文本进行分段处理,得到多个文本段落,包括: 统计所述待处理文本的全文关键词,并构建所述全文关键词的词汇链;依次 从所述待处理文本中确定长度相同的两个相邻语句,得到多个语句对;针对 每个语句对,依据所述词汇链确定所述语句对中两个相邻语句的差异信息; 若所述差异信息大于或者等于差异阈值,则从所述语句对中两个相邻语句连 接处进行分段。

可选地,所述依据预设的摘要确定模型分别确定各文本段落对应的摘 要,包括:针对每一文本段落,将所述文本段落输入至所述摘要确定模型中, 由所述摘要确定模型输出包含至少一个语句的摘要;其中,所述语句包括完 整句子和/或不完整句子。

可选地,所述的方法还包括:对各文本段落对应的摘要与其他文本进行 区别显示;所述其他文本是所述待处理文本中除摘要之外的文本。

可选地,所述对各文本段落对应的摘要与其他文本进行区别显示,包括: 查找预设的反向索引,确定所述摘要在所述待处理文本中的位置;基于所述 摘要在待处理文本中的位置,对所述摘要与其他文本进行区别显示。

可选地,所述获取待处理文本,包括:获取录音音频数据;对所述录音 音频数据进行语音识别,得到待处理文本。

可选地,所述获取待处理文本,包括:获取原语言文本;将所述原语言 文本翻译为目标语言文本,得到待处理文本。

可选地,所述获取待处理文本,包括:获取所述网页中网页内容作为待 处理文本。

可选地,所述获取待处理文本,包括:接收用户在当前界面中执行的摘 要查看操作;获取当前界面中的文本作为待处理文本。

本发明实施例还公开了一种数据处理装置,具体包括:获取模块,用于 获取待处理文本;分段模块,用于对所述待处理文本进行分段处理,得到多 个文本段落;摘要确定模块,用于依据预设的摘要确定模型分别确定各文本 段落对应的摘要。

可选地,所述分段模块,包括:词汇链构建子模块,用于统计所述待处 理文本的全文关键词,并构建所述全文关键词的词汇链;语句确定子模块, 用于依次从所述待处理文本中确定长度相同的两个相邻语句,得到多个语句 对;差异信息确定子模块,用于针对每个语句对,依据所述词汇链确定所述 语句对中两个相邻语句的差异信息;文本分段子模块,用于若所述差异信息 大于或者等于差异阈值,则从所述语句对中两个相邻语句连接处进行分段。

可选地,所述摘要确定模块,用于针对每一文本段落,将所述文本段落 输入至所述摘要确定模型中,由所述摘要确定模型输出包含至少一个语句的 摘要;其中,所述语句包括完整句子和/或不完整句子。

可选地,所述的装置还包括:显示模块,用于对各文本段落对应的摘要 与其他文本进行区别显示;所述其他文本是所述待处理文本中除摘要之外的 文本。

可选地,所述显示模块,包括:位置确定子模块,用于查找预设的反向 索引,确定所述摘要在所述待处理文本中的位置;区别显示子模块,用于基 于所述摘要在待处理文本中的位置,对所述摘要与其他文本进行区别显示。

可选地,所述获取模块,包括:录音文本获取子模块,用于获取录音音 频数据;对所述录音音频数据进行语音识别,得到待处理文本。

可选地,所述获取模块,包括:翻译文本获取子模块,用于获取原语言 文本;将所述原语言文本翻译为目标语言文本,得到待处理文本。

可选地,所述获取模块包括:网页文本获取子模块,用于获取所述网页 中网页内容作为待处理文本。

可选地,所述获取模块,包括:界面文本获取子模块,用于接收用户在 当前界面中执行的摘要查看操作;获取当前界面中的文本作为待处理文本。

本发明实施例还公开了一种可读存储介质,当所述存储介质中的指令由 电子设备的处理器执行时,使得电子设备能够执行如本发明实施例任一所述 的数据处理方法。

本发明实施例还公开了一种电子设备,包括有存储器,以及一个或者一 个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由 一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以 下操作的指令:获取待处理文本;对所述待处理文本进行分段处理,得到多 个文本段落;依据预设的摘要确定模型分别确定各文本段落对应的摘要。

可选地,所述对待处理文本进行分段处理,得到多个文本段落,包括: 统计所述待处理文本的全文关键词,并构建所述全文关键词的词汇链;依次 从所述待处理文本中确定长度相同的两个相邻语句,得到多个语句对;针对 每个语句对,依据所述词汇链确定所述语句对中两个相邻语句的差异信息; 若所述差异信息大于或者等于差异阈值,则从所述语句对中两个相邻语句连 接处进行分段。

可选地,所述依据预设的摘要确定模型分别确定各文本段落对应的摘 要,包括:针对每一文本段落,将所述文本段落输入至所述摘要确定模型中, 由所述摘要确定模型输出包含至少一个语句的摘要;其中,所述语句包括完 整句子和/或不完整句子。

可选地,还包含用于进行以下操作的指令:对各文本段落对应的摘要与 其他文本进行区别显示;所述其他文本是所述待处理文本中除摘要之外的文 本。

可选地,所述对各文本段落对应的摘要与其他文本进行区别显示,包括: 查找预设的反向索引,确定所述摘要在所述待处理文本中的位置;基于所述 摘要在待处理文本中的位置,对所述摘要与其他文本进行区别显示。

可选地,所述获取待处理文本,包括:获取录音音频数据;对所述录音 音频数据进行语音识别,得到待处理文本。

可选地,所述获取待处理文本,包括:获取原语言文本;将所述原语言 文本翻译为目标语言文本,得到待处理文本。

可选地,所述获取待处理文本,包括:获取所述网页中网页内容作为待 处理文本。

可选地,所述获取待处理文本,包括:接收用户在当前界面中执行的摘 要查看操作;获取当前界面中的文本作为待处理文本。

本发明实施例包括以下优点:

本发明实施例中,在获取待处理文本后,可以对待处理文本进行分段处 理,得到多个文本段落;然后依据预设的摘要确定模型分别确定各文本段落 对应的摘要;由于摘要确定模型提取出的摘要涵盖了文本资料的关键信息, 且相对于关键词而言,摘要包含的信息量更多,进而基于提取出的摘要,用 户能够快速的获取文本资料中更多有价值的信息。

附图说明

图1是本发明的一种数据处理方法实施例的步骤流程图;

图2是本发明的一种数据处理方法可选实施例的步骤流程图;

图3是本发明实施例的一种显示待处理文本中摘要的示意图;

图4是本发明的一种数据处理装置实施例的结构框图;

图5是本发明的一种数据处理装置可选实施例的结构框图;

图6根据一示例性实施例示出的一种用于数据处理的电子设备的结构框 图;

图7是本发明根据另一示例性实施例示出的一种用于数据处理的电子设 备的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图 和具体实施方式对本发明作进一步详细的说明。

本发明实施例的核心构思之一是,先对文本进行分段,然后基于预设的 摘要确定模型为每段文本段落,确定出准确的摘要;使得用户通过摘要能够 快速的获取文本资料中更多有价值的信息。

参照图1,示出了本发明的一种数据处理方法实施例的步骤流程图,具 体可以包括如下步骤:

步骤102、获取待处理文本。

本发明实施例中,当需要为某篇文本确定摘要时,可以获取该篇文本, 然后执行步骤104~步骤106,确定该文本的摘要。

其中,为了便于说明,可以将需要确定摘要的文本称为待处理文本。

其中,所述待处理文本可以是指包含的文本数大于设定值的文本;所述 设定值可以按照需求设置,本发明实施例对此不作限制。

其中,所述待处理文本可以是各种语种的文本,如英文文本、中文文本、 韩文文本;也可以如中英文混合文本,等等;本发明实施例对此不作限制。 当然,所述待处理文本也可以是各种类型的文本,如网页中的网页内容、录 音文本、翻译文本等等,本发明实施例对此也不作限制。

步骤104、对待处理文本进行分段处理,得到多个文本段落。

步骤106、依据预设的摘要确定模型分别确定各文本段落对应的摘要。

本发明实施例中,可以预先训练摘要确定模型;然后采用摘要确定模型 对待处理文本进行处理,来确定出待处理文本的摘要。其中,摘要确定模型 的训练方法可以在后续进行说明。

由于摘要确定模型无法对长文本进行处理,确定对应的摘要;因此可以 在获取到待处理文本后,对待处理文本进行分段处理,将待处理文本划分为 多个文本段落。然后再采用训练后的摘要确定模型依次对这多个文本段落进 行处理,确定各文本段落对应的摘要。相对于关键词而言,摘要包含的信息 量更多,进而基于提取出的摘要,用户能够快速的获取文本资料中更多有价 值的信息。

综上,本发明实施例中,在获取待处理文本后,可以对待处理文本进行 分段处理,得到多个文本段落;然后依据预设的摘要确定模型分别确定各文 本段落对应的摘要;由于摘要确定模型提取出的摘要涵盖了文本资料的关键 信息,且相对于关键词而言,摘要包含的信息量更多,进而基于提取出的摘 要,用户能够快速的获取文本资料中更多有价值的信息。

其中,可以参照如下步骤X22~步骤X26,对摘要确定模型进行训练:

步骤X22、收集训练样本,所述训练样本包括多个,每个训练样本包括 一段文本。

一个示例中,可以从网页中获取网页内容,然后对该网页内容进行分段, 得到多段文本;再将一段文本作为一个训练样本。所述网页可以是各种类型 的网页,如体育类网页、娱乐类网页、新闻类网页、房产类网页等等,可以 按照需求确定,本发明实施例对此不作限制。

另一个示例中,可以从电子版的书籍中获取多段文本,并将每一段文本 作为一个训练样本。其中,所述书籍的类型也可以包括多种,如计算机类、 电子类、医学类、文学类、金融类等等,以按照需求确定,本发明实施例对 此不作限制。

当然还可以获取录音文本、翻译文本等,从这些文本中收集训练样本; 本发明实施例对此不作限制。

步骤X24、确定训练样本的对应的样本标签。

本发明实施例中,针对每个训练样本,可以对该训练样本进行分析,确 定该训练样本的摘要;然后将该训练样本的摘要作为该训练样本的样本标 签。其中,针对一个训练样本,可以对该训练样本包含的文本进行分析,将 该文本中部分语句作为该文本的摘要。

步骤X26、基于所述训练样本和对应的样本标签,对摘要确定模型进行 训练。

然后可以采用多个训练样本和对应的样本标签,对摘要确定模型进行训 练。针对每一个训练样本,可以将该训练样本和样本标签输入至摘要确定模 型中,由该摘要确定模型基于该训练样本进行前向计算,输出对应的摘要。 其中,摘要确定模型输出的摘要是从训练样本中选取的。然后将其输出的摘 要与该训练样本的样本标签进行对比,对其模型参数进行调整。

本发明的一个可续实施例中,可以将摘要确定模型的输出,设置为以语 句为单位的输出。其中,一个示例中,所述语句可以是指处于相邻的两个句 末标点符号之间的语句,即摘要确定模型输出的摘要中每个语句都是一个完 整的句子;如两个句号之间的语句,一个感叹号和一个句号之间的语句等等。 另一个示例中,所述语句可以是指两个相邻的标点符号之间的语句,即摘要 确定模型输出的摘要中的语句可以一个完整的句子,也可以是一个不完整的 句子;例如两个逗号之间的语句,两个顿号之间的语句、逗号和句号之间的 语句等等。进而避免将包含多个分句的完整句子中没有价值的分句确定为摘 要,能够进一步提高后续采用摘要确定模型提取摘要的准确性。

本发明实施例中,在确定待处理文本中各文本段落对应的摘要后,还可 以对摘要与其他文本进行区别显示,以便用户快速阅读摘要,从而快速获取 待处理文本中有价值的信息。

参照图2,示出了本发明的一种数据处理方法可选实施例的步骤流程图, 具体可以包括如下步骤:

步骤202、获取待处理文本。

很多情况下,需要对录音音频数据进行整理,整理成录音文本;当录音 文本较长时,用户很难从中获取有价值的信息。因此本发明实施例的一个应 用场景可以是,提取录音文本的摘要,便于用户能够快速的从录音文本中获 取有价值的信息。对应的,一种获取待处理文本的方式可以包括如下子步骤 S22~子步骤S24:

子步骤S22、获取录音音频数据。

子步骤S24、对所述录音音频数据进行语音识别,得到待处理文本。

其中,可以从录音设备如录音笔,或移动终端中获取历史录音得到的录 音音频数据。然后可以对录音音频数据进行语音识别,得到对应的语音识别 文本;然后可以将该语音识别文本确定为待处理文本。

很多情况下用户可能需要对文本进行翻译,再阅读翻译得到的翻译文 本。当翻译文本较长时,用户很难从中获取有价值的信息。因此本发明实施 例的一个应用场景可以是,提取翻译文本的摘要,便于用户能够快速的从翻 译文本中获取有价值的信息。对应的,一种获取待处理文本的方式可以包括 如下子步骤S42~子步骤S44:

子步骤S42、获取原语言文本。

子步骤S44、将所述原语言文本翻译为目标语言文本,得到待处理文本。

本发明实施例中,获取原语言文本的方式可以包括多种,如从网页中获 取网页内容作为原语言文本,又如从电子书籍中获取原语言文本;又如获取 录音音频数据,通过对录音音频数据进行识别,得到原语言文本。

然后可以获取用户所要求的目标语言,并将原语言文本翻译为目标语言 的文本,即翻译文本;再将该翻译文本作为待处理文本。

在搜索场景或者信息浏览的场景中,用户往往需要看完某个网页中的内 容,才能够知道该网页是否是用户自身所需的网页;因此为了提高用户的搜 索效率、浏览效率,本发明的一个应用场景是,确定网页中的网页内容的摘 要,便于用户快速该网页中有价值的信息。对应的,一种获取待处理文本的 方式可以包括:获取所述网页中网页内容作为待处理文本。

当然,本发明实施例中,还可以根据用户需求来确定是否需要确定当前 界面中文本的摘要;以避免针对无需获取当前界面中文本摘要的用户造成干 扰,且还可以减少计算资源浪费。对应的,一种获取待处理文本的方式可以 包括如下子步骤S62~子步骤S64:

子步骤S62、接收用户在当前界面中触发的摘要查看操作。

子步骤S64、获取当前界面中的文本作为待处理文本。

其中,当前界面可以是网页页面,也可以是录音音频数据的语音识别文 本的展示界面,还可以是翻译界面等等,本发明实施例对此不作限制。当前 界面中可以预先设置一摘要查看控件;当用户需要查看当前界面中文本的摘 要时,可以触发该摘要查看控件,来执行摘要查看操作。待用户在当前界面 中触发的摘要查看操作后,可以获取当前界面中的文本作为待处理文本,然 后执行步骤204~214。

其中,上述步骤104:对待处理文本进行分段处理,得到多个文本段落; 可以包括如下步骤204~步骤210:

步骤204、统计所述待处理文本的全文关键词,并构建所述全文关键词 的词汇链。

步骤206、依次从所述待处理文本中确定长度相同的两个相邻语句,得 到多个语句对。

步骤208、针对每个语句对,依据所述词汇链确定所述语句对中两个相 邻语句的差异信息。

步骤210、若所述差异信息大于或等于差异阈值,则从所述语句对中两 个相邻语句连接处进行分段。

其中,可以统计待处理文本的关键词;并从待处理文本中,选取出现频 次最高的前N个关键词,作为全文关键词,所述N为正整数,可以按照需 求设置,本发明实施例对此不作限制。然后针对每一个全文关键词,可以从 待处理文本中,查找与该全文关键词所描述主题类似且相关的词语,与该全 文关键词组成词汇链;进而可以得到多个词汇链。其中,词汇链可以是指围 绕着一个主题的一系列相关的词语组成的集合;词汇链中的词语之间存在着 一定的语义相关性。

然后可以在待处理文本中从前到后,依次确定长度相同的两个相邻语 句,得到多个语句对;其中,一个语句对可以包括两个相邻的语句。再针对 每个语句对,依据所述词汇链确定所述语句对中两个相邻语句的差异信息。

现以针对一个语句对中的两个相邻语句,依据一个词汇链确定所述语句 对中两个相邻语句的差异信息为例进行说明:可以根据该词汇链,计算这两 个相邻语句之间的差异信息,进而得到这个语句对中两个相邻语句针对该词 汇链的差异信息。其中,可以计算该词汇链中每个词汇的分值,然后依据该 词汇链中各词汇的分值,分别确定这两个相邻语句对应的分值;再根据这两 个相邻语句各自对应的分值,确定这两个相邻语句的差异信息。其中,词汇 链中每个词汇的分值可以根据该词汇在待处理文本中出现的频次、待处理文 本的长度和词汇链的长度确定。

其中,针对该语句对中两个相邻语句中的每一个语句,可以确定该语句 所包含的该词汇链中的词语;然后将该语句中所包含的该词汇链中的词语所 对应分值之和,作为该语句的分值。一个示例中,可以根据这两个相邻语句 各自对应的分值,计算这两个相邻语句的余弦距离,将得到的余弦距离作为 这两个相邻语句的差异信息。

通过上述过程中,每个语句对中的两个相邻语句,可以对应N个差异分 值后;针对每个语句对,可以分别判断该语句对中两个相邻语句之间的N个 差异信息是否均大于或等于差异阈值。若这两个相邻语句之间的N个差异信 息均大于或等于差异阈值,则从这个语句对中两个相邻语句连接处进行分 段。若这个语句对中两个相邻语句之间的N个差异信息中,存在小于差异阈 值的差异信息,则针对下一个语句对中两个相邻的语句,执行步骤206中的 依据所述词汇链确定两个相邻语句的差异信息;以及执行步骤208~步骤210。 进而可以将待处理文本划分为多个文本段落。

步骤212、针对每一文本段落,将所述文本段落输入至所述摘要确定模 型中,由所述摘要确定模型输出包含至少一个语句的摘要;其中,所述语句 包括完整句子和/或不完整句子。

然后针对每一文本段落,可以将该文本段落输入至训练后的摘要确定模 型中,由摘要确定模型对该文本段落进行处理,输出包含至少一个语句的摘 要。

其中,每个语句可以是两个相邻句末标点符号之间的语句,也就是一个 完整的句子;也可以是相邻的两个任意类型标点符号之间的语句,可以是不 完整的句子,也可以是完整的句子;这可以由训练摘要确定模型中的设置决 定。当摘要确定模型输出包括至少一个相邻的两个任意类型两个标点符号之 间语句的摘要时,能够避免将包括多个分句的完整句子中没有价值的分句作 为摘要,能够进一步提高后续采用摘要确定模型提取摘要的准确性。

步骤214、对各文本段落对应的摘要与其他文本进行区别显示,所述其 他文本是所述待处理文本中除摘要之外的文本。

本发明实施例中,可以对各文本段落对应的摘要与其他文本进行区别显 示;进而可以将摘要与待处理文本中其他文本区别开,以便用户快速阅读摘 要,从而快速获取待处理文本中有价值的信息。

可参照图3,示出了本发明实施例的一种显示待处理文本中摘要的示意 图。图3是一小说的部分章节,该章节被划分成了两个文本段落。根据图3 可知,用户根据突出显示的摘要,能够快速获取该章节中有价值的信息。

本发明实施例中,所述步骤214可以包括如下子步骤S82~子步骤S84:

子步骤S82、查找预设的反向索引,确定所述摘要在所述待处理文本中 的位置。

子步骤S84、基于所述摘要在待处理文本中的位置,对所述摘要与其他 文本进行区别显示。

本发明实施例中,在获取待处理文本的同时,可以获取该待处理文本对 应的反向索引;所述反向索引可以是指待处理文本中各文本与其在待处理文 本中位置的索引。其中,各文本在待处理文本中位置可以是指该文本在待处 理文本中的排列位置如序号;例如待处理文本中的第10个文本“美”,则 “美”这个文本在待处理文本中的位置是“10”。

进而在确定摘要后,可以查找反向索引,确定摘要中每个文本在待处理 文本中的位置。然后在展示待处理文本时,基于显示界面的尺寸和显示界面 的显示规则,确定待处理文本中各文本对应在显示界面中的显示位置;进而 可以确定摘要中每个文本在显示界面中的目标显示位置。然后可以对目标显 示位置的文本,与其他显示位置的文本进行区别显示。

本发明的一个示例中,所述基于所述摘要在待处理文本中的位置,对所 述摘要与其他文本进行区别显示的一种方式,可以是基于所述摘要在待处理 文本中的位置,采用与待处理文本中其他文本不同的显示样式,对摘要进行 显示。

其中,所述显示样式包括多种,如文本自身的显示样式,又如文本背景 的显示样式等等。其中,所述文本自身的显示样式包括文本的字体、颜色、 字号等等;所述文本背景的显示样式可以包括颜色、图案等等,本发明实施 例对此不做限制。进而可以采用与其他文本不同的显示样式,对在显示界面 中目标显示位置显示的文本进行显示,和/或,对目标显示位置的背景进行显 示。

综上,本发明实施例中,对待处理文本进行分段处理,得到多个文本段 落;然后确定各文本段落对应的摘要,能够使得待处理文本的摘要分布均匀, 进而避免摘要过于集中而遗漏待处理文本中有价值的信息。

其次,本发明实施例中,统计所述待处理文本的全文关键词,并构建所 述全文关键词的词汇链;然后依次从所述待处理文本中确定长度相同的两个 相邻语句,得到多个语句对;再针对每个语句对,依据所述词汇链确定所述 语句对中两个相邻语句的差异信息,若所述差异信息大于差异阈值,则从所 述语句对中两个相邻语句连接处进行分段;进而通过词汇链分段的方式,准 确的划分出段落,有利于后续为每个文本段落确定对应的摘要。

进一步,本发明实施例中,针对每一文本段落,将所述文本段落输入至 所述摘要确定模型中,由所述摘要确定模型输出包含至少一个语句的摘要; 其中,所述语句可以包括不完整句子;进而避免将包括多个分句的完整句子 中没有价值的分句作为摘要。

再次,本发明实施例中,还可以对各文本段落对应的摘要与其他文本进 行区别显示;进而能够将摘要与待处理文本中的其他文本区别开,以便用户 快速阅读摘要,从而快速获取待处理文本中有价值的信息。

需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系 列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述 的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或 者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例 均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。

参照图4,示出了本发明的一种数据处理装置实施例的结构框图,具体 可以包括如下模块:

获取模块402,用于获取待处理文本;

分段模块404,用于对所述待处理文本进行分段处理,得到多个文本 段落;

摘要确定模块406,用于依据预设的摘要确定模型分别确定各文本段 落对应的摘要。

参照图5,示出了本发明的一种数据处理装置可选实施例的结构框图。

本发明一个可选的实施例中,所述分段模块404,包括:

词汇链构建子模块4042,用于统计所述待处理文本的全文关键词,并构 建所述全文关键词的词汇链;

语句确定子模块4044,用于依次从所述待处理文本中确定长度相同的两 个相邻语句,得到多个语句对;

差异信息确定子模块4046,用于针对每个语句对,依据所述词汇链确定 所述语句对中两个相邻语句的差异信息;

文本分段子模块4048,用于若所述差异信息大于或者等于差异阈值,则 从所述语句对中两个相邻语句连接处进行分段。

本发明一个可选的实施例中,所述摘要确定模块406,用于针对每一文 本段落,将所述文本段落输入至所述摘要确定模型中,由所述摘要确定模型 输出包含至少一个语句的摘要;其中,所述语句包括完整句子和/或不完整句 子。

本发明一个可选的实施例中,所述的装置还包括:

显示模块408,用于对各文本段落对应的摘要与其他文本进行区别显示; 所述其他文本是所述待处理文本中除摘要之外的文本。

本发明一个可选的实施例中,所述显示模块408,包括:

位置确定子模块4082,用于查找预设的反向索引,确定所述摘要在所述 待处理文本中的位置;

区别显示子模块4084,用于基于所述摘要在待处理文本中的位置,对所 述摘要与其他文本进行区别显示。

本发明一个可选的实施例中,所述获取模块402,包括:

录音文本获取子模块4022,用于获取录音音频数据;对所述录音音频数 据进行语音识别,得到待处理文本。

本发明一个可选的实施例中,所述获取模块402,包括:

翻译文本获取子模块4024,用于获取原语言文本;将所述原语言文本翻 译为目标语言文本,得到待处理文本。

本发明一个可选的实施例中,所述获取模块402包括:

网页文本获取子模块4026,用于获取所述网页中网页内容作为待处理文 本。

本发明一个可选的实施例中,所述获取模块402,包括:

界面文本获取子模块4028,用于接收用户在当前界面中执行的摘要查看 操作;获取当前界面中的文本作为待处理文本。

综上,本发明实施例中,在获取待处理文本后,可以对待处理文本进行 分段处理,得到多个文本段落;然后依据预设的摘要确定模型分别确定各文 本段落对应的摘要;由于摘要确定模型提取出的摘要涵盖了文本资料的关键 信息,且相对于关键词而言,摘要包含的信息量更多,进而基于提取出的摘 要,用户能够快速的获取文本资料中更多有价值的信息。

对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较 简单,相关之处参见方法实施例的部分说明即可。

图6是根据一示例性实施例示出的一种用于数据处理的电子设备600的 结构框图。例如,电子设备600可以是移动电话,计算机,数字广播终端, 消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助 理,智能穿戴设备等。

参照图6,电子设备600可以包括以下一个或多个组件:处理组件602, 存储器604,电力组件606,多媒体组件608,音频组件610,输入/输出(I/ O)的接口612,传感器组件614,以及通信组件616。

处理组件602通常控制电子设备600的整体操作,诸如与显示,电话呼 叫,数据通信,相机操作和记录操作相关联的操作。处理元件602可以包括 一个或多个处理器620来执行指令,以完成上述的方法的全部或部分步骤。 此外,处理组件602可以包括一个或多个模块,便于处理组件602和其他组 件之间的交互。例如,处理部件602可以包括多媒体模块,以方便多媒体组 件608和处理组件602之间的交互。

存储器604被配置为存储各种类型的数据以支持在电子设备600的操 作。这些数据的示例包括用于在电子设备600上操作的任何应用程序或方法 的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器604可以 由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机 存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除 可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。

电力组件606为电子设备600的各种组件提供电力。电力组件606可以 包括电源管理系统,一个或多个电源,及其他与为电子设备600生成、管理 和分配电力相关联的组件。

多媒体组件608包括在所述电子设备600和用户之间的提供一个输出接 口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板 (TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用 户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触 摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而 且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中, 多媒体组件608包括一个前置摄像头和/或后置摄像头。当电子设备600处于 操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收 外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透 镜系统或具有焦距和光学变焦能力。

音频组件610被配置为输出和/或输入音频信号。例如,音频组件610 包括一个麦克风(MIC),当电子设备600处于操作模式,如呼叫模式、记 录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音 频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实 施例中,音频组件610还包括一个扬声器,用于输出音频信号。

I/O接口612为处理组件602和外围接口模块之间提供接口,上述外围 接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按 钮、音量按钮、启动按钮和锁定按钮。

传感器组件614包括一个或多个传感器,用于为电子设备600提供各个 方面的状态评估。例如,传感器组件614可以检测到电子设备600的打开/ 关闭状态,组件的相对定位,例如所述组件为电子设备600的显示器和小键 盘,传感器组件614还可以检测电子设备600或电子设备600一个组件的位 置改变,用户与电子设备600接触的存在或不存在,电子设备600方位或加 速/减速和电子设备600的温度变化。传感器组件614可以包括接近传感器, 被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614 还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使 用。在一些实施例中,该传感器组件614还可以包括加速度传感器,陀螺仪 传感器,磁传感器,压力传感器或温度传感器。

通信组件616被配置为便于电子设备600和其他设备之间有线或无线方 式的通信。电子设备600可以接入基于通信标准的无线网络,如WiFi,2G 或3G,或它们的组合。在一个示例性实施例中,通信部件614经由广播信 道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实 施例中,所述通信部件614还包括近场通信(NFC)模块,以促进短程通信。 例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA) 技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。

在示例性实施例中,电子设备600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编 程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、 微处理器或其他电子元件实现,用于执行上述方法。

在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储 介质,例如包括指令的存储器604,上述指令可由电子设备600的处理器620 执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是 ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设 备等。

一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设 备的处理器执行时,使得电子设备能够执行一种数据处理方法,所述方法包 括:获取待处理文本;对所述待处理文本进行分段处理,得到多个文本段落; 依据预设的摘要确定模型分别确定各文本段落对应的摘要。

可选地,所述对待处理文本进行分段处理,得到多个文本段落,包括: 统计所述待处理文本的全文关键词,并构建所述全文关键词的词汇链;依次 从所述待处理文本中确定长度相同的两个相邻语句,得到多个语句对;针对 每个语句对,依据所述词汇链确定所述语句对中两个相邻语句的差异信息; 若所述差异信息大于或者等于差异阈值,则从所述语句对中两个相邻语句连 接处进行分段。

可选地,所述依据预设的摘要确定模型分别确定各文本段落对应的摘 要,包括:针对每一文本段落,将所述文本段落输入至所述摘要确定模型中, 由所述摘要确定模型输出包含至少一个语句的摘要;其中,所述语句包括完 整句子和/或不完整句子。

可选地,所述的方法还包括:对各文本段落对应的摘要与其他文本进行 区别显示;所述其他文本是所述待处理文本中除摘要之外的文本。

可选地,所述对各文本段落对应的摘要与其他文本进行区别显示,包括: 查找预设的反向索引,确定所述摘要在所述待处理文本中的位置;基于所述 摘要在待处理文本中的位置,对所述摘要与其他文本进行区别显示。

可选地,所述获取待处理文本,包括:获取录音音频数据;对所述录音 音频数据进行语音识别,得到待处理文本。

可选地,所述获取待处理文本,包括:获取原语言文本;将所述原语言 文本翻译为目标语言文本,得到待处理文本。

可选地,所述获取待处理文本,包括:获取所述网页中网页内容作为待 处理文本。

可选地,所述获取待处理文本,包括:接收用户在当前界面中执行的摘 要查看操作;获取当前界面中的文本作为待处理文本。

图7是本发明根据另一示例性实施例示出的一种用于数据处理的电子设 备700的结构示意图。该电子设备700可以是服务器,该服务器可因配置或 性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)722(例如,一个或一个以上处理器)和存储器732, 一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或 一个以上海量存储设备)。其中,存储器732和存储介质730可以是短暂存 储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图 示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地, 中央处理器722可以设置为与存储介质730通信,在服务器上执行存储介质 730中的一系列指令操作。

服务器还可以包括一个或一个以上电源726,一个或一个以上有线或无 线网络接口750,一个或一个以上输入输出接口758,一个或一个以上键盘 756,和/或,一个或一个以上操作系统741,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。

在示例性实施例中,服务器经配置以由一个或者一个以上中央处理器 722执行一个或者一个以上程序包含用于进行以下操作的指令:获取待处理 文本;对所述待处理文本进行分段处理,得到多个文本段落;依据预设的摘 要确定模型分别确定各文本段落对应的摘要。

可选地,所述对待处理文本进行分段处理,得到多个文本段落,包括: 统计所述待处理文本的全文关键词,并构建所述全文关键词的词汇链;依次 从所述待处理文本中确定长度相同的两个相邻语句,得到多个语句对;针对 每个语句对,依据所述词汇链确定所述语句对中两个相邻语句的差异信息; 若所述差异信息大于或者等于差异阈值,则从所述语句对中两个相邻语句连 接处进行分段。

可选地,所述依据预设的摘要确定模型分别确定各文本段落对应的摘 要,包括:针对每一文本段落,将所述文本段落输入至所述摘要确定模型中, 由所述摘要确定模型输出包含至少一个语句的摘要;其中,所述语句包括完 整句子和/或不完整句子。

可选地,还包含用于进行以下操作的指令:对各文本段落对应的摘要与 其他文本进行区别显示;所述其他文本是所述待处理文本中除摘要之外的文 本。

可选地,所述对各文本段落对应的摘要与其他文本进行区别显示,包括: 查找预设的反向索引,确定所述摘要在所述待处理文本中的位置;基于所述 摘要在待处理文本中的位置,对所述摘要与其他文本进行区别显示。

可选地,所述获取待处理文本,包括:获取录音音频数据;对所述录音 音频数据进行语音识别,得到待处理文本。

可选地,所述获取待处理文本,包括:获取原语言文本;将所述原语言 文本翻译为目标语言文本,得到待处理文本。

可选地,所述获取待处理文本,包括:获取所述网页中网页内容作为待 处理文本。

可选地,所述获取待处理文本,包括:接收用户在当前界面中执行的摘 要查看操作;获取当前界面中的文本作为待处理文本。

本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明 的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见 即可。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计 算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令 实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框 图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、 专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生 一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的 指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或 多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理 终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读 存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个 流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设 备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计 算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用 于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中 指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦 得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以, 所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所 有变更和修改。

此外,本申请实施例所涉及的年龄(性别、身份证号、护照号等(根据 需求调整))等不适针对个人信息的使用,而是通用的描述。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语 仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求 或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术 语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得 包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且 还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或 者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终 端设备中还存在另外的相同要素。

以上对本发明所提供的一种数据处理方法、一种数据处理装置和一种电 子设备,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方 式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心 思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施 方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对 本发明的限制。

相关技术
  • 数据处理方法、医学文本数据处理方法、装置及电子设备
  • 由电子设备执行的数据处理方法及装置、电子设备
技术分类

06120112985566