掌桥专利:专业的专利平台
掌桥专利
首页

面向海量大数据的存储服务处理方法、系统及云平台

文献发布时间:2023-06-19 18:32:25


面向海量大数据的存储服务处理方法、系统及云平台

技术领域

本发明涉及数据处理技术领域,具体而言,涉及一种面向海量大数据的存储服务处理方法、系统及云平台。

背景技术

数据存储是数据流在加工过程中产生的临时文件或加工过程中需要查找的信息,数据以某种格式记录在计算机内部或外部存储介质上。数据存储要命名,这种命名要反映信息特征的组成含义。数据流反映了系统中流动的数据,表现出动态数据的特征;数据存储反映系统中静止的数据,表现出静态数据的特征。其中,在现有技术中,针对海量大数据,一般是直接进行统一存储,使得存在数据的存储管控效果不佳的问题。

发明内容

有鉴于此,本发明的目的在于提供一种面向海量大数据的存储服务处理方法、系统及云平台,以改善数据的存储管控效果不佳的问题。

为实现上述目的,本发明实施例采用如下技术方案:

一种面向海量大数据的存储服务处理方法,包括:

从待存储文本数据中提取出候选关键文本数据,所述候选关键文本数据属于所述待存储文本数据中的至少一部分文本数据;

依据预先通过进行网络优化处理形成的关键文本数据识别神经网络,对所述候选关键文本数据进行识别提取处理,以识别出所述候选关键文本数据中的目标关键文本数据,所述目标关键文本数据属于所述候选关键文本数据中的至少一部分文本数据;

对所述目标关键文本数据和所述待存储文本数据中所述目标关键文本数据以外的非目标关键文本数据分别进行存储。

在一些优选的实施例中,在上述面向海量大数据的存储服务处理方法中,所述从待存储文本数据中提取出候选关键文本数据的步骤,包括:

获取到待存储文本数据,并对所述待存储文本数据进行文本分词处理,以形成所述待存储文本数据对应的待存储文本数据分词集合;

依据所述待存储文本数据分词集合包括的待存储文本数据分词词语在所述待存储文本数据中的分布信息,从所述待存储文本数据中提取出候选关键文本数据,所述候选关键文本数据包括的待存储文本数据分词词语在所述待存储文本数据中的分布信息满足预先配置的分布信息条件。

在一些优选的实施例中,在上述面向海量大数据的存储服务处理方法中,所述依据预先通过进行网络优化处理形成的关键文本数据识别神经网络,对所述候选关键文本数据进行识别提取处理,以识别出所述候选关键文本数据中的目标关键文本数据的步骤,包括:

提取到预先通过进行网络优化处理形成的关键文本数据识别神经网络,所述关键文本数据识别神经网络包括关键文本数据定位模型和关键文本数据预测模型,所述关键文本数据识别神经网络基于所述关键文本数据定位模型对应的关键文本数据定位误差和所述关键文本数据预测模型对应的关键文本数据预测误差进行网络优化处理形成,所述关键文本数据定位误差基于关键文本数据定位信息对应的关键文本数据预测概率系数和关键文本数据定位误差默认值确定;所述关键文本数据预测误差基于所述关键文本数据定位信息对应的定位正确率和关键文本数据预测误差默认值确定,所述关键文本数据定位信息依据示例性候选关键文本数据的文本关键信息和所述关键文本数据定位模型分析输出,所述关键文本数据定位信息对应的定位正确率依据所述示例性候选关键文本数据对应的关键文本数据真实定位信息分析输出,所述关键文本数据定位信息对应的关键文本数据预测概率系数依据所述示例性候选关键文本数据的文本关键信息和所述关键文本数据预测模型分析输出;

依据所述候选关键文本数据的文本关键信息和所述关键文本数据定位模型,分析输出所述候选关键文本数据对应的多个关键文本数据定位信息;

依据所述候选关键文本数据的文本关键信息和所述关键文本数据预测模型,分析输出所述候选关键文本数据对应的每一个关键文本数据定位信息对应的关键文本数据预测概率系数;

基于所述候选关键文本数据对应的每一个关键文本数据定位信息对应的关键文本数据预测概率系数,对所述候选关键文本数据进行关键文本数据识别提取处理,以输出所述候选关键文本数据中的目标关键文本数据。

在一些优选的实施例中,在上述面向海量大数据的存储服务处理方法中,所述依据所述候选关键文本数据的文本关键信息和所述关键文本数据定位模型,分析输出所述候选关键文本数据对应的多个关键文本数据定位信息的步骤,包括:

依据所述候选关键文本数据的文本关键信息和所述候选关键文本数据对应的相关关键文本数据的文本关键信息,分析输出所述候选关键文本数据和所述相关关键文本数据之间的第一关联性文本信息;以及,将所述第一关联性文本信息加载到所述关键文本数据定位模型,利用所述关键文本数据定位模型,分析输出所述候选关键文本数据对应的多个关键文本数据定位信息;

所述依据所述候选关键文本数据的文本关键信息和所述关键文本数据预测模型,分析输出所述候选关键文本数据对应的每一个关键文本数据定位信息对应的关键文本数据预测概率系数的步骤,包括:

依据所述候选关键文本数据的文本关键信息和所述相关关键文本数据的文本关键信息,分析输出所述候选关键文本数据和所述相关关键文本数据之间的第二关联性文本信息;以及,将所述第二关联性文本信息加载到所述关键文本数据预测模型中,利用所述关键文本数据预测模型,分析输出所述候选关键文本数据对应的每一个关键文本数据定位信息对应的关键文本数据预测概率系数。

在一些优选的实施例中,在上述面向海量大数据的存储服务处理方法中,所述关键文本数据识别神经网络还包括定位正确率分析模型,所述关键文本数据识别神经网络依据所述定位正确率分析模型对应的定位正确率误差、所述关键文本数据定位模型对应的关键文本数据定位误差和所述关键文本数据预测模型的关键文本数据预测误差进行网络优化处理形成,所述定位正确率误差依据所述关键文本数据定位信息的定位正确率分析结果和所述关键文本数据定位信息的定位正确率分析得到,所述定位正确率分析结果通过所述定位正确率分析模型对所述示例性候选关键文本数据的文本关键信息进行分析得到;所述基于所述候选关键文本数据对应的每一个关键文本数据定位信息对应的关键文本数据预测概率系数,对所述候选关键文本数据进行关键文本数据识别提取处理,以输出所述候选关键文本数据中的目标关键文本数据的步骤,包括:

将所述第一关联性文本信息加载到所述定位正确率分析模型中,利用所述定位正确率分析模型,分析输出所述候选关键文本数据对应的每一个关键文本数据定位信息对应的定位正确率分析结果;

分别将所述候选关键文本数据对应的每一个关键文本数据定位信息的定位正确率分析结果和对应的关键文本数据预测概率系数进行数据融合操作,以输出所述候选关键文本数据对应的每一个关键文本数据定位信息对应的定位评价指标值;

基于所述候选关键文本数据对应的每一个关键文本数据定位信息对应的定位评价指标值,对所述候选关键文本数据进行关键文本数据识别提取处理,输出所述候选关键文本数据中的目标关键文本数据。

在一些优选的实施例中,在上述面向海量大数据的存储服务处理方法中,所述关键文本数据识别神经网络的网络优化处理,包括:

提取到示例性候选关键文本数据,所述示例性候选关键文本数据具有示例性目标关键文本数据;

利用所述关键文本数据识别神经网络包括的关键文本数据定位模型,对所述示例性候选关键文本数据的文本关键信息进行处理,输出所述示例性候选关键文本数据对应的关键文本数据定位信息;

依据所述示例性候选关键文本数据对应的关键文本数据真实定位信息,分析输出所述示例性候选关键文本数据对应的关键文本数据定位信息对应的示例性定位正确率,以及,依据该示例性定位正确率分析输出对应的示例性关键文本数据定位误差;

利用所述关键文本数据识别神经网络包括的关键文本数据预测模型,对所述示例性候选关键文本数据的文本关键信息进行处理,输出所述示例性候选关键文本数据对应的关键文本数据定位信息对应的示例性关键文本数据预测概率系数,以及,依据该示例性关键文本数据预测概率系数分析输出对应的示例性关键文本数据预测误差;

依据所述示例性定位正确率对所述示例性关键文本数据预测误差进行调整处理,并依据所述示例性关键文本数据预测概率系数对所述示例性关键文本数据定位误差进行调整处理;

基于调整处理后的示例性关键文本数据预测误差和调整处理后的示例性关键文本数据定位误差,对所述关键文本数据识别神经网络进行网络优化处理。

在一些优选的实施例中,在上述面向海量大数据的存储服务处理方法中,所述依据所述示例性候选关键文本数据对应的关键文本数据真实定位信息,分析输出所述示例性候选关键文本数据对应的关键文本数据定位信息对应的示例性定位正确率的步骤,包括:

对所述示例性候选关键文本数据对应的关键文本数据真实定位信息和所述示例性候选关键文本数据对应的关键文本数据定位信息进行第一分析处理,以输出对应的相同关键文本数据定位信息;

对所述示例性候选关键文本数据对应的关键文本数据真实定位信息和所述示例性候选关键文本数据对应的关键文本数据定位信息进行第二分析处理,以输出对应的合并关键文本数据定位信息;

基于所述示例性候选关键文本数据对应的关键文本数据定位信息对应的相同关键文本数据定位信息与对应的合并关键文本数据定位信息,分析输出对应的示例性定位正确率。

在一些优选的实施例中,在上述面向海量大数据的存储服务处理方法中,所述对所述目标关键文本数据和所述待存储文本数据中所述目标关键文本数据以外的非目标关键文本数据分别进行存储的步骤,包括:

对所述目标关键文本数据进行数据量统计处理,以得到所述目标关键文本数据对应的目标数据量,再依据所述目标数据量和预先配置的数据量参考值之间的相对大小关系,对所述目标关键文本数据进行分解处理,以形成所述目标关键文本数据对应的至少一个子目标关键文本数据,所述至少一个子目标关键文本数据拼接形成所述目标关键文本数据;

将每一个所述子目标关键文本数据和所述待存储文本数据中所述目标关键文本数据以外的非目标关键文本数据分别进行存储。

本发明实施例还提供一种存储服务处理系统,包括处理器和存储器,所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序,以实现上述的面向海量大数据的存储服务处理方法。

本发明实施例还提供一种云平台,所述云平台包括计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,该计算机程序运行时执行上述的面向海量大数据的存储服务处理方法。

本发明实施例提供的一种面向海量大数据的存储服务处理方法、系统及云平台,从待存储文本数据中提取出候选关键文本数据;依据预先通过进行网络优化处理形成的关键文本数据识别神经网络,对候选关键文本数据进行识别提取处理,以识别出候选关键文本数据中的目标关键文本数据;对目标关键文本数据和待存储文本数据中目标关键文本数据以外的非目标关键文本数据分别进行存储。基于此,可以实现对数据的有效分类存储(关键数据和非关键数据),使得可以在一定程度上提高数据的存储管控效果,从而改善现有技术中存在的数据的存储管控效果不佳的问题。

为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

图1为本发明实施例提供的存储服务处理系统的结构框图。

图2为本发明实施例提供的面向海量大数据的存储服务处理方法包括的各步骤的流程示意图。

图3为本发明实施例提供的面向海量大数据的存储服务处理装置包括的各模块的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本发明的一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,本发明实施例提供了一种存储服务处理系统。其中,所述存储服务处理系统可以包括存储器和处理器。

详细地,在一些可能的实施方式中,所述存储器和处理器之间直接或间接地电性连接,以实现数据的传输或交互。例如,相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述存储器中可以存储有至少一个可以以软件或固件(firmware)的形式,存在的软件功能模块(计算机程序)。所述处理器可以用于执行所述存储器中存储的可执行的计算机程序,从而实现本发明实施例提供的面向海量大数据的存储服务处理方法。

详细地,在一些可能的实施方式中,所述存储器可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable ProgrammableRead-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable ProgrammableRead-Only Memory,EEPROM)等。所述处理器可以是一种通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)、片上系统(System on Chip,SoC)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

详细地,在一些可能的实施方式中,所述存储服务处理系统可以是一种具备数据处理能力的服务器(或由服务器组合形成的系统)。

结合图2,本发明实施例还提供一种面向海量大数据的存储服务处理方法,可应用于上述存储服务处理系统。其中,所述面向海量大数据的存储服务处理方法有关的流程所定义的方法步骤,可以由所述存储服务处理系统实现。下面将对图2所示的具体流程,进行详细阐述。

步骤S110,从待存储文本数据中提取出候选关键文本数据。

在本发明实施例中,所述存储服务处理系统可以从待存储文本数据中提取出候选关键文本数据(即实现关键数据初选)。所述候选关键文本数据属于所述待存储文本数据中的至少一部分文本数据。

步骤S120,依据预先通过进行网络优化处理形成的关键文本数据识别神经网络,对所述候选关键文本数据进行识别提取处理,以识别出所述候选关键文本数据中的目标关键文本数据。

在本发明实施例中,所述存储服务处理系统可以依据预先通过进行网络优化处理形成的关键文本数据识别神经网络,对所述候选关键文本数据进行识别提取处理,以识别出所述候选关键文本数据中的目标关键文本数据即实现关键数据再次筛选)。所述目标关键文本数据属于所述候选关键文本数据中的至少一部分文本数据。

步骤S130,对所述目标关键文本数据和所述待存储文本数据中所述目标关键文本数据以外的非目标关键文本数据分别进行存储。

在本发明实施例中,所述存储服务处理系统可以对所述目标关键文本数据和所述待存储文本数据中所述目标关键文本数据以外的非目标关键文本数据分别进行存储(即实现关键数据和非关键数据的分类存储)。

基于上述方法,一种面向海量大数据的存储服务处理方法、系统及云平台,从待存储文本数据中提取出候选关键文本数据;依据预先通过进行网络优化处理形成的关键文本数据识别神经网络,对候选关键文本数据进行识别提取处理,以识别出候选关键文本数据中的目标关键文本数据;对目标关键文本数据和待存储文本数据中目标关键文本数据以外的非目标关键文本数据分别进行存储。基于此,可以实现对数据的有效分类存储(关键数据和非关键数据),使得可以在一定程度上提高数据的存储管控效果,从而改善现有技术中存在的数据的存储管控效果不佳的问题。

详细地,在一些可能的实施方式中,对于上述描述中的步骤S110,可以进一步包括以下具体实施内容:

获取到待存储文本数据,并对所述待存储文本数据进行文本分词处理(可以采用现有的文本分词技术,在此不做具体的限定),以形成所述待存储文本数据对应的待存储文本数据分词集合;

依据所述待存储文本数据分词集合包括的待存储文本数据分词词语在所述待存储文本数据中的分布信息,从所述待存储文本数据中提取出候选关键文本数据,所述候选关键文本数据包括的待存储文本数据分词词语在所述待存储文本数据中的分布信息满足预先配置的分布信息条件(例如,所述候选关键文本数据包括的待存储文本数据分词词语的数量占比大于或等于数量占比阈值,且所述候选关键文本数据包括的待存储文本数据分词词语的分布密度大于或等于分布密度阈值等)。

详细地,在一些可能的实施方式中,对于上述描述中的步骤S120,可以进一步包括以下具体实施内容:

提取到预先通过进行网络优化处理形成的关键文本数据识别神经网络,所述关键文本数据识别神经网络包括关键文本数据定位模型和关键文本数据预测模型,所述关键文本数据识别神经网络基于所述关键文本数据定位模型对应的关键文本数据定位误差和所述关键文本数据预测模型对应的关键文本数据预测误差进行网络优化处理形成,所述关键文本数据定位误差基于关键文本数据定位信息对应的关键文本数据预测概率系数和关键文本数据定位误差默认值确定(示例性,可以基于所述关文本数据预测概率系数对所述关键文本数据定位误差默认值进行调整处理,以得到所述关键文本数据定位误差);所述关键文本数据预测误差基于所述关键文本数据定位信息对应的定位正确率和关键文本数据预测误差默认值确定(示例性,可以基于所述定位正确率对所述关键文本数据预测误差默认值进行调整处理,以得到所述关键文本数据预测误差),所述关键文本数据定位信息依据示例性候选关键文本数据的文本关键信息和所述关键文本数据定位模型分析输出,所述关键文本数据定位信息对应的定位正确率依据所述示例性候选关键文本数据对应的关键文本数据真实定位信息分析输出,所述关键文本数据定位信息对应的关键文本数据预测概率系数依据所述示例性候选关键文本数据的文本关键信息和所述关键文本数据预测模型分析输出,所述关键文本数据预测误差默认值依据所述关键文本数据预测概率系数确定(也可以预先配置),所述关键文本数据定位误差默认值依据所述定位正确率确定(也可以预先配置);

依据所述候选关键文本数据的文本关键信息和所述关键文本数据定位模型,分析输出所述候选关键文本数据对应的多个关键文本数据定位信息;

依据所述候选关键文本数据的文本关键信息和所述关键文本数据预测模型,分析输出所述候选关键文本数据对应的每一个关键文本数据定位信息对应的关键文本数据预测概率系数;

基于所述候选关键文本数据对应的每一个关键文本数据定位信息对应的关键文本数据预测概率系数,对所述候选关键文本数据进行关键文本数据识别提取处理,以输出所述候选关键文本数据中的目标关键文本数据。

详细地,在一些可能的实施方式中,对于上述描述中的所述依据所述候选关键文本数据的文本关键信息和所述关键文本数据定位模型,分析输出所述候选关键文本数据对应的多个关键文本数据定位信息的步骤,可以进一步包括以下具体实施内容:

依据所述候选关键文本数据的文本关键信息和所述候选关键文本数据对应的相关关键文本数据的文本关键信息,分析输出所述候选关键文本数据和所述相关关键文本数据之间的第一关联性文本信息(所述相关关键文本数据可以是与所述候选关键文本数据相关的文本数据,例如,所述相关关键文本数据可以是所述候选关键文本数据的历史版本等);以及,将所述第一关联性文本信息加载到所述关键文本数据定位模型,利用所述关键文本数据定位模型,分析输出所述候选关键文本数据对应的多个关键文本数据定位信息(参照后文的相关描述)。

详细地,在一些可能的实施方式中,对于上述描述中的所述依据所述候选关键文本数据的文本关键信息和所述关键文本数据预测模型,分析输出所述候选关键文本数据对应的每一个关键文本数据定位信息对应的关键文本数据预测概率系数的步骤,可以进一步包括以下具体实施内容:

依据所述候选关键文本数据的文本关键信息和所述相关关键文本数据的文本关键信息,分析输出所述候选关键文本数据和所述相关关键文本数据之间的第二关联性文本信息(所述相关关键文本数据可以是与所述候选关键文本数据相关的文本数据,例如,所述相关关键文本数据可以是所述候选关键文本数据的历史版本等);以及,将所述第二关联性文本信息加载到所述关键文本数据预测模型中,利用所述关键文本数据预测模型,分析输出所述候选关键文本数据对应的每一个关键文本数据定位信息对应的关键文本数据预测概率系数(参照后文的相关描述)。

详细地,在一些可能的实施方式中,所述关键文本数据识别神经网络还可以包括定位正确率分析模型,所述关键文本数据识别神经网络依据所述定位正确率分析模型对应的定位正确率误差、所述关键文本数据定位模型对应的关键文本数据定位误差和所述关键文本数据预测模型的关键文本数据预测误差进行网络优化处理形成,所述定位正确率误差依据所述关键文本数据定位信息的定位正确率分析结果和所述关键文本数据定位信息的定位正确率分析得到,所述定位正确率分析结果通过所述定位正确率分析模型对所述示例性候选关键文本数据的文本关键信息进行分析得到,基于此,对于上述描述中的所述基于所述候选关键文本数据对应的每一个关键文本数据定位信息对应的关键文本数据预测概率系数,对所述候选关键文本数据进行关键文本数据识别提取处理,以输出所述候选关键文本数据中的目标关键文本数据的步骤,可以进一步包括以下具体实施内容:

将所述第一关联性文本信息加载到所述定位正确率分析模型中,利用所述定位正确率分析模型,分析输出所述候选关键文本数据对应的每一个关键文本数据定位信息对应的定位正确率分析结果(即所述关键文本数据定位信息对应的定位正确率的分析值);

分别将所述候选关键文本数据对应的每一个关键文本数据定位信息的定位正确率分析结果和对应的关键文本数据预测概率系数进行数据融合操作,以输出所述候选关键文本数据对应的每一个关键文本数据定位信息对应的定位评价指标值(示例性地,所述定位评价指标值可以等于所述定位正确率分析结果和所述关键文本数据预测概率系数之间的乘积);

基于所述候选关键文本数据对应的每一个关键文本数据定位信息对应的定位评价指标值,对所述候选关键文本数据进行关键文本数据识别提取处理,输出所述候选关键文本数据中的目标关键文本数据(示例性地,可以将定位评价指标值最大的一个或多个关键文本数据定位信息反映出的文本数据,确定为所述候选关键文本数据中的目标关键文本数据)。

详细地,在一些可能的实施方式中,所述关键文本数据识别神经网络的网络优化处理,可以进一步包括以下具体实施内容:

提取到示例性候选关键文本数据,所述示例性候选关键文本数据具有示例性目标关键文本数据(所述示例性目标关键文本数据可以标识出);

利用所述关键文本数据识别神经网络包括的关键文本数据定位模型,对所述示例性候选关键文本数据的文本关键信息进行处理,输出所述示例性候选关键文本数据对应的关键文本数据定位信息(即对应的文本位置);

依据所述示例性候选关键文本数据对应的关键文本数据真实定位信息,分析输出所述示例性候选关键文本数据对应的关键文本数据定位信息对应的示例性定位正确率,以及,依据该示例性定位正确率分析输出对应的示例性关键文本数据定位误差(示例性地,所述示例性定位正确率可以用于反映关键文本数据定位信息的定位准确性,示例性定位正确率与该定位准确性之间可以正相关,也就是说,示例性定位正确率越大,对应的关键文本数据定位信息的越准确。另外,所述示例性关键文本数据定位误差可以反映出所述关键文本数据真实定位信息与对应的关键文本数据定位信息之间的差异,所述关键文本数据真实定位信息与对应的关键文本数据定位信息之间的差异越大,对应的示例性关键文本数据定位误差的值就越大。例如,可以基于对应的关键文本数据定位信息与所述关键文本数据真实定位信息之间的匹配程度,来确定关键文本数据定位信息的示例性定位正确率,并进一步依据该示例性定位正确率,确定出对应的示例性关键文本数据定位误差。其中,在所述示例性候选关键文本数据对应有多个关键文本数据定位信息时,可以分别基于每一个关键文本数据定位信息与所述关键文本数据真实定位信息之间的匹配程度来确定每一个关键文本数据定位信息对应的示例性定位正确率。如此,可以基于每一个关键文本数据定位信息对应的示例性定位正确率分别确定出每一个关键文本数据定位信息对应的示例性关键文本数据定位误差,其中,所述示例性定位正确率可以与所述示例性关键文本数据定位误差之间负相关,例如,可以将1与所述示例性定位正确率之间的差值作为所述示例性关键文本数据定位误差);

利用所述关键文本数据识别神经网络包括的关键文本数据预测模型,对所述示例性候选关键文本数据的文本关键信息进行处理,输出所述示例性候选关键文本数据对应的关键文本数据定位信息对应的示例性关键文本数据预测概率系数(可以参照后文的具体描述),以及,依据该示例性关键文本数据预测概率系数分析输出对应的示例性关键文本数据预测误差(示例性地,所述示例性关键文本数据预测概率系数可以用于反映对应的关键文本数据定位信息对应的文本数据中存在所述示例性目标关键文本数据的可能程度,如此,所述示例性关键文本数据预测概率系数越大,表明存在所述示例性目标关键文本数据的可能度越大。另外,所述示例性关键文本数据预测误差可以用于反映对应的预测准确度高低,所述示例性关键文本数据预测误差与该预测准确性之间可以负相关,也就是说,该预测准确度越高,所述示例性关键文本数据预测误差就越小);

依据所述示例性定位正确率对所述示例性关键文本数据预测误差进行调整处理,并依据所述示例性关键文本数据预测概率系数对所述示例性关键文本数据定位误差进行调整处理(示例性地,可以计算所述示例性定位正确率和所述示例性关键文本数据预测误差之间的乘积,以得到调整处理后的示例性关键文本数据预测误差;另外,可以计算所述示例性关键文本数据预测概率系数和所述示例性关键文本数据定位误差之间的乘积,以得到调整处理后的示例性关键文本数据定位误差);

基于调整处理后的示例性关键文本数据预测误差和调整处理后的示例性关键文本数据定位误差,对所述关键文本数据识别神经网络进行网络优化处理(示例性地,可以先对调整处理后的示例性关键文本数据预测误差和调整处理后的示例性关键文本数据定位误差进行叠加,再将叠加结果作为目标误差对所述关键文本数据识别神经网络进行网络优化处理)。

详细地,在一些可能的实施方式中,对于上述描述中的所述依据所述示例性候选关键文本数据对应的关键文本数据真实定位信息,分析输出所述示例性候选关键文本数据对应的关键文本数据定位信息对应的示例性定位正确率的步骤,可以进一步包括以下具体实施内容:

对所述示例性候选关键文本数据对应的关键文本数据真实定位信息和所述示例性候选关键文本数据对应的关键文本数据定位信息进行第一分析处理,以输出对应的相同关键文本数据定位信息(也就是说,所述相同关键文本数据定位信息对应的文本数据,为该关键文本数据真实定位信息对应的文本数据和该关键文本数据定位信息对应的文本数据的重合部分);

对所述示例性候选关键文本数据对应的关键文本数据真实定位信息和所述示例性候选关键文本数据对应的关键文本数据定位信息进行第二分析处理,以输出对应的合并关键文本数据定位信息(也就是说,所述合并关键文本数据定位信息对应的文本数据,包括该关键文本数据真实定位信息对应的文本数据和该关键文本数据定位信息对应的文本数据);

基于所述示例性候选关键文本数据对应的关键文本数据定位信息对应的相同关键文本数据定位信息与对应的合并关键文本数据定位信息,分析输出对应的示例性定位正确率(示例性地,计算所述相同关键文本数据定位信息与所述合并关键文本数据定位信息之间的商值,可以是定位范围的大小之间的商值,也可以数据量之间的商值,作为示例性定位正确率)。

详细地,在一些可能的实施方式中,对于上述描述中的所述依据该示例性关键文本数据预测概率系数分析输出对应的示例性关键文本数据预测误差的步骤,可以进一步包括以下具体实施内容:

对所述示例性候选关键文本数据对应的关键文本数据真实定位信息和所述示例性候选关键文本数据对应的关键文本数据定位信息进行第一分析处理,以输出对应的相同关键文本数据定位信息(如前所述);

对所述示例性候选关键文本数据对应的关键文本数据真实定位信息和所述示例性候选关键文本数据对应的关键文本数据定位信息进行第二分析处理,以输出对应的合并关键文本数据定位信息(如前所述);

基于所述示例性候选关键文本数据对应的关键文本数据定位信息对应的相同关键文本数据定位信息与对应的合并关键文本数据定位信息进行相除计算,输出对应的定位信息计算商值(如前所述);

在所述定位信息计算商值超过预先配置的定位信息计算参考上限值的情况下,基于所述示例性候选关键文本数据对应的相关预测值和所述示例性关键文本数据预测概率系数,分析输出对应的示例性关键文本数据预测误差(示例性地,所述定位信息计算参考上限值可以根据实际应用需求进行配置,例如,可以为0.65等数值;另外,在计算所述示例性关键文本数据预测误差时,可以先对所述示例性关键文本数据预测概率系数进行对数计算,再对所述相关预测值和所述示例性关键文本数据预测概率系数之间的差值,按照所述相关预测值进行指数计算,再将对数计算结果和指数计算结果进行融合,如计算乘积,再将该乘积的负相关值作为所述示例性关键文本数据预测误差,所述相关预测值可以等于1);

在所述定位信息计算商值未超过预先配置的定位信息计算参考下限值的情况,基于所述示例性候选关键文本数据对应的非相关预测值和所述关键文本数据预测概率系数,分析输出对应的示例性关键文本数据预测误差(示例性地,所述定位信息计算参考下限值可以根据实际应用需求进行配置,例如,可以为0.35等数值;另外,在计算所述示例性关键文本数据预测误差时,可以先对所述相关预测值和所述示例性关键文本数据预测概率系数之间的差值进行对数计算,再对所述所述示例性关键文本数据预测概率系数按照所述非相关预测值进行指数计算,再将对数计算结果和指数计算结果进行融合,如计算乘积,再将该乘积的负相关值作为所述示例性关键文本数据预测误差,所述非相关预测值可以等于0)。

详细地,在一些可能的实施方式中,对于上述描述中的所述基于调整处理后的示例性关键文本数据预测误差和调整处理后的示例性关键文本数据定位误差,对所述关键文本数据识别神经网络进行网络优化处理的步骤,可以进一步包括以下具体实施内容:

利用所述关键文本数据识别神经网络包括的定位正确率分析模型,分析输出所述示例性候选关键文本数据对应的关键文本数据定位信息的示例性定位正确率分析结果(即示例性定位正确率的分析值);

依据所述示例性定位正确率分析结果和所述示例性定位正确率,分析输出对应的示例性定位正确率误差(示例性地,所述示例性定位正确率误差可以用于反映所述示例性定位正确率分析结果与对应的关键文本数据定位信息实际的定位正确率之间的差异,其中,差异越大,说明所述示例性定位正确率误差越大,差异越小,说明所述示例性定位正确率误差越小);

基于所述示例性定位正确率误差、调整处理后的示例性关键文本数据预测误差和调整处理后的示例性关键文本数据定位误差,对所述关键文本数据识别神经网络进行网络优化处理(例如,可以将三者进行叠加,以得到目标误差,从而对所述关键文本数据识别神经网络进行网络优化处理)。

详细地,在一些可能的实施方式中,对于上述描述中的利用所述关键文本数据识别神经网络包括的定位正确率分析模型,分析输出所述示例性候选关键文本数据对应的关键文本数据定位信息的示例性定位正确率分析结果,可以进一步包括以下具体实施内容:

依据所述示例性候选关键文本数据的文本关键信息和所述示例性相关关键文本数据对应的示例性相关关键文本数据的文本关键信息,分析输出所述示例性候选关键文本数据和所述示例性相关关键文本数据之间的示例性第一关联性文本信息,所述示例性相关关键文本数据和所述示例性候选关键文本数据都具有所述示例性目标关键文本数据;以及,将所述示例性第一关联性文本信息加载到所述关键文本数据识别神经网络包括的定位正确率分析模型中,利用所述定位正确率分析模型,分析输出所述关键文本数据定位信息的示例性定位正确率分析结果。

详细地,在一些可能的实施方式中,对于上述描述中的所述利用所述关键文本数据识别神经网络包括的关键文本数据定位模型,对所述示例性候选关键文本数据的文本关键信息进行处理,输出所述示例性候选关键文本数据对应的关键文本数据定位信息的步骤,可以进一步包括以下具体实施内容:

依据所述示例性候选关键文本数据的文本关键信息和所述示例性相关关键文本数据对应的示例性相关关键文本数据的文本关键信息,分析输出所述示例性候选关键文本数据和所述示例性相关关键文本数据之间的示例性第一关联性文本信息,所述示例性相关关键文本数据和所述示例性候选关键文本数据都具有所述示例性目标关键文本数据;

将所述示例性第一关联性文本信息加载到所述关键文本数据定位模型中,利用所述关键文本数据定位模型,分析输出所述示例性候选关键文本数据对应的关键文本数据定位信息。

详细地,在一些可能的实施方式中,对于上述描述中的所述依据所述示例性候选关键文本数据的文本关键信息和所述示例性相关关键文本数据对应的示例性相关关键文本数据的文本关键信息,分析输出所述示例性候选关键文本数据和所述示例性相关关键文本数据之间的示例性第一关联性文本信息的步骤,可以进一步包括以下具体实施内容:

利用所述关键文本数据识别神经网络,分析输出所述示例性候选关键文本数据的文本关键信息和所述示例性相关关键文本数据对应的示例性相关关键文本数据的文本关键信息;

利用所述关键文本数据识别神经网络对所述示例性候选关键文本数据的文本关键信息和所述示例性相关关键文本数据的文本关键信息分别进行数据挖掘处理(例如,可以通过编码网络,对所述文本关键信息进行编码处理,以形成对应的表征向量,或者,对编码处理的输出进行进一步的压缩,以形成对应的表征向量,如示例性候选数据表征向量),输出所述示例性候选关键文本数据对应的示例性候选数据表征向量和所述示例性相关关键文本数据对应的示例性相关数据表征向量;

利用所述关键文本数据识别神经网络对所述示例性候选数据表征向量和示例性相关数据表征向量进行融合处理,以输出所述示例性候选关键文本数据和所述示例性相关关键文本数据之间的示例性第一关联性文本信息(示例性地,可以对所述示例性候选数据表征向量和所述示例性相关数据表征向量按照所述关键文本数据识别神经网络报考的卷积核的点位进行对应的点乘运算,以输出所述示例性候选关键文本数据所述示例性相关关键文本数据之间的示例性第一关联性文本信息,另外,所述示例性第一关联性文本信息可以用于反映所述示例性候选关键文本数据和所述示例性相关关键文本数据之间的关联性关系)。

详细地,在一些可能的实施方式中,对于上述描述中的所述利用所述关键文本数据识别神经网络,分析输出所述示例性候选关键文本数据的文本关键信息和所述示例性相关关键文本数据对应的示例性相关关键文本数据的文本关键信息的步骤,可以进一步包括以下具体实施内容:

分别将所述示例性候选关键文本数据和所述示例性相关关键文本数据加载到所述关键文本数据识别神经网络包括的一对关键信息挖掘模型中;

利用所述一对关键信息挖掘模型,对所述示例性候选关键文本数据和所述示例性相关关键文本数据进行关键信息挖掘处理(示例性地,可以利用所述一对关键信息挖掘模型中的一个关键信息挖掘模型对所述示例性候选关键文本数据进行关键信息挖掘处理,利用所述一对关键信息挖掘模型中的另一个关键信息挖掘模型对所述示例性相关关键文本数据进行关键信息挖掘处理),以形成所述示例性候选关键文本数据的文本关键信息和所述示例性相关关键文本数据的文本关键信息(所述文本关键信息可以包括语句的语义信息、语句之间的分布位置关系、语句之间的语义关系等信息,还可以包括词语的语义信息、词语之间的分布位置关系、词语之间的语义关系等信息,具体不受限制)。

详细地,在一些可能的实施方式中,对于上述描述中的所述利用所述关键文本数据识别神经网络包括的关键文本数据预测模型,对所述示例性候选关键文本数据的文本关键信息进行处理,输出所述示例性候选关键文本数据对应的关键文本数据定位信息对应的示例性关键文本数据预测概率系数的步骤,可以进一步包括以下具体实施内容:

依据所述示例性候选关键文本数据的文本关键信息和所述示例性相关关键文本数据的文本关键信息,分析输出所述示例性候选关键文本数据和所述示例性相关关键文本数据之间的示例性第二关联性文本信息;以及,将所述示例性第二关联性文本信息加载到所述关键文本数据预测模型中,利用所述关键文本数据预测模型,分析输出所述示例性候选关键文本数据对应的关键文本数据定位信息对应的示例性关键文本数据预测概率系数,另外,所述示例性第二关联性文本信息可以用于反映所述示例性候选关键文本数据和所述示例性相关关键文本数据之间的关联性关系(示例性地,所述示例性第二关联性文本信息的确定方式,可以参照上述的示例性第一关联性文本信息的确定方式,在此不做具体限定;另外,所述示例性第二关联性文本信息和所述示例性第一关联性文本信息可以为不相同的文本信息,例如,对应的网络之间的参数可以不同)。

详细地,在一些可能的实施方式中,对于上述描述中的步骤S130,可以进一步包括以下具体实施内容:

对所述目标关键文本数据进行数据量统计处理,以得到所述目标关键文本数据对应的目标数据量,再依据所述目标数据量和预先配置的数据量参考值之间的相对大小关系,对所述目标关键文本数据进行分解处理,以形成所述目标关键文本数据对应的至少一个子目标关键文本数据,所述至少一个子目标关键文本数据拼接形成所述目标关键文本数据(示例性地,每一个所述子目标关键文本数据的数据量小于或等于所述数据量参考值);

将每一个所述子目标关键文本数据和所述待存储文本数据中所述目标关键文本数据以外的非目标关键文本数据分别进行存储(如存储于一个存储设备的不同存储区域或存储于多个不同的存储设备等)。

结合图3,本发明实施例还提供一种面向海量大数据的存储服务处理装置,可应用于上述存储服务处理系统。其中,所述面向海量大数据的存储服务处理装置,可以包括以下的软件功能模块:

文本数据提取模块,用于从待存储文本数据中提取出候选关键文本数据,所述候选关键文本数据属于所述待存储文本数据中的至少一部分文本数据;文本数据识别模块,用于依据预先通过进行网络优化处理形成的关键文本数据识别神经网络,对所述候选关键文本数据进行识别提取处理,以识别出所述候选关键文本数据中的目标关键文本数据,所述目标关键文本数据属于所述候选关键文本数据中的至少一部分文本数据;文本数据存储模块,用于对所述目标关键文本数据和所述待存储文本数据中所述目标关键文本数据以外的非目标关键文本数据分别进行存储。

在本申请实施例中,对应于上述的面向海量大数据的存储服务处理方法,还提供了一种云平台,所述云平台包括计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,该计算机程序运行时执行面向海量大数据的存储服务处理方法的各个步骤。

其中,前述计算机程序运行时执行的各步骤,在此不再一一赘述,可参考前文对所述面向海量大数据的存储服务处理方法的解释说明。

综上所述,本发明提供的一种面向海量大数据的存储服务处理方法、系统及云平台,从待存储文本数据中提取出候选关键文本数据;依据预先通过进行网络优化处理形成的关键文本数据识别神经网络,对候选关键文本数据进行识别提取处理,以识别出候选关键文本数据中的目标关键文本数据;对目标关键文本数据和待存储文本数据中目标关键文本数据以外的非目标关键文本数据分别进行存储。基于此,可以实现对数据的有效分类存储(关键数据和非关键数据),使得在一定程度上提高数据的存储管控效果,从而改善现有技术中存在的数据的存储管控效果不佳的问题。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 海量轨迹大数据的处理方法及系统、存储介质、电子设备
  • 海量轨迹大数据的处理方法及系统、存储介质、电子设备
技术分类

06120115600655