掌桥专利:专业的专利平台
掌桥专利
首页

一种基于语义学习的档案密级鉴定方法及系统

文献发布时间:2024-04-18 20:02:18


一种基于语义学习的档案密级鉴定方法及系统

技术领域

本发明属于档案密级鉴定技术领域,具体涉及一种基于语义学习的档案密级鉴定方法及系统。

背景技术

随着社会的发展与进步,社会对档案资源的利用需求日益增长。推动档案密级鉴定是档案事业高质量发展的重要一环。档案密级鉴定工作是档案开放的前提。提升档案密级鉴定工作水平对提高档案工作的知名度、优化档案服务质量、维护社会主体使用档案的权力具有重要价值与意义。

现有技术中,大多借助人工方式,对档案进行密级鉴定,这种方式人力成本投入大,工作量大,并且效率低下;随着计算机技术的发展,一些智能关键词识别技术被运用至档案密级鉴定领域中,但是,现有的档案密级鉴定智能技术,通过识别涉密关键词,进而进行档案密级鉴定,这种方式容易将带有涉密关键词而档案本身不涉密的文档误判为涉密内容,准确率低下。

发明内容

为了解决现有技术存在的人力成本投入大,工作量大以及准确性低的问题,本发明目的在于提供一种基于语义学习的档案密级鉴定方法及系统。

本发明所采用的技术方案为:

一种基于语义学习的档案密级鉴定方法,包括如下步骤:

采集若干历史档案的历史档案文件数据,并根据若干历史档案文件数据,使用NLP算法和深度学习算法,构建档案密级鉴定模型;

采集待鉴定档案的实时档案文件数据,并将实时档案文件数据输入档案密级鉴定模型;

使用档案密级鉴定模型,对实时档案文件数据进行档案密级鉴定,得到待鉴定档案的实时档案密级鉴定结果。

进一步地,采集若干历史档案的历史档案文件数据,并根据若干历史档案文件数据,使用NLP算法和深度学习算法,构建档案密级鉴定模型,包括如下步骤:

采集若干历史档案的历史档案文件数据,并对若干历史档案文件数据进行数据预处理,得到若干数据预处理后历史档案文件数据;数据预处理后历史档案文件数据包括历史档案的历史元数据和对应的历史扫描图像数据;

根据若干数据预处理后历史档案文件数据的历史元数据,使用元数据解析工具,构建元数据解析模块,并生成对应的若干历史著录项列表数据;历史著录项列表数据包括若干历史著录项数据;

根据若干数据预处理后历史档案文件数据的历史扫描图像数据,使用ORC算法,构建文本识别子模型,并生成对应的若干历史正文文本识别数据和若干历史涉密标识识别结果;

整合元数据解析工具和文本识别子模型,构建数据处理层;

筛选历史著录项列表数据中关键的历史著录项数据,并对关键的历史著录项数据和对应的历史正文文本识别数据进行特征融合,得到若干历史特征融合字符序列;

根据若干历史特征融合字符序列,使用NLP算法,构建词嵌入层,并生成对应的若干历史词向量序列;

根据预设的涉密关键词语料库,对若干历史词向量序列进行标签添加,得到数据预处理后历史档案文件数据对应的涉密关键词预设标签;

根据若干历史词向量序列,使用深度学习算法,构建特征提取层,并生成对应的若干历史语义图特征;

根据若干历史语义图特征,使用集成学习算法,构建输出层,并生成对应的若干历史涉密关键词预测标签;

依次连接数据处理层、词嵌入层、特征提取层以及输出层,构建初始的档案密级鉴定模型;

根据若干历史涉密关键词预测标签和对应的若干涉密关键词预设标签,获取模型预测准确率;

若模型预测准确率大于准确率阈值,则输出最终的档案密级鉴定模型,否则,重新训练档案密级鉴定模型。

进一步地,使用ORC算法,构建文本识别子模型,包括,根据若干数据预处理后历史档案文件数据的历史扫描图像数据,使用CTPN-nCRNN算法,构建文本识别子模型,并生成对应的若干历史正文文本识别数据和若干历史涉密标识识别结果。

进一步地,关键的历史著录项数据包括历史档案对应的历史题名数据、历史形成机构数据以及历史形成时间数据。

进一步地,使用NLP算法,构建词嵌入层,包括,根据若干历史特征融合字符序列,使用BERT算法,构建词嵌入层,并生成对应的若干历史词向量序列。

进一步地,使用深度学习算法,构建特征提取层,包括,根据若干历史词向量序列,使用BILSTM-Attention-GAT-CRF算法,构建特征提取层,并生成对应的若干历史语义图特征。

进一步地,使用IWOA优化算法,对特征提取层的BILSTM网络和GAT网络进行优化。

进一步地,使用集成学习算法,构建输出层,包括,根据若干历史语义图特征,使用RF算法,构建输出层,并生成对应的若干历史涉密关键词预测标签。

进一步地,使用档案密级鉴定模型,对实时档案文件数据进行档案密级鉴定,得到待鉴定档案的实时档案密级鉴定结果,包括如下步骤:

使用数据处理层,获取实时档案文件数据的实时关键著录项数据、实时正文文本识别数据以及实时涉密标识识别结果;

对实时关键著录项数据和实时正文文本识别数据进行特征融合,得到实时特征融合字符序列;

使用词嵌入层,将实时特征融合字符序列转换为对应的实时词向量序列;

使用特征提取层,提取实时词向量序列对应的实时语义图特征;

使用输出层,对实时语义图特征进行分类,得到对应的实时涉密关键词预测结果;

根据实时涉密标识识别结果和对应的实时涉密关键词预测结果,生成待鉴定档案的实时档案密级鉴定结果。

一种基于语义学习的档案密级鉴定系统,用于实现档案密级鉴定方法,系统包括依次连接的档案密级鉴定模型构建单元、档案文件数据采集单元以及档案密级鉴定单元;

档案密级鉴定模型构建单元,用于采集若干历史档案的历史档案文件数据,并根据若干历史档案文件数据,使用NLP算法和深度学习算法,构建档案密级鉴定模型;

档案文件数据采集单元,用于采集待鉴定档案的实时档案文件数据,并将实时档案文件数据输入档案密级鉴定模型;

档案密级鉴定单元,用于使用档案密级鉴定模型,对实时档案文件数据进行档案密级鉴定,得到待鉴定档案的实时档案密级鉴定结果。

本发明的有益效果为:

本发明公开了一种基于语义学习的档案密级鉴定方法及系统,通过使用NLP算法和深度学习算法,构建档案密级鉴定模型,实现了对待鉴定档案的自动、高效档案密级鉴定,避免了依靠人工方式,降低了人力成本投入,减轻了工作量;档案密级鉴定模型进行OCR目标检测涉密标识,进行OCR文本识别多种字体的文本数据,进行语义学习重复提取档案文本中的涉密关键词信息,根据语义图特征进行密级鉴定预测,提高了档案密级鉴定的准确率,避免将带有涉密关键词而档案本身不涉密的文档误判为涉密内容。

本发明的其他有益效果将在具体实施方式中进一步进行说明。

附图说明

图1是本发明中基于语义学习的档案密级鉴定方法的流程框图。

图2是本发明中基于语义学习的档案密级鉴定系统的结构框图。

具体实施方式

下面结合附图及具体实施例对本发明做进一步阐释。

实施例1:

如图1所示,本实施例提供一种基于语义学习的档案密级鉴定方法,包括如下步骤:

S1:采集若干历史档案的历史档案文件数据,并根据若干历史档案文件数据,使用自然语言处理(Natural Language Processing,NLP)算法和深度学习算法,构建档案密级鉴定模型,包括如下步骤:

S1-1:采集若干历史档案的历史档案文件数据,并对若干历史档案文件数据进行数据预处理,得到若干数据预处理后历史档案文件数据;

数据预处理包括对若干历史档案文件数据依次进行的数据格式统一、重复数据清洗以及错误数据删除,提高了数据的标准化程度,为模型训练提供数据支持;

数据预处理后历史档案文件数据包括历史档案的历史元数据和对应的历史扫描图像数据;

历史扫描图像数据包括历史印刷体文本扫描图像数据、历史手写体文本扫描图像数据以及历史印刷手写混合文本扫描图像数据;

历史扫描图像数据包括各种形式的文本图像,包括印刷体、手写体以及印刷手写混合,提高了对扫描图像进行文本识别的困难程度;

S1-2:根据若干数据预处理后历史档案文件数据的历史元数据,使用元数据解析工具,构建元数据解析模块,并生成对应的若干历史著录项列表数据;历史著录项列表数据包括若干历史著录项数据;

S1-3:根据若干数据预处理后历史档案文件数据的历史扫描图像数据,使用CTPN-nCRNN算法,构建文本识别子模型,并生成对应的若干历史正文文本识别数据和若干历史涉密标识识别结果,包括如下步骤:

S1-3-1:根据若干数据预处理后历史档案文件数据的历史扫描图像数据,使用连接预选框网络的文本检测(Detecting Text in Natural Image with ConnectionistText Proposal Network,CTPN)算法,构建文本定位模块;

S1-3-2:使用文本定位模块,定位数据预处理后历史档案文件数据的历史扫描图像数据中的文本区域,生成对应的若干文本区域扫描图像数据;

S1-3-3:使用卷积递归神经网络(Convolutional Recurrent Neural Network,CRNN)算法,构建n个依次连接的文本识别模块,其中,n为大于等于1的正整数;

S1-3-4:使用n个文本识别模块,对文本区域扫描图像数据进行n次文本识别,生成对应的若干历史正文文本识别数据和若干历史涉密标识识别结果;

n次文本识别,提高了对印刷体、手写体以及印刷手写混合的扫描图像进行文本识别的准确率,适用于不同扫描图像类型的文本识别,提高了模型实用性,进一步提高了档案密级鉴定的准确率;

S1-3-5:若历史正文文本识别数据中存在涉密标识文本数据,则对应的历史涉密标识识别结果为存在涉密标识,否则,历史涉密标识识别结果为不存在涉密标识;

S1-3-6:连接文本定位模块和n个文本识别模块,构建文本识别子模型;

S1-4:整合元数据解析工具和文本识别子模型,构建数据处理层;

S1-5:筛选历史著录项列表数据中关键的历史著录项数据,并对关键的历史著录项数据和对应的历史正文文本识别数据进行特征融合,得到若干历史特征融合字符序列,包括如下步骤:

S1-5-1:筛选历史档案的历史著录项列表数据中关键的历史著录项数据;关键的历史著录项数据包括历史档案对应的历史题名数据、历史形成机构数据以及历史形成时间数据;

S1-5-2:将关键的历史著录项数据与对应的历史正文文本识别数据进行特征融合,并添加分隔符,得到对应的历史特征融合字符序列;

历史特征融合字符序列的组织形式如“题名[SEP]责任者[SEP]形成时间[SEP]正文”的字符串序列;

S1-5-3:遍历所有历史档案的数据预处理后历史档案文件数据,得到对应的若干历史特征融合字符序列;

S1-6:根据若干历史特征融合字符序列,使用来自Transformers的双向编码表示(BERT,Bidirectional Encoder Representation from Transformers)算法,构建设置有预训练语言子模型的词嵌入层,并生成对应的若干历史词向量序列,包括如下步骤:

S1-6-1:根据若干历史特征融合字符序列,使用BERT算法,构建词嵌入层;

采用BERT预训练语言子模型进行词向量表征,根据独立词语标签的文本标准数据集对BERT子模型进行预训练,包括将所有的单位字符做拆分处理,按照拆分的分组分类单词,将字符的位置信息映射到特征空间形成特征向量,也叫位置编码,位置信息对文本语义理解非常关键,最后标记文本;

S1-6-2:使用词嵌入层,对历史特征融合字符序列进行词嵌入,得到对应的若干历史词向量;

S1-6-3:对同一数据预处理后历史档案文件数据的若干历史词向量进行整合,生成对应的历史词向量序列;

S1-6-4:遍历所有历史档案的历史特征融合字符序列,生成对应的若干历史词向量序列;

S1-7:根据预设的涉密关键词语料库,对若干历史词向量序列进行标签添加,得到数据预处理后历史档案文件数据对应的涉密关键词预设标签;

S1-8:根据若干历史词向量序列,使用BILSTM-Attention-GAT-CRF算法,构建特征提取层,并生成对应的若干历史语义图特征,包括如下步骤:

S1-8-1:根据若干历史词向量序列,使用双向长短期记忆网络(BILSTM,Bi-directional Long Short-Term Memory)-Attention算法,构建语义特征提取模块,并生成对应的若干历史语义特征;

S1-8-2:将历史词向量序列中的历史词向量转化为对应的历史字向量,获取历史词向量序列和对应的若干历史字向量,构建字词关系构图模块,并生成对应的若干历史字词关系图;

S1-8-3:根据若干历史字词关系图,使用图注意力机制网络(GAT,GraphAttention Network)算法,构建图特征提取模块,并生成对应的若干历史图特征;

S1-8-4:根据历史语义特征和对应的若干历史图特征,使用线性链条件随机场(CRF,Conditional Random Field)算法,构建特征交互协作模块,并生成对应的若干历史语义图特征;

S1-8-5:整合语义特征提取模块、字词关系构图模块、图特征提取模块以及特征交互协作模块,构建特征提取层;

使用语义特征提取模块提取语义特征,使用字词关系构图层构建自适应文本图,针对字向量结点,基于文本的序列构建字结点的邻接关系,针对词向量结点,首先使用词向量来计算词与词之间、词与字之间的相似度,通过计算词与词、词与字之间的两两相似度,便可得到一个相似度共现矩阵,根据相似度共现矩阵的每个值,得到邻接矩阵,图中词向量结点的邻接关系,是基于语义相似度计算得到的,可以与该词结点相连的结点,必定是在语义上有很大的相似性,通过这种方式构图,邻接点间的相似性得以保证,同时直接对距离较远但密切相关的上下文信息进行连接,基于自适应文本图,使用图特征提取模块的图注意力机制来提取图的半结构化特征,由于构图时所用结点均为文本中的字与词,通过该模块提取得到的图特征,更多的是表征文本中,字词之间的语义联系信息,且特征交互协作模块基于交互注意力机制建立,能够充分对语义特征和图特征进行特征交互协作;

S1-8-6:使用改进鲸鱼(Improved Whale Optimization Algorithm,IWOA)优化算法,对语义特征提取模块的BILSTM网络和图特征提取模块的GAT网络进行优化,包括如下步骤:

S1-8-6-1:将语义特征提取模块的BILSTM网络的第一初始网络参数和图特征提取模块的GAT网络的的第二初始网络参数作为IWOA优化算法的IWOA个体的位置;

S1-8-6-2:初始化IWOA优化算法的算法参数,并使用混沌映射序列初始化IWOA种群;

式中,x

S1-8-6-3:计算IWOA种群中IWOA个体的适应度值,并根据IWOA个体的适应度值,保留最优的IWOA个体;

适应度值的公式为:

式中,fit为适应度函数;E为网络输出误差函数;y

S1-8-6-4:随机生成p,若p<0.5且|A|<1,执行包围猎物行为,更新IWOA种群位置,若p<0.5且|A|≥1,执行搜索猎物行为,更新IWOA种群位置,若p≥0.5,执行泡泡网攻击行为,更新IWOA种群位置;其中,p为更新参数,A为步长系数;

S1-8-6-5:根据更新后的IWOA种群,进行动态反向学习,得到对应的IWOA个体,即正向解对应的反向解,并计算正向解和反向解的适应度值,根据正向解和反向解的适应度值,更新最优的IWOA个体;

动态反向学习策略的公式为:

X'

式中,X'

S1-8-6-6:判断迭代次数是否满足要求或更新后的最优的IWOA个体对应的最优的适应度值是否满足要求,若是,则输出更新后的最优的IWOA个体对应的全局最优解的位置,得到最优的第一初始网络参数和第二初始网络参数,否则,进行下一次的IWOA种群更新;

S1-9:根据若干历史语义图特征,使用随机森林(Random Forest,RF)算法,构建输出层,并生成对应的若干历史涉密关键词预测标签,包括如下步骤:

S1-9-1:根据历史语义图特征的基尼系数,筛选m个历史语义图关键特征,其中,m为大于等于1的正整数;

S1-9-2:根据m个历史语义图关键特征,使用RF算法,训练m个决策树;

S1-9-3:根据m个决策树,构建输出层;

S1-9-4:遍历若干历史语义图特征,使用输出层,进行标签预测,生成对应的若干历史涉密关键词预测标签;

S1-10:依次连接数据处理层、词嵌入层、特征提取层以及输出层,构建初始的档案密级鉴定模型;

S1-11:根据若干历史涉密关键词预测标签和对应的若干涉密关键词预设标签,获取模型预测准确率;

S1-12:若模型预测准确率大于准确率阈值,则输出最终的档案密级鉴定模型,否则,重新训练档案密级鉴定模型;

S2:采集待鉴定档案的实时档案文件数据,并将实时档案文件数据输入档案密级鉴定模型;

S3:使用档案密级鉴定模型,对实时档案文件数据进行档案密级鉴定,得到待鉴定档案的实时档案密级鉴定结果,包括如下步骤:

S3-1:使用数据处理层,获取实时档案文件数据的实时关键著录项数据、实时正文文本识别数据以及实时涉密标识识别结果;

S3-2:对实时关键著录项数据和实时正文文本识别数据进行特征融合,得到实时特征融合字符序列;

S3-3:使用词嵌入层,将实时特征融合字符序列转换为对应的实时词向量序列;

S3-4:使用特征提取层,提取实时词向量序列对应的实时语义图特征;

S3-5:使用输出层,对实时语义图特征进行分类,得到对应的实时涉密关键词预测结果;

S3-6:根据实时涉密标识识别结果和对应的实时涉密关键词预测结果,生成待鉴定档案的实时档案密级鉴定结果;

若实时涉密标识识别结果为存在涉密标识,则待鉴定档案的档案密级为涉密级;

若实时涉密关键词预测结果为包含若干涉密关键词预测标签,且涉密关键词预测标签的数量超过阈值,则待鉴定档案的档案密级为高涉密级,否则为低涉密级;

若实时涉密标识识别结果为不存在涉密标识,或实时涉密关键词预测结果为不包含涉密关键词预测标签,或涉密关键词预测标签的数量低于阈值,则待鉴定档案的档案密级为非涉密级;

若实时涉密关键词预测结果为包含若干涉密关键词预测标签,且涉密关键词预测标签的数量超过阈值,则待鉴定档案的档案密级为低涉密级。

实施例2:

如图2所示,本实施例提供一种基于语义学习的档案密级鉴定系统,用于实现档案密级鉴定方法,系统包括依次连接的档案密级鉴定模型构建单元、档案文件数据采集单元以及档案密级鉴定单元;

档案密级鉴定模型构建单元,用于采集若干历史档案的历史档案文件数据,并根据若干历史档案文件数据,使用NLP算法和深度学习算法,构建档案密级鉴定模型;

档案文件数据采集单元,用于采集待鉴定档案的实时档案文件数据,并将实时档案文件数据输入档案密级鉴定模型;

档案密级鉴定单元,用于使用档案密级鉴定模型,对实时档案文件数据进行档案密级鉴定,得到待鉴定档案的实时档案密级鉴定结果;

作为优选,档案密级鉴定单元包括依次连接的数据处理子单元、特征融合子单元、词嵌入子单元、特征提取子单元、输出子单元以及鉴定结果生成子单元;

数据处理子单元,用于使用数据处理层,获取实时档案文件数据的实时关键著录项数据、实时正文文本识别数据以及实时涉密标识识别结果;

特征融合子单元,用于对实时关键著录项数据和实时正文文本识别数据进行特征融合,得到实时特征融合字符序列;

词嵌入子单元,用于使用词嵌入层,将实时特征融合字符序列转换为对应的实时词向量序列;

特征提取子单元,用于使用特征提取层,提取实时词向量序列对应的实时语义图特征;

输出子单元,用于使用输出层,对实时语义图特征进行分类,得到对应的实时涉密关键词预测结果;

鉴定结果生成子单元,用于根据实时涉密标识识别结果和对应的实时涉密关键词预测结果,生成待鉴定档案的实时档案密级鉴定结果。

本发明公开了一种基于语义学习的档案密级鉴定方法及系统,通过使用NLP算法和深度学习算法,构建档案密级鉴定模型,实现了对待鉴定档案的自动、高效档案密级鉴定,避免了依靠人工方式,降低了人力成本投入,减轻了工作量;档案密级鉴定模型进行OCR目标检测涉密标识,进行OCR文本识别多种字体的文本数据,进行语义学习重复提取档案文本中的涉密关键词信息,根据语义图特征进行密级鉴定预测,提高了档案密级鉴定的准确率,避免将带有涉密关键词而档案本身不涉密的文档误判为涉密内容。

本发明不局限于上述可选的实施方式,任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制,本发明的保护范围应当以权利要求书中界定的为准,并且说明书可以用于解释权利要求书。

相关技术
  • 一种基于语义元语的词向量表征学习方法及系统
  • 一种基于语义本体的档案数据智能推理方法
  • 一种基于语义分析的档案自动开放鉴定方法及系统
  • 一种基于语义分析的档案自动开放鉴定方法及系统
技术分类

06120116578392