导航：首页> 造纸；纤维素的生产>基于票据知识图谱的主次数据库分配方法及相关设备

基于票据知识图谱的主次数据库分配方法及相关设备

文献发布时间：2023-06-19 09:57:26

技术领域

本发明涉及计算机应用技术领域，尤其涉及一种基于票据知识图谱的主次数据库分配方法、系统及电子设备。

背景技术

在大型集体公司的商务合作中，经常需要与合作公司进行财务往来，这个过程中，当公司的业务量很大，甚至经常与上千家公司进行业务往来的时候，就需要将这些公司的相关票据信息进行管理，尤其是现在存在电子发票和自动化系统的时候，票据信息都会维护到一个重要的数据库中，方便对这些公司的数据进行查询，并在开票的时候实现自动化。

一般发票信息都是稳定的，不轻易发生变动，但还是会出现财务信息发生变动的情况，传统财务人员更新了财务信息后，并不一定会通知到公司的所有人员，就很容易有财务信息对接变更情况不及时发票开错的情况出现，造成财务环节的流程耗时长。

因此，有必要提供一种开票系统的主次数据库分配的方案。

发明内容

鉴于上述内容，本发明提供了一种基于票据知识图谱的主次数据库分配方法、系统及电子设备，基于票据知识图谱进行主次数据库分配，使得企业能够获得实时的票据信息，提高开票效率。

本发明的第一方面提供一种基于票据知识图谱的主次数据库分配方法，所述方法包括：

对公司的票据进行光学字符识别，得到所述票据中的多个数据字段；

根据所述多个数据字段构建票据字段关联知识图谱；

获取与所述公司对应的新闻文本，并对所述新闻文本进行事件抽取，得到所述公司的成长事件；

调用预先训练的BERT预训练分类模型基于所述成长事件进行分类，得到所述票据的变化概率；

基于所述变化概率更新所述票据字段关联知识图谱；

将更新后的票据字段关联知识图谱中的小于预设概率阈值的变化概率对应的数据字段写入主数据库中，及将大于或者等于所述预设概率阈值的变化概率对应的数据字段写入从数据库中。

根据本发明的一个可选的实施例，所述根据所述多个数据字段构建票据字段关联知识图谱包括：

确定所述票据的票据类型；

根据所述公司的名称、所述票据类型及每个数据字段计算变化率；

根据所述公司的名称、所述票据类型、每个数据字段及对应的变化率构建四元组；

基于所述四元组构建票据字段关联知识图谱。

根据本发明的一个可选的实施例，所述根据所述公司的名称、所述票据类型及每个数据字段计算变化率包括：

从预设数据字段变化表中获取所述数据字段的变化次数及获取使用所述数据字段的总次数；

根据所述数据字段的变化次数及使用所述数据字段的总次数计算得到所述数据字段的变化率。

根据本发明的一个可选的实施例，所述获取与所述公司对应的新闻文本包括：

爬取多个新闻文本；

针对每个新闻文本，采用命名实体识别技术识别所述新闻文本中的多个公司命名实体；

计算每一个公司命名实体的数量；

将数量最大的公司命名实体作为所述新闻文本描述的目标公司；

选取所述目标公司为所述公司对应的新闻文本。

根据本发明的一个可选的实施例，所述对所述新闻文本进行事件抽取，得到所述公司的成长事件包括：

抽取所述新闻文本中的事件触发词；

判断所述事件触发词所依存的主体是否为所述公司；

当所述事件触发词所依存的主体为所述公司，则确定所述事件触发词为所述公司的成长事件。

根据本发明的一个可选的实施例，所述调用预先训练的BERT预训练分类模型基于所述成长事件进行分类，得到所述票据的变化概率包括：

对所述新闻文本进行分词并转化为词向量；

对所述词向量与所述成长事件进行拼接得到文本描述；

输入所述文本描述至所述预先训练的BERT预训练分类模型中进行分类，得到所述票据的变化概率。

根据本发明的一个可选的实施例，所述对所述新闻文本进行分词并转化为词向量包括：

采用jieba分词器对所述新闻文本进行分词，得到多个分词；

采用word2vec将所述多个分词转化为词向量。

根据本发明的一个可选的实施例，所述BERT预训练分类模型的训练过程包括：

获取多个公司的历史新闻文本及历史成长事件，并根据所述历史新闻文本及所述历史成长事件得到历史文本描述；

在每个公司的每个成长事件之后的预设时间段内，确定所述公司的票据内容是否发生了变化；

为发生了变化的票据内容设置第一标签，及为未发生变化的票据内容设置第二标签；

基于所述历史文本描述及所述第一标签或所述第二标签训练BERT模型得到BERT预训练分类模型。

本发明的第二方面提供一种基于票据知识图谱的主次数据库分配系统，所述系统包括：

识别模块，用于对公司的票据进行光学字符识别，得到所述票据中的多个数据字段；

构建模块，用于根据所述多个数据字段构建票据字段关联知识图谱；

抽取模块，用于获取与所述公司对应的新闻文本，并对所述新闻文本进行事件抽取，得到所述公司的成长事件；

分类模块，用于调用预先训练的BERT预训练分类模型基于所述成长事件进行分类，得到所述票据的变化概率；

更新模块，用于基于所述变化概率更新所述票据字段关联知识图谱；

写入模块，用于将更新后的票据字段关联知识图谱中的小于预设概率阈值的变化概率对应的数据字段写入主数据库中，及将大于或者等于所述预设概率阈值的变化概率对应的数据字段写入从数据库中。

本发明的第三方面提供一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于处理所述计算机程序时实现所述的基于票据知识图谱的主次数据库分配方法。

本发明对公司的票据进行光学字符识别，得到票据中的多个数据字段，根据多个数据字段构建票据字段关联知识图谱，知识图谱能够更好的对其中的多元数据进行匹配关联和检索推理；获取与公司对应的新闻文本，并对新闻文本进行事件抽取，得到公司的成长事件，调用预先训练的BERT预训练分类模型基于成长事件进行分类，得到票据的变化概率，基于变化概率更新票据字段关联知识图谱，即通过机器学习的方法，对获得的知识图谱进行进一步的数据补充或更新其中的初始值，使整个知识图谱的内容得到进一步优化；将更新后的票据字段关联知识图谱中的小于预设概率阈值的变化概率对应的数据字段写入主数据库中，及将大于或者等于预设概率阈值的变化概率对应的数据字段写入从数据库中，借助于关系数据库的优势，能够实现更查询的快捷，使得企业能够获得实时的票据信息，提高开票的效率。

附图说明

图1为本发明实施例提供的基于票据知识图谱的主次数据库分配方法的流程图。

图2为本发明实施例提供的基于票据知识图谱的主次数据库分配系统的结构图。

图3为本发明实施例提供的用于实现基于票据知识图谱的主次数据库分配方法的电子设备的结构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

图1为本发明实施例提供的基于票据知识图谱的主次数据库分配方法的流程图。如图1所示，本实施例的基于票据知识图谱的主次数据库分配方法，具体可以包括如下步骤：

本发明提供了一种基于票据知识图谱的主次数据库分配方法与系统，主要包括以下步骤：

S11，对公司的票据进行光学字符识别，得到所述票据中的多个数据字段。

其中，所述票据可以包括增值税票据、银行回单票据、专票票据、过桥费票据、购物小票票据、医疗票据、银行兑票票据等等。

通过光学字符识别（Optical Character Recognition，OCR）技术，对企业人员需要报销的票据进行处理，OCR技术会对输入的票据图片进行分析识别处理，并返回票据上面的多个数据字段。所述OCR技术可以采用百度的OCR文字识别接口。

例如，增值税票据上显示的金额是3000元，将此增值税票据的图片输入到OCR中，会对增值税票据进行分析并处理，首先能识别到的票据类型是‘增值税’，其次能识别到此图片上的金额为3000，并将数据字段‘金额’和数据字段‘3000’以文本的形式返回。

S12，根据所述多个数据字段构建票据字段关联知识图谱。

根据票据公司名称、票据类型以及从S11中获得的数据字段，构建票据字段关联知识图谱。

在一个可选的实施例中，所述根据所述多个数据字段构建票据字段关联知识图谱包括：确定所述票据的票据类型；根据所述公司的名称、所述票据类型及每个数据字段计算变化率；根据所述公司的名称、所述票据类型、每个数据字段及对应的变化率构建四元组；基于所述四元组构建票据字段关联知识图谱。

其中，所述变化率是指在预设时间段内对所述四元组中的前三个数据字段的变化进行计算得到的统计值。

由于公司的不同业务，公司对于相同的票据类型对应的数据字段有时候是不同的，对相同的票据类型对应的数据字段的变化在一段时间内进行统计，得到该公司下的此票据类型中数据字段的变化率。通过预设的数据字段变化表，可以获取所述数据字段的变化次数及获取使用所述数据字段的总次数，根据所述数据字段的变化次数及使用所述数据字段的总次数计算得到所述数据字段的变化率，即得到票据公司在票据字段关联知识图谱中第四个元素的元素值。

例如，X公司中的员工张三为置办活动A购物花费了1000元，S11中通过OCR技术获取到购物小票中的花费金额1000元，则构建的四元组为。

在一个可选的实施例中，所述方法还可以包括：针对每一个数据字段对应的四元组，判断所述票据字段关联知识图谱中是否存在所述四元组；当确定所述票据字段关联知识图谱中不存在所述四元组时，在所述票据字段关联知识图谱中增加所述四元组。

所述票据字段关联知识图谱可以采用RDF或OWL本体工具进行构建和存储。

S13，获取与所述公司对应的新闻文本，并对所述新闻文本进行事件抽取，得到所述公司的成长事件。

从企查查、IT桔子等网站通过python爬虫技术爬取该公司的所有资料，通过限定域事件抽取技术从爬取的所有资料中抽取该公司的投资和成长事件。

在一个可选的实施例中，所述获取与所述公司对应的新闻文本包括：爬取多个新闻文本；针对每个新闻文本，采用命名实体识别技术识别所述新闻文本中的多个公司命名实体；计算每一个公司命名实体的数量；将数量最大的公司命名实体作为所述新闻文本描述的目标公司；选取所述目标公司为所述公司对应的新闻文本。

具体实施时，对爬取的任意一个新闻文本，采用命名实体识别技术识别所述任意一个新闻文本中的多个公司命名实体，计算每一个公司命名实体出现的数量；将数量最大的公司命名实体作为所述任意一篇新闻文本描述的公司名称。可以采用哈工大的LPT工具作为所述命名实体识别技术。

在一个可选的实施例中，所述对所述新闻文本进行事件抽取，得到所述公司的成长事件包括：抽取所述新闻文本中的事件触发词；判断所述事件触发词所依存的主体是否为所述公司；当所述事件触发词所依存的主体为所述公司，则确定所述事件触发词为所述公司的成长事件。

其中，设定的事件触发词，例如投资、并购、盈利、亏损等。基于这些事件触发词结合依存句法分析，判断该事件触发词所依存的主体是否为对应的公司名称，依存句法分析工具可以采用哈工大的LTP工具。如果该事件触发词所依存的主体为所述公司，则确定公司的成长事件就是所述事件触发词描述的公司事件；如果该事件触发词所依存的主体不为所述公司，则说明事件触发词不是在描述该公司的，因此略过。

S14，调用预先训练的BERT预训练分类模型基于所述成长事件进行分类，得到所述票据的变化概率。

在确定公司的成长事件后，将新闻文本及成长事件进行拼接，并将拼接后的文本作为训练数据输入到预先训练的BERT预训练分类模型进行分类。

在一个可选的实施例中，所述调用预先训练的BERT预训练分类模型基于所述成长事件进行分类，得到所述票据的变化概率包括：对所述新闻文本进行分词并转化为词向量；对所述词向量与所述成长事件进行拼接得到文本描述；输入所述文本描述至所述预先训练的BERT预训练分类模型中进行分类，得到所述票据的变化概率。

具体的，将爬取到的该公司的新闻文本，进行分词并转化为词向量。可以采用jieba分词器进行分词，可以采用word2vec进行词向量的转化。

其中，所述BERT预训练分类模型的训练过程包括：获取多个公司的历史新闻文本及历史成长事件，并根据所述历史新闻文本及所述历史成长事件得到历史文本描述；在每个公司的每个成长事件之后的预设时间段内，确定所述公司的票据内容是否发生了变化；为发生了变化的票据内容设置第一标签，及为未发生变化的票据内容设置第二标签；基于所述历史文本描述及所述第一标签或所述第二标签训练BERT模型得到BERT预训练分类模型。

每一次在公司被报道某个成长事件之后的预设时间段内，如果该公司的票据内容发生变化，则将该成长事件定位为‘触发事件’并标注为第一标签，例如，1；如果该公司的票据内容未发生变化，则将该成长事件定位为‘非触发事件’并标注为第二标签，例如，0。

通过将抽取到的公司的新闻文本和成长事件作为特征，公司的发票内容是否发生改变作为标签，输入到Bert预训练分类模型中进行训练，通过反向传播，对Bert预训练分类模型中的参数进行不断优化，迭代指定次数或者步数后，得到Bert预训练分类模型的最优的参数及最优的参数对应的模型，并将最优参数对应的模型进行存储。在线使用时，将公司的新闻文章和成长事件输入到模型中，就可以得到该公司在该成长事件之后的预设时间段内是否会引起票据内容的改变。

例如，通过爬虫技术从企查查、IT桔子网站爬取X公司的所有新闻文本，假设“2020年，X公司在A地投资B项目30万元”为网站新闻文本中的一句话，在RNN+Attention神经网络事件抽取模型训练的时候，标注的事件触发词为：投资；并通过LTP依存句法分析确定，X公司与投资之间具有依存关系。该事件触发词‘投资’就是A公司的成长事件。将抽取到的新闻文本和成长事件的进行拼接得到文本描述‘X公司在投资’，作为特征输入到Bert预训练分类模型中进行训练。有了特征之后，还需要对Bert预训练分类模型的目标进行定义。确定该公司在该新闻报道过后的1个月或者预设时间段内，票据内容是否发生了变化。如果票据内容发生了变化，说明发生的成长事件会对票据内容产生影响。例如如果该企业是小规模升级到规模企业，或者一般纳税人升级小规模等，都会导致票据内容发生变化，而企业的升级一定是因为某些融资或者商品爆款或者新闻事件等导致的巨大发展，因此它们之间有着很大的关系。可以通过文本挖掘的方法，进行分类预测。也可以基于bert的分类工具，例如在github上的工具bert-Chinese-classification-task进行训练。训练后的模型即可判断，在该成长事件下，该公司的票据内容是否有较大概率会发生变化。

S15，基于所述变化概率更新所述票据字段关联知识图谱。

将基于成长事件预测得到变化概率用于优化票据字段关联知识图谱中的初始值。

由于该公司在所述票据字段关联知识图谱中第四个元素的变化率，是通过统计方式得到的初始值，不够精准。而得到的该公司票据内容发生变化的概率，不是静止的，而是根据公司的成长事件进行预测的，因此无需全面重新更新知识图谱，具有更加容易局部更新知识图谱的特点。

在所述票据字段关联知识图谱中的初始值体现的是跟公司发展关系不大的那些字段的变化规律。例如，产品价格、数量等，类似这样的易变化字段，他们被经过获取和统计后构建成了知识图谱；而类似于税率、公司地址、规格型号等，可能一开始变化不大，但是随着公司的发展，公司地址会因为初始公司小而变更、税率会因为公司‘小升规’等事件而税率提升，这些都是会因为公司的发展而发生变化的。公司如果长期不发展，可能变化的概率就小很多。而且，不同行业，不同发票，发生变化的频率和内容会不同。因此，需要通过机器学习的方法，训练获得各类型票据内容发生的变化概率，并对获得的知识图谱进行进一步的数据补充或更新其中的初始值，使整个知识图谱的内容得到进一步优化。

S16，将更新后的票据字段关联知识图谱中的小于预设概率阈值的变化概率对应的数据字段写入主数据库中，及将大于或者等于所述预设概率阈值的变化概率对应的数据字段写入从数据库中。

数据字段高的数据字段的判定不仅取决于数据字段本身，而且还取决于公司成长与票据内容变更的关联度。当字段是否容易变化与字段本身都维护到知识图谱四元组中，就能够基于知识图谱内的本体owl和rdf算法进行更多的知识推理和构建。并且能够更好的对数据进行抽取和更新。因此，当知识图谱中挖掘到变化概率高的数据字段时，可以将它抽取出来，放到从数据库中。将变化概率低的数据字段，放到主数据库中。

知识图谱的图数据库与关系数据库的不同在于，他们虽然都是存储数据，但是知识图谱能够更好的对其中的多元数据进行匹配关联和检索推理。而关系数据库的优势是查询快捷稳定，能够提供性能上的优势和数据关联以及跟网站前端更好的融合。

不断获取与本公司有业务关联的公司的新闻或报道信息，通过匹配到知识图谱中的公司名称，可以获取该公司票据的所有字段。根据知识图谱四元组中最后一个元素来判断该四元组的变化概率。当变化概率大于或等于预设概率阈值（例如，0.8）时，将该数据字段放入到从数据库中；当变化概率小于预设概率阈值时，将该数据字段放入到主数据库中。

图2是为本发明实施例提供的基于票据知识图谱的主次数据库分配系统的结构图。

本实施例中，所述基于票据知识图谱的主次数据库分配系统20根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：识别模块201、构建模块202、抽取模块203、分类模块204、更新模块205及写入模块206。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器中。在本实施例中，关于各模块的功能将在后续的实施例中详述。

所述识别模块201，用于对公司的票据进行光学字符识别，得到所述票据中的多个数据字段。

其中，所述票据可以包括增值税票据、银行回单票据、专票票据、过桥费票据、购物小票票据、医疗票据、银行兑票票据等等。

所述构建模块202，用于根据所述多个数据字段构建票据字段关联知识图谱。

根据票据公司名称、票据类型以及从S11中获得的数据字段，构建票据字段关联知识图谱。

其中，所述变化率是指在预设时间段内对所述四元组中的前三个数据字段的变化进行计算得到的统计值。

例如，X公司中的员工张三为置办活动A购物花费了1000元，S11中通过OCR技术获取到购物小票中的花费金额1000元，则构建的四元组为。

所述票据字段关联知识图谱可以采用RDF或OWL本体工具进行构建和存储。

所述抽取模块203，用于获取与所述公司对应的新闻文本，并对所述新闻文本进行事件抽取，得到所述公司的成长事件。

从企查查、IT桔子等网站通过python爬虫技术爬取该公司的所有资料，通过限定域事件抽取技术从爬取的所有资料中抽取该公司的投资和成长事件。

所述分类模块204，用于调用预先训练的BERT预训练分类模型基于所述成长事件进行分类，得到所述票据的变化概率。

在确定公司的成长事件后，将新闻文本及成长事件进行拼接，并将拼接后的文本作为训练数据输入到预先训练的BERT预训练分类模型进行分类。

在一个可选的实施例中，所述调用预先训练的BERT预训练分类模型基于所述成长事件进行分类，得到所述票据的变化概率包括：

对所述新闻文本进行分词并转化为词向量；

对所述词向量与所述成长事件进行拼接得到文本描述；

输入所述文本描述至所述预先训练的BERT预训练分类模型中进行分类，得到所述票据的变化概率。

具体的，将爬取到的该公司的新闻文本，进行分词并转化为词向量。可以采用jieba分词器进行分词，可以采用word2vec进行词向量的转化。

其中，所述BERT预训练分类模型的训练过程包括：

获取多个公司的历史新闻文本及历史成长事件，并根据所述历史新闻文本及所述历史成长事件得到历史文本描述；

在每个公司的每个成长事件之后的预设时间段内，确定所述公司的票据内容是否发生了变化；

为发生了变化的票据内容设置第一标签，及为未发生变化的票据内容设置第二标签；

基于所述历史文本描述及所述第一标签或所述第二标签训练BERT模型得到BERT预训练分类模型。

所述更新模块205，用于基于所述变化概率更新所述票据字段关联知识图谱。

将基于成长事件预测得到变化概率用于优化票据字段关联知识图谱中的初始值。

所述写入模块206，用于将更新后的票据字段关联知识图谱中的小于预设概率阈值的变化概率对应的数据字段写入主数据库中，及将大于或者等于所述预设概率阈值的变化概率对应的数据字段写入从数据库中。

参阅图3所示，为本发明实施例提供的电子设备的结构示意图。在本发明较佳实施例中，所述电子设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。所述电子设备3用于实现所述的基于票据知识图谱的主次数据库分配方法中的全部或者部分步骤，或者运行所述的基于票据知识图谱的主次数据库分配系统中的全部或者部分功能。

本领域技术人员应该了解，图3示出的电子设备的结构并不构成本发明实施例的限定，既可以是总线型结构，也可以是星形结构，所述电子设备3还可以包括比图示更多或更少的其他硬件或者软件，或者不同的部件布置。

在一些实施例中，所述电子设备3是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备3还可包括客户设备，所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、数码相机等。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中，包括若干指令用以使得一台电子设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：熊常春;王敬贵;李海良;张林;刘昂;吴江川;
专利申请人：深圳季连科技有限公司;

上一篇：一种回收料制备高强瓦楞纸的制备方法
下一篇：球形压电发电装置