一种获取目标数据列表的数据处理系统

文献发布时间：2024-04-18 20:00:50

技术领域

本发明涉及数据处理技术领域，特别是涉及一种获取目标数据列表的数据处理系统。

背景技术

对于一些用文字记录在纸张上的事件信息，纸张上的字迹随着时间的流逝会变的模糊不清甚至是消失，对纸张上记录的文字进行拍摄形成图片，能够永久保存信息，当用户需要对事件进行分析时，需要对图片中的字符进行提取获取能够呈现结构化数据的字符串，对能够呈现结构化数据的字符串进行处理，获取目标数据，对目标数据进行统计，根据统计出的数据进行分析，有利于用户直观全面的了解事件本身，现有技术中，对能够呈现结构化数据的字符串进行处理，获取目标数据的方法大多为，训练字符串解析模型，将字符串输入到解析模型中对字符串进行解析，进而获取目标数据。

但是上述方法也存在以下技术问题：

训练出的字符串解析模型受训练样本的影响，当字符串与受训练样本的格式相差较大时，获取目标数据时产生误差进而导致获取到的目标数据不够准确，若训练多个字符串解析模型，则容易造成资源浪费，降低系统的运行效率。

发明内容

针对上述技术问题，本发明采用的技术方案为：

一种获取目标数据列表的数据处理系统，包括：初始字符串列表、处理器和存储有计算机程序的存储器，当计算机程序被处理器执行时，实现如下步骤：

S1、根据初始字符串列表，获取第一字符串集B={B

S2、按照第一处理方法，同时对所有的B

S21、当y≥2、B

S23、根据H

S25、将R

本发明至少具有以下有益效果：

本发明提供了一种获取目标数据列表的数据处理系统，包括：初始字符串列表、处理器和存储有计算机程序的存储器，当计算机程序被所述处理器执行时，实现如下步骤：根据初始字符串列表，获取第一字符串集；按照第一处理方法，同时对第一字符串集中所有的第一字符串列表中的第一字符进行处理，获取目标数据列表；可知本发明能够根据初始字符串列表，获取第一字符串列表，同时对第一字符串列表中的第一字符进行处理，获取目标数据，能够实现对字符串进行并行处理并且无需训练字符串解析模型，无论什么格式的字符串，都能够获取到目标数据，因此，本发明有利于提高获取目标数据的精准度，且能够避免资源浪费，提高系统的运行效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种获取目标数据列表的数据处理系统执行计算机程序的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的实施例提供了一种获取目标数据列表的数据处理系统，包括：初始字符串列表、处理器和存储有计算机程序的存储器，当计算机程序被所述处理器执行时，实现如下步骤，如图1所示：

S1、根据初始字符串列表，获取第一字符串集B={B

具体地，初始字符串列表包括若干个初始字符串。

具体地，初始字符串为能够呈现目标图片对应的目标结构化数据的字符串，例如初始字符串为：{"type"："问答开始时间"，"value"："2021年12月27日16时22分"，"start"：21，"end"：38，”time”：{"year"：2021，"month"：12，"day"：27，"hour"：16}}，{"type"："问答结束时间"，"value"："2021年12月27日18时30分"，"strt"：39，"end"：56，"time：{"year"：2021，"month"：12，"day"：27，"hour"：18}}。

具体地，按照第二处理方法对目标图片进行处理能够获取目标图片对应的目标结构化数据。

进一步地，目标图片为具有大量的用于描述事件信息的文本的图片。

具体地，第二处理方法包括如下步骤获取目标图片对应的目标结构化数据：

S10、将目标图片输入到预设图片预处理模型中获取第一图片，其中，预设图片预处理模型为本领域技术人员预先训练好的模型，训练样本为若干个第一预设图片，输出样本为第一预设图片对应的候选图片，候选图片可以理解为将第一预设图片进行摆正后的图片，例如第一预设图片中的文字呈倾斜状态的图片，那么第一预设图片对应的候选图片为将第一预设图片摆正后使文字呈现水平状态的图片。

S20、将第一图片输入到预设标题识别模型中获取第一图片对应的标题文本，标题文本为第一图片中能够呈现标题的文本，预设标题识别模型为本领域技术人员预先训练好的模型，预设标题模型的训练样本为若干个具有文字的第二预设图片，输出结果为第二预设图片中的标题。

S30、对第一图片进行字符提取处理，获取第一图片对应的文本，第一图片对应的文本中包括若干个图片字符，图片字符为第一图片中的字符，其中，本领域技术人员知晓，现有技术中任一提取图片中的字符的方法，均属于本发明的保护范围，在此不再赘述。

S40、将第一图片对应的文本输入到关键词提取模型中，获取第一图片对应的文本对应的关键词列表，第一关键词列表中包括若干个关键词。

具体地，关键词中的字符类型可以为英文、中文、数字、字符中的一种类型或多种类型的组合，例如：18岁；张三、good；10点23分5秒；10：23：05；100。

S50、将第一图片对应的文本、标题文本和关键词列表输入到预设实体识别模型中，获取标题文本和关键词列表中的关键词对应的目标实体类型，预设实体识别为本领域技术人员预先训练好的实体识别模型，预设实体识别模型的训练样本为若干个预设文本、预设文本对应的预设标题文本、预设标题文本对应的若干个预设关键词，输出结果为预设标题文本和预设关键词对应的类型。

具体地，目标实体类型包括：姓名、年龄、时间、地址等。

S60、按照预设数据结构对标题文本、标题文本对应的目标实体类型、关键词、关键词对应的目标实体类型进行处理，获取目标图片对应的结构化数据，其中，预设数据结构为本领域技术人员根据实际需求预先设置好的数据结构。例如：结构化数据为{"type"："问答开始时间"，"value"："2021年12月27日16时22分"，"start"：21，"end"：38，”time”：{"year"：2021，"month"：12，"day"：27，"hour"：16}}。

具体地，初始字符串为能够呈现目标图片对应的目标结构化数据的字符串也可以理解为：将目标图片对应的结构化数据作为初始字符串；例如：若目标图片对应的结构化数据为“{"type"："问答开始时间"，"value"："2021年12月27日16时22分"，"start"：21，"end"：38，”time”：{"year"：2021，"month"：12，"day"：27，"hour"：16}}”；那么初始字符串也为“{"type"："问答开始时间"，"value"："2021年12月27日16时22分"，"start"：21，"end"：38，”time”：{"year"：2021，"month"：12，"day"：27，"hour"：16}}”。

通过上述步骤对目标图片进行处理，获取目标图片对应的文本、标题文本和关键词，根据目标图片对应的文本、标题文本和关键词进行处理，获取标题文本和关键词对应的目标实体类型，进一步地，按照预设数据结构对标题文本、标题文本对应的目标实体类型、关键词、关键词对应的目标实体类型进行处理，获取目标图片对应的结构化数据，有利于提高获取结构化数据的精准度。

具体地，初始字符串列表A={A

S11、获取A对应的第一生成日期列表C={C

具体地，生成初始字符串的日期存储在系统中，且格式为：yyyy-mm-dd，例如：2023-07-05。

S13、对C进行去重处理，以获取第二生成日期列表D={D

S15、根据C

上述，获取初始字符串的第一生成日期，所有的第一生成日期进行去重处理，获取第二生成日期，将与第二生成日期相同的第一生成日期对应的初始字符串组合在一起，有利于精准的获取第一字符串列表，同时对所有的第一字符串列表中的第一字符进行处理，可以理解为对字符串进行并行处理，而非按照顺序依次对第一字符串进行处理或者训练若干个字符串解析模型，将第一字符串输入到相对应的字符串解析模型中进行处理，能够避免资源浪费，有利于提高系统的运行效率。

具体地，S15包括如下步骤：

S151、当C

S153、当h(j)≤h

S155、当h(j)＞h

上述，当第二字符串列表中的第二字符串的数量不大于预设数量阈值时，说明系统执行一个任务能将第二字符串列表中的所有第二字符串处理完毕，因此，将第二字符串列表作为一个第一字符串列表，当第二字符串列表中的第二字符串的数量大于预设数量阈值时，说明系统执行一个任务不能够将第二字符串列表中的所有第二字符串处理完毕，此时需要将第二字符串列表中的第二字符串进行拆分，拆分成多个列表，可以理解为拆分为多个子任务，将拆分后的列表作为第一字符串列表，同时对第一字符串列表进行处理，而非按照顺序依次对第一字符串进行处理，能够避免资源浪费，有利于提高系统的运行效率。

具体地，S155包括如下步骤：

S1551、根据h(j)和h

S10、当h(j)/h

S20、当h(j)/h

S30、当h(j)/h

具体地，总时间段为0：00：00-23：59：59。

具体地，F

具体地，任意两个子时间段的时长相等。

S1552、获取E

具体地，生成第二字符串的时间点存储在系统中。

S1553、当G

上述，当第二字符串列表中的第二字符串的数量大于预设数量阈值时，获取第二字符串列表中的第二字符串的数量与预设数量阈值的比值，根据比值和总时间段，获取子时间段列表，把第二字符串对应的生成时间点属于子时间段的第二字符串作为子时间段对应的第三字符串，以获取第三字符串列表，将第三字符串列表作为第一字符串列表，同时对第一字符串列表进行处理，而非按照顺序依次对第一字符串进行处理，能够避免资源浪费，有利于提高系统的运行效率。

S2、按照第一处理方法，同时对所有的B

具体地，第一字符串列表中包括若干个第一字符串，第一字符串中包括若干个第一字符，即B

S21、当y≥2、B

具体地，第一关键字符为“，”；第二关键字符为“}”，第三关键字符为“{”，第四关键字符为不同于第一关键字符、第二关键字符以及第三关键字符的其它预设字符，其中，预设字符为本领域技术人员预先设置好的字符，在此不再赘述。

S23、根据H

具体地，S23包括如下步骤：

S231、当v=1时，执行S232，若v＞1时，执行S234。

S232、当H

具体地，初始值为NULL的列表存储在数据库中。

S233、将H

S234、当T

S235、将T

具体地，当v=w时，T

上述，将第四字符串中的第一个第四关键字符之前的能够呈现的结构化数据的所有字符作为第四字符串对应的第一个第一中间字符串，将第四字符串中的第一个第四关键字符之后的能够呈现的结构化数据的所有字符作为第四字符串对应的第一个第二中间字符串，然后将第一个第二中间字符串中第一个第四关键字符之前的能够呈现的结构化数据的所有字符作为第四字符串对应的第二个第一中间字符串，将第一个第二中间字符串中的第一个第四关键字符之后的能够呈现的结构化数据的所有字符作为第四字符串对应的第二个第二中间字符串，依次类推，直到第二中间字符串为NULL时，停止获取第一中间字符串，将所有的第一中间字符串作为关键数据，并将所有的关键数据作为关键数据作为目标数据，无需训练字符串解析模型，无论什么格式的字符串，都能够获取到目标数据，有利于提高获取目标数据的精准度。

S25、将R

上述，对第一字符串进行处理，将第一字符串中符合条件的第一关键字符，替换为第四关键字符，以获取第四字符串列表，对第四字符串列表中的字符进行对比，获取关键数据，并将关键数据作为目标数据，无需训练字符串解析模型，无论什么格式的字符串，都能够获取到目标数据，有利于提高获取目标数据的精准度。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：北京睿企信息科技有限公司;日照睿安信息科技有限公司;

上一篇：一种基于伪彩色图像处理红印油指印的真伪鉴别方法
下一篇：基于重定时器测试设备的网卡眼图分析方法、系统和装置