掌桥专利:专业的专利平台
掌桥专利
首页

一种异构数据比对方法及其装置

文献发布时间:2024-04-18 19:58:21


一种异构数据比对方法及其装置

技术领域

本发明涉及计算机技术领域,尤其是涉及一种异构数据比对方法及其装置。

背景技术

当前随着计算机领域中大数据技术的发展,在数据进行迁移或者大数据应用的过程中,需要比对两份文件中数据内容以及格式的一致性。同时,在迁移的过程中,难免有表格结构的变动,比如表格表头占用多列、单元格格式改变、行记录存在错位等。异构数据表格下的数据比对是一个常遇到的问题,表定义的差异和表数据的内容是否一致,具体的差异内容和差异格式有哪些,针对大数据量表格如何快速定位差异位置,都是需要完整验证并记录的。

发明内容

本申请实施例提供了一种异构数据比对方法及其装置,可以提高数据比对效率和准确性,同时具有自适应列宽、数据删除、数据记录、实时更新、多语言、多平台、高度自动化等优点。适用于各种数据处理和分析场景,尤其适用于对异构数据进行处理和比对的情况。

第一方面,本申请提供了一种异构数据比对方法,包括以下步骤:

S1:根据配置路径获取指定EXCEL文件,并对其异构数据进行删除多余分页、去除空字段以及自适应列宽;

S2:按照配置的字段对EXCEL进行排序处理,用于后续进行比对操作;

S3:按照数据比对策略比对处理过后的EXCEL表格,比较其值、字体、边框、居中方式和填充背景颜色,并将比对结果保存在新的EXCEL文件中。

优选地,在步骤S1中,目标行中包含指定字符串″当页″,则将目标行的行索引添加到列表″to_drop″中,且删除目标行以及目标行下一行,从而删除多余分页。

优选地,在步骤S1中,使用max函数对DataFrame中的每一列进行自适应列宽处理。

优选地,在步骤S3中,保存在新的EXCEL文件步骤中,由OpenPyXL库来创建新的Excel文件,并将DataFrame中的数据写入到新的Excel文件中。

第二方面,本申请提供了一种实现第一方面的异构数据比对方法的装置,包括:

读取模块,用于根据配置路径获取指定EXCEL文件,并对其异构数据进行删除多余分页、去除空字段和自适应列宽;

排序模块,用于按照配置的字段对EXCEL进行排序处理;

比对模块,用于按照数据比对策略比对处理过后的EXCEL表格,比较其值、字体、边框、居中方式和填充背景颜色;

保存模块,用于将比对结果保存在新的EXCEL文件中。

第三方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法。

本申请实施例与现有技术相比存在的有益效果是:

1.针对异构数据表格的比对问题,有效弥补现有比对工具无法比对格式的缺陷,提升比对效率。

2.采用OpenPyXL库创建新的Excel文件,实现DataFrame数据的写入。

3.用户通过界面选择两个Excel文件和一个用于记录差异结果的Excel文件,然后点击“开始对比”按钮执行比较和记录。

4.程序会比较两个Excel文件中的每个工作表,并记录删除、增加和修改的行。

5.对于每个单元格,程序会比较其值、字体、边框、居中方式和填充背景颜色,并记录差异结果。

6.程序将比较结果保存到指定的Excel文件。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的流程示意图;

具体实施方式

以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其他情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。

本实施例提供的异构数据比对方法包括:根据配置路径获取指定EXCEL文件,并对其异构数据进行删除多余分页、去除空字段、自适应列宽等处理;按照配置的字段对EXCEL进行排序处理,便于后续进行比对操作;按照数据比对策略比对处理过后的EXCEL表格,比较其值、字体、边框、居中方式和填充背景颜色,并将比对结果保存在新的EXCEL文件中。

针对异构数据表格的比对问题,有效弥补现有比对工具无法比对格式的缺陷,提升比对效率。

采用OpenPyXL库创建新的Excel文件,实现DataFrame数据的写入。用户通过界面选择两个Excel文件和一个用于记录差异结果的Excel文件,然后点击“开始对比”按钮执行比较和记录。程序会比较两个Excel文件中的每个工作表,并记录删除、增加和修改的行。对于每个单元格,程序会比较其值、字体、边框、居中方式和填充背景颜色,并记录差异结果。程序将比较结果保存到指定的Excel文件。

异构数据处理部分:

a.读取指定EXCEL文件,并将其中的数据读入到一个PandasDataFrame中。

b.获取DataFrame中的所有列名,并使用循环遍历DataFrame中的每一行。

c.如果该行中包含指定字符串″当页″,则将该行的行索引添加到列表″to_drop″中,同时删除该行以及下一行,从而删除多余分页。

d.通过max函数进行自适应列宽处理;

e.删除了列表”to_drop″中指定行以及空列,并对DataFrame按照行号进行升序排列,以便于后续进行比较。

Excel比对部分:

a.用户通过界面选择两个Excel文件和一个用于记录差异结果的Excel文件,然后点击“开始对比”按钮来执行比较和记录。

b.程序会比较两个Excel文件中的每个工作表,并记录删除、增加和修改的行。

c.对于每个单元格,程序会比较其值、字体、边框、居中方式和填充背景颜色,并记录差异结果。

d.程序将比较结果保存到指定的Excel文件中。

提升数据比对效率:采用异构数据处理及格式比对方法,有效弥补现有比对工具无法比对格式的缺陷,提升比对效率。

提高数据比对准确性:通过Excel比对部分,对每个单元格进行详细的数据比对,确保比对结果准确无误。

方便数据比对操作:用户可以通过界面轻松选择两个Excel文件和一个用于记录差异结果的Excel文件,然后点击“开始对比”按钮开始数据比对操作。

具体地,

易于数据维护与管理:通过异构数据处理及格式比对方法,可以方便地对异构数据进行管理和维护。

高效的数据比对:本发明采用异构数据处理及格式比对方法,能够快速识别异构数据表格之间的差异,有效提高数据比对效率。

精确的数据比对:本发明利用Excel比对功能,对每个单元格中的数据进行详细比对,确保比对结果的准确性。

简便的数据比对操作:用户可以通过界面轻松选择两个Excel文件和一个用于记录差异结果的Excel文件,然后点击“开始对比”按钮开始数据比对操作,简便易行。

强大的数据管理:本发明通过异构数据处理及格式比对方法,可以方便地对异构数据进行管理和维护,提高数据处理的效率和准确性。

适用于多种数据比对场景:本发明涉及计算机技术领域,尤其涉及一种异构数据处理及格式比对方法与装置,可以应用于各种需要比对异构数据的应用场景,如企业数据对比分析、市场调研等。

易于数据维护与管理:通过本发明的异构数据处理及格式比对方法,可以方便地对异构数据进行管理和维护,提高数据处理的效率和准确性。

提升数据处理准确性:本发明采用异构数据处理及格式比对方法,可以快速识别异构数据表格之间的差异,提高数据处理准确性。

提升数据比对效率:本发明通过Excel比对功能,对每个单元格中的数据进行详细比对,确保数据比对效率。

本实施例采用Python语言和OpenPyXL库实现,

支持多文件比对:为用户同时打开多个Excel文件,进行数据比对,提高比对效率。

支持多种数据比对策略:用户选择不同的比对方式,如按列比对、按行比对、按值比对等。

支持自适应列宽:根据用户需求,自动调整列宽以适应不同的数据比对场景。

支持数据删除:支持用户手动或脚本进行数据删除,提高数据处理的效率和准确性。

支持数据记录:可以将比对结果以文本或图表形式记录到Excel文件中,方便用户进行查看和分析。

支持多语言:支持多语言,方便不同用户进行数据比对和分析。

支持Web应用:为Web应用提供数据比对和分析功能,方便用户进行数据处理和分析。

支持移动设备:为移动设备提供数据比对和分析功能,方便用户随时随地进行数据比对和分析。

异构数据比对方法的具体步骤如下:

读取Excel文件:首先,根据用户的需求从指定的文件夹中读取Excel文件,并将其存储在内存中。

异构数据处理:接下来,读取Excel文件中的所有数据,并进行异构数据处理。具体来说,本发明根据配置路径删除多余分页、去除空字段、自适应列宽等,以提高数据处理的效率和准确性。

按照配置的字段对Excel进行排序处理:然后,本发明对Excel文件中的数据进行配置的字段排序处理,便于后续进行比对操作。

按照数据比对策略比对处理:接着,本发明按照用户选择的比对策略对Excel文件中的数据进行比对处理,比较其值、字体、边框、居中方式和填充背景颜色等,并记录比对结果。

保存结果:最后,本发明将比对结果保存到一个新的Excel文件中,以记录异构数据对比的结果。

本发明提供了一种异构数据比对方法及其装置,可以提高数据比对效率和准确性,同时具有自适应列宽、数据删除、数据记录、实时更新、多语言、多平台、高度自动化等优点。适用于各种数据处理和分析场景,尤其适用于对异构数据进行处理和比对的情况。

本发明的技术可以应用于各种需要比对异构数据的应用场景,如企业数据对比分析、市场调研等。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

相关技术
  • 一种基于多源异构海量数据的深度分析方法及装置
  • 异构数据库的数据比对方法、数据同步方法、装置及介质
  • 异构数据库迁移及数据比对方法、装置、设备和存储介质
技术分类

06120116485971