掌桥专利:专业的专利平台
掌桥专利
首页

一种数据集成方法和系统

文献发布时间:2024-04-18 19:58:21


一种数据集成方法和系统

一、技术领域

本发明属于信息化领域,涉及信息化应用、电子信息管理、数据分析等领域。

二、背景技术

本发明科学组织且有效融合文字处理软件和操作系统功能,形成数据集成方法和系统,主要解决在传统应用中存在的以下问题。

(一)桌面应用存在的不足。我们在计算机桌面系统应用中,使用文字处理软件撰写文稿,运用操作系统管理文件,利用文件夹对文件进行分类管理,形成了文件与文件夹的二元管理模式。但仅是依靠文件夹的管理,随着时间推移和文件数量的增大,容易产生混乱,时常难以准确找到所需文件,而有的文件属性复杂,难以做到利用文件夹实施科学精准分类管理。

(二)建立专用系统的不足。为了解决二元管理模式带来的管理困难,人们开始建立各类专用系统来管理文件和工作,但这种方式往往需要进行系统开发,需要配备机房设施,安全防护系统等。这种方式资金投入大,建设成本高,运维成本高,对个人而言更是存在较高的投资门槛。

(三)软硬件功能资源浪费。当今计算机的软硬件技术发展进步较快,但人们工作、学习的方式还大量处于传统的应用。传统的方式下,文字处理软件主要是进行纯粹文稿的撰写,功能单一,事务管理功能未能有效开发,浪费了日益强大的计算机运算能力。当前,计算机的存贮能力越来越强,但大量存贮空间闲置。这些情况的存在,使得计算机软硬件资源功能的浪费成为一种普遍现象。

(四)数据资源分析不足。传统的电子化工作、学习中形成的数据较为散乱,数据分析存在完整性系统性差或技术难度大的问题,进行有效数据转移和分析都会面临一系列的困难,难于客观精准对工作或学习进行全面数据分析。

三、发明内容

本发明是一种数据集成方法和系统,充分强化计算机桌面系统的应用,运用了公知文字处理软件,如微软Office或WPS Office,以及公知的操作系统,如Windows 7,KylinOS等,基于计算机桌面系统而提出,系统地解决了前面所述的问题。

(一)创新性内容。本发明与传统技术相比,深度挖掘文字处理软件与操作系统功能,开发文字处理软件,使其具备复杂事务管理的能力与分析能力。改变了常规的桌面系统中普通文件加文件夹的简单二元结构应用,实现了管理文件、普通文件、文件夹的的三元结构应用。在管理文件的统率下,形成了下面三个方面的突破。

1、通过框架定位管理清单,利用清单实现对多任务的管理,以链接方式实施采集,开发出对文件、文件夹、文字信息的采集处理功能。管理文件实现了多任务管理,多任务事项涉及的各类文件,包括工作、学习推进产生的文件等,均以多任务事项中具体的每一事项为单元分别进行集中,管理查阅与使用。

2、通过对链接功能的开发,开发出对文字进行链接和文件链接的调用方法,进而形成短篇幅文字的有组织链接、调用与分析,使方法具备了收集整理使用者研究或思考成果的能力。做到了有成果即刻编写并链接打包,这些所编写的成果不需刻意整理,只需以多任务管理为基础存放于管理文件中,可在需要时进行提取应用。提升了工作效率与工作质量,形成了新型工作方法。

3、深度开发文字处理软件与操作系统的功能,利用文字处理软件与操作系统相结合实现了数据集成和系统管理。实现了对电子化工作、学习的一种全数据化集成,使零散、碎片化的工作或学习任务得以集成化管理,形成数据集。形成的数据集可以运用公知方式,如U盘、网络等方式传输转移,可开展多点位分析和处理。创新提出了管理文件这类应用文体,管理文件不同于文字处理软件所形成的常规性文稿,主要用于管理事务信息和文件资料,并与操作系统所管理的文件夹资源形成体系化数据集,真正实现了工作、学习等的数据化管理与应用。

(二)主要技术内容。

管理文件全面融合文字处理软件与操作系统的管理功能,形成了框架采集、多任务管理、链接映射、信息提取、数据集等技术。

1、管理文件。所提出的数据框架,是指利用文字处理软件形成了分层分类的信息管理框架,框架充分体现任务类型及层级,分别管理不同类型及层级的任务或信息。管理文件以常用的文档结构为基础,可以通过目录层级对工作、学习进行系统的管理,对文字处理软件、操作系统进行功能融合。

2、框架采集。框架可以直接与管理文件内的信息相联系,以链接为主要采集手段,实现对工作、学习数据的全面采集。建立框架后,以之为基础,将工作或学习的过程中所涉及的信息、文件、文件夹等采集进入管理框架相应位置,从而实现管理框架对信息、文件、文件夹的采集。通过管理框架采集,实现了对工作或学习任务的分类管理。采集可以对文件、文件夹分别进行,其结果是与工作、学习相关的文件都可通过链接方式进行采集,可以直接点击链接而打开文件,或是打开所需文件所在的文件夹。

3、多任务管理。结合管理框架(由框架任务所组成),有效运用清单与多任务的配合,可以实现多任务管理。一般是框架任务用于任务大类的分类,其下为各子项任务,而具体的多任务事项则在子项任务之下产生。运用分类管理的设定目录可迅速定位框架任务与子项任务,从而定位各清单任务;运用关键字(符)查询(寻址)迅速由各清单多任务找到对应任务推进区域,这便实现了依托管理文件的多任务管理。管理文件全面管理工作、学习所涉及到的各类文件和工作推进的细节。图1即是框架任务与子项任务共同结成管理文件的框架。多任务不仅进一步体现了工作、学习的复杂性,也使框架管理进一步符合现实的需要,做到了灵活性与可扩展性的有效结合。任务可以有多种来源,有的是属于自行安排,有的是属于文件、会议部署安排而产生,这些任务汇聚而形成了可以由管理文件统一管理的多任务。充分运用框架进行信息采集,运用多任务全面反应具体工作、学习任务的推进,框架与多任务的结合可以形成极强的管理能力。图2即是管理文件相应的框架任务与子项任务的具体情况,子项任务之下设立各项清单任务。清单任务通过唯一性标识,在具体的清单任务之间进行转换,实现对多任务的管理功能。图2所示的“第二部分框架任务2”即可以是一个执行区域的框架,“第二部分框架任务2”能集中管理大量清单多任务的推进情况,当然执行区域也可以在其他部分进行安排,这个根据需要而决定。

4、链接映射。可以通过管理文件直接插入文件链接或通过选取文字建立与文件的链接关系,以实现对文件的采集,从而可以调用文件;还可以通过对文件夹位置的取得,建立所选取文字与文件夹的联系,从而可调用打开相应文件夹。管理文件大量应用链接技术,形成了管理文件与对应的文件或文件夹的链接映射关系,从而可以利用管理文件与工作、学习产生的所有文件建立联系。

5、信息提取。编写或选取一段短文,直接链接打包,以实现对短文的固化,在管理文件内形成若干的短信息,这些信息可分别被链接所打包集中,可以运用通配符进行提取,信息提取技术往往以关键字加链接的结构出现,运用通配符技术进行提取,这种特性也使本发明具备提取所需文本的功能。这是本发明提出的创新型应用。工作与学习中,基于研究发现了公知的WPS OFFICE、MS OFFICE等文字处理软件具有通配符捕获链接的能力,而这项发现尚不被人所知悉,而本项发明则很好地应用了这一功能。可以在链接的前后相邻位置建立关键词,通过关键词查获链接,从而实现对链接文件或信息的获取,通过复制、拷贝等操作可以对这些文件、信息加以利用。这个发现使文字处理软件具备了管理文字成果的能力,可实现自由方便的信息提取。

6、数据集技术。本发明综合文字处理软件与操作系统的功能进行管理,形成的管理文件、常规文件以及存贮这些文件的文件夹共同组合得到数据集。数据集的是本发明的重要特点,它实现了完备的信息管理。通过管理文件对工作、学习文件、文件夹以及信息的采集补充,在管理文件内存在着工作、学习相关文件、文件夹的链接映射内容。数据集自然而形成,极具价值,全面反应了工作的推进情况,可以针对工作开展分析或评价。数据集可以整体通过介质、网络传输而实现在不同的计算机设备上转移,并能进行全息化分布式分析。

(三)辅助支持技术

由于本发明涉及到新技术,辅助支持技术是可以采用以强化效果的技术。

1、升级文档结构。文字处理软件的文档结构或目录可以作为本发明框架技术的基础,理论上可以实现多层级目录应用,但这样会造成目录庞大,框架采集便不容易操作,因为查找框架中的相应位置将比较麻烦。为解决框架深度延伸的问题,可进行适当改造处理。当采用文档结构作跳转,点击到达相应位置后,对于需要向下延伸部分则以该目录下的相关工作内容进行分类,但这些分类是以关键词(字)形式存在于管理文件之中,通过查各关键词(字)而到所需采集或工作、学习位置。图5即是升级文档结构技术的应用。框架与升级文档结构技术相配合,可以产生任意深度的工作分类。

2、链接清洗。管理文件内,对所有工作相关文件都以链接方式进行采集,而这种采集经常是以直接插入链接方式进行,因为这样的操作非常迅速,同时也将文件名进行了采集,便于分析应用,但与此同时,我们会将文件的路径信息、文件的后缀名也一并采集进来,破坏了管理文件的文本美感,可以对这一类无用信息进行清洗。根据对文字处理软件的研究,这时直接删除路径信息和后缀名并不影响实际链接的情况,因而可以直接删除掉这些信息,或运用文字处理软件查找替换的操作,将这些信息替换为空,实现链接清洗。

3、空链接。这是对文字处理软件开发形成的功能,通过选取一段文字或字符,直接对其执行插入链接的操作,这时所选的文字或字任成为将要插入链接的名字,当然这段字符不应太长,一般是不应超过与文字处理软件设计的设定。空链接是指对其链接地址不作特别规定,只需满足文字处理软件要求即可,从而形成链接控制下的一段文字,可以不指向任何实际地址。空链接可以像其他类链接一样被调用,从而有效提取处理文字短信息。

4、大文件。本发明提出了大文件的应用,管理文件就属于大文件应用,其特点是内容多,运用时间较长。大文件充分运用了计算机的高速运算能力,可以在大文件的任何位置根据工作需要进行增减,并可以在高速运算能力支持下,使大文件可以迅速接受调整或增减,而不会影响文件管理修改的流畅性。

5、时间机制。本发明可以灵活地运用工作机制,可以对日、周、月、年的时间单元进行充分体现,并以时间为轴线管理工作、学习。原则上,一年的数据可以形成一个年度数据集,而使人一年具有一年的数据收获,清晰归纳规划工作、学习的时间。

(四)本发明应用价值

本发明提出的数据集成方法和系统与工作、学习过程完全融合,基于常用的软硬件系统建立科学合理的框架,成本极低却可以形成工作、学习的过程同步数据化的效果。由于工作、学习实现了数据化,因而无需再对工作、学习的过程进行留痕,又因为有了数据化而形成的数据集,相互之间的交流可以通过数据的应用、分析等方式展开。

本发明运用框架及多任务等技术,创造性地将文字处理软件扩展出管理能力,充分实现了文字处理软件的扩展性应用,对工作中形成的文件和工作过程进行采集。形成了带有工作任务全面信息的数据集,数据集全面反应工作、学习过程。数据集可以灵活转移和处理,实现长期存贮和分析应用。本发明在于使传统的工作、学习中产生的大量分散性数据,包括文件和推进过程实现了统一的管理,也形成了工作、学习的历史性数据,以基础性软件的配置完成了系统性复杂的管理工作。

本发明突破了公知文字处理软件的常规应用。公知文字处理软件常规应用为撰写性功能,撰写具有专一中心主题的文章、文稿文件等。本发明则是通过框架、清单以及多任务的思路,充分运用公知文字处理软件和计算机系统的高性能运算能力,实现了强大的管理功能,这种管理功能的形成,使公知文字处理软件形成了对常规文件、文件夹、工作推进信息的采集处理能力,通过公知操作系统形成了信息集中管理,最终获得数据集。通过这种提升,使单个人或岗位的工作、学习实现了数据化,实现了个人工作、学习的大数据管理。

本发明可建立基于数据集的分布式分析,实现数据化推动工作、管理工作、分析工作,使工作获得历史性、沉淀性数据,这一类数据可随时启用并分析其所属的工作或学习内容。数据集可以实现通过管理文件进行分析或实施针对管理文件、常规文件、文件夹的全数据分析,在数据分析为手段的情况下获得相关任务事项的信息,实现数据化分析应用。可分析获得任务进度、成果、问题等信息,形成可转移的全息化数据集,利用任何获得数据集的计算机设备均可以开展针对数据集的分析。

四、附图说明

图1即是框架任务与子项任务共同结成管理文件的框架。

由管理文件设置了相应的框架任务与子项任务的目录级别,在目录视图条件下而形成如图1所示的目录结构,可以通过点击框架任务或子项任务而迅速进入到管理文件的相应的位置,从而实现以框架对相关文件及信息的采集。①为框架任务,②为子项任务,子项任务从属于所处的框架任务,一般情况下,框架任务与所属子项任务共同构成了采集的框架。子项任务之下可设立子项任务清单,框架任务、子项任务以及子项任务清单根据具体的工作、学习情况而确定。

图2即是管理文件相应的框架任务与子项任务的具体情况,子项任务之下设立各项清单任务。清单任务通过唯一性标识,在具体的清单任务之间进行转换,实现对多任务的管理功能。①为框架任务,②为子项任务,与图1相比,③为此时在子项任务之下开始出现具体的任务清单,而④则为推进部分的具体的任务清单的执行情况,在执行情况的内容中,将大量容纳所要链接的各类文件、文件夹等内容,并可不断补充相关属性信息,如时间信息、完成人信息等,也可补充对工作完成评价、说明等内容。具体清单任务的名称根据工作、学习情况而确定。

图3是框架性的目录示例。

图4是框架及清单任务示例。

图5是升级文档结构应用。①为集中在一起的关键词,分别为关键词一、关键词二、关键词三等;②为各关键词对应层级情况,其中关键词一、关键词二、关键词三等分别为各序号之下的具体工作条目。适合于较小范围查找和定位,是以关键词为基础进行寻址。

图6是空链接的形成。

图7是实际形成的空链接。

图8是用关键字与空链接组成调用结构。

图9是加入通配符用关键字实际调用空链接。

图10是调用空链接的选中状况。

图11是实际示例的目录结构。

图12是实际示例的实际清单任务。

图13是实际示例的实际清单任务推进情况。

图14是实际示例产生的数据集。

五、本发明实施方式

举例说明,本发明可以按如下的方法实现:

(一)设计用于采集数据的框架

框架针对工作、学习等任务而设计。比如采用国产WPS OFFICE软件,针对一个初中一年级学生的学习任务的框架可以这样设计:

以学习的一般规律为基础,将基础框架为四个部分,均设为第一级目录,第一部分为“学习清单”,第二部分为“学习推进”,第三部分为“体育锻炼”,第四部分为“所获奖励”,针对第一部分“学习清单”设置第二级目录,分别为:“学习计划”、“作业安排”、“学习成绩”、“资料积累”、“教师要求”、“错题整理”、“数据台账”、“其他活动”,各清单内再分别设置多任务事项。如在“学习清单”之下设多任务事项,分别包括“学习计划”、“作业安排”、“学习成绩”、“资料积累”、“教师的话”“错题整理”、“数据台账”等。基于文字处理软件的文字撰写和目录功能等,框架的内容可以根据需要增减相关的内容,以不断优化该系统性框架。所设定的多任务也可以根据学习推进情况不断增加和丰富,以真实全面反应学习的情况。

本发明的应用需要以框架为支撑,因而设计框架是重要的一个步骤。

(二)建立管理文件

以设计好的数据采集框架为基础,框架部分设为第一级清单,其后为第二级清单。均录入和列出后,按目录管理分别设成第一级目录、第二级目录,这时可打开导航窗格视图,可以在窗格视图中看见框架的组织情况。如图1所示。

转化为目录的方式可以通过点击迅速定位到框架的相关位置,从而可在相关位置或近邻位置开展信息处理,并不断丰富和完善管理文件的内容。管理文件随着学习任务的展开不断增长,但由于计算机软、硬件的性能已有较大发展,能有效保障应用的流畅。任何一项学习任务、资料等信息均可以多种方式采集到管理文件之中,一旦进入到管理文件,便作为历史信息保存并长期使用。

(三)采集信息

在管理文件中可以插入链接类信息,如链接文件、文件夹或网页等;也可录入标识类信息,如时间信息、人员信息等;还可以录入所需的其他信息。对于较常用到如“学习清单”这部分的内容,在该位置找到相应的二级目录清单,在清单内应用多任务标识,多任务标识与执行区域的一一对应关系,可以通过查找字符串的方式在多任务与推进环节之间进行跳转和处理。

链接是重要的采集方式,以WPS OFFICE为例,执行CTR+K,调入插入文件,使文件进入管理文件相应位置,即实现了对该文件的采集。

(四)链接的清洗

在管理文件的相应位置,如多任务的推进位置等,可以通过CTR+K直接调用插入一个文件的命令,点击所需要插入的文件,并点击确定后,该文件被链接进入管理文件之中,如下所示:

/data/所选中的链接文件.wps

此时“

(五)信息提取

在此,信息提取技术需由关键字(词、符)与链接所构成,通过关键字(词、符)可以调用到链接,由于相同的关键字(词、符)同时对应了多条链接,因而可用关键字(词、符)加链接的方式,利用通配符技术进行查找提取,该关键字(词、符)同时通过通配符查询的方式或得所有其于大文件内对应的信息。如下所示,我们以“跬文”为关键词,在管理文件内形成如下两条信息:

跬文:

跬文:

在这里,“

1、什么是跬文

为了更好地进行说明,我们提出一个跬文的概念,所谓跬文即指有一定意义和价值的带链接短文,其内容包括对工作任务及时作出的总结、思考等。本发明提出了如何生成和提取跬文的方法,由于方法灵活,极大地拓展了工作的管理方式,也将文字处理工作推升到更加富有创造性的境地。跬文的全套处理办法形成了跬文技术,跬文可以汇集思考、总结等内容,成为工作中的得力帮手。

跬文可以在主管理文件的任何环节形成,在任何位置产生,并可以在需要的时候被提取和应用,跬文技术对于解剖资料显然作用明显,其与大文件形式的管理文件相结合更是产生了奇妙的作用。由此,“极简大数据工作法”也因为跬文的出现获得了帮助人们撰写材料或演讲的能力。相对于数字生命的形成,我们可以对跬文称为“数字辉点”,一系列的数字辉点可以使工作中所产生的灵感、思考、总结的成果进入大文件管理,以得到长期关注,可进一步整合利用。

跬文来自于对工作中产生的精华的提取,这些精华性的内容需要打包集中。通过对链接的的研究以及文字处理软件的技术进行分析,在文字处理软件中,存在一种通用提取技术,“?”通配符可以代替一个通用字符,存在链接的字符串也可以用“?”通配符查获,利用这种技术可以对链接进行提取,从而获得跬文。通过测试发现(实质上这点与字符型变量的特点有关),链接文字的长度有字符数限制,因而一篇跬文也不应超过最大字符个数,以免造成文字损失。由于跬文的数量可以无限量生成,从而打开了跬文应用的空间。

2、再谈空链接

由跬文的形成我们可以看到,链接对于获得跬文非常重要,但对于一些没有链接却非常重要的文字可否也用跬文的方式进行提取呢,答案是肯定的,这时需要用到空链接。空链接是一种特别的链接,它形成于带设置名字的链接,只是其设置的名字不应超过最大字符数,将所需要的文字选中后,按下CTR+K,或引入链接,此时会显示出如图6窗口:

如图6所示,在窗口的链接地址位置填写任意字符,而后选择完成,引时就形成了一个空链接,空链接实际上将文字进行了打包处理,这也为对空链接的提取打下了基础,由于是空链接,它事实上未指向任何实际链接位置,由此也称其为“空链接”。“空链接”将文字进行了聚集,可以视作一个单元,实现整体提取。

3、实际信息提取

我们可以举例说明空链接或链接的提取特性。图7为实际形成的空链接,我们可以利用通配符“?”对其实施调用。在该空链接的头或尾部加上便于调用和识别的关键字,如图8所示。

针对图9有几项重要操作,一是在对话框“查找内容”中需填上“关键字?”,关键字可以根据需要而定,“?”为通配符,只能选用西文符号;二是需打开高级搜索,选中“使用通配符”;三是对话框中“在以下范围中查找”选中“主文档”。这时会显示出查找到的“关键字”及其通配符所选中的情况,如图10所示的被有效选中情况,这时采用复制的操作即可将选中的内容获取,而再用粘贴等操作则可以将其粘贴进所需的文件中了。

除了空链接以外,其他类型的链接同样也可以提取信息,并在提取时保留了其链接的指向信息。

(六)管理文件示例

当我们应用本发明来真正管理学习时,可以形成如图11所示的目录结构,当然这是部分内容,可根据需要对目录结构进行扩展。

图12是清单任务的形成情况,清单任务有分类,又是聚焦在相对集中的区域,在这个区域便可以看见任务的全景情况。

图13是清单任务的实际推进情况。在这里,可以清晰地看到“数学0930得109分~”的清单事项,在清单任务中得以形成后,其具体推进情况中反应了细节情况,这个事例中的“0930数学109”(其路径名及后缀均清洗)链接指向一张图片,打开可以看到试卷的情况,其下形成了一条跬文,提出了该事项需要注意的一个问题,当然跬文可以集中获得。

(七)形成数据集

数据集是管理文件的基础,管理文件就是数据集的龙头,或称作总纲,通过管理文件使数据集内的文件或文件夹能得到有效的过程管理和应用支持。文件夹管理是形成数据集的基础,可以运用一个文件夹对该数据集全部文件进行管理,该文件夹为主管理文件夹,其内也可再细分其他文件夹。管理文件本身也可以就放在主管理文件夹内,或为其专门设立文件夹以便快速找到。示例中,由于数据集本身完全反应了学习的过程,此时不需由学习者本人进行说明,他人也能清楚地掌握其学习的情况,这将产生新型的数据交流方式。图14反应了数据集的情况,所有的文件存在于“嘉理2022”文件夹中,这是主管理文件。管理文件是“嘉理2022.wps”,存在于“嘉理2022”文件夹的名为“主文件”的文件夹内,显然可以看出这是2022年的数据。

(八)数据集备份及转移

从数据安全考虑,应对数据集进行定期备份。可通过移动介质或网络传输,实现数据集的转移并进行数据分析。在平常工作中,应及时开展备份,这时最好采用增量备份,仅对新产生或有改动的文件进行备份,这样耗时少,不会对工作产生影响,但却极大地提高了数据的安全性。当主管理文件“嘉理2022”文件进行整体转移时,则所有的数据得到了完全转移,实现这样的操作可以利用操作系统对文件及文件夹的管理功能,这在操作系统里是很容易通过一些计算机的语句进行实现的。这种整体数据转移极大地方便了工作、学习,因为任何时候都能获得全面的数据,而所有拿到数据的人也很容易通过数据进行分析,了解到具体的工作或学习的情况。

相关技术
  • 一种基于95598异地双活灾备模型的跨库数据集成系统及方法
  • 一种从多源数据集成视角构建企业知识图谱的方法
  • 数据集成系统和基于数据集成系统的数据处理方法
  • 一种数据集成系统及数据集成方法
技术分类

06120116484729