一种数据名称和数据库建表生成方法及系统

文献发布时间：2023-06-19 19:30:30

技术领域

本发明涉及软件系统技术领域，尤其涉及一种数据名称和数据库建表生成方法及系统。

背景技术

互联网和大数据的飞速发展，无论是对企业还是个人都产生了巨大的影响，信息化甚至是数字化转型势在必行，充分利用基础技术和信息能快速创造价值包括但不仅限于打造企业竞争力、降本增效等等。当然这是从宏观描述，从微观或底层来讲就是对于信息化或数字化积累的大量数据的使用分析、挖掘就会显得尤为重要，如果希望快速方便高效分析的使用数据，就必须规范的定义数据极其结构，对于系统开发人员或大数据开发人员而言就需要高标准建立数据定义和数据库表，现有技术基本都是由开发人员自己直接进行定义。

现有技术进行数据库建表基本都是通过业务确定以后，根据业务定义的中文字段直接通过自己或从网络上搜索英文单词的方式建库建表，具有以下缺点：

1.缺乏标准，数据结构定义较随意，或者不合理，容易造成后期经常修改。

2.开发人员英文水平参差不齐，如果英文水平相对较差需要挨个搜索、如果表和字段多，极其费时费力。

3.相关字词业务性如果很强，不一定能轻易的搜索，甚至有时候采用拼音和首字母组合定义，不明晰，违反数据库开发的规范性。

4.因为业务不同，现在市面几乎没有这样的一种工具方法能帮助开发人员建库建表。

发明内容

本发明提供了一种数据名称和数据库建表生成方法及系统，分考虑到开发人员在建表和字段或者对数据描述和使用上面面临的一些困难，包括不明晰，不规范，不标准，不合理，通过专业的数据治理管理人员的介入，建立一套相对完整的数据标准。

为解决上述发明目的，本发明提供的技术方案如下：一种数据名称和数据库建表生成方法，其特征在于，步骤包括：

S1：采集数据标准库和词根库中的原始数据；

S2：预设模板，根据所述模板进行原始数据添加，将符合模板要求的原始数据添加到模板后导入系统，获得导入数据；

S3：对所述导入数据进行解析以及属性匹配；若匹配成功，则执行步骤S5；若匹配不成功，则执行步骤S4，进行分词；

S4：对匹配不成功的所述导入数据进行分词；用户自选分词方式，根据分词结果与所述词根库进行匹配，匹配成功后进行信息补充提交，执行步骤S5；

S5：根据匹配结果，获得生成建表语句需要的剩余信息，通过数据治理人员审核修改后添加至数据标准库；根据所述数据标准库的信息选择数据库类型生成建表语句，完成数据名称和数据库建表生成。

优选地，步骤S1中，所述数据标准库根据各企业的数据标准指定。

优选地，步骤S2中，预设模板，根据所述模板进行原始数据添加，将符合模板要求的原始数据添加到模板后导入系统，获得导入数据，包括：

对模板的输入规格进行设定；其中，模板的输入规格要求仅允许输入中文汉字、英文字母和数字，且长度不能超过40个字符，并在模板中选择类型是表名或字段名，表名只允许有一个，字段名数量不做限制；

将符合模板要求的原始数据添加到模板后导入系统；若不符合模板的输入规格，则跳出修改提示，根据提示进行修改后进行导入系统，直至导入成功。

优选地，步骤S3中，对所述导入数据进行解析以及属性匹配，包括：

对所述导入数据进行解析，解析成功后获得解析数据；

根据数据标准库中的中文名称，对所述解析数据进行匹配，匹配内容为：解析数据的中文名称对应的英文名称及技术属性；其中，技术属性包括：数据类型和数据长度、默认值。

优选地，步骤S4中，分词方法包括：

基于Ansj分词器，结合精准分词 ToAnalysis、nlp分词 NlpAnalysis以及面向索引的分词 IndexAnalysis三种分词方式进行分词；如果用户对分词结果不满意，则根据用户实际的用词需求进行自定义分词。

优选地，步骤S4中，匹配成功后进行信息补充提交，包括：

匹配成功后，获得补充信息，将补充信息提交至数据标准库，所述补充信息包括：数据类型、数据长度、字段业务含义；

若未匹配成功，则提交缺乏的中文到词根库，待数据治理人员审核修改通过后添加至词根库，再进行匹配。

优选地，步骤S5中，剩余信息包括：字段类型、字段长度、默认值。

一种数据名称和数据库建表生成系统，所述数据名称和数据库建表生成系统用于上述数据名称和数据库建表生成方法，所述系统包括：

数据采集模块，用于采集数据标准库和词根库中的原始数据；

数据导入模块，用于预设模板，根据所述模板进行原始数据添加，将符合模板要求的原始数据添加到模板后导入系统，获得导入数据；

数据匹配模块，用于对导入数据进行解析以及属性匹配；若匹配成功，则执行步骤S5；若匹配不成功，则执行分词模块，进行分词；

分词模块，用于对匹配不成功的所述导入数据进行分词；用户自选分词方式，根据分词结果与所述词根库进行匹配，匹配成功后进行信息补充提交，执行数据库生成模块；

数据库生成模块，用于根据匹配结果，获得生成建表语句需要的剩余信息，通过数据治理人员审核修改后添加至数据标准库；根据所述数据标准库的信息选择数据库类型生成建表语句，完成数据名称和数据库建表生成。

优选地，数据标准库根据各企业的数据标准指定。

优选地，数据导入模块，进一步用于：对模板的输入规格进行设定；其中，模板的输入规格要求仅允许输入中文汉字、英文字母和数字，且长度不能超过40个字符，并在模板中选择类型是表名或字段名，表名只允许有一个，字段名数量不做限制；

将符合模板要求的原始数据添加到模板后导入系统；若不符合模板的输入规格，则跳出修改提示，根据提示进行修改后进行导入系统，直至导入成功。

一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述数据名称和数据库建表生成的方法。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述数据名称和数据库建表生成的方法。

上述技术方案，与现有技术相比至少具有如下有益效果：

上述方案，本发明充分利用数据治理模式的数据标准管理体系来进行数据定义进而建立自己的数据库表，使得数据定义更加规范、标准，并能有助于数据的进一步使用、内部共享、挖掘，也让普通开发人员建立数据库表的时候更加快速、便捷。同时也会使得企业的数据标准能不断的得到完善。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种数据名称和数据库建表生成方法的流程示意图；

图2是本发明实施例提供的一种数据名称和数据库建表生成系统的系统框图；

图3是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明针对开发人员在建表和字段或者对数据描述和使用上面面临的一些困难，包括不明晰，不规范，不标准，不合理的问题，提供了一种能够减弱磁化弛豫效应，并能够使得数据的定义更加标准、规范，从而为数据进一步的使用、分析等创造优秀的条件。

如图1所示，本发明实施例提供了一种数据名称和数据库建表生成方法，该方法可以由电子设备实现，该电子设备可以是终端或服务器。方法步骤包括：

S101：采集数据标准库和词根库中的原始数据。

一种可行的实施方式中，先在数据标准库、词根库中去收集并维护常用数据，数据标准库根据各企业的数据标准指定。

本发明实施例中，数据标准是公司自己制定并需要共同遵守的属性业务规则和数据含义统一化、规范化、标准化并形成的对某个数据的共识，所以这是一笔宝贵的财富，值得被充分利用，在技术人员建立数据库时需去参考的标准内容。

S102：预设模板，根据模板进行原始数据添加，将符合模板要求的原始数据添加到模板后导入系统，获得导入数据。

一种可行的实施方式中，从系统下载导入模板并按照要求维护好数据，数据如：字段示例1、字段示例2，表1，维护好导入到系统。

一种可行的实施方式中，预设模板，根据所述模板进行原始数据添加，将符合模板要求的原始数据添加到模板后导入系统，获得导入数据，包括：

对模板的输入规格进行设定，其中包括：模板输入规格要求仅允许输入中文汉字、英文字母和数字，且长度不能超过40个字符，并在模板中选择类型是表名或字段名，表名只允许有一个，字段数量不限；

根据模板的输入规格填写待生成建表语句的中文字段和表名称；将符合模板要求的原始数据添加到模板后导入系统；

若不符合模板的输入规格，则跳出修改提示，根据提示进行修改后进行导入系统，直至导入成功。

S103：对导入数据进行解析以及属性匹配；若匹配成功，则执行步骤S105；若匹配不成功，则执行步骤S104，进行分词；

一种可行的实施方式中，对所述导入数据进行解析，以及属性匹配，包括：

对所述导入数据进行解析，解析成功后获得解析数据；

一种可行的实施方式中，导入的数据会从数据标准库根据中文去匹配，如：字段示例1匹配到英文FieldDemo1，其他全部匹配到，则可以直接建表，选择数据库类型如选择MYSQL类型直接生成伪建表语句如：

CREATE TABLE t1(

FieldDemo1 varchar(20) comment '字段示例1',

FieldDemo2 varchar(20) comment '字段示例2'

) COMMENT='表1';

本发明实施例总，数据标准库中所有的信息都是经过专业数据治理人员审核过的，所以建表名称和技术属性可以直接使用生成语句，使得建表规范、快速。

S104：对匹配不成功的导入数据进行分词；用户自选分词方式，根据分词结果与所述词根库进行匹配，匹配成功后进行信息补充提交，执行步骤105；

一种可行的实施方式中，分词方法包括：

采用Ansj分词器，结合精准分词 ToAnalysis、nlp分词 NlpAnalysis和面向索引的分词 IndexAnalysis三种分词方式进行分词；如果用户对分词结果不满意，则根据用户实际的用词需求进行自定义分词。

本发明实施例中，采用Ansj分词器，它是一个开源的中文分词工具,基于ictclas中文分词算法,比其他常用的开源分词工具(如MMseg4j)的分词准确率更高。

一种可行的实施方式中，匹配成功后进行信息补充提交，包括：

匹配成功后，对补充信息进行提交至数据标准库，所述补充信息包括：数据类型、数据长度、字段业务含义；

若未匹配成功，则提交缺乏的中文到词根库，待数据治理人员审核修改通过后添加至词根库，再进行匹配即匹配成功。

一种可行的实施方式中，如果在上一步没有完全匹配，则进入下一步分词，通过分词在词根库中匹配，如果字段示例1可能分为：字段_示例_1、字段示例_1，用户根据分词结果选择，如果觉得都不满意，可以自定义如字段示例1，在词根库中匹配，如果某个词根没有如字段没有，则补充此词根信息，提交治理人员审核，审核过后即可通过词根库全部匹配到相关英文，通过词根组合生成新的字段名称和英文，然后对字段进行补充技术属性和业务属性，提交数据标准库，待审核人员审核通过入数据标准库，数据标准库的数据可以源源不断的得到积累和补充，形成一定的数据资产。

S105：根据匹配结果，获得生成建表语句需要的剩余信息，通过数据治理人员审核修改后添加至数据标准库；根据数据标准库的信息选择数据库类型生成建表语句，完成数据名称和数据库建表生成。

一种可行的实施方式中，剩余信息包括：字段类型、字段长度、默认值。

本发明实施例中，整个过程都通过充分使用数据标准库来建数据库表，专业的数据治理人员的参与，使得更加准确和专业，本发明充分利用数据治理模式的数据标准管理体系来进行数据定义进而建立自己的数据库表，使得数据定义更加规范、标准，并能有助于数据的进一步使用、内部共享、挖掘，也让普通开发人员建立数据库表的时候更加快速、便捷。同时也会使得企业的数据标准能不断的得到完善。

图2是本发明实施例提供的一种数据名称和数据库建表生成系统的系统框图，该系统适用于上述数据名称和数据库建表生成方法，所述系统200包括：

数据采集模块210，用于采集数据标准库和词根库中的原始数据；

数据导入模块220，用于预设模板，根据所述模板进行原始数据添加，将符合模板要求的原始数据添加到模板后导入系统，获得导入数据；

数据匹配模块230，用于对导入数据进行解析以及属性匹配，若匹配成功，则执行数据库生成模块；若匹配不成功，则进行分词，执行分词模块；

分词模块240，用于对匹配不成功的数据进行分词，用户自选分词方式，根据分词结果与所述词根库进行匹配，匹配成功后进行信息补充提交，执行步骤S5；

数据库生成模块250，用于根据匹配结果，获得生成建表语句需要的剩余信息，通过数据治理人员审核修改后添加至数据标准库，根据所述数据标准库的信息选择数据库类型生成建表语句，完成数据名称规范化和数据库生成。

优选地，数据标准库根据各企业的数据标准指定。

优选地，数据导入模块220，进一步用于：对模板的输入规格进行设定，其中包括：模板输入规格要求仅允许输入中文汉字、英文字母和数字，且长度不能超过40个字符；并在模板中选择类型是表名或字段名，表名只允许有一个，字段数量不限；

根据模板的输入规格填写待生成建表语句的中文字段和表名称；将符合模板要求的原始数据添加到模板后导入系统；

若不符合模板的输入规格，则跳出修改提示，根据提示进行修改后进行导入系统，直至导入成功。

优选地，数据匹配模块230，对所述导入数据进行解析以及属性匹配，包括：

对所述导入数据进行解析，解析成功后获得解析数据；

优选地，分词模块240，分词方法包括：

优选地，分词模块240进一步用于，匹配成功后，对补充信息进行提交至数据标准库，所述补充信息包括：数据类型、数据长度、字段业务含义；

若未匹配成功，则提交缺乏的中文到词根库，待数据治理人员审核修改通过后添加至词根库，再进行匹配即匹配成功。

优选地，数据库生成模块250中，剩余信息包括：字段类型、字段长度、默认值。

图3是本发明实施例提供的一种电子设备300的结构示意图，该电子设备300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（centralprocessing units，CPU）301和一个或一个以上的存储器302，其中，所述存储器302中存储有至少一条指令，所述至少一条指令由所述处理器301加载并执行以实现下述数据名称和数据库建表生成方法的步骤：

S1：采集数据标准库和词根库中的原始数据；

S2：预设模板，根据所述模板进行原始数据添加，将符合模板要求的原始数据添加到模板后导入系统，获得导入数据；

S3：对所述导入数据进行解析以及属性匹配；若匹配成功，则执行步骤S5；若匹配不成功，则执行步骤S4，进行分词；

S4：对匹配不成功的导入数据进行分词；用户自选分词方式，根据分词结果与所述词根库进行匹配，匹配成功后进行信息补充提交，执行步骤S5；

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述数据名称和数据库建表生成的方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：李应许;王长龙;王文文;王家照;
专利申请人：鲁班(北京)电子商务科技有限公司;

上一篇：一种可同步调节光伏面板角度的光伏发电悬浮支撑系统
下一篇：基于数据中台的数据下载方法及数据中台、设备