掌桥专利:专业的专利平台
掌桥专利
首页

多方法融合的机构匹配方法、装置、设备和存储介质

文献发布时间:2023-06-19 13:29:16


多方法融合的机构匹配方法、装置、设备和存储介质

技术领域

本申请涉及训练集数据生成技术领域,特别是涉及一种多方法融合的机构匹配方法、装置、设备和存储介质。

背景技术

随着科技领域大数据的发展,在科研人才、科研机构、科技文献的情报分析中,对不规则机构文本的标准化对齐成为亟需解决的问题。由于数据规模大,人工处理较为困难,传统基于规则的数据清洗不能适应复杂混乱的数据格式,采用机器学习模型的技术成为了新的解决路径。以往方法通常只会使用机器学习模型标注机构实体后进行直接匹配,而在遇到相同含义但拼写不一致等情况时会难以处理。此外,以往方法没有对目标机构库进行清洗和权重设置,在运用相似度模型时会出现二级机构比一级机构优先匹配的情况,因此对目标机构库的标准化数据质量要求较高。

随着大数据技术的发展,综合运用数据预处理、标准化、机器学习模型标注、设置权重等多种方法,能够提高机构名称匹配的准确度,有助于进一步应用于构建知识图谱、数据分析、同名学者消歧等工作。

发明内容

鉴于以上所述现有技术的缺点,本申请的目的在于提供一种多方法融合的机构匹配方法、装置、设备和存储介质,以解决现有技术中存在的至少一个问题。

为实现上述目的及其他相关目的,本申请提供一种多方法融合的机构匹配方法,所述方法包括:构建数据预处理配置文件,对待匹配机构数据和目标机构表进行清洗和标准化;利用机器学习模型对预处理后的待匹配机构数据进行实体标注,并结合自定义规则从实体标注结果中抽取机构实体和地区实体;对目标机构表中各机构数据配置权重;基于实体标注结果与目标机构表的权重,将预处理后的待匹配机构数据与目标机构表进行直接匹配或模糊匹配,以获取匹配结果。

于本申请的一实施例中,所述构建数据预处理配置文件,对待匹配机构数据和目标机构表进行清洗和标准化,包括:构建无效字符、特殊字符、无关信息、及符号规范的匹配模式和处理规则,以作为数据预处理配置文件输入;基于所述数据预处理配置文件利用多种工具结合正则表达式对待匹配机构数据和目标机构表进行清洗和标准化;将预处理后的待匹配机构数据和目标机构表保存到MongoDB数据库中,以供实体标注和机构匹配。

于本申请的一实施例中,所述清洗和标准化包括:未解析的HTML内容转换、符号的统一、清洗位于中间的无效字符、移除首尾的干扰字符、无关信息的清洗、拼写格式统一为标题规范、多个空格压缩为一个、规范控制空格格式、全角字符统一为半角、及对组织机构名称标准化中任意一个或多个。

于本申请的一实施例中,所述利用机器学习模型对预处理后的待匹配机构数据进行实体标注,并结合自定义规则从实体标注结果中抽取机构实体和地区实体,包括:将一预处理后的待匹配机构数据中的多个机构名称进行切分;利用机器学习模型对各机构名称进行实体的标注,并将对应所有机构实体的标注结果保存到MongoDB数据库中;根据自定义规则对所述机器学习模型的标注结果进行处理,以供将未识别的机构名称添加至机构实体中,并保存到MongoDB数据库。

于本申请的一实施例中,所述方法还包括:通过机器学习模型抽取地区实体;将包含有机构名称的地区实体扩充至所述机构实体中;将优化后的机构实体和地区实体分别保存到MongoDB数据库。

于本申请的一实施例中,所述将预处理后的待匹配机构数据与目标机构表进行直接匹配,包括:将目标机构表按权重构建成字典数据类型;将配置的权重按从大到小的顺序,通过字典数据类型的获取方法对预处理后的待匹配机构数据以及抽取的机构实体进行直接匹配;为成功匹配的机构实体添加对应的机构标识。

于本申请的一实施例中,所述将预处理后的待匹配机构数据与目标机构表进行模糊匹配,包括:将目标机构表和配置的权重导入Elasticsearch,以进行模糊匹配;在模糊匹配中利用Elasticsearch依次对预处理后的待匹配机构数据融合多步骤、多来源的机构名称相似度计算;结合自定义权重得到最终的机构名称之间的匹配度得分;依次采用预处理后的待匹配机构数据、实体标注结果、及预处理后的待匹配机构数据的分隔后结果对目标机构表进行模糊搜索,并选取符合相应阈值的匹配度得分对应的机构名称作为最终的匹配结果。

为实现上述目的及其他相关目的,本申请提供一种多方法融合的机构匹配装置,所述装置包括:预处理模块,用于构建数据预处理配置文件,对待匹配机构数据和目标机构表进行清洗和标准化;处理模块,用于利用机器学习模型对预处理后的待匹配机构数据进行实体标注,并结合自定义规则从实体标注结果中抽取机构实体和地区实体;对目标机构表中各机构数据配置权重;基于实体标注结果与目标机构表的权重,将预处理后的待匹配机构数据与目标机构表进行直接匹配或模糊匹配,以获取匹配结果。

为实现上述目的及其他相关目的,本申请提供一种计算机设备,所述设备包括:存储器、及处理器;所述存储器用于存储计算机指令;所述处理器运行计算机指令实现如上所述的方法。

为实现上述目的及其他相关目的,本申请提供一种计算机可读存储介质,存储有计算机指令,所述计算机指令被运行时执行如上所述的方法。

综上所述,本申请提供的一种多方法融合的机构匹配方法、装置、设备和存储介质,通过构建数据预处理配置文件,对待匹配机构数据和目标机构表进行清洗和标准化;利用机器学习模型对预处理后的待匹配机构数据进行实体标注,并结合自定义规则从实体标注结果中抽取机构实体和地区实体;对目标机构表中各机构数据配置权重;基于实体标注结果与目标机构表的权重,将预处理后的待匹配机构数据与目标机构表进行直接匹配或模糊匹配,以获取匹配结果。

具有以下有益效果:

1)实现了机构名称数据预处理过程和实体标注的半自动化,大幅节省了预处理和实体标注过程中人工的成本,通过输入自定义预处理配置文件,可适用于不同数据集的处理需求;

2)对非标准化目标机构表、待匹配机构数据适应能力较强,通过数据清洗、规范化机构名称以及配置权重的方式可使得双方具有相同的数据格式规范,可提升模型标注效果以及匹配准确度;

3)构建了基于Elasticsearch的模糊搜索模块,对于无法直接匹配的机构文本进行模糊匹配,结合配置权重得到最终匹配得分;

4)综合使用了预处理后文本以及实体标注后结果作为匹配阶段的输入避免了机器学习模型标注带来的问题,实现更高的匹配精确度;

5)实现了待匹配机构数据与目标机构表的匹配,可用于解决机构实体对齐、同名学者消歧等问题。

附图说明

图1显示为本申请于一实施例中多方法融合的机构匹配方法的流程示意图。

图2显示为本申请于一实施例中步骤S1的流程示意图。

图3显示为本申请于一实施例中步骤S2的流程示意图。

图4显示为本申请于一实施例中步骤S23的流程示意图。

图5显示为本申请于一实施例中步骤S4中直接匹配的流程示意图。

图6显示为本申请于一实施例中步骤S4中模糊匹配的流程示意图。

图7显示为本申请于一实施例中多方法融合的机构匹配系统的模块示意图。

图8显示为本申请于一实施例中计算机设备的结构示意图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。

需要说明的是,以下实施例中所提供的图示仅以示意方式说明本申请的基本构想,虽然图示中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,但其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。

在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、步骤、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。

鉴于目前在自然语言算法训练过程中遇到的,训练数据不足、标注数据成本高、数据一致性差影响算法模型训练等问题,本申请提供的基于少量拆句短文本标注自动生成海量训练数据方法、装置、设备及介质,可以用于解决目前遇到的实际问题。申请能大幅降低了企业人工标注的成本,确保了重复文本标注一致性,同时能够降低模型算法训练时语料不一致造成的干扰,提升了模型学习的准确率。在本申请中标注人员只需要标注一小部分由原始长文本拆句后获得且去重的短文本,便可自动批量生成完整的原始长文本标注文件,提供给模型进行训练。

如图1所示,展示为本申请于一实施例中的多方法融合的机构匹配方法的流程示意图。如图所示,所述方法包括:

步骤S1:构建数据预处理配置文件,对待匹配机构数据和目标机构表进行清洗和标准化。

简单来说,本申请基于自定义匹配模式(或配置文件)和处理规则配置文件的机构数据预处理框架,适用于待匹配机构数据以及目标机构表的清洗和规范化处理,使得匹配双方具有相同的数据格式规范。

于本申请中,构建数据预处理的配置文件,在该文件中说明特殊字符、无效字符、无关文本的匹配模式和处理方式,以参数输入的形式利用正则表达进行字符和字符串的处理。并通过规范机构名称的拼写格式、空格格式、移除机构类型术语实现数据规范的处理,分别对待匹配机构数据和目标机构表进行数据预处理,实现目标机构表的标准化以及待匹配机构数据的清洗。

于本实施例中,如图2所示,步骤S1具体包括:

步骤S11:构建无效字符、特殊字符、无关信息、及符号规范的匹配模式和处理规则,以作为数据预处理配置文件输入。

其中,通过构建适合自有数据特征的无效字符、特殊字符、无关信息、符号规范的匹配模式与处理规则,将其作为配置文件输入,如以json格式保存,分为字符处理、字符串处理、规范处理三个部分。

步骤S12:基于所述数据预处理配置文件利用多种工具结合正则表达式对待匹配机构数据和目标机构表进行清洗和标准化。

正则表达式是对字符串(包括普通字符(例如,a到z之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式,该模式描述在搜索文本时要匹配的一个或多个字符串。

具体来说,本申请可基于正则表达式、unicodedata、titlecase、cleanco等工具对待匹配机构数据和目标机构表进行清洗和标准化。其中,正则表达式的匹配模式及处理规则依据自定义配置文件作为输入,对无效字符的提取与过滤,针对其所在位置采取不同规则,规范化处理则包含机构名称标准化、机构名称拼写标准化、空格格式标准化、字符标准化几个方面。

举例来说,预处理的内容包括但不限于:未解析的HTML内容转换、符号的统一、清洗位于中间的无效字符、移除首尾的干扰字符、无关信息的清洗、拼写格式统一为标题规范、多个空格压缩为一个、规范控制空格格式、全角字符统一为半角、及对组织机构名称标准化中任意一个或多个。

未解析的HTML内容转换,如:&、<、"等,可使用HTML解析器提供的unescape工具实现。

符号的统一,如:多种分隔符号统一,可通过正则表达[|∥║‖、‖║]、[-–—-]获得;再如:&统一为and,可通过正则表达式按规则替换。

清洗位于中间的无效字符,如:编码不一致导致的乱码(如“锟斤拷”)、空白字符、无语义信息的符号等,可通过统计数据集中各字符出现频次,以构建有效字符集的方式获通过如正则表达式[^\x00-\x7F\xC0-\xFF∥|║‖π-–—-ɑɡμΙ’′”“‘′、]获得。

移除首尾干扰字符,如:提取出待移除字符集为[:;.*,#-&()*\/[]_~],可通过strip函数实现;

无关信息的清洗,如:具有一定规则的电子邮箱地址等无关信息,可通过正则表达[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+、"P\s*\.\s*O\s*\.\s*.*"、"Box\s*[0-9].*"、"G*PO Box\s*.*"获得。

拼写格式统一为标题规范,如:设定每个单词首字母大写,介词小写,可通过titlecase工具实现。

多个空格压缩为一个,如:可通过正则表达\s{2,}实现。

规范控制空格格式,如:设定符号前无空格,符号后有且仅有一个空格,可通过正则表达\s*([,.?!])\s*实现。

全角字符统一为半角,如:可通过unicodedata工具提供的normalize方法实现,选取“NFKC”作为参数。

对组织机构名称标准化,如:移除表明机构类型专业术语Ltd.、Corp、Co.等,可通过https://github.com/psolin/cleanco提供的cleanco工具中的basename实现。

需要注意的是,在数据预处理阶段对于邮箱地址、电子邮箱等无效信息的清洗是针对具有一定规则的内容进行匹配与处理,避免了步骤S2中机器学习模型将P.O.Box标注为地区实体,以进一步提高实体标注的准确度。

于本申请中,对于待匹配机构数据和目标机构表均进行清洗和标准化(均应用此预处理流程)是为了实现两者数据处于同样的标准,同时使得本预处理流程对目标机构表数据质量的适用范围较大。此外,这些预处理的步骤均是可插拔的,具体实施时可以开启,也可以关闭。

例如,通过步骤S1可以将待匹配机构数据中“.~[CENTERFOR DISEASEPrevention&;Control of Guangdong Province,P.O.Box 100,Guangzhou 511430,China”清洗为“Center for Disease Prevention and Control of GuangdongProvince”,同时也可将目标机构表中“Toppan Printing Co.,Ltd.”标准化为“ToppanPrinting”。

步骤S13:将预处理后的待匹配机构数据和目标机构表保存到MongoDB数据库中,以供后续的实体标注和机构匹配。

其中,MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。MongoDB最大的特点是它支持的查询语言非常强大,其语法类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。

步骤S2:利用机器学习模型对预处理后的待匹配机构数据进行实体标注,并结合自定义规则从实体标注结果中抽取机构实体和地区实体。

简单来说,综合使用机器学习模型对预处理后的待匹配机构数据进行实体标注,并结合自定义规则的方法抽取出机构实体和地区实体以供实现与目标机构表的匹配。

于本申请一实施例中,如图3所示,所述步骤S2具体包括:

步骤S21:将一预处理后的待匹配机构数据中的多个机构名称进行切分。

具体来说,将一条预处理后的待匹配机构数据中可能存在的多个机构名称按分号进行切分,以供进行实体标注后合并其抽取结果。

需要注意的是,由于一条待匹配机构数据中可能存在多个机构名称,将其切分为多个依次进行实体标注能够提高模型标注的准确度。

步骤S22:利用机器学习模型对各机构名称进行实体的标注,并将对应所有机构实体的标注结果保存到MongoDB数据库中。

其中,进行实体的标注的机器学习模型包括但不限于:Stanza、Spacy、NLTK等。

优选地,本申请选用了更适合机构实体的机器学习模型Stanza模型所提供的适合英文语料的conll03抽取模型进行实体的标注,并将处理结果如机构、地区、人、数字等标注结果,以及每个实体在机构数据字符串中的位置信息,保存到MongoDB数据库中。

需要说明的是,所述Stanza模型对于部分中文机构名称语料标注的结果与机构实体间有些微差异,如:含有数字的医院机构无法将数字标注为机构的一部分、含有校区信息的高校机构无法将校区地址标注为机构的一部分,所以通过添加自定义规则的方式对标注结果进行进一步优化。此外,对于含有多种语言的机构数据可以先通过Spacy等语言识别模型进行语言的自动识别,再针对不同的语言选取不同的实体标注模型,以提升不同语言的标注准确度。

步骤S23:根据自定义规则对所述机器学习模型的标注结果进行处理,以供将未识别的机构名称添加至机构实体中,并保存到MongoDB数据库。

其中,如图4所示,步骤S23还包括:

S231:通过机器学习模型抽取地区实体;

S232:将包含有机构名称的地区实体扩充至所述机构实体中;

S233:将优化后的机构实体和地区实体分别保存到MongoDB数据库。

简单来说,利用自定义规则对于机器学习模型(如Stanza模型)标注的实体结果进行进一步处理,通过判断实体标注结果中机构实体与数字实体、地区实体之间分隔内容的性质来决定是否将数字实体、地区实体添加至机构实体中,例如,若分隔符为空格、括号、连词、介词等则将该地区、数字信息添加至机构实体中;然后,保存处理后的实体信息中的机构实体与地区实体,构建机构名称自定义规则,将地区实体中含有机构名称的部分扩充到机构实体中;另外,将处理后的机构实体和地区实体结果保存到MongoDB数据库中,以便于进行匹配。

举例来说,通过步骤S22可以实现所述Stanza模型对清洗后的待匹配机构数据“Center for Disease Prevention and Control of Guangdong Province”标注出机构实体“Center for Disease Prevention and Control”和地区实体“Guangdong Province”,通过步骤S23可以实现优化机构实体为“Center for Disease Prevention and Controlof Guangdong Province”,地区实体为“Guangdong Province”。

步骤S3:对目标机构表中各机构数据配置权重。

于本申请一实施例中,由于目标机构表中存在二级机构名称的数据,因此步骤S3构建了目标机构表中各机构名称的权重配置文件,以增加一级机构的权重,使得匹配时优先与一级机构进行匹配,具体的权重配置方法如下:

A、设定初始权重为常数N;

B、对含有二级机构的数据(如:school of、collegeof、departmentof、facultyof等)降低其权重为N-w1;

C、对含有一级机构的数据(如:university、academy、center、institute、hospital等)增加其权重为N+w2(w1

D、对既包含二级机构又含有一级机构的数据则优先降低其权重;或者,对含有多个一级机构、二级机构的数据仅对权重增加或降低一次。

步骤S4:基于实体标注结果与目标机构表的权重,将预处理后的待匹配机构数据与目标机构表进行直接匹配或模糊匹配,以获取匹配结果。

于本申请一实施例中,如图5所示,所述将预处理后的待匹配机构数据与目标机构表进行直接匹配,包括:

步骤S411:将目标机构表按权重构建成字典数据类型;

步骤S412:将配置的权重按从大到小的顺序,通过字典数据类型的获取方法对预处理后的待匹配机构数据以及抽取的机构实体进行直接匹配;

步骤S413:为成功匹配的机构实体添加对应的机构标识。

具体来说,将目标机构表按权重构建成字典数据类型,以权重作为键,以机构信息字典作为值,在机构信息字典中目标机构表的机构名称作为键,机构唯一标识作为值。按照S3步骤配置出的权重从大到小的顺序,通过字典数据类型的获取方法对预处理后的待匹配机构数据以及抽取的机构实体进行直接匹配,并为成功匹配的机构添加对应的机构标识。

于本申请一实施例中,如图6所示,所述将预处理后的待匹配机构数据与目标机构表进行模糊匹配,包括:

步骤S421:将目标机构表和配置的权重导入Elasticsearch,以进行模糊匹配;

步骤S422:在模糊匹配中利用Elasticsearch依次对预处理后的待匹配机构数据融合多步骤、多来源的机构名称相似度计算;

步骤S423:结合自定义权重得到最终的机构名称之间的匹配度得分;

步骤S424:依次采用预处理后的待匹配机构数据、实体标注结果、及预处理后的待匹配机构数据的分隔后结果对目标机构表进行模糊搜索,并选取符合相应阈值的匹配度得分对应的机构名称作为最终的匹配结果。

于本申请中,除了直接匹配外,还可通过将目标机构表与权重数据导入Elasticsearch,以进行模糊匹配。

具体来说,利用Elasticsearch依次对待匹配机构数据进行多步骤多来源的匹配,结合自定义权重得到最终的机构名称之间的相似度。例如,相似度的模型及计算如下:

A、利用Elasticsearch提供的模糊匹配进行查询,设定编辑距离参数fuzziness为AUTO:6,100。即对于长度小于6的文本不允许编辑,对于长度在6-100之间的允许1个编辑,对长度大于100的文本运行2个编辑,由于机构数据不会有长度超过100的单词,所以该参数配置实质上限制了只能有1次编辑。

B、采用Elasticsearch提供的相似度模块,选用内置的TF/IDF模型实现待匹配机构数据与目标机构表的相似度评分,得到初始相似度得分s1;

C、使用上述模糊匹配和相似度模块得出相似度数值,配合Elasticsearch的权重搜索方法function_score,将boost_mode参数设置为sum,即将初始得分s1与配置权重W相加得到最终匹配度得分。

进一步地,基于以上选定的相似度模型及计算方法进行多步骤的匹配,即传入不同的待匹配文本,流程如下:

首先,优先对预处理后的待匹配机构数据进行模糊匹配,选择最终匹配度得分高于如K1=30的匹配结果并添加对应的机构标识;

其次,对未匹配成功数据的实体抽取结果进行模糊匹配,选择最终匹配度得分高于如K2=25(K2

最后,将未匹配成功数据的预处理后文本按标点符号分隔后进行模糊匹配,选择最终匹配度得分高于如K3=20(K3

需要注意的是,若使用MongoDB等数据库作为存储引擎,使用索引可以明显提高该步的匹配速度。

举例来说,通过步骤S4可以实现待匹配机构数据中“Center for DiseasePrevention and Control of Guangdong Province”和“Guangdong Provincial Centerfor Disease Control and Prevention”的匹配。

综上所述,本申请形成的一种多方法融合的机构匹配方法与现有技术相比,优点在于:

1)实现了机构名称数据预处理过程和实体标注的半自动化,大幅节省了预处理和实体标注过程中人工的成本,通过输入自定义预处理配置文件,可适用于不同数据集的处理需求;

2)对非标准化目标机构表、待匹配机构数据适应能力较强,通过数据清洗、规范化机构名称以及配置权重的方式可使得双方具有相同的数据格式规范,可提升模型标注效果以及匹配准确度;

3)构建了基于Elasticsearch的模糊搜索模块,对于无法直接匹配的机构文本进行模糊匹配,结合配置权重得到最终匹配得分;

4)综合使用了预处理后文本以及实体标注后结果作为匹配阶段的输入避免了机器学习模型标注带来的问题,实现更高的匹配精确度;

5)实现了待匹配机构数据与目标机构表的匹配,可用于解决机构实体对齐、同名学者消歧等问题。

如图7所示,展示为本申请于一实施例中的多方法融合的机构匹配装置的模块示意图。如图所示,所述装置700包括:

预处理模块701,用于构建数据预处理配置文件,对待匹配机构数据和目标机构表进行清洗和标准化;

处理模块702,用于利用机器学习模型对预处理后的待匹配机构数据进行实体标注,并结合自定义规则从实体标注结果中抽取机构实体和地区实体;对目标机构表中各机构数据配置权重;基于实体标注结果与目标机构表的权重,将预处理后的待匹配机构数据与目标机构表进行直接匹配或模糊匹配,以获取匹配结果。

需要说明的是,上述装置各模块/单元之间的信息交互、执行过程等内容,由于与本申请所述方法实施例基于同一构思,其带来的技术效果与本申请方法实施例相同,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。

还需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些单元可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,处理模块702可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述系统的存储器中,由上述装置的某一个处理元件调用并执行以上处理模块702的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital signal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(System-on-a-Chip,简称SoC)的形式实现。

如图8所示,展示为本申请于一实施例中的计算机设备的结构示意图。如图所示,所述计算机设备800包括:存储器801、及处理器802;所述存储器801用于存储计算机指令;所述处理器802运行计算机指令实现如图1所述的方法。

在一些实施例中,所述计算机设备800中的所述存储器801的数量均可以是一或多个,所述处理器802的数量均可以是一或多个,而图8中均以一个为例。

于本申请一实施例中,所述计算机设备800中的处理器802会按照如图1所述的步骤,将一个或多个以应用程序的进程对应的指令加载到存储器801中,并由处理器802来运行存储在存储器801中的应用程序,从而实现如图1所述的方法。

所述存储器801可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。所述存储器801存储有操作系统和操作指令、可执行模块或者数据结构,或者它们的子集,或者它们的扩展集,其中,操作指令可包括各种操作指令,用于实现各种操作。操作系统可包括各种系统程序,用于实现各种基础业务以及处理基于硬件的任务。

所述处理器802可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在一些具体的应用中,所述计算机设备800的各个组件通过总线系统耦合在一起,其中总线系统除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图8中将各种总线都成为总线系统。

于本申请的一实施例中,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如图1所述的方法。

在任何可能的技术细节结合层面,本申请可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本申请的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是(但不限于)电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本申请操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本申请的各个方面。

综上所述,本申请提供的一种多方法融合的机构匹配方法、装置、设备和存储介质,通过构建数据预处理配置文件,对待匹配机构数据和目标机构表进行清洗和标准化;利用机器学习模型对预处理后的待匹配机构数据进行实体标注,并结合自定义规则从实体标注结果中抽取机构实体和地区实体;对目标机构表中各机构数据配置权重;基于实体标注结果与目标机构表的权重,将预处理后的待匹配机构数据与目标机构表进行直接匹配或模糊匹配,以获取匹配结果。

本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中包含通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。

技术分类

06120113693520