掌桥专利:专业的专利平台
掌桥专利
首页

基于结构化数据的自适应实体识别分类方法及系统

文献发布时间:2024-04-18 19:52:40


基于结构化数据的自适应实体识别分类方法及系统

技术领域

本公开涉及数据处理技术领域,尤其涉及一种基于结构化数据的自适应实体识别分类方法及系统。

背景技术

近年来,随着互联网和人工智能技术的迅猛发展,大量的数据被产生和积累,数据的来源广泛、标签多样,且杂化冗余,给企业间和部门间数据的流通带来了巨大的挑战。需要说明的是,对批量数据进行快速地识别和及时有效地归类,不仅能够帮助企业从宏观上对批量数据的构成有整体的认识,还能够帮助企业发现不规范的数据,从而使得企业的数据管理和维护更加高效。

目前,市面上的分类系统需要大量的数据进行训练,模型需要占用大量的存储资源,同时一旦出现新类别的数据,就需要找到大量数据进行人工打标,导致模型迭代的周期和成本过大。

发明内容

有鉴于此,本申请提出一种基于结构化数据的自适应实体识别分类方法及系统,以解决上述问题。

本申请第一方面,提出一种基于结构化数据的自适应实体识别分类方法,包括如下步骤:

获取初始化数据,根据所述初始化数据计算特征,训练若干个分类模型,并保存训练后的分类模型;

获取测试数据输入训练后的若干个所述分类模型,分别得到相应的预测概率,将所述预测概率均与预设的预测概率阈值相比较;

在所述预测概率均小于所述预测概率阈值时,调用预先配置的聚类模型对所述测试数据的聚类特征依次进行第一层聚类和第二层聚类,获得合并后的聚类结果,并对所述聚类结果进行判断;

若所述聚类结果为聚类成功,则按照预设的打标方式进行批量打标,得到新的训练数据,通过新的所述训练数据重新计算特征更新所述分类模型,并利用更新后的所述分类模型识别实体;

其中,所述第一层聚类采用DBSCAN聚类,所述第二次聚类采用FCM和PCA相结合聚类,并采用Bisecting-KMeans选择所述FCM的参数c。

作为本申请的一可选实施方案,可选地,获取初始化数据,根据所述初始化数据计算特征,训练若干个分类模型,并保存训练后的分类模型,包括:

获取初始化数据;

分别计算所述初始化数据的固定特征、动态特征以及余弦距离特征;

根据所述固定特征、所述动态特征和所述余弦距离特征训练若干个分类模型,并保存训练后的分类模型以及关键字提取结果。

作为本申请的一可选实施方案,可选地,获取测试数据输入训练后的若干个所述分类模型,分别得到相应的预测概率,将所述预测概率与预设的预测概率阈值相比较,包括:

获取测试数据;

计算所述测试数据的聚类特征和分类特征;

将所述分类特征分别输入训练后的若干个所述分类模型进行预测,相对获得若干个预测概率,均与预设的预测概率阈值进行比较。

作为本申请的一可选实施方案,可选地,所述预测概率阈值的取值范围为[0,1]。

作为本申请的一可选实施方案,可选地,调用预先设置的聚类模型对所述测试数据的聚类特征依次进行第一层聚类和第二层聚类,获得合并后的聚类结果,并对所述聚类结果进行判断,包括:

设定所述DBSCAN的参数后,将所述测试数据的聚类特征输入所述DBSCAN进行第一层聚类,获得第一层聚类结果;

在所述第一层聚类结果为-1时,对相应的所述第一层聚类结果采用所述FCM进行10次聚类后,由所述PCA降维,并对降维后的第二层聚类特征进行第二层DBSCAN聚类,获得第二次聚类结果,按照预设规则与所述第一层聚类结果合并,得到聚类结果;

在所述第一层聚类结果不为-1时,保存相应的所述第一层聚类结果。

作为本申请的一可选实施方案,可选地,还包括:

在至少一个所述预测概率大于所述预测概率阈值时,选择符合预设标准的所述预测概率,并保存相应的实体预测结果。

作为本申请的一可选实施方案,可选地,还包括:

若所述聚类结果为聚类失败,则将相应的所述测试数据加入新的所述测试数据中预测。

本申请第二方面,提供一种系统,用于实现上述任一项所述的基于结构化数据的自适应实体识别分类方法,包括:

初始化训练模块,被配置为获取初始化数据,根据所述初始化数据计算特征,训练若干个分类模型,并保存训练后的分类模型;

分类模块,被配置为获取测试数据输入训练后的若干个所述分类模型,分别得到相应的预测概率,将所述预测概率均与预设的预测概率阈值相比较;

聚类模块,被配置为在所述预测概率均小于所述预测概率阈值时,调用预先配置的聚类模型对所述测试数据的聚类特征依次进行第一层聚类和第二层聚类,获得合并后的聚类结果,并对所述聚类结果进行判断;

打标模块,被配置为若所述聚类结果为聚类成功,则按照预设的打标方式进行批量打标,得到新的训练数据,通过新的所述训练数据重新计算特征更新所述分类模型,并利用更新后的所述分类模型识别实体。

本申请第三方面,提供一种电子设备,包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为执行所述可执行指令时实现上述任一项所述的基于结构化数据的自适应实体识别分类方法。

本申请第四方面,非易失性计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述任意一项所述的基于结构化数据的自适应实体识别分类方法。

本发明的技术效果:

本申请通过自训练、自聚类和批量标注相结合的方式循环迭代更新模型和知识库,保障了分类模型强大的自学习能力,同时,通过高效的聚类方法结合人工批量标注极大地减少了人工介入的程度。具体而言,通过双层聚类为分类模型提供种类多、高纯度的训练数据,不仅层与层之间采用不同特征,并且后一层特征是基于前一层特征的聚类结果进行构建的,能够保障聚类速度相对较快的同时,是实现高纯度的聚类效果,待用户对聚类后的每一数据堆批量打标后,即可加入到训练数据中迭代分类模型,自适应识别不同场景下的实体,有效的减少了大量人工打标的时间,同时还能更快的实现模型迭代,从而适应不同垂直领域的需求。

根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。

图1示出为本发明的基于结构化数据的自适应实体识别分类方法流程图;

图2示出为本发明的初始化流程示意图;

图3示出为本发明的基于结构化数据的自适应实体识别分类方法实施流程示意图;

图4示出为本发明的平均词向量计算流程示意图;

图5示出为本发明的余弦距离特征计算流程示意图;

图6示出为本发明的聚类流程示意图;

图7示出为本发明的初始化数据内容示意图;

图8示出为本发明的测试数据中的Table1内容示意图;

图9示出为本发明的测试数据中的Table2内容示意图;

图10示出为本发明的测试数据中的Table3内容示意图;

图11示出为本发明的测试数据中的Table4内容示意图;

图12示出为本发明的Table1预测结果示意图;

图13示出为本发明的Table2预测结果示意图;

图14示出为本发明的Table3预测结果示意图;

图15示出为本发明的Table4预测结果示意图;

图16示出为本发明的批量打标示意图;

图17示出为本发明的Table1-Table4预测结果的列占比示意图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。

实施例1

如图1、图2和图3所示,本申请第一方面,提出一种基于结构化数据的自适应实体识别分类方法,包括如下步骤:

S100、获取初始化数据,根据所述初始化数据计算特征,训练若干个分类模型,并保存训练后的分类模型;

S200、获取测试数据输入训练后的若干个所述分类模型,分别得到相应的预测概率,将所述预测概率均与预设的预测概率阈值相比较;

S300、在所述预测概率均小于所述预测概率阈值时,调用预先配置的聚类模型对所述测试数据的聚类特征依次进行第一层聚类和第二层聚类,获得合并后的聚类结果,并对所述聚类结果进行判断;

S400、若所述聚类结果为聚类成功,则按照预设的打标方式进行批量打标,得到新的训练数据,通过新的所述训练数据重新计算特征更新所述分类模型,并利用更新后的所述分类模型识别实体;

其中,所述第一层聚类采用DBSCAN聚类,所述第二次聚类采用FCM和PCA相结合聚类,并采用Bisecting-KMeans选择所述FCM的参数c。

本实施例中,通过双层聚类为分类模型提供种类多、高纯度的训练数据,不仅层与层之间采用不同特征,并且后一层特征是基于前一层特征的聚类结果进行构建的,能够保障聚类速度相对较快的同时,是实现高纯度的聚类效果,待用户对聚类后的每一数据堆批量打标后,即可加入到训练数据中迭代分类模型,自适应识别不同场景下的实体,有效的减少了大量人工打标的时间,同时还能更快的实现模型迭代,从而适应不同垂直领域的需求。

具体而言,通过步骤S100、获取初始化数据,根据所述初始化数据计算特征,训练若干个分类模型,并保存训练后的分类模型。其中,作为本申请的一可选实施方案,可选地,获取初始化数据,根据所述初始化数据计算特征,训练若干个分类模型,并保存训练后的分类模型,包括:获取初始化数据;分别计算所述初始化数据的固定特征、动态特征以及余弦距离特征;根据所述固定特征、所述动态特征和所述余弦距离特征训练若干个分类模型,并保存训练后的分类模型以及关键字提取结果。

此处,需要说明的是,获取初始化数据后,需要计算初始化数据特征,包括根据初始化数据的先验知识计算固定特征,调用关键字提取方法计算动态特征,调用Fasttext模型计算初始化数据的余弦距离特征。其中,分类模型采用基础特征和余弦距离特征作为分类的特征。

需要指出的是,通过动态特征使得没有人工参与的情况下系统依旧能够自动提取新类别的特征,能够快速灵活地应用于不同行业领域中。本实施例中的动态特征采用分词与统计高频词相结合的方式。首先,对字符进行1-gram和2-gram分词,再统计同一类别的所有分词后的子串的词频,从而获得前缀高频词/字符、后缀高频词/字符、和中间字符的高频词/字符,再通过得到的高频词计算关键字特征。需要说明的是,对于字符分割方法采用前缀分词、后缀分词和中部分词三种方法,例如“数安云智科技有限公司”,前缀分词为[“数”、“数安”],后缀分词为[“司”,“公司”],中部分词为[“安”,“云”,“智”,“科”,“技”,“有”,“限”,“公”,“安云”,“云智”,“智科”,“科技”,“技有”,“有限”,“限公”]。进一步的,对于含有英文和特殊字符的字符串,则采用特殊字符为分割点对字符串进行分类,例如,先会把http://www.qq.com分割为[‘http’,’www’,’qq’,’com’],其前缀分词为[“http”,“httpwww”],后缀分词为[“com”,“qqcom”],中部分词为[“www”,“qq”,“wwwqq”]。由此,实现对于初始化数据动态特征的计算。

进一步的,调用FastText模型计算初始化数据的余弦距离特征。本申请从语义关联度角度出发,通过迁移学习设计余弦距离特征。在实体识别任务中语义特征难以从字符中提取出来,为了考虑词汇语义的关联性,通常需要大量的语料库训练模型,同时也会耗费大量的时间和计算资源。有鉴于此,本申请的系统通过迁移学习,在构建余弦距离特征时,利用Fasttext Model得到词汇的词向量,且词向量件的距离属性能够蕴含语义关联程度的信息。因此,能够通过距离反映语义的关联度,为了实现利用距离信息的目的,本申请的系统通过余弦距离特征,先计算每一类别中所有词汇词向量的平均值作为类中心点,再求所有词向量到所有类中心点的余弦距离,构成余弦距离特征。

其中,余弦距离特征包括两部分,第一部分需要计算所有类别的平均词向量,将所有的短句或词和其对应的标签组成两列数据,使用hanlp对其中所有的短句或词进行切分,如图4所示,Label_1对应wordA和wordB,下面给将以wordA为例进行说明,详细描述Label_1平均词向量的确定。

首先将wordA切分成wordA_1、wordA_2、wordA_3...wordA_n,随后采取迁移学习,也即使用fastTextModel词向量模型对拆分后的词进行向量化,生成词向量,包括wordA_1词向量、wordA_2词向量、wordA_3词向量等。其中,需要指出的是,fastTextModel词向量模型是Facebook提出的开源模型,是从word2vec进化而来的,对大量预料进行了训练,能够有效对词进行向量化,对罕见单词能够学习到较为可靠的表示。

进一步的,为了得到拆分前词或短句的向量,将拆分的词向量进行l2norm后累加平均,以求得的平均词向量作为该词或短句的向量表示,也即wordA的词向量。以此类推可使用该方法得到输入中所有词或短句的向量表示。随后,根据类别计算每一类所有词或短句的平均向量,对每一类的所有向量进行累加平均,即通过将Label_1对应的wordA的词向量和wordB的词向量累加平均,得到Label_1的平均词向量,依次类推得到Label_2、Label_n等平均词向量。

还需要说明的是,余弦距离特征第二部分需要计算各词或短句余弦距离特征,将各词或短句的词向量与第一部分计算的每种类别的平均向量分别求余弦距离,并进行组合得到各词或短句的余弦特征。不仅包含了每个词或短句本身的低阶特征信息,即第一部分中拆分各词的词向量,同时还包括每种类别隐含的高阶信息,即与每种类别的余弦距离。从而使得后续模型能够在训练中发现基于特征无法提取的关键信息,实现更加精确的分类和识别。

如图5所示,计算wordA的词向量的余弦距离特征,将wordA的词向量与Label_1、Label_2、Label_n等的平均词向量分别求余弦距离,组合后得到wordA的余弦距离特征,依次类推得到wordB等的余弦距离特征。

更进一步的,计算初始化数据的特征后,训练若干个分类模型。具体的,本申请的分类器模块搭建主要采用随机森林模型,即计算初始化数据特征后,训练n个二分类随机森林模型,对每个类别分别构建一个二分类随机森林模型,保证了分类模型的灵活性。基于初始化数据特征训练n个二分类器后,对训练后的n个二分器进行保存,得到训练后的分类模型。通过随机森林模型,基于One VS Rest思想对训练集中每个实体训练一个二分类器,并设定预测概率阈值保障预测的精准率。对于多分类训练中,输入新的类别数据时,本申请方法能够选择已有实体作为预测结果的问题。

进一步的,通过步骤S200、获取测试数据输入训练后的若干个所述分类模型,分别得到相应的预测概率,将所述预测概率均与预设的预测概率阈值相比较。

作为本申请的一可选实施方案,可选地,获取测试数据输入训练后的若干个所述分类模型,分别得到相应的预测概率,将所述预测概率与预设的预测概率阈值相比较,包括:

获取测试数据;

计算所述测试数据的聚类特征和分类特征;

将所述分类特征分别输入训练后的若干个所述分类模型进行预测,相对获得若干个预测概率,均与预设的预测概率阈值进行比较。

作为本申请的一可选实施方案,可选地,所述预测概率阈值的取值范围为[0,1]。

作为本申请的一可选实施方案,可选地,还包括:在至少一个所述预测概率大于所述预测概率阈值时,选择符合预设标准的所述预测概率,并保存相应的实体预测结果。

此处,需要说明的是,获取测试数据后,计算测试数据的所有特征,其中测试数据包括多个实体,测试数据的所有特征分别包括聚类特征和分类特征。需要将测试数据通过每一个已有的二分类器分类,获得对应的预测概率。同时,需要设定预测概率阈值,本实施例中阈值的范围为[0,1],且优选0.9。若所有分类器的预测概率都低于预测概率阈值,则测试数据会被预测为其他,随后执行下一步的聚类;若存在至少一个分类器的预测概率大于预测概率阈值,则需要确定多个预测概率中的最高预测概率所对应的分类器,选取最高预测概率的类别作为其标签,并将测试数据归入对应分类器的类别中,同时保存实体的预测结果。

当预测测试数据的结果为其他后,通过步骤S300、在所述预测概率均小于所述预测概率阈值时,调用预先配置的聚类模型对所述测试数据的聚类特征依次进行第一层聚类和第二层聚类,获得合并后的聚类结果,并对所述聚类结果进行判断。作为本申请的一可选实施方案,可选地,调用预先设置的聚类模型对所述测试数据的聚类特征依次进行第一层聚类和第二层聚类,获得合并后的聚类结果,并对所述聚类结果进行判断,包括:设定所述DBSCAN的参数后,将所述测试数据的聚类特征输入所述DBSCAN进行第一层聚类,获得第一层聚类结果;在所述第一层聚类结果为-1时,对相应的所述第一层聚类结果采用所述FCM进行10次聚类后,由所述PCA降维,并对降维后的第二层聚类特征进行第二层DBSCAN聚类,获得第二次聚类结果,按照预设规则与所述第一层聚类结果合并,得到聚类结果;在所述第一层聚类结果不为-1时,保存相应的所述第一层聚类结果。

此处,需要说明的是,在确定测试数据为其他数据时,也即非初始化数据中所包括的实体,则选择测试数据所有特征中的聚类特征。需要指出的是,聚类模型将实体分为含有中文的实体和不含有中文的实体,对于含有中文的实体采用词向量特征,对于不含有中文的实体则采用基础特征作为聚类特征,其中基础特征包括固定特征和动态特征。进一步的,本申请对于含有中文的实体采用FastText Model提取300维词向量作为聚类特征,对于不含有中文的实体使用基础特征作为聚类特征。经过聚类模型的双层聚类后,若最终的聚类标签不为-1,则聚类成功,随后通过人工对聚出的数据堆进行批量打标;若最终的聚类标签为-1,则聚类失败,将对应的测试数据加入下一批测试数据中一起预测。

具体而言,本实施例依次经过第一层聚类和第二层聚类确定聚类结果。如图6所示,首先,设定DBSCAN的参数eps和minpts,并输入测试数据的聚类特征,通过DBSCAN进行第一层聚类,得到第一层聚类结果。当第一层聚类结果为-1时,聚类失败,需要将测试数据进行第二层聚类。当第一层聚类结果不为-1时,聚类成功,并保存聚类成功的数据。此处,需要说明的是,基于DBSCAN模型天然的特性,能够在第一层聚类中快速聚出纯度高的结果,但是聚类的种类相对较少。为了能够解决种类较少的问题,本实施例对剩余没有聚出来的数据进行第二层聚类。具体的,通过10次FCM聚类得到高位的特征,再经过PCA降维后,得到第二层聚类特征,通过聚类和PCA相结合的方式将第一层的聚类特征映射到新构建的特征空间中,进而对新构建的特征中进行第二层DBSCAN聚类,同样需要设定参数eps和minpts,判断此时的聚类结果是否为-1,若为-1则聚类失败,认定测试数据为未知数据,若不为-1则得到第二层聚类结果,最终与第一层聚类成功的结果合并构成最终聚类结果。

需要特别说明的是,FCM聚类结果是数据点到一组聚类中心的隶属度值矩阵,第二层聚类的高维特征集成了10次FCM的聚类结果,利用集成的建模思想提高聚类结果的纯度。其中,采用Bisecting-KMeans选择FCM的参数c,由于本申请通过增大聚类类别数提高发现稀有类被的概率,因此需要控制参数c的大小。参数c过大会影响效率,Bisecting-KMeans聚类速度快能够确定合适的参数c大小,从而使得最终聚类后的数据堆的数目的第k小值能达到稀少的程度。

具体的,先计算FCM的两个参数c和m,其中先设定k=2,采用Bisecting-Kmeans循环找k值,停止条件为当聚类的数据堆别中至少有3类的数目小于100时,停止循环,记录k值。重复以上操作10次,得到一组k值,取这组k值的95%分位数的整数部分作为最终的c,即FCM的参数c值。其中m值使用文献公式计算得到,对此不再赘述。确定FCM的参数c和m后,对进入第二层的数据进行10次FCM聚类得到10次聚类的隶属度矩阵,将10个隶属度矩阵拼接在一起,得到高维的聚类特征,再经过PCA降维,12norm后,得到第二层聚类的特征,并进行第二层DBSCAN聚类,将第二层聚类成功的结果与第一层聚类成功的结果汇总后组成最终聚类的结果。

更进一步的,通过S400、若所述聚类结果为聚类成功,则按照预设的打标方式进行批量打标,得到新的训练数据,通过新的所述训练数据重新计算特征更新所述分类模型,并利用更新后的所述分类模型识别实体;

作为本申请的一可选实施方案,可选地,还包括:

若所述聚类结果为聚类失败,则将相应的所述测试数据加入新的所述测试数据中预测。

此处,需要说明的是,若聚类标签不为-1,则聚类成功,人工对聚出的数据堆进行批量打标,若聚类标签为-1,则聚类失败,将测试数据加入下一批测试数据中一起预测。还需要说明的是,在批量标注中,用户标注有效的数据,加入训练数据中,重新计算特征,并据此训练分类器,更新并保存训练后的分类器,同时更新关键字数据;用户标注无效的数据加入下一批测数据中一起预测。

下面将具体描述本申请的实施过程。

1、获取初始化数据,也即初始训练数据,如图7所示,包括公司、姓名、电话号码/传真号码、电子邮箱地址、手机号码、邮编6个实体。

利用本申请的关键字提取方式从初始化数据中提取的关键字如表1所示:

表1初始化数据中关键字提取结果表

2、获取测试数据,如图8、图9、图10和图11所示,测试数据包括Table1、Table2、Table3、Table4,也即依次输入4张图表;

Table1示出网址、公司、电话号码及地址4个实体;

Table2示出中药、姓名、手机号码、邮编、日期及地址6个实体;

Table3示出网址、公司、姓名、电子邮箱地址及日期5个实体;

Table4示出日期、中药及姓名3个实体;

其中,4张图表中每个实体对应17个具体数据。

3、获得上述4张样表的预测结果,如图12、图13、图14和图15所示,具体如下:

Table1中,17个网址的预测结果均为其他,17个公司均能正常预测为公司,17个电话号码中仅有1个预测结果为其他,剩余16个电话号码均能正常预测为电话号码,17个地址中14个预测结果为其他,剩余3个地址被预测为公司;

Table2中,17个中药中13个预测结果为其他,4个预测结果为姓名,17个姓名的预测结果均为姓名,17个手机号码中14个能够正常预测为手机号码,剩余3个预测结果为其他,17个邮编均能正常预测为邮编,17个日期的预测结果均为其他,17个地址中14个能够正常预测为地址,1个预测结果为其他,2个预测结果为公司;

Table3中,17个网址均能正常预测为网址,17个公司实体中,14个带有公司二字的公司均能正常预测为公司,3个未带有公司二字的公司预测结果为其他,17个姓名均能正常预测为姓名,17个电子邮箱地址均能正常预测为电子邮箱地址,17个日期中有14个能够准确预测为日期,剩余3个日期的预测结果为其他;

Table4中,17个日期中有15个能够准确预测为日期,剩余2个日期的预测结果为其他,17个中药中9个能够正常预测为中药,1个预测为注射液,7个预测结果为其他,17个姓名中16个能正常预测为姓名,1个预测为其他;

具体的,如图17所示,示出Table1-4中每列预测标签的占比结果,若列的预测结果最大占比大于等于80%,则展示最大占比的标签结果;若最大占比小于80%,则展示前两大占比的标签结果。对于第一次出现的类别,如Table1中的地址Address和网址Website列未知数据的占比都超过85%,说明这两列的数据没有被预测出来,由于初始化训练数据集中没有地址和网址两类实体数据,因此对于Table1中的地址和网址均未被预测出。进一步的,对于Table1中被预测为未知的数据,如图16所示,经过本申请的聚类和批量打标后,用于迭代更新分类器,聚类模型能够提供高纯度的聚类结果,实现批量打标,为自适应分类系统持续提供高纯度的训练数据。因此在下一轮输入Table2后,Table2中的大部分地址数据被预测出,也即本申请的分类器具备了预测“地址”实体的能力。更进一步的,通过Table3和Table4的列占比发现,本申请的分类模型还具备预测日期、网址、重要、注射剂等实体的能力,充分体现了本申请自适应分类系统强大的自学习性能。

经过Table1-4四轮输入后提取的关键字内容如表2所示

表2输入Table1-4后提取的关键字内容表

综上所述,本申请通过自训练、自聚类和批量标注相结合的方式循环迭代更新模型和知识库,保障了分类模型强大的自学习能力,同时,通过高效的聚类方法结合人工批量标注极大地减少了人工介入的程度。

进一步的,本申请采用双层聚类方法进行聚类,结合DBSCAN、FCM、Bisecting-KMeans三种聚类模型依次进行第一层聚类和第二层聚类,其中采用Bisecting-KMeans循环寻找C值的方式有效的解决了稀有类别难以被发现的问题。采用10轮FCM构建了高维的聚类特征,利用集成的方式保证了稀有类别以及新类别的纯净度。和传统的神经网络相比,本申请的第一层聚类特征和第二层聚类特征之间的特征关联,通过聚类和PCA模式进行层间特征的关联,而非通过线性函数和激活函数进行。

更进一步的,本申请中的关键字特征提取方法,保障自适应系统能够根据训练集数据的变化而提取相应的特征。具体的,采用了前缀后缀分词和中间字符分词的方法,提取不同字符位置的高频词构建关键字特征。既符合字符位置的信息,也融合了关键字符的信息,在分类任务中起到了关键作用。

需要说明的是,尽管以作为示例介绍了如上,但本领域技术人员能够理解,本公开应不限于此。事实上,用户完全可根据实际应用场景灵活设定,只要可以按照上述技术方法实现本申请的技术功能即可。

实施例2

基于实施例1的实施原理,本申请第二方面提供一种系统,用于实现上述任一项所述的基于结构化数据的自适应实体识别方法,包括:

初始化训练模块,被配置为获取初始化数据,根据所述初始化数据计算特征,训练若干个分类模型,并保存训练后的分类模型;

分类模块,被配置为获取测试数据输入训练后的若干个所述分类模型,分别得到相应的预测概率,将所述预测概率均与预设的预测概率阈值相比较;

聚类模块,被配置为在所述预测概率均小于所述预测概率阈值时,调用预先配置的聚类模型对所述测试数据的聚类特征依次进行第一层聚类和第二层聚类,获得合并后的聚类结果,并对所述聚类结果进行判断;

打标模块,被配置为若所述聚类结果为聚类成功,则按照预设的打标方式进行批量打标,得到新的训练数据,通过新的所述训练数据重新计算特征更新所述分类模型,并利用更新后的所述分类模型识别实体。

显然,本领域的技术人员应该明白,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各控制方法的实施例的流程。上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各控制方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)、随机存储记忆体(RandomAccessMemory,RAM)、快闪存储器(FlashMemory)、硬盘(HardDiskDrive,缩写:HDD)或固态硬盘(Solid-StateDrive,SSD)等;存储介质还可以包括上述种类的存储器的组合。

实施例3

更进一步地,本申请第三方面提供一种电子设备,包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为执行所述可执行指令时实现上述任一项所述的基于结构化数据的自适应实体识别方法。

本公开实施例设备包括处理器以及用于存储处理器可执行指令的存储器。其中,处理器被配置为执行可执行指令时实现前面任一所述的一种基于结构化数据的自适应实体识别方法。

此处,应当指出的是,处理器的个数可以为一个或多个。同时,在本公开实施例的控制系统中,还可以包括输入装置和输出装置。其中,处理器、存储器、输入装置和输出装置之间可以通过总线连接,也可以通过其他方式连接,此处不进行具体限定。

存储器作为一计算机可读存储介质,可用于存储软件程序、计算机可执行程序和各种模块,如:本公开实施例的一种基于结构化数据的自适应实体识别方法所对应的程序或模块。处理器通过运行存储在存储器中的软件程序或模块,从而执行控制系统的各种功能应用及数据处理。

输入装置可用于接收输入的数字或信号。其中,信号可以为产生与设备/终端/服务器的用户设置以及功能控制有关的键信号。输出装置可以包括显示屏等显示设备。

实施例4

本申请第四方面,非易失性计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述任意一项所述的基于结构化数据的自适应实体识别方法。

以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

技术分类

06120116335367