掌桥专利:专业的专利平台
掌桥专利
首页

基于词性和主从关系的建设工程材料信息分类方法及系统

文献发布时间:2023-06-19 10:11:51


基于词性和主从关系的建设工程材料信息分类方法及系统

技术领域

本发明涉及分类系统领域技术,尤其是指一种基于词性和主从关系的建设工程材料信息分类方法及系统。

背景技术

建设工程是指为人类生活、生产提供物质技术基础的各类建筑物和工程设施的统称。按照自然属性可分为建筑工程、土木工程和机电工程三类,涵盖房屋建筑工程、铁路工程、公路工程、水利工程、市政工程、煤炭矿山工程、水运工程、海洋工程、民航工程、商业与物质工程、农业工程、林业工程、粮食工程、石油天然气工程、海洋石油工程、火电工程、水电工程、核工业工程、建材工程、冶金工程、有色金属工程、石化工程、化工工程、医药工程、机械工程、航天与航空工程、兵器与船舶工程、轻工工程、纺织工程、电子与通信工程和广播电影电视工程等。

在建设工程中使用的材料信息种类繁多,写法不规范,存在大量的别名和相近表达方式,使得建设工程材料信息识别处理困难,不利于数据的统计、分析、信息交换,限制了建设工程行业的信息化发展。

发明内容

有鉴于此,本发明针对现有技术存在之缺失,其主要目的是提供一种基于词性和主从关系的建设工程材料信息分类方法及系统,其能够将人类自然语言描述的建设工程材料信息依据《GB/T50851-2013 建设工程人工材料设备机械数据标准》自动归集分类,可实现建设工程材料信息的智能识别、标准分类、统计分析等功能的自动化,提升建设工程领域对材料信息处理的能力,帮助建设工程及建材行业的第三方应用和系统开发提升效率。

为实现上述目的,本发明采用如下之技术方案:

一种基于词性和主从关系的建设工程材料信息分类系统,包括有字符处理模块、材料分类模块、分类筛选模块、分类仲裁模块、建材分类名词库、建材分类辅词库、建材分类特征词库、主从分类关系库以及材料分类库;该字符处理模块用于规范材料信息;该材料分类模块连接字符处理模块,材料分类模块用于名词匹配得到材料预备分类;该分类筛选模块连接材料分类模块,该分类筛选模块用于单位、辅词筛选得到精确分类;该分类仲裁模块连接分类筛选模块,该分类仲裁模块通过材料特征仲裁得到唯一分类;该建材分类名词库和建材分类辅词库分别连接材料分类模块和分类筛选模块;该建材分类特征词库和主从分类关系库均连接分类仲裁模块;该分类仲裁模块连接建材分类名词库和建材分类辅词库。

优选的,所述材料分类库为GB/T 50851-2013建设工程人工材料设备机械数据标准》材料分类库。

一种基于词性和主从关系的建设工程材料信息分类方法,采用前述基于词性和主从关系的建设工程材料信息分类系统,包括有以下步骤:

第一步:用户提交材料信息,由字符处理模块对材料名称、规格、单位中的特殊字符进行规范化;

第二步:在材料分类模块中,采用建材分类名词库,对材料进行分词,得到分词结果集和辅词结果集;

第三步:在分类模块中,根据分词得到的名词结果集,匹配得到有名词的材料分类,以及对应的品种,然后判断分类数量是否≤1,若是,则进入第九步,若否,则进入第四步;

第四步:在分类筛选模块中,用材料品种对应分类的单位进行分类筛选,在《GB/T50851-2013 建设工程人工材料设备机械数据标准》中,每个分类都对应相应的单位,得到筛选后的材料分类,并判断分类数量是否=1,若是,则进入第九步,若否,则进入第五步;在本步骤中,当单位仲裁结果数量为0时,则将仲裁前的所有分类交给下一步处理;每个分词在不同的分类中都有独立的词性;

第五步:在分类筛选模块中,用分词时得到的辅词结果集进一步筛选,去除没有辅词的分类,并判断分类数量是否=1,若是1,则进入第九步,若否,则继续判断分类数量是否≥5,若是,则进入第七步,若否,则进入第六步

第六步:在分类仲裁模块中,将材料分类对应的品种进行分词判断:1、如果有分词数量大于1的品种,保留这些品种,并删除只有1个分词的品种;2、如果没有分词数量大于1的品种,保留所有品种,3、用剩下的材料品种重新匹配得到材料分类;然后判断分类数量是否>1,若是,则进入第七步,若否,则进入第九步;

第七步:在分类仲裁模块中,如果分类数量大于1,通过“分类主从”仲裁,并判断分类数量是否=1,若是,则进入第九步,若否,则进入第八步;

第八步:在分类仲裁模块中,采用特征值词库进行特征分词,得到各分类的特征分词数量,以特征分词数量进行三种算法仲裁,仲裁结果唯一且一致,输出分类,否则失败;

第九步:输出最终结果,并返回结果给用户。

本发明与现有技术相比具有明显的优点和有益效果,具体而言,由上述技术方案可知:

通过采用本发明方法和系统,能够将人类自然语言描述的建设工程材料信息依据《GB/T50851-2013 建设工程人工材料设备机械数据标准》自动归集分类,可实现建设工程材料信息的智能识别、标准分类、统计分析等功能的自动化,提升建设工程领域对材料信息处理的能力,帮助建设工程及建材行业的第三方应用和系统开发提升效率。并且,本发明采用词性分类方法减少分类量和出错概率、采用分类主从关系方法提高分类仲裁的正确率;词性分类方法的优势:可以大幅降低分类错误的概率和减少分类数量,因为材料信息包含很多分词词汇,往往决定材料分类的仅仅是材料核心名词,通过判断这些分词是否为核心名词,可以得到相对正确的分类集合,当存在二义性的分词词汇时,可以通过材料分类的辅词(包括非核心名词、形容词和副词)来进行仲裁判断,可进一步减少分类的数量;分类主从关系方法的优势:可以提高分类仲裁的正确率,因为出现多个近似的材料分类时,分类之间存在主要和从属关系,如果出现同时存在“主要-从属”关系的多个分类时,可直接采用主要分类,忽略从属分类,实现快速仲裁,提高正确率;性能优势:平均每条数据处理速度在50ms左右。

为更清楚地阐述本发明的结构特征和功效,下面结合附图与具体实施例来对本发明进行详细说明。

附图说明

图1是本发明之较佳实施例的系统结构示意图;

图2是本发明之较佳实施例的分类判定流程示意图。

具体实施方式

请参照图1所示,其显示出了本发明之较佳实施例一种基于词性和主从关系的建设工程材料信息分类系统的具体结构,包括有字符处理模块、材料分类模块、分类筛选模块、分类仲裁模块、建材分类名词库、建材分类辅词库、建材分类特征词库、主从分类关系库以及材料分类库。

该字符处理模块用于规范材料信息;该材料分类模块连接字符处理模块,材料分类模块用于名词匹配得到材料预备分类;该分类筛选模块连接材料分类模块,该分类筛选模块用于单位、辅词筛选得到精确分类;该分类仲裁模块连接分类筛选模块,该分类仲裁模块通过材料特征仲裁得到唯一分类;该建材分类名词库和建材分类辅词库分别连接材料分类模块和分类筛选模块;该建材分类特征词库和主从分类关系库均连接分类仲裁模块;该分类仲裁模块连接建材分类名词库和建材分类辅词库。在本实施例中,所述材料分类库为GB/T 50851-2013建设工程人工材料设备机械数据标准》材料分类库。具体是:建材分类名词库是按《GB/T50851-2013 建设工程人工材料设备机械数据标准》中的标准分类,将建材核心名词进行归类的词库;建材分类辅词库是按《GB/T50851-2013 建设工程人工材料设备机械数据标准》中的标准分类,将建材的非核心名词、形容词、副词进行归类的词库;建材分类特征词库是按《GB/T50851-2013 建设工程人工材料设备机械数据标准》中的标准分类,将建材的特征、属性词汇进行归类的词库;主从分类关系库包含了所有存在主要-从属关系的标准分类组合,每个标准分类组合包含一个主要标准分类和不少于一个从属标准分类,主要标准分类对应一个或多个从属标准分类。

本发明还公开了一种基于词性和主从关系的建设工程材料信息分类方法,采用前述基于词性和主从关系的建设工程材料信息分类系统,包括有以下步骤:

第一步:用户提交材料信息,由字符处理模块对材料名称、规格、单位中的特殊字符进行规范化。

第二步:在材料分类模块中,采用建材分类名词库,对材料进行分词,得到名词结果集和辅词结果集,在本步骤中,当材料名称不是一个字的时候,去除“单字词”(单字分词)。

第三步:在分类模块中,根据分词得到的名词结果集,匹配得到有名词的材料分类,以及对应的品种,然后判断分类数量是否≤1,若是,则进入第九步,若否,则进入第四步。

第四步:在分类筛选模块中,用材料品种对应分类的单位进行分类筛选,在《GB/T50851-2013 建设工程人工材料设备机械数据标准》中,每个分类都对应相应的单位,得到筛选后的材料分类,并判断分类数量是否=1,若是,则进入第九步,若否,则进入第五步。在本步骤中,当单位仲裁结果数量为0时,则将仲裁前的所有分类交给下一步处理;每个分词在不同的分类中都有独立的词性,比如“交换机”在分类3015、5731中是名词(主词),在5001等其他分类中是辅词。

第五步:在分类筛选模块中,用分词时得到的辅词结果集进一步筛选,去除没有辅词的分类,并判断分类数量是否=1,若是1,则进入第九步,若否,则继续判断分类数量是否≥5,若是,则进入第七步,若否,则进入第六步。为了优化后面的步骤,需要尽量分类控制在较小的范围内,排除一些错误概率较大的分类。

第六步:在分类仲裁模块中,将材料分类对应的品种进行分词判断:1、如果有分词数量大于1的品种,保留这些品种,并删除只有1个分词的品种;2、如果没有分词数量大于1的品种,保留所有品种,3、用剩下的材料品种重新匹配得到材料分类;然后判断分类数量是否>1,若是,则进入第七步,若否,则进入第九步。这一步可以进一步减少分类的数量,帮助提高后续步骤的仲裁效率。

第七步:在分类仲裁模块中,如果分类数量大于1,通过“分类主从”方法仲裁,并判断分类数量是否等于1,若否,则进入第八步,若是,则进入第九步。在这一步可以在多个相似的分类中找到正确的分类。

第八步:在分类仲裁模块中,采用特征值词库进行特征分词,得到各分类的特征分词数量,以特征分词数量进行三种算法仲裁,仲裁结果唯一且一致,输出分类,否则失败。

第九步:输出最终结果,并返回结果给用户。

下面以多个案例进行说明:

词性案例一:

材料信息:数码监视器LED液晶系列GSM-1721 17.5寸液晶彩色监视器,1路VGA,S端子,复合视频RCA输入,双声道RCA输入,NTSC 660 线,PAL 800线,自动转换 台。

无词性初步分类:约100种,[3015: 计算机]、[5729: 光纤适配板]、[3003: 矩阵输出板卡]、[3013: 信息插座]、[3003: 显示屏]等等。

有词性初步分类:3种,[2909: 端子]、[3003: 彩色监视器]、[2829: VGA]。

主从案例一:

材料信息:6*6夹胶钢化玻璃隔断 M2。

初步分类:[0609: 夹胶玻璃][0939: 玻璃隔断]。

主从关系仲裁后:[0939: 玻璃隔断]。

主从案例二:

材料信息:PVC-U给水管弯头D25mm 个。

初步分类:[1803: 水管弯头]、[1725: 给水管]。

主从关系仲裁后:[1803: 水管弯头]。

本发明的设计重点是:通过采用本发明方法和系统,能够将人类自然语言描述的建设工程材料信息依据《GB/T50851-2013 建设工程人工材料设备机械数据标准》自动归集分类,可实现建设工程材料信息的智能识别、标准分类、统计分析等功能的自动化,提升建设工程领域对材料信息处理的能力,帮助建设工程及建材行业的第三方应用和系统开发提升效率。并且,本发明采用词性分类方法减少分类量和出错概率、采用分类主从关系方法提高分类仲裁的正确率;词性分类方法的优势:可以大幅降低分类错误的概率和减少分类数量,因为材料信息包含很多分词词汇,往往决定材料分类的仅仅是材料核心名词,通过判断这些分词是否为核心名词,可以得到相对正确的分类集合,当存在二义性的分词词汇时,可以通过材料分类的辅词(包括非核心名词、形容词和副词)来进行仲裁判断,可进一步减少分类的数量;分类主从关系方法的优势:可以提高分类仲裁的正确率,因为出现多个近似的材料分类时,分类之间存在主要和从属关系,如果出现同时存在“主要-从属”关系的多个分类时,可直接采用主要分类,忽略从属分类,实现快速仲裁,提高正确率;性能优势:平均每条数据处理速度在50ms左右。

以上结合具体实施例描述了本发明的技术原理。这些描述只是为了解释本发明的原理,而不能以任何方式解释为对本发明保护范围的限制。基于此处的解释,本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式,这些方式都将落入本发明的保护范围之内。

相关技术
  • 基于词性和主从关系的建设工程材料信息分类方法及系统
  • 一种基于词性分类的文本分类方法和系统
技术分类

06120112457071