导航：首页> 冶金；黑色或有色金属合金；合金或有色金属的处理>一种标准造价物资价格库的构建方法及系统

一种标准造价物资价格库的构建方法及系统

文献发布时间：2024-04-18 19:53:33

技术领域

本发明属于电网技术领域，具体涉及一种标准造价物资价格库的构建方法及系统。

背景技术

传统造价编制模式中，技经人员对照设备材料清册，人工方式逐一查找相应物资的预算价和市场价，预算价是定额总站在定额发布时候同时配套发布，在定额有效期内一直生效，且不更新。市场价由南方电网公司和地方部门发布信息价，定期更新。由于设备材料清册、预算价、信息价中物资型号命名不一致，需要造价人员根据经验判断物资类型，才能去查找匹配。该方式耗时长、准确性不高，且依赖造价人员经验能力。为了实现造价编制自动化，必须要实现物资价格的自动套取，因此采用了设计物资价格库的思路来解决该问题。

物资库设计过程中最大的问题是设备材料清册、预算价、信息价中物资型号命名不一致，由于预算价和信息价是官方发布，不能更改，设备材料清册由设计单位的设计人员提供，具有不规范性，如何设置一个标准的物资名称和型号，是一个重点和难点。

发明内容

鉴于上述存在的问题，提出了本发明。

因此，本发明解决的技术问题是：解决传统造价编制模式中，由于设备材料清册、预算价、信息价中物资型号命名不一致，造成造价人员需要人工方式逐一查找相应物资的预算价和市场价，耗时长、准确性不高的问题。

为解决上述技术问题，本发明提供如下技术方案：一种标准造价物资价格库的构建方法，包括：获取主网架空输电线路工程文件，基于最新物资品类优化目录进行数据整合和处理；对物资名称和型号进行词向量转换，构建LSTM模型进行匹配，输出匹配结果；基于余弦相似度计算，进行人工审核和修正；建立物资价格库，并定期迭代更新。

作为本发明所述的一种标准造价物资价格库的构建方法的一种优选方案，其中：所述主网架空输电线路工程文件包括电网最新物资品类优化目录、电网历史信息价物资清册、工程图纸设备材料清册；

参考最新物资品类优化目录，制定统一的物资命名和型号标准，使用Pandas库进行数据去重和格式统一；

所述制定统一的物资命名和型号标准包括以最新物资品类优化目录为基础，结合电网物资系统物资命名设置、工程图纸设备材料清册命名方式、电网历史信息价物资命名方式、预算价命名方式，补充地材和设计常用但品类优化目录没有的物资。

作为本发明所述的一种标准造价物资价格库的构建方法的一种优选方案，其中：所述对物资名称和型号进行词向量转换包括，使用预训练的中文词嵌入将物资名称和型号转化为向量。

作为本发明所述的一种标准造价物资价格库的构建方法的一种优选方案，其中：所述使用LSTM模型进行匹配，输出匹配结果包括，

输入层接收长度为n，维度为d的向量序列x

LSTM层使用一个隐藏状态维度为h的LSTM单元处理输入序列，并输出最后一个隐藏状态h

其中，i

全连接层使用一个全连接层将h

z＝W

其中，W

输出层根据任务的不同，使用不同的激活函数和损失函数；

若任务是预测价格，则使用恒等函数作为激活函数，使用均方误差作为损失函数；

若任务是预测类别，则使用Softmax函数作为激活函数，使用交叉熵作为损失函数；

输出层表示为：

y＝g(z)

L(y,t)＝f(y,t)

其中，y是模型的输出，t是真实的标签，g是激活函数，L是损失函数，f是损失函数。

作为本发明所述的一种标准造价物资价格库的构建方法的一种优选方案，其中：所述基于余弦相似度计算，进行人工审核和修正包括，

使用Scikit-learn的cosine_similarity工具，计算向量间的余弦相似度，表示为：

其中，θ是两向量之间的夹角，·是点积运算，|·|是范数运算；

若余弦相似度大于等于0.98，视为物资名称和物资型号与数据库中的记录完全匹配，无需人工审核和修正，直接采用电网物资品类优化目录的数据，所述目录是电网最新发布的物资分类和标准化的参考；

若余弦相似度介于0.92与0.98之间，物资名称和物资型号被认为是高度相似的，视为版本更新，直接记录并标记版本更新，在物资名称或型号后加上VX表示不同的版本号；

若余弦相似度介于0.85与0.92之间，人工介入判断，提示物资为子型号，并建议根据物资的功能、性能进行分类；

若余弦相似度小于0.85，提示需人工介入，提供低相似度和全新物资两项标记，低相似度表示由于数据质量低、命名不规范、型号不明确原因造成的，需要人工审核和修正；

应当说明的是，选择0.98、0.92和0.85作为阈值主要考虑以下几点：

1.灵活性与准确性的平衡：

0.98的阈值确保了几乎完全匹配的物资名称或型号可以被自动识别，从而减少了不必要的人工审核，这大大提高了工作效率。

0.92和0.85的阈值则为那些不完全匹配但仍然相似的物资名称或型号提供了处理机会，确保了准确性。

2.减少误报和漏报：

设置0.98作为最高阈值可以有效减少误报，因为只有高度相似的物资名称或型号才会被认为是完全匹配。

0.85作为最低阈值则减少了漏报，确保了具有一定相似性的物资名称或型号不会被忽略。

3.人工审核的优化：

通过在0.92和0.85之间设置一个区间，本发明为人工审核提供了明确的指导。这确保了人工审核的时间和精力都集中在那些真正需要人工判断的物资名称或型号上，从而提高了审核的效率和质量。

4.适应性：

这些阈值是基于大量的实际数据和多次试验得出的，确保了它们在实际应用中的适应性和有效性。

总之，选择这些具体的阈值确保了本发明在自动匹配物资名称或型号时的高效性和准确性，同时也为人工审核提供了明确的指导，从而最大化地提高了造价编制的整体效率。

所述全新物资表示物资是市场上刚出现的新品，数据库中没有相关的记录，直接由技术人员决定是否录入。

作为本发明所述的一种标准造价物资价格库的构建方法的一种优选方案，其中：所述标建立物资价格库包括使用MySQL数据库，建立物资价格库，所述物资价格库包括物资名称、型号、计量单位、不含税预算价、含税预算价、不含税市场价、含税市场价。

作为本发明所述的一种标准造价物资价格库的构建方法的一种优选方案，其中：所述迭代与更新包括定期收集市场上的物资价格信息，更新物资价格库中的不含税市场价和含税市场价；

定期优化数据的命名和型号标准，提高数据的质量和一致性。

本发明的另外一个目的是提供一种标准造价物资价格库的构建系统，其能通过自动化的数据整合、智能匹配和人工审核技术，解决了传统造价编制中由于物资型号命名不一致导致的人工查找耗时和准确性不高的问题。

为解决上述技术问题，本发明提供如下技术方案：一种标准造价物资价格库的构建系统，包括：包括数据获取模块、数据预处理模块、词向量转换模块、匹配模块、相似度计算模块、人工审核模块、数据库模块和迭代更新模块；

所述数据获取模块用于从不同的数据源获取文件和数据；

所述数据预处理模块用于进行数据整合、格式统一和去重；

所述词向量转换模块用于将物资名称和型号通过预训练的中文词嵌入转化为向量；

所述匹配模块用于使用LSTM模型进行数据匹配，将物资名称和型号的向量输入到LSTM模型中，并输出匹配结果；

所述相似度计算模块用于使用余弦相似度计算进行初步的物资名称和型号匹配评估；

所述人工审核模块用于基于余弦相似度的结果，进行人工审核和修正；

所述数据库模块用于使用MySQL数据库存储物资价格库，包括物资名称、型号、计量单位、不含税预算价、含税预算价、不含税市场价和含税市场价信息；

所述迭代更新模块用于定期收集市场上的物资价格信息，以及优化数据的命名和型号标准。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现一种标准造价物资价格库的构建方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现一种标准造价物资价格库的构建方法的步骤。

本发明的有益效果：本发明给出了一种标准造价物资价格库的构建方法，本发明在减少了造价工作人员的重复劳动的同时，显著提高了造价编制的效率和准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明一个实施例提供的一种标准造价物资价格库的构建方法的流程图；

图2为本发明一个实施例提供的一种标准造价物资价格库的构建系统的结构图；

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参照图1，为本发明的一个实施例，提供了一种标准造价物资价格库的构建方法，包括：

获取主网架空输电线路工程文件，基于最新物资品类优化目录进行数据整合和处理；

对物资名称和型号进行词向量转换，构建LSTM模型进行匹配，输出匹配结果；

基于余弦相似度计算，进行人工审核和修正；

建立物资价格库，并定期迭代更新。

S1获取主网架空输电线路工程文件，基于最新物资品类优化目录进行数据整合和处理；

更进一步的，所述主网架空输电线路工程文件包括电网最新物资品类优化目录、电网历史信息价物资清册、工程图纸设备材料清册；

参考最新物资品类优化目录，制定统一的物资命名和型号标准，使用Pandas库进行数据去重和格式统一；

S2对物资名称和型号进行词向量转换，构建LSTM模型进行匹配，输出匹配结果；

更进一步的，所述对物资名称和型号进行词向量转换包括，使用预训练的中文词嵌入将物资名称和型号转化为向量。

应当说明的是，使用预训练的中文词嵌入(如Word2Vec)将物资名称和型号转化为向量的目的是为了将文本信息转换为数值信息，以便后续的模型训练和相似度计算。具体来说，就是将每个物资名称和型号分割成单词或汉字，并根据一个预先训练好的词嵌入矩阵，将每个单词或汉字映射到一个高维的向量空间中，从而得到一个向量序列，作为该物资名称或型号的向量表示。这样做的好处是可以利用词嵌入矩阵中已经学习到的语义信息，使得语义上相似的物资名称或型号在向量空间中也比较接近，从而提高后续模型训练和相似度计算的效果。

例如，假设我们有一个物资名称“钢筋”，一个物资型号“HRB400”，一个预训练的中文词嵌入矩阵W，其中每一行对应一个汉字的向量表示。我们可以使用以下步骤进行词嵌入：

将物资名称和型号分割成单个汉字，即“钢”、“筋”、“H”、“R”、“B”、“4”、“0”、“0”。

根据预训练的中文词嵌入矩阵W，查找每个汉字对应的向量，并拼接起来，得到一个向量序列。例如，“钢”对应的向量是W[0]，“筋”对应的向量是W[1]，以此类推。则物资名称“钢筋”的向量序列是[W[0],W[1]]，物资型号“HRB400”的向量序列是[W[2],W[3],W[4],W[5],W[6],W[[6]]。

如果需要，可以对向量序列进行补齐或截断，使得所有物资名称和型号的向量序列长度相同。例如，如果我们设定最大长度为n，则可以用零向量补齐长度不足n的向量序列，或者只保留前n个向量截断长度超过n的向量序列。

更进一步的，所述使用LSTM模型进行匹配，输出匹配结果包括，输入层接收长度为n，维度为d的向量序列x

LSTM层使用一个隐藏状态维度为h的LSTM单元处理输入序列，并输出最后一个隐藏状态h

其中，i

全连接层使用一个全连接层将h

z＝W

其中，W

输出层根据任务的不同，使用不同的激活函数和损失函数；

若任务是预测价格，则使用恒等函数作为激活函数，使用均方误差作为损失函数；

若任务是预测类别，则使用Softmax函数作为激活函数，使用交叉熵作为损失函数；

输出层表示为：

y＝g(z)

L(y,t)＝f(y,t)

其中，y是模型的输出，t是真实的标签，g是激活函数，L是损失函数，f是损失函数。

S3基于余弦相似度计算，进行人工审核和修正；

更进一步的，所述基于余弦相似度计算，进行人工审核和修正包括，

使用Scikit-learn的cosine_similarity工具，计算向量间的余弦相似度，表示为：

其中，θ是两向量之间的夹角，·是点积运算，|·|是范数运算；

若余弦相似度介于0.85与0.92之间，人工介入判断，提示物资为子型号，并建议根据物资的功能、性能进行分类；

所述全新物资表示物资是市场上刚出现的新品，数据库中没有相关的记录，直接由技术人员决定是否录入。

S4建立物资价格库，并定期迭代更新。

更进一步的，所述标建立物资价格库包括使用MySQL数据库，建立物资价格库，所述物资价格库包括物资名称、型号、计量单位、不含税预算价、含税预算价、不含税市场价、含税市场价。

更进一步的，所述迭代更新包括定期收集市场上的物资价格信息，更新物资价格库中的不含税市场价和含税市场价；

定期优化数据的命名和型号标准，提高数据的质量和一致性。

实施例2

本发明第二个实施例，其不同于前一个实施例的是：

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

实施例3

参照图2，为本发明的第三个实施例，该实施例提供了一种标准造价物资价格库的构建方法系统，包括：包括数据获取模块、数据预处理模块、词向量转换模块、匹配模块、相似度计算模块、人工审核模块、数据库模块和迭代更新模块；

所述数据获取模块用于从不同的数据源获取文件和数据；

所述数据预处理模块用于进行数据整合、格式统一和去重；

所述词向量转换模块用于将物资名称和型号通过预训练的中文词嵌入转化为向量；

所述匹配模块用于使用LSTM模型进行数据匹配，将物资名称和型号的向量输入到LSTM模型中，并输出匹配结果；

所述相似度计算模块用于使用余弦相似度计算进行初步的物资名称和型号匹配评估；

所述人工审核模块用于基于余弦相似度的结果，进行人工审核和修正；

所述数据库模块用于使用MySQL数据库存储物资价格库，包括物资名称、型号、计量单位、不含税预算价、含税预算价、不含税市场价和含税市场价信息；

所述迭代更新模块用于定期收集市场上的物资价格信息，以及优化数据的命名和型号标准。

实施例4

本发明第四个实施例，提供了一种标准造价物资价格库的构建方法，为了验证本发明的有益效果，通过经济效益计算和实验进行科学论证。

某建筑公司每月需要为20个项目进行造价编制。在传统方法中，每个项目的物资型号查找和匹配平均需要8小时，而使用本发明后，这个时间缩短到2小时。每小时的人工成本为200元。

1.每个项目所需时间(小时)：

传统方法：在传统的造价编制方法中，由于物资型号命名不一致，造价人员需要花费大量时间进行手动查找和匹配。在这个实施例中，每个项目平均需要8小时来完成这一步骤。

本发明：使用本发明的方法，物资型号的查找和匹配过程得到了自动化和智能化，大大缩短了所需时间。每个项目只需要2小时来完成相同的工作。

2.每月总时间(小时)：

传统方法：考虑到公司每月有20个项目，使用传统方法，总共需要160小时(8小时x20项目)来完成所有项目的物资型号查找和匹配。

本发明：而使用本发明，这个时间缩短到40小时(2小时x20项目)。

3.每小时成本(元)：

无论是使用传统方法还是本发明，每小时的人工成本都是200元。这是基于平均的造价人员的薪酬计算的。

4.每月总成本(元)：

传统方法：使用传统方法，每月的总成本为32,000元(160小时x200元/小时)。

本发明：使用本发明，每月的总成本降低到8,000元(40小时x200元/小时)。

5.年度节省(元)：

通过本发明，公司每年可以节省的金额为288,000元。这是基于每月节省的24,000元(32,000元-8,000元)计算的，乘以12个月得到的。

综上所述，使用本发明相比于传统方法在经济效益上的显著优势。不仅节省了大量的时间，还为公司节省了大量的人工成本。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：云南电网有限责任公司;

上一篇：一种高强力精细再生胶的生产工艺
下一篇：一种高强度高韧性核反应堆安全壳用钢及其制造方法