导航：首页> 有机高分子化合物；其制备或化学加工；以其为基料的组合物>项目标签预测方法、系统、电子设备及存储介质

项目标签预测方法、系统、电子设备及存储介质

文献发布时间：2023-06-19 19:28:50

技术领域

本发明属于文本处理的技术领域，具体地涉及一种项目标签预测方法、系统、电子设备及存储介质。

背景技术

投资项目的文本分类是根据文本内容将项目文本划分为预先定义好的类别，准确而又快速的项目标签分类可节省大量人力物力，在信息检索和信息存储上发挥着重要作用。随着软件技术的发展和普及，投资项目的管理软件在投资项目行业都得到了深入应用。就目前而言的发改行业全口径投资项目数据涉及97个大行业和1380个小行业，现有技术采用人工标注的方式针对项目文本的标签分类使得处理过程中受限于人员限制，其中，人工标注的方法是由标签分类人员根据自身经验的判断为项目文本确定标签分类，由于标签分类人员之间的经验丰富性存在差异，导致在项目标签分类的准确性、全面性、效率性等方面上存在不足。

因此，如何实现投资项目的智能化标签分类以提升投资项目标签分类的准确度、全面性及效率性，显得尤为重要。

发明内容

为了解决上述技术问题，本发明提供了一种项目标签预测方法、系统、电子设备及存储介质，使用自然语言处理将项目文本信息转化为词向量，再对词向量进行深度学习的卷积神经网络分类处理，最终完成对投资项目的智能标签分类，实现提升投资项目标签分类的准确度、全面性及效率性。

第一方面，本发明提供一种项目标签预测方法，包括：

获取表征待分类投资项目的关键文本所对应的字符序列；

将所述字符序列通过映射方式转换成若干嵌入表示，并将若干嵌入表示叠加得到项目信息词序列；其中，所述嵌入表示包括字符嵌入、位置嵌入及句子类型嵌入；

通过Bert语言模型处理所述项目信息词序列输出词向量矩阵；

针对所述词向量矩阵进行局部特征提取，并将提取的局部特征归一化处理得到池化结果；

采用全连接对拼接后的所述池化结果进行变换处理得到整合特征；

通过softmax分类器针对所述整合特征进行学习得到所述待分类投资项目的分类标签。

较佳地，所述获取表征待分类投资项目的关键文本所对应的字符序列的步骤具体包括：

将待分类投资项目的项目名称、主要建设内容及行业领域进行串接，得到所述待分类投资项目的关键文本；

将所述关键文本中的停用词进行去除得到字符组；

将所述字符组中的前n个词与标识符进行拼接，并将所述标识符置于首位，以形成所述关键文本对应的字符序列。

较佳地，所述通过Bert语言模型处理所述项目信息词序列输出词向量矩阵的步骤具体包括：

将所述项目信息词序列转化成unicode，并通过Unicode码位去除所述unicode中不合法字符及多余空格，得到信息词字符串；

通过空格将所述信息词字符串中的中文字符进行分隔，并进行循环strip()操作，得到初始分词结果；

针对初始分词结果进行深处理得到目标分词结果；

将所述目标分词结果中的英文按照预设拆分原则进行拆分，得到词向量矩阵。

较佳地，所述预设拆分原则具体为：

将英文按照subword词表进行拆分，每个单词拆分后的subword尽可能地长，采用贪婪最长优先匹配算法，对于每个单词，指针i＝0、j＝len从后向前匹配，直至单词的前缀[i:j]是subword词表中的一个subword，则将其取出，进而设置i＝j、j＝len，循环上述流程。

较佳地，所述针对所述词向量矩阵进行局部特征提取，并将提取的局部特征归一化处理得到池化结果的步骤具体包括：

利用卷积神经网络模型针对所述词向量矩阵进行局部特征提取，得到特征提取结果；

通过最大值池化操作将所述特征提取结果进行特征归一化，以选取局部最优特征得到池化结果。

较佳地，所述全连接应用dropout策略以使部分神经元的激活概率固定在p值上，其中，p值的取值范围为0～1。

较佳地，所述通过softmax分类器针对所述整合特征进行学习得到所述待分类投资项目的分类标签的具体步骤包括：

采用多类交叉熵函数作为卷积神经网络模型的损失函数；

将所述整合特征通过卷积神经网络模型计算以输出对应的分类标签。

第二方面，本发明提供了一种项目标签预测系统，包括：

表征模块，用于获取表征待分类投资项目的关键文本所对应的字符序列；

映射模块，用于将所述字符序列通过映射方式转换成若干嵌入表示，并将若干嵌入表示叠加得到项目信息词序列；其中，所述嵌入表示包括字符嵌入、位置嵌入及句子类型嵌入；

语义模块，用于通过Bert语言模型处理所述项目信息词序列输出词向量矩阵；

处理模块，用于针对所述词向量矩阵进行局部特征提取，并将提取的局部特征归一化处理得到池化结果；

变换模块，用于采用全连接对拼接后的所述池化结果进行变换处理得到整合特征；

分类模块，用于通过softmax分类器针对所述整合特征进行学习得到所述待分类投资项目的分类标签。

较佳地，所述表征模块包括：

串接单元，用于将待分类投资项目的项目名称、主要建设内容及行业领域进行串接，得到所述待分类投资项目的关键文本；

去除单元，用于将所述关键文本中的停用词进行去除得到字符组；

拼接单元，用于将所述字符组中的前n个词与标识符进行拼接，并将所述标识符置于首位，以形成所述关键文本对应的字符序列。

较佳地，所述语义模块包括：

转化单元，用于将所述项目信息词序列转化成unicode，并通过Unicode码位去除所述unicode中不合法字符及多余空格，得到信息词字符串；

循环单元，用于通过空格将所述信息词字符串中的中文字符进行分隔，并进行循环strip()操作，得到初始分词结果；

深处理单元，用于针对初始分词结果进行深处理得到目标分词结果；

拆分单元，用于将所述目标分词结果中的英文按照预设拆分原则进行拆分，得到词向量矩阵。

较佳地，所述处理模块包括：

提取单元，用于利用卷积神经网络模型针对所述词向量矩阵进行局部特征提取，得到特征提取结果；

池化单元，用于通过最大值池化操作将所述特征提取结果进行特征归一化，以选取局部最优特征得到池化结果。

较佳地，所述分类模块包括：

定义单元，用于采用多类交叉熵函数作为卷积神经网络模型的损失函数；

分类单元，用于将所述整合特征通过卷积神经网络模型计算以输出对应的分类标签。

第三方面，本申请实施例提供了一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的项目标签预测方法。

第四方面，本申请实施例提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的项目标签预测方法。

相比现有技术，本发明的有益效果为：采用NLP中的通用语言模型BERT模型，能捕捉整个句子中文本信息的字符序列信息、上下文关系信息、语法语境信息等，解决了一词多义问题。且Bert模型使用转换器的编码器可并行执行运算，可叠加多层，对文本信息有很强的表征能力，其输出的词向量能够非常好的表征文本信息的特征，接着将其作为下游自然语言处理任务的模型参数或者模型输入以提高模型的整体性能。后接CNN层，利用不同大小的卷积核捕捉句子中不同长度词的信息，中文词语蕴含的信息往往比字更丰富，所以把词语信息从整句数据中提取出来后再进行分类，分类结果更理想，实现提升投资项目标签分类的准确度、全面性及效率性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的项目标签预测方法的流程图；

图2是本发明实施例2提供的与实施例1方法对应的项目标签预测系统结构框图；

图3是本发明实施例3提供的电子设备的硬件结构示意图。

附图标记说明：

10-表征模块、11-串接单元、12-去除单元、13-拼接单元；

20-映射模块；

30-语义模块、31-转化单元、32-循环单元、33-深处理单元、34-拆分单元；

40-处理模块、41-提取单元、42-池化单元；

50-变换模块；

60-分类模块、61-定义单元、62-分类单元；

70-总线、71-处理器、72-存储器、73-通信接口。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

随着软件技术的发展和普及，投资项目管理软件在投资项目行业都得到了深入应用，传统投资项目管理模式中，由于项目库分类智能化、精细化、可扩展性等方面不足，导致项目信息支撑能力不足。诸如：当提出了对区域投资新要求时，需要人工去新建标签，并同步更新项目全口径库数据，进而形成新的主题分析。目前对不同项目分类均由人工去判断，实际操作人员需要对大量的数据，进行分析处理。而且在处理的过程中会受限于人员限制，导致无法及时响应对项目分类的快速分析需求。本申请正是基于数据模型针对项目分类进行判断，减少人力投入，提高分析准确性，使得分析结果更具有科学性。

实施例1

具体而言，图1所示为本实施例所提供的一种项目标签预测方法的流程示意图。

如图1所示，本实施例的项目标签预测方法包括以下步骤：

S101，获取表征待分类投资项目的关键文本所对应的字符序列。

具体地，根据自然语言处理的任务类型，将原始文本作为自然语言处理的输入数据，由于原始文本的离散度高，数据类型不能够在自然语言处理过程中直接被调用和处理，需要将所述原始文本的原始数据进行数据转化，转化为字符序列，再对字符序列进行分词处理。本实施例中，通过选用某一投资项目的项目名称、主要建设内容和行业领域的文本信息作为待分类投资项目的关键文本，是因为项目名称、主要建设内容和行业领域的文本信息是因为这三项是最能反映项目建设内容的文本字段。通过作为执行主体的编码器完成对原始数据的信息提取并去除停用词后，将文本前n个词与BERT既定标识符[CLS]进行拼接，其中[CLS]置于首位，用于表征待分类投资项目的关键文本所对应的字符序列。

进一步地，步骤S101的具体步骤包括：

S1011，将待分类投资项目的项目名称、主要建设内容及行业领域进行串接，得到所述待分类投资项目的关键文本。

具体地，投资项目是指在规定期限内为完成某项开发目标(或一组开发目标)而规划和实施的活动、机构以及其他各方面所构成的独立整体。针对待分类投资项目的文本，通常投资项目的整份文件具有一定的格式要求，诸如具有项目名称、主要建设内容、行业领域、可行性分析、财务预设等模块，为了最能反映投资项目的建设内容，本实施例选用投资项目的项目名称、主要建设内容和行业领域的文本信息作为选用信息，将该选用信息进行语句拼接，得到最能反映待分类投资项目的关键文本。

S1012，将所述关键文本中的停用词进行去除得到字符组。

具体地，停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词，这些字或词即被称为停用词。这些停用词都是人工输入、非自动化生成的，生成后的停用词会形成一个停用词表。当利用jieba进行中文分词时，主要是句子中出现的词语都会被划分，而有些词语是没有实际意思的，对于后续的关键词提取就会加大工作量，并且可能提取的关键词是无效的。所以在分词处理会引入停用词去除优化分词的结果。对于停用词，可以自己手动添加到一个txt文件中，然后在需要时导入文件，也可以利用已经整理好的停用词表。当然，在已有的停用词表基础上，如果还有一些词语不需要，也可以自己完善停用词表。

S1013，将所述字符组中的前n个词与标识符进行拼接，并将所述标识符置于首位，以形成所述关键文本对应的字符序列。

具体地，本实施例的BERT模型的标识符具体为[CLS]，[CLS]就是classification的意思，可理解为用于下游的分类任务。对于语句对分类任务，BERT模型除添加[CLS]符号并将对应的输出作为文本的语义表示，还对输入的两句话用一个[SEP]符号作分割，并分别对两句话附加两个不同的文本向量以作区分。本实施例中，将获取的字符组中前n个词与BERT标识符[CLS]进行拼接，并将[CLS]置于首位，形成关键文本对应的字符序列，用于标识整个输入的语义。

S102，将所述字符序列通过映射方式转换成若干嵌入表示，并将若干嵌入表示叠加得到项目信息词序列；其中，所述嵌入表示包括字符嵌入、位置嵌入及句子类型嵌入。

具体地，上下文特征提取层通过BiGRU、CNN和BiGCN编码器来提取句子的多粒度特征表示和区域特征表示，多特征嵌入层BiGRU能够融合前向和后向的信息，因此可以更好的提取特征信息。输入一个字符序列，上下文特征提取层的任务是充分捕获句子的语义特征信息。本实施例在字符嵌入的基础上添加了位置嵌入以及句子类型嵌入。

其中，字符嵌入：CNN具有较强的局部特征提取能力，因此通过CNN提取每个单词的字符特征表示H

其中，FCL()属于全连接操作，Maxpooling()属于最大池化操作，Conv()属于卷积操作，m是单词的长度。

其中，位置嵌入：在一个序列中，单词的出现位置能够为单词本身提供额外的语义信息。本文基于正余弦函数获得每个字符的位置信息，正弦函数和余弦函数所产生的向量值域在0～1之间，这有利于模型的训练和收敛。输入一个文本序列，经过正余弦函数变换得到位置嵌入H

其中，f是字符在序列中出现的位置，d

S103，通过Bert语言模型处理所述项目信息词序列输出词向量矩阵。

具体地，Bert语言模型是完全意义上的双向语言模型，能捕捉整个句子中字序列信息、上下文关系信息、语法语境信息等，解决一词多义问题。词向量被用作下游模型的高质量特征输入。NLP模型(如LSTMs或CNNs)需要以数字向量的形式输入，意味着需要将词汇表和部分语音等特征转换为数字表示，这些特征嵌入是由Word2Vec或Fasttext等模型产生的。BERT与Word2Vec之类的模型相比提供一个优势，因为尽管Word2Vec下的每个单词都有一个固定的表示，而与单词出现的上下文无关，BERT生成的单词表示是由单词周围的单词动态通知的。

进一步地，步骤S103的具体步骤包括：

S1031，将所述项目信息词序列转化成unicode，并通过Unicode码位去除所述unicode中不合法字符及多余空格，得到信息词字符串。

具体地，unicode是为解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。本实施例中将项目信息词序列中的字符串或者字节转换成unicode目的在于方便操作，因为后续操作要判断中文、英文、特殊符号等等；并通过Unicode码位去除unicode中不合法字符及多余空格。

S1032，通过空格将所述信息词字符串中的中文字符进行分隔，并进行循环strip()操作，得到初始分词结果。

具体地，strip()操作用于移除字符串头尾指定的字符或字符序列，只能删除开头或是结尾的字符，不能删除中间部分的字符，诸如包括空格、换行( )、制表符( )。本实施例中，对于text中的字符，首先判断其是不是中文字符，是的话在其前后加上一个空格，否则原样输出。经过这步后，中文被按字分开，用空格分隔，但英文数字等仍然保持原状。

S1033，针对初始分词结果进行深处理得到目标分词结果。

具体地，首先对text进行strip()操作，去掉两边多余空白字符，然后如果剩下的是一个空字符串，则直接返回空列表，否则进行split()操作，得到最初的分词结果orig_tokens；分词得到的列表继续处理，将语料包含的变音符号去掉，还原成字符形式，或者根据标点符号分词。

S1034，将所述目标分词结果中的英文按照预设拆分原则进行拆分，得到词向量矩阵。其中，所述预设拆分原则具体为：将英文按照subword词表进行拆分，每个单词拆分后的subword尽可能地长，采用贪婪最长优先匹配算法，对于每个单词，指针i＝0、j＝len从后向前匹配，直至单词的前缀[i:j]是subword词表中的一个subword，则将其取出，进而设置i＝j、j＝len，循环上述流程。

具体地，将目标分词结果进行进一步的WordPiece Tokenizer拆分，首先，对中文来说，字粒度已经是最小的不可拆的粒度了，没法再进行subword，subword基本上是对英文进行处理；将单词按照subword词表进行拆分，分词路径的确定过程可采用贪婪匹配，例如，尽可能匹配最长的字符串或者编码序列，获取分词路径；还可以采用非贪心匹配，例如，尽可能匹配最短的字符串或者编码序列，找到字符或者编码中所有的连续成词的分词路径，并根据所述分词路径确定分词片段，分词片段以字符集合或者编码集合的形式存在，将所述分词片段进行编码，以使所述分词片段进行向量化。本实施例中，采用贪婪最长优先匹配算法。

S104，针对所述词向量矩阵进行局部特征提取，并将提取的局部特征归一化处理得到池化结果。

具体地，由于词向量矩阵的维度较高且包含部分噪声，故引入多核卷积神经网络对其进行优化表示。卷积神经网络可通过滑动窗口机制对同一区域内的所有特征进行卷积变换从而有效保留词语的局部特征。考虑模型的训练时间和准确率，在实践中，将卷积核设置为窗口是3、4、5的混合卷积核，既可以保证模型较低的训练复杂度有拥有良好的分类效果，以词向量矩阵作为卷积层的输入，使用多个卷积核大小为(2，3，4)对其进行局部特征提取，得到对应的特征提取结果，之后通过Max Pooling池化操作选取局部最优特征。

进一步地，步骤S104的具体步骤包括：

S1041，利用卷积神经网络模型针对所述词向量矩阵进行局部特征提取，得到特征提取结果。

具体地，图像的每一个像素点里都存储着图像的信息。定义一个卷积核(相当于权重)，用来从图像中提取一定的特征，卷积核与数字矩阵对应位相乘再相加，得到卷积层输出结果。卷积核的取值在没有以往学习的经验下，可由函数随机生成，再逐步训练调整，提取图片每个小部分里具有的特征。

S1042，通过最大值池化操作将所述特征提取结果进行特征归一化，以选取局部最优特征得到池化结果。

具体地，最大值池化操作采用max pooling方法，该方法是取一个区域的最大值。因此当图像发生平移、缩放、旋转等较小的变化时，依然很有可能在同一位置取到最大值，与变化前的响应相同，由此实现了仿射不变性。本实施例的池化目的为了减少训练参数的数量，降低卷积层输出的特征向量的维度；减小过拟合现象，只保留最有用的图片信息，减少噪声的传递。

S105，采用全连接对拼接后的所述池化结果进行变换处理得到整合特征。

具体地，所述全连接应用dropout策略以使部分神经元的激活概率固定在p值上，其中，p值的取值范围为0～1；通过dropout策略可以使某些神经元的激活概率固定在p值上，使模型在向前传输过程中不会太依赖某些局部特征，使模型的鲁棒性更好，泛化能力更强。本实施例中，卷积层和池化层的工作就是提取特征，并减少原始图像带来的参数。为了生成最终的输出，需要应用全连接层来生成一个等于需要的类的数量的分类器，全连接层的工作原理和之前的神经网络学习很类似，需要把池化层输出的张量重新切割成一些向量，乘上权重矩阵，加上偏置值，然后对其使用ReLU激活函数，用梯度下降法优化参数既可。

S106，通过softmax分类器针对所述整合特征进行学习得到所述待分类投资项目的分类标签。

具体地，softmax函数在机器学习中是常用的多分类器，特别是在卷积神经网络中，最后的一层经常都是使用softmax分类器进行多类别分类任务。softmax函数是logistic函数的一般形式，是将分类问题转化为概率问题，就是求解统计所有可能的概率，然后概率最大的即认为为该类别。

进一步地，步骤S106的具体步骤包括：

S1061，采用多类交叉熵函数作为卷积神经网络模型的损失函数；

S1062，将所述整合特征通过卷积神经网络模型计算以输出对应的分类标签。

综上所述，采用NLP中的通用语言模型BERT模型，能捕捉整个句子中文本信息的字符序列信息、上下文关系信息、语法语境信息等，解决了一词多义问题。且Bert模型使用转换器的编码器可并行执行运算，可叠加多层，对文本信息有很强的表征能力，其输出的词向量能够非常好的表征文本信息的特征，接着将其作为下游自然语言处理任务的模型参数或者模型输入以提高模型的整体性能。后接CNN层，利用不同大小的卷积核捕捉句子中不同长度词的信息，中文词语蕴含的信息往往比字更丰富，所以把词语信息从整句数据中提取出来后再进行分类，分类结果更理想，实现提升投资项目标签分类的准确度、全面性及效率性。

实施例2

本实施例提供了与实施例1所述方法相对应的系统的结构框图。图2是根据本实施例的项目标签预测系统的结构框图，如图2所示，该系统包括：

表征模块10，用于获取表征待分类投资项目的关键文本所对应的字符序列。

映射模块20，用于将所述字符序列通过映射方式转换成若干嵌入表示，并将若干嵌入表示叠加得到项目信息词序列；其中，所述嵌入表示包括字符嵌入、位置嵌入及句子类型嵌入。

语义模块30，用于通过Bert语言模型处理所述项目信息词序列输出词向量矩阵。

处理模块40，用于针对所述词向量矩阵进行局部特征提取，并将提取的局部特征归一化处理得到池化结果。

变换模块50，用于采用全连接对拼接后的所述池化结果进行变换处理得到整合特征；具体地，所述全连接应用dropout策略以使部分神经元的激活概率固定在p值上，其中，p值的取值范围为0～1。

分类模块60，用于通过softmax分类器针对所述整合特征进行学习得到所述待分类投资项目的分类标签。

较佳地，所述表征模块10包括：

串接单元11，用于将待分类投资项目的项目名称、主要建设内容及行业领域进行串接，得到所述待分类投资项目的关键文本；

去除单元12，用于将所述关键文本中的停用词进行去除得到字符组；

拼接单元13，用于将所述字符组中的前n个词与标识符进行拼接，并将所述标识符置于首位，以形成所述关键文本对应的字符序列。

较佳地，所述语义模块30包括：

转化单元31，用于将所述项目信息词序列转化成unicode，并通过Unicode码位去除所述unicode中不合法字符及多余空格，得到信息词字符串；

循环单元32，用于通过空格将所述信息词字符串中的中文字符进行分隔，并进行循环strip()操作，得到初始分词结果；

深处理单元33，用于针对初始分词结果进行深处理得到目标分词结果；

拆分单元34，用于将所述目标分词结果中的英文按照预设拆分原则进行拆分，得到词向量矩阵；其中，所述预设拆分原则具体为：将英文按照subword词表进行拆分，每个单词拆分后的subword尽可能地长，采用贪婪最长优先匹配算法，对于每个单词，指针i＝0、j＝len从后向前匹配，直至单词的前缀[i:j]是subword词表中的一个subword，则将其取出，进而设置i＝j、j＝len，循环上述流程。

较佳地，所述处理模块40包括：

提取单元41，用于利用卷积神经网络模型针对所述词向量矩阵进行局部特征提取，得到特征提取结果；

池化单元42，用于通过最大值池化操作将所述特征提取结果进行特征归一化，以选取局部最优特征得到池化结果。

较佳地，所述分类模块60包括：

定义单元61，用于采用多类交叉熵函数作为卷积神经网络模型的损失函数；

分类单元62，用于将所述整合特征通过卷积神经网络模型计算以输出对应的分类标签。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

实施例3

结合图1所描述的项目标签预测方法可以由电子设备来实现。图3为根据本实施例的电子设备的硬件结构示意图。

电子设备可以包括处理器71以及存储有计算机程序指令的存储器72。

具体地，上述处理器71可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器72可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器72可包括硬盘驱动器(Hard Disk Drive，简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器72可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器72可在数据处理装置的内部或外部。在特定实施例中，存储器72是非易失性(Non-Volatile)存储器。在特定实施例中，存储器72包括只读存储器(Read-Only Memory，简称为ROM)和随机存取存储器(RandomAccess Memory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory，简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory，简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory，简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(Static Random-Access Memory，简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory，简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory，简称SDRAM)等。

存储器72可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器71所执行的可能的计算机程序指令。

处理器71通过读取并执行存储器72中存储的计算机程序指令，以实现上述实施例1的项目标签预测方法。

在其中一些实施例中，电子设备还可包括通信接口73和总线70。其中，如图3所示，处理器71、存储器72、通信接口73通过总线70连接并完成相互间的通信。

通信接口73用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信接口73还可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线70包括硬件、软件或两者，将设备的部件彼此耦接在一起。总线70包括但不限于以下至少之一：数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制，总线70可包括图形加速接口(Accelerated Graphics Port，简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture，简称为EISA)总线、前端总线(FrontSide Bus，简称为FSB)、超传输(Hyper Transport，简称为HT)互连、工业标准架构(Industry Standard Architecture，简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count，简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture，简称为MCA)总线、外围组件互连(Peripheral Component Interconnect，简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment，简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus，简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线70可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

该电子设备可以获取到项目标签预测系统，执行本实施例1的项目标签预测方法。

另外，结合上述实施例1中的项目标签预测方法，本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例1的项目标签预测方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：舒文华;徐绍珺;蔡伟;张克非;
专利申请人：思创数码科技股份有限公司;

上一篇：处理腔室的排放模块、处理腔室及其中处理基板的方法
下一篇：前端页面开发方法及装置