掌桥专利:专业的专利平台
掌桥专利
首页

面向科技需求的主题提取方法、装置和存储介质

文献发布时间:2023-06-19 12:13:22


面向科技需求的主题提取方法、装置和存储介质

技术领域

本发明涉及自然语言处理技术领域,具体是一种面向科技需求的主题提取方法、装置和存储介质。

背景技术

科研成果有大量领域分类与主题分析方面的研究,但企业对科研成果中的相关科技需求数据却少有研究。科技需求是科技大数据中各个类别数据资源的一种,属于社会企业技术需求的范围,主要是企业业务运转中所需要解决的技术难题与技术要求。目前,小网站收录的数据繁杂噪音多,数据语义稀疏,且没有细分类别,使得科技需求描述的主题不明确,导致对于科技需求的主题发展规律分析不够准确,从而使得。

现有一种主题提取模型为基于概率的隐含狄利克雷分布(Latent DirichletAllocation,LDA)模型,应用数学原理中的先验知识数学概率分布进行主题提取。现有模型中关键词抽取模式为基于统计特征的关键词提取,其基于TF(Term Frequency)/TF-IDF(Term Frequency–Inverse Document Frequency),利用文档中词语的统计信息抽取文档的关键词。现有的这种模型只应用了数学原理找到词的分布规律或者词频进行主题提取,但没有考虑文本语义信息,从而使得数据语义提取不准确的问题。

于是,发展出了融合LDA主题差异度和长短期记忆网络(Long Short-TermMemory,LSTM)语义信息的关键词抽取方法,其加入了LSTM表示的标题向量与LDA提取的关键词向量之间语义相似度,并考虑了主题语义之间的差异度重新构建TextRank的状态矩阵进行主题提取,该方法基于标题这样的高质量文本语义来验证提取的文本主题是否接近标题语义。但这种方法没有充分利用标题信息,而本文对科技需求数据的主题提取要包含标题和内容两个方面,因此需要利用高质量的标题充分提取主题特征。

因此,如何克服现有技术中的问题,综合考虑多个维度进行主题提取,从而提高科技资源信息主题发现的准确率,还是一个有待解决的问题。

发明内容

针对现有技术中存在的问题,本发明的目的在于提供一种科技需求的主题提取方法、装置,通过结合Textrank与LDA2vec改进的主题提取方法对各领域分类中的主题进行抽取,通过结合词汇的重要性、语义关系和上下文整体与词汇的联系确定主题。

本发明的一个方面,提供了一种面向知识产权的科技资源画像构建方法,该方法包括以下步骤:

获取科技需求文本数据,所述科技需求文本数据中带有行业领域一级主题类别标签;

基于同一一级主题类别的科技需求文本数据分别获得单词向量和文档向量;

利用基于深度学习的主题模型基于所述单词向量和文档向量获取主题词向量和主题词集;

以所述主题词向量为基础,根据每篇文档中初步提取的主题词集,按照预定的聚类数目对科技需求文本数据进行二级聚类;

利用文本排序算法对主题词集内的主题词作为关键词进行提取并对提取的主题词进行排序,根据主题词得分筛选出作为二级聚类主题类别标签词的主题词,并将得分最高的主题词作为本类别二级主题代表。

在本发明一些实施方式中,所述科技需求文本数据为跨领域的科技需求文本数据;

所述基于深度学习的主题模型为LDA2vec模型;

所述基于科技需求文本数据分别获得单词向量和文档向量包括:

利用Word2Vec模型将科技需求文本数据中的单词表示成词向量;以及

使用隐含狄利克雷分布LDA模型基于科技需求文本数据得到文档主题权重与文档主题分布矩阵,并基于所述文档主题权重与文档主题分布矩阵得到文档向量。

在本发明一些实施方式中,所述使用隐含狄利克雷分布LDA模型基于科技需求文本数据得到文档主题权重与文档主题分布矩阵,并基于所述文档主题权重与文档主题分布矩阵得到文档向量,包括:基于科技需求文本数据得到文档主题权重,并基于文档主题权重得到文档各主题所占的比例;以LDA初步提取出的文档主题生成主题矩阵;计算主题矩阵与文档主题比例的内积,得到文档向量。

在本发明一些实施方式中,所述利用基于深度学习的主题模型基于所述单词向量和文档向量获取主题词向量表示和主题词集,包括:

将单词向量与文档向量相加得到该科技需求文本的上下文向量;

该上下文向量经过SGNS模型采用负采样损失函数进行训练,训练之后输出从该科技需求文本中提取出的分数最高单词作为主题词并输出这些主题词的向量表示;

将主题词向量的集合作为主题词集。

在本发明一些实施例中,所述方法还包括:所述以主题词向量为基础基于预定的聚类数目对科技需求文本数据进行聚类所采用的聚类算法为K-means++聚类算法;该聚类算法选取在数据集中随机选取一个样本点作为第一个簇中心点,计算剩余样本点与所有簇中心的最短距离和某一样本点被选为下一个簇中心的概率,重复迭代计算概率选出与所述聚类数目对应数目的簇中心。

在本发明一些实施例中,所述方法还包括:在预定时间段内统计提取出的主题词的词频,将提取的主题词结合时间序列来分析主题的演进规律。

在本发明一些实施例中,所述利用文本排序算法对主题词集内的主题词作为关键词进行提取并对提取的主题词进行排序,包括:针对每篇文档已经获取到的主题词集,由主题词向量计算词汇相似度得到初始词汇间关系权重;使用TextRank根据词之间共现关系计算每个词的重要性,获取词汇间关系权重,构建词图并采用共现关系构造任意两个节点之间的边;迭代计算各主题词向量对应的权重直至收敛;对主题词的权重进行排序得到最重要的预定数目个单词。

本发明的另一方面,提供了一种面向科技需求的主题提取装置,该装置包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如前所述方法的步骤。

本发明的又一方面,还提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如前所述方法的步骤。

本发明实施例提供的面向科技需求的主题提取方法和装置,针对科技需求文本数据的领域分类宽泛以及每个行业领域技术应用点有交叉性的特点,基于主题模型和关键词提取技术,以数据所属行业领域为一级主题划分,在各领域类别中根据LDA2vec模型获取的主题特征通过聚类划分出二级类别并提取该类别的主题,根据细分出的二级类别中所有主题得分确定二级主题代表,来细化科技需求的分类,解决了科技需求数据分类宽泛不精细的问题。此外,本发明应用关键词提取技术对已经提取的主题词进行过滤,解决提取出的主题只考虑词汇语义和分布概率却未考虑词汇间关系的问题。进一步地,将提取的主题结合时间序列来分析主题的演进规律,绘制出主题演化趋势图,从而展现科技需求主题提取结果的应用性。

本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。

本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:

图1为本发明一实施例中针对科技需求的基于深度学习的主题提取方法的流程示意图。

图2为本发明另一实施例中针对科技需求的基于深度学习的主题提取方法的框图示意图。

图3为本发明一实施例中获取文档向量的流程示意图。

图4为本发明一实施例中科技需求制造业热点随时间变化趋势示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。

在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。

应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

为了使得科研人员能够将自己的科研成果快速有效地应用于企业技术创新发展上,本发明提出了一种针对科技需求的基于深度学习的主题提取方法,来获取各行业领域需求主题,解决数据语义提取不准确的问题。该方法以数据所属行业领域为一级主题划分,在各领域类别中根据LDA2vec模型获取主题特征,然后通过以主题特征为基础进行聚类划分出二级类别来细化科技需求的分类,以解决科技需求数据分类宽泛不精细的问题;同时应用关键词提取技术对已经提取的主题词进行过滤,解决提取出的主题只考虑词汇语义和分布概率却未考虑词汇间关系的问题。进一步地,本发明的一些实施例还将提取的主题结合时间序列来分析主题的演进规律,绘制出主题演化趋势图,从而展现科技需求主题提取结果的应用性。

大致说来,本发明的基于深度学习的主题提取方法的流程主要分三部分:1)初步主题提取以及主题词向量获取;2)根据已有文档主题向量特征对该行业领域文档进行聚类,以进行二级类别划分;3)根据已有主题词向量计算主题间相似度和主题间关系权重进行主题过滤。下面结合附图对本发明实施例进行详细地描述。

图1为本发明实施例中面向科技需求的主题提取方法的流程示意图。如图1所示,本方法包括以下步骤:

步骤S110,获取多领域科技需求文本数据。

在对科技需求文本数据进行主题提取之前,首先需要获取科技需求文本数据,优选地获取多领域科技需求文本数据。

在本发明实施例中,如果是在训练阶段,可以从包含科技需求文本数据样本的数据集中获得科技需求文本数据,以作为训练样本;如果是在测试阶段,可以通过数据抓取或其他方式来获取到科技需求文本数据,用作测试数据。

各领域科技需求文本数据在获取的时候就自带行业领域标签,该行业领域标签作为一级主题类别标签,但这个标签范围非常大,因此,为了进一步挖掘出具体详细的科技资源主题,需要进一步分类,如后面的步骤所要描述的,将以多领域科技需求文本数据的特征向量为基础进行聚类,以划分出二级类别来细化科技需求的分类。

步骤S120,基于同一一级主题类别的科技需求文本数据分别获得单词向量和文档向量。

在聚类之前,需要对文本数据进行主题词向量获取。本发明实施例中,是先针对同一一级主题类别的科技需求文本数据分别获得单词向量和文档向量,然后基于获取的单词向量和文档向量来获取主题词向量。

更具体地,本步骤可以包括以下步骤1)和2):

步骤1),利用Word2Vec模型从科技需求文本数据中的单词表示成词向量。

Word2Vec模型是一种自然语言处理(NLP)模型,Word2vec 模型可以根据给定的语料库,通过优化后的训练模型快速有效地将语料库中一个词语表达成向量形式,为自然语言处理领域的应用研究提供了有效途径。

Word2vec模型基于神经网络进行文本的单词级别的语义学习,利用输入单词预测周围上下文词语的方法来学习词嵌入,可得到每个单词的向量表示,即词向量(或称单词向量)。Word2vec模型得到的词向量是考虑了单词环境和上下文语义得到的词向量。

步骤2),使用隐含狄利克雷分布(LDA)模型基于科技需求文本数据得到文档主题权重与文档主题分布矩阵,并基于文档主题权重与文档主题分布矩阵得到文档向量。

LDA是一种主题模型,它可以将一类别的文档集合中每篇文档的主题按照概率分布的形式给出,该模型采用狄利克雷分布作为文档-主题和关键词-主题的概率分布。一篇文档可以包含多个主题,每个主题又包括一系列关键词。文档中的每个词都是由某个主题生成的,LDA给出文档属于每个主题的概率分布,同时给出每个主题上词的概率分布。

在LDA中,文档中的每个单词被认为均对应一个主题,单词主题是由文档级别的主题权重互相独立抽样得来的。由LDA获取的文档主题权重与文档主题分布矩阵两部分可计算得到文档向量表示。

图3中示出了基于科技需求文本数据得文档向量的流程,如图3所示,基于LDA模型得到文档向量的步骤可包括:

步骤1),根据同一类别的科技需求文本数据得到文档-主题分布,基于文档-主题分布可得到文档中各主题所占的权重,即文档主题权重,并进一步基于文档主题权重得到文档各主题所占的比例,例如通过对文档主题权重归一化处理,可得到文档各主题所占比例。

比如,有20个文本文档,会有二十个潜在主题,这些潜在主题在每个文档中有不同的主题分布,也就是所占权重不同。对文档主题的权重进行归一化处理,便可以得到文档中各主题所占的比例。

步骤2),根据LDA得到的文档主题生成主题矩阵。

主题矩阵为多个潜在主题向量组成的矩阵,因此基于文档中的各主题可以得到主题矩阵。

步骤3),计算主题矩阵与文档主题比例的内积,得到文档向量。

步骤S130,利用基于深度学习的主题模型基于单词向量和文档向量获取主题词向量表示和主题词集。

要从文本数据中得到所有关键词重要性排序,需要引入主题模型进行主题提取,得到相应的主题词集以及每个主题词向量。聚类所需的主题特征即主题词向量,聚类过程中对同一文档中主题单词之间的相似度计算所需的主题词向量,本发明实施例中采用基于深度学习的Lda2vec模型来进行主题获取。本步骤时利用基于深度学习的主题模型LDA2vec获取单词向量与文档向量的主题词向量表示以及主题词集。

更具体地,在本发明实施例中,如图3所示,在利用Word2vec模型和LDA模型分别获得了词向量和文档向量后,LDA2vec模型可以利用向量相加运算将词向量与文档向量协同组合,而生成主题词向量,同一行业领域内各个主题词向量的集合组成主题词集。该主题提取方法融入了单词的语义信息以及提取出的主题代表的文档语义信息,二者结合得到单词向量和文档向量组成的主题词向量表示,包含了充分的语义特征,增加了主题提取的准确率。

主题词向量可以表示为如下公式:

其中,

其中,

其中,

基于深度学习的LDA2vec模型是word2vec模型和LDA模型的扩展,它共同学习了单词、文档和主题词向量,结合了全局和局部单词特征进行了全面考虑。它不仅能学习单词的词嵌入和文档向量嵌入,还同时学习主题表征和文档表征。本发明实施例中,针对科技需求标题短文本以及语义稀疏的需求描述而提取主题,充分考虑了单词语义、上下文环境的结合(如单词向量考虑了单词语义,LDA模型的主题分布函数考虑了上下文环境,也就是考虑了整体文档从而能进一步提高科技资源信息主题发现的准确率。

如图3所示,在本发明实施例中,将单词向量与文档向量相加得到该科技需求文本的上下文向量之后,该上下文向量可进一步经过训练模型(如SGNS(Skipgram NegativeSampling Loss)模型),采用SGNS负采样损失函数进行训练,训练之后输出从该科技需求文本中提取出的分数最高单词作为主题词,并得到训练后这些主题词的向量表示,作为主题词向量表示;

主题词向量的集合可作为主题词集。

损失函数是模型训练中都要用到的,用来一步步迭代训练的时候纠正预测偏差,本模型使用的负采样损失函数全称为the Skipgram Negative-Sampling (SGNS),如下所示:

总损失函数 L 是 SGNS 负采样损失函数,

其中,

步骤S140,以主题词向量为基础,根据每篇文档中初步提取的主题词集,基于预定的聚类数目对科技需求文本数据进行二级聚类。

为进一步挖掘更详细的科技需求主题,本申请将在已有的行业领域分类基础上细分类别,挖掘该行业领域中包含的不同主题,本步骤通过对各一级分类下的科技需求文本数据进行聚类来实现二级分类。

在通过LDA2vec模型得到了主题词向量后,便可以基于得到的主题词向量对科技需求文本数据进行聚类。LDA2vec提取的主题特征更加充分,使得聚类效果更好。由于不同行业领域中文本数据的量多少有差异,所以在本发明实施例中,可以基于各个行业领域中文本数据量的多少来确定领域内聚类数目,基于预先确定的聚类数目来产生相应数目的二级分类主题。

在本发明实施例中,选用K-means++聚类算法进行聚类,它的原理是初始簇中心之间的距离应该越大越好,它改进了K-means算法初始中心点的选取,将初始中心点选取在数据集中随机选取一个样本点作为第一个簇中心点,计算剩余样本点与所有簇中心的最短距离和某一样本点被选为下一个簇中心的概率,重复迭代计算概率选出k个簇中心,其中,k为聚类数目。聚类后使分类范围相比原一级分类大大缩小。K-means++聚类算法可以克服K-means算法得到的聚类结果严重依赖与初始簇中心的选择的问题。

步骤S150,利用文本排序算法对主题词集内的主题词作为关键词进行提取并对提取的主题词进行排序,根据主题词得分筛选出作为二级聚类主题类别标签词的主题词,并将得分最高的主题词作为本类别二级主题代表。

本步骤为主题过滤步骤。

二级分类由于没有现场的标签词,因此本发明实施例中进行二级划分后需要选出词汇代表作为该二级分类的标签。

针对前面的步骤获取的每个二级分类的主题词集,本发明进一步采用基于深度随机游走的词图模型对提取的关键词(主题)进行排序,根据主题词得分进行二级聚类主题标签词的筛选(或称过滤),将得分最高的一个主题词作为本二级类别的主题代表,从而得到每个领域下聚类后每个二级类别的主题词。本发明一实施例中,该深度随机游走的词图模型为文本排序算法(Textrank)模型。

本步骤中,以LDA2vec算法获取到的主题词集以及每个主题词的向量表示为基础,针对每篇文档已经获取到的主题词集,由主题词向量计算词汇相似度得到初始词汇间关系权重,使用TextRank根据词之间共现关系计算每个词的重要性,应用该算法原理,融入新定义的词汇间关系权重,构建词图然后采用共现关系构造任意两个节点之间的边;然后迭代计算各节点的权重直至收敛;最后对节点的权重进行排序得到最重要的t个主题,作为前t个(Top-t)关键词。从这多个主题中可进一步通过主题排序将排序第一的主题选出作为该文档的主题代表。

本步骤的算法原理如下:

每条数据中使用LDA2vec提取出的固定个数的主题词,把每个主题单词作为图的节点,单词之间余弦相似度数值作为图的节点间连接边的权重,每个节点连接边的权重值构造出图的矩阵表示:

其中,

虽然基于LDA模型就可以获得文档中各主题所占的权重,但是,该权重没有考虑词汇间的共现关系,如果单纯LDA模型中各主题所占的权重对主题进行排序将有一定的片面性,因此,本发明实施例中进一步采用TextRank模型来对对聚类后的每个二级类别的数据,用每篇文档的主题词集中的单词向量相似性计算得到的相似值表示词汇之间关系权重,以此权重作为Textrank的状态转移矩阵初始值来计算词汇的重要性得分,从而完成主题过滤。

在本发明一些实施方式中,所述方法还可包括:在主题词进行排序时,对高频无关性词汇建立词典进行过滤,得到最终的主题词排序。

该步骤进一步过滤掉了高频无关性词汇,进一步提高了主题排序的精准性。

在本发明一些实施方式中,所述方法还可包括:在预定时间段内统计提取出的主题词的词频,将提取的主题词结合时间序列来分析主题的演进规律。

分析演进规律是将大数据的分析结果在不同维度的演进变化发展趋势以及潜在规律进行图表化分析的过程。通过在时间序列上对其演变规律进行分析,绘制出主题演化趋势图,可直观展现科技需求主题提取结果的应用性,可以将分析出的精简信息结果直观呈现给科研人员,降低了科研人员获取信息的难度。通过将科技需求主题提取结果在时间维度上分析并展示给科研人员,可以把繁杂无章的科技需求凝练成重点信息和图表并展示给想了解自己感兴趣的行业领域中科技需求应用热点的科研人员。

如上所述本发明实施例的面向科技需求的主题提取方法,考虑了单词语义、上下文环境、需求标题与需求描述的结合,并补充需求标题主题,进行类别细分,进一步提高了科技资源信息主题发现的准确率。对于科技需求的主题提取效果以及各领域数据的二级分类主题差异度效果都有所提升。

本发明充分利用文本有效信息,针对需求标题与需求描述信息量不同,进行不同权重配比分别设定提取不同数量主题词,使得主题特征更加充分,提升聚类效果。

综上所述,本发明的针对科技需求的基于深度学习的主题提取方法使用主题提取相关算法设计框架对科技需求数据进行主题挖掘和主题分析,来获取各行业领域需求的主题,解决数据语义提取不准确的问题,并将分析出的精简信息结果直观呈现给科研人员,降低了科研人员获取信息的难度。进一步地,本发明针对科技需求文本数据的领域分类宽泛以及每个行业领域技术应用点有交叉性的特点,基于主题模型和关键词提取技术,解决了提取出的主题只考虑词汇语义和分布概率却未考虑词汇间关系的问题。

与上述方法相应地,本发明还提供了一种面向科技需求的主题提取装置,包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如前所述边缘计算服务器部署方法的步骤。

本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现前述边缘计算服务器部署方法的步骤。该计算机可读存储介质可以是有形存储介质,诸如光盘、U盘、软盘、硬盘等。

需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。

本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。

还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。

本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 面向科技需求的主题提取方法、装置和存储介质
  • 面向主题的新内容检索推送方法、装置、设备及存储介质
技术分类

06120113211789