掌桥专利:专业的专利平台
掌桥专利
首页

基于技术需求和新技术相似度的查询推荐方法

文献发布时间:2023-06-19 09:46:20


基于技术需求和新技术相似度的查询推荐方法

技术领域

本发明涉及新技术查询推荐技术领域,具体涉及一种基于技术需求和新技术相似度的查询推荐方法。

背景技术

本发明的应用场景是:对于给定技术需求,对新技术进行搜索的场景。技术需求,是客户当前需要解决的技术问题。对于用户给定的技术需求,如何匹配对接新技术,以解决技术需求的对应问题。

依靠计算机从新技术介绍或技术需求的自主介绍,计算技术需求与新技术之间的相似程度,能够从大量的新技术中精准快速的为技术需求匹配相关联的新技术以及相似程度较高的新技术。

在用户提供新技术介绍时,基本上不会提供关键词的介绍,通常需要技术审核人员对其进行人工手动处理,对相应技术的关键词提取、所属技术领域的确认(技术领域是平台规定的领域分类)。人工手动提取关键词,费时费力的同时还受到主观因素、人员本身的技术限制等个方面影响,可能会造成提取的关键词不正确或不完整的情况。对基于关键词的应用造成不良影响。

本发明采用计算技术需求与新技术之间的相似程度的方法,对接技术需求和新技术,提高对接的效率和精确度。

发明内容

本发明的目的是:针对背景技术描述的问题,本发明提供一种基于技术需求和新技术相似度的查询推荐方法,采用计算技术需求与新技术之间的相似程度的方法,对接技术需求和新技术,提高对接的效率和精确度。

为了解决上述问题,本发明所采用的技术方案是:

基于技术需求和新技术相似度的查询推荐方法,其特征在于,包括如下步骤:

(1)准备阶段:新技术数据模型的准备;包括

步骤1.1:对数据库中新技术和用户持续录入的新技术的标题和成果简介,分别提取关键词汇句子;

步骤1.2:对新技术标题和成果简介的关键词汇句子,分别提取关键词;

步骤1.3:统计新技术的关键词和对应词频;

步骤1.4:计算新技术中关键词对应的逆向文件频率IDE;

步骤1.5:计算新技术中关键词的加权词频;

步骤1.6:根据新技术中关键词的加权词频由高到低排序,确定提取前KT个新技术关键词;

(2)运用阶段:根据技术需求匹配推荐新技术;包括:

步骤2.1:对用户输入的技术需求的标题和需求简介,分别提取关键词汇句子;

步骤2.2:对技术需求标题和需求简介的关键词汇句子,分别提取关键词;

步骤2.3:统计技术需求的关键词和对应词频;

步骤2.4:计算技术需求中关键词对应的逆向文件频率IDE;

步骤2.5:计算技术需求中关键词的加权词频;

步骤2.6:根据技术需求中关键词的加权词频,确定提取前KD个技术需求关键词;

步骤2.7:确定技术需求与新技术之间的关键词集合;

步骤2.8:由技术需求和新技术之间的关键词集合,确定技术需求与新技术之间的文本向量;

步骤2.9:根据技术需求与新技术之间的文本向量,确定技术需求和新技术之间的词向量;

步骤2.10:对技术需求与新技术之间的词向量进行相似度计算;

步骤2.11:根据相似度由高到低排序,并为用户推荐新技术。

进一步的,针对(1)准备阶段:对新录入的新技术,需要经过准备阶段的步骤提取关键词,并将其和新技术同时存储在数据库中,为后面的计算提供依据;对已经存在数据库的新技术和关键词信息,则无需每次经过以上步骤进行重复计算,只需要在词库发生变化时,定期进行更新即可。

进一步的,所述步骤1.1:提取关键词汇句子,具体方法包括:利用结巴分词的分词模块函数,基于基本词库、停用词库,对新技术成果简介进行分词,保留部分词性的词语,作为下一步新技术成果简介的描述;保留的词性包括名词、动名词、英语、语素词;对于去掉的词性,具有可提取的意义时,采用两种方式对词库进行修改补充:(1)修改词性:对词语在词库中的词性,进行修改,定义词性为vnmd,作为专属提取词语;(2)添加词性:对于新技术各个领域的专有名词,添加到新建词性为mnmd的词性库中,对应词频设置为当前基本词库中的最大词频+1;步骤2.1的提取关键词汇句子的方法与步骤1.1的方法相同。

进一步的,所述步骤1.2:对新技术标题和成果简介的关键词汇句子,提取关键词,具体方法包括:利用结巴分词的分词模型函数,增加专属名词库、停用词库,对步骤1.1提取的关键词汇句子进行分词,积累新技术在各个领域当中的专属名词或术语,对基本词库或专属名词库进行补充;对于停用词库的补充,只对步骤1.2的停用词库进行补充;对于步骤1.1中未筛选成功的词语,添加到停用词库中,对这部分词语不添加在成功分词的词语当中;步骤2.2的对技术需求标题和需求简介的关键词汇句子,提取关键词的方法与步骤1.2的方法相同。

进一步的,所述步骤1.3:统计新技术的关键词和对应词频,具体方法包括:

对于步骤1.2中提取成功分词的词语,进行统计对应词语的词频;

在新技术关键词提取中,对新技术的标题和成果简介分别进行提取关键词;

新技术中关键词词频的最终确认方法为:

F

其中,F

步骤2.3的统计技术需求的关键词和对应词频的方法与步骤1.3的方法相同,区别仅在于技术需求中的默认无标题,只存在技术需求简介信息。

进一步的,所述步骤1.4:计算新技术中关键词对应的逆向文件频率IDE,具体方法包括:

其中,E

其中通过IDE的计算,能够补充停用词汇的词库,关键词的IDE越趋近0,则该关键词对描述的区分性越差,即能够通过IDE的值,判断该词作为停用词汇的可能性,IDE越小,越趋近0,则该词作为停用词汇的可能性越大。

所述步骤2.4计算技术需求中关键词对应的逆向文件频率IDE的方法与步骤1.4的方法相同。

进一步的,所述步骤1.5:计算新技术中关键词的加权词频,具体方法包括:

FE

其中,FE

所述步骤2.5计算技术需求中关键词的加权词频的方法与步骤1.5的方法相同。

进一步的,所述步骤1.6:根据新技术中关键词的加权词频由高到低排序,确定提取前KT个新技术关键词,具体方法包括:

根据关键词的加权词频进行由大到小排序,提取前KT个关键词,作为新技术的关键词;

所述步骤2.6根据技术需求中关键词的加权词频由高到低排序,确定提取前KD个技术需求关键词与步骤1.6的方法相同。

进一步的,所述步骤2.7:确定技术需求与新技术之间的关键词集合,具体方法包括:

通过关键词提取;假设用户给定的技术需求提取的关键词集合为:

D=[d

其中,D为由技术需求提取的关键词集合;d

新技术提取的关键词集合为:

T=[T

其中,T,为新技术关键词集合;T

T

其中,t

所述步骤2.8:由技术需求和新技术之间的关键词集合,确定技术需求与新技术之间的文本向量,具体方法包括:

V=[V

V

其中,V,是技术需求与新技术进行相似度计算的词向量矩阵;V

所述步骤2.9:根据技术需求与新技术之间的文本向量,确定技术需求和新技术之间的词向量,具体方法包括:

技术需求D与新技术T

VD

VT

其中,VD

进一步的,所述步骤2.10:对技术需求与新技术之间的词向量进行相似度计算,具体方法包括:

S=[S

其中,S,表示技术需求与新技术的相似度矩阵;S

所述步骤2.11:根据相似度由高到低排序,并为用户推荐新技术,具体方法包括:

根据相似度矩阵S,由大到小排序,该排列顺序,即为该技术需求查询新技术时,新技术显示的排列顺序;排序越靠前的新技术与技术需求之间的相似程度越高,即该新技术越符合技术需求的要求;排序越靠后的新技术与技术需求之间的相似程度越低,即该新技术越不符合技术需求的要求。

本发明实施例提供的上述技术方案的有益效果至少包括:本发明的基于技术需求和新技术相似度的查询推荐方法的有益效果包括:

(1)能够客观有效为技术需求匹配新技术,匹配度提高,匹配结果较为客观。

(2)为新技术的查询推荐,降低对停用词的敏感性,不单纯依赖于平台标签,解决技术领域跨度较多的新技术的搜索问题。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

图1为本发明实施例公开的基于技术需求和新技术相似度的查询推荐方法的流程图。

具体实施例

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供一种基于技术需求和新技术相似度的查询推荐方法,所述查询推荐方法分为两个阶段,准备阶段和运用阶段。准备阶段:新技术数据模型的准备;运用阶段:根据技术需求匹配推荐新技术。各阶段主要包括如下步骤:

(1)准备阶段:新技术数据模型的准备

步骤1.1:对数据库中新技术和用户持续录入的新技术的标题和成果简介,分别提取关键词汇句子。

步骤1.2:对新技术标题和成果简介的关键词汇句子,分别提取关键词。

步骤1.3:统计新技术的关键词和对应词频。

步骤1.4:计算新技术中关键词对应的逆向文件频率(IDE)。

步骤1.5:计算新技术中关键词的加权词频。

步骤1.6:根据新技术中关键词的加权词频由高到低排序,确定提取前KT个新技术关键词。

注意:对新录入的新技术,需要经过以上步骤提取关键词等,并将其和新技术同时存储在数据库中,为后面的计算提供依据。对已经存在数据库的新技术和关键词等信息,无需每次经过以上步骤进行重复计算,只需要在词库发生变化时,定期进行更新即可。

(2)运用阶段:根据技术需求匹配推荐新技术

步骤2.1:对用户输入的技术需求的标题和需求简介,分别提取关键词汇句子。

步骤2.2:对技术需求标题和需求简介的关键词汇句子,分别提取关键词。

步骤2.3:统计技术需求的关键词和对应词频。

步骤2.4:计算技术需求中关键词对应的逆向文件频率(IDE)。

步骤2.5:计算技术需求中关键词的加权词频。

步骤2.6:根据技术需求中关键词的加权词频,确定提取前KD个技术需求关键词。

步骤2.7:确定技术需求与新技术之间的关键词集合。

步骤2.8:由技术需求和新技术之间的关键词集合,确定技术需求与新技术之间的文本向量。

步骤2.9:根据技术需求与新技术之间的文本向量,确定技术需求和新技术之间的词向量。

步骤2.10:对技术需求与新技术之间的词向量进行相似度计算。

步骤2.11:根据相似度由高到低排序,并为用户推荐新技术。

下面结合具体实施例对本发明提供的基于技术需求和新技术相似度的查询推荐方法进行详细说明:

步骤一:对新技术标题、成果简介和技术需求的标题、需求简介,提取关键词汇句子。下面以新技术成果简介为例进行说明(对应于步骤1.1,步骤2.1的方法与之相同)。

利用结巴分词的分词模块函数jieba.posseg.cut(),基于基本词库(基本词库中包含词语、词频、词性)、停用词库(筛选掉一部分无用的且在保留词性的词语),对新技术成果简介进行分词,保留部分词性的词语,作为下一步新技术成果简介的描述进行使用。保留的词性包括,名词、动名词、英语、语素词等。

其中对于某些去掉的词性中,仅有几个多较少的词语,具有可提取的意义时,两种方式对词库进行修改补充。

(1)修改词性:对词语在词库中的词性,进行修改,定义词性为vnmd(柠檬豆平台动词专属),作为专属提取词语。如,制造,原词性为动词,而大部分动词不具备描述技术需求的能力,但小部分如制造这类的动词词语,能够描述行业,制造行业的一个词语,因此将此类词语修改词性为vnmd。

(2)添加词性:对于技术需求各个领域的专有名词,利用基础词库进行分割时,分割过于分散,如鹿血肽,利用带有词性属性的词库进行分词时,原始词性分词为:鹿,名词n;血,名词n;肽,名词性语素ng。将鹿血肽,添加到新建词性为mnmd(柠檬豆平台医药专属)的词性库中,对应词频设置为当前基本词库中的最大词频+1,以保证当前新添词语在结巴分词计算时在成词的概率较高,增强歧义纠错能力。

举例:

原始描述:光触媒是一种具有光催化功能的光半导体无机纳米材料,是当前国际上治理室内环境污染的最理想材料。当受到光线照射时,其内部由于吸收光能而激发产生电子,并迅速激活表面吸附的水和氧,产生活性自由氢氧基和活性氧,将空气中的有机污染物彻底氧化分解为无污染的水和二氧化碳,从而达到净化空气的目的。

提取关键词汇句子:光触媒是光催化功能光半导体无机纳米材料,治理环境污染理想材料。光线时,光能产生电子,表面吸附水和氧,产生活性氢氧基和活性氧,空气有机污染物氧化分解水和二氧化碳,净化空气。

步骤二:对新技术标题、成果简介以及技术需求的标题、需求简介的关键词汇句子,提取关键词(对应于步骤1.2以及步骤2.2)。以新技术成果简介关键词句子为例进行说明。

利用结巴分词的分词模型函数jieba.cut(),增加专属名词库、停用词库,对步骤一提取的新技术成果简介的关键词汇句子进行分词,在实际应用过程中,积累在新技术涉及到的各个领域当中的专属名词或术语,对基本词库或专属名词库进行补充;对于停用词库的补充,只对步骤二的停用词库进行补充即可。对于步骤一中未筛选成功的词语,添加到停用词库中,对这部分词语不添加在成功分词的词语当中。

举例:

关键词汇句子:石墨烯快速制备技术

提取的关键词:石墨烯、制备

步骤三:统计新技术或技术需求的关键词词频,以新技术为例进行说明(对应于步骤1.3,步骤2.3的方法与之相同)。

对于步骤二中新技术标题和成果简介中提取成功分词的词语,进行统计对应词语的词频。

在新技术关键词提取中,对新技术的标题和成果简介分别进行提取关键词。新技术中关键词词频的最终确认方法为:

F

其中,F

举例:

步骤四:计算新技术或技术需求中关键词对应的逆向文件频率(IDE)(对应于步骤1.4以及步骤2.4)。

IDE,一个词语普遍重要性的度量。能够在一定程度上,减小停用词库的压力。其中,E

举例:

假设下表中的关键词,技术数量为出现当前关键词的新技术的数量,总数为当前数据库中的新技术总数,计算对应的IDE如下表所示。

其中通过IDE的计算,可以补充停用词汇的词库,关键词的IDE越趋近0,则该关键词对描述的区分性越差,即可以通过IDE的值,判断该词作为停用词汇的可能性,IDE越小,越趋近0,则该词作为停用词汇的可能性越大。

步骤五:计算新技术或技术需求的关键词的加权词频,以计算新技术的关键词的加权词频为例(对应于步骤1.5,步骤2.5的方法与之相同)。

FF

其中,FE

举例:

假设关键词对应的词频、和其对应的IDE值,同时给出关键词的加权词频,如下表所示:

步骤六:根据新技术或技术需求的加权词频由高到低排序,确定最终提取关键词(对应于步骤1.6以及步骤2.6)。

根据关键词的加权词频进行由大到小排序,提取前K个关键词,作为新技术或技术需求的关键词。其中,新技术提取的关键词个数由KT表示,技术需求提取的关键词个数由KD表示。暂定KT=10,KD=10,根据应用情况,对KT和KD进行恰当的调整,以获得更加精准的描述新技术或技术需求的关键词。

步骤七:技术需求和新技术之间的相似度计算。

(1)确定技术需求与新技术之间的关键词集合(对应于步骤2.7)。

通过关键词提取。假设用户给定的技术需求提取的关键词集合为:

D=[d

其中,D为由技术需求提取的关键词集合;d

新技术提取的关键词集合为:

T=[T

其中,T,为新技术关键词集合;T

T

其中,t

(2)由技术需求和新技术之间的关键词集合,确定技术需求与新技术之间的文本向量(对应于步骤2.8)。

V=[V

V

其中,V,是技术需求与新技术进行相似度计算的词向量矩阵;V

(3)根据技术需求与新技术之间的文本向量,确定技术需求和新技术之间的词向量(对应于步骤2.9)。

技术需求D与新技术T

VD

VT

其中,VD

(4)对技术需求与新技术之间的词向量进行相似度计算(对应于步骤2.10)。

S=[S

其中,S,表示技术需求与新技术的相似度矩阵;S

(5)根据相似度由高到低排序,并为用户推荐新技术(对应于步骤2.11)。

根据相似度矩阵S,由大到小排序,该排列顺序,即为该技术需求查询新技术时,新技术显示的排列顺序。排序越靠前的新技术与技术需求之间的相似程度越高,即该新技术越符合技术需求的要求;排序越靠后的新技术与技术需求之间的相似程度越低,即该新技术越不符合技术需求的要求。

举例:新技术和技术需求之间的相似度计算:

(1)假设技术需求的关键词为:

技术需求为:我需要一种用于家电的石墨烯涂层。

提取关键词为:

(2)新技术1和技术需求的文本向量为:

新技术2和技术需求的文本向量为:

(3)新技术1和技术需求的词向量为:

VD

新技术2和技术需求的词向量为:

VD

(4)新技术1和技术需求的相似度:

新技术2和技术需求的相似度:

即,新技术1和技术需求的相似度高,新技术2和技术需求的相似度低,在相似度排序推荐时,新技术1的位置靠前,首先为用户推荐。

应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。

在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。

本领域技术人员还应当理解,结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性,上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件,取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用,以变通的方式实现所描述的功能,但是,这种实现决策不应解释为背离本公开的保护范围。

结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然,处理器和存储介质也可以作为分立组件存在于用户终端中。

对于软件实现,本申请中描述的技术可用执行本申请所述功能的模块(例如,过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内,也可以实现在处理器外,在后一种情况下,它经由各种手段以通信方式耦合到处理器,这些都是本领域中所公知的。

上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

相关技术
  • 基于技术需求和新技术相似度的查询推荐方法
  • 基于语义相似度与时效性频率的查询推荐排序方法与装置
技术分类

06120112291629