掌桥专利:专业的专利平台
掌桥专利
首页

基于关键词提取的新技术查询推荐方法

文献发布时间:2023-06-19 09:58:59


基于关键词提取的新技术查询推荐方法

技术领域

本发明涉及新技术查询推荐技术领域,具体涉及一种基于关键词提取的新技术查询推荐方法。

背景技术

本发明的应用场景是:对于给定技术需求,对新技术进行搜索的场景。技术需求,是客户当前需要解决的技术问题。对于用户给定的技术需求,如何匹配对接新技术,以解决技术需求的对应问题。本发明的目的就在于:通过提取技术需求和新技术的关键词,进行查询推荐。为用户匹配出较为恰当的新技术。

在用户提供新技术介绍时,基本上不会提供关键词的介绍,通常需要技术审核人员对其进行人工手动处理,对相应技术的关键词提取、所属技术领域的确认(技术领域是平台规定的领域分类)。人工手动提取关键词,费时费力的同时还受到主观因素、人员本身的技术限制等个方面影响,可能会造成提取的关键词不正确或不完整的情况。对基于关键词的应用造成不良影响。

本发明采用关键词的方法,对接技术需求和新技术,提高对接的效率和精确度。

关键词提取,是为了从新技术介绍或技术需求中,选取出来能够表示新技术或技术需求的关键单词或术语。关键词自动提取,是依靠计算机从新技术介绍或技术需求中,自动选择能够表达主体内容的词语,为新技术或技术需求提供一个简短的概括,能够从大量的新技术中精准快速的为技术需求匹配相关联的新技术以及关联度较高的新技术。

对新技术关键词进行提取,并保存、使用。对用户的技术需求进行关键词提取后,查询新技术关键词中与之相同的关键词,并按照权重值(权重值计算在步骤分解部分),对技术需求匹配新技术。基于关键词提取的新技术查询推荐方法,其推荐的新技术与技术需求更加吻合,同时能够有效提高计算速度,减少人工参与。

发明内容

本发明的目的是:针对背景技术描述的问题,本发明提供一种基于关键词提取的新技术查询推荐方法,通过提取技术需求和新技术的关键词,进行查询推荐,为用户匹配出较为恰当的新技术。

为了解决上述问题,本发明所采用的技术方案是:

基于关键词提取的新技术查询推荐方法,其特征在于,包括如下步骤:

(1)准备阶段:新技术数据模型的准备;包括:

步骤1.1:对数据库中新技术和用户持续录入的新技术的标题和成果简介,分别提取关键词汇句子;

步骤1.2:对新技术标题和成果简介的关键词汇句子,分别提取关键词;

步骤1.3:统计新技术的关键词和对应词频;

步骤1.4:根据词频由高到低排序,确定最终提取前KT个新技术关键词和对应词频;

(2)运用阶段:根据技术需求匹配推荐新技术;

步骤2.1:根据用户当次输入的技术需求,对技术需求的标题和需求简介,提取关键词汇句子;

步骤2.2:对技术需求的标题和需求简介的关键词汇句子,分别提取关键词;

步骤2.3:统计技术需求的关键词和对应词频;

步骤2.4:根据词频由高到低排序,确定最终提取前KD个技术需求关键词和对应词频;

步骤2.5:计算技术需求与新技术之间基于关键词的匹配度FW;

步骤2.6:计算技术需求与新技术之间的匹配度不为0的新技术,与技术需求之间基于关键词的匹配率FR;

步骤2.7:根据用户的技术需求,按照FW进行由高到低排序以及FR进行由高到低排序;根据排序结果,为用户推荐新技术。

进一步的,针对(1)准备阶段:对新录入的新技术,需要经过准备阶段的步骤提取关键词,并将其和新技术同时存储在数据库中,为后面的计算提供依据;对已经存在数据库的新技术和关键词信息,则无需每次经过以上步骤进行重复计算,只需要在词库发生变化时,定期进行更新即可。

进一步的,所述步骤1.1:提取关键词汇句子,具体方法包括:利用结巴分词的分词模块函数,基于基本词库、停用词库,对新技术进行分词,保留部分词性的词语,作为下一步新技术的描述;保留的词性包括名词、动名词、英语、语素词;对于去掉的词性,具有可提取的意义时,采用两种方式对词库进行修改补充:(1)修改词性:对词语在词库中的词性,进行修改,定义词性为vnmd,作为专属提取词语;(2)添加词性:对于新技术各个领域的专有名词,添加到新建词性为mnmd的词性库中,对应词频设置为当前基本词库中的最大词频+1;步骤2.1的提取关键词汇句子的方法与步骤1.1的方法相同。

进一步的,所述步骤1.2:对新技术标题和成果简介的关键词汇句子,提取关键词,具体方法包括:利用结巴分词的分词模型函数,增加专属名词库、停用词库,对步骤1.1提取的关键词汇句子进行分词,积累新技术在各个领域当中的专属名词或术语,对基本词库或专属名词库进行补充;对于停用词库的补充,只对步骤1.2的停用词库进行补充;对于步骤1.1中未筛选成功的词语,添加到停用词库中,对这部分词语不添加在成功分词的词语当中;步骤2.2的对技术需求标题和需求简介的关键词汇句子,提取关键词的方法与步骤1.2的方法相同。

进一步的,所述步骤1.3:统计新技术的关键词和对应词频,具体方法包括:

对于步骤1.2中提取成功分词的词语,进行统计对应词语的词频;

在新技术关键词提取中,对新技术的标题和内容分别进行提取关键词;

新技术中关键词词频的最终确认方法为:

F

其中,F

步骤2.3的统计技术需求的关键词和对应词频的方法与步骤1.3的方法相同,区别仅在于技术需求中的默认无标题,只存在技术需求简介信息。

进一步的,所述步骤1.4:根据词频由高到低排序,确定最终提取前KT个新技术关键词和对应词频,具体方法包括:将步骤1.3提取的关键词,按照其计算的最终词频,由高到低进行排序,选择前KT个关键词作为新技术的关键词,进行保存,以及后续的使用,当关键词不足KT时,以关键词的实际个数为准;所述步骤2.4根据词频由高到低排序,确定最终提取前KD个技术需求关键词和对应词频的方法与步骤1.4的方法相同。

进一步的,所述步骤2.5:计算技术需求与新技术之间基于关键词的匹配度FW,具体方法包括:

设定每个新技术与技术需求的初始FW

统计每个新技术关键词与技术需求的关键词,重合的关键词个数m,则技术需求与新技术的关键词匹配度为:FW

进一步的,所述步骤2.6:计算关键词的匹配率,具体方法包括:

计算新技术与技术需求FW≠0的新技术与技术需求之间的关键词匹配率FR;

其中,FR

即:

其中,FD表示技术需求的关键词的词频总和,F

进一步的,所述步骤2.7:新技术推荐排序,具体方法包括:

按照技术需求与新技术的关键词匹配度FW,进行由高到低,对新技术进行排序;

当FW=0时,即不对新技术进行推荐;

对FW≠0的新技术与技术需求之间的关键词匹配率FR,在FW排序的基础上,即对于FW值相同的情况,按照新技术与技术需求之间的关键词匹配率FR,由高到低进行排序;

经过FW和FR排序之后的排序结果,即为最终的推荐排列顺序。

进一步的,所述方法还包括:对基本词库、专属名词库、停用词库的维护,具体方法包括:

基本词库的维护:对于词语分词之后的结果为:部分或前部丢失,即将该词语维护至基本词库,并根据词语的成词的概率,设定其词频;

专属名词库的维护:对于词语分词之后的结果为:分词成两个或以上词语,即将该词语维护至专属名词库;

停用词库的维护:对于某些出现在新技术或技术需求中的词语,由于词语描述的普遍性,导致词频过高,影响关键词提取的词语,将该词语维护至停用词库中。

本发明实施例提供的上述技术方案的有益效果至少包括:本发明的基于关键词提取的新技术查询推荐方法的有益效果包括:

(1)能够客观有效的提取新技术和技术需求中的关键词,消除描述信息中冗余词汇。

(2)词库扩展性、可维护性较强。

(3)技术需求与新技术的匹配度较高。

(4)提高技术需求与新技术的匹配速度,减少人工参与。

(5)为新技术的查询推荐,提供关键词维度的查询搜索,不单纯依赖于平台标签,解决技术领域跨度较多的新技术的搜索问题。

(6)提取的关键词,为其他进一步应用奠定了基础,如新技术所属应用领域的自动划分等。

本发明提供了一种较为恰当的新技术查询推荐方法,同时具备比较完善的基础词库、停用词库、专属名词库。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

图1为本发明实施例公开的基于关键词提取的新技术查询推荐方法的流程图。

具体实施例

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供一种基于关键词提取的新技术查询推荐方法,所述新技术查询推荐方法分为两个阶段,准备阶段和运用阶段。准备阶段:新技术数据模型的准备;运用阶段:根据技术需求匹配推荐新技术。各阶段主要包括如下步骤:

(1)准备阶段:新技术数据模型的准备

步骤1.1:对数据库中新技术和用户持续录入的新技术的标题和成果简介,分别提取关键词汇句子。

步骤1.2:对新技术标题和成果简介的关键词汇句子,分别提取关键词。

步骤1.3:统计新技术的关键词和对应词频。

步骤1.4:根据词频由高到低排序,确定最终提取前KT个新技术关键词和对应词频。

注意:对新录入的新技术,需要经过以上步骤提取关键词等,并将其和新技术同时存储在数据库中,为后面的计算提供依据。对已经存在数据库的新技术和关键词等信息,无需每次经过以上步骤进行重复计算,只需要在词库发生变化时,定期进行更新即可。

(2)运用阶段:根据技术需求匹配推荐新技术

步骤2.1:根据用户当次输入的技术需求,对技术需求的标题和需求简介,提取关键词汇句子。

步骤2.2:对技术需求的标题和需求简介的关键词汇句子,分别提取关键词。

步骤2.3:统计技术需求的关键词和对应词频。

步骤2.4:根据词频由高到低排序,确定最终提取前KD个技术需求关键词和对应词频。

步骤2.5:计算技术需求与新技术之间基于关键词的匹配度。

步骤2.6:计算技术需求与新技术之间的匹配度不为0的新技术,与技术需求之间基于关键词的匹配率。

步骤2.7:根据用户的技术需求,为用户推荐新技术。

下面对本发明实施例提供的基于关键词提取的新技术查询推荐方法进行详细说明:

Part1:对新技术的标题和成果简介,以及技术需求的标题和需求简介分别提取关键词。以下以新技术提取关键词为例进行说明,技术需求关键词的方法与之相同。

步骤一:提取关键词汇句子(对应于步骤1.1,步骤2.1的方法与之相同)。

利用结巴分词的分词模块函数jieba.posseg.cut(),基于基本词库(基本词库中包含词语、词频、词性)、停用词库(筛选掉一部分无用的且在保留词性的词语),对新技术进行分词,保留部分词性的词语,作为下一步新技术的描述进行使用。保留的词性包括,名词、动名词、英语、语素词等。

其中对于某些去掉的词性中,仅有几个多较少的词语,具有可提取的意义时,两种方式对词库进行修改补充。

(1)修改词性:对词语在词库中的词性,进行修改,定义词性为vnmd(柠檬豆平台动词专属),作为专属提取词语。如,制造,原词性为动词,而大部分动词不具备描述新技术的能力,但小部分如制造这类的动词词语,能够描述行业,制造行业的一个词语,因此将此类词语修改词性为vnmd。

(2)添加词性:对于新技术各个领域的专有名词,利用基础词库进行分割时,分割过于分散,如鹿血肽,利用带有词性属性的词库进行分词时,原始词性分词为:鹿,名词n;血,名词n;肽,名词性语素ng。将鹿血肽,添加到新建词性为mnmd(柠檬豆平台医药专属)的词性库中,对应词频设置为当前基本词库中的最大词频+1,以保证当前新添词语在结巴分词计算时在成词的概率较高,增强歧义纠错能力。

步骤二:对新技术标题、成果简介以及技术需求标题和需求简介的关键词汇句子,提取关键词(对应于步骤1.2以及步骤2.2)。

利用结巴分词的分词模型函数jieba.cut(),增加专属名词库、停用词库,对步骤一提取的关键词汇句子进行分词,在实际应用过程中,积累新技术在各个领域当中的专属名词或术语,对基本词库或专属名词库进行补充;对于停用词库的补充,只对步骤二的停用词库进行补充即可。对于步骤一中未筛选成功的词语,添加到停用词库中,对这部分词语不添加在成功分词的词语当中。

步骤三:统计新技术或技术需求的关键词和对应词频,以下以新技术为例(对应于步骤1.3,步骤2.3的方法与之相同)。

对于步骤二中提取成功分词的词语,进行统计对应词语的词频。

在新技术关键词提取中,对新技术的标题和内容分别进行提取关键词。

新技术中关键词词频的最终确认方法为:

F

其中,F

步骤四:根据新技术或技术需求的词频排序确认最终关键词(对应于步骤1.4以及步骤2.4)

将步骤三提取的关键词,按照其计算的最终词频,由高到低进行排序。选择前K个关键词作为新技术的关键词,进行保存,以及后续的使用,当关键词不足K个时,以关键词的实际个数为准。暂定关键词个数K=10,后期可根据使用情况,对其进行调整。(注意:新技术的关键词个数与技术需求的关键词提取个数,根据各自的需求,进行各自设定。)

注意:新技术的关键词提取之后,保存关键词以及相应词频,在基本词库、专属名词库、停用词库发生变化时,可定时或手动设定,对新技术的关键词进行更新,无需每次新技术查询时,重新提取使用。技术需求的关键词,即提即用,保证及时性。

Part2:技术需求与新技术,匹配对接

用户输入技术需求时,对新技术提取关键词后,进行新技术的查询、匹配对接。

步骤一:计算关键词匹配度(对应于步骤2.5)。

技术需求与新技术的关键词匹配度FW。

(1)设定每个新技术与技术需求的初始FW

步骤二:计算关键词匹配率(对应于步骤2.6)。

计算新技术与技术需求FW≠0的新技术与技术需求之间的关键词匹配率FR。

其中,FR

即:

其中,FD表示技术需求的关键词的词频总和,F

步骤三:新技术推荐排序(对应于步骤2.7)。

(1)按照技术需求与新技术的关键词匹配度FW,进行由高到低,对新技术进行排序。

(2)当FW=0时,即不对新技术进行推荐。

(3)对FW≠0的新技术与技术需求之间的关键词匹配率FR,在FW排序的基础上,即对于FW值相同的情况,按照新技术与技术需求之间的关键词匹配率FR,由高到低进行排序。

(4)经过FW和FR排序之后的排序结果,即为最终的推荐排列顺序。

Part3:基本词库、专属名词库、停用词库的维护

(1)基本词库的维护:对于词语分词之后的结果为:部分或前部丢失,即将该词语维护至基本词库,并根据词语的成词的概率,设定其合适的词频。如(1)鹿血肽,这种生物领域的专属名词,应添加到新建词性为mnmd的词性库中,对应词频设置为当前基本词库中的最大词频+1,以保证当前新添词语在结巴分词计算时在成词的概率较高,增强歧义纠错能力。(2)制造,因为提取动词而提取失败,则修改制造的词性为vnmd,不对词频对修改。对于词语的添加、修改,词性的增加或修改,均需通过专家审核,才能确认词语是否允许添加或修改,维护基本词库。

(2)专属名词库的维护:对于词语分词之后的结果为:分词成两个或以上词语,即将该词语维护至专属名词库。如(1)三维模型,其分词结果为三维、模型,但根据其专业领域知识,该词语为专有名词,即将其维护至专属名词库,使其分词结果为三维模型。(2)水痘疫苗,其分词结果为水痘、疫苗,若需关键词结果更加精准,查询推荐结果更加精确,则将水痘疫苗维护至专属名词库;若对关键词提取结果可稍微放松,因为技术之间可能存在借鉴性或可移植性,即关于水痘和疫苗或水痘或疫苗的新技术均可作为推荐的新技术,则不对水痘疫苗进行维护。对于专有词语的添加、修改,均需通过专家审核,才能确认词语是否允许添加或删除,维护专属名词库。

(3)停用词库的维护:仅需要对part1步骤二中的停用词库进行维护。对于某些可能出现在新技术或技术需求中的词语,由于词语描述的普遍性,导致词频过高,影响关键词提取的词语,将该词语维护至停用词库中。如:(1)课题,该词不具备概述新技术或技术需求的能力,即将该词添加至停用词库中。对于停用词的添加和删除,均需通过专家审核,才能确认是否允许添加或删除,维护至停用词库。

注意:目前,平台关键词提取使用的基本词库、专属名词库、停用词库,均通过了一段时间和5000多条新技术和技术需求中,词语的补充和修改、删除等。已经具备一定的分词能力,并能保证一定的准确率。后期会根据实际的使用情况,对基本词库、专属名词库、停用词库,持续进行维护和更新。

Part4:基本词库、专属名词库、停用词库的词语来源

(1)由技术审核人员,定期定时对新的技术需求和新技术的关键词提取结果,进行查看分析,并确定关键词提取是否存在维护需要,由于技术领域的发展进步,会不断出现新的技术名词或术语,所以存在长期维护的必要性。

(2)由用户进行提出意见。可向自主上传新技术和技术需求的用户,展示其关键词提取的结果,增加人工补充填写关键词的功能,以此向用户收集相应新技术和技术需求的重要关键词语。收集完成后,由平台审核人员对词语进行评估,并对词库进行维护。

具体实施例:

例:1、以下有新技术十项(有用户自行填写或工作人员整理填写),其内容如下所示:

2、新技术标题,提取关键词并统计词频:

注意:对于关键词提取的部分,会根据各个词库的更新、补充、迭代,发生相应的变化和调整,所以以下提取关键词的部分,非最终效果,只作为案例展示相应计算过程。

3、新技术成果简介,提取关键词并统计词频:

4、新技术词频统计:

5、技术需求与新技术之间的匹配率。

若用户输入技术需求1:我需要一种关于石墨烯的制备技术。

(1)技术需求关键词提取:

(2)计算匹配率:

(3)推荐排序:

应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。

在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。

本领域技术人员还应当理解,结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性,上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件,取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用,以变通的方式实现所描述的功能,但是,这种实现决策不应解释为背离本公开的保护范围。

结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然,处理器和存储介质也可以作为分立组件存在于用户终端中。

对于软件实现,本申请中描述的技术可用执行本申请所述功能的模块(例如,过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内,也可以实现在处理器外,在后一种情况下,它经由各种手段以通信方式耦合到处理器,这些都是本领域中所公知的。

上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

相关技术
  • 基于关键词提取的新技术查询推荐方法
  • 基于关键词提取的对象查询方法、装置、介质与设备
技术分类

06120112369541