基于大语言模型的关键词生成与兜底方法
文献发布时间:2024-04-18 19:59:31
技术领域
本发明属于人工智能领域,特别涉及基于大语言模型的关键词生成与兜底方法。
背景技术
目前,关键词生成与提取在信息检索、内容摘要和文本分析等领域中具有广泛的应用。传统的关键词生成方法主要基于统计和机器学习技术,通过分析文本的频率、共现和相关性等特点来提取关键词。这些方法虽然在一些场景中效果不错,但往往无法充分捕捉文本的深层含义和语义关联,从而导致关键词的准确性和相关性有所欠缺。
与本申请最为接近的现有技术可能是基于深度学习的关键词生成方法。这类方法通常采用诸如BERT、Word2Vec等预训练模型,结合特定的训练数据和优化策略来生成关键词。然而,这些方法通常仅关注于生成关键词本身,缺乏对关键词格式、数量和多样性的有效控制,也没有集成有效的兜底策略来处理生成失败的情况。
因此,现有技术虽然在关键词生成方面取得了一定进展,但仍存在关键词与文本内容的匹配度、数量的合理性及生成失败的兜底处理等方面的不足。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于大语言模型的关键词生成与兜底方法,能够快速生成符合预设格式和数量且相关性强的关键词,还能够兜底以保证关键词的生成。
技术方案:为实现上述目的,本发明的技术方案如下:
基于大语言模型的关键词生成与兜底方法,包括以下步骤:
S1:设计prompt并定义重复生成规则:
设计Prompt:定义两个Prompt,每个Prompt均能够表达文章的主要内容和目的,用于引导大型语言模型按照预设格式生成相关的一级关键词;
重复生成规则:每个Prompt最多重复执行预设次数的一级关键词生成步骤,如果当前所用的Prompt在预设次数内都生成失败,则更换到另一个兜底备用的Prompt;
S2:判断当前所用的Prompt的执行次数是否已达到预设次数,如果没达到预设次数则继续重复执行一级关键词生成步骤直至达到预设次数;
S3:检查生成的一级关键词是否达到预设数量,如果生成的一级关键词没有达到预设数量则重新执行步骤S2,此时兜底备用的Prompt作为当前所用Prompt,重复执行直至达到预设次数;
S4:判断生成一级关键词的数量,如果生成的一级关键词达到了预设数量则自行生成二级关键词;
如果生成的一级关键词超过了预设数量则进行关键词筛选后再生成二级关键词;
S5:得到的二级关键词并作为关键词结果进行输出。
进一步地,在步骤S4中,当生成的一级关键词超过了预设数量时,所述关键词筛选包含以下步骤:
S21:获取已经生成且超出预设数量的一级关键词列表;
S22:对一级关键词列表中的每个一级关键词分别进行向量化表示;
S23:按照每个文本片段包含不超过预设字数长度的方式进行切分,生成多个文本片段;
S24:对每个片段进行向量化并获得向量化表示;
S25:将向量化的一级关键词与向量化的文本片段进行比较;从一级关键词的向量中选择出相关性高且多样性强的前若干个一级关键词进行组合,得到若干个二级关键词。
进一步地,在步骤S4中,当生成的一级关键词不超过预设数量时,生自行成二级关键词的步骤包括:
S31:分词并生成候选关键词:对资讯文本进行切分,生成多个文本片段,分别对各文本片段进行分词,并移除停用词,且创建1-2gram词组作为待选关键词;
其中,1gram为分词后形成的每个词;2gram为与1gram在语序上相近且靠后的词;则1-2gram词组为在语序上相邻的两个词的组合;
S32:对待选关键词进行关键词向量化并获得向量表示;
S33:按照每个文本片段包含不超过预设字数长度的方式进行切分,生成多个文本片段;
S34:对每个文本片段进行向量化并获得向量化表示;
S35:将向量化的候选关键词与向量化的文本片段进行比较;从候选关键词的向量中选择出相关性高且多样性强的前若干个一级关键词进行组合,得到若干个二级关键词。
进一步地,对每个一级关键词和文本片段均使用PromCSE-BERT模型获得其cls向量表示。
进一步地,向量化公式描述如下:
首先,表示第i个片段通过PromCSE-BERT获得的cls向量为h
然后,对所有片段的cls向量进行Max-Pooling,得到汇总的向量表示h
其中,max表示逐元素地选择最大值操作,第i个片段定义为S
最终,h
h
h
进一步地,使用余弦相似度度量方法和MMR算法,从向量中选择出相关性高且多样性强的前若干个关键词进行组合。
进一步地,所述MMR算法的计算公式为:
MMR(c)=(1-diversity)·Sim(c,q)-diversity·max
其中:c表示待选择的关键词;t表示最相关的关键词;T表示关键词的集合;q表示资讯的向量;Sim(c,q)表示关键词c与资讯向量q之间的相似度;Sim(c,t)表示关键词c与其他关键词t之间的相似度;diversity表示用于平衡相关性和多样性的权重参数,取值范围为0-1。
进一步地,所述diversity取值范围为0.4±0.1。
进一步地,拼接Prompt并生成一级关键词,将Prompt和资讯拼接,通过大型语言模型生成一级关键词列表。
进一步地,两个Prompt分别为:
基于文章内容,生成A个关于文章内容的关键词;请使用列表格式输出;列表的格式为["关键词1","关键词2","关键词3",……,"关键词A"];请在此确认关键词的数量为A个,并且严格按照所给的列表格式输出;
基于文章内容,构建一个包含文章要旨的关键词清单,采用Python列表形式进行输出;列表的构成为["要旨1","要旨2","要旨3",……,"要旨A"];请确认要旨数量为A个,并且切实遵循所给的列表格式进行呈现。
有益效果:本发明通过集成大型语言模型、向量化模型和多样性算法,实现一种灵活和高效的关键词生成与筛选方案。本方案应能充分捕捉文本的深层含义和语义关联,确保生成的关键词与文章内容高度相关。同时,还能解决关键词格式、数量的准确控制问题,包括对生成关键词的格式检测、数量检测、多样性保证及生成失败的兜底处理等。
附图说明
附图1为本发明的系统方法框图;
附图2为本发明的系统流程示意图;
附图3为本发明的关键词筛选流程示意图;
附图4为本发明的自行生成关键的流程示意图;
附图5为本发明的关键词结果与现有技术关键词结果的关键词生成对比图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。
在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
下面结合附图和实施例,对本发明的具体实施方式进一步详细描述。
如附图1和附图2所示,基于大语言模型的关键词生成与兜底方法,包括以下步骤:
S1:设计prompt并定义重复生成规则:
设计Prompt:定义两个Prompt,每个Prompt均能够表达文章的主要内容和目的,用于引导大型语言模型按照预设格式生成相关的一级关键词;
重复生成规则:每个Prompt最多能够重复执行预设次数的一级关键词生成步骤,如果当前所用的Prompt在预设次数内都生成失败,则更换到另一个兜底备用的Prompt;
具体的,两个Prompt分别为:
“基于文章内容,生成A个关于文章内容的关键词;请使用列表格式输出;列表的格式为["关键词1","关键词2","关键词3",……,"关键词A"];请在此确认关键词的数量为A个,并且严格按照所给的列表格式输出”;
“基于文章内容,构建一个包含文章要旨的关键词清单,采用Python列表形式进行输出;列表的构成为["要旨1","要旨2","要旨3",……,"要旨A"];请确认要旨数量为A个,并且切实遵循所给的列表格式进行呈现”;
本实施中,文章内容为大语言模型中已经给出的文章或者是搜索结果中即将给出的文章,预设格式即为上述的列表格式,生成的关键词或要旨按照上述格式排列形成列表,其中,A为预设预设关键词数量,例如A=1/2/3/4/5/6……,A优选为5个,预设次数为1/2/3/4/5/6……,优选为3次;以下内容均以5个预设关键词、3次预设次数为例:
S2:判断当前所用的Prompt的执行次数是否已达到三次的预设次数,如果没达到预设次数则继续重复执行一级关键词生成步骤直至达到预设次数;
S3:拼接Prompt并生成关键词:将Prompt和资讯拼接,通过大型语言模型生成一级关键词列表;检查生成的关键词是否符合列表格式,不符合则重新执行本步骤;
检查生成的一级关键词是否达到预设数量5个,如果生成的一级关键词没有达到预设数量则重新执行步骤S2,也即继续生成一级关键词,此时兜底备用的Prompt作为当前所用Prompt,重复执行直至该备用兜底的Prompt的执行次数也达到3次的预设次数;
S4:判断生成一级关键词的数量,如果生成的一级关键词达到了5个预设数量则自行生成二级关键词;
如果生成的一级关键词超过了5个预设数量则进行关键词筛选后再生成二级关键词;
S5:得到的二级关键词并作为关键词结果进行输出。
上述步骤中,通过集成大型语言模型实现一种灵活和高效的关键词生成与筛选方案。能够通过两组Prompt的执行严格的控制一级关键词的格式和数量,且通过数量的不同分别采用不同的关键词生成方法,充分捕捉文本的深层含义和语义关联,确保生成的关键词与文章内容高度相关。能够解决关键词格式、数量的准确控制问题,包括对生成关键词的格式检测、数量检测、多样性保证及生成失败的兜底处理等。
高度相关的关键词生成:通过使用大型语言模型并结合特定的Prompt设计,本发明能够生成与文章内容高度相关的关键词。Prompt的设计目的在于引导模型理解和总结文章的主题和内容,从而生成更准确和相关的关键词。
高效的关键词生成:借助自定义的重复生成规则和生成次数检测,本发明确保了生成过程的效率。当某个Prompt无法在规定的重试次数内生成符合要求的关键词时,会自动更换Prompt,或者启动备用方案自行生成关键词,避免了不必要的等待和重试。
如附图3所示,在步骤S4中,当生成的一级关键词超过了预设数量时,所述关键词筛选包含以下步骤:
S21:获取已经生成且超出5个预设数量的一级关键词列表;
S22:对一级关键词列表中的每个一级关键词使用PromCSE-BERT模型分别进行向量化表示,使其获得cls向量表示;
S23:按照每个文本片段包含不超过预设字数长度的方式进行切分,生成多个文本片段,由于PromCSE-BERT模型的限制,每个文本片段的预设字数长度为510个字;
S24:使用PromCSE-BERT模型对每个片段进行向量化并获得CLS向量化表示;
S25:将向量化的一级关键词与向量化的文本片段进行比较;从一级关键词的向量中选择出相关性高且多样性强的前若干个一级关键词进行组合,得到若干个二级关键词。
如附图4所示,在步骤S4中,当生成的一级关键词不超过预设数量时,生自行成二级关键词的步骤包括:
S31:分词并生成候选关键词:使用jieba库对资讯文本进行切分,生成多个文本片段,分别对各文本片段进行分词,并移除停用词,且创建1-2gram词组作为待选关键词;
其中,1gram为分词后形成的每个词;2gram为与1gram在语序上相近且靠后的词;则1-2gram词组为在语序上相邻的两个词的组合;
S32:关键词向量化:使用PromCSE-BERT模型对待选关键词进行关键词向量化并获得CLS向量表示;
S33:按照每个文本片段包含不超过预设字数长度的方式进行切分,生成多个文本片段;由于PromCSE-BERT模型的限制,每个文本片段的预设字数长度为510个字;
S34:使用PromCSE-BERT模型对每个文本片段进行向量化并获得CLS向量化表示;
S35:将向量化的候选关键词与向量化的文本片段进行比较;从候选关键词的向量中选择出相关性高且多样性强的前若干个一级关键词进行组合,得到若干个二级关键词。
本发明结合大型语言模型与向量化模型的关键词生成,现有技术主要依赖于词频、TF-IDF等传统算法进行关键词提取,缺乏对上下文的深入理解。本发明通过结合大型语言模型如BERT,与特定的向量化模型PromCSE-BERT,实现了对文章内容的深入理解,并能有效地生成与文章内容密切相关的关键词。
具体化的重试和兜底机制:现有的关键词生成方案往往缺乏灵活的错误处理和适应性。本发明通过定义具体的重试生成规则和兜底生成机制,使得关键词生成过程更加健壮和灵活。例如,通过设计不同的Prompt和定义每个Prompt的重复执行次数,以及自行生成关键词的备用方案。
自适应的关键词数量和格式控制:与传统方法通常固定生成关键词的数量和格式不同,本发明提供了一种自适应的机制来控制关键词的数量和格式。通过列表格式检测和关键词数量检测的方式,确保关键词的生成既满足特定的格式要求又能灵活调整数量。
对每个一级关键词和文本片段均使用PromCSE-BERT模型获得其cls向量表示。
具体的,向量化公式描述如下:
首先,表示第i个片段通过PromCSE-BERT获得的cls向量为h
然后,对所有片段的cls向量进行Max-Pooling,得到汇总的向量表示h
其中,max表示逐元素地选择最大值操作,第i个片段定义为S
最终,h
h
h
使用余弦相似度度量方法和MMR算法,从向量中选择出相关性高且多样性强的前若干个关键词进行组合,具体的,所述MMR算法的计算公式为:
MMR(c)=(1-diversity)·Sim(c,q)-diversity·max
其中:c表示待选择的关键词;t表示相关的关键词;T表示关键词的集合;q表示资讯的向量;Sim(c,q)表示关键词c与资讯向量q之间的相似度;Sim(c,t)表示关键词c与其他关键词t之间的相似度;max
优选的,所述diversity取值范围为0.4±0.1,高了容易为了多样性保留出来无关紧要的词,少了缺少多样性。
通过结合余弦相似度度量方法和MMR算法,本发明能够从生成的关键词中筛选出相关性高且多样性强的前五个关键词组合。这种筛选方式既考虑了关键词的相关性,也兼顾了关键词的多样性。而且,筛选的权重参数(即MMR公式中的diversity)可根据实际需要进行调整,以便在相关性和多样性之间找到最佳平衡。
多样性算法的引入:本发明采用Maximal Marginal Relevance(MMR)算法来确保关键词的相关性和多样性。与传统的关键词提取方法相比,这种方法能够更好地捕捉文章的多个方面和主题,增强了关键词的全面性。
本发明的所有步骤均可自动化进行,大大降低了人工参与的需求和负担。从设计Prompt到最终输出关键词,整个过程无需人工干预,既节省了时间,也提高了效率。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
- 玻璃光滑、抗污、抗划伤、易清洁的纳米涂料、制备方法及其施工方法
- 一种用于光伏板硅系低表面自清洁纳米涂层
- 一种抗菌抗污阻燃改性无纺布的制备方法
- 一种光伏板透明长效易清洁阻燃抗污涂层的制备方法及应用
- 一种智能自修复易清洁抗污纳米涂层及其制备方法