掌桥专利:专业的专利平台
掌桥专利
首页

一种CCER智慧问答方法、装置及电子设备、存储介质

文献发布时间:2024-04-18 20:02:40


一种CCER智慧问答方法、装置及电子设备、存储介质

技术领域

本发明涉及人工智能技术领域,尤其是涉及一种CCER智慧问答方法、装置及电子设备、存储介质。

背景技术

CCER涉及方法学数量多,涉及的碳排放核算领域广,面对不同的自愿减排场景对计算工程师的专业素质要求高,耗时长,计算工作量大,企业在面对众多CCER场景往往会感到无从下手。

然而,传统的检索系统基于关键字匹配,在面向技术图谱、知识库等业务场景时缺少对用户询问语句理解和答案的二次处理能力,得到的答案精确度差强人意。

发明内容

有鉴于此,本发明的目的在于提供一种CCER智慧问答方法、装置及电子设备、存储介质。

第一方面,本发明实施例提供了一种CCER智慧问答方法,所述方法包括:

接收用户的询问语句;

将所述询问语句向量化,得到询问语句对应的问题向量;

根据所述问题向量,检索预设的CCER向量知识库,得到目标答案实例列表;

结合所述目标答案实例列表和所述询问语句,得到目标提示词;

将所述目标提示词输入预设的LLM模型,输出目标解答语句。

结合第一方面,接收用户的询问语句的步骤之前,还包括:

获取初始CCER文件集,所述CCER文件集包括多个CCER文件;

针对每个所述CCER文件,提取所述CCER文件的文本内容;

通过分词器将所述文本内容分解,得到多个词元;

将所述CCER文件拆分为多个独立的块;

针对每个块,在问答阶段将所述块作为最小记录,并将所述块与问题向量进行匹配;

针对所述块中的每个所述词元,对所述词元进行词嵌入,并将所述词元转换为实数向量;

根据多个所述实数向量加权计算,确定所述块对应的向量化结果;

将所述向量化结果储存,得到CCER向量知识库根据多个所述实数向量加权计算,确定所述块对应的向量化结果;

将所述向量化结果储存,得到CCER向量知识库。

结合第一方面,根据所述问题向量,检索预设的CCER向量知识库,得到目标答案实例列表的步骤,包括:

针对所述CCER向量知识库中的每个向量化结果,计算所述向量化结果与所述询问语句对应的问题向量的匹配度;

将大于预设的匹配度阈值的多个所述匹配度降序排列,生成初始答案实例列表;

判断所述初始答案实例列表中答案实例的数量是否达到预设值;

若是,根据设定值和所述初始答案实例列表,确定目标答案实例列表。

结合第一方面,判断所述初始答案实例列表中答案实例的数量是否达到预设值的步骤之后,还包括:

若否,判断所述初始答案实例列表是否为空;

若是,返回预设标记信息。

结合第一方面,判断所述初始答案实例列表是否为空的步骤之后,还包括:

若否,根据预设的对话模板,通过多轮对话接收用户输入的多个补充询问语句;

针对每个所述补充询问语句,将所述补充询问语句向量化,得到补充问题向量;

基于全部的问题向量,检索预设的所述CCER向量知识库,直至获得包含预设数量的所述目标答案实例的所述目标答案实例列表。

结合第一方面,将所述目标提示词输入预设的LLM模型,输出目标解答语句的步骤,包括:

判断所述目标答案实例列表对应的指令是否为有效指令;

若是,根据所述目标答案实例列表中的全部目标答案实例,确定目标解答语句。

结合第一方面,判断所述目标答案实例列表对应的指令是否为有效指令的步骤之后,还包括:

若否,将所述目标提示词与本次会话结合,确定目标解答语句。

第二方面,本申请提供一种CCER智慧问答装置,所述装置包括:

用户询问语句接收模块,用于接收用户的询问语句;

问题向量形成模块,用于将所述询问语句向量化,得到所述询问语句对应的问题向量;

答案检索模块,用于根据所述问题向量,检索预设的CCER向量知识库,得到目标答案实例列表;

目标提示词形成模块,用于结合所述目标答案实例列表和所述询问语句,得到目标提示词;

答案返回模块,用于将所述目标提示词输入预设的LLM模型,输出目标答案。

第三方面,本申请提供一种电子设备,所述电子设备包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行上述的智慧问答方法。

第四方面,本申请提供一种可读存储介质,所述可读存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行上述的智慧问答方法。

本发明实施例带来了以下有益效果:本申请提供的智慧问答方法、装置及电子设备、存储介质,所述方法包括:接收用户的询问语句;将所述询问语句向量化,得到询问语句对应的问题向量;根据所述问题向量,检索预设的CCER向量知识库,得到目标答案实例列表;结合所述目标答案实例列表和所述询问语句,得到目标提示词;将所述目标提示词输入预设的LLM模型,输出目标解答语句

本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种智慧问答方法流程图;

图2为本发明实施例提供的一种智慧问答装置结构示意图;

图3为本发明实施例提供的电子设备结构示意图;

图4为本发明实施例提供的智慧问答流程示意图。

附图标记:

10-接收模块、20-转化模块、30-检索模块、40-结合模块、50-解答语句输出模块;

130-处理器、131-存储器、132-总线、133-通信接口。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为了便于对本实施例进行理解,下面先对本申请设计的技术用语进行简单介绍。

CCER(China Certified Emission Reduction),是中国国家发展和改革委员会(NDRC)设立的一个机制,用于管理和认可资源减少温室气体排放活动的减排方法学。企业或组织在实施减排项目时,可以选择备案清单上的减排方法学作为参考和知道,减排项目需要按照备案的方法学进行实施,以确保减排量的准确记录和报告。

在介绍了本申请涉及的技术用语后,接下来,对本申请实施例的应用场景和设计思想进行简单介绍。

传统的检索系统基于关键字匹配,得到的答案精确度有待提高较难实现获得较为贴切的答案。

基于此本申请实施例提供一种CCER智慧问答方法、装置及电子设备、存储介质。

实施例1

本申请提供一种智慧问答方法,方法应用于LLM模型,结合图1所示,该方法包括:

S110,接收用户的询问语句。

S120,将询问语句向量化,得到询问语句对应的问题向量。

S130,根据问题向量,检索预设的CCER向量知识库,得到目标答案实例列表。

S140,结合目标答案实例列表和询问语句,得到目标提示词。

S150,将目标提示词输入预设的LLM模型,输出目标解答语句。

在本申请中将LLM模型应用于CCER向量知识库,通过LLM模型对自然语言理解和生成能力将用户的询问语句向量化,之后根据提取到的问题向量获取CCER向量知识库中与询问语句匹配度较高的多个目标答案,再结合询问语句确定目标提示词,以使LLM模型输出与该目标提示词对应的目标解答语句。这样,通过LLM模型对用户的询问语句进行问题向量提取并整合CCER向量知识库中的词元,有利于生成更为贴切的目标解答语句,从而更好、更准确的解答用户疑问,为企业了解、实施CCER减排项目提供有效帮助、提高用户体验感。

本实施例提供的智慧问答方法使用场景中可以包括终端,终端可以为手机、台式电脑、平板电脑、机器人终端等,用户可以在该终端内设的LLM模型的对话界面进行文字或语音输入,LLM模型输出对应的目标解答语句。

具体的,步骤S110,用户可以通过点击语音输入控件,以输入语音方式的询问语句,也可以通过点击对话界面上的文本输入框,输入文本的询问语句。

步骤S120将接收到的询问语句向量化,实质上是基于预设的特征提取规则,提取询问语句的问题向量。

在本实施例中,先通过分词其将询问语句分解为多个词元,之后再进行问题向量提取,这样可以提高问题向量提取的准确性。特征提取向量方法在此不加以限定。

结合第一方面,S110接收用户的询问语句的步骤之前,还包括:

获取初始CCER文件集,CCER文件集包括多个CCER文件。

针对每个CCER文件,提取CCER文件的文本内容。

通过分词器将文本内容分解,得到多个词元。

将CCER文件拆分为多个独立的块。

针对每个块,在问答阶段将所述块作为最小记录,并将所述块与问题向量进行匹配。

针对所述块中的每个所述词元,对所述词元进行词嵌入,并将所述词元转换为实数向量。

根据多个所述实数向量加权计算,确定所述块对应的向量化结果。

将所述向量化结果储存,得到CCER向量知识库。

在实际应用过程之前需要先通过构建CCER向量知识库,其构建过程为:先对获取到的初始的CCER文件进行文本内容提取、分解,得到多个词元,之后将初始CCER文件拆分为多个独立的、较短的块,每个块在问答阶段作为最小记录与用户输入的询问语句对应的问题向量进行匹配,针对每一个块,对该块内的词元进行词嵌入,并将词元转换为实数向量,之后根据该块内全部的词元对应实数向量进行加权计算得到该块对应的向量化结果。之后将全部块的向量化结果储存,得到了CCER向量知识库。

其中,以CM-001-V01可再生能源发电并网项目的整合基准线方法学为例:

该方法学主要包括三部分:一、来源、定义和适用条件;二、基准线方法学程序;三、监测方法学。

其中:

来源、定义和适用条件包括来源、定义、适用性,主要说明方法学编写依据、专有名词定义以及适用该方法学的项目要求。

基准线方法学程序包括项目边界、基准线情景、额外性、项目排放、基准线排放、泄露、减排量、事前确定的数据和参数。

项目边界说明方法学涉及的排放源以及温室气体种类。

基准线情景指没有进行可再生能源发电项目的情景;

额外性通过额外性论证与评价工具评定;

项目排放指实施可再生能源发电项目后产生的排放;

基准线排放仅包括由项目活动替代的化石燃料火电厂发电所产生的CO2排放;

泄露在该项目不予考虑;

减排量用基准线排放减去项目排放;

事前确定的数据和参数包含了计算减排量所涉及的因子,包括数据名称、数据单位、数据描述、数据来源、所应用的数值、评价意见。

监测方法学包括一般监测规则、所需监测的数据和参数。

一般监测规则说明了对监测数据的要求;

所需监测的数据和参数通过表格列明监测数据的名称、单位、描述、来源、测量程序、监测频率、QA/QC程序、评价意见。

步骤S130根据问题向量,检索预设的CCER向量知识库,得到目标答案实例列表的步骤,包括:

S131,针对CCER向量知识库中的每个向量化结果,计算向量化结果与询问语句对应的问题向量的匹配度。

S132,将大于预设匹配度阈值的多个匹配度降序排列,生成初始答案实例列表。

S133,判断初始答案实例列表中答案实例的数量是否达到预设值;

若是,执行步骤S134。

S134,根据设定值和初始答案实例列表,确定目标答案实例列表。

依次计算每个向量化结果与询问语句对应的问题向量进行匹配度。其中,匹配度计算方式可以为通过欧几里得距离、余弦相似度或点积等度量指标比较两个向量间的距离,从而计算得到两个向量间的匹配度,上述方式均可以实现,在此不加以赘述和限定。之后,选取大于预设匹配度阈值的多个匹配度数值,并根据匹配度的大小降序排列,由于匹配度与向量化结果、初始答案示例具有一一对应关系,因此可以根据匹配度排列表确定初始答案实例列表,在该列表中排在首位的初始答案对应的向量化结果与询问语句对应的问题向量的匹配度最高;在本实施例中,选取设定值K=5,匹配度P=0.8。之后,判断目前获得的初始答案实例列表中初始答案实例的匹配度是否达到了预设值P=0.8,若初始答案实例列表中包含5个或5个以上的初始答案实例,那么选取前K个初始答案实例组成的列表为目标答案实例列表。

结合第一方面,步骤S133判断初始答案实例列表中答案实例的数量是否达到预设值的步骤之后,还包括:

若否,执行步骤S135。

S135,判断初始答案实例列表是否为空。

若是,执行步骤S136。

S136,返回预设标记信息。

结合上述实例,若初始答案实例列表为空,即表示没有能与询问语句对应的问题向量相匹配的第一问题向量时,可认为接受到的询问语句没有与CCER向量知识库中词元相关的内容,此时返回预设标记信息,如:本地知识库找不到。

结合第一方面,步骤S135判断初始答案实例列表是否为空的步骤之后,还包括:

若否,执行步骤S137-S139。

S137,根据预设的对话模板,通过多轮对话接收用户输入的多个补充询问语句;

S138,针对每个补充询问语句,将补充询问语句向量化,得到补充问题向量;

S139,基于全部的问题向量,检索预设的CCER向量知识库,直至获得包含预设数量的目标答案实例的目标答案实例列表。

结合上述示例,在初始答案实例列表中存在初始答案实例,但数量未达到要求,此时可通过补充多轮对话以获取补充问题向量,该补充问题向量可以与CCER向量知识库中任何一词元相关联,以补充相关联的初始答案实例,从而获得具有K个目标答案实例的目标答案实例列表。

现举例说明:涉及可再生能源发电方法学包括自用及微电网的可再生能源发电以及可再生能源发电并网项目的整合基准线方法学,然而在用户输入询问语句时可能并未意识到这一点,当根据用户输入的询问语句向量转化后得到的初始答案实例列表中的初始答案实例的数量未达到预设值K个;

此时,可以通过增加多轮对话,获取更多的补充询问语句。结合本示例,需要补充询问是否并网两个信息,再进行处理。

例如:初始询问语句:“请问可再生能源发电项目边界是什么”。

增补对话:“您指的是并网发电项目还是微电网发电项目”。

补充询问语句:“并网发电项目”。

增补对话:“好的,开始为您查找”。

这样通过增加一轮或多轮对话,以引导用户将提出的疑问丰富,利于确定出具体的词元,有利于获取更为精确、贴合实际需求的目标答案实例。

例如,用户再询问语句中未提及方法学名称,也可以通过上述方式引导用户说明需要查找的具体方法学名称。

之后,将返回的目标答案列表与询问语句相结合形成提示词,将提示词输送个LLM模型,通过发挥LLM模型本神的总结概括能力,将返回的K个目标答案实例进行整合,输出目标解答语句。

同时也可以利用LLM模型上下问处理能力,从本次会话历史中进行分析处理,输出目标解答语句。

结合第一方面,S150将目标提示词输入预设的LLM模型,输出目标解答语句的步骤,包括:

S151,判断目标答案实例列表对应的指令是否为有效指令。

若是,执行步骤S152,若否,执行步骤S153。

S152,根据目标答案实例列表中的全部目标答案实例,确定目标解答语句。

S153,将目标提示词与本次会话结合,确定目标解答语句。

在目标答案实例列表对应的指令为有效指令时,表示已经获得了K个匹配度较高的向量化结果,此时将这些向量化结果对应的目标答案实例进行综合、调整语序后即可确定目标解答语句;而指令为无效指令时,表示本地知识库即预设的CCER向量知识库未找到对应匹配的答案实例,此时需要结果本次对话的全部历史信息,进行分析后确定目标解答语句。若仍没有相匹配答案实例,返回未找到相关信息的提示信息。

示例性的,结合图4所示,LLM模型和用户提问之间可以进行交互式对话和返回目标答案,LLM模型和LLM模型索引工具之间可以形成向量问题和形成目标问题,LLM模型索引工具和CCER知识库之间可以答案检索和返回目标答案示例列表。

相较于传统的关键字检索系统,本申请通过LLM模型对询问语句进行问题向量提取,之后计算与问题向量匹配的K个目标答案实例,之后结合询问语句生成目标提示词,将该目标提示词输入预设的LLM模型,输出更贴切的目标解答语句,模型处理具有高准确性。

第二方面,本申请提供一种CCER智慧问答装置,结合图2所示,该装置包括:用户询问语句接收模块10、问题向量形成模块20、答案检索模块30、目标提示词形成模块40和答案返回模块50。

用户询问语句接收模块10用于接收用户的询问语句。

问题向量形成模块20用于将询问语句向量化,得到询问语句对应的问题向量。

答案检索模块30用于根据问题向量,检索预设的CCER向量知识库,得到目标答案实例列表。

目标提示词形成模块40用于结合目标答案实例列表和询问语句,得到目标提示词。

答案返回模块50用于将目标提示词输入预设的LLM模型,输出目标答案。

第三方面,本申请实施例提供一种电子设备,结合图3所示,该电子设备包括存储器131以及处理器130,存储器131用于存储计算机程序,处理器130运行计算机程序以使电子设备执行上述的基于流量录制回放的分层验证方法。

进一步地,结合图3所示的电子设备还包括总线132和通信接口133,处理器130、通信接口133和存储器131通过总线132连接。

其中,存储器131可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口133(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线132可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。

处理器130可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器130中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器130可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processing,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器131,处理器130读取存储器131中的信息,结合其硬件完成前述实施例的方法的步骤。

第四方面,本申请实施例提供一种可读存储介质,可读存储介质中存储有计算机程序指令,计算机程序指令被一处理器读取并运行时,执行上述的方法。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。

最后应说明的是:以上实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

相关技术
  • 一种问答方法、装置、电子设备及存储介质
  • 问答方法、装置、电子设备及存储介质
  • 一种浴室加热装置和用于控制浴室加热装置的方法、设备、电子设备及计算机可读存储介质
  • 智慧门店的管理方法、装置、电子设备及计算机存储介质
  • 一种漆面识别方法、装置、存储介质及电子设备
  • 一种问答方法及问答装置、电子设备、存储介质
  • 一种问答方法及问答装置、电子设备、存储介质
技术分类

06120116586712