掌桥专利:专业的专利平台
掌桥专利
首页

一种汽配知识库数据存储与查询方法、系统及存储介质

文献发布时间:2024-05-31 01:29:11


一种汽配知识库数据存储与查询方法、系统及存储介质

技术领域

本申请涉及汽配的领域,尤其是涉及一种汽配知识库数据存储与查询方法、系统及存储介质。

背景技术

企业各业务部门的负责人,需要对企业所处行业进行定期地行业分析研究,基于行业情况和企业内部业务情况,制定后续的发展规划。当需要了解某一个细分领域的信息时,用户需要在查阅大量外部资料和企业内部资料,再进行梳理和整合。这个过程中高度依赖用户自己的思维严密性,如果用户在寻找资料时有遗漏,或者资料的丰富度不够,都会影响后续的分析结果和方案质量。而由于用户人工寻找和整理资料工作量很大,无法经常更新研究分析,会出现因为信息滞后导致的决策失误。

而企业内部的脑力劳动岗位员工,尤其是新入职的员工,需要接触和学习大量的知识,才能满足其岗位职能要求。这些知识中既有企业内部的知识,也有行业知识。企业员工需要体系化地进行学习之外,在工作中遇到新的要求时,需要能够快速学习掌握新知识。而由于企业内部的很多工作以及学习都不是仅靠查找一个知识点就能够完成的,往往需要围绕一个领域主题进行完备地、快速地知识获取和掌握,而用户在进行一个领域知识的检索和梳理时,由于涉及范围广、知识量大,导致了检索效率较低,效果也非常依赖用户的个人能力。

发明内容

为了改善检索效率较低,效果也非常依赖用户的个人能力的问题,本申请提供一种汽配知识库数据存储与查询方法、系统及存储介质。

本申请提供的一种汽配知识库数据存储与查询方法,采用如下的技术方案:

一种汽配知识库数据存储与查询方法,包括:

读取用户输入的知识资料数据;

对所述知识资料数据进行语义解析并分段形成知识段落数据,将所述知识段落数据进行提取摘要数据与关键词数据;

将所述摘要数据与所述关键词数据加入至所述知识段落数据内并向量化存储至汽配向量数据库内;

读取用户输入的知识需求数据;

将所述知识需求数据进行提取知识主题数据;

通过知识主题数据确定知识主题向量数据,通过所述知识主题向量数据在所述汽配向量数据库内检索确定向量距离最近的最近解向量数据;

将所述最近解向量数据对应的所述知识段落数据输出给用户。

通过采用上述技术方案,通过自动将用户输入的知识资料数据分段、提取摘要数据与关键词数据并向量化存储至汽配向量数据库中,简化了知识资料数据的处理和存储方式,提高了数据存储的效率;同时通过向量距离的计算并获取多个知识主题数据对应的最近解向量数据,使得检索到的知识更加精准、全面,具有知识扩展搜索的能力,能够围绕一个领域的多个相关主题,扩展搜索知识集合。

可选的,将所述最近解向量数据对应的所述知识段落数据输出给用户之前,还包括:预设筛选数量数据,基于AIGC对所述知识需求数据生成预测回答数据,通过所述预测回答数据向量化确定预测回答向量数据;

计算所述最近解向量数据与相应所述预测回答向量数据之间的向量距离;

通过向量距离从小到大与所述筛选数量数据确定所述最近解向量数据的数量,将剩余的所述最近解向量数据对应的所述知识段落数据输出给用户。

通过采用上述技术方案,通过预测回答向量数据来对最近解向量数据进行矫正,降低了出现汽配向量数据库中通过向量距离得到的最近解向量数据产生偏差的概率,通过两种方法进行相互矫正,提高了准确性。

可选的,通过所述知识主题向量数据在所述汽配向量数据库内检索确定向量距离最近的最近解向量数据,还包括:

预设区域数量数据;

将所述汽配向量数据库中的向量点均分成若干质心区域,所述质心区域的数量与所述区域数量数据对应,所述质心区域内的向量点均为相邻设置,位于所述质心区域内的所有向量点的中心设为质心向量数据;

先通过所述知识主题向量数据与所述质心向量数据确定向量距离最小的质心向量数据;

再通过所述知识主题向量数据与相应所述质心向量数据所对应的所述质心区域内的向量点确定向量距离最小的向量点作为所述最近解向量数据。

通过采用上述技术方案,在第一次计算向量距离时,采用质心向量数据来代替质心区域内的所有向量点进行与知识主题向量数据之间的向量距离的计算,几何倍数的降低了计算的量,大大提高了计算效率,然后确定了向量距离最小的质心向量数据后,再对此质心向量数据对应的质心区域内的向量点进行计算,提高了精准性;通过先广泛再精细的计算方式大大提高了计算效率的同时,也保证了精准性。

可选的,再通过所述知识主题向量数据与相应所述质心向量数据所对应的所述质心区域内的向量点确定向量距离最小的向量点后作为所述最近解向量数据时,还包括:

通过此向量距离最小的向量点与所述知识主题向量数据确定反馈距离数据;

通过所述知识主题向量数据与所述反馈距离数据确定反馈范围数据;

检索所述反馈范围数据的范围内存在的向量点数量;

若所述反馈范围数据的范围内仅存在一个向量点,则将此向量点作为所述最近解向量数据;若所述反馈范围数据的范围内存在至少两个向量点,则计算所述反馈范围数据的范围内所有向量点与所述知识主题向量数据之间的向量距离,并将此时计算出的向量距离最小的向量点作为最近解向量数据。

通过采用上述技术方案,通过反馈范围数据内的向量点的再次查找,降低了出现虽然此质心区域的质心向量数据最靠近知识主题向量数据,但是最靠近知识主题向量数据的向量点其实在另一个质心区域内的概率,从而进一步完善了计算方案,进一步提高了计算得到最近解向量的精准性。

可选的,先通过所述知识主题向量数据与所述质心向量数据确定向量距离最小的质心区域时,还包括:

预设质心检索阈值数据、质心数量阈值数据、范围缩小阈值数据;

通过所述质心检索阈值数据与所述知识主题向量数据确定质心检索范围数据;

将所述质心检索范围数据的范围内的所述质心向量数据的数量与所述质心数量阈值数据进行对比;

若所述质心检索范围数据的范围内的所述质心向量数据的数量小于所述质心数量阈值数据,则通过所述质心检索范围数据的范围内的所述质心向量数据与所述知识主题向量数据确定向量距离最小的质心向量数据;

若所述质心检索范围数据的范围内的所述质心向量数据的数量大于所述质心数量阈值数据,则通过所述范围缩小阈值数据与所述质心检索阈值数据确定新的质心检索阈值数据,并返回将所述质心检索范围数据的范围内的所述质心向量数据的数量与所述质心数量阈值数据进行对比的步骤。

通过采用上述技术方案,通过质心检索范围数据与质心向量数据进行数据大小的比较,来替代质心向量数据与知识主题向量数据之间的向量距离的计算,大大减小了计算量,进一步提高了计算效率。

可选的,先通过所述知识主题向量数据与所述质心向量数据确定向量距离最小的质心区域后,还包括:

通过此向量距离确定偏差范围数据,通过所述知识主题向量数据与所述偏差范围数据确定检索范围数据;

通过所述检索范围数据的范围内的向量点与所述知识主题向量数据确定向量距离最小的向量点最为所述最近解向量数据。

通过采用上述技术方案,在确定最靠近知识主题向量数据的质心向量数据时,直接以此向量距离为半径进行范围式的扫描向量点进行计算,从而实现知识主题向量数据周边的精准检索向量点,同时也降低了出现虽然此质心区域的质心向量数据最靠近知识主题向量数据,但是最靠近知识主题向量数据的向量点其实在另一个质心区域内的概率。

本申请提供的一种汽配知识库数据存储与查询系统,采用如下的技术方案:

一种汽配知识库数据存储与查询系统,包括:

数据库,用于对数据进行存储;

处理器,用于对数据进行处理;

操作平台,用于供用户输入数据至所述处理器,所述处理器处理后存入至所述数据库中,或所述处理器处理后调用所述数据库中的数据输出给用户。

通过采用上述技术方案,通过数据库进行数据存储,通过操作平台实现数据的输入,通过处理器进行数据处理后存入数据库或输出给用户。

本申请提供的一种计算机可读存储介质,采用如下的技术方案:

一种计算机可读存储介质,存储有能够被处理器加载并执行的汽配知识库数据存储与查询方法的计算机程序。

通过采用上述技术方案,通过存储介质对计算机程序进行存储。

综上所述,本申请包括以下至少一种有益技术效果:

1.简化知识数据的处理和存储方式。

2.具有知识扩展搜索的能力,能够围绕一个领域的多个相关主题,扩展搜索知识集合。

附图说明

图1是本申请实施例1中一种汽配知识库数据的存储方法的流程示意图。

图2是本申请实施例1中一种汽配知识库数据的查询方法的流程示意图。

图3是凸显步骤S4与步骤S8之间步骤的流程示意图。

图4是凸显步骤S4的流程示意图。

图5是凸显步骤S6的流程示意图。

图6是凸显步骤S5的流程示意图。

图7是本申请实施例1中一种汽配知识库数据存储与查询系统的模块示意图。

图8是本申请实施例2中一种汽配知识库数据的查询方法的流程示意图。

附图标记说明:1、数据库;2、处理器;3、操作平台。

具体实施方式

以下结合附图1-8对本申请作进一步详细说明。

本申请实施例1公开一种汽配知识库数据存储与查询方法。参照图1,汽配知识库数据存储与查询方法包括,存储方法:

S1、读取用户输入的知识资料数据;

S11、对知识资料数据进行语义解析并分段形成知识段落数据,将知识段落数据进行提取摘要数据与关键词数据;

S12、将摘要数据与关键词数据加入至知识段落数据内并向量化存储至汽配向量数据库内。

举例:例如用户输入“火花塞,俗称火嘴,它的作用是把高压导线(火嘴线)送来的脉冲高压电放出,击穿火花塞两电极间空气,产生电火花以引燃汽缸内的混合气体。主要类型有:准型火花塞、缘体突出型火花塞、电极型火花塞、座型火花塞、极型火花塞、面跳火型火花塞等。火花塞安装在发动机的侧面或顶部,早期的火花塞靠缸线与分电器连接,最近十多年来,小汽车上的发动机基本上都改成了点火线圈与火花塞直接相连。火花塞的工作电压至少为10000V,高压电靠点火线圈由12V电生成,然后传递给火花塞。”

语义分析将以“……。火花塞安装在……”为分界分为两段知识段落数据,并提取摘要数据与关键词数据,例如关键词“火花塞的基础知识”,“火花塞的用途”,并以行业类型、行业标准、细分领域等多维度参数作为坐标形成向量点的向量值,例如(a,b,c,d,e),本实施例中,为方便举例,仅取五个维度作为向量值的坐标。

参照图2,查询方法:

S2、读取用户输入的知识需求数据;

S3、将知识需求数据进行提取知识主题数据;

S4、通过知识主题数据确定知识主题向量数据,通过知识主题向量数据在汽配向量数据库内检索确定向量距离最近的最近解向量数据;

S8、将最近解向量数据对应的知识段落数据输出给用户。

举例:用户输入“今年山东省乘用车更换火花塞的市场空间有多大?”作为知识需求数据,提取知识主题数据,得到例如“火花塞的基本知识”、“乘用车更换火花塞的知识”、“山东省乘用车(燃油车)相关知识”等相关知识主题数据,并将这些知识主题数据均向量化转化为知识主题向量数据,然后在汽配向量数据库中检索距离最近的多个向量点,检索到例如“燃油车火花塞更换周期”、“火花塞更换操作方法”、“火花塞产品介绍”、“山东省燃油车保有量”、“山东省乘用车保有量”等知识主题对应的向量点,作为各自知识主题向量数据的最近解向量数据,若用户预设取五个,则将向量距离从小到大取五个最近解向量数据的向量点对应的知识段落数据输出给用户,且是每个知识主题向量均取五个。

参照图3,在步骤S4与步骤S5之间还包括:

S9、预设筛选数量数据,基于AIGC对知识需求数据生成预测回答数据,通过预测回答数据向量化确定预测回答向量数据;

S91、计算最近解向量数据与相应预测回答向量数据之间的向量距离;

S92、通过向量距离从小到大与筛选数量数据确定最近解向量数据的数量,将剩余的最近解向量数据对应的知识段落数据输出给用户。

举例:根据用户输入的“今年山东省乘用车更换火花塞的市场空间有多大?”,通过AIGC自动生成预测回答数据,例如“X年的山东省有X辆存量乘用车,乘用车的平均车龄为X,预测火花塞故障率为X,预计火花塞的市场需求量为X……”,然后将预测回答数据同样按照步骤S11的方式进行分段,然后向量化后得到多个预测回答向量数据,将预测回答向量数据与相应的最近解向量数据进行对比计算向量距离,若用户此处预设三个,则将向量距离从小到大取三个最近解向量数据。

参照图4,步骤S4包括:

S41、预设区域数量数据;

S42、将汽配向量数据库中的向量点均分成若干质心区域,质心区域的数量与区域数量数据对应,质心区域内的向量点均为相邻设置,位于质心区域内的所有向量点的中心设为质心向量数据;

S5、先通过知识主题向量数据与质心向量数据确定向量距离最小的质心向量数据;

S6、再通过知识主题向量数据与相应质心向量数据所对应的质心区域内的向量点确定向量距离最小的向量点作为最近解向量数据。

举例:若设区域数量数据为10000个,若设汽配向量数据库中的向量点位1000000个,则质心区域的数量为10000个,每个质心区域内的向量点的数量为1000000/10000=100个,且每个质心区域内的向量点的数量允许在向量点无法完全均分的情况下存在个位数的偏差,且随着用户继续输入知识资料数据,向量点的数量增加,那么质心区域会重新划分;为方便计算,质心区域内的向量点数量设为3参与后续计算,设存在质心区域A与质心区域B,质心区域A内存在三个向量点分别为向量点a(1,1,1,1,1)、向量点b(1,1,1,2,1)、向量点c(1,2,2,1,1),质心区域A的质心向量数据为

若设知识主题向量数据为(2,2,2,2,2),知识主题向量数据与质心区域A的质心向量数据之间的向量距离为

参照图5,步骤S6还包括:

S61、通过此向量距离最小的向量点与知识主题向量数据确定反馈距离数据;

S62、通过知识主题向量数据与反馈距离数据确定反馈范围数据;

S63、检索反馈范围数据的范围内存在的向量点数量;

S64、若反馈范围数据的范围内仅存在一个向量点,则将此向量点作为最近解向量数据;若反馈范围数据的范围内存在至少两个向量点,则计算反馈范围数据的范围内所有向量点与知识主题向量数据之间的向量距离,并将此时计算出的向量距离最小的向量点作为最近解向量数据。

举例:由于向量点B与知识主体向量数据之间的向量距离大于向量点C与知识主体向量数据之间的向量距离,故而将向量点C与知识主题向量数据之间的向量距离作为反馈距离数据,即反馈距离数据为

若在质心区域B中存在向量点g坐标为(2,2,2,2,3),虽然质心区域B的质心向量数据与知识主题向量数据之间的向量距离比质心区域A的质心向量数据与知识主题向量数据之间的向量距离更大,但是在此步骤中计算得到向量点g在反馈范围数据的范围内,那么将计算向量点g与知识主题向量数据之间的向量距离为

参照图6,步骤S5还包括:

S51、预设质心检索阈值数据、质心数量阈值数据、范围缩小阈值数据;

S52、通过质心检索阈值数据与知识主题向量数据确定质心检索范围数据;

S53、将质心检索范围数据的范围内的质心向量数据的数量与质心数量阈值数据进行对比;

S54、若质心检索范围数据的范围内的质心向量数据的数量小于质心数量阈值数据,则通过质心检索范围数据的范围内的质心向量数据与知识主题向量数据确定向量距离最小的质心向量数据;若质心检索范围数据的范围内的质心向量数据的数量大于质心数量阈值数据,则通过范围缩小阈值数据与质心检索阈值数据确定新的质心检索阈值数据,并返回将质心检索范围数据的范围内的质心向量数据的数量与质心数量阈值数据进行对比的步骤。

举例:若设质心检索阈值数据为5、质心数量阈值数据为3、范围缩小阈值数据为0.8,若设知识主题向量数据为(5,5,5,5,5),若设质心向量数据A为(6,6,6,6,6),若设质心向量数据B为(7,7,7,7,7),若设质心向量数据C为(2,2,2,2,2),若设质心向量数据D为(1,1,1,1,1),若设质心向量数据E为(10,10,10,10,10),计算得到质心检索范围数据为(5±5,5±5,5±5,5±5,5±5),此时质心向量数据A、B、C、D、E落于范围内;落在质心检索范围数据的范围内的质心向量数据的数量为5>3,则通过范围缩小阈值数据与质心检索阈值数据计算得到新的质心检索阈值数据为5*0.8=4,再次计算得到质心检索范围数据为(5±4,5±4,5±4,5±4,5±4),此时质心向量数据A、B、C、D落于范围内;落在质心检索范围数据的范围内的质心向量数据的数量为4>3,则通过范围缩小阈值数据与质心检索阈值数据计算得到新的质心检索阈值数据为4*0.8=3.2,再次计算得到质心检索范围数据为(5±3.2,5±3.2,5±3.2,5±3.2,5±3.2),此时质心向量数据A、B、C落于范围内;落在质心检索范围数据的范围内的质心向量数据的数量为3=3,即数量处于质心数量阈值数据的允许范围内,故而将质心向量数据A、B、C分别计算与知识主题向量数据的向量距离,即质心向量数据A与知识主题向量数据的向量距离为

本申请实施例1一种汽配知识库数据存储与查询方法的实施原理为:在需要存储数据时,通过将用户输入的知识资料数据进行自动的分段、向量化后存入汽配向量数据库中;在需要检索用户所需的答案时,先读取用户输入的知识需求数据,然后对其进行知识主题数据的读取,此处提取的知识主题数据与数据存储是的知识资料数据的分段的作用相同,然后将知识主题数据向量化后进入汽配向量数据库中检索向量距离最近的向量点作为最近解向量数据,然后将多个知识主题向量数据分别对应的最近解向量数据所对应的知识段落数据调用并输出给用户。

一种汽配知识库数据存储与查询系统,参照图7,包括数据库1、处理器2以及操作平台3,数据库1用于对向量数据进行存储,其内至少包括了向量点的向量值、码本数据、存储码本对应的知识段落数据等数据。处理器2用于对读取到的数据进行处理,操作平台3包括存储模式以及检索模式,当操作平台3在存储模式时,用户通过操作平台3输入数据至处理器2,处理器2将数据处理后存入至数据库1内;当操作平台3在检索模式时,用户通过操作平台3输入数据至处理器2,处理器2将数据处理后,从数据库1中调取相应的数据输出至操作平台3上进行显示。

处理器2可以包括CPU或MPU等中央处理部件或以CPU或MPU为核心所构建的主机系统,包括硬件或软件。计算机具有了处理器2后,人们利用编程便可自由控制计算机,使之按照人们的意愿运行。处理器2可以通过内部协议控制本地量传、远程量传、远程通信部件等。内部协议泛指同一计量器具内或同一系统内实现相互通信或链接的一切协议,包括:人机交互协议、软/硬件(接口)协议、片总线(C-Bus)协议、内部总线(I-Bus)协议等的部分或全部协议。随着集成电路技术的发展,某些属于外部总线(E-Bus)协议的也随着外部总线(E-Bus)集成至芯片内后也归于内部协议。

计算机可读存储介质,计算机可读存储介质例如包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

实施例2:

与实施例1不同的是,参照图8,在步骤S5之后,还包括:

S7、通过此向量距离确定偏差范围数据,通过知识主题向量数据与偏差范围数据确定检索范围数据;

S71、通过检索范围数据的范围内的向量点与知识主题向量数据确定向量距离最小的向量点最为最近解向量数据。

举例:若设主题向量数据为(2,2,2,2,2),若设知识主题向量数据与最接近的所述质心向量数据A为(3,3,3,3,3),那么得到偏差范围数据为

若设向量点a(3,3,3,3,4)、向量点b(3,3,3,3,6)、向量点c(2,2,2,2,3),且设向量点a、b处于质心向量数据A所在的质心区域内,而设向量点c处于质心向量数据A所在的质心区域外,向量点a、c落于检索范围数据的范围内,那么就算向量点b落于质心向量数据A所在的质心区域内,也仅计算向量点a、c与知识主题向量数据的向量距离,计算得到向量点a与知识主题向量数据之间的向量距离为

以上均为本申请的较佳实施例,并非依此限制本申请的保护范围,故:凡依本申请的结构、形状、原理所做的等效变化,均应涵盖于本申请的保护范围之内。

相关技术
  • 一种数据存储方法、调度装置、系统、设备及存储介质
  • 一种数据存储方法、系统、智能可穿戴设备及存储介质
  • 一种数据存储系统和方法、存储介质
  • 一种数据存储方法及装置、一种计算设备及存储介质
  • 一种数据存储方法及装置、一种计算设备及存储介质
  • 一种数据存储、查询方法、装置、存储介质及服务器系统
  • 一种商标识别查询方法、系统、数据存储器及存储介质
技术分类

06120116624103