掌桥专利:专业的专利平台
掌桥专利
首页

一种基于知识图谱的语义识别系统

文献发布时间:2023-06-19 16:12:48



技术领域

本发明属于语义识别领域,涉及识别技术,具体是一种基于知识图谱的语义识别系统。

背景技术

语言所蕴含的意义就是语义。简单地说,符号是语言的载体。符号本身没有任何意义,只有被赋予含义的符号才能够被使用,这时候语言就转化为了信息,而语言的含义就是语义。语义可以简单地看作是数据所对应的现实世界中的事物所代表的概念的含义,以及这些含义之间的关系,是数据在某个领域上的解释和逻辑表示。

现有技术中,对于语句含义需要解释时,将语句输入框后即可直接的到相应的语音,没有对语句进行初步筛选和过滤,同时,语句检索语义常常会出现众多解释和链接,导致查询人员无法知晓语句的正确语义,为此,我们提出一种基于知识图谱的语义识别系统。

发明内容

针对现有技术存在的不足,本发明目的是提供一种基于知识图谱的语义识别系统。

本发明所要解决的技术问题为:

如何对语句进行初步筛选并识别得到正确语句的语义。

本发明的目的可以通过以下技术方案实现:

一种基于知识图谱的语义识别系统,包括数据采集模块、敏感字库、数据初筛模块、特征提取模块、映射识别模块、数据库、数据更新模块、用户终端以及服务器,所述服务器连接有数据库和敏感字库,所述数据库与映射识别模块数据连接,所述敏感字库与数据初筛模块数据连接,数据库和敏感字库是基于知识图谱进行构建的,敏感字库中存储有若干个敏感字,数据库存储有若干个预设语句的语句词义以及对应的识别码;

所述用户终端用于使用人员输入待译语句,并将待译语句发送至服务器;所述数据采集模块用于采集待译语句的语句信息,并将待译语句的语句信息发送至服务器,所述服务器将待译语句的语句信息发送至数据初筛模块,所述数据初筛模块用于对待译语句进行初步筛选,工作得到初筛通过信号或初筛不通过信号反馈至服务器,若服务器接收到初筛通过信号,则将对应待译语句的语句信息发送至特征提取模块;若服务器接收到初筛不通过信号,则将对应待译语句进行剔除并反馈至重新输入信号至用户终端;

所述服务器将初筛通过的待译语句的语句信息发送至特征提取模块,所述特征提取模块用于对初筛通过待译语句进行特征提取,依据待译语句中每个字符的笔画数,并按照字符的输入顺序建立待译语句的特征码并反馈至服务器,所述服务器将待译语句的特征码发送至映射识别模块,映射识别模块结合特征码将待译语句进行映射识别,工作得到语句语义或语义浏览页将发送至服务器,所述服务器将待译语句的语句语义或语义浏览页反馈至相应的用户终端。

进一步地,所语句信息包括待译语句的字符数以及每个字符的笔画数。

进一步地,所述数据初筛模块用于对待译语句进行初步筛选,工作过程具体如下:

步骤一:将待译语句标记为u,u=1,2,……,z,z为正整数;

步骤二:获取待译语句中的每个字符,统计待译语句中每个字符的笔画数,并将笔画数标记为BHui,i=1,2,……,x,x为正整数;

步骤三:获取敏感库中的敏感字,统计敏感字的笔画数得到敏感笔画BHo,o=1,2,……,v,v为正整数,o代表敏感库中敏感字的编号;

步骤四:若BHui=BHo,则将敏感字设定为字符对应的待定敏感字;

若BHui≠BHo,则不进行任何操作;

步骤五:将待译语句中每个字符与对应的待定敏感字进行形体比对;

步骤六:若待译语句中每个字符均不为敏感字,则生成初筛通过信号;

若待译语句中任意字符为敏感字,则生成初筛不通过信号;

所述数据初筛模块将初筛通过信号或初筛不通过信号反馈至服务器,若服务器接收到初筛通过信号,则将对应待译语句的语句信息发送至特征提取模块。

进一步地,所形体比对具体如下:

将待译语句中每个字符置于深色纸张中,而后将带有对应待定敏感字的浅色纸张堆叠放置在深色纸张之上,若字符与待定敏感字相重叠,则判定待译语句中字符为敏感字,初筛不通过,反之初筛通过。

进一步地,所所述映射识别模块的工作过程具体如下:

步骤S1:获取数据库中存储的若干个预设语句的语句词义及对应的识别码;

步骤S2:待译语句的特征码遍历比对数据库中的若干个识别码;

步骤S3:若比对成功,则将识别码标定为映射识别码;

若比对失败,则继续比对直至遍历完成;

步骤S4:依据映射识别码得到数据库中对应的预设语句;

步骤S5:若预设语句映射得到对应的一个语句语义,则将对应的语句语义反馈至服务器;

若预设语句映射得到对应的一个或者多个语句语义,则进入下一步骤;

步骤S6:统计语句语义的浏览次数,按照浏览次数由多到少的规则多个语句语义进行排布生成语义浏览页。

进一步地,所系统还包括数据更新模块,所述数据采集模块用于采集数据库中预设语句对应语句语义的使用信息,并将使用信息发送至服务器;

所述服务器将使用信息发送至数据更新模块,所述数据更新模块用于对数据库中预设语句的语句语义进行数据更新,生成数据更新信号或数据正常信号反馈至服务器;

若服务器接收到数据正常信号,则不进行任何操作,若服务器接收到数据更新信号,则生成更新指令加载至数据库,所述数据库接收到更新指令后用于对指定的预设语句的语句语义进行更新。

进一步地,所使用信息包括浏览次数、浏览时间以及对应的浏览时长、下载次数、上一次更新时间。

进一步地,所述数据更新模块的数据更新过程具体如下:

步骤SS1:将数据库中预设语句对应的语句语义标记为p,p=1,2,……,n,n为正整数;

步骤SS2:获取语句语义上一次的更新时间,利用服务器当前时间减去上一次的更新时间得到语句语义的更新间隔时长,若更新间隔时长大于等于时间阈值,则进入下一步骤,反之则不进行任何操作;

步骤SS3:获取语句语义的浏览次数以及对应的浏览时长,每次的浏览时长相加求和得到语句语义的浏览总时长TLp;

步骤SS4:获取语句语义的下载次数,并将下载次数标记为XCp;

步骤SS5:通过公式GXp=1/(TLp+XCp)计算得到语句语义的更新值GXp;

步骤SS6:若更新值小于更新阈值,则生成数据更新信号,反之则生成数据正常信号。

与现有技术相比,本发明的有益效果是:

本发明通过数据初筛模块对待译语句进行初步筛选,生成初筛通过信号或初筛不通过信号,若生成初筛通过信号则将对应待译语句的语句信息发送至特征提取模块,若生成初筛不通过信号则将对应待译语句进行剔除并反馈至重新输入信号至用户终端,初筛通过的待译语句的语句信息发送至特征提取模块,通过特征提取模块对初筛通过待译语句进行特征提取,得到待译语句的特征码并发送至映射识别模块,映射识别模块结合特征码将待译语句进行映射识别,映射的到待译语句的语句语义或语义浏览页反馈至用户终端,本发明对语句进行初步筛选并识别得到正确语句的语义。

附图说明

为了便于本领域技术人员理解,下面结合附图对本发明作进一步的说明。

图1为本发明的整体系统框图;

图2为本发明的又一系统框图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

请参阅图1-图2所示,一种基于知识图谱的语义识别系统,包括数据采集模块、敏感字库、数据初筛模块、特征提取模块、映射识别模块、数据库、数据更新模块、用户终端以及服务器;

所述服务器连接有数据库和敏感字库,所述数据库与映射识别模块数据连接,所述敏感字库与数据初筛模块数据连接,数据库和敏感字库是基于知识图谱进行构建的,敏感字库中存储有若干个敏感字,数据库存储有若干个预设语句的语句词义以及对应的识别码;

在具体实施时,识别码可能会对应一个或多个预设语句,因此若想保证识别码为单独唯一,则需要使用人员限定输入的识别要素,识别要素与检索要素同理;

同样的,同一个预设语句也会对应一个或者多个语句语义;

其中,知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。知识图谱,它能为学科研究提供切实的、有价值的参考;

所述用户终端用于使用人员输入个人信息后注册登录系统,并将个人信息发送至服务器内存储;

其中,个人信息包括姓名、实名认证的手机号码等;

注册登录成功,所述用户终端用于使用人员输入待译语句,并将待译语句发送至服务器;所述数据采集模块用于采集待译语句的语句信息,并将待译语句的语句信息发送至服务器;

其中,语句信息包括待译语句的字符数以及每个字符的笔画数等,此处默认为待译语句均为汉字;

所述服务器将待译语句的语句信息发送至数据初筛模块,所述数据初筛模块用于对待译语句进行初步筛选,工作过程具体如下:

步骤一:将待译语句标记为u,u=1,2,……,z,z为正整数;

步骤二:获取待译语句中的每个字符,统计待译语句中每个字符的笔画数,并将笔画数标记为BHui,i=1,2,……,x,x为正整数;

步骤三:获取敏感库中的敏感字,统计敏感字的笔画数得到敏感笔画BHo,o=1,2,……,v,v为正整数,o代表敏感库中敏感字的编号;

步骤四:若BHui=BHo,则将敏感字设定为字符对应的待定敏感字;

若BHui≠BHo,则不进行任何操作;

步骤五:将待译语句中每个字符与对应的待定敏感字进行形体比对,形体比对具体为:

将待译语句中每个字符置于深色纸张中,而后将带有对应待定敏感字的浅色纸张堆叠放置在深色纸张之上,若字符与待定敏感字相重叠,则判定待译语句中字符为敏感字,初筛不通过,反之初筛通过;

步骤六:若待译语句中每个字符均不为敏感字,则生成初筛通过信号;

若待译语句中任意字符为敏感字,则生成初筛不通过信号;

所述数据初筛模块将初筛通过信号或初筛不通过信号反馈至服务器,若服务器接收到初筛通过信号,则将对应待译语句的语句信息发送至特征提取模块;

若服务器接收到初筛不通过信号,则将对应待译语句进行剔除并反馈至重新输入信号至用户终端;

所述服务器将初筛通过的待译语句的语句信息发送至特征提取模块,所述特征提取模块用于对初筛通过待译语句进行特征提取,依据待译语句中每个字符的笔画数,并按照字符的输入顺序建立待译语句的特征码,特征码的建立过程具体如下:

例如:待译语句为“知识图谱”,则该待译语句的特征为:08070814;

在具体实施时,不同的待译语句可能会有相同的特征码,因此若想保证特征码为单独唯一的,则需要使用人员限定输入的识别要素,识别要素与检索要素同理;同样的,同一个待译语句也会对应一个或者多个语句语义;

所述特征提取模块将待译语句的特征码反馈至服务器,所述服务器将待译语句的特征码发送至映射识别模块,映射识别模块结合特征码将待译语句进行映射识别,工作过程具体如下:

步骤S1:获取数据库中存储的若干个预设语句的语句词义及对应的识别码;

需要具体说明的是,识别码的得到过程与特征码相同,只不过是将预设语句的识别码预先输入至数据库中;

步骤S2:待译语句的特征码遍历比对数据库中的若干个识别码;

步骤S3:若比对成功,则将识别码标定为映射识别码;

若比对失败,则继续比对直至遍历完成;

步骤S4:依据映射识别码得到数据库中对应的预设语句;

步骤S5:若预设语句映射得到对应的一个语句语义,则将对应的语句语义反馈至服务器;

若预设语句映射得到对应的一个或者多个语句语义,则进入下一步骤;

步骤S6:统计语句语义的浏览次数,按照浏览次数由多到少的规则多个语句语义进行排布生成语义浏览页;

所述映射识别模块将语句语义或语义浏览页将发送至服务器,所述服务器将待译语句的语句语义或语义浏览页反馈至相应的用户终端;

如图2所示,在具体实施时,系统还包括数据更新模块,所述数据采集模块用于采集数据库中预设语句对应语句语义的使用信息,并将使用信息发送至服务器;

其中,使用信息包括浏览次数、浏览时间以及对应的浏览时长、下载次数、上一次更新时间等;

所述服务器将使用信息发送至数据更新模块,所述数据更新模块用于对数据库中预设语句的语句语义进行数据更新,数据更新过程具体如下:

步骤SS1:将数据库中预设语句对应的语句语义标记为p,p=1,2,……,n,n为正整数;在具体实施时,若一个预设语句对应多个语句语义,则可以将对应的多个语句语义进行整合,得到预设语句的语句语义包;

步骤SS2:获取语句语义上一次的更新时间,利用服务器当前时间减去上一次的更新时间得到语句语义的更新间隔时长,若更新间隔时长大于等于时间阈值,则进入下一步骤,反之则不进行任何操作;

步骤SS3:获取语句语义的浏览次数以及对应的浏览时长,每次的浏览时长相加求和得到语句语义的浏览总时长TLp;

步骤SS4:获取语句语义的下载次数,并将下载次数标记为XCp;

步骤SS5:通过公式GXp=1/(TLp+XCp)计算得到语句语义的更新值GXp;

步骤SS6:若更新值小于更新阈值,则生成数据更新信号,反之则生成数据正常信号;

所述数据更新模块将数据更新信号或数据正常信号反馈至服务器,若服务器接收到数据正常信号,则不进行任何操作,若服务器接收到数据更新信号,则生成更新指令加载至数据库,所述数据库接收到更新指令后用于对指定的预设语句的语句语义进行更新。

一种基于知识图谱的语义识别系统,工作时,服务器连接有数据库和敏感字库,数据库与映射识别模块数据连接,敏感字库与数据初筛模块数据连接,数据库和敏感字库是基于知识图谱进行构建的,敏感字库中存储有若干个敏感字,数据库存储有若干个预设语句的语句词义以及对应的识别码;

注册登录成功,使用人员通过用户终端输入待译语句,并将待译语句发送至服务器,并通过数据采集模块采集待译语句的语句信息,并将待译语句的语句信息发送至服务器,服务器将待译语句的语句信息发送至数据初筛模块;

通过数据初筛模块对待译语句进行初步筛选,将待译语句标记为u,获取待译语句中的每个字符,统计待译语句中每个字符的笔画数BHui,而后获取敏感库中的敏感字,统计敏感字的笔画数得到敏感笔画BHo,若BHui=BHo,则将敏感字设定为字符对应的待定敏感字,若BHui≠BHo,则不进行任何操作,将待译语句中每个字符与对应的待定敏感字进行形体比对,若待译语句中每个字符均不为敏感字,则生成初筛通过信号,若待译语句中任意字符为敏感字,则生成初筛不通过信号,数据初筛模块将初筛通过信号或初筛不通过信号反馈至服务器,若服务器接收到初筛通过信号,则将对应待译语句的语句信息发送至特征提取模块,若服务器接收到初筛不通过信号,则将对应待译语句进行剔除并反馈至重新输入信号至用户终端,服务器将初筛通过的待译语句的语句信息发送至特征提取模块;

通过特征提取模块对初筛通过待译语句进行特征提取,依据待译语句中每个字符的笔画数,并按照字符的输入顺序建立待译语句的特征码,特征提取模块将待译语句的特征码反馈至服务器,服务器将待译语句的特征码发送至映射识别模块;

映射识别模块结合特征码将待译语句进行映射识别,获取数据库中存储的若干个预设语句的语句词义及对应的识别码,待译语句的特征码遍历比对数据库中的若干个识别码,若比对成功,则将识别码标定为映射识别码,若比对失败,则继续比对直至遍历完成,依据映射识别码得到数据库中对应的预设语句,若预设语句映射得到对应的一个语句语义,则将对应的语句语义反馈至服务器,若预设语句映射得到对应的一个或者多个语句语义,则统计语句语义的浏览次数,按照浏览次数由多到少的规则多个语句语义进行排布生成语义浏览页,映射识别模块将语句语义或语义浏览页将发送至服务器,所述服务器将待译语句的语句语义或语义浏览页反馈至相应的用户终端;

系统还包括数据更新模块,通过数据采集模块采集数据库中预设语句对应语句语义的使用信息,并将使用信息发送至服务器,服务器将使用信息发送至数据更新模块;

通过数据更新模块对数据库中预设语句的语句语义进行数据更新,将数据库中预设语句对应的语句语义标记为p,获取语句语义上一次的更新时间,利用服务器当前时间减去上一次的更新时间得到语句语义的更新间隔时长,若更新间隔时长大于等于时间阈值,则进一步获取语句语义的浏览总时长TLp和下载次数XCp,并通过公式GXp=1/(TLp+XCp)计算得到语句语义的更新值GXp,若更新值小于更新阈值,则生成数据更新信号,反之则生成数据正常信号,数据更新模块将数据更新信号或数据正常信号反馈至服务器,若服务器接收到数据正常信号,则不进行任何操作,若服务器接收到数据更新信号,则生成更新指令加载至数据库,数据库接收到更新指令后用于对指定的预设语句的语句语义进行更新。

上述公式均是去量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式,公式中的预设参数由本领域的技术人员根据实际情况进行设置,权重系数和比例系数的大小是为了将各个参数进行量化得到的一个具体的数值,便于后续比较,关于权重系数和比例系数的大小,只要不影响参数与量化后数值的比例关系即可。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

技术分类

06120114744621