掌桥专利:专业的专利平台
掌桥专利
首页

信息查询方法、装置、图表处理方法以及电子设备

文献发布时间:2023-06-19 09:32:16


信息查询方法、装置、图表处理方法以及电子设备

技术领域

本申请涉及图像处理技术和人工智能技术,具体涉及计算机视觉、语音技术以及深度学习,尤其涉及一种信息查询方法、装置、图表处理方法、电子设备以及存储介质。

背景技术

随着数字化的发展,纸质化的文件采用数字化存储,如公司财务报表、年度销售文件以及股市走势文件等,而这些文件一般都包括图表。

在现有技术中,主要通过人工的方式从图表中获取相应的信息,如用户从数字化存储的文件中选择相应的图表,并对该图表进行分析,获得图表中所表达的信息,如年度销售额度中哪一个月份的销售额度最高,且占总额的百分比,等等。

发明内容

提供了一种用于快速便捷获取图表中的相关信息的信息查询方法、装置、图表处理方法、电子设备以及存储介质。

根据第一方面,提供了信息查询方法,包括:

获取查询图片格式的图表的音频信息,其中,所述音频信息中携带查询意图,所述音频信息用于查询所述图表中与所述查询意图对应的目标信息;

根据预先设置的与所述图表对应的图表信息,确定与所述音频信息对应的目标信息,其中,所述图表信息是通过确定所述图表的显著图,并基于所述显著图对所述图表的上下文信息进行融合和解析生成的;

输出所述目标信息。

在本申请实施例中,用户可以通过语音问答的方式获取图表的相关信息,从而实现信息查询的智能化和自动化,且提高查询效率和准确性的技术效果。

根据第二方面,本申请实施例提供了一种信息查询装置,包括:

获取模块,用于获取查询图片格式的图表的音频信息,其中,所述音频信息中携带查询意图,所述音频信息用于查询所述图表中与所述查询意图对应的目标信息;

第一确定模块,用于根据预先设置的与所述图表对应的图表信息,确定与所述音频信息对应的目标信息,其中,所述图表信息是通过确定所述图表的显著图,并基于所述显著图对所述图表的上下文信息进行融合和解析生成的;

输出模块,用于输出所述目标信息。

根据第三方面,本申请实施例提供了一种电子设备,包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上任一实施例所述的方法。

根据第四方面,本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上任一实施例所述的方法。

根据第五方面,本申请实施例提供了一种图表处理方法,包括:

获取待处理的图片格式的图表;

确定所述图表的显著图;

基于所述显著图对所述图表的上下文信息进行融合和解析,生成与所述图表对应的图表信息,所述图表信息用于信息查询。

本申请提供了一种信息查询方法、装置、图表处理方法、电子设备以及存储介质,包括:获取查询图片格式的图表的音频信息,其中,音频信息中携带查询意图,音频信息用于查询图表中与查询意图对应的目标信息,根据预先设置的与图表对应的图表信息,确定与音频信息对应的目标信息,其中,图表信息是通过确定图表的显著图,并基于显著图对图表的上下文信息进行融合和解析生成的,输出目标信息,一方面,本申请实施例提供了一种采用问答方式获取图表的相关信息的方法,无需由用户对图表进行观察和分析,且无需由服务器的工作人员后台进行分析,节约了人工成本,且避免了通过人工的方式对图表进行分析造成的效率偏低和准确性偏低的问题,实现了信息查询的智能化和自动化,且提高了信息查询的效率和可靠性;另一方面,通过从两个维度生成与图表对应的图表信息,可以实现图表信息对图表的描述的充分性和全面性,从而实现查询结果(即目标信息)的准确性和可靠性的技术效果,提高用户的查询体验。

应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本申请的限定。其中:

图1为本申请一个实施例的信息查询方法的流程示意图;

图2为本申请实施例的信息查询方法的应用场景的示意图;

图3为本申请另一实施例的信息查询方法的流程示意图;

图4为本申请实施例的包括图表的图片示意图;

图5为本申请实施例的饼状类型的图表的示意图;

图6为本申请实施例的类别属性为点图的图表的示意图;

图7为本申请实施例的类别属性为折线图的图表的示意图;

图8为本申请另一实施例的信息查询方法的流程示意图;

图9为本申请另一实施例的信息查询方法的流程示意图;

图10为本申请一个实施例的信息查询装置的示意图;

图11为本申请另一实施例的信息查询装置的示意图;

图12为本申请实施例的电子设备的框图;

图13为本申请实施例的图表处理方法的流程示意图。

具体实施方式

以下结合附图对本申请实施例的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请实施例的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

本申请实施例提供了一种信息查询方法,该方法可以应用于对图表中的相关信息进行查询的场景。例如,针对公司财务报表中包括的图表,用户可以采用本申请实施例的信息查询方法对图表中的相关信息进行查询;又如,针对股市行情的报表中包括的图表,用户也可以采用本申请实施例的信息查询方法对图表中的相关信息进行查询;又如,针对公司某时间段(如上半年)的成品库抽检合格率的图表,用户也可以采用本申请实施例的信息查询方法对图表中的相关信息进行查询,等等,此处不再一一列举。

在相关技术中,用户对图表中的相关信息的查询,主要依赖于人工的方式实现,例如,通过用户对图表进行观察并分析,从中获取其期待获取的相关信息;或者,通过在线咨询工作人员,由工作人员对图表进行分析后,并由工作人员向用户反馈用户期待获取的相关信息。

然而,通过人工的方式对图表进行分析的效率偏低,且尤其当图表较多,数据较为复杂时,通过人工的方式反馈的结果的可靠性偏低。

本申请的发明人经过创造性地劳动,得到了本申请的发明构思:通过从全局和局部两个维度生成图表信息,并当接收到用户发起的用于查询信息的音频信息时,从图表信息中确定并向用户反馈与音频信息对应的相关信息,从而实现用户通过语音问答的方式查询其希望获取的相关信息。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。

本申请提供一种信息查询方法,应用于计算机技术领域和人工智能技术领域中的计算机视觉、深度学习和语音技术,以达到通过人机交互的方式查询图表中的相关信息。

请参阅1,图1为本申请一个实施例的信息查询方法的流程示意图。

如图1所示,该方法包括:

S101:获取查询图片格式的图表的音频信息,其中,音频信息中携带查询意图,音频信息用于查询图表中与查询意图对应的目标信息。

其中,本实施例的执行主体可以为信息查询装置,且信息查询装置可以为终端设备、处理器、芯片以及服务器(包括本地服务器和云端服务器);也可以为由终端设备和服务器组成的系统,等等,本实施例不做限定。

具体地,当信息查询装置为终端设备时,终端设备可以是移动终端,如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机,例如,可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,它们与无线接入网交换语言和/或数据;终端设备还可以是个人通信业务(Personal Communication Service,PCS)电话、无绳电话、会话发起协议(Session Initiation Protocol,SIP)话机、无线本地环路(Wireless Local Loop,WLL)站、个人数字助理(Personal Digital Assistant,PDA),平板型电脑、无线调制解调器(modem)、手持设备(handset)、膝上型电脑(laptop computer)、机器类型通信(MachineType Communication,MTC)终端等设备;终端设备也可以称为系统、订户单元(SubscriberUnit)、订户站(Subscriber Station),移动站(Mobile Station)、移动台(Mobile)、远程站(Remote Station)、远程终端(Remote Terminal)、接入终端(Access Terminal)、用户终端(User Terminal)、用户代理(User Agent)、用户设备(User Device or User Equipment),等等,在此不作限定。

其中,查询意图可以理解为从图表中获取的至少部分信息的用户的期望。

基于上述分析可知,本申请实施例的方法可以适用于各类图表的信息查询的应用场景。现结合图2所示的应用场景对该步骤进行示范性地描述。

如图2所示,应用场景包括由终端设备100和服务器200组成的系统,且终端设备100和服务器200通过网络连接。其中,网络包括但不限于互联网、企业内部网、局域网、区块链服务网络(Block-chain-based Service Network,BSN)、移动通信网及其组合。

其中,终端设备100可以包括显示器,显示器可以对图表和包括图表的文件等进行显示。如图2所示,显示器可以显示公司某事业部1月份至6月份的成品库抽检合格率的图表。

显示器可以用于表征对视频进行显示的设备,如液晶显示器(Liquid CrystalDisplay,LCD)、发光二极管(Light Emitting Diode,LED)显示器及有机发光(OrganicLight Emitting Display,OLED)显示器,等等,本申请实施例不做限定。

终端设备100还可以包括音频组件,用户可以通过音频组件向服务器200发起用于查询6个月份中,合格率最低的一个月是哪个月的音频信息,服务器200可以向用户反馈合格率最低的月份为3月份(具体实现可以参见后文描述)。

值得说明的是,在相关技术中,用户需要通过观察并分析的方式确定6个月份中,合格率最低的月份,而在本实施例中,用户可以通过问答的方式获悉6个月份中,合格率最低的月份,避免了由于用户观察并分析消耗时间较长、出错概率较大的弊端,尤其是当文件内容较多,且图表较多时,避免了用户翻阅和查询浪费时间的弊端,且尤其当数据较为接近且较多时,容易因数据干扰造成的准确性偏低的问题,从而实现了信息查询的智能化和自动化,节约用户时间,且提高了信息查询的效率和准确性的技术效果。

S102:根据预先设置的与图表对应的图表信息,确定与音频信息对应的目标信息,其中,图表信息是通过确定图表的显著图,并基于显著图对图表的上下文信息进行融合和解析生成的。

其中,图表信息为用于表达图表的内容的相关信息。

例如,结合上述示例,用户可以通过终端设备将电子文件传输至服务器,服务器在接收到电子文件之后,对电子文件进行分析,得到电子文件中的各图表(即图片格式的图表),如电子文件中包括如图2中所示的图表,服务器对如图2中所示的图表进行分析,得到与如图2中所示的图表的相关信息(即为图表信息),当服务器获取到音频信息时,从图表信息中确定与音频信息对应的信息(即为目标信息)。

且在本实施例中,图表信息是服务器经过两个层面的处理获得的,一个层面为确定图表的显著图,另一个层面为在确定出的显著图的基础上,对图表的上下文信息进行融合和解析。

其中,显著图可以理解为从图表的整体结构框架上进行分析,得到的包括图表的显著性信息的图,显著性信息包括全局对比度、对象性以及紧凑型中的至少一种。

值得说明的是,在本实施例中,服务器采用两个层面的处理方式对图表进行处理,生成图表信息,且具体为先从整体维度对图表进行分析,再从局部维度对图表进行分析,相当于实现了从“全局+细节”两个维度对图表进行处理,获得图表信息,相应的,获得的图表信息既包括全局信息,也包括细节信息,因此,可以实现图表信息的完整性、全面性以及可靠性的技术效果,从而当基于图表信息确定目标信息时,可以实现确定出的目标信息的可靠性,进而实现信息查询的准确性,提高用户的查询体验。

S103:输出目标信息。

结合上述示例,当服务器确定出与音频信息对应的目标信息时,可以将目标信息发送至终端设备,终端设备可以通过音频组件对目标信息进行语音播报。如,服务器确定并将携带合格率最低的月份为3月份的目标信息发送至终端设备,终端设备将该目标信息转换为语音信息,并通过音频组件进行播报。

基于上述分析可知,本申请实施例提供了一种信息查询方法,该方法包括:获取查询图片格式的图表的音频信息,其中,音频信息中携带查询意图,音频信息用于查询图表中与查询意图对应的目标信息,根据预先设置的与图表对应的图表信息,确定与音频信息对应的目标信息,其中,图表信息是通过确定图表的显著图,并基于显著图对图表的上下文信息进行融合和解析生成的,输出目标信息,一方面,本申请实施例提供了一种采用问答方式获取图表的相关信息的方法,无需由用户对图表进行观察和分析,且无需由服务器的工作人员后台进行分析,节约了人工成本,且避免了通过人工的方式对图表进行分析造成的效率偏低和准确性偏低的问题,实现了信息查询的智能化和自动化,且提高了信息查询的效率和可靠性;另一方面,通过从两个维度生成与图表对应的图表信息,可以实现图表信息对图表的描述的充分性和全面性,从而实现查询结果(即目标信息)的准确性和可靠性的技术效果,提高用户的查询体验。

为使读者更加深刻地理解服务器生成图表信息的原理,现结合图3进行详细地阐述。其中,图3为本申请另一实施例的信息查询方法的流程示意图。

如图3所示,该方法包括:

S201:对获取到的图表的结构进行分析,获得显著图。

在一些实施例中,可以采用显著性检测网络模型(Saliency Network,SAL)对图表进行检测,生成与图表对应的显著图。

其中,关于显著性检测网络模型的生成,可以通过采集并训练样本的方式实现,本实施例不做限定。

结合如图2所示的图表,对该图表的结构进行分析可以理解为,对该图表的表头和内容进行检测和分析,获得如图2中所示的表头(如图2中的标题)和内容(如图2中的图表的矩形柱的部分)。

值得说明的是,图片图表由于拍摄或者扫描等原因,可能导致图表有一定的倾斜,或者存在较强的背景干扰,因此,在一些实施例中,当服务器获取到图表时,可以对图表进行矫正。

应该理解的是,一个电子文件(或者图片)中可能包括多个图表,当图表的数量为多个时,服务器可以对电子文件进行矫正,也可以当服务器对某个图表进行分析时,针对该图表进行矫正,本实施例不做限定。

例如,如图4所示,图片中包括三个图表,则服务器可以对该图片进行矫正,即同时对三个图表进行矫正,也可以当服务器对其中的某一个图表进行分析时,对其分析的图表进行矫正。

其中,服务器对图表矫正的方法可以包括:对图表进行外框检测,并将图表按照外框坐标进行切割,利用检测框的四角坐标对图表进行切斜矫正。且可以采用遥感旋转目标检测(SCR Det)模型实现外框检测。

S202:根据显著图和图表的上下文信息确定图表的至少一个子图表。

其中,服务器可以采用条件随机场网络模型(Conditional Random Field,CRF),并结合显著图对图表的细节信息进行补充。

同理,关于条件随机场网络模型的生成,也可以通过采集并训练样本的方式实现,本实施例不做限定。

在一些实施例中,S202可以包括:

S2021:根据显著图和图表的上下文信息将图表划分成至少一个区域。

例如,服务器在确定出图表的显著图之后,可以结合图表的上下文信息对显著图进行细化,对显著图中的细节进行补充,由于显著图中的不同位置对应的细节信息或多或少,因此,可以将补充了图表上下文信息后的显著图进行区域的划分,相当于将图表划分为包括多个子图表的多个区域,一个区域内包括一个子图表。如图4所示,图表可以被划分为3个区域,一个区域为如图4中所示的区域A,另一个区域为如图4中所示的区域B,再一个区域为如图4中的区域C。

S2022:对至少一个区域进行图表分类处理,获得包括图表类型的至少一个子图表。

结合上述示例,若至少一个区域包括区域A、区域B以及区域C,则服务器可以对区域A、区域B以及区域C进行图表分类处理,即对区域A中的图表、区域B以及区域C中的图表进行分类,得到区域A中的图表类别的子图表、区域B中的图表类型的子图表、以及区域C中的图表类型的子图表。

在一种可能实现的技术方案中,可以采用预先设置的图表分类器对至少一个区域中的图表进行分类处理。同理,分类器的获取方法可以通过采集并训练样本的方式实现,本实施例不做限定。

值得说明的是,在本实施例中,通过将图表划分至一个或多个区域,并对一个或多个区域进行图表分类处理,可以避免图表被遗漏,提高确定出的子图表的可靠性和完整性,从而实现后续基于各子图表生成的图表信息的准确性和全面性的技术效果。

S203:对至少一个子图表进行解析,生成图表信息。

相应的,S203可以包括:基于图表类型对至少一个子图表进行解析,生成图表信息。

值得说明的是,在本实施例中,通过从结构的全局维度和图表的上下文信息的局部维度确定图表中的各子图表,可以避免各子图表分割错误的弊端,提高分割子图表的准确性和可靠性,从而实现基于各子图表生成的图表信息的准确性的技术效果。

在一些实施例中,图表类型可能为柱状类型(如图4中的区域A中的子图表),则S203可以包括:

S20311:对至少一个子图表进行文字识别,获得至少一个子图表的第一文本信息。

其中,第一文本信息中的“第一”用于与后文中的其他文本信息(如第二文本信息等)进行区分,而不能理解为对文本信息的内容的限定。

其中,本实施例对文字识别的方式不做限定,例如,可以采用光学字符识别(Optical Character Recognition,OCR)对至少一个子图表进行文字识别;又如,可以采用图像文本检测与识别联合训练模型(Fast Oriented Text Spotting,FOTS)对至少一个子图表进行文字识别。

值得说明的是,若采用图像文本检测与识别联合训练模型对至少一个子图表进行文字识别,则由于图像文本检测与识别联合训练模型的检测和识别任务共享卷积特征层,既节省了计算时间,也比两阶段训练方式能学习到更通用的图像特征。引入了旋转区域,可以从卷积特征图中产生出与水平轴对齐且高度固定的文本区域,从而支持倾斜文本的识别,进而可以实现识别的准确性和可靠性。

在一些实施例中,对至少一个子图表进行文字识别可以分两个阶段执行,一个阶段为对至少一个子图表的标题部分进行文字识别,另一个阶段为对至少一个子图表的其他部分(下文称为内容部分)进行文字识别。

结合图4中所示的区域A中的子图表,可以先对该子图表的标题部分(即“重点工作完成情况”和“事业部成品库抽检合格率”)进行文字识别,而后对该子图表的内容部分(如横纵坐标以及柱状百分比)进行文字识别。

值得说明的是,通过对标题部分和内容部分分别进行文字识别,可以避免将标题部分和内容部分的文字部分混淆,从而提高文字识别的准确性和可靠性的技术效果。

S20312:基于预先设置的目标检测模型确定至少一个子图表的矩形柱。

其中,目标检测模型可以为开源对象检测模型,如YOLO目标检测模型,且具体可以采用YOLO 5目标检测模型。同理,本实施例对YOLO5目标检测模型的获取方法不做限定,如可以通过采集训练样本并基于训练样本进行训练的方式实现。

S20313:基于矩形柱确定至少一个子图表的柱状属性,柱状属性为横向柱状或者纵向柱状。

在一些实施例中,可以预先建立用于区分柱状属性的网络模型,如可以通过采集包括横向柱状样本和纵向柱状样本的训练集,并基于训练集进行训练的方式实现。

S20314:对矩形柱进行文本定位,获得矩形柱的第一坐标信息。

其中,可以采用图像文本检测与识别联合训练模型确定矩形柱在图片上的坐标信息,而后基于投影的方式确定第一坐标信息。

其中,图表信息包括第一文本信息、柱状属性以及第一坐标信息。

在本实施例中,通过分别获取第一文本信息、柱状属性以及第一坐标信息,可以实现图表信息从多个维度对图表进行描述,实现图表被描述的完整性和全面性,从而实现信息查询的准确性和可靠性的技术效果。

在一些实施例中,对柱状类型的至少一个子图表进行解析还可以包括:

S20315:确定矩形柱的第一颜色信息,其中,图表信息还包括第一颜色信息。

同理,第一颜色信息中的“第一”用于与后文中的颜色信息(如第二颜色信息)进行区分,而不能理解为对颜色信息的内容的限定。

例如,通过预先设置的色彩识别模型确定矩形柱的第一颜色信息。

具体地,服务器可以基于开源计算机视觉库(Open Source Computer VisionLibrary,OpenCV)对矩形柱的第一颜色信息进行确定。

值得说明的是,在图表中,可能采用不同的颜色对各矩形柱进行填充,而当用户基于图表进行信息查询时,也可能直接结合颜色进行查询,而通过本实施例中对矩形柱的第一颜色信息进行确定,可以提高信息查询的召回率、灵活性和多样性,提高用户的查询体验。

在一些实施例中,图表类型可能为饼状类型(如图4中的区域B),则S203可以包括:

S20321:对至少一个子图表进行文字识别,获得至少一个子图表的第二文本信息。

其中,关于获得第二文本信息的原理可以参阅获得第一文本信息的原理,此处不再赘述。

S20322:基于预先设置的候选区域检测模型对至少一个子图表进行检测,获得至少一个子图表的各扇面。

S20323:基于各扇面对应的检测框确定各扇面对应的角度。

其中,候选区域检测模型(Fast RCNN)可以通过各检测框获得各扇面,服务器在采用候选区域检测模型获得各扇面的基础上,可以基于各扇面对应的检测框对各扇面的角度进行确定。

例如,如图5所示,饼状类型的图表共包括5个扇面,一个扇面对应的为一个型号(共包括型号A、型号B、型号C、型号D以及型号E)的产品的销售量的占比。服务器采用候选区域检测模型获取饼状图的5个扇面,且可以基于5个扇面各自对应的检测框确定各扇面的角度。

具体地,5个检测框的交点即为饼状图的圆心,而任一检测框的一条边与扇面的圆弧相切,通过圆心和切线可以确定扇面的角度,具体地计算方法可以参见相关技术,此处不再赘述。

其中,图表信息包括第二文本信息和角度。

在本实施例中,通过分别获取第二文本信息和角度,可以实现图表信息从多个维度对图表进行描述,实现图表被描述的完整性和全面性,从而实现信息查询的准确性和可靠性的技术效果。

值得说明的是,当服务器确定出角度时,服务器可以基于角度确定扇面的面积、各扇面的百分比等,即,图表信息还可以包括各扇面的面积和各扇面的百分比等。

现结合图2所示的应用场景和图5对用户与服务器之间的交互进行示范性地描述如下:

用户可以向终端设备发起音频信息,且音频信息为“销售量最佳的产品的型号”,终端设备将该音频信息发送至服务器,则服务器基于上述分析得到的图表信息,确定目标信息为“型号D”,并向终端设备输出“型号D”的目标信息,终端设备对“型号D”的目标信息进行语音播报。

同理,在一些实施例中,对饼状类型的至少一个子图表进行解析还可以包括:

S20324:确定各扇面的第二颜色信息,其中,图表信息还包括第二颜色信息。

其中,确定第二颜色信息的原理可以参阅确定第一颜色信息的原理,此处不再赘述。

在图表中,可能采用不同的颜色对各扇面进行填充,而当用户基于图表进行信息查询时,也可能直接结合颜色进行查询,而通过本实施例中对各扇面的第二颜色信息进行确定,可以提高信息查询的召回率、灵活性和多样性,提高用户的查询体验。

在一些实施例中,图表类型可能为点线类型(如图4中区域C中的部分图表),则S203可以包括:

S20331:对至少一个子图表进行文字识别,获得至少一个子图表的第三文本信息。

其中,关于获得第三文本信息的原理可以参阅获得第一文本信息的原理,此处不再赘述。

S20332:确定至少一个子图表的类别属性,类别属性为点图或者折线图。

其中,可以预先训练用于确定至少一个子图表的类别属性的网络模型(如Inception4),如采用样本点图和样本折线图对基础网络模型进行训练获得的网络模型。

S20333:根据类别属性确定至少一个子图表中的点的位置信息。

其中,图表信息包括第三文本信息和位置信息。

在本实施例中,通过分别获取第三文本信息和位置信息,可以实现图表信息从多个维度对图表进行描述,实现图表被描述的完整性和全面性,从而实现信息查询的准确性和可靠性的技术效果。

基于上述分析可知,类别属性为点图或者折线图,当类别属性为点图时(如图6所示),则S20333包括:

S3311:对点图进行检测,获得点图中的各数据点、坐标图标信息。

其中,可以基于YOLO 5目标检测模型对点图进行检测,获得点图中的各数据点,如获得如图6中所示的5个数据点。其中,图6中的横坐标为月份,纵坐标为数量,且具体为某产品的限售数量,单位可以为台。

可以基于图像文本检测与识别联合训练模型对点图进行检测,获得点图中的坐标图标信息,如获得如图6中所示的横坐标和纵坐标的信息。

S3312:将各数据点投影至重建的图像坐标系,基于图像坐标系中的坐标图标信息获得各数据点的第三坐标,其中,位置信息包括第三坐标。

其中,图片格式的图表中位置信息是以图片坐标系为基础的,因此,在本实施例中,服务器可以构建图像坐标系,并将图片坐标系中的坐标图表信息转换为图像坐标系中的坐标图表信息,且将各数据点投影至该图像坐标系中,从而得到各数据点的第三坐标。

在本实施例中,通过投影的方式确定第三坐标,可以实现快捷的确定第三坐标,提高分析效率的技术效果。

基于上述分析可知,类别属性为点图或者折线图,当类别属性为折线图时(如图7所示),则S20333包括:

S3321:对折线图进行检测,获得折线图中的各折点。

其中,可以基于YOLO 5目标检测模型对点图进行检测,获得点图中的各数据点,如获得如图7中所示的5个折点。其中,图7中的横坐标为月份,纵坐标为数量,且具体为生产数量。

S3322:对各折点进行识别,获得各折点的第四坐标,位置信息包括第四坐标。

其中,关于获得第四坐标的原理可以参见获得第三坐标的原理,此处不再赘述。

在本实施例中,通过投影的方式确定第三坐标,可以实现快捷的确定第三坐标,提高分析效率的技术效果。

在一些实例中,在获得折线图中的各折点之后,可以生成包括各折点的连接线,并检测折线图中各连线的交点,各连线包括连接线,且对交点进行识别,获得交点的坐标,其中,第四坐标包括交点的坐标。

值得说明的是,通过确定各连线的交点,则可以确定各连线之间的关联关系。例如,一根连线为产品A的销售情况,另一根连线为产品B的销售情况,则根据两根连线的交点可以确定产品A和产品B在某时间点销售量相同,且销售量是多少,因此,可以提高用户对信息查询的智能化和效率,提高用户的查询体验。

在一些实施例中,图表类型还可能为表格,S203可以包括:

S20341:对表格进行检测,获得表格的表格框和表格线。

其中,可以采用候选区域检测模型对表格进行检测,候选区域检测模型可以对表格框进行检测,还可以对表格线进行检测。

当然,在另一种可能的实现方案中,也可以采用不同的模型分别对表格进行表格框检测和表格线检测。例如,可以采用候选区域检测模型获得表格框,并基于腐蚀膨胀算法获取表格线。

在具体实现过程中,可以通过采集样本表格框和样本表格线,并基于采集到的样本表格框和样本表格线对基础网络模型进行训练的方式获得候选区域检测模型,本实施例不做限定。

S20342:基于表格框和表格线进行表格重建。

也就是说,当服务器获得表格框和表格线时,可以将图片格式的表格进行重建,获得文本格式的表格。

S20343:对表格进行文本识别,并将识别得到的文本信息填入至重建的表格中。

其中,可以采用图像文本检测与识别联合训练模型对表格进行文本识别,获得文本信息。

S204:获取查询图片格式的图表的音频信息,其中,音频信息中携带查询意图,音频信息用于查询图表中与查询意图对应的目标信息。

其中,关于S204的描述可以参见S101,此处不再赘述。

S205:根据预先设置的与图表对应的图表信息,确定与音频信息对应的目标信息,其中,图表信息是通过确定图表的显著图,并基于显著图对图表的上下文信息进行融合和解析生成的。

其中,关于S205的描述,可以参见S102,且图表信息是基于上述S201至S203生成的,此处不再赘述。

S206:输出目标信息。

其中,关于S206的描述可以参见S103,此处不再赘述。

在一些实施例中,可以通过预先构建预测模型的方式实现信息的查询,现结合图8对构建预测模型,并基于预测模型实现信息查询的原理进行示范性地描述。其中,图8为本申请另一实施例的信息查询方法的流程示意图。

如图8所示,该方法包括:

S301:获取查询图片格式的图表的音频信息,其中,音频信息中携带查询意图,音频信息用于查询图表中与查询意图对应的目标信息。

其中,关于S301的描述可以参见S101,此处不再赘述。

S302:确定图表的图像特征。

其中,图像特征可以理解为图表的特征向量。

S303:生成与图表信息对应的特征编码。

其中,特征编码可以理解为机器可以识别的语言,在本实施例中,特征编码可以理解为服务器可以识别的语言。

S304:根据图像特征、图表信息对应的特征编码以及预先设置的训练样本对基础网络模型进行训练,生成预测模型,其中,训练样本包括问题样本和答案样本。

其中,本实施例对基础网络模型的类型不做限定,例如,基础网络模型可以为卷积神经网络模型,当然,基础网络模型可以为动态指针网络(Dynamic pointer network,DPN),且当基础网络模型为动态指针网络时,由于动态指针网络使用的是注意机制(Transformers),注意机制能够让每个特征自由地和与其他实体结合,即便不是来自同一个模态,因此,当基础网络模型为动态指针网络时,可以实现生成预测模型的灵活性和可靠性,进而实现预测过程中的可靠性和准确性的技术效果。

在一些实施例中,在训练过程中,可以将预测答案和样本答案进行比对,并基于比对结果对基础网络的参数进行适应性调整,直至满足迭代次数,或者,预测答案与样本答案的误差小于误差阈值。

在一些实例中,用户可以在训练过程中,与服务器进行互动,如当预测答案错误时,可以提供正确的答案,服务器相应增加样本答案的样本量,以提高训练的准确性和可靠性。

S305:根据预测模型、音频信息以及图表信息确定目标信息。

在本实施例中,通过训练获得预测模型,并基于预测模型进行预测,获得目标信息,可以充分利用服务器生成的图表信息,减少分析图表信息的次数,节约计算成本,提高信息查询的效率,且提高用户的查询体验。

在一些实施例中,S305可以包括:

S3051:对音频信息进行文字转换,生成与音频信息对应的目标文本信息。

在该步骤中,服务器将音频信息转换为机器可识别的语言(即特征编码)的中间信息(即目标文本信息)。

其中,可以采用深度神经网络(LSTM-DNN)模型将音频信息转换为目标文本信息。同理,也可以采用获取训练样本,并基于训练样本对基础网络模型进行训练的方式获得深度神经网络模型。

S3052:确定与目标文本信息对应的特征编码。

在该步骤中,服务器将目标文本信息转换为机器可识别的语言(即特征编码)。

S3053:采用预测模型对输入的图表信息、目标文本信息对应的特征编码进行预测,获得目标信息。

S306:输出目标信息。

其中,关于S306的描述可以参见S103,此次不再赘述。

在本实施例中,当用户发起针对某图表的音频信息时,服务器可以采用预测模型对与音频信息对应的图表信息(即目标信息)进行预测,获得目标信息,可以提高信息查询的广泛适用性和灵活性,为用户提供方便快捷的信息查询的方式,增强用户的查询体验。

基于上述分析可知,在上述实施例中,是采用预测模型的方式对目标信息进行预测,而在另一些实施例中,还可以采用映射关系的方式确定目标信息,现结合图9对采用映射关系的方式实现信息查询的原理进行详细性地阐述。其中,图9为本申请另一实施例的信息查询方法的流程示意图。

如图9所示,该方法包括:

S401:获取查询图片格式的图表的音频信息,其中,音频信息中携带查询意图,音频信息用于查询图表中与查询意图对应的目标信息。

其中,关于S401的描述可以参见S101,此次不再赘述。

S402:对音频信息进行文字转换,生成与音频信息对应的目标文本信息。

其中,关于S402的描述可以参见S3051,此处不再赘述。

S403:对文本信息进行语义分析,获得与文本信息对应的查询意图。

S404:从图表信息中确定与查询意图对应的目标信息,其中,图表信息是通过确定图表的显著图,并基于显著图对图表的上下文信息进行融合和解析生成的。

例如,服务器可以预先构建并存储意图(包括查询意图)与图表相关信息(包括目标信息)的映射关系,当确定出意图时,可以基于映射关系从图表信息中提取与意图对应的图表相关信息,在本实施例中,当服务器确定出查询意图时,可以基于映射关系从图表信息中提取与查询意图对应的目标信息。

其中,映射关系可以通过映射关系表体现,也可以通过索引体现,等等,本实施例不做限定。

在本实施例中,通过映射关系的方式确定目标信息,可以提供信息查询的多样性和灵活性,且可以提高信息查询的准确性。

其中,服务器可以基于用户针对用户对目标信息的反馈对映射关系进行适应性调整。如,若服务器输出目标信息,用户反馈该目标信息错误,且给出正确的目标信息时,则服务器适应性修改映射关系,提高后续信息查询的准确性。

S405:根据预测模型、音频信息以及图表信息确定目标信息。

其中,关于S405的描述可以参见S102,或者S305,此处不再赘述。

S406:输出目标信息。

其中,关于S406的描述可以参见S103,此次不再赘述。

根据本申请实施例的另一个方面,本申请实施例还提供了一种信息查询装置,用于执行如上任一实施例所述的方法,如用于执行如图1、图3、图8以及图9中任一实施例所示的信息查询方法。

请参阅图10,图10为本申请一个实施例的信息查询装置的示意图。

如图10所示,该装置包括:

获取模块11,用于获取查询图片格式的图表的音频信息,其中,所述音频信息中携带查询意图,所述音频信息用于查询所述图表中与所述查询意图对应的目标信息;

第一确定模块12,用于根据预先设置的与所述图表对应的图表信息,确定与所述音频信息对应的目标信息,其中,所述图表信息是通过确定所述图表的显著图,并基于所述显著图对所述图表的上下文信息进行融合和解析生成的;

输出模块13,用于输出所述目标信息。

结合图11可知,在一些实施例中,还包括:

第二确定模块14,用于确定所述图表的图像特征;

生成模块15,用于生成与所述图表信息对应的特征编码;

训练模块16,用于根据所述图像特征、所述图表信息对应的特征编码以及预先设置的训练样本对基础网络模型进行训练,生成预测模型,其中,所述训练样本包括问题样本和答案样本;

以及,所述第一确定模块12用于,根据所述预测模型、所述音频信息以及所述图表信息确定所述目标信息。

在一些实施例中,所述第一确定模块12用于,对所述音频信息进行文字转换,生成与所述音频信息对应的目标文本信息,确定与所述目标文本信息对应的特征编码,采用所述预测模型对输入的所述图表信息、所述目标文本信息对应的特征编码进行预测,获得所述目标信息。

在一些实施例中,所述第一确定模块用于,对所述音频信息进行文字转换,生成与所述音频信息对应的目标文本信息,对所述文本信息进行语义分析,获得与所述文本信息对应的所述查询意图,从所述图表信息中确定与所述查询意图对应的所述目标信息。

结合图11可知,在一些实施例中,还包括:

分析模块17,用于对所述图表的结构进行分析,获得所述显著图;

第三确定模块18,用于根据所述显著图和所述图表的上下文信息确定所述图表的至少一个子图表;

解析模块19,用于对所述至少一个子图表进行解析,生成所述图表信息。

在一些实施例中,所述第三确定模块18用于,根据所述显著图和所述图表的上下文信息将所述图表划分成至少一个区域,对所述至少一个区域进行图表分类处理,获得包括图表类型的所述至少一个子图表;

以及,所述解析模块19用于,基于所述图表类型对所述至少一个子图表进行解析,生成所述图表信息。

在一些实施例中,若所述图表类型为柱状类型,则所述解析模块19用于,对所述至少一个子图表进行文字识别,获得所述至少一个子图表的第一文本信息,基于预先设置的目标检测模型确定所述至少一个子图表的矩形柱,基于所述矩形柱确定所述至少一个子图表的柱状属性,所述柱状属性为横向柱状或者纵向柱状,对所述矩形柱进行文本定位,获得所述矩形柱的第一坐标信息,其中,所述图表信息包括所述第一文本信息、所述柱状属性以及所述第一坐标信息。

在一些实施例中,若所述图表类型为饼状类型,则所述解析模块19用于,对所述至少一个子图表进行文字识别,获得所述至少一个子图表的第二文本信息,基于预先设置的候选区域检测模型对所述至少一个子图表进行检测,获得所述至少一个子图表的各扇面,基于所述各扇面对应的检测框确定所述各扇面对应的角度,其中,所述图表信息包括所述第二文本信息和所述角度。

在一些实施例中,若所述图表类型为点线类型,则所述解析模块19用于,对所述至少一个子图表进行文字识别,获得所述至少一个子图表的第三文本信息,确定所述至少一个子图表的类别属性,所述类别属性为点图或者折线图,根据所述类别属性确定所述至少一个子图表中的点的位置信息,其中,图表信息包括所述第三文本信息和所述位置信息。

在一些实施例中,若所述类别属性为点图,则所述解析模块19用于,对所述点图进行检测,获得所述点图中的各数据点、坐标图标信息,将所述各数据点投影至重建的图像坐标系,基于所述图像坐标系中的所述坐标图标信息获得所述各数据点的第三坐标,其中,所述位置信息包括所述第三坐标。

在一些实施例中,若所述类别属性为折线图,则所述解析模块19用于,对所述折线图进行检测,获得所述折线图中的各折点,对各所述折点进行识别,获得各所述折点的第四坐标,所述位置信息包括所述第四坐标。

在一些实施例中,所述解析模块19用于,基于预先设置的色彩识别模型对所述至少一个子图表进行识别,获得所述至少一个子图表的颜色信息,其中,所述图表信息还包括所述颜色信息。

根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。

如图12所示,是根据本申请实施例的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请实施例的实现。

如图12所示,该电子设备包括:一个或多个处理器101、存储器102,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图12中以一个处理器101为例。

存储器102即为本申请实施例所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请实施例所提供的信息查询方法。本申请实施例的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请实施例所提供的信息查询方法。

存储器102作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的程序指令/模块。处理器101通过运行存储在存储器102中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的信息查询方法。

存储器102可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器102可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器102可选包括相对于处理器101远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、区块链服务网络(Block-chain-based Service Network,BSN)、移动通信网及其组合。

电子设备还可以包括:输入装置103和输出装置104。处理器101、存储器102、输入装置103和输出装置104可以通过总线或者其他方式连接,图12中以通过总线连接为例。

输入装置103可接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置104可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算机程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算机程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、区块链服务网络(Block-chain-based Service Network,BSN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与虚拟专用服务器(VPS,Virtual Private Server)服务中,存在的管理难度大,业务扩展性弱的缺陷。

根据本申请实施例的另一个方面,本申请实施例还提供了一种图表处理方法,该方法用于生成图表信息,图表信息可以用于如上任一实施例所述的信息查询方法。

请参阅图13,图13为本申请实施例的图表处理方法的流程示意图。

如图13所示,该方法包括:

S501:获取待处理的图片格式的图表。

S502:确定图表的显著图。

S503:基于显著图对图表的上下文信息进行融合和解析,生成与图表对应的图表信息,图表信息用于信息查询。

其中,关于确定显著图以及生成图表信息的具体方案可以参见上述实施例的描述,此处不再赘述。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

相关技术
  • 信息查询方法、装置、图表处理方法以及电子设备
  • 物流单证信息的处理方法、装置及物流数据信息查询方法、装置
技术分类

06120112202530