掌桥专利:专业的专利平台
掌桥专利
首页

一种智能搜索方法和设备

文献发布时间:2023-06-19 11:35:49


一种智能搜索方法和设备

技术领域

本发明总体上涉及搜索技术领域,尤其涉及一种智能搜索方法和设备。

背景技术

EHS是Environment、Health、Safety的缩写,是从欧美企业引进的管理体系,在国外也被称为HSE。EHS是指健康、安全与环境一体化的管理。与ISO14000环境管理体系、ISO9000质量体系相比,EHS管理体系增加了安全的内容。EHS管理体系建立起一种通过系统化的预防管理机制,彻底消除各种事故、环境和职业病隐患,以便最大限度地减少事故、环境污染和职业病的发生,从而达到改善企业安全、环境与健康业绩的管理方法。EHS工程师通常需要快速地查找可能存在的隐患、安全相关的法规依据,并且获得与隐患相对应的图片。

发明内容

鉴于上述技术问题,本公开内容提出了一种智能搜索方法,包括步骤:S1,通过用户选择搜索类型,并且输入搜索词或图像;S2,根据用户选择的搜索类型以及输入的搜索词,进行相应的搜索;S3,向用户显示搜索到的文本内容或图片以及从该图片中提取的隐患信息。

在一个优选实施方式中,所述搜索类型包括隐患、法规依据以及隐患图片。

在一个优选实施方式中,S2还包括:如果用户选择的搜索类型是所述隐患图片,则利用深度学习进行建模并且利用近似近邻搜索库,对用户输入的图像进行处理;如果用户选择的搜索类型是所述隐患或法规依据,则利用搜索引擎对于用户输入的搜索词进行检索并且存储检索到的结果。

在一个优选实施方式中,对用户输入的图像进行处理包括:S21,使用卷积神经网络模型,对用户输入的图像进行特征提取;S22,对于所提取的图像的特征进行PCA降维以及PQ量化,以简化所提取的图像的特征;S23,对于简化的图像的特征进行快速检索,以获得检索到的图像;以及S24,使用k-reciprocal编码重排序算法通过计算用户输入的图像与检索到的图像之间的相似程度,对检索到的图像进行再次排序,以提高图像检索的准确度。

在一个优选实施方式中,利用搜索引擎对于用户输入的搜索词进行检索包括:S25,基于用户输入的搜索词,利用bert模型结合BiLstm和crf模型进行分词,使得分词的结果完全符合实用场景;S26,利用TF-IDF算法来计算在用户输入的搜索词中的不同的词在句子中的权重,然后返回包括关注的重点信息的文本;S27,使用文本向量模型和词向量模型,利用bert模型结合ESIM模型计算所返回的文本与所述用户输入的搜索词的相似度得分,然后对于所述相似度得分进行排序。

在一个优选实施方式中,所检索到的所述结果是基于倒排索引构建的。

在一个优选实施方式中,所述卷积神经网络模型是VGG16模型。

在一个优选实施方式中,所述文本向量模型是doc2vec模型,所述词向量模型是word2vec模型。

在一个优选实施方式中,所述近似近邻搜索库是Faiss框架,所述搜索引擎是Elasticsearch引擎。

在本公开内容的一个方面,提供了一种智能搜索设备,包括处理器和存储器,其中所述存储器上存储有计算机程序指令,所述计算机程序指令在由所述处理器执行时实现上述任一项的方法。

与现有技术相比,本公开内容的有益效果为:能够帮助用户快速地查找可能存在的隐患、安全相关的法规依据,并且获得与隐患相对应的图片。

附图说明

在所附权利要求书中具体阐述了本发明的新颖特征。通过参考对在其中利用到本发明原理的说明性实施方式加以阐述的以下详细描述和附图,将会对本发明的特征和优点获得更好的理解。附图仅用于示出实施方式的目的,而并不应当被认为是对本发明的限制。而且在整个附图中,用相同的附图标记表示相同的元素,在附图中:

图1示出了依据本公开内容示例性实施方式的智能搜索方法的流程图;以及

图2示出了依据本公开内容示例性实施方式的智能搜索设备的示意图。

具体实施方式

下面将参照附图更详细地描述本公开内容的示例性实施方式。虽然附图中显示了本公开内容的示例性实施方式,然而应当理解,可以以各种形式实现本公开内容而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开内容,并且能够将本公开内容的范围完整地传达给本领域技术人员。在以下详细描述中没有任何内容旨在表明任何特定组件、特征或步骤对于本发明是必不可少的。本领域技术人员将会理解,在不脱离本公开内容的范围内各种特征或步骤可以彼此替代或结合。

图1示出了依据本公开内容示例性实施方式的智能搜索方法的流程图。本公开内容提出了一种智能搜索方法,包括步骤:S1,通过用户选择搜索类型,并且输入搜索词或图像;S2,根据用户选择的搜索类型以及输入的搜索词,进行相应的搜索;S3,向用户显示搜索到的文本内容或图片以及从该图片中提取的隐患信息。所述搜索类型可以包括隐患、法规依据以及隐患图片。优选地,S2还包括:如果用户选择的搜索类型是所述隐患图片,则利用深度学习进行建模并且利用近似近邻搜索库,对用户输入的图像进行处理。所述近似近邻搜索库优选是Faiss框架。Faiss框架是Facebook AI团队开源的针对聚类和相似性的搜索库,为稠密向量提供高效相似度搜索和聚类,支持十亿级别向量的搜索,并且是目前最为成熟的近似近邻搜索库。如果用户选择的搜索类型是所述隐患或法规依据,则利用搜索引擎(优选地,所述搜索引擎是Elasticsearch引擎)对于用户输入的搜索词进行检索并且存储检索到的结果,优选地,所检索到的所述结果是基于倒排索引构建的。Elasticsearch是一个分布式的免费开源搜索和分析引擎,适用于包括文本、数字、地理空间、结构化和非结构化数据等在内的所有类型的数据。

在优选实施方式中,对用户输入的图像进行处理包括:S21,使用卷积神经网络模型,对用户输入的图像进行特征提取,其中优选地,所述卷积神经网络模型是VGG16模型。S22,对于所提取的图像的特征进行PCA降维以及PQ量化,以简化所提取的图像的特征,其中PCA降维也称主成分分析,通过保留高纬度数据中的主要维度达到降低数据复杂度的目的,PQ量化则是通过将高纬度数据拆分为多个低纬度数据,通过分而治之的思想,达到拆解数据复杂程度的目的,PCA降维和PQ量化用于简化提取的图片特征,可以实现快速的图像特征检索;S23,对于简化的图像的特征进行快速检索,以获得检索到的图像;以及S24,使用k-reciprocal编码重排序算法通过计算用户输入的图像与检索到的图像之间的相似程度,对检索到的图像进行再次排序,以提高图像检索的准确度。

在优选实施方式中,利用搜索引擎对于用户输入的搜索词进行检索还包括:S25,基于用户输入的搜索词,利用bert模型结合BiLstm和crf模型进行分词,使得分词的结果完全符合实用场景。进行分词是自然语言处理的基本任务,词是语义表示的基本单位,进行分词能够更好地表达语义,也减少了索引的存储与计算量。对于中文进行分词,开源的工具很多。但是针对开放数据集,在EHS领域没有专用的分词工具。本公开针对EHS领域,利用Google的bert模型(其是一种预训练模型)结合BiLstm和crf模型来训练中文的分词器,使得分词结果完全贴合EHS领域的实用场景。S26,利用TF-IDF算法来计算在用户输入的搜索词中的不同的词在句子中的权重,然后返回包括关注的重点信息的文本。TF-IDF(TermFrequency-Inverse Document Frequency)是一种用于信息检索与信息探勘的常用加权技术。在一个句子中,期望查询返回最重要的信息,但在句子中如何确定哪个词是重要的?为此,本公开利用TF-IDF算法来计算不同词在句子中的权重,这样返回的结果可以包括关注的重点信息。S27,使用文本向量模型(优选地,所述文本向量模型是doc2vec模型)和词向量模型(优选地,所述词向量模型是word2vec模型),利用bert模型结合ESIM模型(ESIM(Enhanced Sequential Inference Model)是一个综合应用了BiLSTM和注意力机制的模型,主要用于文本匹配)计算所返回的文本与所述用户输入的搜索词的相似度得分,然后对于所述相似度得分进行排序。在智能搜索方法从海量数据集中获得部分结果集之后,对于该结果集,将关注的数据排在前列。对于如何知道两个句子所表达的语义相似,如何表示该相似,本公开将句子映射成向量来计算句子之间的距离,即,距离越近,表示语义越相似。

在本公开内容的一个方面,提供了一种智能搜索设备,包括处理器和存储器,其中所述存储器上存储有计算机程序指令,所述计算机程序指令在由所述处理器执行时实现上述任一项的方法。

本发明的技术方案采用上述的方法和设备,能够帮助用户快速地查找可能存在的隐患、安全相关的法规依据,并且获得与隐患相对应的图片。

图2示出了根据本公开内容示例性实施方式的智能搜索设备。参见图2的设备200,该计算设备包括处理器201和存储器202,其中存储器202上存储有计算机程序指令203,计算机程序指令203在由所述处理器执行时实现如上文所述的智能搜索方法。

在本公开内容的又一方面,还提供了一种机器可读存储介质,其上存储有计算机程序指令,其中所述计算机程序指令在由处理器执行时实现如上文所述的智能搜索方法。在一些实施方式中,机器可读存储介质是数字处理设备的有形组件。在另一些实施方式中,机器可读存储介质可选地是可从数字处理设备移除的。在一些实施方式中,举非限制性示例而言,机器可读存储介质可以包括U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、闪速存储器、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、固态存储器、磁碟、光盘、云计算系统或服务等。

应当理解,本公开内容的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本发明的范围在此方面不受限制。

在本文所提供的说明书中,说明了大量具体细节。然而,应当理解,本公开内容的实施方式可以在没有这些具体细节的情况下实践。在一些实施方式中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

虽然本文已经示出和描述了本发明的示例性实施方式,但对于本领域技术人员容易理解的是,这样的实施方式只是以示例的方式提供的。本领域技术人员现将会在不偏离本发明的情况下想到许多更改、改变和替代。应当理解,在实践本发明的过程中可以采用对本文所描述的本发明实施方式的各种替代方案。以下权利要求旨在限定本发明的范围,并因此覆盖这些权利要求范围内的方法和结构及其等同项。

相关技术
  • 一种智能设备搜索方法、装置、电子设备及存储介质
  • 支持智能搜索的视频记录设备及智能搜索方法
技术分类

06120112986088