导航：首页> 电通信技术>多模态全文信息检索方法、系统及存储介质

多模态全文信息检索方法、系统及存储介质

文献发布时间：2024-01-17 01:24:51

技术领域

本发明涉及对多模态内容进行全文检索技术领域，尤其涉及一种多模态全文信息检索方法、系统及存储介质。

背景技术

全文检索是一种用于从文档集合中查找特定词汇或短语的技术。它是数码信息时代中的一个关键技术，用于快速检索大量文本内容。如果不知道所有关键词，全文检索技术可以帮助快速找到需要的信息。

目前主要用于以下一些常见场景：

电商平台的搜索功能，帮助用户快速找到所需要的商品；

新闻媒体网站的文章检索功能，用户可以根据关键词搜索所有相关的新闻；

社交媒体平台的搜索功能，用户可以根据关键词搜索所有相关的用户、帖子、评论等内容。

目前市面上的全文检索系统都是围绕文本展开的。

全文检索技术已经比较成熟，目前市面上的全文检索系统可以有效处理各种文本资料。然而，随着信息时代的发展，人们生成的数据量也在不断地增长，资料数据类型也更加多样化。在处理这些数据时对于非文本内容例如：视频、音频和图像等的检索，现阶段仍存在困难，仍需要人工进行处理和搜索。

发明内容

本发明的主要目的在于提供一种多模态全文信息检索方法、系统及存储介质，旨在实现快速精确地检索各种类型的文件，实现对各种类型的文件进行更加高效的搜索和管理，提高文件自动化管理的效率，降低企业运营成本。

为实现上述目的，本发明提供一种多模态全文信息检索方法，所述方法包括以下步骤：

步骤S10，获取需要管理的不同类型的文件，所述文件的类型包括文本、图片、音频或视频中的一种或几种；

步骤S20，判断所述文件的类型；

步骤S30，根据所述文件的类型采用对应的识别策略对所述文件进行识别；

步骤S40，将识别结果以文本形式输出，供后续的数据处理和分析使用。

本发明的进一步技术方案是，所述步骤S30，根据所述文件的类型采用对应的识别策略对所述文件进行识别的步骤包括：

步骤S301，若所述文件的类型为音频或视频文件，则采用ASR技术对所述文件进行语音内容识别。

本发明的进一步技术方案是，所述步骤S301，若所述文件的类型为音频或视频文件，则采用ASR技术对所述文件进行语音内容识别的步骤包括：

步骤S3011，预处理语音数据：使用开源工具ffmpeg将音频视频文件统一转为采样率16k、单声道的音频数据文件；

步骤S3012，特征提取：采用MFCC特征提取将预处理后的语音信号转换成特征向量；

步骤S3013，识别：使用声学模型深度神经网络模型和神经网络语言模型，对特征向量序列进行识别，找出最合适的文本序列，即识别结果。

本发明的进一步技术方案是，所述步骤S30，根据所述文件的类型采用对应的识别策略对所述文件进行识别的步骤包括：

步骤S302，若所述文件的类型为不是文本或图片的文档文件，则将所述文档文件转为图片文件；

步骤S303，采用OCR技术提取图片文字内容与文字在图中的位置。

本发明的进一步技术方案是，所述步骤S303，采用OCR技术提取图片文字内容与文字在图中的位置的步骤包括：

步骤S3031，图像预处理：通过对图像进行光线校正、噪声去除、卷积平滑、图像二值化处理，将原始图像转换为适合特征提取和字符识别的格式；

步骤S3032，字符分割：在预处理后的图像中，基于直方图投影算法将每个字符从连续的字母词组中分割出来，以提高字符识别的精确度；

步骤S3033，特征提取：从字符的预处理图像中使用Canny边缘检测算法提取有用的特征，这些特征用于表示字符的形状、轮廓、边界信息；

步骤S3034，字符识别：将提取的特征转化为计算机可处理的特征向量，使用卷积神经网络深度学习架构对特征向量来识别字符。

本发明的进一步技术方案是，所述步骤S30，根据所述文件的类型采用对应的识别策略对所述文件进行识别的步骤中，若所述文件的类型为图片文件，则直接执行所述步骤S50，采用OCR技术提取图片文字内容与文字在图中的位置。

本发明的进一步技术方案是，所述将识别结果以文本形式输出，供后续的数据处理和分析使用的步骤包括：将所述识别结果以文本形式上传至Elasticsearch中进行保存，以便于系统进行检索。

本发明的进一步技术方案是，采用Elasticsearch自带的检索算法实现平台上的相关搜索词推荐、风险搜索词推荐功能，其中，所述Elasticsearch自带的检索算法为BM25算法。

为实现上述目的，本发明还提出一种多模态全文信息检索系统，所述系统包括存储器、处理器以及存储在所述处理器上的多模态全文信息检索程序，所述多模态全文信息检索程序被所述处理器运行时执行如上所述方法的步骤。

为实现上述目的，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质存储有多模态全文信息检索程序，所述多模态全文信息检索程序被处理器运行时执行如上所述的方法的步骤。

本发明多模态全文信息检索方法、系统及存储介质的有益效果是：本发明通过上述技术方案，包括以下步骤：步骤S10，获取需要管理的不同类型的文件，所述文件的类型包括文本、图片、音频或视频中的一种或几种；步骤S20，判断所述文件的类型；步骤S30，根据所述文件的类型采用对应的识别策略对所述文件进行识别；步骤S40，将识别结果以文本形式输出，供后续的数据处理和分析使用，实现了快速精确地检索各种类型的文件，实现了对各种类型的文件进行更加高效的搜索和管理，提高了文件自动化管理的效率，降低了企业运营成本。

附图说明

图1是本发明多模态全文信息检索方法第一实施例的流程示意图；

图2是本发明多模态全文信息检索方法第二实施例的流程示意图；

图3是图2中步骤S301的细化流程示意图；

图4是本发明多模态全文信息检索方法第三实施例的流程示意图；

图5是图4中步骤S303的细化流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参照图1，本发明提出一种多模态全文信息检索方法，本发明多模态全文信息检索方法第一实施例包括以下步骤：

步骤S10，获取需要管理的不同类型的文件，所述文件的类型包括文本、图片、音频或视频中的一种或几种。

步骤S20，判断所述文件的类型。

步骤S30，根据所述文件的类型采用对应的识别策略对所述文件进行识别。

本实施例中，对于文本文件，使用现有技术中的常规方式读取所有文本内容即可，对于音频或视频文件，则采用ASR技术将语音内容识别，带有相对时间的结果，对于图片文件，则采用OCR技术提取图片文字内容与文字在图中的位置，而对于一些不是文本或图片的文档文件，则先将其转为图片，再用图片识别方式进行内容识别，获得结果。

步骤S40，将识别结果以文本形式输出，供后续的数据处理和分析使用。

在文件内容被成功识别后，将其上传至对应的数据存储系统中以便后续处理。本实施例选择将文件的识别结果上传至Elasticsearch中进行保存，以便于系统进行检索。

另外，本实施例主要使用Elasticsearch自带的检索算法以实现平台上的相关搜索词推荐、风险搜索词推荐等功能。主要使用到的算法是：BM25算法(Best Matching 25)，它基于词频和文档频率计算出一个得分，并根据这些得分进行排序。BM25算法为每个文档分配一个得分，该得分表示该文档与查询的相关性。

采用本实施例提出的多模态全文信息检索方法，用户仅需将文件需要管理的各种类型文件，上传到多模态全文信息检索系统中。即使用户积累大量的文件、图片、视频等相关资料，用户需要在这些资料数量庞大检索某份文件时，也可以快速精确检索到所需要的文件，实现对这些文件进行更加高效的搜索和管理。

随着数字化时代的到来，各类文档将会呈指数型增长，采用本实施例提出的多模态全文信息检索方法能有效地提高文件自动化管理的效率，降低企业运营成本，同时也减轻用户手动输入的工作量，使工作变得更加轻松和高效。

进一步地，请参照图2，基于图1所示的第一实施例，提出本发明多模态全文信息检索方法第二实施例，本实施例与图1所示的第一实施例的区别在于，本实施例中，所述步骤S20，根据所述文件的类型采用对应的识别策略对所述文件进行识别的步骤包括：

步骤S301，若所述文件的类型为音频或视频文件，则采用ASR技术对所述文件进行语音内容识别。

具体地，如图3所示，本实施例中，所述步骤S301，若所述文件的类型为音频或视频文件，则采用ASR技术对所述文件进行语音内容识别的步骤包括：

步骤S3011，预处理语音数据：使用开源工具ffmpeg将音频视频文件统一转为采样率16k、单声道的音频数据文件。

步骤S3012，特征提取：采用MFCC特征提取将预处理后的语音信号转换成特征向量。

步骤S3013，识别：使用声学模型深度神经网络模型(DNN)和神经网络语言模型(NNLM)，对特征向量序列进行识别，找出最合适的文本序列，即识别结果。

进一步地，请参照图4，基于图1所示的多模态全文信息检索方法，提出本发明多模态全文信息检索方法第三实施例，本实施例与图1所示的第一实施例的区别在于，本实施例中，所述步骤S30，根据所述文件的类型采用对应的识别策略对所述文件进行识别的步骤包括：

步骤S302，若所述文件的类型为不是文本或图片的文档文件，则将所述文档文件转为图片文件；

步骤S303，采用OCR技术提取图片文字内容与文字在图中的位置。

具体地，请参照图5，所述步骤S303，采用OCR技术提取图片文字内容与文字在图中的位置的步骤包括：

步骤S3031，图像预处理：通过对图像进行光线校正、噪声去除、卷积平滑、图像二值化处理，将原始图像转换为适合特征提取和字符识别的格式。

步骤S3032，字符分割：在预处理后的图像中，基于直方图投影算法将每个字符从连续的字母词组中分割出来，以提高字符识别的精确度。

步骤S3033，特征提取：从字符的预处理图像中使用Canny边缘检测算法提取有用的特征，这些特征用于表示字符的形状、轮廓、边界信息。

步骤S3034，字符识别：将提取的特征转化为计算机可处理的特征向量，使用卷积神经网络(CNN)深度学习架构对特征向量来识别字符。

请继续参照图4，本实施例中，所述步骤S30，根据所述文件的类型采用对应的识别策略对所述文件进行识别的步骤中，若所述文件的类型为图片文件，则直接执行所述步骤S50，采用OCR技术提取图片文字内容与文字在图中的位置。

本发明多模态全文信息检索方法的有益效果是：本发明通过上述技术方案，包括以下步骤：步骤S10，获取需要管理的不同类型的文件，所述文件的类型包括文本、图片、音频或视频中的一种或几种；步骤S20，判断所述文件的类型；步骤S30，根据所述文件的类型采用对应的识别策略对所述文件进行识别；步骤S40，将识别结果以文本形式输出，供后续的数据处理和分析使用，实现了快速精确地检索各种类型的文件，实现了对各种类型的文件进行更加高效的搜索和管理，提高了文件自动化管理的效率，降低了企业运营成本。

为实现上述目的，本发明还提出一种多模态全文信息检索系统，所述系统包括存储器、处理器以及存储在所述处理器上的多模态全文信息检索程序，所述多模态全文信息检索程序被所述处理器运行时执行如上实施例所述方法的步骤，这里不再赘述。

为实现上述目的，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质存储有多模态全文信息检索程序，所述多模态全文信息检索程序被处理器运行时执行如上实施例所述的方法的步骤，这里不再赘述。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：刘兆武;冯漪;凌霏;
专利申请人：深圳匠人网络科技有限公司;

上一篇：一种立式储罐内壁防腐用施工装置
下一篇：网络会议的流量转发方法及其装置、电子设备、存储介质