导航：首页> 电通信技术>非结构化数据搜索方法及系统

非结构化数据搜索方法及系统

文献发布时间：2024-04-18 20:01:55

技术领域

本发明涉及搜索引擎技术领域，尤其涉及一种非结构化数据搜索方法及系统。

背景技术

现有的通信管理系统中存在大量非结构化的数据，如工单内文本描述字段、工单内文档附件、系统值班日志信息、告警描述信息以及资源描述信息数据等，这些内容一般存在于大对象CLOB(Character Large Object，字符大对象)字段或者文档附件中。现有技术中，如要在通信管理系统中查询这些非结构化数据，一般采用SQL(Structured QueryLanguage，结构化查询语言)语句中的“IN”或“LIKE”关键字去查询搜索，但是面对如此海量的数据，这种方法效率极低，或者根本无法查询以实现既定的查询目标。

发明内容

本发明提供一种非结构化数据搜索方法及系统，用以解决现有技术中对于非结构化数据搜索效率低的缺陷。

本发明提供一种非结构化数据搜索方法，包括：

获取数据库中的非结构化数据，所述非结构化数据包括大对象数据和文档类型数据；

确定所述非结构化数据在所述数据库中的存储地址；

将所述非结构化数据转换为文本数据；

将所述文本数据与所述存储地址进行关联并存储，得到非结构化数据的索引内存库；

根据所述索引内存库进行非结构化数据搜索。

可选地，将所述文本数据与所述存储地址进行关联并存储，得到非结构化数据的索引内存库，包括：

将所述文本数据与所述存储地址进行关联，得到关联数据；

根据所述存储地址的存储顺序存储所述关联数据。

可选地，所述索引内存库通过定时轮询机制进行更新。

可选地，根据所述索引内存库进行非结构化数据搜索，包括：

获取用户输入语句；

根据所述用户输入语句确定关键词；

根据所述索引内存库确定所述关键词的匹配数据，得到数据搜索结果。

可选地，根据所述用户输入语句确定关键词，包括：

采用自然语言处理技术对所述用户输入语句进行拆分，得到关键词。

可选地，根据所述索引内存库确定所述关键词的匹配数据之后，还包括：

确定所述匹配数据与所述关键词之间的相关性；

根据所述相关性对所述数据搜索结果进行排序。

可选地，确定所述匹配数据与所述关键词的相关性，包括：

根据所述匹配数据中所述关键词的出现频率确定所述匹配数据与所述关键词的相关性，所述匹配数据中所述关键词的出现频率与所述相关性呈正相关。

本发明还提供一种非结构化数据搜索系统，包括：

数据获取模块，用于获取数据库中的非结构化数据，所述非结构化数据包括大对象数据和文档类型数据；

存储地址确定模块，用于确定所述非结构化数据在所述数据库中的存储地址；

文本数据转换模块，用于将所述非结构化数据转换为文本数据；

关联存储模块，用于将所述文本数据与所述存储地址进行关联并存储，得到非结构化数据的索引内存库；

数据搜索模块，用于根据所述索引内存库进行非结构化数据搜索。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的非结构化数据搜索方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的非结构化数据搜索方法。

本发明提供的一种非结构化数据搜索方法及系统，通过获取数据库中的非结构化数据，所述非结构化数据包括大对象数据和文档类型数据；确定所述非结构化数据在所述数据库中的存储地址；将所述非结构化数据转换为文本数据；将所述文本数据与所述存储地址进行关联并存储，得到非结构化数据的索引内存库；根据所述索引内存库进行非结构化数据搜索。即本发明通过对数据库中的非结构化数据进行抽取归集，从而构建非结构化数据索引内存库，由于该索引内存库是将所述文本数据与所述存储地址进行关联后进行存储的，所以解决了原有的通信管理系统非结构化数据散乱的问题，从而能够实现对大对象数据和文档类型数据中内容的快速检索。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的非结构化数据搜索方法流程图；

图2是本发明提供的非结构化数据搜索系统模块图；

图3是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图3描述本发明的非结构化数据搜索方法及系统。

图1是本发明提供的非结构化数据搜索方法流程图，如图1所示，一种非结构化数据搜索方法，包括：

步骤101：获取数据库中的非结构化数据，所述非结构化数据包括大对象数据和文档类型数据。

在一个具体的实施例中，非结构化数据可以是值班日志或者检修影响范围等具体内容。

具体地，大对象数据包括一些描述型的数据，格式有XML、JSON以及二进制流等；文档类型数据一般以文件形式存储在数据库中，格式有DOC、XLS、PPT和PDF等。

步骤102：确定所述非结构化数据在所述数据库中的存储地址。

在一个具体的实施例中，步骤102具体包括：

确定大对象数据在所述数据库中的第一存储地址；

确定文档类型数据在所述数据库中的第二存储地址。

步骤103：将所述非结构化数据转换为文本数据。

在一个具体的实施例中，步骤103具体包括：

将所述大对象数据转换为第一文本数据；

将所述文档类型数据转换为第二文本数据。

其中，需要说明的是，本发明中步骤102和步骤103的具体执行顺序不做限制。

步骤104：将所述文本数据与所述存储地址进行关联并存储，得到非结构化数据的索引内存库。

在一个具体的实施例中，步骤104包括：

将所述文本数据与所述存储地址进行关联，得到关联数据；

根据所述存储地址的存储顺序存储所述关联数据。

即本发明中根据原存储地址的存储顺序存储关联数据，便于后续对查找内容进行定位提取，能够提高数据搜索的效率。

在一个具体的实施例中，将所述文本数据与所述存储地址进行关联，得到关联数据，具体包括：

将所述第一文本数据与第一存储地址进行关联，得到第一关联数据；

将所述第二文本数据与第二存储地址进行关联，得到第二关联数据。

在一个具体的实施例中，根据所述存储地址的存储顺序存储所述关联数据，具体包括：

根据所述第一存储地址的存储顺序对所述第一关联数据进行存储；

根据所述第二存储地址的存储顺序对所述第二关联数据进行存储。

在一个具体的实施例中，所述索引内存库通过定时轮询机制进行更新。即本发明中的索引内存库能够根据数据库中非结构化数据的更新而更新，能够保证非结构化数据搜索的准确性。

步骤105：根据所述索引内存库进行非结构化数据搜索。

在一个具体的实施例中，步骤105包括：

步骤1051：获取用户输入语句。

其中，用户输入语句代表用户需要获取的数据信息。

步骤1052：根据所述用户输入语句确定关键词。

在一个具体的实施例中，采用自然语言处理技术对所述用户输入语句进行拆分，得到关键词。需要说明的的是，自然语言处理技术即NLP技术，是将输入的自然语言文本分成一个个离散的语言单元，并通过对自然语言各方面(包括话语、句法结构、单词和语意解释等)的分析，理解出用户想表达的意思，从而得到机器可读并理解的语言，即得到关键词。本发明中采用自然语言处理技术对所述用户输入语句进行拆分，能够快速准确的提取出关键词，以便后续根据所述索引内存库的内容确定匹配数据。

步骤1053：根据所述索引内存库确定所述关键词的匹配数据，得到数据搜索结果。

在一个具体的实施例中，步骤1053之后，还包括：

确定所述匹配数据与所述关键词之间的相关性；

根据所述相关性对所述数据搜索结果进行排序。

在一个具体的实施例中，确定所述匹配数据与所述关键词的相关性，包括：

根据所述匹配数据中所述关键词的出现频率确定所述匹配数据与所述关键词的相关性，所述匹配数据中所述关键词的出现频率与所述相关性呈正相关。

在一个具体的实施例中，通过对所述匹配数据与所述关键词之间的相关性进行打分，按照相关性得分从高到低的顺序对所述匹配数据进行推送或者显示。

具体地，对所述匹配数据与所述关键词之间的相关性进行打分的原理如下：

1、若同一个文档中一个词多次出现，相关性打分较高；

2、若一个词在多个文档中出现，相关性打分较低；

3、若一个词被多次历史搜索，相关性打分较高。

需要说明的是，本发明中对于具体打分的分值和具体方式不做限制，可以根据实际需求设定。

在一个具体的实施例中，结合本发明中对所述匹配数据与所述关键词之间的相关性进行打分的技术方案，本发明的索引内存库能够结合搜索过程中相关性得分，动态更新索引内存库中搜索关键字的排序，例如，若一个词被多次历史搜索，说明用户对该词需求较高，这样可以在生成搜索结果时，相关内容可以排在靠前位置进行展示或者推送，即本发明实现了搜索词更新，并利用搜索引擎逐步积累更新索引内存库，达到越搜索越快的目的。

具体的，步骤1051-1053还可以以一个实例进行说明，例如，

用户输入：XX站9月份根告警。

提取的关键词即为：XX站、9月、根告警。

输出为：9月运维报告中XX站2023年9月共发生根告警55次；9月9日值班日志中有XX站发生根告警3次，分别为XX故障、XX故障以及XX故障。

综上所述，本发明通过将通信管理系统中的非结构化数据进行抽取归集建立索引内存库，解决了原有的通信管理系统文档散乱，无法快速搜索定位、以及历史告警、处理经验和相关知识等不能快速提取共享的问题，实现了系统用户在进行告警确认、工单填报、日志填写和资源搜索等操作时，可以快速提取相关历史信息进行智能查询，大大提高系统数据应用效果和通信管理人员的工作效率。

下面对本发明提供的非结构化数据搜索系统进行描述，下文描述的非结构化数据搜索系统与上文描述的非结构化数据搜索方法可相互对应参照。

图2是本发明提供的非结构化数据搜索系统模块图，如图2所示，一种非结构化数据搜索系统，包括：

数据获取模块201，用于获取数据库中的非结构化数据，所述非结构化数据包括大对象数据和文档类型数据。

在一个具体的实施例中，非结构化数据可以是值班日志或者检修影响范围等具体内容。

存储地址确定模块202，用于确定所述非结构化数据在所述数据库中的存储地址。

在一个具体的实施例中，存储地址确定模块202具体用于：

确定大对象数据在所述数据库中的第一存储地址；

确定文档类型数据在所述数据库中的第二存储地址。

文本数据转换模块203，用于将所述非结构化数据转换为文本数据。

在一个具体的实施例中，文本数据转换模块203具体用于：

将所述大对象数据转换为第一文本数据；

将所述文档类型数据转换为第二文本数据。

关联存储模块204，用于将所述文本数据与所述存储地址进行关联并存储，得到非结构化数据的索引内存库。

在一个具体的实施例中，关联存储模块204具体同于：

将所述文本数据与所述存储地址进行关联，得到关联数据；

根据所述存储地址的存储顺序存储所述关联数据。

即本发明中根据原存储地址的存储顺序存储关联数据，便于后续对查找内容进行定位提取，能够提高数据搜索的效率。

在一个具体的实施例中，将所述文本数据与所述存储地址进行关联，得到关联数据，具体包括：

将所述第一文本数据与第一存储地址进行关联，得到第一关联数据；

将所述第二文本数据与第二存储地址进行关联，得到第二关联数据。

在一个具体的实施例中，根据所述存储地址的存储顺序存储所述关联数据，具体包括：

根据所述第一存储地址的存储顺序对所述第一关联数据进行存储；

根据所述第二存储地址的存储顺序对所述第二关联数据进行存储。

数据搜索模块205，用于根据所述索引内存库进行非结构化数据搜索。

在一个具体的实施例中，数据搜索模块205具体用于：

获取用户输入语句。

其中，用户输入语句代表用户需要获取的数据信息。

根据所述用户输入语句确定关键词。

在一个具体的实施例中，采用自然语言处理技术对所述用户输入语句进行拆分，得到关键词。

根据所述索引内存库确定所述关键词的匹配数据，得到数据搜索结果。

在一个具体的实施例中，根据所述索引内存库确定所述关键词的匹配数据之后，还包括：

确定所述匹配数据与所述关键词之间的相关性；

根据所述相关性对所述数据搜索结果进行排序。

在一个具体的实施例中，确定所述匹配数据与所述关键词的相关性，包括：

根据所述匹配数据中所述关键词的出现频率确定所述匹配数据与所述关键词的相关性，所述匹配数据中所述关键词的出现频率与所述相关性呈正相关。

本发明的上述方案通过将通信管理系统中的非结构化数据进行抽取归集，建立索引内存库，解决了原有的通信管理系统文档散乱，无法快速搜索定位、以及历史告警、处理经验和相关知识等不能快速提取共享的问题，实现了系统用户在进行告警确认、工单填报、日志填写和资源搜索等操作时，可以快速提取相关历史信息进行智能查询，大大提高系统数据应用效果和通信管理人员的工作效率。

图3示例了一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行非结构化数据搜索方法，包括：

获取数据库中的非结构化数据，所述非结构化数据包括大对象数据和文档类型数据。

确定所述非结构化数据在所述数据库中的存储地址。

将所述非结构化数据转换为文本数据。

将所述文本数据与所述存储地址进行关联并存储，得到非结构化数据的索引内存库。

根据所述索引内存库进行非结构化数据搜索。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行非结构化数据搜索方法，包括：

获取数据库中的非结构化数据，所述非结构化数据包括大对象数据和文档类型数据。

确定所述非结构化数据在所述数据库中的存储地址。

将所述非结构化数据转换为文本数据。

将所述文本数据与所述存储地址进行关联并存储，得到非结构化数据的索引内存库。

根据所述索引内存库进行非结构化数据搜索。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行非结构化数据搜索方法，包括：

获取数据库中的非结构化数据，所述非结构化数据包括大对象数据和文档类型数据。

确定所述非结构化数据在所述数据库中的存储地址。

将所述非结构化数据转换为文本数据。

将所述文本数据与所述存储地址进行关联并存储，得到非结构化数据的索引内存库。

根据所述索引内存库进行非结构化数据搜索。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：北京市天元网络技术股份有限公司;

上一篇：用于确定资源的方法和无线发射/接收单元
下一篇：一种铸材表面瑕疵边缘视觉检测方法、系统、装置及介质