基于近似词的模糊匹配媒资内容库检索方法

文献发布时间：2023-06-19 11:29:13

技术领域

本发明涉及新闻媒资检索领域，更为具体的，涉及基于近似词的模糊匹配媒资内容库检索方法。

背景技术

广播电视行业拥有非常丰富的数据资源。据相关调查数据显示，在美国17个行业所拥有的数据总量排名中，传媒业占据第三位。近年来，随着我国广播电视行业的快速发展，媒体内容数据更是呈爆炸式增长，与此同时也给媒体资源的再利用带来了挑战。在汇聚了台内、外媒、用户生产数据等的内容库中，高效地完成检索对于有效获取相关素材，再推送到节目生产环节、提高节目生产率，丰富节目生产资源等具有非常重要的意义。

另一方面，为了提升编目质量和工作效率，媒体数据资料管理从传统的人工编目逐步转换到依托智能化管理平台的自动编目。通过实体识别、人脸识别、场景分类、关键词识别等相关AI技术，媒体内容素材实现了智能化标引。用户可以在内容库中检索需要的标签，如人名、场景、地点、分类类别、关键词等搜索相关媒体素材然后打点出库。但是同多数搜索工具一样，检索结果依赖于用户输入内容的准确性。完全匹配检索方式下，用户可能无法获得想要的素材，也可能错过其他相关素材。

为了解决上述问题，本发明提出一种基于近似词的模糊匹配媒资内容库检索方法。

发明内容

本发明的目的在于克服现有技术的不足，提供基于近似词的模糊匹配媒资内容库检索方法，将完全匹配检索转换成模糊匹配检索，能够在更好地覆盖用户的检索意图的情况下获得更广泛且与用户想要的结果相关的素材检索结果等。

本发明的目的是通过以下方案实现的：

一种基于近似词的模糊匹配媒资内容库检索方法，包括步骤：

S1，获取新闻文本语料，构建用于训练FastText词向量模型的学习样本；

S2，基于步骤S1所构建的学习样本进行FastText词向量模型的训练，获得词向量模型；

S3，利用步骤S2中训练好的词向量模型和近似最近邻方法Hnswlib构建近似词检索模型，利用所述近似词检索模型获取输入的检索词的相似词作为扩展目标检索词组，基于该扩展目标检索词组在内容库中进行相关素材检索，然后将检索结果返回给用户。

在获取新闻文本语料时，可以利用爬虫等工具。

进一步地，在步骤S1中，包括步骤：

在步骤S1中，包括步骤：

S11，对获取的新闻文本语料进行清洗和分句；

S12，基于LTP工具以及词库对步骤S11中清洗和分句后获得的文本句进行分词和去停用词处理；

S13，按FastText词向量模型输入要求，整理经过步骤S12处理后的文本数据，构成最终的学习样本。

在构建用于训练FastText词向量模型的学习样本时，首先要对获取的新闻文本语料进行清洗和分句。其中，除常规清洗手段外，还应进行一些特殊处理，如去“同期声”、“导语”、“正文”等词。在文本清洗分句后，可以再基于现有LTP工具（Wanxiang Che, ZhenghuaLi, Ting Liu. LTP: A Chinese Language Technology Platform. In Proceedings ofthe Coling 2010:Demonstrations. 2010.08, pp13-16, Beijing, China.）以及各种词库（如分词词库、停用词库）对获得的文本句进行分词和去停用词等处理，最后，按FastText模型输入要求整理处理好的文本数据构成最终的学习样本。

进一步地，在步骤S2中，进行FastText词向量模型的训练时，词向量维度设置为300。

进一步地，在步骤S11中，还对获取的新闻文本语料进行去同期声、去导语、去正文处理。

进一步地，在步骤S3中，包括如下步骤：

S31，加载基础词库，并将加载的基础词库作为近似词检索候选词库

S32，加载训练好的FastText词向量模型，对步骤S31中近似词检索候选词库

S33，根据步骤S31中的近似词检索候选词库

S34，获取用户在内容库中的检索文本，对其进行分词处理，将获得的分词结果

S35，对步骤S34中目标检索词组

S36，基于步骤S35中获得的扩展目标检索词组

在该实施例的技术方案中，考虑到检索结果依赖于用户输入内容的准确性，但是由于中文文本的丰富性和灵活性，用户在检索素材时的输入可能并不能完全匹配上媒体内容素材的智能化标引标签，如此在完全匹配检索方式下，用户可能无法获得想要的素材，也可能错过其他相关素材。因此，在该实施例技术方案中主要通过构建并利用近似词检索模型获取输入的检索词的相似词作为扩展目标检索词组，基于该扩展目标检索词组在内容库中进行相关素材检索，来使得检索匹配的结果更加广泛以便更好地覆盖用户搜索意图。

进一步地，在步骤S33中，所述相似度计算方法包括夹角余弦函数。

本发明的有益效果包括：

本发明通过构建近似词检索模型，对用户检索媒资内容库时的检索内容进行近似词召回，基于召回的所有近似词进行扩展检索的方式将完全匹配检索转换成模糊匹配检索，能够在更好地覆盖用户的检索意图的情况下获得更广泛且与用户想要的结果相关的素材检索结果，在融合媒体发展时代，可以进一步为媒体资源的再利用做出一定的贡献。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的方法步骤流程图。

具体实施方式

本说明书中所有实施例公开的所有特征，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

实施例1

如图1所示，一种基于近似词的模糊匹配媒资内容库检索方法，包括步骤：

S1，获取新闻文本语料，构建用于训练FastText词向量模型的学习样本；

S2，基于步骤S1所构建的学习样本进行FastText词向量模型的训练，获得词向量模型；

S3，利用步骤S2中训练好的词向量模型和近似最近邻方法Hnswlib构建近似词检索模型，利用近似词检索模型获取输入的检索词的相似词作为扩展目标检索词组，基于该扩展目标检索词组在内容库中进行相关素材检索，然后将检索结果返回给用户。

在获取新闻文本语料时，可以利用爬虫等工具。

实施例2

在实施例1的基础上，更进一步地对实施例1中的步骤S1执行如下步骤：

S11，对获取的新闻文本语料进行清洗和分句；

S12，基于LTP工具以及词库对步骤S11中清洗和分句后获得的文本句进行分词和去停用词处理；

S13，按FastText词向量模型输入要求，整理经过步骤S12处理后的文本数据，从而构成最终的学习样本。

在该实施例的技术方案中，在构建用于训练FastText词向量模型的学习样本时，首先要对获取的新闻文本语料进行清洗和分句。其中，除常规清洗手段外，还应进行一些特殊处理，如去“同期声”、“导语”、“正文”等词。在文本清洗分句后，再基于现有LTP工具（Wanxiang Che, Zhenghua Li, Ting Liu. LTP: A Chinese Language TechnologyPlatform. In Proceedings of the Coling 2010:Demonstrations. 2010.08, pp13-16,Beijing, China.）以及各种词库（如分词词库、停用词库）对获得的文本句进行分词和去停用词等处理，最后，按FastText模型输入要求，将处理后的文本数据用来构成最终的学习样本。

实施例3

在实施例1的基础上，更进一步地对实施例1中步骤S3执行如下步骤：

S31，加载基础词库，将加载的基础词库作为近似词检索候选词库

S32，加载训练好的FastText词向量模型，对步骤S31中近似词检索候选词库

S33，根据步骤S31中的近似词检索候选词库

S34，获取用户在内容库中的检索文本，对其进行分词处理，将获得的分词结果

S35，对步骤S34中目标检索词组

除以上实例以外，本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例，各个实施例的特征可以互换或替换，本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

本发明功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，在一台计算机设备（可以是个人计算机，服务器，或者网络设备等）以及相应的软件中执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、或者光盘等各种可以存储程序代码的介质，进行测试或者实际的数据在程序实现中存在于只读存储器（Random Access Memory，RAM）、随机存取存储器（Random Access Memory，RAM）等。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：杨瀚;朱婷婷;温序铭;李忠玮;严照宇;
专利申请人：成都索贝数码科技股份有限公司;

上一篇：一种弹性热刀解锁装置
下一篇：基于RGB点云的平整柏油路面RGB信息的修正方法