掌桥专利:专业的专利平台
掌桥专利
首页

一种小样本食品标题的检索方法及装置

文献发布时间:2024-04-18 19:59:31


一种小样本食品标题的检索方法及装置

技术领域

本发明涉及人工智能信息检索技术领域,特别涉及一种小样本食品标题的检索方法及装置。

背景技术

在数据库检索场景中,往往需要在检索系统中检索预包装食品库中相关食品名称。例如用户输入食品名称(例如:猪肉)时,搜索出预包装食品库(存储有“××××品牌荠菜猪肉水饺720g”等类似食品名称标题)中与猪肉相似度较高的预包装食品名称,并且计算出用户输入的食品名称与预包装食品库中食品名称的相似度。

现有技术基本通过以下三种方案实现:

方案一:利用TF-IDF模型计算检索词和召回候选集的文本相似度;

方案二:利用Word2vec模型计算检索词和召回候选集的文本相似度;方案三:利用BERT-flow模型计算检索词和召回候选集的文本相似度;

然而,食品标题检索场景中的任务可以归结为小样本、短文本相似度任务,存在数据样本少、食物标题知识关联严重不足和食物标题成分冗余等问题。方案一完全基于字符表面含义,无法解决同一食物不同名称(“番茄”和“西红柿”)的相似性关联问题;方案二不能完全覆盖单词,不能解决一词多义场景,语义范围受到窗口限制;方案三的识别速度慢,语义向量之间存在各向异性,即相似度值过高、不好界定相似或不相似的阈值。

因此,现有技术无法很好的解决食品标题检索场景中的小样本、短文本相似度任务。

发明内容

鉴于现有技术中的上述缺陷或不足,本发明提供了一种小样本食品标题的检索方法及装置,采用了实体抽取模型和大模型相融合的策略方案,其中实体抽取模型主要解决小样本和成分冗余的问题,大模型主要解决食物背景知识关联的问题,本发明很好的解决了食品标题检索场景中的小样本、短文本相似度任务。

本发明的一个方面,提供了一种小样本食品标题的检索方法,包括:

通过训练好的实体抽取模型对加载的食品名称语料库中的食品语料抽取相应的食品名称;获取用户输入的检索词,根据所述检索词从加载的倒排索引表中召回食品名称语料库中相关的食品语料;将召回的食品语料对应的食品名称和检索词输入至训练好的大模型中进行文本向量化处理,得到处理后的文本向量;通过训练好的大模型对所述文本向量进行余弦相似度计算,并根据相似度大小进行排序。

进一步的,该方法还包括:对加载的食品名称语料库中的食品语料进行预处理;对预处理后的食品语料按照预设的多个槽位进行标注;对预处理后的食品语料进行文本切分和切块向量化处理;训练实体抽取模型对食品语料进行槽位抽取,得到训练好的实体抽取模型。

进一步的,所述根据所述检索词从加载的倒排索引表中召回食品名称语料库中相关的食品语料,还包括:对检索词进行预处理和分词处理。

进一步的,所述槽位包括品牌、食物素材、食品名称、容量和口味。

进一步的,所述实体抽取模型为BiLSTM+CRF模型,所示大模型为M3E模型。

本发明的另一方面,还提供了一种小样本食品标题的检索装置,包括:

实体抽取模块,被配置为通过训练好的实体抽取模型对加载的食品名称语料库中的食品语料抽取相应的食品名称;

检索模块,被配置为获取用户输入的检索词,根据所述检索词从加载的倒排索引表中召回食品名称语料库中相关的食品语料;

文本向量化模块,被配置为将召回的食品语料对应的食品名称和检索词输入至训练好的大模型中进行文本向量化处理,得到处理后的文本向量;

相似度计算模块,被配置为通过训练好的大模型对所述文本向量进行余弦相似度计算,并根据相似度大小进行排序。

进一步的,还包括实体抽取模块预训练模块,被配置为:对加载的食品名称语料库中的食品语料进行预处理;对预处理后的食品语料按照预设的多个槽位进行标注;对预处理后的食品语料进行文本切分和切块向量化处理;训练实体抽取模型对食品语料进行槽位抽取,得到训练好的实体抽取模型。

进一步的,所述检索模块被进一步配置为:对检索词进行预处理和分词处理。

进一步的,所述槽位包括品牌、食物素材、食品名称、容量和口味。

进一步的,所述实体抽取模型为BiLSTM+CRF模型,所示大模型为M3E模型。

本发明提供的一种小样本食品标题的检索方法及装置,能够解决检索任务中的小样本、知识背景缺乏、标题信息冗余的技术问题,相对于目前业界端到端的相似度算法,消除了小样本带来的模型训练不足,借助大模型基于亿级数据训练的丰富的知识关联,提高了信息纯度,消除了噪音数据的干扰。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:

图1是本申请一个实施例提供的一种小样本食品标题的检索方法的流程示意图;

图2是本申请一个实施例提供的一种小样本食品标题的检索装置的结构示意图;

图3本申请一个实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。

应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述获取模块,但这些获取模块不应限于这些术语。这些术语仅用来将获取模块彼此区分开。

取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

需要注意的是,本发明实施例所描述的“上”、“下”、“左”、“右”等方位词是以附图所示的角度来进行描述的,不应理解为对本发明实施例的限定。此外在上下文中,还需要理解的是,当提到一个元件被形成在另一个元件“上”或“下”时,其不仅能够直接形成在另一个元件“上”或者“下”,也可以通过中间元件间接形成在另一元件“上”或者“下”。

本申请的关键术语以及技术缩略语:

检索系统(Information Retrieval System):根据特定的信息需求而建立起来的一种有关信息搜集、加工、存储和检索的程序化系统。

大模型:具有大量参数和计算资源的机器学习模型。这些模型通常在训练过程中需要大量的数据和计算能力,并且具有数百万到数十亿个参数。

实体抽取模型:实体抽取(Entity Extraction,EE)的目标就是识别一段文本中所包含的实体,也被称之为“实体抽取(Entity Recognition,ER)模型”、“命名实体抽取(Named Entity Recognition,NER)模型”。

为了解决小样本、短文本相似度任务存在的数据样本少、食物标题知识关联严重不足和食物标题成分冗余的问题,本发明采用了实体抽取模型与大模型相融合的策略方案,其中实体抽取模型主要解决小样本和成分冗余的问题,大模型解决食物背景知识关联的问题。为了便于说明,本发明实施例的实体抽取模型采用BiLSTM+CRF模型,大模型文本表征使用M3E模型,但是不限于上述具体模型。

参见图1,本实施例的小样本食品标题的检索方法包括如下步骤:

步骤S101,通过训练好的实体抽取模型对加载的食品名称语料库中的食品语料抽取相应的食品名称。

具体的,对加载的食品名称语料库中的食品语料(例如:食品语料/食品标题“湾仔码头荠菜.猪肉水饺720g!。”)进行去除标点符号等预处理操作,然后,对食品语料/食品标题进行槽位设计,例如:将槽位设置为共有品牌(湾仔码头)、食物素材(荠菜)、食物名称(猪肉水饺)、容量(720g)和口味五个槽位,但不限于此,可根据场景设计私有的槽位。然后,对预处理后的食品语料按照预设的多个槽位进行标注,标注模式例如可以采用BMEO(B-开始、M-中间、E-结束、O-其他)模式,对预处理后的食品语料进行文本切分和切块向量化处理,具体的,进行tokenize化、token切分和文本向量化。训练BiLSTM+CRF模型对食品语料进行槽位抽取,直至可以准确的提取出食品名称和其他槽位,最终得到训练好的BiLSTM+CRF模型。

用训练好的BiLSTM+CRF模型对加载的食品名称语料库中的食品语料抽取相应的食品名称。

步骤S102,获取用户输入的检索词,根据所述检索词从加载的倒排索引表中召回食品名称语料库中相关的食品语料;

具体的,获取用户输入的检索词,例如:“猪肉馅做的”,去除检索词中的标点符号和异常字符,对检索词进行分词处理,并根据分词处理后获得的单词查询预先构建的倒排索引表,从倒排索引表中召回食品名称语料库中相关的所有食品语料。

例如:对输入的检索词“湾仔码头荠菜猪肉水饺720g”进行切词之后得到['湾仔','码头','荠菜','猪肉','水饺','720g'],根据单词“湾仔”去倒排索引表中召回所有标题里含有“湾仔”的食物标题/食物语料。

步骤S103,将召回的食品语料对应的食品名称和检索词输入至训练好的大模型中进行文本向量化处理,得到处理后的文本向量;

具体的,将召回的食品语料对应的食品名称和检索词本身输入至M3E大模型中,利用M3E大模型对检索词和召回食品语料的食品名称进行向量化处理。

例如:食品语料库有四条文本语料集“湾仔码头荠菜猪肉水饺720g”、“正大食品玉米蔬菜猪肉蒸饺”、“湾仔码头速冻水饺芹菜猪肉口味”、“良品铺子猪肉脯”,对四条食物标题进行第三方工具分词,得到corpus(二维数组容器),其中corpus二维数组里的元素为一数组,子数组的元素为分词之后的单词(corpus:[['湾仔','码头','荠菜','猪肉','水饺','720g'],['正大','食品','玉米','蔬菜','猪肉','蒸饺'],['湾仔','码头','速冻','水饺','芹菜','猪肉','口味'],['良品','铺子','猪肉','脯']]),根据单词构造词典['湾仔','码头','荠菜','猪肉','水饺','720g','正大','食品','玉米','蔬菜','蒸饺','速冻','芹菜','口味','良品','铺子','脯'],再对食物标题进行TF-IDF向量化得到处理后的文本向量:

[[0.1665,0.1665,0.333,0,0.1665,0.333,0,0,0,0,0,0,0,0,0,0,0],[0,0,0,0,0,0,0.333,0.333,0.333,0.333,0.333,0,0,0,0,0,0],[0.1665,0.1665,0,0,0.1665,0,0,0,0,0,0,0.333,0.333,0.333,0,0,0],[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0.333,0.333,0.333]]

检索词的文本向量化处理也采用上述相同的方法。

步骤S104,通过训练好的大模型对所述文本向量进行相似度计算,并根据相似度大小进行排序。

具体的,可采用向量内积相似度计算或向量余弦相似度计算。例如,计算检索词与候选集的相似度,其中,检索词:[x

本实施例采用了实体抽取模型和大模型相融合的策略方案,其中实体抽取模型主要解决小样本和成分冗余的问题,大模型主要解决食物背景知识关联的问题。本实施例消除了小样本带来的模型训练不足,借助大模型基于亿级数据训练的丰富的知识关联,提高了信息纯度,消除了噪音数据的干扰,进而很好的解决了食品标题检索场景中的小样本、短文本相似度任务。

参见图2,本发明的另一实施例还提供了一种小样本食品标题的检索装置200,包括实体抽取模块201、检索模块202、文本向量化模块203、相似度计算模块204。该小样本食品标题的检索装置200能够执行方法实施例中的小样本食品标题的检索方法。

具体的,小样本食品标题的检索装置200被配置为:

实体抽取模块201,被配置为通过训练好的实体抽取模型对加载的食品名称语料库中的食品语料抽取相应的食品名称;

检索模块202,被配置为获取用户输入的检索词,根据所述检索词从加载的倒排索引表中召回食品名称语料库中相关的食品语料;

文本向量化模块203,被配置为将召回的食品语料对应的食品名称和检索词输入至训练好的大模型中进行文本向量化处理,得到处理后的文本向量;

相似度计算模块204,被配置为通过训练好的大模型对所述文本向量进行余弦相似度计算,并根据相似度大小进行排序。

进一步的,还包括实体抽取模块预训练模块205,被配置为:对加载的食品名称语料库中的食品语料进行预处理;对预处理后的食品语料按照预设的多个槽位进行标注;对预处理后的食品语料进行文本切分和切块向量化处理;训练实体抽取模型对食品语料进行槽位抽取,得到训练好的实体抽取模型。

进一步的,所述检索模块202被进一步配置为:对检索词进行预处理和分词处理。

进一步的,所述槽位包括品牌、食物素材、食品名称、容量和口味。

进一步的,所述实体抽取模型为BiLSTM+CRF模型,所示大模型为M3E模型。

需要说明的是,本实施例提供的小样本食品标题的检索装置200对应的可用于执行各方法实施例的技术方案,其实现原理和技术效果与方法类似,此处不再赘述。

参见图3,本发明的另一实施例还提供了一种用于实现上述小样本食品标题的检索方法的电子设备300。本实施例中的电子设备300可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)以及诸如台式计算机等固定终端。图3示出的电子设备300仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图3所示,电子设备300可以包括处理装置(例如中央处理器、图形处理器等)301,其可以根据存储在只读存储器(ROM)302中的程序或者从存储装置308加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理以实现如本发明描述的各实施例的方法。在RAM 303中,还存储有电子设备300操作所需的各种程序和数据。处理装置301、ROM302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。

通常,以下装置可以连接至I/O接口305:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置306;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置307;包括例如磁带、硬盘等的存储装置308;以及通信装置309。通信装置309可以允许电子设备300与其他设备进行无线或有线通信以交换数据。虽然图3示出了具有各种装置的电子设备300,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代的实施或具备更多或更少的装置。

特别的,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码,从而实现如上描述的智能打印方法。在这样的实施例中,该计算机程序可以通过通信装置309从网络上被下载和安装,或者从存储装置308被安装,或者从ROM302被安装。在该计算机程序被处理装置301执行时,执行本发明实施例的方法中限定的上述功能。

以上描述仅为本发明的较佳实施例。本领域技术人员应当理解,本发明中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

技术分类

06120116524447