掌桥专利:专业的专利平台
掌桥专利
首页

一种文本标签的提取方法和装置

文献发布时间:2023-06-19 11:42:32


一种文本标签的提取方法和装置

技术领域

本发明涉及计算机领域,尤其涉及一种文本标签的提取方法和装置。

背景技术

在电子商务平台,每天会有数万的活跃商家发布千万级数量的物品。商家为了让自己的物品获得更多、更精准的流量,会给物品贴标签,以吸引相应的用户,提高物品转化率。

现有技术中,一般通过以下几种方式为物品生成标签。方式一:后台运营人员根据对物品的理解,以及平台支持的标签体系,选择合适的标签;方式二:利用标签体系包含的标签值,对物品标题进行逐一匹配,生成所有可能的标签;方式三:基于人工智能算法训练模型,以通过模型自动生成标签。

在实现本发明过程中,发明人发现现有技术中至少存在如下问题:

方式一处理效率低,准确率差,而且人力成本高;方式二仅能提取与标签体系完全匹配的标签,无法提取出分散型标签、相似性标签;方式三依赖大量的训练文本和标签训练集数据,而且需要人工标注,如果标签系统库数据有变化,则需要重新收集训练集数据,重新训练模型,无法满足业务需求。

发明内容

有鉴于此,本发明实施例提供一种文本标签的提取方法和装置,对目标文本按照标签字典树结构进行所有可能的路径搜索,得到初始标签集,后续基于初始标签与基准标签的相似度,确定最终标签集,实现了文本标签的自动化提取,提高标签提取的效率和准确率,降低了人力成本。

为实现上述目的,根据本发明实施例的一个方面,提供了一种文本标签的提取方法。

本发明实施例的一种文本标签的提取方法,包括:获取目标文本,访问预先构建的标签字典树的节点,以按照所述节点之间的归属关系,从所述标签字典树中确定存在于所述目标文本的节点值,生成初始标签集;判断所述初始标签集的初始标签是否存在于设定基准标签集中,以分别计算不存在于所述基准标签集的至少一个初始标签与所述基准标签集的基准标签之间的相似度;根据相似度计算结果,从所述基准标签集中为所述至少一个初始标签分别选取对应的目标基准标签,使用所述目标基准标签对应替换所述至少一个初始标签,得到最终标签集。

可选地,按照节点之间的归属关系,从所述标签字典树中确定存在于所述目标文本的节点值,生成一个初始标签,包括:初始化空字符串,将归属于根节点的当前未被访问的叶子节点作为当前节点,访问所述当前节点,确定所述目标文本中存在所述当前节点的节点值;判断拼接:判断所述当前节点是否存在未被访问的叶子节点,如果所述当前节点存在未被访问的叶子节点,且所述目标文本中存在所述叶子节点的节点值,则拼接所述当前节点的节点值和所述叶子节点的节点值;更新:使用拼接后的节点值更新所述字符串,将所述叶子节点作为所述当前节点;重复执行所述判断拼接步骤和所述更新步骤,直至所述当前节点不存在所述叶子节点时,将更新后的所述字符串作为一个初始标签。

可选地,从所述基准标签集中为当前初始标签选取对应的目标基准标签,包括:确定所述当前初始标签与所述基准标签集的基准标签之间的最大相似度;比较所述最大相似度与设定阈值的大小,如果所述最大相似度大于等于所述阈值,则选取所述最大相似度对应的基准标签作为目标基准标签。

可选地,所述方法还包括:按照设定粒度拆分所述基准标签集的基准标签,以构建所述标签字典树。

可选地,按照设定粒度拆分所述基准标签集的基准标签,以构建所述标签字典树,包括:增加根节点,从所述基准标签集中选取当前基准标签;拆分:按照字符粒度拆分所述当前基准标签,得到多个单字符;判断:根据所述单字符在所述当前基准标签的原始顺序,依次判断所述单字符是否存在于字典树路径中;增加:如果所述单字符不存在于所述字典树路径中,则在所述字典树路径中增加所述单字符对应的节点;从所述基准标签集中选取下一基准标签作为所述当前基准标签,重复执行所述拆分步骤、所述判断步骤和所述增加步骤,直至最后一个基准标签,得到所述标签字典树。

可选地,所述方法还包括:按照字符粒度,对所述目标文本进行分词处理;判断分词后的目标文本中是否存在所述叶子节点的节点值。

可选地,计算不存在于所述基准标签集的至少一个初始标签与所述基准标签集的基准标签之间的相似度,包括:采用下列任意一种方式计算不存在于所述基准标签集的至少一个初始标签与所述基准标签集的基准标签之间的相似度:计算编辑距离、余弦距离、欧式距离、Jaccard距离。

为实现上述目的,根据本发明实施例的另一方面,提供了一种文本标签的提取装置。

本发明实施例的一种文本标签的提取装置,包括:获取生成模块,用于获取目标文本,访问预先构建的标签字典树的节点,以按照所述节点之间的归属关系,从所述标签字典树中确定存在于所述目标文本的节点值,生成初始标签集;相似度计算模块,用于判断所述初始标签集的初始标签是否存在于设定基准标签集中,以分别计算不存在于所述基准标签集的至少一个初始标签与所述基准标签集的基准标签之间的相似度;标签确定模块,用于根据相似度计算结果,从所述基准标签集中为所述至少一个初始标签分别选取对应的目标基准标签,使用所述目标基准标签对应替换所述至少一个初始标签,得到最终标签集。

可选地,所述获取生成模块,还用于:初始化空字符串,将归属于根节点的当前未被访问的叶子节点作为当前节点,访问所述当前节点,确定所述目标文本中存在所述当前节点的节点值;判断拼接:判断所述当前节点是否存在未被访问的叶子节点,如果所述当前节点存在未被访问的叶子节点,且所述目标文本中存在所述叶子节点的节点值,则拼接所述当前节点的节点值和所述叶子节点的节点值;更新:使用拼接后的节点值更新所述字符串,将所述叶子节点作为所述当前节点;重复执行所述判断拼接步骤和所述更新步骤,直至所述当前节点不存在所述叶子节点时,将更新后的所述字符串作为一个初始标签。

可选地,所述标签确定模块,还用于:确定所述当前初始标签与所述基准标签集的基准标签之间的最大相似度;比较所述最大相似度与设定阈值的大小,如果所述最大相似度大于等于所述阈值,则选取所述最大相似度对应的基准标签作为目标基准标签。

可选地,所述装置还包括:字典树构建模块,用于按照设定粒度拆分所述基准标签集的基准标签,以构建所述标签字典树。

可选地,所述字典树构建模块,还用于:增加根节点,从所述基准标签集中选取当前基准标签;拆分:按照字符粒度拆分所述当前基准标签,得到多个单字符;判断:根据所述单字符在所述当前基准标签的原始顺序,依次判断所述单字符是否存在于字典树路径中;增加:如果所述单字符不存在于所述字典树路径中,则在所述字典树路径中增加所述单字符对应的节点;从所述基准标签集中选取下一基准标签作为所述当前基准标签,重复执行所述拆分步骤、所述判断步骤和所述增加步骤,直至最后一个基准标签,得到所述标签字典树。

可选地,所述装置还包括:分词判断模块,用于按照字符粒度,对所述目标文本进行分词处理;以及判断分词后的目标文本中是否存在所述叶子节点的节点值。

可选地,相似度计算模块,还用于:采用下列任意一种方式计算不存在于所述基准标签集的至少一个初始标签与所述基准标签集的基准标签之间的相似度:计算编辑距离、余弦距离、欧式距离、Jaccard距离。

为实现上述目的,根据本发明实施例的再一方面,提供了一种电子设备。

本发明实施例的一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例的一种文本标签的提取方法。

为实现上述目的,根据本发明实施例的再一方面,提供了一种计算机可读介质。

本发明实施例的一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例的一种文本标签的提取方法。

上述发明中的一个实施例具有如下优点或有益效果:对目标文本按照标签字典树结构进行所有可能的路径搜索,得到初始标签集,后续基于初始标签与基准标签的相似度,确定最终标签集,实现了文本标签的自动化提取,提高标签提取的效率和准确率,降低了人力成本;基于深度优先遍历算法获取所有可能的标签路径,提高路径搜索效率,保证路径搜索的完整性。

上述发明中的一个实施例具有如下优点或有益效果:通过相似度和阈值比较,将目标文本中未出现在基准标签集的字符进行转换,成功提取了分散性标签、相似性标签;将基准标签集重构成标签字典树,减少后续路径搜索的时间,提高查询效率;以字符粒度拆分基准标签集的基准标签,进而构建标签字典树,进一步保证分散性标签、相似性标签提取的准确率。

上述发明中的一个实施例具有如下优点或有益效果:按照字符粒度对目标文件进行分词处理,以相同粒度比对目标文件的字符和标签字典树的节点值,保证标签提取的准确率;通过计算不存在于基准标签集的初始标签与每个基准标签之间的相似度,保证后续对分散性标签、相似性标签的成功提取。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明,不构成对本发明的不当限定。其中:

图1是根据本发明实施例的文本标签的提取方法的主要步骤的示意图;

图2是根据本发明实施例的文本标签的提取方法的提取原理示意图;

图3是根据本发明实施例的文本标签的提取方法的主要流程示意图;

图4是本发明实施例的字典树路径添加过程示意图;

图5是本发明实施例的标签字典树的构建过程示意图;

图6是本发明实施例的标签字典树的构建结果示意图;

图7是本发明实施例的生成初始标签集的主要流程示意图;

图8是根据本发明实施例的文本标签的提取装置的主要模块的示意图;

图9是本发明实施例可以应用于其中的示例性系统架构图;

图10是适用于来实现本发明实施例的电子设备的计算机装置的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

下面对本发明实施例涉及到的技术术语进行解释说明。

标签:根据物品自身的颜色、尺寸、图案、风格等信息而抽象出的一种感性分类特点。

字典树:是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。

搜索、召回、曝光、转化:是用户与网站中交互过程产生的一系列行为。其中,搜索是指用户根据自身需要在网站中输入关键词的行为;召回是指网站根据用户搜索用的关键词,进行复杂算法匹配后,呈现给用户一些可能感兴趣结果的行为;曝光是指网站通过算法分析后暴露给用户的结果;转化是指用户的下单行为。

编辑距离:是一种计算文本相似度的算法,主要理论依据是,如果字符串1通过增加、删除、修改等操作能变换成字符串2,如果相关操作次数越少,则表示字符串1和字符串2越相似。

在电子商务平台,商家会给物品贴标签,以吸引相应的用户,提高物品转化率。比如对于物品标题“xxxx休闲裤男2019秋冬季厚款修身直筒小脚男裤韩版青年商务西裤弹力复古长裤子男1047卡其色31”,对应标签为“韩版”、“商务休闲”、“复古风”,其中,“xxxx”为品牌名称。通过这种标签吸引对“韩版/商务休闲/复古风”服饰感兴趣的用户,并推荐给该用户,以提高商品转化率。

现有技术中通过多种方式为物品添加标签,比如商家人工手动选择、后台运营人员人工手动选择、绝对匹配的方式提取标签、利用算法提取标签等。下面对每种方式进行详细说明。

对于商家人工手动选择的方式,为了吸引更多流量,商家可能会添加一些不符合该物品的标签。比如对上例的物品添加“欧美风”、“机车范”这种标签,按照搜索召回侧规则,会对“欧美风”、“机车范”感兴趣的用户曝光该物品,这样虽然吸引到了更多的用户流量,但是由于用户本身对这类物品并不感兴趣,大概率并不会促进物品转化,也即是无效流量,并且同时会给用户带来不好的使用体验。也有一些商家对平台现阶段支持的标签体系并不熟悉,难以贴上合适的标签。

对于后台运营人员人工手动选择的方式,运营人员根据对物品的理解,以及平台支持的标签体系,选择合适的标签。仍旧以上述物品标题为例,标题中包含的标签“韩版”,拼凑对应的标签是“商务休闲”,相似对应的标签是“复古风”,然后基于业务方运营经验,可综合得出该物品标题最终指向的标签是“韩版”、“商务休闲”、“复古风”。虽然该方式相比商家人工手动选择的方式,其结果准确性更为可靠。但是该方式处理效率低,准确率差,而且人力成本高。

对于绝对匹配的方式提取标签的方式,利用标签体系包含的标签值,对物品标题进行逐一匹配,生成所有可能的标签。仍旧以上述物品标题为例,“韩版”是标签体系的有效值,会被提取出来。“商务休闲”虽然是标签体系的有效值,但是由于“商务”和“休闲”散落在标题文本中的不同位置,依靠强行匹配的方式无法以“商务休闲”的形式提取出来;“复古风”虽然也是标签体系的有效值,但是其与标题中关键字“复古”不完全一致,所以也无法通过强行匹配的方式获取出来。即无法提取出分散型标签、相似性标签。

对于利用算法提取标签的方式,比如基于人工智能算法,基于正则和三元组关系来预测标签,通过word2vec(用来产生词向量的模型)和标签知识网络预测标签。基于训练文本和训练标签建立分类模型给出预测标签的方法,依赖大量的训练文本和标签训练集数据,需要大量人力标注成本,标签系统库数据如果有变化,则需要重新收集训练数据,训练对应模型,并观察测试效果调整最优参数,不能适应标签体系这种灵活变化的业务特点;基于正则结合三元组关系,无法及时满足现有业务系统要求;基于word2vec和标签知识网络预测标签的方法,由于word2vec本身是一种无监督算法,其计算结果往往会有很大的不确定性。

基于上述问题,本发明提供了一种自动化的提取文本标签的方法,对于商家来说,可以获得更为精准的用户流量,辅助引导更为有效,提高物品转化率,进而可以更有效地进行用户行为分析、搜索推荐等相关工作;对于电子商务平台生态来说,可以提高搜索推荐准确性、稳定性、减少无效流量、降低人工成本;同时用户也可以得到更好的体验。下面对本发明实施例的文本标签的提取方法进行详细说明。

图1是根据本发明实施例的文本标签的提取方法的主要步骤的示意图。如图1所示,本发明实施例的文本标签的提取方法,主要包括如下步骤:

步骤S101:获取目标文本,访问预先构建的标签字典树的节点,以按照节点之间的归属关系,从标签字典树中确定存在于目标文本的节点值,生成初始标签集。目标文本即待提取文本标签的文本。首先按照设定粒度分别拆分基准标签集的多个基准标签,通过树结构重新整理生成标签字典树。

之后按照设定粒度对目标文本进行分词处理,对分词后的目标文本按照标签字典树的结构进行所有可能的路径搜索,得到所有标签值路径序列,该标签值路径序列构成初始标签集。

步骤S102:判断初始标签集的初始标签是否存在于设定基准标签集中,以分别计算不存在于基准标签集的至少一个初始标签与基准标签集的基准标签之间的相似度。判断初始标签集的当前初始标签是否存在基准标签集中,如果存在于基准标签集中,则继续对下一初始标签做判断;如果不存在于基准标签集中,则分别计算当前初始标签与基准标签集中多个基准标签之间的相似度,相似度计算完成后,继续对下一初始标签做判断。

步骤S103:根据相似度计算结果,从基准标签集中为至少一个初始标签分别选取对应的目标基准标签,使用目标基准标签对应替换至少一个初始标签,得到最终标签集。其中,最终标签集包括初始标签集的存在于基准标签集的初始标签,以及使用目标基准标签对应替换不存在于基准标签集的初始标签后的结果。如果当前初始标签不存在于基准标签集中,则确定当前初始标签与基准标签集的多个基准标签之间的最大相似度。

之后比较最大相似度与设定阈值的大小,如果最大相似度大于等于阈值,则选取最大相似度对应的基准标签作为目标基准标签,再使用目标基准标签对应替换初始标签集的当前初始标签。如果最大相似度小于阈值,则发出提示信息。按照上述方式,将不存在于基准标签集的每个初始标签替换为对应的目标基准标签,即可得到最终标签集。

图2是根据本发明实施例的文本标签的提取方法的提取原理示意图。如图2所示,本发明实施例的文本标签的提取方法包括先验知识计算和预测流程两部分。先验知识计算部分,主要包含获取基准标签集和生成标签字典树两部分。预测流程部分,首先获取目标文本,之后利用之前生成的标签字典树,结合深度优先遍历算法,获取初始标签集;再与基准标签集中的所有基准标签依次计算文本相似度,从而得到最终标签集作为算法输出结果。

图3是根据本发明实施例的文本标签的提取方法的主要流程示意图。如图3所示,本发明实施例的文本标签的提取方法,主要包括如下步骤:

步骤S301:获取基准标签集。从标签数据库中获取多个基准标签,构成基准标签集。基准标签可以由相关人员提报后,进行人工审核,审核通过即可加入标签数据库,标签数据库的基准标签可以人工维护。实施例中,基准标签集为[“港风”,“英伦风”,“青春休闲”,“商务正装”,“商务休闲”,“欧美风”,“复古风”,“中国风”,“军旅工装”,“韩版”,“街头”,“朋克”,“嘻哈”,“日系”,“原创设计”,“基础大众”,“日韩风”,“原生态”,“小清新”,“休闲风”,“中性风”,“运动休闲”]。

需要注意的是,上述基准标签集仅为举例,根据应用场景的不同,基准标签集有不同的取值。

步骤S302:按照设定粒度拆分基准标签集的基准标签,以构建标签字典树。按照字符粒度,将基准标签集的每个基准标签分别进行拆分,构建标签字典树。下面以“欧美风”这个基准标签为例,介绍每个基准标签如何参与标签字典树的构建。

图4是本发明实施例的字典树路径添加过程示意图。参照图4,本发明实施例先增加一个根节点(root),然后将“欧美风”以字符粒度拆开可得“欧”、“美”、“风”,依次判断“欧”、“美”、“风”是否在已经存在的字典树路径中,如果不存在,则在对应路径下增加对应节点。按照图4所示方式,在标签字典树中,为基准标签集的每个基准标签添加字典树路径,即可得到标签字典树。

步骤S303:获取目标文本。收集待提取标签的目标文本。实施例中,目标文本为“xxxx休闲裤男2019秋冬季厚款修身直筒小脚男裤韩版青年商务西裤弹力复古长裤子男1047卡其色31”。

步骤S304:利用深度优先遍历算法,从标签字典树中确定存在于目标文本的节点值,生成初始标签集。利用深度优先遍历算法(depth-first search,dfs),访问标签字典树的节点,寻找符合标签字典树的所有可能路径。伪代码如下:

上述伪代码中L即初始标签集,s为字符串。

仍旧以目标文本“xxxx休闲裤男2019秋冬季厚款修身直筒小脚男裤韩版青年商务西裤弹力长复古裤子男1047卡其色31”为例,首先“商”字在标签字典树根节点的叶子节点中;然后再访问标签字典树的“商”的叶子节点,其中有“务”字,且“务”字在目标文本中;再访问“务”这个节点,其叶子节点有“正”字和“休”字,其中“休”字出现在目标文本中;继续判定标签字典树中“休”的叶子节点是“闲”字,且“闲”字在出现在目标文本中;继续判定“闲”字的叶子节点,发现其没有叶子节点,计算流程结束。也即“商”→“务”→“休”→“闲”是符合标签字典树的一条路径。

同理,“韩”→“版”是符合标签字典树的一条路径。“复”→“古”也是符合标签字典树的一条路径,则经过该步骤可以获得初始标签集为[“商务休闲”,“韩版”,“复古”]。

步骤S305:判断初始标签集的当前初始标签是否存在于基准标签集中,如果不存在,则执行步骤S306;如果存在,则执行步骤S309。从初始标签集中任意选取一个初始标签作为当前初始标签,在基准标签集中查询,以判断基准标签集中是否包含该当前初始标签。比如步骤S304中,“商务休闲”和“韩版”是基准标签集中的值,无需进一步计算相似度。

步骤S306:分别计算当前初始标签与基准标签集的每个基准标签之间的相似度,根据相似度选取目标基准标签。比如步骤S304中,“复古”不是基准标签集中的值,则需要与基准标签集的每个基准标签进行相似度计算。计算相似度的方式有多种,比如计算编辑距离、余弦距离、欧式距离、Jaccard距离等。其中,Jaccard距离用于计算符号度量或者布尔值度量的两个个体之间的相似度。

下面以jaro-winkler算法为例,进行说明。jaro-winkler算法是基于编辑距离计算字符串相似度的一种拓展,具体计算公式如下:

式中,d

以“复古”和“复古风”计算jaro-winkler相似度为例:“复古”和“复古风”之间匹配的字符为“复古”,匹配的字符数m=2,未发生换位现象,所以换位数t=0,“复古”字符串长度s

按照上述方式,依次计算“复古”与基准标签集中其他基准标签之间的相似度。实施例中,可以将最大相似度的基准标签作为目标基准标签。如果最大相似度的基准标签有多个,可以任选一个作为目标基准标签。也可以从相似度大于某个阈值的基准标签中任选一个作为目标基准标签。

步骤S307:判断目标基准标签与当前初始标签的相似度是否大于等于设定阈值,如果大于等于阈值,则执行步骤S308;如果小于阈值,则执行步骤S309。阈值可以自定义设置,假设为0.8。

在一优选的实施例中,如果目标基准标签与当前初始标签的相似度小于阈值,则可能是基准标签集当前没有收纳相似或者相同的基准标签,可以发出提示信息,以方便运营人员人工确定是否根据当前初始标签,修正完善基准标签集。

步骤S308:使用目标基准标签替换初始标签集的当前初始标签。实施例中,以最大相似度的基准标签作为目标基准标签。假设通过计算后,最大相似度对应的基准标签为“复古风”。由于“复古风”与“复古”的相似度为0.89,0.89>0.8满足条件。故可以将“复古”转换成“复古风”作为结果输出。

步骤S309:判断初始标签集中是否存在剩余初始标签,如果存在,则执行步骤S310;否则,结束本流程。剩余初始标签即未被选取的基准标签。

步骤S310:从初始标签集中选取将下一初始标签作为当前初始标签,执行步骤S305。对初始标签集每个初始标签,重复执行步骤S305-步骤S310,即可得到替换结束的初始标签集,即最终标签集。

图5是本发明实施例的标签字典树的构建过程示意图。如图5所示,本发明实施例的标签字典树的构建过程(即步骤S302的实现过程),包括如下步骤:

步骤S501:增加根节点,从基准标签集中选取当前基准标签。先新增一个根节点,从基准标签集中任意选取一个基准标签作为当前基准标签。

步骤S502:按照字符粒度拆分当前基准标签,得到多个单字符。假设当前基准标签为“欧美风”,以字符粒度拆开,可得“欧”、“美”、“风”这3个单字符。

步骤S503:判断当前单字符是否存在于字典树路径中,如果当前单字符不存在于字典树路径,则执行步骤S504;如果当前单字符存在于字典树路径,则执行步骤S505。根据单字符在当前基准标签的原始顺序,依次选取单字符作为该步骤的当前单字符。即依次选取“欧”、“美”、“风”为当前单字符。

步骤S504:在字典树路径中增加当前单字符对应的节点,执行步骤S505。以当前单字符是“欧”为例,如果当前所有字典树路径中均不存在“欧”这个字符,则在根节点下新增节点值为“欧”的叶子节点。再以当前单字符是“美”为例,如果当前包含“欧”的所有字典树路径中均不存在“美”这个字符,则在“欧”节点下新增节点值为“美”的叶子节点。

步骤S505:判断是否存在下一单字符,如果存在,则执行步骤S506;如果不存在,则执行步骤S507。

步骤S506:将下一单字符作为当前单字符,执行步骤S503。

步骤S507:判断基准标签集是否存在未被选取的基准标签,如果存在,则执行步骤S508;如果不存在,则结束本流程。

步骤S508:从基准标签集中选取下一基准标签作为当前基准标签,执行步骤S502。从基准标签集中选取下一基准标签作为当前基准标签,重复执行步骤S502-步骤S508,直至最后一个基准标签,即可得到标签字典树。

图6是本发明实施例的标签字典树的构建结果示意图。参照图6,以[“欧美风”,“青春休闲”,“商务正装”,“商务休闲”]为例,构建生成了标签字典树。该标签字典树包括一个根节点和多个叶子节点,叶子节点中的字符即该叶子节点的节点值。需要注意的是,如果基准标签集中又增加了新的基准标签,仍旧可以按照图4所示方式补充完善标签字典树,灵活性好。

图7是本发明实施例的生成初始标签集的主要流程示意图。如图7所示,本发明实施例的生成初始标签集的过程(即步骤S304的实现过程),包括以下步骤:

步骤S701:初始化初始标签集和字符串,按照字符粒度对目标文本进行分词处理。初始标签集用L表示,初始化L为空集;字符串用s表示,初始化s为空。按照步骤S302的粒度,将目标文本拆分成一个一个的字符。

步骤S702:判断拆分后的目标文本中是否存在当前节点的节点值,如果存在,则执行步骤S703;如果不存在,则执行步骤S708。当前节点的初始值为标签字典树中归属于根节点的任意一个叶子节点。

步骤S703:判断当前节点是否存在未被访问的叶子节点,如果存在,则执行步骤S704;如果不存在,则执行步骤S707。假设当前节点为“商”,“商”字未被访问的叶子节点有“务”字。

步骤S704:判断拆分后的目标文本中是否存在叶子节点的节点值,如果存在,则执行步骤S705;如果不存在,则执行步骤S708。假设目标文本仍旧为“xxxx休闲裤男2019秋冬季厚款修身直筒小脚男裤韩版青年商务西裤弹力长复古裤子男1047卡其色31”,则“务”字存在于目标文本中。

步骤S705:拼接当前节点的节点值和叶子节点的节点值,使用拼接后的节点值更新字符串。当前拼接后得到的节点值为“商务”。

步骤S706:将叶子节点作为当前节点,执行步骤S703。再以“务”字作为当前节点,重复执行步骤S703-步骤S706,直至当前节点不存在叶子节点,节点值拼接结束。

步骤S707:将更新后的字符串作为一个初始标签,添加到初始标签集。按照上例,最终得到的一个初始标签为“商务休闲”,将其添加到初始标签集。

步骤S708:判断标签字典树中是否存在未被访问的,且归属于根节点的叶子节点,如果存在,则执行步骤S709;如果不存在,则结束本流程。

步骤S709:从归属于根节点的叶子节点选取下一叶子节点作为当前节点,执行步骤S702。比如,继续以“欧”字作为当前节点,重复执行步骤S702-步骤S709,每次重复执行,可以获得一个初始标签,直至归属于根节点全部叶子节点均被访问,即可得到最终的初始标签集。

通过本发明实施例的文本标签的提取方法可以看出,对目标文本按照标签字典树结构进行所有可能的路径搜索,得到初始标签集,后续基于初始标签与基准标签的相似度,确定最终标签集,实现了文本标签的自动化提取,提高标签提取的效率和准确率,降低了人力成本;基于深度优先遍历算法获取所有可能的标签路径,提高路径搜索效率,保证路径搜索的完整性。

通过本发明实施例的文本标签的提取方法可以看出,通过相似度和阈值比较,将目标文本中未出现在基准标签集的字符进行转换,成功提取了分散性标签、相似性标签;将基准标签集重构成标签字典树,减少后续路径搜索的时间,提高查询效率;以字符粒度拆分基准标签集的基准标签,进而构建标签字典树,进一步保证分散性标签、相似性标签提取的准确率。

通过本发明实施例的文本标签的提取方法可以看出,按照字符粒度对目标文件进行分词处理,以相同粒度比对目标文件的字符和标签字典树的节点值,保证标签提取的准确率;通过计算不存在于基准标签集的初始标签与每个基准标签之间的相似度,保证后续对分散性标签、相似性标签的成功提取。

图8是根据本发明实施例的文本标签的提取装置的主要模块的示意图。如图8所示,本发明实施例的文本标签的提取装置800,主要包括:

获取生成模块801,用于获取目标文本,访问预先构建的标签字典树的节点,以按照所述节点之间的归属关系,从所述标签字典树中确定存在于所述目标文本的节点值,生成初始标签集。目标文本即待提取文本标签的文本。首先按照设定粒度分别拆分基准标签集的多个基准标签,通过树结构重新整理生成标签字典树。

之后按照设定粒度对目标文本进行分词处理,对分词后的目标文本按照标签字典树的结构进行所有可能的路径搜索,得到所有标签值路径序列,该标签值路径序列构成初始标签集。

相似度计算模块802,用于判断所述初始标签集的初始标签是否存在于设定基准标签集中,以分别计算不存在于所述基准标签集的至少一个初始标签与所述基准标签集的基准标签之间的相似度。判断初始标签集的当前初始标签是否存在基准标签集中,如果存在于基准标签集中,则继续对下一初始标签做判断;如果不存在于基准标签集中,则分别计算当前初始标签与基准标签集中多个基准标签之间的相似度,相似度计算完成后,继续对下一初始标签做判断。

标签确定模块803,用于根据相似度计算结果,从所述基准标签集中为所述至少一个初始标签分别选取对应的目标基准标签,使用所述目标基准标签对应替换所述至少一个初始标签,得到最终标签集。其中,最终标签集包括初始标签集的存在于基准标签集的初始标签,以及使用目标基准标签对应替换不存在于基准标签集的初始标签后的结果。如果当前初始标签不存在于基准标签集中,则确定当前初始标签与基准标签集的多个基准标签之间的最大相似度。

之后比较最大相似度与设定阈值的大小,如果最大相似度大于等于阈值,则选取最大相似度对应的基准标签作为目标基准标签,再使用目标基准标签对应替换初始标签集的当前初始标签。如果最大相似度小于阈值,则发出提示信息。按照上述方式,将不存在于基准标签集的每个初始标签替换为对应的目标基准标签,即可得到最终标签集。

另外,本发明实施例的文本标签的提取装置800还可以包括:字典树构建模块和分词判断模块(图8中未示出)。其中,字典树构建模块,用于按照设定粒度拆分所述基准标签集的基准标签,以构建所述标签字典树。分词判断模块,用于按照字符粒度,对所述目标文本进行分词处理;以及判断分词后的目标文本中是否存在所述叶子节点的节点值。

从以上描述可以看出,对目标文本按照标签字典树结构进行所有可能的路径搜索,得到初始标签集,后续基于初始标签与基准标签的相似度,确定最终标签集,实现了文本标签的自动化提取,提高标签提取的效率和准确率,降低了人力成本。

图9示出了可以应用本发明实施例的文本标签的提取方法或文本标签的提取装置的示例性系统架构900。

如图9所示,系统架构900可以包括终端设备901、902、903,网络904和服务器905。网络904用以在终端设备901、902、903和服务器905之间提供通信链路的介质。网络904可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备901、902、903通过网络904与服务器905交互,以接收或发送消息等。终端设备901、902、903上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备901、902、903可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器905可以是提供各种服务的服务器,例如管理员利用终端设备901、902、903发送的目标文本进行处理的后台管理服务器。后台管理服务器可以生成初始标签集,计算初始标签与基准标签之间的相似度,基于相似度选取目标基准标签,使用目标基准标签替换初始标签等处理,并将处理结果(例如最终标签集)反馈给终端设备。

需要说明的是,本申请实施例所提供的文本标签的提取方法一般由服务器905执行,相应地,文本标签的提取装置一般设置于服务器905中。

应该理解,图9中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

根据本发明的实施例,本发明还提供了一种电子设备和一种计算机可读介质。

本发明的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例的一种文本标签的提取方法。

本发明的计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例的一种文本标签的提取方法。

下面参考图10,其示出了适用于来实现本发明实施例的电子设备的计算机系统1000的结构示意图。图10示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图10所示,计算机系统1000包括中央处理单元(CPU)1001,其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中,还存储有计算机系统1000操作所需的各种程序和数据。CPU 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

以下部件连接至I/O接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

特别地,根据本发明公开的实施例,上文主要步骤图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行主要步骤图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时,执行本发明的系统中限定的上述功能。

需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。

附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括获取生成模块、相似度计算模块和标签确定模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,获取生成模块还可以被描述为“获取目标文本,访问预先构建的标签字典树的节点,以按照所述节点之间的归属关系,从所述标签字典树中确定存在于所述目标文本的节点值,生成初始标签集的模块”。

作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:获取目标文本,访问预先构建的标签字典树的节点,以按照所述节点之间的归属关系,从所述标签字典树中确定存在于所述目标文本的节点值,生成初始标签集;判断所述初始标签集的初始标签是否存在于设定基准标签集中,以分别计算不存在于所述基准标签集的至少一个初始标签与所述基准标签集的基准标签之间的相似度;根据相似度计算结果,从所述基准标签集中为所述至少一个初始标签分别选取对应的目标基准标签,使用所述目标基准标签对应替换所述至少一个初始标签,得到最终标签集。

从以上描述可以看出,对目标文本按照标签字典树结构进行所有可能的路径搜索,得到初始标签集,后续基于初始标签与基准标签的相似度,确定最终标签集,实现了文本标签的自动化提取,提高标签提取的效率和准确率,降低了人力成本。

上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。

上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

相关技术
  • 一种文本标签的提取方法和装置
  • 一种基于Word2Vec的文本标签提取方法及装置
技术分类

06120113022686