掌桥专利:专业的专利平台
掌桥专利
首页

资源标签生成方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 12:14:58


资源标签生成方法、装置、电子设备及存储介质

技术领域

本发明涉及数据分析技术领域,尤其涉及一种资源标签生成方法、装置、电子设备及计算机可读存储介质。

背景技术

由于计算机科学的发展,人们日常生活、生产中往往会产生大量的资源,但随着资源的爆炸式增长,人们需要对资源进行更好的整合、标注,以实现对资源的管理。对资源进行标签的生成,成为了越来越普遍的资源管理方式。

现有技术中,对资源的标签生成大多数是基于机器学习模型的资源标签方法,该方法中,需要人工标注大量训练数据来实现对模型的训练,但人工的标注往往标准不一,导致标注的训练数据训练出的模型对资源生成的标签的精确度较低。

发明内容

本发明提供一种资源标签生成方法、装置及计算机可读存储介质,其主要目的在于解决对资源生成的标签的精确度较低的问题。

为实现上述目的,本发明提供的一种资源标签生成方法,包括:

获取资源数据,根据所述资源数据的数据类型对所述资源数据进行文本转化,得到资源文本;

对所述资源文本进行分词,得到文本分词;

统计所述文本分词在所述资源文本中的出现频率和词语位置,并根据所述出现频率和所述词语位置提取所述资源文本的文本特征词;

将所述文本特征词与预设的资源标签进行匹配,得到初始资源标签;

获取所述初始资源标签的相对词,根据所述相对词与所述文本特征词对所述初始资源标签进行筛选,得到标准资源标签。

可选地,所述对所述资源文本进行分词,得到文本分词,包括:

获取预先构建的词典,其中,所述词典中包含多个标准词条;

将所述资源文本按照预设的第一长度进行文本划分,得到检索词;

将所述检索词在所述词典中进行检索,当从所述词典中检索到与所述检索词相同的标准词条时,确定所述检索词为所述资源文本的分词,并返回文本划分的步骤按照预设的第二长度进行文本划分,直至所述文本划分的次数达到预设次数,得到所述资源文本对应的文本分词。

可选地,所述统计所述文本分词在所述资源文本中的出现频率和词语位置,包括:

遍历所述资源文本,确定所述文本分词在所述资源文本中出现的次数为所述出现频率;

对所述资源文本进行分句,并按照所述分句得到的文本语句在所述资源文本中的先后顺序为所述文本语句进行排序;

根据排序后的所述文本语句确定所述文本分词的词语位置。

可选地,所述根据所述出现频率和所述词语位置提取所述资源文本的文本特征词,包括:

根据所述出现频率计算所述文本分词的第一指标;

获取权重参数,根据所述词语位置和所述权重参数计算所述文本分词的第二指标;

根据所述第一指标和所述第二指标计算所述文本分词的特征值;

选取所述特征值大于预设的特征阈值的文本分词为所述文本特征词。

可选地,所述将所述文本特征词与预设的资源标签进行匹配,得到初始资源标签,包括:

获取预设的特征词映射表,所述特征词映射表中含有多个文本特征词,及与每个文本特征词具有映射关系的资源标签;

将所述文本特征词在所述特征词预设表中进行检索,将查询到的该文本特征词对应的资源标签作为所述初始资源标签。

可选地,所述将所述文本特征词与预设的资源标签进行匹配,得到初始资源标签,包括:

对所述文本特征词进行向量转换,得到特征词向量;

获取预设的资源标签的标签向量,利用预设的距离算法计算所述特征词向量与所述标签向量的距离值;

选取所述距离值小于预设的距离阈值的资源标签为初始资源标签。

可选地,所述根据所述相对词与所述文本特征词对所述初始资源标签进行筛选,得到标准资源标签,包括:

构建所述文本特征词的索引;

根据所述相对词和所述索引在所述文本特征词中进行检索,得到与所述相对词相同的文本特征词;

将所述文本特征词对应的初始资源标签进行删除,得到标准资源标签。

为了解决上述问题,本发明还提供一种资源标签生成装置,所述装置包括:

文本转化模块,用于获取资源数据,根据所述资源数据的数据类型对所述资源数据进行文本转化,得到资源文本;

文本分词模块,用于对所述资源文本进行分词,得到文本分词;

特征词提取模块,用于统计所述文本分词在所述资源文本中的出现频率和词语位置,并根据所述出现频率和所述词语位置提取所述资源文本的文本特征词;

标签匹配模块,用于将所述文本特征词与预设的资源标签进行匹配,得到初始资源标签;

标签筛选模块,用于获取所述初始资源标签的相对词,根据所述相对词与所述文本特征词对所述初始资源标签进行筛选,得到标准资源标签。

为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:

存储器,存储至少一个指令;及

处理器,执行所述存储器中存储的指令以实现上述所述的资源标签生成方法。

为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的资源标签生成方法。

本发明实施例利用智能模型对资源文本的内容进行分析,进而实现对资源文本的分词,有利于提高文本分词的精确度;统计文本分词的出现频率和词语位置,并根据出现频率和词语位置提取所述资源文本的文本特征词,实现了对文本分词的筛选,得到对资源文本具有较高代表性的文本特征词,以提高数据标签生成的精确度和效率;通过距离算法将文本特征词与预设的资源标签进行匹配,有利于提高匹配出的初始资源标签的精确度;并通过所述相对词和所述文本特征词对生成的初始资源标签进行筛选,以减少生成的初始资源标签的错误,提高生成的标准资源标签的精确性。因此本发明提出的资源标签生成方法、装置、电子设备及计算机可读存储介质,可以解决对资源生成的标签的精确度较低的问题。

附图说明

图1为本发明一实施例提供的资源标签生成方法的流程示意图;

图2为本发明一实施例提供的提取文本特征词的流程示意图;

图3为本发明一实施例提供的生成初始资源标签的流程示意图;

图4为本发明一实施例提供的资源标签生成装置的功能模块图;

图5为本发明一实施例提供的实现所述资源标签生成方法的电子设备的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本申请实施例提供一种资源标签生成方法。所述资源标签生成方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述资源标签生成方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。

参照图1所示,为本发明一实施例提供的资源标签生成方法的流程示意图。在本实施例中,所述资源标签生成方法包括:

S1、获取资源数据,根据所述资源数据的数据类型对所述资源数据进行文本转化,得到资源文本。

本发明实施例中,所述资源数据可以为含有各种资源的描述文件。例如,黄金市场的调研报告文章、促销活动的海报、新闻事件的播报视频或者对天气状况的播报音频等。

详细地,所述资源数据可由用户上传,或利用具有数据抓取功能的python语句从预先构建的用于存储资源数据的数据库或区块链中抓取所述资源数据。

本发明一个实际应用场景中,资源数据中存在着多种数据类型,例如,文档形式的黄金市场的调研报告,图像形式的促销活动的海报,视频形式的新闻事件的播报视频和音频形式的天气状况的播报音频,由于对多种不同形式的资源数据进行处理会占用大量的计算资源,导致资源标签生成的效率低下,因此,本发明实施例可通过将不同数据类型的资源数据转换为的文本类型,以实现对资源数据的数据类型进行统一,提高生成资源标签的效率。

例如,对于资源数据中文档形式的部分可采用NLP(Natural LanguageProcessing,自然语言处理)技术进行文本识别,得到资源文本;对于资源数据中图像形式的部分可采用OCR(Optical Character Recognition,光学字符识别)技术进行文本识别,得到资源文本;对于资源数据中音频形式的部分可采用ASR(Automatic SpeechRecognition,自动语音识别)技术进行文本识别,得到资源文本;对于资源数据中视频形式的部分可采用ASR技术和OCR技术的组合进行文本识别,得到资源文本。

S2、对所述资源文本进行分词,得到文本分词。

本发明实施例中,所述资源文本中包含这大量的文本语句,且每个文本的语句中包含的内容较多,若直接对所述资源文本进行分析,会造成分析的效率低下。因此,可对所述资源文本进行分词处理,得到文本分词,以提高后续生成资源标签的效率。

本发明其中一个实施例中,可采用基于检索词匹配的技术手段对所述资源文本进行分词,得到文本分词。

例如,获取预先构建的词典,所述词典中包含多个标准词条,将所述资源文本的内容按照不同的长度划分为多个检索词,在所述词典中对该检索词进行检索,当从所述词典中检索到与所述检索词相同的标准词条时,则确定所述检索词为该资源文本的文本分词。

详细地,所述对所述资源文本进行分词,得到文本分词,包括:

获取预先构建的词典,其中,所述词典中包含多个标准词条;

将所述资源文本按照预设的第一长度进行文本划分,得到检索词;

将所述检索词在所述词典中进行检索,当从所述词典中检索到与所述检索词相同的标准词条时,确定所述检索词为所述资源文本的分词,并返回文本划分的步骤按照预设的第二长度进行文本划分,直至所述文本划分的次数达到预设次数,得到所述资源文本对应的文本分词。

例如,存在资源文本:今日金价从每克五元上涨至八元;将该资源文本按照第一长度(2)进行文本划分,得到“今日”、“金价”、“从每”、“克五”、“元上”、“涨至”、“八元”七个检索词,分别将每个检索词在所述词典中进行检索,得到该词典的标准词条中包含“今日”、“金价”、“八元”三个检索词,则确定“今日”、“金价”、“八元”为文本分词;进一步地,返回文本划分的步骤并按照预设的第二长度(3)进行文本划分,并将文本划分得到的检索词在所述词典中进行检索,以获取文本分词,直至文本划分的次数达到预设的次数,以实现对资源文本的分词。

本实施例中,按照不同的长度对资源文本进行划分、检索的方式实现对资源文本的分词,无需对资源文本的内容进行分析,有利于提高对资源文本进行分词的效率。

本发明另一实施例中,还可采用具有文本分词功能的智能模型对所述资源文本的内容进行分析,进而实现对资源文本的分词。其中,所述智能模型包括但不限于HMM(HiddenMarkov Model,隐含马尔柯夫模型)、N-gram模型。

例如,利用智能模型对资源文本进行句法、语义分析,并基于分析结果对资源文本进行切割,得到该资源文本对应的文本分词。

本实施例中,利用预设的智能模型对所述资源文本进行句法分析,即将所述资源文本输入至该智能模型中,利用该智能模型中的多层网络结构对资源文本的内容进行特征提取,并将特征映射至预构建的特征空间,以根据特征找出资源文本中每个句子之间的关联关系,进而根据该关联关系对资源文本进行分句处理,得到文本分句。

例如,资源文本中存在文本语句A、文本语句B和文本语句C,通过智能模型对资源文本进行句法分析后,可知文本语句A与文本语句B之间的关联关系较低,文本语句A与文本语句C之间的关联关系较低,文本语句B与文本语句C之间的关联关系较高,则在对资源文本进行分句处理时,可将文本语句A单独划分为一个文本语句,将文本语句B与文本语句C划分为同一文本语句;实现基于语句间的关联关系对文本进行分句,进而提高文本分句的精确度。

进一步地,利用预设的智能模型对所述资源文本进行语义分析,是指分别对每一个对文本分句进行语义分析,利用智能模型对文本语句进行特征提取、权重分类等操作,以获取文本语句的句子含义,进而根据该句子含义对文本语句进行分词处理。

例如,文本语句A的句子含义为“黄金买卖”,则获取预先存储的与黄金买卖相关的分词规则对该文本语句A进行分词,避免了无规则地,按照固定长度对文本语句进行划分,有利于提高了分词的精确度。

本实施例中,利用智能模型对资源文本的内容进行分析,进而实现对资源文本的分词,有利于提高文本分词的精确度。

S3、统计所述文本分词在所述资源文本中的出现频率和词语位置,并根据所述出现频率和所述词语位置提取所述资源文本的文本特征词。

本发明实施例中,由于资源文本对应的文本分词较多,但不同的文本分词对资源文本的代表性不一致。因此,为了提高生成的资源标签的精确性,本发明实施例对所述文本分词进行特征提取,以获取所述文本分词中对资源文本具有更高代表性的文本特征词。

本发明实施例中,所述统计所述文本分词在所述资源文本中的出现频率和词语位置,包括:

遍历所述资源文本,确定所述文本分词在所述资源文本中出现的次数为所述出现频率;

对所述资源文本进行分句,并按照所述分句得到的文本语句在所述资源文本中的先后顺序为所述文本语句进行排序;

根据排序后的所述文本语句确定所述文本分词的词语位置。

例如,存在对2020年内黄金市场价格进行描述的资源文本,遍历该资源文本后得出,文本分词“黄金”在该资源文本中出现的次数为3次,则确定文本分词“黄金”的出现频率为3;文本分词“金价”在该资源文本中出现的次数为2次,则确定文本分词“金价”的出现频率为2。

详细地,可按照预设的分句符号对资源文本进行分句,并对分句得到的文本语句进行排序,所述分句符号包括但不限于“,”、“;”、“。”其中的一种或多种的组合。

例如,2020年内黄金市场价格进行描述的资源文本为:2020年黄金成为人们重点投资标的物,上半年黄金的金价为每克5元左右,下半年黄金的金价为每克8元左右。则可按照分句符号“,”对该资源文本进行分句,并按照每个文本分句在该资源文本中的先后顺序,对文本分句进行排序,得到第一个文本分句:“2020年黄金成为人们重点投资标的物”、第二个文本分句:“上半年黄金的金价为每克5元左右”和第三个文本分句:“下半年黄金的金价为每克8元左右”三个文本语句。

本发明实施例可根据排序后的所述文本语句确定所述文本分词的词语位置,例如,文本分词“黄金”在第一个文本分句、第二文本分句和第三个文本分句中均出现,则确定文本分词“黄金”的词语位置为1、2和3;文本分词“金价”在第二文本分句和第三个文本分句中出现,则确定文本分词“金价”的词语位置为2和3。

本发明其中一个实际应用场景中,当文本分词在所述资源文本中的出现频率越多,或者当文本分词在所述资源文本中出现的词语位置越靠前,可表名该文本分词的对文本资源具有更强的代表性。因此。本发明实施例可利用所述出现频率和所述词语位置对所述文本分词进行筛选,以便筛选出对资源文本更具有代表性的文本特征词。

本发明实施例中,参图2所示,所述根据所述出现频率和所述词语位置提取所述资源文本的文本特征词,包括:

S21、根据所述出现频率计算所述文本分词的第一指标;

S22、获取权重参数,根据所述词语位置和所述权重参数计算所述文本分词的第二指标;

S23、根据所述第一指标和所述第二指标计算所述文本分词的特征值;

S24、选取所述特征值大于预设的特征阈值的文本分词为所述文本特征词。

本实施例中,所述第一指标、第二指标和特征值,均可表示文本分词对资源文本的代表性的大小。例如,第一指标、第二指标和特征值的数值越大,则表示文本分词对资源文本的代表性越大,第一指标、第二指标和特征值的数值越小,则表示文本分词对资源文本的代表性越小。

详细地,可将所述出现频率代入预设的TF-IDF、TextRank等关键词算法计算文本分词的第一指标。

具体地,所述权重参数用于标识文本分词在所述资源文本中不同词语位置时的重要性权重,所述权重参数可由用户预先设定。通常情况下,词语位置越靠前的文本分词的权重参数越大;例如,文本分词“黄金”的词语位置为1、2和3,则文本分词“黄金”在词语位置1时的权重为0.8,文本分词“黄金”在词语位置2时的权重为0.7,文本分词“黄金”在词语位置3时的权重为0.6。

本实施例中,所述根据所述词语位置和所述权重参数计算所述文本分词的第二指标,包括:

利用如下指标算法计算所述文本分词的第二指标:

F=α*ρ

其中,F为所述第二指标,α为所述文本分词d权重参数,ρ为所述文本分词的词语位置。

进一步地,可通过将所述第一指标和所述第二指标进行相加、相乘等运算,实现对所述文本分词的特征值的计算,并确定特征值大于所述特征阈值的文本分词为文本特征词。

本发明实施例统计文本分词的出现频率和词语位置,并根据出现频率和词语位置提取所述资源文本的文本特征词,实现了对文本分词的筛选,得到对资源文本具有较高代表性的文本特征词,以提高数据标签生成的精确度和效率。

S4、将所述文本特征词与预设的资源标签进行匹配,得到初始资源标签。

本发明实施例中,可通过特征词映射的方式将文本特征词与预设的资源标签进行匹配,以获取初始资源标签。

本发明实施例中,所述将所述文本特征词与预设的资源标签进行匹配,得到初始资源标签,包括:

获取预设的特征词映射表,所述特征词映射表中含有多个文本特征词,及与每个文本特征词具有映射关系的资源标签;

将所述文本特征词在所述特征词预设表中进行检索,将查询到的该文本特征词对应的资源标签作为所述初始资源标签。

例如,特征词映射表中包含“黄金”、“金价”、“买金”、“购金”等四个文本特征词,和该四个文本特征词对应的资源标签为“黄金”,则当资源文本对应的文本特征词中包含“黄金”、“金价”、“买金”、“购金”中至少一个时,确定该资源文本的初始资源标签为“黄金”。

本发明实施例通过特征词映射的方式将文本特征词与预设的资源标签进行匹配,以获取初始资源标签,避免了对特征词的词义进行分析,有利于提高生成初始资源标签的效率。

本发明另一实施例中,可通过预设的距离算法将文本特征词与预设的资源标签进行匹配,以获取初始资源标签,所述距离算法包括但不限于欧式距离算法、余弦距离算法。

本发明另一实施例中,参图3所示,所述将所述文本特征词与预设的资源标签进行匹配,得到初始资源标签,包括:

S31、对所述文本特征词进行向量转换,得到特征词向量;

S32、获取预设的资源标签的标签向量,利用预设的距离算法计算所述特征词向量与所述标签向量的距离值;

S33、选取所述距离值小于预设的距离阈值的资源标签为初始资源标签。

详细地,可通过具有词向量转换功能的词向量模型对所述文本特征词进行向量转换,得到特征词向量,所述词向量模型包括word2vec模型、glove模型、bert模型等。

本实施例通过计算所述特征词向量与预设的标签向量之间的距离值来实现文本特征词与预设的资源标签的匹配。例如,存在文本特征词存在文本特征词“金价”对应特征词向量1、存在文本特征词“买金”对应特征词向量2、存在文本特征词“购金”对应特征词向量3,存在文本特征词“黄金周”对应特征词向量4,存在资源标签“黄金”对应标签向量θ,通过计算可知,特征词向量1和标签向量θ之间的距离值为80,特征词向量2和标签向量θ之间的距离值为77,特征词向量3和标签向量θ之间的距离值为82,特征词向量4和标签向量θ之间的距离值为43,距离阈值为50时,则确定文本特征词“金价”、“买金”、“购金”对应的初始标签为“黄金”,文本特征词“黄金周”对应的初始标签不为“黄金”。

本实施例通过距离算法将文本特征词与预设的资源标签进行匹配,有利于提高匹配出的初始资源标签的精确度。

S5、获取所述初始资源标签的相对词,根据所述相对词与所述文本特征词对所述初始资源标签进行筛选,得到标准资源标签。

本发明其中一个实际应用场景中,所述相对词为与所述初始资源标签相近,但含义不同的词语。例如,初始资源标签为“黄金”,则该初始资源标签对应的相对词可以为“黄金周”、“黄金假期”、“黄金时节”等。当资源文本的文本特征词中出现相对词时,会导致生成的初始资源标签的精确度降低,因此,本发明实施例可通过所述相对词和所述文本特征词对生成的初始资源标签进行筛选,以减少生成的初始资源标签的错误,提高生成的标准资源标签的精确性。

本发明实施例中,所述相对词可由用户预先给定,或者将所述初始资源标签推送给用户,并获取用户根据所述初始资源标签反馈的相对词。

进一步地,所述根据所述相对词与所述文本特征词对所述初始资源标签进行筛选,得到标准资源标签,包括:

构建所述文本特征词的索引;

根据所述相对词和所述索引在所述文本特征词中进行检索,得到与所述相对词相同的文本特征词;

将所述文本特征词对应的初始资源标签进行删除,得到标准资源标签。

例如,存在资源文本包含文本特征词“旅行计划”、“黄金周”、“假期时间”、“出行路线”;该资源文本对应的初始资源标签为“黄金”、“假期”和“出行计划”;其中,该资源文本的文本特征词中包含初始资源标签“黄金”的相对词“黄金周”,则将该资源文本的初始资源标签中的“黄金”进行删除,得到该资源文本的标准资源标签:“假期”和“出行计划”。

本发明实施例利用智能模型对资源文本的内容进行分析,进而实现对资源文本的分词,有利于提高文本分词的精确度;统计文本分词的出现频率和词语位置,并根据出现频率和词语位置提取所述资源文本的文本特征词,实现了对文本分词的筛选,得到对资源文本具有较高代表性的文本特征词,以提高数据标签生成的精确度和效率;通过距离算法将文本特征词与预设的资源标签进行匹配,有利于提高匹配出的初始资源标签的精确度;并通过所述相对词和所述文本特征词对生成的初始资源标签进行筛选,以减少生成的初始资源标签的错误,提高生成的标准资源标签的精确性。因此本发明提出的资源标签生成方法,可以解决对资源生成的标签的精确度较低的问题。

如图4所示,是本发明一实施例提供的资源标签生成装置的功能模块图。

本发明所述资源标签生成装置100可以安装于电子设备中。根据实现的功能,所述资源标签生成装置100可以包括文本转化模块101、文本分词模块102、特征词提取模块103、标签匹配模块104及标签筛选模块105。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。

在本实施例中,关于各模块/单元的功能如下:

所述文本转化模块101,用于获取资源数据,根据所述资源数据的数据类型对所述资源数据进行文本转化,得到资源文本;

所述文本分词模块102,用于对所述资源文本进行分词,得到文本分词;

所述特征词提取模块103,用于统计所述文本分词在所述资源文本中的出现频率和词语位置,并根据所述出现频率和所述词语位置提取所述资源文本的文本特征词;

所述标签匹配模块104,用于将所述文本特征词与预设的资源标签进行匹配,得到初始资源标签;

所述标签筛选模块105,用于获取所述初始资源标签的相对词,根据所述相对词与所述文本特征词对所述初始资源标签进行筛选,得到标准资源标签。

详细地,本发明实施例中所述资源标签生成装置100中所述的各模块在使用时采用与上述图1至图3中所述的资源标签生成方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。

如图5所示,是本发明一实施例提供的实现资源标签生成方法的电子设备的结构示意图。

所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如资源标签生成程序。

其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如资源标签生成程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如资源标签生成程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。

所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。

图5仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图5示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。

例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。

进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。

可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。

所述电子设备1中的所述存储器11存储的资源标签生成程序是多个指令的组合,在所述处理器10中运行时,可以实现:

获取资源数据,根据所述资源数据的数据类型对所述资源数据进行文本转化,得到资源文本;

对所述资源文本进行分词,得到文本分词;

统计所述文本分词在所述资源文本中的出现频率和词语位置,并根据所述出现频率和所述词语位置提取所述资源文本的文本特征词;

将所述文本特征词与预设的资源标签进行匹配,得到初始资源标签;

获取所述初始资源标签的相对词,根据所述相对词与所述文本特征词对所述初始资源标签进行筛选,得到标准资源标签。

具体地,所述处理器10对上述指令的具体实现方法可参考图1至图3对应实施例中相关步骤的描述,在此不赘述。

进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。

本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:

获取资源数据,根据所述资源数据的数据类型对所述资源数据进行文本转化,得到资源文本;

对所述资源文本进行分词,得到文本分词;

统计所述文本分词在所述资源文本中的出现频率和词语位置,并根据所述出现频率和所述词语位置提取所述资源文本的文本特征词;

将所述文本特征词与预设的资源标签进行匹配,得到初始资源标签;

获取所述初始资源标签的相对词,根据所述相对词与所述文本特征词对所述初始资源标签进行筛选,得到标准资源标签。

在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。

因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。

最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

相关技术
  • 资源标签生成方法、装置、电子设备及存储介质
  • 多媒体资源的标签构建方法、装置、电子设备和存储介质
技术分类

06120113228691