一种多媒体资源的点播方法及其装置

文献发布时间：2024-01-17 01:14:25

技术领域

本申请涉及智能搜索技术领域，尤其涉及一种多媒体资源的点播方法及其装置。

背景技术

语音识别ASR(Auto Speech Recognition)是一种利用机器把语音信号转换为相应文本的技术，语音识别ASR技术分为传统的语音识别ASR和基于深度学习的语音识别ASR，目前较为常用的是基于深度学习的语音识别ASR，也即是使用深度学习的方式训练ASR模型来进行语音识别，而基于深度学习的方法训练ASR模型进行识别的识别效果非常依赖数据，因此基于深度学习的语音识别ASR的难点之一是未登录词的识别，未登录词是指在ASR模型训练过程中没有遇到过的词。

在电视点播场景下，语音搜索技术中的语音识别ASR一般是将语音识别为中文汉字，对于不常见的影视名和人名的语音搜索，语音识别ASR技术不能准确地将此类词语转换为对应文本，从而导致在语音搜索过程中不能匹配到准确的搜索结果；并且当有新的影视资源收录时，若要保持较高准确率，则需要继续采集新的语音数据并进行训练，不仅消耗时间，而且增加成本。

发明内容

本申请实施例提供一种多媒体资源的点播方法及其装置。

本申请第一方面实施例提出了一种多媒体资源的点播方法，包括：

对多媒体点播语音进行语音识别，得到所述多媒体点播语音的拼音信息，并从所述拼音信息中获取用于搜索的关键拼音；

确定所述关键拼音对应的搜索对象类型，并获取与所述搜索对象类型匹配的对象名称和所述对象名称的拼音之间的目标映射词典；

基于所述关键拼音在所述目标映射词典进行搜索，以得到与所述多媒体点播语音匹配的目标多媒体资源进行播放。

在本申请的一个实施例中，所述获取与所述搜索对象类型匹配的对象名称和所述对象名称的拼音之间的目标映射词典，包括：

在所述搜索对象类型指示搜索对象为多媒体资源时，获取候选多媒体资源的名称和所述候选多媒体资源的名称拼音之间的第一映射词典，作为所述目标映射词典；或者，

在所述搜索对象类型指示搜索对象为人名时，获取候选人名与所述候选人名的拼音之间的第二映射词典，作为所述目标映射词典。

在本申请的一个实施例中，所述基于所述关键拼音在所述目标映射词典进行搜索，以得到与所述多媒体点播语音匹配的目标多媒体资源进行播放，包括：

在所述目标映射词典为所述第一映射词典时，获取所述第一映射词典中候选多媒体资源的名称拼音的词频逆文档频率TF-IDF；

基于所述候选多媒体资源的名称拼音的TF-IDF，从所述第一映射词典包括的候选多媒体资源的名称拼音中，确定第一候选多媒体资源的名称拼音；

根据所述第一候选多媒体资源的名称拼音与所述关键拼音，得到所述第一候选多媒体资源的筛选分数；

从所述第一候选多媒体资源中选取所述筛选分数最高的多媒体资源，作为所述目标多媒体资源。

在本申请的一个实施例中，所述根据所述第一候选多媒体资源的名称拼音与所述关键拼音，得到所述第一候选多媒体资源的筛选分数，包括：

获取所述第一候选多媒体资源的名称拼音和所述关键拼音的相似距离；

根据所述第一候选多媒体资源的相似距离和所述名称拼音的长度，确定所述第一候选多媒体资源的权重；

基于所述第一候选多媒体资源的权重，对所述第一候选多媒体资源的TF-IDF进行加权运算，得到所述第一候选多媒体资源的筛选分数。

在所述目标映射词典为所述第二映射词典时，在拼音词库中对所述关键拼音进行逆向最大匹配，得到第一人名拼音，其中，所述拼音词库包括候选人名拼音和单字拼音；

从所述第二映射词典中，确定与所述第一人名拼音存在映射关系的候选人名，作为目标人名；

从候选多媒体资源中，基于所述目标人名确定所述目标多媒体资源。

在本申请的一个实施例中，基于所述目标人名确定所述目标多媒体资源，包括：

从所述候选多媒体资源中，获取与所述目标人名关联的第二候选多媒体资源；

基于所述第二候选多媒体资源确定所述目标多媒体资源。

在本申请的一个实施例中，所述从所述候选多媒体资源中，获取与所述目标人名关联的第二候选多媒体资源，包括：

获取候选人名与候选多媒体资源之间的第三映射词典；

基于所述第三映射词典在所述候选多媒体资源中，查询与所述目标人名存在映射关系的至少一个或多个候选多媒体资源，作为所述第二候选多媒体资源。

本申请第二方面实施例提出了一种多媒体资源的点播装置，包括：

第一获取模块，用于对多媒体点播语音进行语音识别，得到所述多媒体点播语音的拼音信息，并从所述拼音信息中获取用于搜索的关键拼音；

第二获取模块，用于确定所述关键拼音对应的搜索对象类型，并获取与所述搜索对象类型匹配的对象名称和所述对象名称的拼音之间的目标映射词典；

播放模块，用于基于所述关键拼音在所述目标映射词典进行搜索，以得到与所述多媒体点播语音匹配的目标多媒体资源进行播放。

本申请第三方面实施例提出了一种电子设备，包括：本申请第二方面实施例提出的多媒体资源的点播装置。

本申请第四方面实施例提出了一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现本申请第一方面实施例提出的多媒体资源的点播方法。

本申请第五方面实施例提出了一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本申请第一方面实施例提出的方法。

本申请第六方面实施例提出了一种计算机程序产品，包括计算机程序，所述计算机程序在被通信设备中的处理器执行时实现本申请第一方面实施例提出的方法。

本申请的实施例提供的技术方案至少带来以下有益效果：

在本申请实施例中，通过多媒体点播语音的拼音信息进行匹配识别，可避免利用汉字进行识别的误差，准确性更高；同时，将多媒体点播语音转换为拼音直接进行识别，效率较高；在基于拼音信息进行目标多媒体资源的匹配识别时，提取出其中的关键拼音，根据关键拼音的搜索对象类型进行不同目标映射词典的获取，基于对应的目标映射词典进行搜索，对关键拼音的搜索更加具有针对性，缩小了搜索范围，搜索的效率较高且准确率较高。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例所提供的一种多媒体资源的点播方法的流程示意图；

图2为本申请实施例提供的另一种多媒体资源的点播方法的流程示意图；

图3为本申请实施例提供的另一种多媒体资源的点播方法的流程示意图；

图4为本申请实施例提供的另一种多媒体资源的点播方法的流程示意图；

图5为本申请实施例提供的另一种多媒体资源的点播方法的流程示意图；

图6为本申请实施例提供的一种多媒体资源的点播装置的结构示意图；

图7为本申请实施例提供的一种电子设备的结构示意图；

图8为本申请实施例提供的另一种电子设备的结构示意图；

图9为本申请实施例提供的另一种电子设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请实施例的一些方面相一致的装置和方法的例子。

在本申请实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”及“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的要素。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

需要说明的是，本申请中任一个实施例提供的多媒体资源的点播方法可以单独执行，或是结合其他实施例中的可能的实现方法一起被执行，还可以结合相关技术中的任一种技术方案一起被执行。由于基于深度学习对自动语音识别技术(Auto SpeechRecognition,ASR)技术进行训练时会出现没有遇到过的词，本实施例中将训练过程中没有遇到过的词记为未登录词，在电视点播场景下，对于不常见的影视名或者人名进行语音搜索时，语音识别ASR技术不能准确的将该类词语转换成对应的文本，进而会导致在语音搜索的过程中无法得到准确的搜索结果，因此语音识别ASR的难点之一就是对未登录词的识别；同时，当存在新的影视多媒体资源收录时，需要继续采集新的语音数据进行训练，以确保语音识别ASR技术的高准确率，这会增加时间消耗和成本。

语音搜索的本质是通过语音识别ASR技术将语音转换成文本，然后基于转换后的文本去搜索用户想要的结果，由于直接将语音转换成文本会导致识别不准确，因此本实施例中采用语音转换成拼音的技术进行搜索。

下面参照附图描述本申请实施例的多媒体资源的点播方法及其装置。

图1为本申请实施例提供的一种多媒体资源的点播方法的流程示意图。如图1所示，该方法包括但不限于以下步骤：

S101，对多媒体点播语音进行语音识别，得到多媒体点播语音的拼音信息，并从拼音信息中获取用于搜索的关键拼音。

本申请实施例可以应用于移动设备上多媒体播放的APP、电视、音频播放设备等场景上。

通过设备自身的麦克风可以采集获取多媒体点播语音，或者通过智能助手等采集获取多媒体点播语音。进一步地，对该多媒体点播语音进行语音特征信号的提取，并通过声学模型将语音特征信号转化成拼音信息。

可选地，为了保证后续对多媒体点播语音处理的准确性，对采集到的多媒体点播语音做降噪以及回声消除等前处理。

在一些实现中，对多媒体点播语音的降噪方法可以为小波降噪或者EMD降噪，对降噪方法的实现方式不做限定。

在一些实现中，对多媒体点播语音的回声消除方法可以为基于DSP等实时平台的回声消除技术或者基于Windows等非实时平台的回声消除技术，对回声消除方法的实现方式不做限定。

进一步的，判断采集到的语音信号是否为完整的一句话，判断方法是采用语音激活检测(Voice Activation Detection，VAD)模型检测，当采集到的语音信号为完整的一句话时，将该语音信号作为最终的多媒体点播语音；然后，对该多媒体点播语音进行语音特征信号的提取，并通过声学模型将语音特征信号转化成拼音信息。

在获取到多媒体点播语音的拼音信息之后，根据拼音信息的结果获取视频资源点播场景下用于搜索的关键拼音。

示例性说明，在视频资源点播场景下，可以获取到关键拼音为：“bang1 wo3 bo1fang4”(帮我播放)、“bang1 wo3 dian3 bo1”(帮我点播)、“wo3 xiang3 kan4”(我想看)、“de5 dian4 ying3”(的电影)以及“de5 dian4 shi4 ju4”(的电视剧)，当识别的拼音信息中包含此类关键拼音时，进行后续的搜索匹配。

若搜索到“de5 dian4 ying3”(的电影)以及“de5 dian4 shi4 ju4”(的电视剧)等关键拼音，则表明是需要寻找相关演员或导演的多媒体资源；否则，对于“bang1 wo3 bo1fang4”(帮我播放)、“bang1 wo3 dian3 bo1”(帮我点播)以及“wo3 xiang3 kan4”(我想看)等关键拼音，直接根据文本匹配多媒体资源。

S102，确定关键拼音对应的搜索对象类型，并获取与搜索对象类型匹配的对象名称和对象名称的拼音之间的目标映射词典。

在一些实现中，搜索对象可以为多媒体资源，例如多媒体资源可以包括电视剧、电影、短视频等视频资源，也可以包括音乐、有声书等音频资源。

在另一些实现中，搜索对象可以为人名，例如演员姓名、导演姓名，歌手姓名等。

在本申请实施例中，搜索对象类型可以指示直接对多媒体资源进行搜索，还是通过人名进行间接多媒体资源的搜索。本申请实施例中，可以对多媒体点播语音的语义信息进行识别，并基于语义识别结果确定搜索对象类型。

可以理解的是，预先为不同的搜索对象类型建立不同的目标映射词典。具体包括：根据影视数据库构建候选多媒体资源和对应名称拼音的第一映射词典、根据人名数据库构建候选人名和对应拼音的第二映射词典、构建候选人名和候选多媒体资源的第三映射词典以及构建候选人名拼音和单字拼音的拼音词库。

在搜索对象类型指示搜索对象为多媒体资源时，获取候选多媒体资源的名称和候选多媒体资源的名称拼音之间的第一映射词典，作为目标映射词典；或者，在搜索对象类型指示搜索对象为人名时，获取候选人名与候选人名的拼音之间的第二映射词典，作为目标映射词典。

S103，基于关键拼音在目标映射词典进行搜索，以得到与多媒体点播语音匹配的目标多媒体资源进行播放。

在本申请实施例中，基于关键拼音在对应的目标映射词典中进行搜索，从该目标映射词典中获取到与该关键拼音匹配的多媒体资源。可以理解是，与关键拼音匹配的多媒体资源可以理解为用户试图点播的目标多媒体资源。

在一些实现中，目标多媒体资源可以直接进行播放。

在另一些实现中，目标多媒体资源需要等待用户进一步的反馈进行播放。

若存在多个目标多媒体资源时，可以显示并基于用户进一步的选取指令，从多个目标多媒体资源中确定需要播放的目标多媒体资源进行播放。

本申请实施例中，通过多媒体点播语音的拼音信息进行匹配识别，可避免利用汉字进行识别的误差，准确性更高；同时，将多媒体点播语音转换为拼音直接进行识别，效率较高；在基于拼音信息进行目标多媒体资源的匹配识别时，首先提取出其中的关键拼音，根据关键拼音的搜索对象类型进行不同目标映射词典的获取，基于对应的目标映射词典进行搜索，对关键拼音的搜索更加具有针对性，缩小了搜索范围，搜索的效率较高且准确率较高。

图2为本申请实施例提供的另一种多媒体资源的点播方法的流程示意图。如图2所示，该方法包括但不限于以下步骤：

S201，对多媒体点播语音进行语音识别，得到多媒体点播语音的拼音信息，并从拼音信息中获取用于搜索的关键拼音。

在本申请实施例中，步骤S201的实现方式可以分别采用本公开的各实施例中的任一种方式实现，在此并不对此作出限定，也不再赘述。

S202，确定所述关键拼音对应的搜索对象类型。

在本申请实施例中，步骤S202的实现方式可以分别采用本公开的各实施例中的任一种方式实现，在此并不对此作出限定，也不再赘述。

S203，在搜索对象类型指示搜索对象为多媒体资源时，获取候选多媒体资源的名称和候选多媒体资源的名称拼音之间的第一映射词典，作为目标映射词典。

在本申请实施例中，通过数据库构建了候选多媒体资源和对应拼音的第一映射词典，因此当关键拼音对应的搜索对象类型指示搜索对象为多媒体资源时，将候选多媒体资源和对应拼音之间的第一映射词典作为目标映射词典。

S204，获取第一映射词典中候选多媒体资源的名称拼音的词频逆文档频率TF-IDF。

可选的，本实施例中利用TF-IDF算法获取第一映射词典中每个候选多媒体资源对应的词频逆文档频率TF-IDF，也即是获取了每个候选多媒体资源的名称拼音的词频逆文档频率TF-IDF。

在本申请实施例中，词频逆文档频率的计算中，TF是提取到的关键拼音在每个多媒体资源的名词拼音中出现的频率；IDF的获取是基于所有多媒体资源的名称拼音数量，与包含关键拼音的多媒体资源的名称拼音数量的比值得到。

S205，基于候选多媒体资源的名称拼音的TF-IDF，从第一映射词典包括的候选多媒体资源的名称拼音中，确定第一候选多媒体资源的名称拼音。

在获取到第一映射词典中每个候选多媒体资源的名称拼音的TF-IDF之后，对第一映射词典中所有的候选多媒体资源进行初步筛选，得到第一映射词典中的第一候选多媒体资源。

可选的，将第一映射词典中所有候选多媒体资源的名称拼音的TF-IDF进行降序排列，也就是按照候选多媒体资源的名称拼音的TF-IDF进行从大到小的排序，选取排列后topN个候选多媒体资源，作为第一候选多媒体资源。例如，N可以取5，可以得到IF-ID最大的前5个候选多媒体资源为第一候选多媒体资源。

可选的，可以基于每个候选多媒体资源的名称拼音的TF-IDF，获取每个选多媒体资源的初始分值，进一步地，对该初始分值进行降序排列，并选取排列后topN个候选多媒体资源，作为第一候选多媒体资源。

S206，根据第一候选多媒体资源的名称拼音与关键拼音，得到第一候选多媒体资源的筛选分数。

在一些实现中，获取第一候选多媒体资源的名称拼音和关键拼音的相似距离。本实施例中，第一候选多媒体资源的名称拼音与关键拼音之间的相似距离可以为欧式距离或者余弦距离；相似距离用于表征第一候选多媒体资源的名称拼音与关键拼音之间的相似性。

进一步地，根据第一候选多媒体资源的相似距离和名称拼音的长度，确定第一候选多媒体资源的权重，并基于第一候选多媒体资源的权重，对第一候选多媒体资源的TF-IDF进行加权运算，得到第一候选多媒体资源的筛选分数。

可选地，对于任意一个第一候选多媒体资源，计算该第一候选多媒体资源对应的相似程度与该第一候选多媒体资源的名称拼音的长度的比值，将比值作为该第一候选多媒体资源的权重。

S207，从第一候选多媒体资源中选取筛选分数最高的多媒体资源，作为目标多媒体资源。

由于筛选分数越大，表明第一候选多媒体资源与关键拼音之间越匹配，因此选取筛选分数最高的第一候选多媒体资源，将筛选分数最高的第一候选多媒体资源作为目标多媒体资源。

S208，播放目标多媒体资源。

在电视点播场景中，基于多媒体点播语音的关键拼音得到目标多媒体资源之后，对该目标多媒体资源进行播放。

在一些实现中，目标多媒体资源可以直接进行播放。

在另一些实现中，目标多媒体资源需要等待用户进一步的反馈进行播放。

若存在多个目标多媒体资源时，可以显示并基于用户进一步的选取指令，从多个目标多媒体资源中确定需要播放的目标多媒体资源进行播放。

本申请实施例中，当关键拼音对应的搜索对象类型为多媒体资源时，通过对第一映射词典中的候选多媒体资源进行分析得到目标多媒体资源；首先根据传统的TF-IDF算法得到每个候选多媒体资源对应的词频逆文档频率TF-IDF，通过对每个词频逆文档频率进行第一候选多媒体资源的获取，减少了目标多媒体资源获取过程中的计算量；进一步的，为避免传统的TF-IDF算法中忽略文本顺序导致结果不准确的问题，本实施例中通过对TF-IDF算法进行改进得到每个第一候选多媒体资源的筛选分数，对传统的TF-IDF算法得到的第一候选多媒体资源的词频逆文档频率TF-IDF增加权重，权重由第一候选多媒体资源的名称拼音与关键拼音之间的相似距离得到，从而保证了结合词频逆文档频率TF-IDF之后筛选分数的准确性，基于此时的筛选分数得到的目标多媒体资源的准确性更高。

图3为本申请实施例提供的另一种多媒体资源的点播方法的流程示意图。如图3所示，该方法包括但不限于以下步骤：

S301，对多媒体点播语音进行语音识别，得到多媒体点播语音的拼音信息，并从拼音信息中获取用于搜索的关键拼音。

在本申请实施例中，步骤S301的实现方式可以分别采用本公开的各实施例中的任一种方式实现，在此并不对此作出限定，也不再赘述。

S302，确定所述关键拼音对应的搜索对象类型。

在本申请实施例中，步骤S302的实现方式可以分别采用本公开的各实施例中的任一种方式实现，在此并不对此作出限定，也不再赘述。

S303，在搜索对象类型指示搜索对象为人名时，获取候选人名与候选人名的拼音之间的第二映射词典，作为目标映射词典。

在本申请实施例中，通过数据库构建了候选人名和对应拼音的第二映射词典，因此当关键拼音对应的搜索对象类型指示搜索对象为人名时，将候选人名和对应拼音之间的第二映射词典作为目标映射词典。

S304，在拼音词库中对关键拼音进行逆向最大匹配，得到第一人名拼音，其中，拼音词库包括候选人名拼音和单字拼音。

在拼音词库中对该关键拼音进行逆向最大匹配，从而得到关键拼音对应的第一人名拼音，拼音词库是可以为预先构建的人名拼音和单字拼音的词库，也即是拼音词库中包括了候选人名拼音和单字拼音。

示例性说明，候选人名拼音可以为导演姓名拼音、演员姓名拼音或者歌手姓名拼音，单字拼音是指单个字的拼音，目的是为后续逆向最大匹配提供依据。

逆向最大匹配算法是从被处理文档的末端开始匹配扫描，假如多媒体点播语音的关键拼音为“hu2 ge1 de5 dian4 shi4 ju4”(胡歌的电视剧)；拼音词库中的人名拼音和单字拼音包括{‘hu2’,‘ge1’,‘de5’,‘dian4’,‘shi4’,‘ju2’,‘hu2 ge1’,<其他单字拼音>,‘其他人名拼音’}；在利用逆向最大匹配算法进行扫描匹配时，假设拼音词库中最长词的长度为5，则对关键拼音进行第一轮第一次扫描为“ge1 de5 dian4 shi4ju4”，在拼音词库中匹配失败，进行第二次扫描“de5 dian4 shi4 ju4”，在拼音词库中匹配失败，进行第三次扫描为“dian4 shi4 ju4”，在拼音词库中匹配失败，进行第四次扫描为“shi4 ju4”，在拼音词库中匹配失败，进行第五次扫描为“ju4”，在拼音词库中匹配成功，扫描中止，输出“ju4”；开始第二轮扫描，第二轮扫描时去除“ju4”，则第二轮第一次扫描为“hu2 ge1 de5 dian4shi4”，在拼音词库中匹配失败，进行第二次扫描为“ge1 de5 dian4 shi4”，在拼音词库中匹配失败，进行第三次扫描为“de5 dian4 shi4”，在拼音词库中匹配失败，进行第四次扫描为“dian4 shi4”，在拼音词库中扫描失败，进行第五次扫描为“shi4”，在拼音词库中匹配成功，扫描中止，输出“shi4”；开始第三轮扫描，第三轮扫描时去除了“ju4”和“shi4”，第三轮第一次扫描为“hu2 ge1 de5 dian4”，以此类推，第三轮扫描输出“dian4”；开始第四轮扫描，第四轮扫描时去除了“ju4”、“shi4”以及“dian4”，第四轮第一次扫描为“hu2 ge1 de5”，以此类推，第四轮扫描输出“de5”；开始第五轮扫描，第五轮扫描时去除了“ju4”、“shi4”、“dian4”以及“de5”，第五轮第一次扫描为“hu2 ge1”，在拼音词库中匹配成功，输出“hu2ge1”，整体扫描结束，逆向最大匹配算法输出最终切分结果为“hu2 ge1/de5/dian4/shi4/ju4”。其中，“hu2 ge1”为切分出的人名拼音。

S305，从第二映射词典中，确定与第一人名拼音存在映射关系的候选人名，作为目标人名。

从第二映射词典中选取与第一人名拼音存在映射关系的候选人名，将存在映射关系的候选人名记为目标人名；后续分析时仅对目标人名进行分析，减少人名分析过程中的成本，缩小分析范围，效率更高。

S306，从候选多媒体资源中，基于目标人名确定目标多媒体资源。

在获取到目标人名之后，根据目标人名可得到对应的目标多媒体资源。在一些实现中，从候选多媒体资源中，获取与目标人名关联的第二候选多媒体资源。可选地，获取候选人名与候选多媒体资源之间的第三映射词典，进一步地，基于第三映射词典在候选多媒体资源中，查询与目标人名存在映射关系的至少一个或多个候选多媒体资源，作为第二候选多媒体资源。

示例性说明，候选人名可以为导演姓名，候选多媒体资源可以为电影或电视剧等影视剧，第三映射词典中可以包括每个导演姓名和该导演所拍摄的影视剧名称。

可以理解的是，第三映射词典中可以包括不同类型的人名，例如演员、导演、歌手等，以及各个人名对应的视频或音频作品的名称。第一映射词典中可以包括不同的多媒体资源，例如视频或音频作品，以及每个视频或者音频对应的名称拼音。第二映射词典中可以包括不同类型的人名，例如歌手、演员以及导演，以及每个人名对应的人名拼音。

进一步地，在获取到第二候选多媒体资源后，可以从第二候选多媒体资源中，确定目标多媒体资源。

可选地，若第二多媒体资源为多个时，用户可以再参与一次互动，由用户从多个第二多媒体资源中选取出目标多媒体资源，例如用户利用遥控器或其他方式手动选择出目标多媒体资源；或者用户可以继续通过语音识别选取出目标多媒体资源，如播放第几个，也可以由用户直接说出目标多媒体资源的名称；还可以无需用户参与互动，直接从多个第二多媒体资源中选取出播放量最多的第二多媒体资源作为目标多媒体资源，也可以从多个第二多媒体资源中选取出上线时间最近的第二多媒体资源作为目标多媒体资源。

S307，播放目标多媒体资源。

在电视点播场景中，基于多媒体点播语音的关键拼音得到目标多媒体资源之后，对该目标多媒体资源进行播放。

在一些实现中，目标多媒体资源可以直接进行播放。

在另一些实现中，目标多媒体资源需要等待用户进一步的反馈进行播放。

若存在多个目标多媒体资源时，可以显示并基于用户进一步的选取指令，从多个目标多媒体资源中确定需要播放的目标多媒体资源进行播放。

在本申请实施例中，当关键拼音对应的搜索对象类型为人名时，基于逆向最大匹配在拼音词库中得到关键拼音对应的第一人名拼音，基于第一人名拼音从第二映射词典中选取与第一人名拼音存在映射关系的候选人名，从而得到目标人名，后续仅对目标人名进行分析，减少了计算成本。进一步地，基于预先构建的第三映射词典得到目标人名对应的第二候选多媒体资源库，从第二候选多媒体资源库中选取出与目标人名关联的多媒体资源，能够为用户提供更多的选项，提高用户体验感，并且在用户的交互下获取到更加准确的目标多媒体资源。

图4为本申请实施例提供的另一种多媒体资源的点播方法的流程示意图。如图4所示，该方法包括但不限于以下步骤：

S401，对多媒体点播语音进行语音识别，得到多媒体点播语音的拼音信息，并从拼音信息中获取用于搜索的关键拼音。

在本申请实施例中，步骤S401的实现方式可以分别采用本公开的各实施例中的任一种方式实现，在此并不对此作出限定，也不再赘述。

S402，确定所述关键拼音对应的搜索对象类型。

在本申请实施例中，步骤S402的实现方式可以分别采用本公开的各实施例中的任一种方式实现，在此并不对此作出限定，也不再赘述。

S403，在搜索对象类型指示搜索对象为多媒体资源时，获取候选多媒体资源的名称和候选多媒体资源的名称拼音之间的第一映射词典，作为目标映射词典。

在本申请实施例中，步骤S403的实现方式可以分别采用本公开的各实施例中的任一种方式实现，在此并不对此作出限定，也不再赘述。

S404，获取第一映射词典中候选多媒体资源的名称拼音的TF-IDF。

在本申请实施例中，步骤S404的实现方式可以分别采用本公开的各实施例中的任一种方式实现，在此并不对此作出限定，也不再赘述。

S405，基于候选多媒体资源的名称拼音的TF-IDF和第一映射词典，确定目标多媒体资源。

可选地，基于候选多媒体资源的名称拼音的TF-IDF，从第一映射词典包括的候选多媒体资源的名称拼音中，确定第一候选多媒体资源的名称拼音。进一步地，根据第一候选多媒体资源的名称拼音与关键拼音，得到第一候选多媒体资源的筛选分数。可选地，从第一候选多媒体资源中选取筛选分数最高的多媒体资源，作为目标多媒体资源。

S406，在搜索对象类型指示搜索对象为人名时，获取候选人名与所述候选人名的拼音之间的第二映射词典，作为目标映射词典。

在本申请实施例中，步骤S406的实现方式可以分别采用本公开的各实施例中的任一种方式实现，在此并不对此作出限定，也不再赘述。

S407，在拼音词库中对关键拼音进行逆向最大匹配，得到第一人名拼音，并基于第二映射词典和第一人名拼音，确定目标多媒体资源。

在一些实现中，拼音词库包括候选人名拼音和单字拼音。

在一些实现中，从第二映射词典中，确定与第一人名拼音存在映射关系的候选人名，作为目标人名，从候选多媒体资源中，基于目标人名确定目标多媒体资源。

S408，播放目标多媒体资源。

在本申请实施例中，步骤S408的实现方式可以分别采用本公开的各实施例中的任一种方式实现，在此并不对此作出限定，也不再赘述。

在本申请实施例中，通过提取多媒体点播语音的关键拼音，进而判断多媒体点播语音的搜索对象类型，根据不同的搜索对象类型对应不同的目标搜索词典，当搜索对象类型指示搜索对象为多媒体资源时，将第一映射词典作为目标映射词典进行搜索；当搜索对象类型方式指示搜索对象为人名时，将第二映射词典作为目标映射词典进行搜索，并且在搜索过程中通过每个候选多媒体资源的筛选分数进行目标多媒体资源的判定，基于不同的情况进行分析，适应性更强，利用不同的维度进行搜索，如资源维度和人名维度，增加搜索的多样性和灵活性。得到的目标多媒体资源的准确性更高。

下面以电视点播场景为例，对本申请中提供的多媒体资源的点播方法进行解释说明：

图5为本申请实施例提供的另一种多媒体资源的点播方法的流程示意图。如图5所示，该方法包括但不限于以下步骤：

S501，构建影视名拼音数据库和人名拼音数据库。

在本申请实施例中，通过数据库构建映射词典来支持多媒体资源和人名相关影视搜索；具体包括：根据影视数据库构建候选多媒体资源和对应拼音的第一映射词典、根据人名数据库构建候选人名和对应拼音的第二映射词典、构建候选人名和候选多媒体资源的第三映射词典以及构建候选人名拼音和单字拼音的拼音词库。

S502，预先加载数据库。

对数据库进行预先加载能够减少等待时间，在利用数据库分析时更加便捷，提升用户体验。

可选的，数据库预先加载可以利用Include方法。

S503，采集影视剧点播语音，并对语音进行拼音转换。

可选地，为了保证后续对多媒体点播语音处理的准确性，对采集到的多媒体点播语音做降噪以及回声消除等前处理。

S504，从拼音信息中获取搜索的关键拼音。

在获取到多媒体点播语音的拼音信息之后，根据拼音信息的结果获取电视点播场景下用于搜索的关键拼音作为关键词。

可选的，关键拼音为：“bang1 wo3 bo1 fang4”(帮我播放)、“bang1 wo3 dian3bo1”(帮我点播)、“wo3 xiang3 kan4”(我想看)、“de5 dian4 ying3”(的电影)以及“de5dian4 shi4 ju4”(的电视剧)。

S505，根据所有关键拼音，判断搜索影视名还是人名。

若搜索到“de5 dian4 ying3”(的电影)以及“de5 dian4 shi4 ju4”(的电视剧)等关键拼音，则表明是需要寻找相关演员或导演的多媒体资源，也即是搜索人名；否则，对于“bang1 wo3 bo1 fang4”(帮我播放)、“bang1 wo3 dian3 bo1”(帮我点播)以及“wo3xiang3kan4”(我想看)等关键拼音，直接根据文本匹配多媒体资源，也即是搜索影视名。

S506，当搜索影视名时，利用改进的TF-IDF算法匹配出最终的影视剧。

当搜索影视名时，利用获取第一映射词典中候选多媒体资源的名称拼音的TF-IDF；基于候选多媒体资源的名称拼音的TF-IDF，从第一映射词典包括的候选多媒体资源的名称拼音中，确定第一候选多媒体资源的名称拼音；获取第一候选多媒体资源的名称拼音和关键拼音的相似距离；根据第一候选多媒体资源的相似距离和名称拼音的长度，确定第一候选多媒体资源的权重；基于第一候选多媒体资源的权重，对第一候选多媒体资源的TF-IDF进行加权运算，得到第一候选多媒体资源的筛选分数；从第一候选多媒体资源中选取筛选分数最高的多媒体资源，作为目标多媒体资源。

S507，当搜索人名时，利用逆向最大匹配算法得到人名匹配结果，并基于人名匹配结果匹配出最终的影视剧。

当搜索人名时，在拼音词库中对关键拼音进行逆向最大匹配，得到第一人名拼音，其中，拼音词库包括候选人名拼音和单字拼音；从第二映射词典中，确定与第一人名拼音存在映射关系的候选人名，作为目标人名；获取候选人名与候选多媒体资源之间的第三映射词典；基于第三映射词典在候选多媒体资源中，查询与目标人名存在映射关系的至少一个或多个候选多媒体资源，作为第二候选多媒体资源；基于第二候选多媒体资源确定目标多媒体资源。

S508，对最终的影视剧进行播放。

在电视点播场景中，基于多媒体点播语音的关键拼音得到目标多媒体资源之后，对该目标多媒体资源进行播放。

在一些实现中，目标多媒体资源可以直接进行播放。

在另一些实现中，目标多媒体资源需要等待用户进一步的反馈进行播放。

若存在多个目标多媒体资源时，可以显示并基于用户进一步的选取指令，从多个目标多媒体资源中确定需要播放的目标多媒体资源进行播放。

在本申请实施例中，通过构建影视名拼音和人名拼音的数据库为后续处理通过基础，进一步通过多媒体点播语音的拼音信息进行匹配识别，可避免利用汉字进行识别的误差，识别更加准确；同时，根据多媒体点播语音中关键拼音是影视名还是人名采用不同的匹配方法，适应性更强，最终匹配出的目标多媒体资源的准确性更高。

图6为本申请实施例的多媒体资源的点播装置的结构示意图。如图6所示，该多媒体资源的点播装置600，包括：

第一获取模块601，用于对多媒体点播语音进行语音识别，得到所述多媒体点播语音的拼音信息，并从所述拼音信息中获取用于搜索的关键拼音；

第二获取模块602，用于确定所述关键拼音对应的搜索对象类型，并获取与所述搜索对象类型匹配的对象名称和所述对象名称的拼音之间的目标映射词典；

播放模块603，用于基于所述关键拼音在所述目标映射词典进行搜索，以得到与所述多媒体点播语音匹配的目标多媒体资源进行播放。

在一些实现中，第二获取模块602，还用于：

在所述搜索对象类型指示搜索对象为人名时，获取候选人名与所述候选人名的拼音之间的第二映射词典，作为所述目标映射词典。

在一些实现中，第二获取模块602，还用于：

在所述目标映射词典为所述第一映射词典时，获取所述第一映射词典中候选多媒体资源的名称拼音的词频逆文档频率TF-IDF；

基于所述候选多媒体资源的名称拼音的TF-IDF，从所述第一映射词典包括的候选多媒体资源的名称拼音中，确定第一候选多媒体资源的名称拼音；

根据所述第一候选多媒体资源的名称拼音与所述关键拼音，得到所述第一候选多媒体资源的筛选分数；

从所述第一候选多媒体资源中选取所述筛选分数最高的多媒体资源，作为所述目标多媒体资源。

在一些实现中，第二获取模块602，还用于：

获取所述第一候选多媒体资源的名称拼音和所述关键拼音的相似距离；

根据所述第一候选多媒体资源的相似距离和所述名称拼音的长度，确定所述第一候选多媒体资源的权重；

基于所述第一候选多媒体资源的权重，对所述第一候选多媒体资源的TF-IDF进行加权运算，得到所述第一候选多媒体资源的筛选分数。

在一些实现中，第二获取模块602，还用于：

从所述第二映射词典中，确定与所述第一人名拼音存在映射关系的候选人名，作为目标人名；

从候选多媒体资源中，基于所述目标人名确定所述目标多媒体资源。

在一些实现中，第二获取模块602，还用于：

从所述候选多媒体资源中，获取与所述目标人名关联的第二候选多媒体资源；

基于所述第二候选多媒体资源确定所述目标多媒体资源。

在一些实现中，第二获取模块602，还用于：

获取候选人名与候选多媒体资源之间的第三映射词典；

本申请实施例中，通过多媒体点播语音的拼音信息进行匹配识别，可避免利用汉字进行识别的误差，准确性更高；同时，将多媒体点播语音转换为拼音直接进行识别，效率较高；在基于拼音信息进行目标多媒体资源的匹配识别时，提取出其中的关键拼音，根据关键拼音的搜索对象类型进行不同目标映射词典的获取，基于对应的目标映射词典进行搜索，对关键拼音的搜索更加具有针对性，缩小了搜索范围，搜索的效率较高且准确率较高。

图7是根据一示例性实施例示出的一种电子设备框图。如图7所示，电子设备700包括多媒体资源的点播装置600。该电子设备可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，非移动电子设备可以为网络附属存储器(Network Attached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

根据本申请实施例的还提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器，其中，所述处理器被配置为执行所述指令，以实现如上所述的多媒体资源的点播方法。

为了实现上述实施例，本申请还提出了一种存储介质。

其中，当存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上所述的多媒体资源的点播方法。

为了实现上述实施例，本申请还提供一种计算机程序产品。

其中，该计算机程序产品由电子设备的处理器执行时，使得电子设备能够执行如上所述的多媒体资源的点播方法。

图8是根据一示例性实施例示出的一种电子设备框图。图8示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，电子设备800包括处理器801，其可以根据存储在只读存储器(ROM，Read Only Memory)802中的程序或者从存储器806加载到随机访问存储器(RAM，RandomAccess Memory)1003中的程序而执行各种适当的动作和处理。在RAM803中，还存储有电子设备800操作所需的各种程序和数据。处理器801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O，Input/Output)接口805也连接至总线804。

以下部件连接至I/O接口805：包括硬盘等的存储器806；以及包括诸如LAN(局域网，Local Area Network)卡、调制解调器等的网络接口卡的通信部分807，通信部分807经由诸如因特网的网络执行通信处理；驱动器808也根据需要连接至I/O接口805。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分807从网络上被下载和安装。在该计算机程序被处理器801执行时，执行本申请的方法中限定的上述功能。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器，上述指令可由电子设备800的处理器801执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

图9是根据一示例性实施例示出的一种电子设备的结构框图。图9示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。如图9所示，该电子设备900包括处理器901和存储器902。其中，存储器902用于存储程序代码，处理器901与存储器902连接，用于从存储器902内读取程序代码，以实现上述实施例中多媒体资源的点播方法。

可选地，处理器901的数量可以是一个或多个。

可选地，电子设备还可以包括接口903，该接口903的数量可以是多个。该接口903可以与应用程序连接，并且可以接收外部设备如传感器的数据等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：罗嗣梧;
专利申请人：北京奕斯伟计算技术股份有限公司;

上一篇：一种细化低碳钢奥氏体晶粒的方法及低碳钢
下一篇：一种可拆卸婴儿车