一种多媒体智能控制方法及客户端、系统

文献发布时间：2023-06-19 11:44:10

技术领域

本发明涉及多媒体智能控制领域，具体涉及一种多媒体智能控制方法及客户端、系统。

背景技术

目前由于距离、时间、人员流动等因素，导致人们无法亲身前往特定场所参与特定的活动，例如祭拜、祈福、殿堂活动等，市面上出现了一些能够为用户提供预先录制好的视频的线上礼佛产品，或通过互联网远程直播现场活动。但通过这些渠道，用户仍然无法获得参与上述场所活动的“沉浸式”体验。

近年来为了改善用户体验，在向用户提供互联网视频播放服务时，将体感控制的方法应用其中，例如用户可以做出一些特定动作来加速视频播放，或者根据用户动作拼凑个性化的视频片段，上述方案存在控制形式单一、视频播放生硬不连贯等缺陷。还有一些不计算力成本的方法，例如实时计算用户动作与特定动作的匹配程度，进而控制视频加速或减速播放，由于需要对不同视频流进行连续的图像匹配计算，算法复杂且对算力要求较高，终端成本要求太高。

发明内容

为解决上述问题中的至少之一，提出一种简单、灵活的多媒体智能控制方法及产品，使得用户可以藉此获得沉浸式的远程参与体验。

为实现上述目的，本发明的第一方面提供一种多媒体智能控制方法，包括：步骤101.实时获取用户的第一多媒体信息和/或传感器信息，根据所述第一多媒体信息和/或所述传感器信息获取对应的实时动作信息；步骤102.接收用户指令，所述用户指令包括标准片段时长；获取与所述用户指令对应的第二多媒体信息；所述第二多媒体信息包括一个或多个祭拜元素，根据所述祭拜元素将第二多媒体信息分割成一个或多个片段信息；步骤103.基于所述实时动作信息生成智能控制指令，所述智能控制指令包括控制播放速度的状态指令和播放下一片段信息的决策指令；步骤104.根据所述标准片段时长修正所述智能控制指令，得到修正后的决策指令和修正后的状态指令；步骤105.根据所述智能控制指令中修正前的状态指令和所述修正后的状态指令控制所述片段信息的内容播放速度。

优选地，每个所述片段信息的时长是所述标准片段时长的整数倍。

优选地，所述修正后的决策指令之间的时间间隔是所述标准片段时长的整数倍。

优选地，所述步骤104具体包括：获取所述智能控制指令中的当前决策指令的时间点，如果所述当前决策指令的时间点与前一决策指令的时间点之间的时间间隔不等于所述标准片段时长的整数倍，则延迟修正所述当前决策指令的时间点，使修正后的当前决策指令的时间点与所述前一决策指令的时间点之间的时间间隔等于所述标准片段时长的整数倍。该步骤进一步包括：根据所述修正前的当前决策指令的时间点确定当前片段信息的对应播放时间点，基于所述当前片段信息的对应播放时间点与下一片段信息的起始时间点之间的时间间隔，以及所述当前决策指令的延迟修正时间，确定修正后的状态指令。进一步，所述步骤105具体包括：根据修正前的状态指令，控制当前片段信息的所述对应播放时间点之前的内容播放速度；以及根据所述修正后的状态指令，控制当前片段信息的所述对应播放时间点之后的内容播放速度。

优选地，所述步骤102进一步包括：获取所述第二多媒体信息之后、分割成一个或多个片段信息之前，根据所述第一多媒体信息对所述第二多媒体信息进行融合操作。

通过本发明的第一方面，用户可以利用自身动作来灵活控制相应多媒体的播放，进而使其在进行远程礼佛等活动时获得沉浸式的参与体验，具体有益效果至少包括：第一，上述技术方案不需要拼凑多媒体片段，用户播放的均是各个环节连贯的完整多媒体信息，因此不会出现播放停顿跳跃、不连贯的情况；第二，上述技术方案可以根据用户当前形象，对多媒体信息进行融合处理，从而使用户侧获得自身亲自参与的多媒体内容；第三，上述技术方案不需要对视频流进行连续不间断的图像识别匹配操作，只需要按照标准片段时长进行指令的修正与执行，甚至可以将绝大部分操作置于客户端实现，相较于现有技术大大减少了运算成本、降低了硬件要求；第四，用户可以根据自身需要调节标准片段时长，从而在实时性和控制准确性之间保持平衡，实现用户的自调节，进一步增强用户的沉浸式体验。

本发明的第二方面提供一种多媒体智能控制客户端，包括采集模块、输入模块、通讯模块、第一处理模块、指令控制模块和多媒体内容播放模块，其中，所述采集模块，用于实时采集第一多媒体信息和/或传感器信息，并将采集的信息发送给所述第一处理模块；所述输入模块，用于接收用户指令，所述用户指令包括标准片段时长；所述通讯模块，用于向多媒体智能控制服务器发送所述用户指令，并接收所述多媒体智能控制服务器发送的第二多媒体信息，所述第二多媒体信息包括一个或多个祭拜元素；所述第一处理模块，用于接收所述采集模块发送的第一多媒体信息和/或传感器信息，并处理得到实时动作信息；根据所述祭拜元素将所述第二多媒体信息分割成一个或多个片段信息；所述指令控制模块，用于根据所述实时动作信息生成智能控制指令，并基于所述标准片段时长修正所述智能控制指令，得到修正后的决策指令与修正后的状态指令；多媒体内容播放模块，用于根据修正前的状态指令与所述修正后的状态指令控制所述片段信息的内容播放速度。

第三方面，本发明提供一种多媒体智能控制系统，所述多媒体智能控制系统包括：多媒体智能控制服务器，以及本发明第二方面提供的多媒体智能控制客户端。

与现有技术相比，本发明的第二和第三方面为用户提供了可以利用自身动作来灵活控制相应多媒体播放的产品，进而使其在进行远程礼佛等活动时获得沉浸式的参与体验。客户端自身采集用户动作，进而按照展现的多媒体内容生成控制各个片段信息播放的控制指令并加以修正，从而控制多媒体中各个片段信息的播放，无需进行复杂的视频拼接、编辑操作；同时，由于远程礼佛、祭拜等活动并不要求用户的动作与多媒体中的动作同步且同态，节省了视频实时画面匹配识别的运算资源，使得绝大部分信息处理的工作可以不依赖服务器而独立完成，减少了运算成本；此外，用户可以根据自身需求来调节标准片段时长，进而修正智能控制指令，使得其能够在不明显增加处理负担的基础上，有效地控制多媒体连贯且“跟随”用户动作播放，进而在实时性和控制准确性之间实现用户的自调节，进一步增强用户的沉浸式体验。

本发明的其他特征及优点，将在随后的说明书具体实施方式部分阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。

附图说明

图1为本发明第一实施方式中的多媒体智能控制方法的流程图；

图2为本发明第二实施方式中的多媒体智能控制客户端结构示意性框图；

图3为本发明第三实施方式中的多媒体智能控制系统结构示意性框图。

具体实施方式

下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

具体实施方式一

请参阅图1，本发明第一实施方式提供一种多媒体智能控制方法，包括如下步骤：

步骤101.实时获取用户的第一多媒体信息和/或传感器信息，根据所述第一多媒体信息和/或所述传感器信息获取对应的实时动作信息。

具体地，可以通过智能终端或摄像头实时录入用户的第一多媒体数据，主要包括用户的实时动态多媒体数据，还可以通过智能终端上的传感器以及其他可穿戴式智能设备实时采集传感器信息；在实时采集到的第一多媒体信息中提取实时动作信息，例如，通过对第一多媒体信息进行处理，提取其中用户的运动速度、加速度、上肢动作、下肢动作、头部动作、腕部翻转等等；或者也可以通过传感器信息的组合识别出用户的实时动作信息。

步骤102.接收用户指令，所述用户指令包括标准片段时长；获取与所述用户指令对应的第二多媒体信息；所述第二多媒体信息包括一个或多个祭拜元素，根据所述祭拜元素将第二多媒体信息分割成一个或多个片段信息。

具体地，用户可以自行上传第二多媒体信息到服务器端存储，也可以由服务商提前制作好第二多媒体信息存储在服务器端，这样就可以根据用户的指令，匹配特定的第二多媒体信息提供给用户播放。用户在发出用户指令时可以设定其自身希望的标准片段时长，标准片段时长是第二多媒体在播放过程中的控制基准，例如对一段长度5分钟的远程祭祀佛像多媒体数据而言，某用户Alice设置期望的标准片段时长时10秒，那么用户Alice就是希望以10秒为控制基准来播放这一段多媒体数据。第二多媒体数据中包含了一个或多个祭拜元素，前述远程祭祀佛像的多媒体数据可以包含从寺庙大门到大雄宝殿的步行元素，抬起贡品、摆放贡品的上贡元素，以及俯身、下蹲、下跪等跪拜元素，还可以包括起身、鞠躬等回礼元素等。根据这些元素，可以将整段多媒体数据分割为多个片段信息，在实际操作过程中，无需对多媒体数据进行真实的切割操作，只需要添加相应的时间点，即可确定出每个片段信息。这样无需对多媒体进行拼接操作，节约了处理资源。

在得到片段信息时，如前所述，用户希望按照标准片段时长为控制基准，那么每个片段信息的时长优选为标准片段时长的整数倍，例如将前述5分钟远程祭祀佛像的多媒体数据，用户希望以10秒为标准片段时长，通过加入分段时间点的方式，得到了10个片段信息，每个片段信息为30秒。当然，所属领域技术人员应当理解，片段信息的时长也可以不是标准片段时长的整数倍，为说明此种情况，假设前述多媒体得到了12个片段信息，每个片段信息的长度是25秒。

此外，还可以根据第一多媒体信息对第二多媒体信息进行融合操作，例如，将用户实时的外貌形态、衣着表情等与第二多媒体中的人物进行融合操作，使用户获得自身亲自参与的多媒体内容。

步骤103.基于所述实时动作信息生成智能控制指令，所述智能控制指令包括控制播放速度的状态指令和播放下一片段信息的决策指令。

具体地，当用户从初始状态转变到有动作的时候，此时即产生了第一个决策指令——播放第一个片段信息；例如用户Alice在13:58:00时产生了向前移动的智能控制指令，决策指令为<序号000；决策类型；时刻135800；修正NULL>，同时紧接着采集到用户Alice的移动速度为0.5米/秒，按照预设的对应关系，也就相应地生成了状态指令<序号000；状态类型；控制值2；指针指向决策指令序号001；修正NULL>，其中控制值代表播放速度的快慢，接着在13:58:07时用户Alice停止移动，并开始抬双臂，此时生成决策指令<序号001；决策类型；时刻135807；修正NULL>，同时由于检测到抬臂速度为0.1米/秒，因此按照预设对应关系会同步生成状态指令<序号001；状态类型；控制值1；指针指向决策指令序号002；修正NULL>……类似地，由于用户Alice希望通过自身的动作来控制这具有10分钟远程祭祀佛像的多媒体数据的播放，那么她会不断做出各种动作，相应地就会产生一系列智能控制指令，也就是一系列的决策指令和状态指令。

步骤104.根据所述标准片段时长修正所述智能控制指令，得到修正后的决策指令和修正后的状态指令。

发明人团队在实际研发过程中发现，作为远程用户Alice，她由于场地的限制、动作的不熟练，以及无法精准获知多媒体内容的各个动作的播放时刻，因此用户Alice的动作与多媒体视频播放中人物的动作并不能同步，而如果在用户做出相应动作的瞬间，就“切换”多媒体视频播放的内容，则会导致视频播放的跳跃、不连贯，甚至在查阅现有技术后发现，多数方案还需要对多媒体数据进行相应的跳转、预切割等处理。然而在本实施方式中，通过修正控制指令来代替修正多媒体本身，大大降低了处理难度，节约了处理资源。

具体地，对于决策指令，首先，获取当前决策指令的时间点。例如当前决策指令<序号001；决策类型；时刻135807；修正NULL>；其次，判断当前决策指令的时间点与前一决策指令的时间点之间的时间间隔是否等于标准片段时长的整数倍。例如，前一决策指令为<序号000；决策类型；时刻135800；修正NULL>，通过简单的计算可知，当前决策指令的时间点与前一决策指令的时间点之间的时间间隔为7秒，由于用户Alice以10秒为标准片段时长，那么当前决策指令的时间点与前一决策指令的时间点之间的时间间隔不等于标准片段时长的整数倍；接着，延迟修正当前决策指令的时间点，使修正后的当前决策指令的时间点与前一决策指令的时间点之间的时间间隔等于标准片段时长的整数倍。具体而言，就是将当前决策指令的时间点进行延迟修正3秒，如此一来，其与前一决策指令之间的时间间隔等于10秒，是标准片段时长10秒的整数倍，修正后的决策指令为<序号001；决策类型；时刻135807；修正135810>。

具体地，对于状态指令，首先，根据修正前的当前决策指令的时间点确定当前片段信息的对应播放时间点。例如，当前决策指令<序号001；决策类型；时刻135807；修正NULL>，其时间点是13:58:07，也就是说，从13:58:00起，5分钟的远程祭祀佛像多媒体已经实际播放了7秒，而假设这一多媒体是按照两倍速度播放，即在时刻13:58:07时，播放到了多媒体中第一片段(第一片段总共25秒)的第14秒的位置，第14秒即当前片段信息的对应播放时间点。然后，基于当前片段信息的对应播放时间点与下一片段信息的起始时间点之间的时间间隔，以及当前决策指令的延迟修正时间，确定修正后的状态指令。下一片段信息的播放时间点是第25秒，当前片段信息的对应播放时间点(第14秒)与下一片段信息的起始时间点(第25秒)之间的时间间隔相差9秒，而在修正决策指令时已经得知，当前决策指令的延迟修正时间是3秒，二者数值关系为3倍，那么修正后的状态指令应当是<序号000；状态类型；控制值3；指针指向决策指令序号001；修正135807>。

步骤105.根据所述智能控制指令中修正前的状态指令和所述修正后的状态指令控制所述片段信息的内容播放速度。

具体地，根据修正前的状态指令，控制当前片段信息的所述对应播放时间点之前的内容播放速度；以及根据所述修正后的状态指令，控制当前片段信息的所述对应播放时间点之后的内容播放速度。首先，第一片段信息在播放时，修正前的状态指令是<序号000；状态类型；控制值2；指针指向决策指令序号001；修正NULL>、修正后的状态指令是<序号000；状态类型；控制值3；指针指向决策指令序号001；修正135807>，对应播放时间点已经确定是第14秒，那么具体的控制应当是这样：在播放第0～14秒时，根据修正前的状态指令以2倍速度加速播放，在播放第14～25秒时，根据修正后的状态指令以3倍速度播放。

可见，在上述方案中，在实现了播放控制的同时，采集动作，生成并修正控制指令，然后用于播放控制，如此循环往复，可以实现用户通过自身动作控制整个多媒体信息全部片段信息的播放，而在时延方面，由前述方案可以清楚地确定，多媒体信息可能会发生延迟，例如用户已经做出了动作，但是多媒体还没有播放到相应的动作，但是这一延迟最大不超过标准片段时长，也即达到了用户以标准片段时长作为控制基准来实现多媒体的播放控制的目的。同时，上述方案没有删节多媒体信息的任何内容，不会带来多媒体数据处理的资源耗费。尤其是，当多媒体信息中包含了用户自身元素时，由于其沉浸式的体验，使得作为控制方的用户在使用此类产品时会不由自主地去在做完某个动作后会更多地关注多媒体信息中的“自己”会做出怎样的动作，因此，此类方案尤其适用于与远程礼佛、祭拜相关的场景中。

具体实施方式二

请参阅图2，本发明第二实施方式提供一种多媒体智能控制客户端，其包括采集模块、输入模块、通讯模块、第一处理模块、指令控制模块和多媒体内容播放模块。

采集模块，用于实时采集第一多媒体信息和/或传感器信息，并将采集的信息发送给第一处理模块。智能终端上可以集成的功能越来越丰富，通过摄像头、外接组件、短程无线电连接等方式均能够采集第一多媒体信息，通常来说，第一多媒体信息包含了用户的实时动态数据，还可以包含用户外貌姿态、形象衣着等信息。同时还可以通过智能终端上的传感器，或者部署在特定场所中的传感器，或者穿戴式设备上的传感器采集用户的运动信息。

输入模块，用于接收用户指令，用户指令包括标准片段时长。用户可以通过按键、声音等方式向智能终端发出用户指令，客户端可以提供相应的指令内容输入接口，当用户发出用户指令时，客户端即可接收到各个指令内容。用户指令可以包括用户希望播放的第二多媒体的相关信息，以供服务器匹配出符合用户需求的多媒体内容；用户指令还可以包括标准片段时长，以体现出用户在控制基准方面的要求，后续的播放动作根据标准片段时长进行，以使产品向用户提供的多媒体播放服务满足用户的要求。

通讯模块，用于向多媒体智能控制服务器发送所述用户指令，并接收多媒体智能控制服务器发送的第二多媒体信息，所述第二多媒体信息包括一个或多个祭拜元素。现有的远程通信技术涵盖了各种无线通信方式、有线通信方式，能够满足用户对祭拜相关多媒体内容的获取需求。而具体地，通讯模块还用于向多媒体智能控制服务器发送第一多媒体信息，并接收多媒体智能控制服务器发送的融合多媒体信息，融合多媒体信息由多媒体智能控制服务器根据第一多媒体信息对第二多媒体信息进行融合操作后得到。为了使用户获得沉浸式的服务体验，通讯模块将采集模块采集的包含有用户外貌、姿态、着装等信息的第一多媒体信息发送到服务器侧，由服务器对第二多媒体信息进行替换、融合等操作，向用户提供的多媒体内容中的人物正是用户自身，提高了用户体验。

第一处理模块，用于接收采集模块发送的第一多媒体信息和/或传感器信息，并处理得到实时动作信息；根据祭拜元素将第二多媒体信息分割成一个或多个片段信息。具体地，第一处理模块可以通过现有多种算法来识别第一多媒体信息中的实时动作信息，或根据多种传感器信息的组合来识别特定的实时动作信息。同时，第一处理模块还可以根据多媒体内容中的祭拜元素或其他配置文件，将整段多媒体数据分割为多个片段信息，且在实际操作过程中，无需对多媒体数据进行真实的切割操作，只需要添加相应的时间点，即可确定出每个片段信息。这样无需对多媒体进行拼接操作，节约了处理资源，由此这一操作无需服务器协助，仅由客户端即可完成。

指令控制模块，用于根据实时动作信息生成智能控制指令，并基于标准片段时长修正智能控制指令，得到修正后的决策指令与修正后的状态指令。由于在本发明具体实施方式中，无需对用户的各种动作进行全面、精准的识别，仅需要确定出包含控制播放速度的状态指令和播放下一片段信息的决策指令即可，因此这部分计算仍可由客户端独立完成。而具体的指令修正过程已经在本发明第一实施方式中详细介绍，此处不再赘述。

多媒体内容播放模块，用于根据修正前的状态指令与修正后的状态指令控制所述片段信息的内容播放速度。多媒体内容播放模块可以是客户端自身的模块，也可以仅仅是一个内容播放控制实体与接口组成，内容播放控制实体实现播放控制，而接口实现客户端连接外部播放装置，外部播放装置可以是各类显示器、投影仪等。

具体实施方式三

请参阅图3，本发明第三实施方式提供一种多媒体智能控制系统，其包括本发明第二实施方式中的多媒体智能控制客户端，以及多媒体智能控制服务器。其中多媒体智能控制客户端的结构与功能不再赘述，仅介绍多媒体智能控制服务器的主要结构和功能。

多媒体智能控制服务器包括接收组件、匹配引擎、多媒体内容库和发送组件。其中接收组件用于接收客户端发送个用户指令信息，还可以接收客户端发送的第一多媒体信息及其他信息。多媒体内容库中存储有多个第二多媒体信息，可以是用户上传的内容，也可以是服务商提供的内容。匹配引擎就根据用户指令匹配出提供给用户的多媒体内容，并通过发送组件发送给客户端。

此外，多媒体智能控制服务器还可以包括融合组件，其用于根据客户端上传的包含有用户外貌、姿态、着装等信息的第一多媒体信息，对第二多媒体信息进行替换、融合等操作，这样能够提供包含用户自身形象的融合多媒体信息，从而提高了用户体验。

具体实施方式四

本发明第四实施方式还提供一种计算机可读存储介质，通过将计算机程序存储在计算机可读存储介质中，当计算机程序被处理器执行时使得处理器实现本发明第一实施方式中的方法。

尽管参照前述实施方式对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：李和康;
专利申请人：宁波绿能科创文化艺术发展有限公司;