导航：首页> 电通信技术>互动信息处理方法、装置、设备及介质

互动信息处理方法、装置、设备及介质

文献发布时间：2023-06-19 09:33:52

技术领域

本公开实施例涉及计算机数据处理技术领域，尤其涉及一种互动信息处理方法、装置、设备及介质。

背景技术

目前，用户可以基于多媒体数据流查看相应的音视频帧，或者，可以基于多媒体数据流转换的文本信息来查看相应的内容。

采用上述方式，存在查看的多媒体数据流和文本信息是相互独立的，无法根据文本的内容快速定位到相应的多媒体数据流，导致用户需要从多媒体数据流中查找文本内容所对应的视频帧，存在查找效率较低以及用户体验较差的技术问题。

发明内容

本公开实施例提供了一种互动信息处理方法、装置、设备及介质，以实现多媒体数据流与展示文本之间的位置联动，从而提高了阅读便捷性以及高效性的技术效果。

第一方面，本公开实施例提供了一种互动信息处理方法，该方法包括：

建立基于多媒体数据流生成的展示文本与所述多媒体数据流之间的位置对应关系；

基于所述位置对应关系，呈现所述展示文本以及与所述展示文本相对应的多媒体数据流。

第二方面，本公开实施例还提供了一种互动信息处理装置，该装置包括：

对应关系建立模块，用于建立基于多媒体数据流生成的展示文本与所述多媒体数据流之间的位置对应关系；

内容呈现模块，用于基于所述位置对应关系，呈现所述展示文本以及与所述展示文本相对应的多媒体数据流。

第三方面，本公开实施例还提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本公开实施例任一所述的互动信息处理方法。

第四方面，本公开实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如本公开实施例任一所述的互动信息处理方法。

本公开实施例的技术方案，通过建立多媒体数据流与展示文本之间的位置对应关系，实现了多媒体数据流与展示文本之间的位置联动，从而提高了用户阅读文本和多媒体数据流所对应的视频的高效性以及便捷性的技术效果。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。

图1为本公开实施例一所提供的一种互动信息处理方法流程示意图；

图2为本公开实施例二所提供的一种互动信息处理方法流程示意图；

图3为本公开实施例所提供的目标页面的示意图；

图4为本公开实施例三所提供的一种互动信息处理方法流程示意图；

图5为本发明实施例三所提供的目标内容与时间轴上标记对应显示的结构示意图；

图6为本发明实施例三所提供的触发目标内容后，时间轴上标记突出显示的示意图；

图7为本公开实施例四所提供的一种互动信息处理方法流程示意图；

图8为本公开实施例五所提供的一种互动信息处理装置结构示意图；

图9为本公开实施例六所提供的一种电子设备结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

实施例一

图1为本公开实施例一所提供的一种互动信息处理方法的流程示意图，本公开实施例适用于建立多媒体数据流和展示文本之间的位置联动，以在触发展示文本或者多媒体数据流时，实现展示文本和多媒体数据流联动的情形。该方法可以由互动信息处理装置来执行，该装置可以通过软件和/或硬件的形式实现，可选的，通过电子设备来实现，该电子设备可以是移动终端、PC端或服务端等。本实施例所提供的方法，可以由客户端来执行，也可以由服务端来执行，或两者配合执行。

如图1，本实施例的方法包括：

S110、建立基于多媒体数据流生成的展示文本与所述多媒体数据流之间的位置对应关系。

其中，多媒体数据流可以是与实时互动交互界面对应的音视频流数据，或者是对实时互动界面进行录屏后，录屏视频中的视频流数据。实时互动界面为实时互动应用场景中的任意交互界面。实时互动场景可通过互联网和计算机手段实现，例如，通过原生程序或web程序等实现的交互应用程序。可以对多媒体数据流的音频帧进行处理，可选的，提取音频信息得到与多媒体数据流相对应的文本信息，并将文本信息显示在目标页面上。相应的，显示在目标页面上的文本信息为展示文本。为了实现展示文本和多媒体数据流之间的同步联动的效果，可以建立展示文本和多媒体数据里之间的位置对应关系。位置对应关系可以是基于时间戳确定的位置对应关系。例如，在一些应用场景中，展示文本可以是基于对多媒体数据流中的语音进行语音识别得到的。在这些应用场景中，可以基于展示文本中的某一段文字所对应的语音在多媒体数据流中的位置，作为该段文字的时间戳，并建立该段文字和与之对应的语音之间的位置对应关系。

S120、基于所述位置对应关系，呈现所述展示文本以及与所述展示文本相对应的多媒体数据流。

具体的，可以将已建立位置对应关系的展示文本和多媒体数据流显示在目标页面上。从而，在检测到对某一部分展示文本的触发操作(例如，点击等)时，可以根据位置对应关系显示与所述展示文本相对应的视频帧。

本公开实施例的技术方案，通过建立多媒体数据流和展示文本之间的位置对应关系，在检测到触发展示文本的目标内容时，可以将多媒体数据流跳转到目标内容所对应的视频帧，以便用户结合视频帧和目标内容了解发言用户的发言信息，进而提高交互效率的技术效果。

实施例二

图2为本公开实施例二所提供的一种互动信息处理方法的流程示意图。在前述实施例的基础上，可以根据多媒体数据流生成相应的展示文本，以建立展示文本与多媒体数据流之间的位置对应关系。其中，与上述实施例相同或者相应的技术术语在此不再赘述。

如图2所示，所述方法包括：

S210、获取多媒体数据流的音视频帧，并确定与所述音视频帧所对应的发言用户的用户身份标识。

其中，多媒体数据流指的是从基于实时互动界面获取到数据流。将多个用户基于互联网或者计算机手段实现的互动场景作为实时互动场景，例如，多人视频会议，直播等。在实时互动后，为了便捷的对会议内容进行复盘或者确定某一个或者几个发言用户发表的言论所对应的核心思想，可以在实时互动过程中，录制实时互动场景，可选的，录制视频会议内容。将录制得到的实时互动场景作为录屏视频。相应的，多媒体数据流是基于录屏视频获取到的。录屏视频中不仅包括各发言用户的音频信息，还包括视频信息，即多媒体数据流对应音频帧和视频帧。用户身份标识用于表征各个用户的身份。

具体的，可以基于多媒体数据流的音频帧和视频帧，确定音频信息所属终端所对应的用户，进而确定音频帧和/或视频帧所对应发言用户的用户身份标识。

S220、基于所述用户身份标识以及所述音视频帧，生成与所述多媒体数据对应的展示文本。

其中，基于多媒体数据流的音频信息，即音频帧，可以确定与音频帧对应的文字表述。多媒体数据流的视频帧可以是互动用户分享的文档，或者共享的屏幕等。基于视频帧可以确定显示界面上的文字信息和/或链接等信息。基于音频帧和视频帧可以确定与录屏视频相对应的展示文本。对应关系可以是多媒体数据流的时间戳，与展示文本中时间戳之间的对应的关系。目标页面可以是客户端上显示的页面。该页面上可以包括多媒体数据流和展示文本。

具体的，可以对多媒体数据流的音频帧和视频帧进行处理，得到与各音频帧和/或视频帧相对应的文字表述。基于所述用户身份标识，以及各音视频帧所对应的时间戳，生成与多媒体数据流相对应展示文本。为了实现展示文本和多媒体数据流之间的联动性，可以建立多媒体数据流和展示文本之间的位置对应的关系。可选的，多媒体数据流是基于录屏视频获取到的，在检测到触发目标页面上录屏视频的进度条时，可以确定当前视频帧对应的播放时刻，展示文本中区别显示与播放时刻相对应的文本内容。

S230、获取多媒体数据流的音视频帧，并确定与所述音视频帧所对应的发言用户的用户身份标识。

S240、基于所述位置对应关系，呈现所述展示文本以及与所述展示文本相对应的多媒体数据流。

本公开实施例的技术方案，通过对与多媒体数据流的音视频帧进行处理，可以生成与多媒体数据流相对应的文本信息，并显示在目标页面上，通过目标页面上显示的文本信息和多媒体数据流之间的位置对应关系，实现了多媒体数据流和展示文本之间的时间戳同步关联关系，提高了用户阅读文本和观看视频的同步性，从而提高用户体验的技术效果。

在本实施例中，基于多媒体数据流的音视频帧，确定音频帧对应的发言用户的用户身份标识，包括：通过对音频帧进行声纹识别，确定发言用户的用户身份标识；和/或，确定音频帧所属客户端的客户端标识，基于客户端标识确定发言用户的用户身份标识。

通常，声纹识别是生物识别的一种，用于根据发言用户的声波特性进行身份辨识的技术。由于每个发言用户的语言具有独特的声纹，可据此来确定不同身份的发言用户。当然，也可以采集各发言用户所属客户端的标识，基于客户端的标识确定发言用户的用户身份标识。

具体的，可以对多媒体数据流中的音频帧进行声波特性处理，根据处理结果确定各发言用户的用户身份标识。通常，客户端会有对应的客户端账号或客户端ID，从而区分不同客户端。因此可以通过获取各个发言用户所属客户端，基于客户端的标识，确定各发言用户对应的用户身份标识。但是当某个客户端同时有多个用户在一起参会发言时，则多个用户无法通过客户端ID进行区分。由此，可以进一步针对各个用户的语音数据进行声纹识别，每个人的语音具有独特的声纹，可据此区分不同的用户。而后可标记为客户端ID-用户A、客户端ID-用户B，从而区分相同客户端下的不同发言用户的身份信息，即用户身份标识。

在本实施例中，确定不同发言用户身份标识信息的好处在于，在将各发言用户的音频信息转换为文字后，可以确定文字内容所对应的发言用户，进而便于其他用户确定此条发言内容所对应的发言用户所要表达的核心思想，进而达到提高交互效率的技术效果。

在上述技术方案的基础上，基于用户身份标识以及音视频帧生成展示文本，包括：通过对音频帧进行语音转文字处理，得到与音频帧对应的文字表述，基于文字表述以及用户身份标识生成展示文本中的第一展示文本；以及，通过对视频帧进行图文识别，得到视频帧中的文字，基于文字与用户身份标识生成展示文本中的第二展示文本。

具体的，基于语音转文字模块可以将录屏视频中的音频帧转换为相应的文字表述。基于文字表述，音频所对应发言用户的身份标识可以生成展示文本中的第一展示文本。也就是说，展示文本中包括至少一个展示文本，每个展示文本中可以展示相应的内容。可选的，第一展示文本中展示的内容可以是基于音频帧生成的文字。在基于视频帧确定视频图像中的文字后，可以基于视频帧中的文字确定展示文本中的第二展示文本，即第二展示文本展示是与视频图像中国的内容。示例性的，若发言用户A共享了屏幕，可以识别屏幕中的文字内容，并将文字内容展示在第二展示文本中。

需要说明的是，可以将对音频帧和视频帧处理后的内容统一展示在同一个文本上，那么第一展示文本和第二展示文本相同。

本实施例中，将音视频帧对应的内容展示在展示文本中的好处在于，可以直观的将录屏视频中各发言用户的音频帧展示为相应的文字，提高了确定发言用户发言内容的便捷性。

在上述技术方案的基础上，通过对音频帧进行语音转文字处理，得到与音频帧对应的文字表述，基于文字表述以及用户身份标识生成展示文本中的第一展示文本，包括：确定音频帧对应的文字表述，音频帧当前对应的时间戳，以及音频帧所属发言用户的用户身份标识；基于用户身份标识、时间戳以及文字表述生成展示文本中的一条展示内容。

需要说明的是，展示文本中存在至少一个展示内容，在发言用户发言时，可以将发言用户的语音信息转换为相应的文字表述，基于该发言用户的语音信息发言的时间戳，以及语音信息对应的文字信息，可以生成第一展示文本中的一条展示内容。

具体的，针对连续音频帧，且连续音频帧属于同一发言用户时，确定该音频帧对应的文字表述，该音频帧对应的用户身份标识，以及该连续音频帧对应的时间戳，可以生成第一展示文本中的一条展示内容。

需要说明的是，第一展示文本中可以包括多条展示内容，每条展示内容包括发言用户身份标识、发言时间戳以及具体的发言内容，每条展示内容之间所对应的用户身份标识可以相同也可以不同，但是每条内容所对应的时间戳不同。

为了提高展示文本中展示内容的可阅读性，一条展示内容中可以包括至少两个展示段落。可选的，通过对音频帧进行语音转文字处理，得到与音频帧对应的文字表述，基于文字表述以及用户身份标识生成展示文本中的第一展示文本，包括：在基于音频帧进行语音转文字处理过程中，若检测到相邻音频帧之间的间隔时长大于等于预设间隔时长阈值，且后一音频帧所属的用户身份标识未发生变化，则基于后一音频帧生成该条展示内容中的下一段落。

也就是说，在对音频帧进行语音转文字处理时，可以获取相邻两个音频帧之间的间隔时长。当间隔时长小于预设间隔时长阈值，说明两个音频帧之间为连续的音频帧。若间隔时长大于等于预设间隔时长阈值，且后一音频帧所属的用户身份标识并未发生变化，则说明发言用户并未发生变化，仅是在发言过程中存在停顿。基于后一音频帧对应的内容，可以确定是否将后一音频帧对应的内容生成展示内容中的下一段落。即，在检测到后一音频帧对应的发言内容后，可以与前几个音频帧对应的发言内容结合一起进行语义分析，根据分析结果可以将发言内容作为一个段落或者两个段落。这样设置的好处在于，可以便于其它用户对发言用户的发言内容进行理解，从而提高对发言内容理解的高效性。

为了快速的确第一展示文本中展示内容对应的发言用户，不仅可以确定用户的身份标识，还可以是与各个发言用户相对应的用户头像，基于用户头像可以进一步快速确定展示文本中文字内容对应的发言用户。可选的，获取与用户身份标识相对应的用户画像，基于用户画像、用户身份标识、时间戳以及文字表述生成展示文本中的一条展示内容。

可以理解为，每条展示内容可以包括用户的头像，发言时间戳(对应与录屏视频中发言用户发言的时间戳)，音频信息对应的文字。

当然，若多媒体数据流为共享屏幕时所对应的视频帧，则可以获取共享屏幕中的内容，可选的，可以对视频帧进行图文识别，得到展示文本中的第二展示文本。可选的，若视频帧中包括至少一个URL地址，则基于至少一个URL地址生成第二展示文本中的第一展示内容；若视频帧中包括文字，则基基于文字确定第二展示文本中的第二展示内容。

也就是说，在获取到多媒体数据流后，可以基于语音转文字模块对对媒体数据流的音频帧进行处理，得到与音频信息相对应的文字表述。为了便捷的获取多媒体数据里中发言用户共享的屏幕内容、文档以及链接等信息，可以对录屏视频中的每个视频帧进行图文识别，来获取视频帧中的文字和链接。基于文字、链接、发言用户的身份标识以及该内容对应的时间戳作为展示文本中的第二展示文本中的展示内容。

在实际应用的过程中，存在用户依据关键词来筛选目标内容的情形，因此在基于音视频信息生成展示文本的过程中，还包括：基于所述音视频帧，确定所述展示文本中的第三展示文本，以在检测到触发所述第三展示文本中的目标内容时，从第一展示文本中确定与所述目标内容相对应的内容并区别显示；所述第三展示文本中包括至少一个关键词汇和/或关键句子。

也就说，在将音视频帧转换为相应文字的过程中，还可以对转换后的文字内容进行关键词和/或关键句子提取，并作为展示文本中的第三展示文本。在本实施例中提取关键字和/或关键句子可以是，对展示文本中的内容进行分词处理得到至少一个词汇，可以确定与每个词汇相对应的词向量。根据与每个词汇所对应的词向量，确定平均词向量，计算各词汇的词向量与平均词向量之间的相似度值，将相似度值高于预设值得词汇作为关键词汇。可以采用相同的方式提取文本中的关键句子。建立第三展示文本中各关键词汇和/或关键句子与第一展示文本之间的关系，当触发了关键词或者关键句子时，可以快速从第一展示文本中确定关键词在第一展示文本中的位置。由于展示文本和多媒体数据流建立的位置对应关系，因此可以实现在触发第一展示文本中关键词所属的句子时，录屏视频可以基于所属句子的时间戳播放与所述时间戳相对应的多媒体数据流。

在实际应用过程中，为了实现合理布局，从而快速确定目标页面中各个区域对应的展示内容，可以是：基于各展示文本中的展示内容，确定各展示文本在显示页面上的区域占比。

具体的，可以根据每个展示文本中展示内容的多少，动态确定各展示文本在显示页面上的所占的区域比值，可选的，展示内容越多，在目标页面上所占的区域就越大。

将所述展示文本中的第一展示文本、第二展示文本、第三展示文本以及多媒体数据流分别展示在所述目标页面上的预设展示区域内；其中，第一展示文本的预设展示区域大于所述录屏视频的预设展示区域，所述录屏视频的预设展示区域大于所述第二展示文本的预设展示区域，第二展示文本的展示区域大于所述第三展示文本的展示区域。

也就是说，第一展示区域主要用于展示与多媒体数据流相对应的译文数据，因此内容比较多，可以从目标页面上获取较多的区域来展示第一展示文本。。第二展示区域的面积小于第一展示区域的面积，用于展示多媒体数据流，可选的，录屏视频；第三展示区域的展示面积小于第二展示区域的展示面积，用于展示多媒体数据流中的视频帧所对应的内容；第四展示区域为展示第三展示文本的区域，用于展示从多媒体数据流中提取出的关键词和/或关键句子。这样设置的好处在于，由于多媒体数据流对应的文字一般较多，可以将其较大显示在目标页面上，以便于用户阅读，关键词或者关键句子的内容相对来说比较少，显示页面上的显示区域可以尽可能小一些。

为了清楚地了解目标页面上展示的内容，如图3所示，目标页面上可以包括：控件1，即展示第一展示文本的控件，该文本区域内可以显示个发言用户对应的发言内容；控件2，即展示录屏视频的控件，可以控件内可以放置录屏视频；控件3，即展示第二展示文本的控件，该控件中可以显示分享的文档，分享的链接等信息；控件4，即展示第三展示文本的控件，该控件中可以显示与录屏视频和第一展示文本相对应的关键词汇或者关键句子。

实施例三

图4为本公开实施例二所提供的一种互动信息处理方法流程示意图。在前述实施例的基础上，存在多媒体数据流中各发言用户发言时所使用的语种类型与当前用户的匹配度不适配的情形。示例性的，录屏视频中各发言用户所使用的语种类型为英文和中文。若当前用户所使用的语种类型为日文，就会存在无法阅读或者听懂展示文本以及录屏视频中的内容。为了减少此类问题，可以预先确定与目标用户(当前使用用户)所对应的目标语种类型。其中，与上述实施例相同或者相应的术语解释在此不再一一赘述。

如图4所示，方法包括：

S410、基于多媒体数据流中的音视频帧，确定音视频帧对应的发言用户的用户身份标识。

S420、确定目标语种类型，并将音视频帧转换为与目标语种类型相对应的文字表述。

其中，可以将多媒体数据流的音视频帧转换为相应的语种类型，并将转换的语种类型作为目标语种类型。例如，若需要将录屏视频帧的音频帧转换为语种类型为日文，那么目标语种类型可以是日文。

在本实施例中，确定目标语种类型可以是：获取当前客户端所使用的历史语种类型，基于历史语种类型确定目标语种类型。

具体的，获取当前客户端上所选择的历史语种类型，例如，在此之前该客户端上所使用过的语种类型。目标语种类型为基于历史语种类型确定的。

在本实施例中，基于历史语种类型确定目标语种类型，包括如下至少一种方式：各历史语种类型的使用频次；前一次音频帧转换文字时所采用的语种类型；当前客户端所设置的语种类型；当前客户端的登录地址，基于登录地址确定目标语种类型。

具体的，获取当前客户端使用历史语种类型的频次，可以将使用频次最高的语种类型作为目标语种类型。如，当前客户端所使用的历史语种类型包括中文5次，英文2次，日文3次，基于各历史语种类型的使用频次，可以将中文作为目标语种类型。或者是，可以获取前一次音频帧转文字时所采用的语种类型，并将前一次所使用的语种类型作为目标语种类型；亦或是，可以确定当前客户端是否设置有默认语种类型，若存在则将设置的语种乐行作为目标语种类型；亦或是，获取当前客户端的登录地址，确定该登录地址所属的区域，如，中国，则可以将中文作为目标语种类型；若登录地址所属的区域为英国，则可以将英文作为目标语种类型。

需要说明的是，若用户未触发语种类型选择控件，可以获取各个发言用户的原始语种类型，根据将音频信息直接翻译为与原始语种类型相同的译文数据，将用户身份标识以及译文数据作为展示文本中的展示内容。在这里，发言用户的原始语种类型例如可以是，发言用户在发言时所使用的语种类型。

在上述技术方案的基础上，为了便于用户及时调整与其相对应的语种类型，在显示界面上还包括语种类型设置控件。可选的，继续参见图3，当检测到触发语种类型选择控件5时，可以弹出语种选择列表，列表中包括至少一个语种类型，用户可以从中选择与其匹配度较高的语种类型，并作为目标语种类型。在选择目标语种类型后，目标页面上的展示文本可以展示与目标语种类型相对应的展示文本。

S430、基于文字表述以及用户身份标识生成展示文本，建立展示文本与多媒体数据流之间的位置对应关系，并将展示文本和多媒体数据流展示在目标页面上。

具体的，基于文本表述以及用户身份标识，各音视频帧对应的文字表述，生成与录屏视频相对应的展示文本。

本公开实施例的技术方案，通过获取预先设置的目标语种类型，可以将录屏视频对应的展示文本显示为目标语种类型相对应的文字表述，不仅提高了用户阅读展示文本的便捷性，而且可以基于展示文本定位到录屏视频中的相应位置。进一步的，在基于展示文本阅读的过程中，还可以基于页面上的语种类型选择控件更新目标语种类型，进一步提高了与用户之间的匹配度以及用户体验的技术效果。

在上述技术方案的基础上，所述方法还包括：获取搜索内容编辑控件中编辑的搜索内容，从所述展示文本中获取与所述搜索内容相对应的目标内容；各目标内容与所述搜索内容相同；在所述展示文本中区别显示所述目标内容，并在与所述多媒体数据流相对应的控制控件中标记与所述目标内容相对应的音视频帧。

其中，搜索内容编辑控件可以是显示在目标页面上，用于编辑搜索内容的控件。目标页面上可以包括基于不同语种类型的语音信息生成的展示文本。服务器可以获取搜索内容编辑控件中编辑的搜索内容，并将获取到搜索内容作为目标内容。例如，搜索内容编辑控件中编辑的搜索内容为“算法”，服务器获取到的目标内容为：算法。区别显示可以是将目标内容以区别于其他内容的方式加粗显示。在控制控件中标记可以是将目标内容所对应的音视频帧标记，可选的，在确定目标内容对应的音视频帧后，可以确定音视频帧在控制控件中的位置，并在位置的下方用圆点或者三角标记，参见图5。基于预先建立的关联关系，确定目标内容在多媒体数据流中所对应的音视频帧，并在控制控件上标记与所述目标内容相对应的音视频帧。这样设置的好处在于，可以使用户清晰的了解目标内容在展示文本中的位置，以及在多媒体数据流中的位置。

需要说明的是，在搜索内容编辑控件中，可以显示目标内容的数量，例如，搜索内容编辑控件中显示的总数量为12，参见图5。

还需要说明的是，目标内容的数量可以不止一个，相应的，时间轴上标记的数量与可以不止一个，参见图3，目标内容的数量为12个，时间轴上的标记也为12个。当然，为了便于用户确定当前触发的目标内容为所有目标内容中的第几个，搜索内容编辑控件中还显示当前触发的目标内容所对应的顺序。

在本实施例中，在于所述多媒体数据流相对应的控制控件中标记与所述目标内容相对应的音视频帧，包括：确定所述目标内容所对应的播放时间戳，根据所述播放时间戳在与所述多媒体数据流对应的控制控件中标记与所述目标内容对应的视频播放时刻。

具体的，可以确定目标内容所对应的播放时间戳，根据播放时间戳，可以确定所对应的多媒体数据流，并在控制控件中与播放时间戳相对应的位置处进行标记。

在本实施例中，所述方法还包括：当检测到触发目标内容时，确定所述目标内容的目标播放时间戳；将与所述目标播放时间戳所对应的标记区别显示。

具体的，用户可以触发目标内容，在触发目标内容时，可以确定目标内容所对对应的目标播放时间戳，将与目标播放时间戳所对应的标记与其他标记区别显示。区别显示，可以是颜色区别显示、高亮显示等。

示例性的，参见图6，当用户触发标记1对应的目标内容时，可以确定标记1目标内容所对应的目标播放时间戳，根据目标播放时间戳可以确定其在时间轴上所对应的为标记2所对应的标记，可以将该标记突出显示。

实施例四

图7为本公开实施例四所提供的一种互动信息处理方法流程示意图。在前述实施例的基础上，在确定在客户端显示界面上展示的内容之后，当触发目标页面上的控件时，可以执行相应的操作。其中，与上述实施例相同或者相应的名词术语在此不再赘述。

如图7所述，所述方法包括：

S510、基于多媒体数据流的音视频帧，确定音视频帧对应的发言用户的用户身份标识。

S520、基于用户身份标识以及音视频帧生成展示文本。

S530、建立展示文本与多媒体数据流之间的位置对应关系。

S540、基于位置对应关系，呈现展示文本与以及与展示文本相对应的多媒体数据流。

S550、若检测到触发目标页面上的展示文本中的展示内容，基于展示内容对应的时间戳，调节多媒体数据流跳转到与时间戳所对应的视频帧；和/或，若检测到对多媒体数据流的触发操作，获取触发操作所对应的多媒体数据流的播放时间戳，基于播放时间戳跳转到展示文本中与播放时间戳相对应的展示内容。

需要说明的是，由于目标页面上展示的多媒体数据流和展示文本之间是存在一定的位置联动关系的，因此可以实现目标页面上多媒体数据流和展示文本之间的同步显示。

示例性的，继续参见图4，当检测到触发目标页面上第一展示文本中发言用Andy所对应的展示内容时，可以基于展示内容对应的时间戳00:00:05，多媒体数据流的进度条可以跳转到时间戳为00:00:05对应的播放时刻。即，当用户触发控件1中的子控件6时，多媒体数据流的进度条可以跳转到与子控件6所对应时间戳的播放时刻。相应的，当检测到触发多媒体数据流上的进度条时，可以确定多媒体数据流的播放时刻，基于多媒体数据流的当前播放时刻，可以跳转到展示文本中与当前播放时刻相对应的文字表述，实现了文字与多媒体数据流之间的联动。

在上述方案的基础上，还需要说明的是，基于所述位置对应关系，在所述展示文本中区别显示与多媒体数据流相对应的展示内容。

具体的，多媒体数据流可以是录屏视频，在录屏视频播放的过程中，将当前视频帧所对应的文本内容在展示文本中区别显示，以使用户可以了解当前视频帧在展示文本中的具体位置，从而便于用户阅读的技术效果。

在本实施例中，区别显示可以是采用区别于文本中其他内容的方式来呈现当前视频帧所对应的文本内容。呈现当前视频帧所对应的文本内容可以是但不局限于呈现区域和/或呈现样式。呈现区域可以是目标页面中能够引起用户注意的呈现区域。呈现样式可以是将当前视频帧所对应的文本内容高亮显示、加粗显示、字体颜色与其他内容的字体颜色区别显示中的任意至少一种。

为了实现对多媒体数据流的精准调节，目标页面上还可以包括控制控件。参见图3，控制控件7也可以用于调整多媒体数据流的当前播放时刻。为了实现精准调节，控制控件7所对应的进度条长度大于多媒体数据流中的进度条长度。由于多媒体数据流所对应的播放时长是固定的，因此当进度条的长度越长时，所对应的变化量越小，即所对应的调节精度就越高。因此，控件7所对应的进度条长度大于多媒体数据流所对应的进入条，因此控件7所对应的调整精度大于多媒体数据里中多媒体数据流进度的调整控件的调整精度。

可选的，当检测到当检测到触发目标页面上的控制控件时，获取控制控件中所对应的播放时间戳，基于播放时间戳调整多媒体数据流的跳转到与播放时间戳相对应的播放位置，以及在展示文本中区别显示与播放时间戳对应视频帧的展示文本内容。

具体的，当检测到触发目标页面上的控制控件时，可以获取控制控件中进度条所对应的播放时刻，即拖动控制控件中进度条移动到的位置，该位置可对应于多媒体数据流的播放时间戳。基于播放时间戳，将所述多媒体数据流跳转到与所述播放时间戳相对应的音视频帧，同时确定所述视频帧在展示文本中所对应的展示内容。

需要说明的是，在多媒体数据流播放过程中，为了便于用户确定与当前视频帧相对应的文本内容，即快速从展示文本中确定与当前视频帧对应的文本内容。可选的，在多媒体数据流播放过程中，基于当前音视频帧对应的播放时间戳，确定与播放时间戳在展示文本中对应的展示内容，并将内容区别显示，如，高亮显示。这样设置的好处在于，可以快速从展示文本中定位到与当前视频帧相对应的展示内容，从而提高用户阅读的便捷性以及高效性的技术效果。

可选的，当检测触发目标页面上的编辑控件时，显示权限编辑列表，基于所述权限编辑列表确定各互动用户的用户权限；所述用户权限包括阅读权限和编辑权限；阅读权限为阅读文本信息以及视频信息的权限；编辑权限为编辑文本中信息的权限。

需要说明的是，目标页面上还包括编辑控件。若用户触发了权限编辑控件，可以显示与编辑权限相对应的下拉菜单，用户可以从菜单中便捷各个发言用户的用户权限。用户权限可以包括阅读权限和编辑权限。阅读权限为仅可以浏览或者阅读目标页面上的视频或者展示文本，但是无法编辑其内容的权限；具有编辑权限的用户不仅可以编辑目标页面上展示文本的内容，还可以将其分享至其它用户。这样设置的好处在于，可以针对不同的用户为其设置相应的权限，从而有效避免内部资源外流的情形。

示例性的，继续参见图3，当检测到触发目标页面上的编辑控件8时，可以弹出权限编辑列表，基于权限编辑列表编辑各个互动用户的权限。

需要说明的是，在实际应用过程中，若需要将多媒体数据流和相对应的展示文本分享至其它用户，可以通过目标页面上的分享控件来实现。可选的，当检测到触发目标页面上的分享控件时，生成与当前页面相对应的目标链接，并将所述目标链接发送待分享用户，以使所述待分享用户基于所述目标链接查看所述多媒体数据流以及所述展示文本。

其中，分享控件可以将目标页面中包括的多媒体数据流和展示文本分享至其它用户的控件。

具体的，当检测到触发目标页面上的分享控件时，可以基于目标页面上上的内容生成相应的链接，并将该链接发送至其它用户。在其它用户接收到该链接时，可以基于该链接获取包括多媒体数据流和展示文本的目标页面。

示例性的，继续参见图3，当检测到触发目标页面上的分享控件9时，可以生成与目标页面相对应的目标链接，并可以将目标链接发送至其它用户，以使其它用户基于该链接观看目标页面中的多媒体数据流和展示文本。

在上述技术方案的基础上，需要说明的是，为了使其它用户明确多媒体数据流中的各互动用户以及总人数，可以显示个互动用户的头像以及总人数标识，如显示在控件10对应的位置处，同时还可以显示该多媒体数据流的主持人，如显示在控件11对应的位置处。

实施例五

图8为本公开实施例五所提供的一种互动信息处理装置结构示意图，如图8所示，所述装置包括：对应关系建立模块610以及内容呈现模块620。

其中，对应关系建立模块610，用于建立基于多媒体数据流生成的展示文本与所述多媒体数据流之间的位置对应关系；内容呈现模块620，用于基于所述位置对应关系，呈现所述展示文本以及与所述展示文本相对应的多媒体数据流。在上述各技术方案的基础上，所述装置还包括：用户身份标识获取模块，用于获取多媒体数据流的音视频帧，并确定与所述音视频帧所对应的发言用户的用户身份标识；展示文本确定模块，用于基于所述用户身份标识以及所述音视频帧，生成与所述多媒体数据对应的展示文本。

在上述各技术方案的基础上，所述装置还包括：信息确定模块，用于通过对音频帧进行声纹识别，确定发言用户的用户身份标识；和/或，确定所述音频帧所属客户端的客户端标识，基于所述客户端标识确定发言用户的用户身份标识。

在上述各技术方案的基础上，所述装置还包括：

第一文本展示模块，用于通过对音频帧进行语音转文字处理，得到与音频帧对应的文字表述，基于所述文字表述以及所述用户身份标识生成展示文本中的第一展示文本。

在上述各技术方案的基础上，所述装置还包括：第二文本展示模块，用于通过对视频帧进行图文识别，得到所述视频帧中的文字，基于所述文字与所述用户身份标识生成展示文本中的第二展示文本。

在上述各技术方案的基础上，所述第一展示文本确定模块，还用于确定音频帧对应的文字表述，音频帧当前对应的时间戳，以及所述音频帧所属发言用户的用户身份标识；基于所述用户身份标识、时间戳以及所述文字表述生成所述展示文本中的一条展示内容。

在上述各技术方案的基础上，每条展示内容包中包括至少一个段落，第一文本展示模块，用于在基于音频帧进行语音转文字处理过程中，若检测到相邻音频帧之间的间隔时长大于或等于预设间隔时长阈值，且后一音频帧所属的用户身份标识未发生变化，则基于所述后一音频帧生成所述展示内容中的下一段落。

在上述各技术方案的基础上，所述装置还包括：第二文本展示模块，用于若所述视频帧中包括至少一个URL地址，则基于所述至少一个URL地址生成第二展示文本中的第一展示内容。

在上述各技术方案的基础上，所述装置还包括：第二文本展示模块，还用于若所述视频帧中包括文字，则基于所述文字确定第二展示文本中的第二展示内容。。

在上述各技术方案的基础上，展示文本确定模块，用于基于所述音视频帧，确定所述展示文本中的第三展示文本，以在检测到触发所述第三展示文本中的目标内容时，从第一展示文本中确定与所述目标内容相对应的内容并区别显示；所述第三展示文本中包括至少一个关键词汇和/或关键句子。

在上述各技术方案的基础上，所述将所述展示文本和录屏视频展示在目标页面上，包括：将所述展示文本中的第一展示文本、第二展示文本、第三展示文本以及录屏视频分别展示在所述目标页面上的预设展示区域内。

在上述各技术方案的基础上，所述装置包括：区域占比确定模块，用于基于各展示文本中的展示内容，确定各展示文本在显示页面上的区域占比。

在上述各技术方案的基础上，所述装置包括：所述展示文本确定模块，还用于获取所述音频信息所对应的原始语种类型；根据所述用户身份标识、所述音视频帧以及与所述音视频帧对应的原始语种类型，生成与所述多媒体数据流对应的展示文本。

在上述各技术方案的基础上，所述展示文本确定模块，用于确定目标语种类型，将所述音视频帧从与音视频帧对应的原始语种类型转换为与所述目标语种类型相对应的文字表述；基于所述文字表述以及用户身份标识，生成所述展示文本。

在上述各技术方案的基础上，所述目标语种类型确定模块，用于获取当前客户端所使用的历史语种类型，基于所述历史语种类型确定目标语种类型。

在上述各技术方案的基础上，所述基于所述历史语种类型确定目标语种类型，包括如下至少一种方式：

基于各历史语种类型的使用频次，从历史语种类型中确定目标语种类型；

将当前客户端所设置的语种类型作为目标语种类型；

基于当前客户端的登录地址，确定目标语种类型。

在上述各技术方案的基础上，所述位置对应关系包括时间戳同步关联关系，所述模块，还用于：基于所述展示文本中的时间戳以及所述多媒体数据流的时间戳，建立所述展示文本与所述多媒体数据流之间的时间戳同步关联关系。

在上述各技术方案的基础上，所述基于所述位置对应关系，呈现所述展示文本以及与所述展示文本相对应的多媒体数据流，包括：基于所述位置对应关系，在所述展示文本中区别显示与多媒体数据流相对应的展示内容。

在上述各技术方案的基础上，所述多媒体数据流与所述展示文本显示在目标页面上，所述目标页面上还包括控制控件，所述装置还包括：控制模块，基于所述控制控件同时调整所述录屏视频和所述展示文本当前展示的内容；所述控制控件所对应的调整精度大于所述录屏视频中调整录屏视频进度的调整控件的调整精度。

在上述各技术方案的基础上，所述装置还包括：控制模块，用于：

若检测到触发所述目标页面上的控制控件，获取所述控制控件中所对应的播放时间戳，基于所述播放时间戳调整所述多媒体数据流跳转到与所述播放时间戳相对应的播放位置，以及在所述展示文本中区别显示与所述播放时间戳对应视频帧的展示文本内容。

在上述各技术方案的基础上，所述装置还包括：跳转模块，用于：

若检测到触发目标页面上的所述展示文本中的展示内容，基于所述展示内容对应的时间戳，调节所述录屏视频跳转到与所述时间戳所对应的视频帧；和/或，

若检测到对所述录屏视频的触发操作，获取所述触发操作所对应的录屏视频的播放时间戳，基于所述播放时间戳跳转到所述展示文本中与所述播放时间戳相对应的展示内容。

在上述各技术方案的基础上，所述装置还包括：权限编辑模块，用于若检测到对目标页面上编辑控件的触发操作，显示权限编辑列表，基于所述权限编辑列表确定各互动用户的用户权限，所述用户权限用于表征用户对所述目标页面上所呈现的内容的访问权限。

在上述各技术方案的基础上，所述装置还包括：目标页面分享模块，用于

若检测到触发目标页面上的分享控件，生成与目标页面相对应的目标标识，并将所述目标标识发送待分享用户，以使所述待分享用户基于所述目标标识获取所述目标页面。

在上述技术方案的基础上，所述装置还包括：搜索模块，用于获取搜索内容编辑控件中编辑的搜索内容，从所述展示文本中获取与所述搜索内容相对应的目标内容；各目标内容与所述搜索内容相同；在所述展示文本中区别显示所述目标内容，并在与所述多媒体数据流相对应的控制控件中标记与所述目标内容相对应的音视频帧。

在上述各技术方案的基础上，所述搜索模块，还用于：确定所述目标内容所对应的播放时间戳，根据所述播放时间戳在与所述多媒体数据流对应的控制控件中标记与所述目标内容对应的音视频帧。

在上述各技术方案的基础上，所述装置还包括区别显示模块，用于当检测到触发目标内容时，确定所述目标内容的目标播放时间戳；将与所述目标播放时间戳所对应的标记在所述控制控件中区别显示。

本公开实施例的技术方案，通过建立录屏视频与展示文本之间的位置对应关系，实现了录屏视频与展示文本之间的位置联动，从而提高了用户阅读文本和录屏视频的高效性以及便捷性的技术效果。

本公开实施例所提供的互动信息处理装置可执行本公开任意实施例所提供的互动信息处理方法，具备执行方法相应的功能模块和有益效果。

值得注意的是，上述装置所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本公开实施例的保护范围。

实施例六

下面参考图9，其示出了适于用来实现本公开实施例的电子设备(例如图9中的终端设备或服务器)700的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图9示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图9所示，电子设备700可以包括处理装置(例如中央处理器、图形处理器等)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储装置706加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM703中，还存储有电子设备700操作所需的各种程序和数据。处理装置701、ROM702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

通常，以下装置可以连接至I/O接口705：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置706；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置707；包括例如磁带、硬盘等的存储装置706；以及通信装置709。通信装置709可以允许电子设备700与其他设备进行无线或有线通信以交换数据。虽然图9示出了具有各种装置的电子设备700，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置709从网络上被下载和安装，或者从存储装置706被安装，或者从ROM702被安装。在该计算机程序被处理装置701执行时，执行本公开实施例的方法中限定的上述功能。

本公开实施例提供的电子设备与上述实施例提供的互动信息处理方法属于同一发明构思，未在本实施例中详尽描述的技术细节可参见上述实施例，并且本实施例与上述实施例具有相同的有益效果。

实施例七

本公开实施例提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述实施例所提供的互动信息处理方法。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：

建立基于多媒体数据流生成的展示文本与所述多媒体数据流之间的位置对应关系；

基于所述位置对应关系，呈现所述展示文本以及与所述展示文本相对应的多媒体数据流。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元/模块的名称在某种情况下并不构成对该单元本身的限定，例如，对应关系建立模块还可以被描述为“时间戳同步关联关系建立模块”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本公开的一个或多个实施例，【示例一】提供了一种互动信息处理方法，该方法包括：

建立基于多媒体数据流生成的展示文本与所述多媒体数据流之间的位置对应关系；

基于所述位置对应关系，呈现所述展示文本以及与所述展示文本相对应的多媒体数据流。

根据本公开的一个或多个实施例，【示例二】提供了一种互动信息处理方法还包括：

可选的，获取多媒体数据流的音视频帧，并确定与所述音视频帧所对应的发言用户的用户身份标识；

基于所述用户身份标识以及所述音视频帧，生成与所述多媒体数据对应的展示文本。

根据本公开的一个或多个实施例，【示例三】提供了一种互动信息处理方法，还包括：

可选的，所述获取多媒体数据流的音视频帧，并确定与所述音视频帧所对应的发言用户的用户身份标识，包括：

通过对音频帧进行声纹识别，确定发言用户的用户身份标识；和/或，

确定所述音频帧所属客户端的客户端标识，基于所述客户端标识确定发言用户的用户身份标识。

根据本公开的一个或多个实施例，【示例四】提供了一种互动信息处理方法，还包括：

可选的，所述基于所述用户身份标识以及所述音视频帧，生成与所述多媒体数据对应的展示文本，包括：

通过对音频帧进行语音转文字处理，得到与音频帧对应的文字表述，基于所述文字表述以及所述用户身份标识生成展示文本中的第一展示文本。

根据本公开的一个或多个实施例，【示例五】提供了一种互动信息处理方法，还包括：

可选的，所述基于所述用户身份标识以及所述音视频帧，生成与所述多媒体数据对应的展示文本，包括：

通过对视频帧进行图文识别，得到所述视频帧中的文字，基于所述文字与所述用户身份标识生成展示文本中的第二展示文本。

根据本公开的一个或多个实施例，【示例六】提供了一种互动信息处理方法，还包括：

可选的，所述通过对音频帧进行语音转文字处理，得到与音频帧对应的文字表述，基于所述文字表述以及所述用户身份标识生成展示文本中的第一展示文本，包括：

确定音频帧对应的文字表述，音频帧当前对应的时间戳，以及所述音频帧所属发言用户的用户身份标识；

基于所述用户身份标识、时间戳以及所述文字表述生成所述展示文本中的一条展示内容。

根据本公开的一个或多个实施例，【示例七】提供了一种互动信息处理方法，还包括：

可选的，每条展示内容包中包括至少一个段落；所述通过对音频帧进行语音转文字处理，得到与音频帧对应的文字表述，基于所述文字表述以及所述用户身份标识生成展示文本中的第一展示文本，包括：

在基于音频帧进行语音转文字处理过程中，若检测到相邻音频帧之间的间隔时长大于或等于预设间隔时长阈值，且后一音频帧所属的用户身份标识未发生变化，则基于所述后一音频帧生成所述展示内容中的下一段落。

根据本公开的一个或多个实施例，【示例八】提供了一种互动信息处理方法，还包括：

可选的，所述通过对视频帧进行图文识别，得到展示文本中的第二展示文本，包括：

若所述视频帧中包括至少一个URL地址，则基于所述至少一个URL地址生成第二展示文本中的第一展示内容。

根据本公开的一个或多个实施例，【示例九】提供了一种互动信息处理方法，还包括：

可选的，所述通过对视频帧进行图文识别，得到展示文本中的第二展示文本，包括：若所述视频帧中包括文字，则基于所述文字确定第二展示文本中的第二展示内容。

根据本公开的一个或多个实施例，【示例十】提供了一种互动信息处理方法，还包括：

可选的，所述基于所述用户身份标识以及所述音视频帧，生成与所述多媒体数据对应的展示文本，包括：

基于所述音视频帧，确定所述展示文本中的第三展示文本，以在检测到触发所述第三展示文本中的目标内容时，从第一展示文本中确定与所述目标内容相对应的内容并区别显示；所述第三展示文本中包括至少一个关键词汇和/或关键句子。

根据本公开的一个或多个实施例，【示例十一】提供了一种互动信息处理方法，还包括：

可选的，所述将所述展示文本和录屏视频展示在目标页面上，包括：将所述展示文本中的第一展示文本、第二展示文本、第三展示文本以及录屏视频分别展示在所述目标页面上的预设展示区域内。

根据本公开的一个或多个实施例，【示例十二】提供了一种互动信息处理方法，还包括：

可选的，基于各展示文本中的展示内容，确定各展示文本在显示页面上的区域占比。根据本公开的一个或多个实施例，【示例十三】提供了一种互动信息处理方法，还包括：

可选的，所述基于所述用户身份标识以及所述音视频帧，生成与所述多媒体数据对应的展示文本，包括：

获取所述音频信息所对应的原始语种类型；

根据所述用户身份标识、所述音视频帧以及与所述音视频帧对应的原始语种类型，生成与所述多媒体数据流对应的展示文本。

根据本公开的一个或多个实施例，【示例十四】提供了一种互动信息处理方法，还包括：

可选的，所述基于所述用户身份标识以及所述音视频帧，生成与所述多媒体数据对应的展示文本，包括：

确定目标语种类型，将所述音视频帧从与音视频帧对应的原始语种类型转换为与所述目标语种类型相对应的文字表述；

基于所述文字表述以及用户身份标识，生成所述展示文本。

根据本公开的一个或多个实施例，【示例十五】提供了一种互动信息处理方法，还包括：

可选的，所述确定目标语种类型，包括：

获取当前客户端所使用的历史语种类型，基于所述历史语种类型确定目标语种类型。

根据本公开的一个或多个实施例，【示例十六】提供了一种互动信息处理方法，还包括：

可选的，所述基于所述历史语种类型确定目标语种类型，包括如下至少一种方式：

基于各历史语种类型的使用频次，从历史语种类型中确定目标语种类型；

将当前客户端所设置的语种类型作为目标语种类型；

基于当前客户端的登录地址，确定目标语种类型。

根据本公开的一个或多个实施例，【示例十七】提供了一种互动信息处理方法，还包括：

可选的，所述位置对应关系包括时间戳同步关联关系，所述建立基于多媒体数据流生成的展示文本与所述多媒体数据流之间的位置对应关系，包括：

基于所述展示文本中的时间戳以及所述多媒体数据流的时间戳，建立所述展示文本与所述多媒体数据流之间的时间戳同步关联关系。

根据本公开的一个或多个实施例，【示例十八】提供了一种互动信息处理方法，还包括：

可选的，所述基于所述位置对应关系，呈现所述展示文本以及与所述展示文本相对应的多媒体数据流，包括：

基于所述位置对应关系，在所述展示文本中区别显示与多媒体数据流相对应的展示内容。

根据本公开的一个或多个实施例，【示例十九】提供了一种互动信息处理方法，还包括：

可选的，所述多媒体数据流与所述展示文本显示在目标页面上，所述目标页面上还包括控制控件；所述方法还包括：

基于所述控制控件同时调整所述录屏视频和所述展示文本当前展示的内容；

所述控制控件所对应的调整精度大于所述录屏视频中调整录屏视频进度的调整控件的调整精度。

根据本公开的一个或多个实施例，【示例二十】提供了一种互动信息处理方法，还包括：

可选的，若检测到触发所述目标页面上的控制控件，获取所述控制控件中所对应的播放时间戳，基于所述播放时间戳调整所述多媒体数据流跳转到与所述播放时间戳相对应的播放位置，以及在所述展示文本中区别显示与所述播放时间戳对应视频帧的展示文本内容。

根据本公开的一个或多个实施例，【示例二十一】提供了一种互动信息处理方法，还包括：

可选的，若检测到触发目标页面上的所述展示文本中的展示内容，基于所述展示内容对应的时间戳，调节所述录屏视频跳转到与所述时间戳所对应的视频帧；和/或，

根据本公开的一个或多个实施例，【示例二十二】提供了一种互动信息处理方法，还包括：

可选的，若检测到对目标页面上编辑控件的触发操作，显示权限编辑列表，基于所述权限编辑列表确定各互动用户的用户权限，所述用户权限用于表征用户对所述目标页面上所呈现的内容的访问权限。

根据本公开的一个或多个实施例，【示例二十三】提供了一种互动信息处理方法，还包括：

可选的，若检测到触发目标页面上的分享控件，生成与目标页面相对应的目标标识，并将所述目标标识发送待分享用户，以使所述待分享用户基于所述目标标识获取所述目标页面。

根据本公开的一个或多个实施例，【示例二十四】提供了一种互动信息处理方法，还包括：

可选的，获取搜索内容编辑控件中编辑的搜索内容，从所述展示文本中获取与所述搜索内容相对应的目标内容；各目标内容与所述搜索内容相同；

在所述展示文本中区别显示所述目标内容，并在与所述多媒体数据流相对应的控制控件中标记与所述目标内容相对应的音视频帧。

根据本公开的一个或多个实施例，【示例二十五】提供了一种互动信息处理方法，还包括：

可选的，所述在于所述多媒体数据流相对应的控制控件中标记与所述目标内容相对应的音视频帧，包括：

确定所述目标内容所对应的播放时间戳，根据所述播放时间戳在与所述多媒体数据流对应的控制控件中标记与所述目标内容对应的音视频帧。

根据本公开的一个或多个实施例，【示例二十六】提供了一种互动信息处理方法，还包括：

可选的，当检测到触发目标内容时，确定所述目标内容的目标播放时间戳；

将与所述目标播放时间戳所对应的标记在所述控制控件中区别显示。

根据本公开的一个或多个实施例，【示例二十七】提供了一种互动信息处理装置，该装置包括：

对应关系建立模块，用于建立基于多媒体数据流生成的展示文本与所述多媒体数据流之间的位置对应关系；

内容呈现模块，用于基于所述位置对应关系，呈现所述展示文本以及与所述展示文本相对应的多媒体数据流。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：杨晶生;陈可蓉;刘敬晖;熊梦园;郑翔;钱程;韩晓;赵立;
专利申请人：北京字跳网络技术有限公司;

上一篇：数据更新方法、装置、存储介质及电子设备
下一篇：加水系统和加水控制方法、装置