会议记录的生成方法及装置

文献发布时间：2023-06-19 10:58:46

技术领域

本申请涉及计算机领域，具体而言，涉及一种会议记录的生成方法及装置。

背景技术

在相关技术中的人工智能(Artificial Intelligence，简称为AI)智能录音设备市场中，利用自动语音识别技术(Automatic Speech Recognition，简称为ASR)、自然语言处理(Natural Language Processing，简称为NLP)技术或知识图谱等技术可以基本满足企业高管、在校学生、培训和记录等工作者对语音转文字的基本需求，但是在应对某些细分的专业领域商务谈判场景时，会出现因知识库的不完整而导致转写的文本出现误差，与业务非相关性的内容没有进行剔除，缺少对录音数据进行专业化分析而忽略谈判可挖掘价值点等诸多问题。

针对相关技术中无法通过录音对商务会谈的关键点精准分析问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种会议记录的生成方法及装置，以解决相关技术中无法通过录音对商务会谈的关键点精准分析问题。

为了实现上述目的，根据本申请的一个方面，提供了一种会议记录的生成方法及装置。该发明包括：采集商务会议的录音数据，将所述录音数据中的噪音过滤掉，形成第一语音数据；对所述第一语音数据中包括的多个目标对象进行角色分离，并经过语音识别处理，形成与每个目标对象对应的第二文本数据；识别出所述第二文本数据匹配的行业关键词，使用与所述行业关键词对应的行业知识库调整所述第二文本数据中的文本描述，形成第三文本数据；将所述第三文本数据按照话题进行时间间隔监控，生成所述第三文本数据中对于不同话题的分析报告。

根据本申请的另一个实施例，还提供了一种会议记录的生成装置，包括：采集模块，用于采集商务会议的录音数据，将所述录音数据中的噪音过滤掉，形成第一语音数据；形成模块，用于对所述第一语音数据中包括的多个目标对象进行角色分离，并经过语音识别处理，形成与每个目标对象对应的第二文本数据；识别模块，用于识别出所述第二文本数据匹配的行业关键词，使用与所述行业关键词对应的行业知识库调整所述第二文本数据中的文本描述，形成第三文本数据；生成模块，用于将所述第三文本数据按照话题进行时间间隔监控，生成所述第三文本数据中对于不同话题的分析报告。

通过本申请，采集商务会议的录音数据，将所述录音数据中的噪音过滤掉，形成第一语音数据；对所述第一语音数据中包括的多个目标对象进行角色分离，并经过语音识别处理，形成与每个目标对象对应的第二文本数据；识别出所述第二文本数据匹配的行业关键词，使用与所述行业关键词对应的行业知识库调整所述第二文本数据中的文本描述，形成第三文本数据；将所述第三文本数据按照话题进行时间间隔监控，生成所述第三文本数据中对于不同话题的分析报告，采用上述方案，将商务会议的录音转成文本，使用行业知识库对文本进行调整，得到更精确的会议纪要，然后按照商谈话题进行深度挖掘，得到商务会议中不同话题的分析报告，减少人工进行会议记录花费的精力，解决了相关技术中无法通过录音对商务会谈的关键点精准分析问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的会议记录的生成方法的流程图；

图2是根据本申请实施例的一种商务谈判场景的文本分析流程图；

图3是根据本申请实施例的会议记录的生成装置的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为解决相关技术中无法通过录音对商务会议的关键点精准分析的问题，本申请提出一种基于语音识别的商务谈判场景文本翻译应用办法，通过我部门在过去一段时间在企业端零售标杆企业，如医疗、金融、汽车服务等行业积累的数字资产，和自动语音识别ASR、自然语言处理NLP技术以及数据中台方面的技术实力，为真实的商务谈判场景提供精准的文本翻译处理，辅助使用者做出对商务谈判结果有利方向的决策。

本申请涉及的技术包括声纹识别、情绪识别、背景识别等音频识别技术，文本的自然语言处理，垂直场景下的知识图谱建模，智能对话系统的构建等技术，行业细分领域知识库数字资产以及业务相关性判定模型。

本申请方案主要从以下几个方案解决上述方案：

(1)依据会谈过程中在每个话题的停留时间的长短进行记录，并对关键句的时间长短进行详细记录，重点监控；

(2)商务谈判一般分为很多轮，对重点关键词，关键句进行分析，判断该场谈判对方采取的谈判战略，如进攻式开局策略，坦诚式开局策略，慎重式，一致式等；

(3)对商务会谈中出现的专业词汇进行自定义匹配分析；

(4)提取关键文本、短语或关键词，如商务谈判场景中股份划分，投资金额，经营权归属等，为接下来的重点分析提供依据。

(5)谈判一般是多人进行，因此对声纹识别技术要有较高要求，要确保实现多人文本翻译同时进行的准确区分，以及对同一人文本的正确识别并翻译。

根据本申请的实施例，提供了一种会议记录的生成方法，图1是根据本申请实施例的会议记录的生成方法的流程图。如图1所示，该发明包括以下步骤：

步骤S101，采集商务会议的录音数据，将所述录音数据中的噪音过滤掉，形成第一语音数据；

商务会议可以指商务会谈。

可选地，将所述录音数据中的噪音过滤掉，包括：将所述录音数据中以下信息至少之一过滤掉：口音、杂音、背景音。

步骤S102，对所述第一语音数据中包括的多个目标对象进行角色分离，并经过语音识别处理，形成与每个目标对象对应的第二文本数据；

目标对象是人物，对第一语音数据进行声纹识别，识别出包括几个人物，然后角色分离出每个人物对应的第二文本数据。

可选地，所述经过语音识别处理，形成与每个目标对象对应的第二文本数据，包括：对完成角色分离的第一语音数据进行自动语音识别技术ASR识别处理，得到第一识别文本；对所述第一识别文本进行翻译处理，得到与目标语种对应的第一翻译文本，将所述第一翻译文本作为所述第二文本数据。

可选地，所述形成与每个目标对象对应的第二文本数据，包括对所述第二文本数据进行以下操作至少之一：对所述第二文本数据的文字描述进行识别纠错；平滑处理所述第二文本数据；对所述第二文本数据进行标点区分。可以通过机器学习模型对第二文本数据的文字描述进行识别纠错。

步骤S103，识别出所述第二文本数据匹配的行业关键词，使用与所述行业关键词对应的行业知识库调整所述第二文本数据中的文本描述，形成第三文本数据；

不同行业有不同的行业术语，隔行如隔山，有必要预先建立不同行业的行业知识库，后续使用对应的行业知识库调整会议记录的文本数据，实现更精确的文本记录。获取行业关键词，不同的商务谈判场景涉及的专业领域不同，依据的行业知识库也大相径庭，此步骤需要引入的依据是不同行业，不同业务，标杆企业的数字资产，进行匹配，导出完整版的文本翻译。

可选地，所述识别出与所述第二文本数据匹配的行业关键词，使用与所述行业关键词对应的行业知识库调整所述第二文本数据中的文本描述，包括：对所述第二文本数据进行语义识别，获取与所述第二文本数据匹配的行业关键词；获取与所述行业关键词对应的行业知识库，其中，所述行业知识库为预先存储；使用所述行业知识库调整所述第二文本数据中的文本描述。

步骤S104，将所述第三文本数据按照话题进行时间间隔监控，生成所述第三文本数据中对于不同话题的分析报告。

可选地，所述将所述第三文本数据按照话题进行时间间隔监控，生成所述第三文本数据中对于不同话题的分析报告，包括：识别所述第三文本数据中的多个话题词语；按照所述多个话题词语将所述第三文本数据分为不同的话题区间；针对每个所述话题区间进行谈话时间分析和犹豫期分析，其中，所述谈话时间分析包括所述多个目标对象对于该话题的观点分析，所述犹豫期分析包括所述多个目标对象对于该话题的心理分析；整合所述谈话时间分析和所述犹豫期分析，生成对于不同话题的所述分析报告。谈话时间，即多个参会人员均对某个话题进行了语言表达的时间段。犹豫期分析，即谈论某个话题期间，众人皆出于沉默状态，闭口不言，此段时间称为犹豫期，可以表达出众人处于犹豫徘徊状态。

商务谈判往往会运用各种复杂的战术，基本的文本翻译并不能满足分析的需要，因此有必要增加包含关键内容记录谈判时间间隔监控(监控双方谈判人员对于某一问题的犹豫期和时间分布长短，例如，关于商务内容“价格”和“股权”，在一段谈判中的持续时间分别是29分钟和40分钟；还可以对话题做时间分布、占比分析，再与谈话内容挂钩，以此找出重点的谈判内容，可以为下次谈判做准备战术；犹豫期可以体现双方谈判者的心理，这么做是要把一些非文本内容进行一个量化，以此辅助决策)、专业词汇提取自定义匹配对比分析和关键文本内容重点突出及有序排列等维度来辅助使用者进行决策，在上述基础上，输出精简版的文本翻译报告。

采用上述方案，提供一种基于语音识别的文本翻译应用，通过对专业领域商务谈判场景过程录音并翻译，形成商务谈判的文本，满足使用者对关键会议的记录和整理需求，辅助使用者做出对商务谈判结果有利方向的决策。通过语音识别方式的运用，提高专业领域商务谈判场景中文本翻译的准确性，从而辅助使用者做出对商务谈判结果有利方向的决策。

图2是根据本申请实施例的一种商务谈判场景的文本分析流程图，如图2所示，包括以下步骤：

步骤S201，获取录音数据；

步骤S202，分析录音数据是否为口音/杂音/背景音，如果是，则不转写，如果不是，则转入步骤S203；

步骤S203，对录音数据进行ASR识别，以及角色分离；

步骤S204，对数据进行识别纠错，进行短语平滑处理，对语句进行标点切分，生成文本数据；

步骤S205,自定义识别出文本数据的业务相关性，如果否，即与业务不相关，则不分析该文本数据，如果是，则转入步骤S206；

步骤S206，将文本数据进行内容导出，如果是，即导出成功，则得到完整版会议记录，如果否，则转入步骤S207；

步骤S207，从以下至少之一的角度进行文本数据的调整梳理：对关键内容记录谈判时间间隔并重点监控；使用行业知识库对文本数据中的专业词汇进行对比分析；识别出关键文本内容并重点突出，以及进行有序排列；

步骤S208，执行S207的操作后，生成精简版报告。

上述方案的目的是通过语音识别和分析，得到一个精简版商务谈判报告。

语音分析包括：文本分析和非文本分析。

1、文本分析主要是：

(1)基于商务知识库，对商务谈判对话进行关键信息的突出显示和注释标注(例如，专业词汇解释)。

(2)基于商务谈判对话进行谈判内容的统计分析和谈判策略的分析。

A、谈判内容的统计分析：例如，通过分析某段对话文本，确定某段文本内容围绕的话题点是“投资金额”，则将该段文本设置索引标记，并将该索引标记自动存入数据表中“投资金额”的对应位置，后续用户可直接在商务信息数据表中通过该索引标记直接查找到该段文本。

B、谈判策略的分析：例如，通过分析某段对话文本中的对方文本内容，确定对方的谈判战略为进攻式开局策略，则将该分析结果形成提示信息呈现给用户。

2、非文本分析主要是：

基于语音识别的文本内容，查找对应的语音时间，从而基于量化数据进行辅助决策。例如，确定某一商务内容(价格)的谈判持续时间为29分钟，则将该时间数据存储到数据表中“价格谈判”的对应位置，并对应存储该段文本的索引标记。此外，还可以对一段谈判文本中每个商务内容的时间进行统计，从而得到时间分布图和时间占比图等。

采用上述方案，该方案通过语音识别的文本翻译应用，有效提高用户体验，使商务谈判场景中的文本翻译更加精准，辅助使用者做出对谈判结果最有利的决策。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例还提供了一种会议记录的生成装置，需要说明的是，本申请实施例的会议记录的生成装置可以用于执行本申请实施例所提供的用于会议记录的生成方法。以下对本申请实施例提供的会议记录的生成装置进行介绍。

图3是根据本申请实施例的会议记录的生成装置的示意图。如图3所示，该装置包括：

采集模块32，用于采集商务会议的录音数据，将所述录音数据中的噪音过滤掉，形成第一语音数据；

形成模块34，用于对所述第一语音数据中包括的多个目标对象进行角色分离，并经过语音识别处理，形成与每个目标对象对应的第二文本数据；

识别模块36，用于识别出所述第二文本数据匹配的行业关键词，使用与所述行业关键词对应的行业知识库调整所述第二文本数据中的文本描述，形成第三文本数据；

生成模块38，用于将所述第三文本数据按照话题进行时间间隔监控，生成所述第三文本数据中对于不同话题的分析报告。

可选地，所述采集模块32用于将所述录音数据中的噪音过滤掉，包括：将所述录音数据中以下信息至少之一过滤掉：口音、杂音、背景音。

可选地，所述形成模块34还用于对完成角色分离的第一语音数据进行自动语音识别技术ASR识别处理，得到第一识别文本；以及用于对所述第一识别文本进行翻译处理，得到与目标语种对应的第一翻译文本，将所述第一翻译文本作为所述第二文本数据。

可选地，所述形成模块32用于对所述第二文本数据进行以下操作至少之一：对所述第二文本数据的文字描述进行识别纠错；平滑处理所述第二文本数据；对所述第二文本数据进行标点区分。

可选地，所述识别模块36还用于对所述第二文本数据进行语义识别，获取与所述第二文本数据匹配的行业关键词；以及用于获取与所述行业关键词对应的行业知识库，其中，所述行业知识库为预先存储；以及用于使用所述行业知识库调整所述第二文本数据中的文本描述。

可选地，所述生成模块38还用于识别所述第三文本数据中的多个话题词语；还用于按照所述多个话题词语将所述第三文本数据分为不同的话题区间；还用于针对每个所述话题区间进行谈话时间分析和犹豫期分析，其中，所述谈话时间分析包括所述多个目标对象对于该话题的观点分析，所述犹豫期分析包括所述多个目标对象对于该话题的心理分析；整合所述谈话时间分析和所述犹豫期分析，生成对于不同话题的所述分析报告。

本申请实施例提供的会议记录的生成装置，通过对专业领域商务谈判场景过程录音并翻译，形成商务谈判的文本，满足使用者对关键会议的记录和整理需求，辅助使用者做出对商务谈判结果有利方向的决策。通过语音识别方式的运用，提高专业领域商务谈判场景中文本翻译的准确性，从而辅助使用者做出对商务谈判结果有利方向的决策。

所述会议记录的生成装置包括处理器和存储器，上述采集模块、形成模块、识别模块、生成模块等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来对专业领域商务谈判场景过程录音并翻译，形成商务谈判的文本，满足使用者对关键会议的记录和整理需求，辅助使用者做出对商务谈判结果有利方向的决策。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本申请实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述会议记录的生成方法。

本申请实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述会议记录的生成方法。

本申请实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：采集商务会议的录音数据，将所述录音数据中的噪音过滤掉，形成第一语音数据；对所述第一语音数据中包括的多个目标对象进行角色分离，并经过语音识别处理，形成与每个目标对象对应的第二文本数据；识别出所述第二文本数据匹配的行业关键词，使用与所述行业关键词对应的行业知识库调整所述第二文本数据中的文本描述，形成第三文本数据；将所述第三文本数据按照话题进行时间间隔监控，生成所述第三文本数据中对于不同话题的分析报告。本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：采集商务会议的录音数据，将所述录音数据中的噪音过滤掉，形成第一语音数据；对所述第一语音数据中包括的多个目标对象进行角色分离，并经过语音识别处理，形成与每个目标对象对应的第二文本数据；识别出所述第二文本数据匹配的行业关键词，使用与所述行业关键词对应的行业知识库调整所述第二文本数据中的文本描述，形成第三文本数据；将所述第三文本数据按照话题进行时间间隔监控，生成所述第三文本数据中对于不同话题的分析报告。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：顾婉晴;梁志婷;
专利申请人：上海明略人工智能(集团)有限公司;

上一篇：一种在线精密输送装置
下一篇：基于语义分割的图像像素级伪标签确定方法及系统