认知能力测试方法、装置、设备及存储介质

文献发布时间：2024-04-18 20:02:18

技术领域

本发明涉及人工智能技术领域，尤其涉及一种认知能力测试方法、装置、设备及存储介质。

背景技术

认知是机体认识和获取知识的智能加工过程，涉及学习、记忆、语言、思维、精神、情感等一系列随意、心理和社会行为。若认知能力出现障碍，即与上述学习记忆以及思维判断有关的大脑高级智能加工过程出现异常，会引起严重学习、记忆障碍，同时伴有失语、失用、失认或失行等改变的病理过程。其中，认知的基础是大脑皮层的正常功能，任何引起大脑皮层功能和结构异常的因素均可导致认知能力的改变。由于大脑的功能复杂，且认知的不同类型互相关联，某一方面的认知问题可以引起另一方面或多个方面的认知问题，例如，一个病人若有注意力和记忆方面的缺陷，同时也会出现解决问题的障碍。因此，对认知能力进行测试和量化评定是临床上备受关注的科研方向，以往临床认知能力评估需要用多个量表联合起来评定，这种方法耗时长、对评测人员要求高，不适合进行社区筛查，故而难以推广。

在现有的技术中，还有利用被试对特定的图片进行描述，然后根据描述内容进行认知能力分析的方法，但现有的分析方法中关注的特征比较单一，其量化评定的结果也不够准确，故急需一种能够进行多模态分析且能够提高测试准确度的认知能力测试方案。

发明内容

本发明的主要目的在于解决现有技术中对认知能力进行测试时关注的特征较为单一，导致测试得到的认知能力测试结果不准确的问题。

本发明第一方面提供了一种认知能力测试方法，包括：

响应于认知能力测试请求，获取待评估用户针对评估图片进行描述时的描述音频；

对所述描述音频进行第一特征提取操作，得到第一特征；

对所述描述音频进行语音识别，得到针对所述评估图片的描述文本；

对所述描述文本进行第二特征提取操作，得到第二特征；

基于所述描述文本构建视觉特征图，对所述视觉特征图进行第三特征提取操作，得到第三特征；

将所述第一特征、所述第二特征和所述第三特征输入认知能力评分模型中进行认知评分，得到认知能力测试结果。

可选地，在本发明第一方面的第一种实现方式中，所述视觉特征图为有向图，所述基于所述描述文本构建视觉特征图包括：

提取所述评估图片中包含的空间实体，并计算各所述空间实体的实体坐标，基于所述空间实体构建实体集；

对所述描述文本按句进行切分，得到多个描述语句；

对各所述描述语句进行句法分析，提取各所述描述语句中的三元组，其中，所述三元组包含主语、谓语和宾语；

建立所述空间实体的同义词对应表，根据所述同义词对应表判断所述主语和宾语是否属于空间实体集中；

若是，则按照所述描述文本中提及所述空间实体的顺序和对应的所述实体坐标构建有向图。

可选地，在本发明第一方面的第二种实现方式中，所述第三特征包括边特征和整体特征，所述边特征包括路径长度，所述整体特征包括结点位置和结点数量。

可选地，在本发明第一方面的第三种实现方式中，所述第一特征包括频域特征和时域特征，所述对所述描述音频进行第一特征提取操作，得到第一特征包括：

获取所述描述音频的时域数据，提取所述时域数据中包含的时域特征，其中，所述时域特征包括停顿时间；

将所述描述音频进行傅里叶变换，得到描述音频的频谱数据，并提取所述频谱数据中包含的频域特征。

可选地，在本发明第一方面的第四种实现方式中，所述频域特征包括第一频域特征和第二频域特征，所述将所述描述音频进行傅里叶变换，得到描述音频的频谱数据，并提取所述频谱数据中包含的频域特征包括：

将所述频谱的刻度转换为梅尔刻度，得到所述描述音频的梅尔频谱，基于所述梅尔频谱得到第一频域特征；

将所述描述音频的梅尔频谱进行取对数，并进行离散余弦变换，得到所述描述音频对应的梅尔频率倒谱系数，基于所述梅尔频率倒谱系数得到第二频域特征。

可选地，在本发明第一方面的第五种实现方式中，所述对所述描述文本进行第二特征提取操作，得到第二特征包括：

提取所述描述文本的文本长度；

对所述描述文本中包含的词语进行词性统计，得到词性数据；

调用词向量计算模型对所述描述文本进行词向量标注，得到描述文本向量特征。

可选地，在本发明第一方面的第六种实现方式中，在所述响应于认知能力测试请求之前，还包括：

基于分类算法构建初始二分类模型；

获取针对所述评估图片进行描述的样本音频，其中，所述样本音频预先标注有各样本音频的描述者的认知能力评分标签；

提取所述样本音频的第一样本特征；

对所述样本音频进行语音识别，得到样本文本，提取所述样本文本的第二样本特征；

基于所述样本文本构建视觉特征图，提取所述视觉特征图的第三样本特征；

将所述第一样本特征、所述第二样本特征和第三样本特征输入所述初始二分类模型中进行训练，得到认知能力评分模型。

本发明第二方面提供了一种认知能力测试装置，包括：

获取模块，响应于认知能力测试请求，获取待评估用户针对评估图片进行描述时的描述音频；

第一提取模块，用于对所述描述音频进行第一特征提取操作，得到第一特征；

音频处理模块，用于对所述描述音频进行语音识别，得到针对所述评估图片的描述文本；

第二提取模块，用于对所述描述文本进行第二特征提取操作，得到第二特征；

第三提取模块，用于基于所述描述文本构建视觉特征图，对所述视觉特征图进行第三特征提取操作，得到第三特征；

评估模块，将所述第一特征、所述第二特征和所述第三特征输入认知能力评分模型中进行认知评分，得到认知能力测试结果。

可选地，在本发明第二方面的第一种实现方式中，所述视觉特征图为有向图，所述第三提取模块包括有向图构建单元和有向图特征提取单元，所述有向图构建单元具体用于：

提取所述评估图片中包含的空间实体，并计算各所述空间实体的实体坐标，基于所述空间实体构建实体集；

对所述描述文本按句进行切分，得到多个描述语句；

对各所述描述语句进行句法分析，提取各所述描述语句中的三元组，其中，所述三元组包含主语、谓语和宾语；

建立所述空间实体的同义词对应表，根据所述同义词对应表判断所述主语和宾语是否属于空间实体集中；

若是，则按照所述描述文本中提及所述空间实体的顺序和对应的所述实体坐标构建有向图；

所述有向图特征提取单元具体用于对所述有向图进行第三特征提取操作，得到第三特征。

可选地，在本发明第二方面的第二种实现方式中，所述第三特征包括边特征和整体特征，所述边特征包括路径长度，所述整体特征包括结点位置和结点数量。

可选地，在本发明第二方面的第三种实现方式中，所述第一特征包括频域特征和时域特征，所述第一提取模块包括：

时域特征提取单元，用于获取所述描述音频的时域数据，提取所述时域数据中包含的时域特征，其中，所述时域特征包括停顿时间；

频域特征提取单元，用于将所述描述音频进行傅里叶变换，得到描述音频的频谱数据，并提取所述频谱数据中包含的频域特征。

可选地，在本发明第二方面的第四种实现方式中，所述频域特征包括第一频域特征和第二频域特征，所述频域特征提取单元具体用于：

将所述频谱的刻度转换为梅尔刻度，得到所述描述音频的梅尔频谱，基于所述梅尔频谱得到第一频域特征；

可选地，在本发明第二方面的第五种实现方式中，所述对所述描述文本进行第二特征提取操作，得到第二特征包括：

提取所述描述文本的文本长度；

对所述描述文本中包含的词语进行词性统计，得到词性数据；

调用词向量计算模型对所述描述文本进行词向量标注，得到描述文本向量特征。

可选地，在本发明第二方面的第六种实现方式中，所述认知能力测试装置还包括模型构建模块，所述模型构建模块具体用于：

基于分类算法构建初始二分类模型；

获取针对所述评估图片进行描述的样本音频，其中，所述样本音频预先标注有各样本音频的描述者的认知能力评分标签；

提取所述样本音频的第一样本特征；

对所述样本音频进行语音识别，得到样本文本，提取所述样本文本的第二样本特征；

基于所述样本文本构建视觉特征图，提取所述视觉特征图的第三样本特征；

将所述第一样本特征、所述第二样本特征和第三样本特征输入所述初始二分类模型中进行训练，得到认知能力评分模型。

本发明第三方面提供了一种认知能力测试设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述认知能力测试设备执行上述的认知能力测试方法的步骤。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的认知能力测试方法的步骤。

本发明提供的技术方案中，响应于认知能力测试请求，获取待评估用户针对评估图片进行描述时的描述音频；对描述音频进行语音识别，得到针对评估图片的描述文本；对描述音频进行第一特征提取操作，得到第一特征；对描述文本进行第二特征提取操作，得到第二特征；基于描述文本构建视觉特征图，对视觉特征图进行第三特征提取操作，得到第三特征；将第一特征、第二特征和第三特征输入认知能力评分模型中进行认知评分，得到认知能力测试结果。该方法能够使用较为简单的测试步骤，在进行认知能力评估时关注多模态的特征，能够提高认知能力测试结果的准确程度。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例中认知能力测试方法的一个实施例的流程示意图；

图2为本发明实施例中认知能力测试时使用的一种评估图片的示意图；

图3为本发明实施例中认知能力测试方法的另一个实施例的流程示意图；

图4为本发明实施例中认知能力测试装置的一个实施例示意图；

图5为本发明实施例中认知能力测试装置的另一个实施例示意图；

图6为本发明实施例中认知能力测试设备的一个实施例示意图；

图7为本发明实施例中一种计算机可读介质的原理示意图。

具体实施方式

现在将参考附图更全面地描述本发明的示例性实施例。然而，示例性实施例能够以多种形式实施，且不应被理解为本发明仅限于在此阐述的实施例。相反，提供这些示例性实施例能够使得本发明更加全面和完整，更加便于将发明构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的元件、组件或部分，因而将省略对它们的重复描述。

在符合本发明的技术构思的前提下，在某个特定的实施例中描述的特征、结构、特性或其他细节不排除可以以合适的方式结合在一个或更多其他的实施例中。

在对于具体实施例的描述中，本发明描述的特征、结构、特性或其他细节是为了使本领域的技术人员对实施例进行充分理解。但是，并不排除本领域技术人员可以实践本发明的技术方案而没有特定特征、结构、特性或其他细节的一个或更多。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

术语“和/或”或者“及/或”包括相关联的列出项目中的任一个或多者的所有组合。

请参阅图1，本发明实施例中一种认知能力测试方法的一个实施例包括：

S101、响应于认知能力测试请求，获取待评估用户针对评估图片进行描述时的描述音频；

可以理解的是，本发明的执行主体可以为认知能力测试装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

请参看图2，服务器在接收到认知能力测试请求后，向待评估用户展示预先收集的以供评估的图片，请参看图2，其为一个评估图片的示例：“饼干小偷场景”图；要求待评估用户根据看到的评估图片中绘制的内容进行描述，并通过音频录制设备对描述时的语音进行录制，得到待评估用户针对评估图片进行描述时的描述音频文件。

S102、对描述音频进行第一特征提取操作，得到第一特征；

得到描述音频的音频文件后，对描述音频进行第一特征提取，在一种具体的实施方式中，第一特征指的是描述音频的声学特征，其中声学特征可以根据描述音频文件的时域谱和频域谱的特征进行提取，时域谱中可以提取到描述音频的停顿时长和停顿次数等时域特征；频域谱中可以获取梅尔频谱以及梅尔频率倒谱系数(Mel-Frequency CepstralCoefficients,MFCC)。

S103、对描述音频进行语音识别，得到针对评估图片的描述文本；

得到描述音频的音频文件后，通过语音识别技术对描述音频进行语音识别，其中，语音识别技术也被称为自动语音识别(Automatic Speech Recognition，ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。具体的，本步骤中首先对音频文件进行降噪，去除不属于人声部分的噪声得到降噪音频文件，随后提取降噪音频文件中的语音信号特征，其中，语音信号特征可以包括梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)或线性预测编码(LinearPredictive Coding,LPC)，当使用梅尔频率倒谱系数进行语音识别时，可以获取前述步骤中获取的声学特征。在进行具体的语音识别之前，本实施例中还预先基于深度学习算法构建了语音识别模型，该语音识别模型可以通过语音信号特征确定对应的文本内容，得到针对评估图片的描述文本。

S104、对描述文本进行第二特征提取操作，得到第二特征；

本实施例中，第二特征为语言表达能力特征，具体可以通过自然语言处理(Natural Language Processing,NLP)的方式提取文本中的特征，具体的，表达能力特征可以包括描述文本句子的长度、各句子中包含的词语的词性比例以及词向量(Wordembedding)特征等。词向量是Word嵌入式自然语言处理中的一组语言建模和特征学习技术的统称，来自词汇表的单词或短语被映射到实数的向量，其涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。其中，生成这种映射的方法包括神经网络，单词共生矩阵的降维，概率模型，可解释的知识库方法，和术语的显式表示单词出现的背景；当用作底层输入表示时，单词和短语嵌入在例如语法分析和情感分析的应用领域可以提高NLP任务的性能。

S105、基于描述文本构建视觉特征图，对视觉特征图进行第三特征提取操作，得到第三特征；

其中，在评估图片中包含有不同的空间实体，以附图2展示“饼干小偷场景”图为例，图片左上角中展示的“柜子”、“饼干”以及图片右侧展示的“洗碗池”等即为空间实体。获取空间实体的信息并且描述文本中提及空间描述文本的顺序、次数和具体的描述方式等信息，基于这些信息构成视觉特征图，并使用视觉特征提取算法提取视觉特征中包含的图像特征，得到第三特征。

S106、将第一特征、第二特征和第三特征输入认知能力评分模型中进行认知评分，得到认知能力测试结果。

本实施例中，使用多模态的训练及预测方法进行认知能力的评分。其中，多模态是指同时使用多个类型的数据进行模型训练和预测，例如，可以结合图像、音频等不同类型的数据来训练语音识别模型，或结合文本、图像等不同类型数据来训练情感分析模型。使用多模态模型可以考虑不同类型数据之间的相关性，提高模型的泛化能力和预测精度。其中，本实施例中的认知能力评分模型是根据标注过认知能力评分的被试者根据评估图片进行描述而获取具体训练数据而预先训练的。

具体的，获取前述步骤中基于语音音频获取到的与音频相关的第一特征、基于描述文本获取到的文本相关的第二特征以及基于前述步骤构建得到的视觉特征图获取到的与图像相关的第三特征进行具体的认知评分。

本发明实施例中的方法，仅需被评估用户依据评估图片进行描述并获取音频即可进行认知能力的评估，其简化了测试步骤，降低了对测试执行者的要求，并且在进行认知能力评估时关注多模态的特征，能够提高认知能力测试结果的准确程度。

请参看图3，本发明实施例中一种认知能力测试方法的另一个实施例包括：

S301、构建认知能力评分模型；

预先获取针对评估图片进行描述的样本音频，其中，样本音频预先标注有各样本音频的描述者的认知能力评分标签；通过音频特征提取算法提取样本音频的第一样本特征；对样本音频进行语音识别，得到样本文本，通过自然语言处理算法提取样本文本的第二样本特征；基于样本文本构建视觉特征图，通过视觉相关的深度学习算法提取视觉特征图的第三样本特征，其中，视觉特征图可以为有向图，该有向图是基于样本文本中包含的空间实体信息进行构建的；基于分类算法构建初始二分类模型；将第一样本特征、第二样本特征和第三样本特征输入初始二分类模型中进行训练，得到认知能力评分模型。

S302、响应于认知能力测试请求，获取待评估用户针对评估图片进行描述时的描述音频；

接收并解析接收到的认知能力测试请求，向待评估用户展示预先收集的以供评估的图片，一般地，评估图片中会包含多个物体或者场景，本实施例中地具体测试方案要求待评估用户根据看到的评估图片中绘制的内容进行描述，并通过音频录制设备对描述时的语音进行录制，得到待评估用户针对评估图片进行描述时的描述音频文件。

S303、对描述音频进行第一特征提取操作，得到第一特征；

本步骤中所述的第一特征包括频域特征和时域特征，具体的，获取所述描述音频的时域数据，提取所述时域数据中包含的时域特征，其中，所述时域特征包括停顿时间；将所述描述音频进行傅里叶变换，得到描述音频的频谱数据，并提取所述频谱数据中包含的频域特征。

在一种实际的实施方式中，频域特征包括第一频域特征和第二频域特征，具体地，首先将音频的频谱数据转化为短帧，基于每一帧计算功率谱的周期图估计，将梅尔滤波器组(Mel Filter Bank,MFB)应用于功率谱，将所述功率谱的刻度转换为梅尔刻度，由于人声属于低频段，通过梅尔滤波器组进行转换后，可以将低频段的声音信号突出，以便提取语音信号的第一频域特征。

将前述个梅尔滤波器组中每个滤波器中的能量进行相加，并取滤波器能量的对数，对滤波器组能量进行离散余弦变换(Discrete Cosine Transform,DCT)，得到所述描述音频对应的梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)，基于所述梅尔频率倒谱系数得到第二频域特征。

S304、对描述音频进行语音识别，得到针对评估图片的描述文本；

S305、对描述文本进行第二特征提取操作，得到第二特征；

对得到的描述音频进行文本识别得到针对评估图片的描述文本后，具体操作为提取所述描述文本的文本长度；对所述描述文本中包含的词语进行词性统计，得到词性数据；调用词向量计算模型对所述描述文本进行词向量标注，得到描述文本向量特征。具体的，首先获取预训练的初始词向量模型，通过迁移学习并生成针对于本实施例中的描述文本词向量模型的，再基于得到的词向量模型对得到的描述文本进行词向量的计算。

S306、提取评估图片中包含的空间实体，并计算各空间实体的实体坐标，基于空间实体构建实体集；

其中，在评估图片中包含有不同的空间实体，空间实体指的是图片中包含的人物、物体和场所等，以附图2展示“饼干小偷场景”图为例，图片左上角中展示的“柜子”、“饼干”以及图片右侧展示的“洗碗池”等即为空间实体。基于评估图片建立坐标系，并计算各空间实体的重心位置在所述坐标系中的坐标位置，基于标注了坐标位置的各空间实体构建该评估图片对应的实体集。

S307、对描述文本按句进行切分，得到多个描述语句；

S308、对各描述语句进行句法分析，提取各描述语句中的三元组；

对前述步骤中得到的描述文本进行文本识别，将其切分成以句为单位的语料，得到多个描述语句，针对于每个描述语句，进行单独的句法分析，提取其中的三元组信息。具体地，本步骤中所述的三元组为句子中的主语、谓语和宾语；

S309、建立空间实体的同义词对应表，根据同义词对应表判断主语和宾语是否属于空间实体集中；

S310、若是，则按照描述文本中提及空间实体的顺序和对应的实体坐标构建有向图；

在一种具体的实施方式中，预先提取评估图片中包含有的全部空间实体，并根据空间实体所描述的具体内容获取其名称的同义词，构建空间实体的同义词对应表。根据前述步骤中得到的实体集对前述步骤中各描述文本的主语及宾语进行遍历扫描，如果其中包含有实体集中包含的空间实体，则基于包含空间实体的三元组信息生成对应的实体向量，最终根据三元组信息以及各空间实体的坐标位置生成有向图。

S311、对有向图进行第三特征提取操作，得到第三特征；

根据上述的步骤，本实施例中生成的有向图包含有空间实体所构成的结点，其具体还包含有对应的结点位置，其是根据空间实体的位置坐标而确定的；各结点之间的路径是基于三元组信息而生成的，不同的结点之间对应各种路径长度，随后对有向图进行特征提取得到第三特征，该第三特征包括边特征和整体特征，其中整体特征包括结点位置和结点数量等信息，边特征包括路径数量以及路径长度等信息。在一种可能的实施方式中，预先基于深度学习算法构建图神经网络，将得到的有向图输入图神经网络中进行特征提取，得到第三特征，其中图神经网络可以基于卷积神经网络构建。

S312、将第一特征、第二特征和第三特征输入认知能力评分模型中进行认知评分，得到认知能力测试结果。

本实施例中步骤S312中具体内容与前述实施例中步骤S106中内容基本相同，故在此不再赘述。

本发明实施例响应于认知能力测试请求，获取待评估用户针对评估图片进行描述时的描述音频；对描述音频进行语音识别，得到针对评估图片的描述文本；对描述音频进行第一特征提取操作，得到第一特征；对描述文本进行第二特征提取操作，得到第二特征；基于描述文本构建视觉特征图，对视觉特征图进行第三特征提取操作，得到第三特征；将第一特征、第二特征和第三特征输入认知能力评分模型中进行认知评分，得到认知能力测试结果。该方法仅需被评估用户依据评估图片进行描述并获取音频即可进行认知能力的评估并输出认知能力的测试结果，其简化了测试步骤，降低了对测试执行者专业水平的要求；并且在进行认知能力评估时，关了包括语音特征、文本特征以及描述文本构建成的视觉特征等多模态的特征，能够综合利用待评估用户测试时提供的描述信息，提高了认知能力测试结果的准确程度。

上面对本发明实施例中认知能力测试方法进行了描述，下面对本发明实施例中认知能力测试装置进行描述，请参阅图4，本发明实施例中认知能力测试装置的一个实施例包括：

获取模块401，响应于认知能力测试请求，获取待评估用户针对评估图片进行描述时的描述音频；

音频处理模块402，用于对所述描述音频进行语音识别，得到针对所述评估图片的描述文本；

第一提取模块403，用于对所述描述音频进行第一特征提取操作，得到第一特征；

第二提取模块404，用于对所述描述文本进行第二特征提取操作，得到第二特征；

第三提取模块405，用于基于所述描述文本构建视觉特征图，对所述视觉特征图进行第三特征提取操作，得到第三特征；

评估模块406，将所述第一特征、所述第二特征和所述第三特征输入认知能力评分模型中进行认知评分，得到认知能力测试结果。

在本申请的另一实施例中，所述视觉特征图为有向图，所述第三提取模块405包括有向图构建单元4051和有向图特征提取单元4052，所述有向图构建单元4051具体用于：

提取所述评估图片中包含的空间实体，并计算各所述空间实体的实体坐标，基于所述空间实体构建实体集；

对所述描述文本按句进行切分，得到多个描述语句；

对各所述描述语句进行句法分析，提取各所述描述语句中的三元组，其中，所述三元组包含主语、谓语和宾语；

建立所述空间实体的同义词对应表，根据所述同义词对应表判断所述主语和宾语是否属于空间实体集中；

若是，则按照所述描述文本中提及所述空间实体的顺序和对应的所述实体坐标构建有向图；

所述有向图特征提取单元具体用于对所述有向图进行第三特征提取操作，得到第三特征。

在本申请的另一实施例中，所述第三特征包括边特征和整体特征，所述边特征包括路径长度，所述整体特征包括结点位置和结点数量。

在本申请的另一实施例中，所述第一特征包括频域特征和时域特征，所述第一提取模块403包括：

时域特征提取单元4031，用于获取所述描述音频的时域数据，提取所述时域数据中包含的时域特征，其中，所述时域特征包括停顿时间；

频域特征提取单元4032，用于将所述描述音频进行傅里叶变换，得到描述音频的频谱数据，并提取所述频谱数据中包含的频域特征。

在本申请的另一实施例中，所述频域特征包括第一频域特征和第二频域特征，所述频域特征提取单元4032具体用于：

将所述频谱的刻度转换为梅尔刻度，得到所述描述音频的梅尔频谱，基于所述梅尔频谱得到第一频域特征；

在本申请的另一实施例中，所述对所述描述文本进行第二特征提取操作，得到第二特征包括：

提取所述描述文本的文本长度；

对所述描述文本中包含的词语进行词性统计，得到词性数据；

调用词向量计算模型对所述描述文本进行词向量标注，得到描述文本向量特征。

在本申请的另一实施例中，所述认知能力测试装置还包括模型构建模块407，所述模型构建模块407具体用于：

基于分类算法构建初始二分类模型；

获取针对所述评估图片进行描述的样本音频，其中，所述样本音频预先标注有各样本音频的描述者的认知能力评分标签；

提取所述样本音频的第一样本特征；

对所述样本音频进行语音识别，得到样本文本，提取所述样本文本的第二样本特征；

基于所述样本文本构建视觉特征图，提取所述视觉特征图的第三样本特征；

将所述第一样本特征、所述第二样本特征和第三样本特征输入所述初始二分类模型中进行训练，得到认知能力评分模型。

本发明实施例的方法仅需被评估用户依据评估图片进行描述并获取音频即可进行认知能力的评估并输出认知能力的测试结果，其简化了测试步骤，降低了对测试执行者专业水平的要求；并且在进行认知能力评估时，关了包括语音特征、文本特征以及描述文本构建成的视觉特征等多模态的特征，能够综合利用待评估用户测试时提供的描述信息，提高了认知能力测试结果的准确程度。

上面图4和图5从模块化功能实体的角度对本发明实施例中的认知能力测试装置进行详细描述，基于同一发明构思，本说明书实施例还提供一种认知能力测试设备，下面从硬件处理的角度对本发明实施例中认知能力测试设备进行详细描述。

图6是本发明实施例提供的一种认知能力测试设备的结构示意图，该认知能力测试设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)610(例如，一个或一个以上处理器)和存储器620，一个或一个以上存储应用程序633或数据632的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对认知能力测试设备600中的一系列指令操作。更进一步地，处理器610可以设置为与存储介质630通信，在认知能力测试设备600上执行存储介质630中的一系列指令操作。

认知能力测试设备600还可以包括一个或一个以上电源640，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口660，和/或，一个或一个以上操作系统631，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图6示出的认知能力测试设备结构并不构成对认知能力测试设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种认知能力测试设备，所述计算机设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述认知能力测试方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述如图1或图3认知能力测试方法的步骤。

图7为本说明书实施例提供的一种计算机可读介质的原理示意图。

实现图1或图3所示方法的计算机程序可以存储于一个或多个计算机可读介质上。计算机可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

综上所述，本发明可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)等通用数据处理设备来实现根据本发明实施例中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，本发明不与任何特定计算机、虚拟装置或者电子设备固有相关，各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：上海交通大学医学院附属瑞金医院;上海暖禾脑科学技术有限公司;