掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明一般地涉及文本识别领域。更具体地,本发明涉及一种基于人工智能的课堂纸笔互动方法及装置。

背景技术

作为传统的阅读和学习手段,纸张在书写、阅读和记忆过程中依然有着不可替代的优势。纸笔互动课堂通过智能手写板的快速接入,协助教师开展信息化课堂即时互动授课、纸笔板书、智能采集课堂数据,及时了解学生知识点掌握情况,实现针对性教学,让教师能关注到每一个学生。

联机手写文字识别所处理的手写文字是书写者通过物理设备 (如数字笔、 数字手写板或者触摸屏) 在线书写获取的文字信号, 书写的轨迹通过定时采样即时输入到计算机中。在纸笔互动课堂场景中,联机手写文字的准确识别对于提升课堂效果具有重要意义。将手写文字实时转化为标准印刷体文字并显示在共享屏幕中可以帮助老师及学生更好地辨识文字,从而提高课堂教学效率。

然而,现有的联机手写文字识别技术中没有考虑到如何准确划分识别出单个字符,很容易造成文字的合并拆分等现象。另外,对于联机手写文字识别的数据处理方法及模型效果均有待优化提升。

发明内容

为解决上述一个或多个技术问题,本发明提出采集用户书写轨迹数据,构建点阵图及笔划轨迹时序数据;计算并构建字符笔划轨迹间水平距离值和笔划轨迹间书写的停顿时间特征向量,输入高斯混合模型中判断相邻两段笔划轨迹是否属于同一字符;将所有笔划轨迹按单个字符划分并存储,对存储的数据进行预处理;将预处理后的数据输入预测模型获得第一预测结果;使用语言模型获得第二预测结果,并实时输出标准印刷体文字。为此,本发明在如下的多个方面中提供方案。

在一个实施例中,包括:采集用户书写轨迹数据,构建点阵图及笔划轨迹时序数据,所述点阵图为书写时产生的压力数据;根据点阵图的点阵坐标,计算字符笔划轨迹间水平距离值;计算笔划轨迹间书写的停顿时间;构建关于字符笔划轨迹间水平距离值和笔划轨迹间书写的停顿时间的特征向量,根据所述特征向量训练预设的高斯混合模型,得到高斯混合模型,通过高斯混合模型生成判断结果,所述判断结果为相邻两段字迹轨迹是否属于同一字符;响应于相邻两段字迹轨迹属于同一字符,将所有笔划轨迹数据按单个字符划分整合,并按照单个字符的点阵图数据集合与笔划轨迹时序数据集合进行存储并进行预处理;将预处理后的数据输入预测模型中分别进行特征提取,得出第一预测结果。

在一个实施例中,还包括步骤:基于语言模型预测模型生成第二预测结果,并结合所述第一预测结果进行综合判断,获得实时输出设定格式的文字。

在一个实施例中,结合所述第一预测结果进行综合判断包括:响应于第一预测结果小于预设阈值,判定所述预测模型中存在多个相似文字,干扰了预测模型的预测结果;响应于第一预测结果与第二预测结果相同,判定第一预测结果与第二预测结果中预设排名内的某一个文字相符合,输出语言模型预测的文字最终结果选择该语言模型预测的文字并进行输出;响应于第一预测结果与第二预测结果不同,判定第一预测结果与第二预测结果中预设排名内的某一个文字相不符合,输出预测模型获得的第一预测结果概率最大的文字。

在一个实施例中,所述笔划轨迹时序数据包括:

笔划轨迹时序数据=(书写状态、压力值);

所述书写状态包括正在书写和未书写,正在书写记为

在一个实施例中,所述特征向量包括:

响应于笔划轨迹数据开始生成,实时生成对应特征向量数据为:

其中,E表示特征向量,

此实施例的有益效果为:将数据使用两种数据形式进行存储,能够从图像和时序两种特征方向得到待识别字符的特征信息,有利于提高后续文本识别模型的效果。

基于高斯混合模型判断所述第

在一个实施例中,高斯混合模型中,包括:构建多元高斯分布概率密度函数,公式如下:

其中,

由多元高斯分布概率密度函数公式得出混合高斯分布的表达式,得到高斯混合模型,表达式如下:

其中,

使用期望最大化算法求出取不同

此实施例的有益效果为:相比较于传统的仅考虑数据点在x轴水平投影的距离值划分字符的方法,该步骤所用划分方法充分考虑了可能出现的问题情况,综合考虑了笔划轨迹间书写的停顿时间共同作为判断依据,并使用高斯混合模型对分类概率情况进行预测,最终得到更加准确可信的分类结果,即确定字符间的准确划分方式。

在一个实施例中,所述进行预处理包括:对点阵图的点阵坐标数据进行噪声处理;去除重复笔划轨迹;对点阵图进行倾斜校正及归一化。

在一个实施例中,所述预测模型包括:第一分支和第二分支,第一分支采用循环神经网络,用于处理笔划轨迹时序数据,第二分支采用卷积神经网络,用于处理点阵图数据集合;第一分支与第二分支并行;第一分支设置有第一全连接层,第二分支设置有第二全连接层,第一分支的输出与第二分支的输出相连接,共同作为所述预测模型的输出;对输出采用Softmax函数进行归一化,生成n个可能识别出的文字的概率。

本发明的预测模型使用的是CNN+RNN预测模型;语言模型使用的是GPT语言模型。

通过采用上述技术方案,能够有效提高在纸笔书写课堂互动过程中对联机实时文字的识别准确率,并将之转换为印刷体文字以便于教师与学生辨识,提高课堂教学效率。

可选的,采用CNN+RNN预测模型充分利用了CNN和RNN的优势,能够同时捕捉待识别文字的时间和空间特征,有助于提升识别准确率,同时并行计算方式能够有效加快计算速度。

可选的,利用GPT语言模型作为对CNN+RNN预测模型结果的修正,通过综合考虑上文书写句子中的语义信息,能够在更大程度上排除相似文字的干扰,得到更准确的识别结果。

附图说明

通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,并且相同或对应的标号表示相同或对应的部分,其中:

图1是本发明实施例一种基于人工智能的课堂纸笔互动方法的流程图;

图2是本发明实施例一种基于人工智能的课堂纸笔互动方法的字符笔划轨迹间水平距离的示意图;

图3是本发明实施例一种基于人工智能的课堂纸笔互动方法的CNN+RNN预测模型网络架构图;

图4是本发明实施例一种基于人工智能的课堂纸笔互动装置的示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应当理解,当本发明的权利要求、说明书及附图使用术语“第一”、“第二”等时,其仅是用于区别不同对象,而不是用于描述特定顺序。本发明的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

本发明提供了一种基于人工智能的课堂纸笔互动方法及装置。图1是根据本发明实施例的一种基于人工智能的课堂纸笔互动方法及装置的流程图。如图1所示,一种基于人工智能的课堂纸笔互动方法包括步骤S1至S5,以下具体说明。

S1,采集用户书写轨迹数据,构建点阵图及笔划轨迹时序数据。

示例性的,用户可使用任意纸张在智能手写板中进行书写,配套智能笔采用无源无线电磁压感技术,与智能手写板结合后可采集用户书写过程中的轨迹数据,并表示为点阵图及笔划轨迹时序数据两种形式。

其中,点阵图数据用点阵矩阵表示,在手写板中集成压力传感器并构建点阵坐标,初始化点阵矩阵中值为0。以书写时产生的压力为触发条件,将书写轨迹经过的坐标值标记为1,即可以点阵图形式表示书写文字形状特征。

示例性的,点阵矩阵的形式如下:

此点阵矩阵记录的为书写文字“乙”。

示例性的,笔划轨迹时序数据形式如下:

笔划轨迹时序数据=(书写状态、压力值);

其中,该数据表示在某一个数据采集时刻采集到的用户书写状态信息,当

示例性的,根据压力值判断用户的书写状态,当压力值大于给定阈值时,表示用户正在进行书写操作,此时将

S2,计算并构建关于字符笔划轨迹间水平距离值和笔划轨迹间书写的停顿时间的特征向量,根据高斯混合模型中判断相邻两段笔划轨迹是否属于同一字符。

其中,以点阵坐标在x轴上的投影范围为参考,可计算出每个笔划轨迹间的水平最大距离值,从而判断出哪些笔划轨迹构成了一个单一字符,一般情况下,两个字符间的水平距离会大于同一个字符中偏旁与部首之间的距离。同时,为避免书写过程中可能出现字间距过小导致的字符划分误差,将笔划轨迹间书写的停顿时间作为第二判断条件,使用高斯混合模型进行分类判断相邻的两段轨迹是否属于同一字符。

S2.1,计算字符笔划轨迹间水平距离值,将文本字符点阵坐标沿垂直方法进行投影,获得统计直方图;垂直投影针对点阵图中点在x轴映射的数量进行统计,若映射值为0,即可视为两个字符或者笔划轨迹之间存在的水平间隔,选择直方图上的零值点作为划分点,计算两个笔划轨迹之间的水平距离。该距离即可视为可能存在字符切分的判断条件。

示例性的,如图2所示,仅根据字符笔划轨迹间水平距离值进行切分可能会出现将左右偏旁部首的单个字符切开或将两个距离较近的字符视为一个字符的情况。

S2.2,计算笔划轨迹间书写的停顿时间。示例性的,基于步骤S1中所得的笔划轨迹时序数据,可计算出笔划轨迹间书写的停顿时间。具体为,

S2.3,基于步骤S2.1的字符笔划轨迹间水平距离值与步骤S2.2的笔划轨迹间书写的停顿时间,构建特征向量。

具体来说,将字符笔划轨迹间水平距离值与笔划轨迹间书写的停顿时间按照笔划轨迹顺序进行排列,构建为特征向量:

表示第/>

S2.4,使用高斯混合模型进行分类计算并判断相邻两段笔划轨迹是否属于同一字符。

具体来说,高斯分布(即正态分布)有极其广泛的实际背景,生产与科学实验中很多随机变量的概率分布都可以近似地用高斯分布来描述。GMM(Gaussian Mixture Model)是一个假定数据服从线性高斯混合模型的统计模型参数推断。参数推断完成后,计算出的后验概率可作为分类结果使用。

示例性的,在本发明中使用高斯混合模型的含义即为根据上述统计得到的距离与时间二维特征判断是否能够划分为不同字符的概率分布同样趋近于高斯分布。因此通过训练拟合得到的高斯混合模型能够得到较为准确可信的分类结果。在本发明中使用高斯混合模型方法如下:

构建多元高斯分布概率密度函数公式如下:

其中,

由多元高斯分布概率密度函数公式得出混合高斯分布的表达式,得到高斯混合模型,表达式如下:

其中,

使用期望最大化算法求出取不同

在一个实施例中,当用户开始书写时,即开始产生笔划轨迹数据,将会实时产生向量数据

S3,将所有笔划轨迹按单个字符划分并存储,对存储的数据进行预处理。

其中,根据步骤S2中所得到的分类结果将数据按单个字符重新划分整合,将数据存储为每个被划分好的单个字符的点阵图二维向量集合

S3.1,对笔划轨迹点阵坐标数据进行噪声处理。由于用户在书写过程中可能存在抖动问题,原始的笔划轨迹点阵坐标数据中存在大量的噪声,需要对其进行处理。对此可采用平滑滤波处理等方法对噪声点进行识别并去除。

S3.2,对相邻轨迹数据使用动态时间规划算法进行距离计算,若距离值小于给定阈值,即认为该两种笔划轨迹近似重叠,此时在数据集G和S中同步去除两条笔划轨迹中第一条笔划轨迹的数据,重复笔划轨迹的出现可能为用户修正的结果。

S3.3,对点阵图

S4,将预处理后的数据输入预测模型中获得第一预测结果。

示例性的,预测模型为CNN(Convolutional Neural Networks,卷积神经网络)+RNN(Convolutional Neural Networks,循环神经网络)预测模型。如图3所示,其中,构建CNN+RNN预测模型,CNN+RNN预测模型包括第一分支和第二分支,第一分支采用循环神经网络,用于处理笔划轨迹时序数据,第二分支采用卷积神经网络,用于处理点阵图数据集合;第一分支与第二分支并行;第一分支设置有第一全连接层,第二分支设置有第二全连接层,第一分支的输出与第二分支的输出相连接,共同作为所述预测模型的输出;最终输出采用Softmax函数进行归一化,得到n个可能识别出的文字的概率。

具体来说,CNN和RNN可以分别用于对空间和时间特征进行提取,二者的结合可以进一步提升模型的性能。因此,本发明构建了CNN+RNN预测模型。CNN分支包括卷积层、池化层和全连接层。不同大小的卷积核可以捕捉到不同大小的空间特征,而池化层可以保留重要的信息并降低数据的维度。CNN分支的输出是一个定长的特征向量。RNN分支可采用LSTM(Long Short Term Memory,长短期记忆递归神经网络)或GRU(Gate Recurrent Unit,循环神经网络),能够对输入序列中的长短时关系进行建模,并生成一个定长的向量表示。

CNN+RNN预测模型的最终输出采用Softmax函数进行归一化,得到n个可能识别出的文字的概率,按大小降序排序。

S5,使用GPT(ChatGPT)语言模型修正得到的文字概率,并实时输出标准印刷体文字。

其中,为了防止可能出现将该手写文字错误识别为相近字体的情况,在步骤

其中,CNN+RNN预测模型中概率最高的文字预测值小于预设阈值时,CNN+RNN预测模型存在多个相似文字的干扰导致CNN+RNN预测模型存在不准确的预测结果,读取语言模型的预测结果;响应于语言模型的预测结果与CNN+RNN预测模型预测结果中预设排名内的某一个文字相符合,最终结果选择该语言模型预测的文字并进行输出;响应于语言模型的预测结果与CNN+RNN预测模型预测结果中预设排名内的每一个文字均不符合,最终结果仍然选择输出识别模型中概率最高的文字。

示例性的,具体综合判断方法为,若识别模型中概率最高的文字的预测值小于0.6,则认为该模型存在不确定的识别结果,即有多个可能的相似文字的干扰。此时读取语言模型的预测结果,若该结果与识别模型中排名前5中的某一个文字向符合,则最终结果选择该语言模型预测的文字并进行输出;若该结果与识别模型中排名前5中的每一个文字均不相符,则最终结果仍然选择输出识别模型中概率最高的文字。

本发明实施例还公开一种基于人工智能的课堂纸笔互动装置,参照图4,包括处理器和存储器,存储器存储有计算机程序指令,当计算机程序指令被处理器执行时实现根据本发明的一种基于人工智能的课堂纸笔互动方法。

上述系统还包括通信总线和通信接口等本领域技术人员熟知的其他组件,其设置和功能为本领域中已知,因此在此不再赘述。

在本发明中,前述的存储器可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,计算机可读存储介质可以是任何适当的磁存储介质或者磁光存储介质,比如,阻变式存储器RRAM (Resistive RandomAccess Memory)、动态随机存取存储器DRAM (Dynamic Random Access Memory)、静态随机存取存储器SRAM (Static Random-Access Memory)、增强动态随机存取存储器EDRAM(Enhanced Dynamic Random Access Memory)、高带宽内存HBM (High-BandwidthMemory)、混合存储立方HMC (Hybrid Memory Cube)等,或者可以用于存储所需信息并且可以由应用程序、模块或两者访问的任何其他介质。任何这样的计算机存储介质可以是设备的一部分或可访问或可连接到设备。

虽然本说明书已经示出和描述了本发明的多个实施例,但对于本领域技术人员显而易见的是,这样的实施例只是以示例的方式提供的。本领域技术人员会在不偏离本发明思想和精神的情况下想到许多更改、改变和替代的方式。应当理解的是在实践本发明的过程中,可以采用本文所描述的本发明实施例的各种替代方案。

以上均为本发明的较佳实施例,并非依此限制本发明的保护范围,故:凡依本发明的结构、形状、原理所做的等效变化,均应涵盖于本发明的保护范围之内。

技术分类

06120116551853