掌桥专利:专业的专利平台
掌桥专利
首页

手势训练数据的时序校准方法

文献发布时间:2024-01-17 01:28:27


手势训练数据的时序校准方法

技术领域

一种手势训练数据的时序校准方法,尤指可以使一手势辨识系统最小化手势辨识的时间差的一种手势训练数据的时序校准方法。

背景技术

随着科技的进步,人与电子产品之间产生了更加密切的互动。市面上部分的电子产品开始具有了动作辨识的科技,进一步来说,辨识使用者手势的科技。然而,手势辨识的技术目前还需要解决一些技术上的难题,举例来说,负责手势辨识的系统是该如何在最精确的时间点完成辨识手势的动作。这里所指的手势泛指手部所做出的任意动作,例如写字、画出图形。

举例来说,一个电子装置的手势辨识系统负责辨识一手势图库内所存有的多个图形。当一使用者的手部在一感测空间内绘画出一月亮的图形时,该手势辨识系统会在实时不断计算和观测最可能要呈现的图形以降低误判手势的机率和提升正确辨识手势的速度。为了提高这种手势辨识过程的效率,该手势辨识系统便会进行人工智能(Artificialintelligence;AI)的训练。

进一步来说,目前来说该手势辨识系统大多受到卷积神经网络(Convolutionalneural network;CNN)或是长短期存储(Long Short-Term Memory;LSTM)等基本深度学习(Deep learning)的训练方法。虽说上述方法可以有效的训练一距离多普勒(雷达)成像(Range-Doppler Imaging;RDI)系统的手势辨识成功率,即降低误判手势的机率,却无法优化正确辨识手势的速度。并且目前来说,使用交叉熵(Cross Entropy)的训练手段来训练该手势辨识系统也未能优化正确辨识手势的速度。

如果说正好完成一手势的时间点称为一触发点,则早于或晚于触发点都将负面影响使用者的使用经验。换言之,该手势辨识系统若未在最精确的时间做出手势的辨识,使用者可能会需要多加等待,或是多次重复动作。

使用者正好画完图形的时间点,至该手势辨识系统成功辨识该手势的时间差异即为所谓的时间差(time discrepancy)。若是能最小化此时间差,理论上就能改善使用者体验。目前来说,就连将时间资讯或是动作行程软标示(soft labeling)应用于上述训练方法中,也无法使该手势辨识系统最小化此时间差。

发明内容

有鉴于上述的问题,本发明提供一手势训练数据的时序校准方法,以做为训练一人工智能网络前的预处理方法,该手势训练数据的时序校准方法包括下列步骤:

接收一训练动作教材;其中,该训练动作教材包含多个教材帧及多个教材软标示;

将该训练动作教材的该多个教材帧压缩为一教材压缩帧;

接收一动作样本;其中,该动作样本包含多个样本帧及多个样本软标示;

将该动作样本的该多个样本帧压缩为一样本压缩帧;

计算该教材压缩帧和该样本压缩帧的一动态时间校正(Dynamic time warping;DTW)的一校正模型;

根据该校正模型校正为该多个样本软标示为多个校正后软标示;

根据该动作样本和该多个校正后软标示产生一校正后训练数据。

本发明的该校正模型建立了该多个样本软标示和该多个教材软标示之间的关系,而该动作样本受矫正后的该多个校正后软标示,会和该训练动作教材所形容该动作样本本身的手势动作相关性更高。本发明为训练该人工智能网络前的预处理方法,且本发明的该校正后训练数据即用来训练一人工智能网络。经本发明该校正后训练数据训练后的该人工智能网络有办法进一步训练一手势辨识系统,使之最小化手势辨识的时间差,以更有效率的正确辨识手势。这是因为该人工智能网络在训练该手势辨识系统前,预先经由本发明的上述步骤校正所有该动作样本的该多个软标示,使得该多个校正后软标示更贴近手势进行的实际情况,而如此经训练后可做出先前技术无法达到的功效。

附图说明

图1为本发明一手势训练数据的时序校准方法的装置方块图。

图2为本发明该手势训练数据的时序校准方法的流程图。

图3为本发明该手势训练数据的时序校准方法的另一流程图。

图4为本发明该手势训练数据的时序校准方法的另一流程图。

图5为本发明该手势训练数据的时序校准方法的另一流程图。

图6A为本发明该手势训练数据的时序校准方法一训练动作教材的示意图。

图6B为本发明该手势训练数据的时序校准方法一教材压缩帧的示意图。

图7为本发明该手势训练数据的时序校准方法一校正模型的示意图。

图8A为运用本发明前一手势辨识系统所辨识手势完成度的示意图。

图8B为运用本发明后该手势辨识系统所辨识手势完成度的示意图。

具体实施方式

请参阅图1所示,本发明为一手势训练数据的时序校准方法,由一处理单元10所执行。在本发明的一实施例中,该处理单元10电连接一存储单元20,而该存储单元20存有一训练动作教材、多个动作样本和一人工智能网络。该人工智能(Artificial Intelligence;AI)网络为专门训练一手势辨识系统,能有效率辨识一使用者的手势。所谓能有效率辨识该使用者的手势,就是能最小化手势辨识的时间差,以达到正确辨识手势效率上的优化。而进一步来说,要最小化辨识手势辨识的时间差,就是要训练该手势辨识系统知道要在何时正确开始做出辨识。如果说该使用者正好完成一手势的时间点称为一触发点,则早于或晚于该触发点都将负面影响该使用者体验。

所谓的时间差(time discrepancy),即指该使用者比出手势的时间,例如画出一图形的时间,和该手势辨识系统成功辨识该手势的时间差异。为了计算此时间差,训练该手势辨识系统的教材通常会加上时间标示(time label),以对照手势进行的进度和所花的时间。上述早于或晚于该触发点,即指该手势辨识系统因触发时机未受到优化而未在该使用者刚好做完手势时触发的情况。唯有触发时机在使用者刚好做完手势时,才可以为使用者带来最佳的体验。本发明能够根据该训练动作教材校正该多个动作样本。在使用本发明校正后的数据训练该人工智能网络后,并使用该人工智能网络进一步训练该手势辨识系统后,该手势辨识系统能成功在最精确的时间点完成辨识手势的动作,以做出先前技术无法达到的功效。

当执行本发明该手势训练数据的时序校准方法时,该处理单元10自该存储单元20中读取该训练动作教材和该多个动作样本中的其中一动作样本。

请参阅图2所示,本发明该手势训练数据的时序校准方法包括:

步骤S10:接收该训练动作教材。该训练动作教材包含多个教材帧及多个教材软标示。

步骤S20:将该训练动作教材的该多个教材帧压缩为一教材压缩帧。

步骤S30:接收该动作样本。其中,该动作样本包含多个样本帧及多个样本软标示。

步骤S40:将该动作样本的该多个样本帧压缩为一样本压缩帧。

步骤S50:计算该教材压缩帧和该样本压缩帧的一动态时间校正(Dynamic timewarping;DTW)的一校正模型。

步骤S60:根据该校正模型校正该多个样本软标示为多个校正后软标示。

步骤S70:根据该动作样本和该多个校正后软标示产生一校正后训练数据。

本发明以该校正后训练数据训练该存储单元20中的该人工智能网络。会这么做是因为本发明的该校正模型建立了该多个样本软标示和该多个教材软标示之间的关系,而该动作样本受矫正后的该多个校正后软标示,会和该训练动作教材所形容该动作样本本身的手势动作相关性更高。本发明使该人工智能网络在训练该手势辨识系统前预先经由上述步骤校正所有该动作样本的该多个软标示,使得该多个校正后软标示更贴近手势进行的实际情况。如此一来,经本发明该校正后训练数据训练后的该人工智能网络有办法进一步训练该手势辨识系统最小化手势辨识的时间差,以达到正确辨识手势效率上的优化。

在本实施例中,该训练动作教材为一手势动作画面最佳的训练模型,而该多个教材软标示为该手势动作画面中的手势进度的时间标示,且该多个教材软标示为最精确的手势进度的时间标示。

进一步来说,当该处理单元10执行步骤S10时,该处理单元10自该存储单元20中读取该训练动作教材。当执行步骤S30时,该处理单元10自该存储单元20中读取该多个动作样本中的其中一动作样本。当执行步骤S70后,该处理单元10将该校正后训练数据存入该存储单元20中。当该处理单元10准备训练该人工智能网络时,该处理单元10自该存储单元20中读取该校正后训练数据以训练该人工智能网络。

请参阅图3所示,在本实施例中,在步骤S60和步骤S70之间进一步包括:

步骤S65:判断是否已读取该存储单元20中所有的该多个动作样本。

当判断尚未读取该存储单元中20中所有的该多个动作样本时,则执行步骤S30以读取该多个动作样本中的另一动作样本。而当判断已读取该存储单元20中所有的该多个动作样本时,则执行步骤S70。

请参阅图4和5所示,在本实施例中,步骤S10进一步包括以下子步骤:

步骤S100:自该存储单元20中读取该训练动作教材。

步骤S101:将该训练动作教材中对应一动作画面的多个教材硬标示通过一甘别分布(Gumbel distribution)的一累积分布函数方法(Cumulative distribution function;CDF)转换成该多个教材软标示。

而同样的,步骤S30进一步包括以下子步骤:

步骤S300:自该存储单元20中读取该多个动作样本的其中一该动作样本。

步骤S301:将该动作样本中对应该动作画面的多个样本硬标示通过该甘别分布的该CDF转换成该多个样本软标示。

进一步,步骤S20包括以下子步骤:

步骤S201:平均该多个教材帧中速度维度的数值以产生一教材平均速度矩阵,且平均该多个教材帧中距离维度的数值以产生一教材平均距离矩阵。

步骤S202:将该教材平均距离矩阵和该教材平均速度矩阵合并为该教材压缩帧。

同样的,步骤S40包括以下子步骤:

步骤S401:平均该多个样本帧中速度维度的数值以产生一样本平均速度矩阵,且平均该多个样本帧中距离维度的数值以产生一样本平均距离矩阵。

步骤S402:将该样本平均距离矩阵和该样本平均速度矩阵合并为该样本压缩帧。

当执行步骤S70后,该处理单元10执行以下步骤:

步骤S80:将该校正后训练数据存入该存储单元20中。

当该处理单元10准备训练该人工智能网络时,该处理单元10执行以下步骤:

步骤S90:自该存储单元20中读取该校正后训练数据以训练该人工智能网络。

请参阅图6A和6B所示,图6A示意了步骤S10中接收的该训练动作教材1包括了该多个教材帧2。该多个教材帧2和该多个样本帧事实上都为一距离多普勒(雷达)成像(Range-Doppler Imaging;RDI)系统的输入数据,并且该多个教材帧2和该多个样本帧的这些输入数据都已受过预处理将该RDI系统的原始数据转换为只含有速度和距离的数据,故该多个教材帧2和该多个样本帧的矩阵维度仅由速度和距离组成。在本实施例中,该RDI系统的原始数据为距离和频率变化的数据,而经由多普勒效应(Doppler effect)的习知算式即可算出距离和手势移动速度的数据。该RDI系统即为辨识手势所搭配使用的成像系统,而在本实施例中,该RDI系统将上述数据已预先存在该存储单元20中。该多个教材帧为N个M*M的矩阵,且该多个样本帧也为N个M*M的矩阵。在本实施例中,该多个教材帧即为N个M栏乘以M列的矩阵,且该多个样本帧也为N个M栏乘以M列的矩阵。其中,M和N各为大于1的整数。该多个教材帧和该多个样本帧的各矩阵中,每一栏(column)代表不同的速度,而每一列(row)代表不同的距离,因此换句话说,各矩阵中的栏位为速度维度,而列位为距离维度。

图6B示意了步骤S20中该多个教材帧2压缩为该教材压缩帧5。该教材压缩帧5详细来说为该教材平均距离矩阵3和该教材平均速度矩阵4合并所组成。该处理单元10计算该教材平均距离矩阵3的方法即取图6A中的该训练动作教材1并将不同该多个教材帧2中的距离维度资讯平均M次产生,而该处理单元10计算该教材平均速度矩阵4的方法即取图6A中的该训练动作教材1并将不同该多个教材帧2中的速度维度资讯平均M次产生。

上述该教材平均速度矩阵和该教材平均距离矩阵各为一M*N的矩阵,且该教材压缩帧为一2M*N的矩阵。上述该样本平均速度矩阵和该样本平均距离矩阵也各为一M*N的矩阵,且该样本压缩帧为一2M*N的矩阵,而2M即为二倍M之数值。该校正模型为N*N的矩阵。在本实施例中,该教材平均速度矩阵和该教材平均距离矩阵即各为一M栏乘以N列的矩阵,且该教材压缩帧为一2M栏乘以N列的矩阵。该样本平均速度矩阵和该样本平均距离矩阵即各为一M栏乘以N列的矩阵,该样本压缩帧为一2M栏乘以N列的矩阵。根据上述可知,在本实施例中,该校正模型为N栏乘以N列的矩阵。

请参阅图7所示,如上述同样的道理,该样本压缩帧8详细来说为该样本平均距离矩阵6和该样本平均速度矩阵7合并所组成。步骤S50中的该校正模型9由变相旋转的该教材压缩帧5和该样本压缩帧8所计算而成。若是该教材压缩帧5和该样本压缩帧8完全相等,该校正模型9中将会显示一对角线。而若是该教材压缩帧5和该样本压缩帧8未完全相等,该校正模型9中则会显示如图7所示浮动的该对角线。如此,以该DTW计算该校正模型9将能显示该教材压缩帧5和该样本压缩帧8两者的关系,并从该对角线浮动的动向了解该样本压缩帧8偏离该教材压缩帧5的程度。这偏离的程度将会反映在该多个样本软标示偏离该多个教材软标示的程度,而如此进一步训练该人工智能网络认知这样的偏离情形,以利加以改善该多个样本软标示偏离该多个教材软标示的程度。

请参阅图8A和图8B所示,图8A为在使用本案的该手势训练数据的时序校准方法前受该人工智能网络训练的该手势辨识系统所辨识手势完成度的示意图,而图8B为在使用本案的该手势训练数据的时序校准方法后受该人工智能网络训练的该手势辨识系统所辨识手势完成度的示意图。图8A和图8B为证明本发明的功效所用,图8A和图8B的横轴为以获取手势影像的帧数按照时间顺序排列,而纵轴为手势完成度的值。当该手势辨识系统认为手势完成度的值为1.0时代表手势动作在当下为100%辨识完成,而当该手势辨识系统认为手势完成度的值为0.8时代表手势动作在当下为80%辨识完成。此手势完成度的值也为对应时序的软标示所代表。

如图8A所示,实际手势完成度和该手势辨识系统认为的手势完成度之间有一些落差,并且实际手势完成度和该手势辨识系统认为的手势完成度之间也有一些的时间差。换句话说,在此图示中,该手势辨识系统认为的手势完成度明显慢于实际手势完成度发生的速度。

如图8B所示,实际手势完成度和该手势辨识系统认为的手势完成度之间近乎未出现落差,并且实际手势完成度和该手势辨识系统认为的手势完成度之间的时间差明显的受到了改善而减少。换句话说,在此图8B中,该手势辨识系统认为的手势完成度近乎和实际手势完成度在时间上同步。跟图8A的情形相比,经本发明校正和训练后的该人工智能网络所训练的该手势辨识系统能大幅减少该手势辨识系统认为的手势完成度和实际手势完成度之间时间差。如此证明本发明通过时序校正以拟合实际手势完成度与该手势辨识系统认为的手势完成度的功效。

以上所述仅是本发明的优选实施例而已,并非对本发明做任何形式上的限制,虽然本发明已以优选实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案的范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

技术分类

06120116231020