自动分词拼写的文本识别方法及装置、存储介质

文献发布时间：2023-06-19 11:29:13

技术领域

本申请实施例涉及文本识别及语音输出技术，尤其涉及一种自动分词拼写的文本识别方法及装置、存储介质。

背景技术

因疫情原因，很多学校通过网课的方式进行教学。由此，很多例行的学习工作，也交给了家长来跟进。客观上讲，孩子居家上课方式，给家长带来了较重负担；比如词语默写这一常见的教学方式，是考查学生知识掌握程度的主要手段，这种方法占用时间较长，且词语朗读需要不断重复，要求读音标准。这对于需要上班的家长而言，造成了极大的困扰。主要原因有，虽然孩子有老人照看，但家中老人的文化水平参差不齐，且因年龄或地域问题，对于书本上的东西理解有偏差，朗读方式也很难被辨识等。

发明内容

有鉴于此，本申请实施例提供一种自动分词拼写的文本识别方法及装置、存储介质。

根据本申请的第一方面，提供一种自动分词拼写的文本识别方法，包括：

获取设定类型的文件，对所述文件中的文本进行识别，并确定文本之间的间距，文本之间的行距；

根据文本之间的间距，确定出每行文本中是否存在换行；

对文本中的词语进行识别，并提取所识别的词语；

输出所述词语，并接收针对所述词语的调整，将调整后的词语作为识别的最终词语；

接收针对所述最终词语的语音输出参数的设置；

根据所述语音输出参数对所述最终词语中的文字进行读音标注，并为读音设置声调；

接收读音及声调标注后的文本，根据文本所标注的读音、声调进行语音输出。

作为一种实现方式，所述方法还包括：

对所述最终文本进行儿化音识别，对识别出的儿化音文本进行儿化音标注；以及，识别所标注的读音中的重读、轻读语音，对重读、轻度的语音进行标注；

根据所标注的重读、轻读或儿化音对文本进行语音输出。

作为一种实现方式，所述针对所述最终词语的语音输出参数的设置，包括：

为所述最终词语设置语音读取速度，每个词语读取次数，每次间隔时长，读取顺序中的至少之一；

按读取速度、读取次数、间隔时长和读取顺序中至少之一对文本进行语音输出。

作为一种实现方式，所述对所述文件中的文本进行识别，并确定文本之间的间距，文本之间的行距，包括：

识别出所述文件中的文字，确定每个文字的坐标信息；

根据文字的坐标信息，确定文本的坐标关系；

基于所述坐标信息、所述坐标关系，确定文本之间的间距，文本之间的行距；

根据所述坐标信息，确定文本中文字之间的最短间隔和最大间隔，将文字之间间隔小于所述最大间隔的两个以上文字识别为词语，并确定所识别的词语中文字之间的间距与所述最短间隔之间的差值，对所述差值超过设定阈值的词语进行标示，以提示为可疑词语。

作为一种实现方式，所述获取设定类型的文件，包括：

调用摄像单元的摄像功能，将采集的图像作为所述设定类型的文件；或

接收文件，识别所述文件的类型为设定类型。

根据本申请的第二方面，提供一种自动分词拼写的文本识别装置，包括：

获取单元，用于获取设定类型的文件；

识别单元，用于对所述文件中的文本进行识别；

第一确定单元，用于确定文本之间的间距，文本之间的行距；

第二确定单元，用于根据文本之间的间距，确定出每行文本中是否存在换行；

提取单元，用于对文本中的词进行识别，并提取所识别的词语；

调整单元，用于输出所述词语，并接收针对所述词语的调整，将调整后的词语作为识别的最终词语；

接收单元，用于接收针对所述最终词语的语音输出参数的设置；

标注单元，用于根据所述语音输出参数对所述最终词语中的文字进行读音标注，并为读音设置声调；

输出单元，用于接收读音及声调标注后的文本，根据文本所标注的读音、声调进行语音输出。

作为一种实现方式，所述标注单元，还用于：

所述输出单元，还用于根据所标注的重读、轻读或儿化音对文本进行语音输出。

作为一种实现方式，所述调整单元，还用于：

为所述最终词语设置语音读取速度，每个词语读取次数，每次间隔时长，读取顺序中的至少之一；

所述输出单元，还用于按读取速度、读取次数、间隔时长和读取顺序中至少之一对文本进行语音输出。

作为一种实现方式，所述第一确定单元，还用于：

识别出所述文件中的文字，确定每个文字的坐标信息；

根据文字的坐标信息，确定文本的坐标关系；

基于所述坐标信息、所述坐标关系，确定文本之间的间距，文本之间的行距；

所述识别单元，还用于根据所述坐标信息，确定文本中文字之间的最短间隔和最大间隔，将文字之间间隔小于所述最大间隔的两个以上文字识别为词语，并确定所识别的词语中文字之间的间距与所述最短间隔之间的差值，对所述差值超过设定阈值的词语进行标示，以提示为可疑词语。

作为一种实现方式，所述获取单元，还用于：

调用摄像单元的摄像功能，将采集的图像作为所述设定类型的文件；或

接收文件，识别所述文件的类型为设定类型。

根据本申请的第三方面，提供一种存储介质，其上存储由可执行程序，所述可执行程序被处理器执行时实现所述的自动分词拼写的文本识别方法的步骤。

本申请实施例提供的自动分词拼写的文本识别及装置、存储介质，通过对相应类型的文件进行文本识别，确定出其中的词语，并接收针对识别词语的相应修正调整，再对调整后的词语进行标注，并基于标注后的词语进行语音输出，向学生提供较清晰且标准的词语朗读，方便进行学生的词语听写考察。本申请实施例可以对照片或图片中的词语进行识别，并可针对词语进行自动标注，并根据词语的朗读规律，准确清晰地向听取对象进行语音朗读，可应用于远程教育中，也可直接由电子设备应用能力较弱的老人或小孩使用，方便便捷，无需特别的电子设备应用能力及经验，提升了其应用广泛性以及用户体验。

附图说明

图1为本申请实施例提供的自动分词拼写的文本识别方法流程示意图；

图2为本申请实施例提供的待处理文件的示意图；

图3为本申请实施例提供的自动分词拼写的文本识别装置的组成结构示意图。

具体实施方式

以下结合示例，详细阐明本申请实施例的技术方案的实质。

图1为本申请实施例提供的自动分词拼写的文本识别方法流程示意图，如图1所示，本申请实施例的自动分词拼写的文本识别方法包括以下处理步骤：

步骤101，获取设定类型的文件，对所述文件中的文本进行识别，并确定文本之间的间距，文本之间的行距。

本申请实施例中，设定类型文件包括拍摄图片、PDF文本、截屏文本、图片等文本。

获取设定类型的文件，包括：调用摄像单元的摄像功能，将采集的图像作为所述设定类型的文件。这里，调用摄像头可以通过本地直接开启扇摄像头对待拍摄对象直接进行拍摄，或通过远程方式调用摄像头，对待拍摄对象进行拍摄，生成所述设定类型的文件。如通过对课本中的相关词语进行拍摄，或直接对书写或打印的词语进行拍摄等。当然，也可以通过截屏或截图方式，生成所述设定类型的文件。

设定类型的文件还可以通过其他电子设备的发送而获取，如接收相应的文件，并对相应的文件进行识别，以确定待接收的文件是否为设定类型的文件，从而获取到设定类型的文件。

本申请实施例中，设定类型文件中主要包含各种词语、文字等内容。

步骤102，根据文本之间的间距，确定出每行文本中是否存在换行。

本申请实施例中，确定文本的间距之前，需要识别出设定类型的文件中的文字，并确定每个文字的坐标信息；根据文字的坐标信息，确定文本的坐标关系；基于所述坐标信息、所述坐标关系，确定文本之间的间距，文本之间的行距。具体地，可以根据文字的大致坐标如纵坐标，确定文字所在的行，并确定文本之间的间距。同时，根据文字的轮廓及其相应坐标信息，还可以确定相邻两个文字之间的间隔信息。

本申请实施例中，确定出文本之间的间距后，可以基于文本间距信息确定每行文本之间的换行信息。当确定出文本的换行信息后，基于每行的词语识别仅限于该行，其他行的文本作新的词语的识别，以此来提升对文本中词语识别的准确性。

步骤103，对文本中的词语进行识别，并提取所识别的词语。

本申请实施例中，根据所述坐标信息，确定文本中文字之间的最短间隔和最大间隔，将文字之间间隔小于所述最大间隔的两个以上文字识别为词语，并确定所识别的词语中文字之间的间距与所述最短间隔之间的差值，对所述差值超过设定阈值的词语进行标示，以提示为可疑词语。

本申请实施例中，基于正常的词语之间的间隔，一般为单个文字的一半，因此，可以基于文字之间的最大间隔，将其中的词语识别出来，也即，单个词语之间的文字间隔距离是比较小的，至少小于词语之间的间隔，通过对相邻文字之间的最大间隔和最小间隔的确定，可以作为词语识别的相应依据。

本申请实施例中，文字之间的最大间隔，以实际识别出的相应结果为准，并验证多个文字之间最大间隔的稳定性，当所确定的相邻文字之间的最大间隔差异小于设定阈值的数量超过预定数量时，将所确定的文字之间的最大间隔作为词语之间的间隔，以此作为词语识别的依据。这里的预定数量根据文本中文字的数量而定，如最大间隔差异小于设定阈值的数量超过文字总数的35％时，将所确定的文字之间的最大间隔作为词语之间的间隔，并以此进行文本中词语的识别依据。

步骤104，输出所述词语，并接收针对所述词语的调整，将调整后的词语作为识别的最终词语。

本申请实施例中，还支持针对识别后的词语的人为调整，即当通过本申请实施例的方法对文本进行词语识别后，将所识别的词语向用户进行输出，并为用户提供针对所输出词语的调整接口，基于调整接口接收用户的调整操作，并将最终的调整后的词语作为最终词语，向学生等特定对象进行语音输出，以实现对最终词语的听写等。

步骤105，接收针对所述最终词语的语音输出参数的设置。

本申请实施例中，所述针对所述最终词语的语音输出参数的设置，包括：

为所述最终词语设置语音读取速度，每个词语读取次数，每次间隔时长，读取顺序中的至少之一；

按读取速度、读取次数、间隔时长和读取顺序中至少之一对文本进行语音输出。这里的读取顺序包括按行进行读取，按列进行读取，随机进行读取等读取顺序。读取次数可以由用户自行设定，如3次、2次或5次等。每次读取的间隔时长也可以根据需要而设置，如设置为2秒、5秒等。

步骤106，根据所述语音输出参数对所述最终词语中的文字进行读音标注，并为读音设置声调。

本申请实施例中，还包括：对所述最终文本进行儿化音识别，对识别出的儿化音文本进行儿化音标注；以及，识别所标注的读音中的重读、轻读语音，对重读、轻度的语音进行标注。

当对文本中的词语识别之后，还需要将所识别的最终词语进行语音输出。为了保证语音输出的效果，可以对最终词语进行相应的标注，以实现语音的准确朗读。这里的标志包括音调、重读、轻读、儿化音等。根据所标注的重读、轻读或儿化音对文本进行语音输出。

步骤107，接收读音及声调标注后的文本，根据文本所标注的读音、声调进行语音输出。

本申请实施例中，当对最终词语进行了相应标注，并设定了读取次数，每次间隔时长，读取顺序后，按读取速度、读取次数、间隔时长和读取顺序中至少之一对文本进行语音输出。

下面结合具体示例，对本申请实施例作进一步详细说明。

图2为本申请实施例提供的待处理文件的示意图，如图2所示，依据本申请实施例的自动分词拼写的文本识别方法对图2所示的设定类型的文件进行识别，具体步骤如下：

识别出上述文字，并确定每个文字的坐标信息。

根据文字的坐标信息，确定每行文本之间的坐标关系，确定最短文字之间的间隔和最大文字之间间隔(默认单字的宽度除2，即正常词语之间的间隔)。将多个文字之间间隔低于此最大文字之间间隔的，识别作为词组。在对词组进行识别时，根据文本之间的换行，对下一行的文本重新进行词组识别。

如图2所示，基于本申请实施例的自动分词拼写的文本识别方法识别后，结果如下：

“一种”“自动分词”“拼写”“文本”“识别”“逻辑计算”“识别模块”“方式”。

识别结束后，向用户输出识别结果。用户可以根据识别结果，对其中识别错误的词语进行修改并存储。

针对用户修改后的识别词语，进行读音、音调、重读、轻读、儿化音等的标注。

标注完成后，提示用户选择语音输出的语速，重复次数，间隔时长等参数。作为一种示例，如可以设置语速正常，重次次数3次，间隔2秒，按顺序朗读等设置。

根据针对词语的标注信息及语音输出的所设置的参数，朗读所识别出来的词语。参考上面的词，进行如下方式朗读：

“一种”等两秒，“一种”等两秒，“一种”等两秒，换下一个词“自动分词”进行朗读，直至所识别的词语朗读完毕。

本申请实施例的自动分词拼写的文本识别方法，可以对照片或图片中的词语进行识别，并可针对词语进行自动标注，并根据词语的朗读规律，准确清晰地向听取对象进行语音朗读，可应用于远程教育中，也可直接由电子设备应用能力较弱的老人或小孩使用，方便便捷，无需特别的电子设备应用能力及经验，提升了其应用广泛性以及用户体验。

图3为本申请实施例提供的自动分词拼写的文本识别装置的组成结构示意图，如图3所示，本申请实施例的自动分词拼写的文本识别装置包括：

获取单元30，用于获取设定类型的文件；

识别单元31，用于对所述文件中的文本进行识别；

第一确定单元32，用于确定文本之间的间距，文本之间的行距；

第二确定单元33，用于根据文本之间的间距，确定出每行文本中是否存在换行；

提取单元34，用于对文本中的词进行识别，并提取所识别的词语；

调整单元35，用于输出所述词语，并接收针对所述词语的调整，将调整后的词语作为识别的最终词语；

接收单元36，用于接收针对所述最终词语的语音输出参数的设置；

标注单元37，用于根据所述语音输出参数对所述最终词语中的文字进行读音标注，并为读音设置声调；

输出单元38，用于接收读音及声调标注后的文本，根据文本所标注的读音、声调进行语音输出。

作为一种实现方式，所述标注单元37，还用于：

所述输出单元28，还用于根据所标注的重读、轻读或儿化音对文本进行语音输出。

作为一种实现方式，所述调整单元35，还用于：

为所述最终词语设置语音读取速度，每个词语读取次数，每次间隔时长，读取顺序中的至少之一；

所述输出单元38，还用于按读取速度、读取次数、间隔时长和读取顺序中至少之一对文本进行语音输出。

作为一种实现方式，所述第一确定单元32，还用于：

识别出所述文件中的文字，确定每个文字的坐标信息；

根据文字的坐标信息，确定文本的坐标关系；

基于所述坐标信息、所述坐标关系，确定文本之间的间距，文本之间的行距；

所述识别单元31，还用于根据所述坐标信息，确定文本中文字之间的最短间隔和最大间隔，将文字之间间隔小于所述最大间隔的两个以上文字识别为词语，并确定所识别的词语中文字之间的间距与所述最短间隔之间的差值，对所述差值超过设定阈值的词语进行标示，以提示为可疑词语。

作为一种实现方式，所述获取单元30，还用于：

调用摄像单元的摄像功能，将采集的图像作为所述设定类型的文件；或

接收文件，识别所述文件的类型为设定类型。

在示例性实施例中，本申请实施例的嵌套表格的提取装置的上述各处理单元可以被一个或多个中央处理器(CPU，Central Processing Unit)、图形处理器(GPU，GraphicsProcessing Unit)、基带处理器(BP，Base Processor)、应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU，Micro Controller Unit)、微处理器(Microprocessor)、或其他电子元件实现。

在本公开实施例中，图3示出的自动分词拼写的文本识别装置中各个处理单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请实施例的自动分词拼写的文本识别装置，可以对照片或图片中的词语进行识别，并可针对词语进行自动标注，并根据词语的朗读规律，准确清晰地向听取对象进行语音朗读，可应用于远程教育中，也可直接由电子设备应用能力较弱的老人或小孩使用，方便便捷，无需特别的电子设备应用能力及经验，提升了其应用广泛性以及用户体验。

本申请实施例还记载了一种存储介质，存储介质上存储由可执行程序，所述可执行程序被处理器执行时实现所述实施例的自动分词拼写的文本识别方法的步骤。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

以上所述，仅为本发明的实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：赵宏福;
专利申请人：赵宏福;

上一篇：自爆式混凝土支撑及其拆除方法
下一篇：一种根据风力大小自动缩回的户外新一代通讯技术杆