基于笔画的文本预处理方法、装置以及存储介质

文献发布时间：2023-06-19 18:35:48

技术领域

本申请涉及文本处理技术领域，特别是涉及一种基于笔画的文本预处理方法、装置以及存储介质。

背景技术

当前，自然语言处理技术发展迅猛，汉语独特性使得中文自然语言处理独有的特质和更大的难度。在处理NLP相关任务的时候(文本分类、聚类，智能客服等)，首要任务是对文本数据进行预处理。英文是以词为最小单位空格隔开，可进行词向量编码，中文具有独特的性质，文本拆分的最小单位可以是字，可以进行字编码处理，同时也可以构建词库对中文文本进行分词后，再进行词向量编码处理。现有的语料文本预处理方法，存在如下缺点：

1)one-hot：在实际情况中，文本中很可能出现成千上万个不同的词，这时候向量就会非常长。其中99％以上都是0。缺点如下：无法表达词语之间的关系；这种过于稀疏的向量，导致计算和存储的效率都不高；无法表达词语之间的关系。

2)整数编码：将句子里的每个词拼起来就是可以表示一句话的向量。无法表达词语之间的关系；对于模型解释而言，整数编码可能具有挑战性。

3)word2vec缺点：由于词和向量是一对一的关系，所以多义词的问题无法解决；Word2vec是一种静态的方式，虽然通用性强，但是无法针对特定任务做动态优化。

针对上述的现有技术中存在的现有的语料文本预处理放大无法表达词语之间的关系的技术问题，目前尚未提出有效的解决方案。

发明内容

本公开的实施例提供了一种基于笔画的文本预处理方法、装置以及存储介质，以至少解决现有技术中存在的现有的语料文本预处理放大无法表达词语之间的关系的技术问题。

根据本公开实施例的一个方面，提供了一种基于笔画的文本预处理方法，包括：获取待处理的语料文本；对语料文本进行特征提取以及文字笔画提取，确定任务特征向量以及笔画特征向量；以及根据任务特征向量以及笔画特征向量，确定语料特征向量。

根据本公开实施例的另一个方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时由处理器执行以上任意一项所述的方法。

根据本公开实施例的另一个方面，还提供了一种基于笔画的文本预处理装置，包括：获取模块，用于获取待处理的语料文本；第一确认模块，用于对语料文本进行特征提取以及文字笔画提取，确定任务特征向量以及笔画特征向量；以及第二确认模块，用于根据任务特征向量以及笔画特征向量，确定语料特征向量。

根据本公开实施例的另一个方面，还提供了一种基于笔画的文本预处理装置，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取待处理的语料文本；对语料文本进行特征提取以及文字笔画提取，确定任务特征向量以及笔画特征向量；以及根据任务特征向量以及笔画特征向量，确定语料特征向量。

从而根据本实施例，基于笔画的文本预处理装置，其中通过将获取待处理语料文本，然后利用预先设置的处理方法，获取语料文本的任务特征向量以及笔画特征向量，从而通过语料文本的任务特征向量以及笔画特征向量，确定语料特征向量。通过语料文本特征向量做进一步自然语言处理。通过笔画的引入，对意思相近词或短语进行了差异化处理，起到了同义词消歧的作用。并且笔画引入了是字切分，如果做分词是是词切分，两者的结合可以对词起到消除一词多义的作用。从而通过上述方式解决了现有技术中存在的现有的语料文本预处理放大无法表达词语之间的关系的技术问题。此外，上述方法还可以将文本通过一个低维向量来表达，不像one-hot那么长；通用性很强，可以用在不同的任务中。

附图说明

此处所说明的附图用来提供对本公开的进一步理解，构成本申请的一部分，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。在附图中：

图1是用于实现根据本公开实施例1所述的方法的计算设备的硬件结构框图；

图2是根据本公开实施例1的第一个方面所述的基于笔画的文本预处理方法的流程示意图；

图3是根据本公开实施例1的第一个方面所述的基于笔画的文本预处理方法的系统框架图；

图4是根据本公开实施例1的第一个方面所述的基于笔画的文本预处理方法的另一个流程示意图；

图5是根据本公开实施例2所述的基于笔画的文本预处理装置的示意图；以及

图6是根据本公开实施例3所述的基于笔画的文本预处理装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本公开的技术方案，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本公开保护的范围。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本实施例，提供了一种基于笔画的文本预处理方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的计算设备中执行。图1示出了一种用于实现基于笔画的文本预处理方法的计算设备的硬件结构框图。如图1所示，计算设备可以包括一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器、以及用于通信功能的传输装置。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算设备还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算设备中的其他元件中的任意一个内。如本公开实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器可用于存储应用软件的软件程序以及模块，如本公开实施例中的基于笔画的文本预处理方法对应的程序指令/数据存储装置，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的基于笔画的文本预处理方法。存储器可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备的通信供应商提供的无线网络。在一个实例中，传输装置包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算设备的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算设备中的部件的类型。

在上述运行环境下，根据本实施例的第一个方面，提供了一种【权项1】方法。图2示出了该方法的流程示意图，参考图2所示，该方法包括：

S202：获取待处理的语料文本；

S204：对语料文本进行特征提取以及文字笔画提取，确定任务特征向量以及笔画特征向量；以及

S206：根据任务特征向量以及笔画特征向量，确定语料特征向量。

正如背景技术中所述的，现有的语料文本预处理方法，存在如下缺点：1)one-hot：在实际情况中，文本中很可能出现成千上万个不同的词，这时候向量就会非常长。其中99％以上都是0。缺点如下：无法表达词语之间的关系；这种过于稀疏的向量，导致计算和存储的效率都不高；无法表达词语之间的关系。2)整数编码：将句子里的每个词拼起来就是可以表示一句话的向量。无法表达词语之间的关系；对于模型解释而言，整数编码可能具有挑战性。3)word2vec缺点：由于词和向量是一对一的关系，所以多义词的问题无法解决；Word2vec是一种静态的方式，虽然通用性强，但是无法针对特定任务做动态优化。

有鉴于此，本申请提供了一种基于笔画的文本预处理方法，其中通过将获取待处理语料文本，然后利用预先设置的处理方法，获取语料文本的任务特征向量以及笔画特征向量，从而通过语料文本的任务特征向量以及笔画特征向量，确定语料特征向量。通过语料文本特征向量做进一步自然语言处理。通过笔画的引入，对意思相近词或短语进行了差异化处理，起到了同义词消歧的作用。并且笔画引入了是字切分，如果做分词是是词切分，两者的结合可以对词起到消除一词多义的作用。从而通过上述方式解决了现有技术中存在的现有的语料文本预处理放大无法表达词语之间的关系的技术问题。此外，上述方法还可以将文本通过一个低维向量来表达，不像one-hot那么长；通用性很强，可以用在不同的任务中。

可选地，该方法还包括通过下述至少一种方式对语料文本进行预处理：对语料文本中的符号进行预处理；对语料文本中的停用词进行预处理；对语料文本中的低频词汇进行预处理；或者对语料文本中的数字进行预处理。

具体地，参考图3所示，获取语料可以是长文本、短文本、多类型复合文本；语料清洗的方法不做具体限定，可以是一个或者多个，

去掉一些无用的符号：文本中可能会出现连续的符号(比如感叹号！！！或一些奇怪的单词等。)我们将文本按照符号进行分割然后再组装。

停用词过滤：网上有很多开源的停用词集合，也可以根据自己业务建立领域停用词表。(或者直接使用NLTK自带的)。

去掉出现频率很低的词：我们去除低频词，可以基于词典设置一个阈值，比如出现次数少于10,20....。

对于数字的处理：分词之后有些单词可能就是数字比如44，415，把所有这些数字都看成是一个单词，这个新的单词我们可以定义为"#number"。

从而通过上述方式对获取的待处理的语料文本进行清洗，达到便于准确提取语料文本的特征的技术效果。

可选地，还包括通过下述至少一种方式对语料文本进行清洗：对语料文本进行去重操作；对语料文本进行规则提取；或者对语料文本正则表达式匹配。

具体地，，参考图4所示，通过对语料文本进行去重、规则提取以及正则表达式匹配等操作，可以达到对语料文本的有效清洗，便于后期对语料文本进行高效特征提取的效果。

可选地，对语料文本进行特征提取以及文字笔画提取，确定任务特征向量以及笔画特征向量的操作，包括：确定语料文本的任务特征单位；以及根据任务特征单位，确定任务特征向量以及笔画特征向量。

具体地，参考图3所示，确定任务特征单位，以词为单位或句子或段落等为单位。然后对选取的特征进行特征提取，确定任务特征向量以及笔画特征向量。例如，参考图3所示，确定语料文本的任务特征单位为词，那么可以确定为词特征任务；如果语料文本的任务特征单位为句，那么可以确定为句特征任务；如果语料文本的任务特征单位为段落，那么可以确定为段特征任务，一次类推。从而通过上述方式确定语料文本的任务特征单位，进而可以达到准确确定该语料文本的任务特征向量以及笔画特征向量的技术效果。

可选地，根据任务特征向量以及笔画特征向量，确定语料特征向量的操作，包括：对任务特征向量进行编码，确定任务特征序列编码；对笔画特征向量按照笔画顺序进行编码，确定笔画特征序列编码；以及根据任务特征序列编码和笔画特征序列编码，确定语料特征向量。

具体地，参考图3所示，通过编码算法对任务特征向量以及笔画特征向量进行编码，例如，对选取的特征进行编码，如以句子为单位进行编码，得到某句话N维向量V1。对特征对应笔画顺序进行相应的编码，对特征编码对应的笔画顺序进行编码操作，得到对应N维向量V2。从而通过上述方法，得到有效编码，便于得到语料特征向量。

可选地，根据任务特征序列编码和笔画特征序列编码，确定语料特征向量的操作，包括：将任务特征序列编码和笔画特征序列编码进行合并，确定语料特征向量。

具体地，参考图3所示，例如，对选取的特征进行编码，如以句子为单位进行编码，得到某句话N维向量V1。对特征对应笔画顺序进行相应的编码，对特征编码对应的笔画顺序进行编码操作，得到对应N维向量V2。然后通过合并方法，将得到的向量V1和V2进行合并，得到向量V，该向量可以作为NLP下游任务的输入。从而通过上述方式得到语料文本的语料特征向量，便于后期自然语言处理等操作的计算。

可选地，通过下述任意一种方式将多数将任务特征序列编码和笔画特征序列编码进行合并：通过拼接的方法，将任务特征序列编码和笔画特征序列编码进行合并；或者通过位运算的方法，将任务特征序列编码和笔画特征序列编码进行合并。

具体地，参考图3所示，合并操作包括拼接、位运算或者其他向量操作等，通过上述方法，完成任务特征序列编码以及笔画特征序列编码的合并，达到确定语料特征向量的技术效果。

此外，以短文本句子任务作为实例。假设语料清洗后有短文本有M个句子作为样本集，一个句子作为编码单位，对每个句子进行嵌入编码，得到M个N维的句子向量V1，将该句子中的字进行笔画库对照，组成一个笔画数的字符串，将该串进行嵌入编码得到M个N维的笔画向量V2，每个句子的V1和V2是一一对应的关系。最后进行编码合并得到最终某个句子的向量V。

此外，参考图1所示，根据本实施例的第二个方面，提供了一种存储介质。所述存储介质包括存储的程序，其中，在所述程序运行时由处理器执行以上任意一项所述的方法。

从而根据本实施例，基于笔画的文本预处理方法，其中通过将获取待处理语料文本，然后利用预先设置的处理方法，获取语料文本的任务特征向量以及笔画特征向量，从而通过语料文本的任务特征向量以及笔画特征向量，确定语料特征向量。通过语料文本特征向量做进一步自然语言处理。通过笔画的引入，对意思相近词或短语进行了差异化处理，起到了同义词消歧的作用。并且笔画引入了是字切分，如果做分词是是词切分，两者的结合可以对词起到消除一词多义的作用。从而通过上述方式解决了现有技术中存在的现有的语料文本预处理放大无法表达词语之间的关系的技术问题。此外，上述方法还可以将文本通过一个低维向量来表达，不像one-hot那么长；通用性很强，可以用在不同的任务中。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

图5示出了根据本实施例所述的基于笔画的文本预处理装置500，该装置500与根据实施例1的第一个方面所述的方法相对应。参考图5所示，该装置500包括：获取模块510，用于获取待处理的语料文本；第一确认模块520，用于对语料文本进行特征提取以及文字笔画提取，确定任务特征向量以及笔画特征向量；以及第二确认模块530，用于根据任务特征向量以及笔画特征向量，确定语料特征向量。

可选地，装置500还包括通过下述至少一种方式对语料文本进行预处理：第一处理模块，用于对语料文本中的符号进行预处理；第二处理模块，用于对语料文本中的停用词进行预处理；对语料文本中的低频词汇进行预处理；或者第三处理模块，用于对语料文本中的数字进行预处理。

可选地，装置500还包括通过下述至少一种方式对语料文本进行清洗：去重模块，用于对语料文本进行去重操作；提取模块，用于对语料文本进行规则提取；或者匹配模块，用于对语料文本正则表达式匹配。

可选地，第一确认模块520，包括：第一确认子模块，用于确定语料文本的任务特征单位；以及第二确认子模块，用于根据任务特征单位，确定任务特征向量以及笔画特征向量。

可选地，第二确认模块530包括：第三确认子模块，用于对任务特征向量进行编码，确定任务特征序列编码；第四确认子模块，用于对笔画特征向量按照笔画顺序进行编码，确定笔画特征序列编码；以及第五确认子模块，用于根据任务特征序列编码和笔画特征序列编码，确定语料特征向量。

可选地，第五确认子模块，包括：确认单元，用于将任务特征序列编码和笔画特征序列编码进行合并，确定语料特征向量。

可选地，确认单元还包括：通过下述任意一种方式将多数将任务特征序列编码和笔画特征序列编码进行合并：拼接子单元，用于通过拼接的方法，将任务特征序列编码和笔画特征序列编码进行合并；或者位运算子单元，用于通过位运算的方法，将任务特征序列编码和笔画特征序列编码进行合并。

实施例3

图6示出了根据本实施例所述的基于笔画的文本预处理装置600，该装置600与根据实施例1的第一个方面所述的方法相对应。参考图6所示，该装置600包括：处理器610；以及存储器620，与处理器610连接，用于为处理器610提供处理以下处理步骤的指令：获取待处理的语料文本；对语料文本进行特征提取以及文字笔画提取，确定任务特征向量以及笔画特征向量；以及根据任务特征向量以及笔画特征向量，确定语料特征向量。

可选地，存储器620还用于为处理器610提供处理以下处理步骤的指令：通过下述至少一种方式对语料文本进行预处理：对语料文本中的符号进行预处理；对语料文本中的停用词进行预处理；对语料文本中的低频词汇进行预处理；或者对语料文本中的数字进行预处理。

可选地，存储器620还用于为处理器610提供处理以下处理步骤的指令：通过下述至少一种方式对语料文本进行清洗：对语料文本进行去重操作；对语料文本进行规则提取；或者对语料文本正则表达式匹配。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：张永兴;周健;
专利申请人：北京有限元科技有限公司;

上一篇：数据处理方法、装置、计算机可读存储介质和计算机设备
下一篇：一类含有氨基苯并咪唑类衍生物及其制备和用途