掌桥专利:专业的专利平台
掌桥专利
首页

随机文本生成方法、装置、设备及存储介质

文献发布时间:2023-06-19 16:09:34



技术领域

本申请涉及人工智能技术领域,尤其涉及一种随机文本生成方法、装置、设备及存储介质。

背景技术

目前,在应用程序研发过程中,随机数据可以作为功能验证提供给应用程序测试用于自动化测试操作。在现有技术中,常通过Math.random接口进行随机数字的生成,而对于随机文本的生成,一般通过同义词替换来进行处理,仅通过同义词替换,得到的数据较为单一,且与基准文本具有较强的相关性,因此,如何解决生成文本数据时得到的数据较为单一的问题成为了亟待解决的问题。

发明内容

本申请提供了一种随机文本生成方法、装置、设备及存储介质,以解决现有技术中随机生成文本数据时得到的数据较为单一的问题。

为解决上述问题,本申请提供了一种随机文本生成方法,包括:

获取基准数据;

通过词性分析模型对所述基准数据进行处理,得到各词语的词性;

根据所述基准数据中各词语的词性,随机调取预设词库中的备选词语进行组装,得到备选数据;

通过判断模型对所述备选数据进行通顺判断,得到判断结果;

输出所述判断结果为通顺的备选数据。

进一步的,所述通过词性分析模型对所述基准数据进行处理包括:

通过词性分析模型对所述基准数据进行分词以及词性标注处理,所述词性分析模型基于结巴分词训练得到。

进一步的,在所述根据所述基准数据中各词语的词性,随机调取预设词库中的备选词语进行组装之前,还包括:

获取文本数据;

通过利用所述词性分析模型对所述文本数据进行处理,得到文本数据中各字词对应的词性;

收集各所述字词以及所述字词对应的词性,构建所述词库。

进一步的,所述根据所述基准数据中各词语的词性,随机调取预设词库中的备选词语进行组装,得到备选数据包括:

根据所述基准数据中各词语的排序,对所述词语对应的词性进行排序,得到待填充数据;

从所述预设词库中调取对应词性的所述备选词语填入所述待填充数据的对应位置,得到备选数据。

进一步的,所述得到备选数据之前,还包括:

通过利用预设的判断条件,对所述备选词语填入所述待填充数据的对应位置后得到的数据进行预判断;

若判断出有异常,则再随机抽取所述预设词库中对应词性的备选词语替换异常部分,得到所述备选数据;

若没有判断出异常,则直接得到所述备选数据。

进一步的,所述通过判断模型对所述备选数据进行通顺判断包括:

通过语言模型计算所述备选数据的困惑度,所述语言模型基于n-gram模型训练得到;

将所述困惑度与预设数值进行大小判断,以确定所述备选数据是否通顺。

进一步的,在所述通过词性分析模型对所述基准数据进行处理之前,还包括:

通过分类模型对所述基准数据进行分类,得到所述基准数据的所属类别;

在所述通过判断模型对所述备选数据进行通顺判断之后,还包括:

将判断结果为通顺的备选数据输入所述分类模型进行处理,筛选与所述基准数据所属类别相同且判断结果为通顺的备选数据,所述分类模型基于TextRNN模型训练得到。

为了解决上述问题,本申请还提供一种随机文本生成装置,所述装置包括:

获取模块,用于获取基准数据;

词性分析模块,用于通过词性分析模型对所述基准数据进行处理,得到各词语的词性;

组装模块,用于根据所述基准数据中各词语的词性,随机调取预设词库中的备选词语进行组装,得到备选数据;

判断模块,用于通过判断模型对所述备选数据进行通顺判断,得到判断结果;

输出模块,用于输出所述判断结果为通顺的备选数据。

为了解决上述问题,本申请还提供一种计算机设备,包括:

至少一个处理器;以及,

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的随机文本生成方法。

为了解决上述问题,本申请还提供一种非易失性的计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的随机文本生成方法。

根据本申请实施例提供的一种随机文本生成方法、装置、设备及存储介质,与现有技术相比至少具有以下有益效果:

通过获取基准数据,通过词性分析模型对所述基准数据进行处理,得到各词语的词性,以便于后续利用各词语的词性进行数据获取以及填充,根据所述基准数据中各词语的词性,随机调取预设词库中的备选词语进行组装,得到备选数据;根据词性还获取备选词语进行组装,提高了备选数据的丰富性;通过判断模型对备选数据进行通顺判断,得到判断结果;通过进行通顺判断,以使得到的备选数据通顺可用,提高了数据的可用性;最后输出判断结果为通顺的备选数据,实现提高了生成随机文本数据的丰富性以及可用性。

附图说明

为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图做一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的随机文本生成方法的整体流程图;

图2为图1中步骤S3的一种具体实施方式的流程示意图;

图3为图1中步骤S4的一种具体实施方式的流程示意图;

图4为本申请一实施例提供的随机文本生成装置的模块示意图;

图5为本申请一实施例的计算机设备的结构示意图。

具体实施方式

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”“第二”等是用于区别不同对象,而不是用于描述特定顺序。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是是相同的实施例,也不是与其它实施例相互排斥的独立的或备选的实施例。本领域技术人员显式地或隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

本申请提供一种随机文本生成方法。主要用于随机文本生成,可用于程序测试或者为机器学习模型生成大量的训练数据。参照图1所示,图1为本申请一实施例提供的随机文本生成方法的流程示意图。

在本实施例中,随机文本生成方法包括:

S1、获取基准数据;

具体的,获取用户输入的基准数据,所述基准数据可为用户输入的一段话,例如“中国经济发展很快”等句子。

S2、通过词性分析模型对所述基准数据进行处理,得到各词语的词性;

具体的,通过词性分析模型对所述基准数据进行分词以及词性标注处理,从而得到各词语的词性。

进一步的,所述通过词性分析模型对所述基准数据进行处理包括:

通过词性分析模型对所述基准数据进行分词以及词性标注处理,所述词性分析模型基于结巴分词训练得到。

具体的,在本申请中,结巴分词采用的是精确模式(Default Mode),需用到jieba.cut,进行精确的分词,并对分词后的词语进行词性标注,需要用到jieba.posseg,所述分词和词性标注处理可同时执行,可通过pseg.cut()来实现,例如将“中国经济发展很快”进行分词以及词性标注得到中国ns/经济n/发展vn/很快d,得到各词语以及对应的词性。

所述结巴分词支持三种分词模式:

精确模式,试图将句子最精确地切开,适合文本分析;

全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;

搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

通过对基准数据进行分词以及词性标注处理,以得到各词语的词性,便于后续利用各词语的词性,作为模板进行数据填充,能提高后续数据填充时的处理效率。

S3、根据所述基准数据中各词语的词性,随机调取预设词库中的备选词语进行组装,得到备选数据;

具体的,将所述基准数据中各词语的词性,作为模板,模板中各词性的顺序根据对应词语的顺序进行排列,根据模板中的词性,从预设词库中级抽取对应词性的备选词语进行组装,从而得到备选数据。

进一步的,在所述根据所述基准数据中各词语的词性,随机调取预设词库中的备选词语进行组装之前,还包括:

获取文本数据;

通过利用所述词性分析模型对所述文本数据进行处理,得到文本数据中各字词对应的词性;

收集各所述字词以及所述字词对应的词性,构建所述词库。

具体的,从数据库获取或者由用户输入文本数据,所述文本数据包含有大量的语句,通过利用所述词性分析模型对所述文本数据进行分词和词性标注处理,得到大量的字词及其对应的词性,将所述字词以及字词对应的词性,来构建所述词库;

进一步的,根据所述词性来将字词进行对应分类,得到备选词语,在预设词库中,根据词性的类别将来将字词进行对应存储的。

通过获取大量的文本数据,并通过词性分析模型对所述文本数据进行处理,以得到大量的字词及其对应的词性,从而得到大量的备选词语,丰富了备选词语,从而便于后续得到丰富的备选数据。

进一步的,如图2所示,所述根据所述基准数据中各词语的词性,随机调取预设词库中的备选词语进行组装,得到备选数据包括:

S31、根据所述基准数据中各词语的排序,对所述词语对应的词性进行排序,得到待填充数据;

S32、从所述预设词库中调取对应词性的所述备选词语填入所述待填充数据的对应位置,得到备选数据。

具体的,根据所述基准数据中各词语的排序,该排序为语句的正常读法方向,即从左至右的顺序,如中国/经济/发展/很快,根据词语的顺序将词语对应的词性进行排序,即ns/n/vn/d,从而得到待填充数据ns/n/vn/d;

从预设词库中调取对应词性的所述备选词语来填入所述待填充数据的对应位置,例如在上述待填充数据ns/n/vn/d中,第一位置的词性为ns,所以从预设词库中随机抽取词性为ns类型的字词,来填入第一位置,如深圳;第二位置的词性为n,从预设词库中随机抽取词性为n的字词,来填入第二位置,如美食;第三位置的词性为vn,从预设词库中随机抽取词性为vn的字词,来填入第三位置,如减少;第三位置的词性为d,从预设词库中随机抽取词性为d的字词,来填入第四位置,如很多;上述各位置的备选词语可并行获取,从而得到备选数据,“深圳美食减少很多”。

通过根据词语的顺序,来将对应词性构建得到待填充数据,再根据待填充数据中的词性来从预设词库中随机抽取对应词性的备选词语,得到备选数据,提高了随机文本数据的丰富性。

进一步的,所述得到备选数据之前,还包括:

通过利用预设的判断条件,对所述备选词语填入所述待填充数据的对应位置后得到的数据进行预判断;

若判断出有异常,则再随机抽取所述预设词库中对应词性的备选词语替换异常部分,得到所述备选数据;

若没有判断出异常,则直接得到所述备选数据。

具体的,在得到备选数据之前,还将所述备选数据通过预设的判断条件进行处理,以减少备选数据的形式问题等。通过利用预设的判断条件,来对所述备选词语填入所述待填充数据的对应位置后得到的数据进行预判断,所述判断条件例如,相邻的两个备选词语不能相同,在待填充数据为NR(地名)/NN(其他名词)/NN(其他名词)/AD(副词)/VA(表语形容词)时,因为有两个其他名词相邻,所以在随机抽取备选词语时,可能会出现两个相同的备选词语相邻,当在这种情况下时,所述判断即异常,相同且相邻的两个备选词语部分即为异常部分,通过随机替换上述两个备选词语中的任意一个,来解决这一问题,从而得到更新后的备选数据。若没有异常,则直接输出所述备选数据。

通过利用判断条件,对所述备选词语填入所述待填充数据的对应位置后得到的数据进行预判断,以减少所述备选数据中可能出现的形式错误,提高数据的可用性。

进一步的,可通过Drools规则引擎来对所述备选词语填入所述待填充数据的对应位置后得到的数据进行预判断,所述Drools规则引擎中设有所述预设的判断条件。

Drools是一个基于java的规则引擎,使用Rete算法对所编写的规则求值,可以将复杂多变的规则从硬编码中解放出来,以规则脚本的形式存放在文件中,使得规则的变更不需要修正代码重启机器就可以立即在线上环境生效。

S4、通过判断模型对所述备选数据进行通顺判断,得到判断结果;

具体的,通过判断模型对所述备选数据计算其困惑度,来进行通顺判断,从而得到判断结果。

进一步的,如图3所示,所述通过判断模型对所述备选数据进行通顺判断包括:

S41、通过语言模型计算所述备选数据的困惑度,所述语言模型基于n-gram模型训练得到;

S42、将所述困惑度与预设数值进行大小判断,以确定所述备选数据是否通顺。

具体的,通过语言模型来计算所述备选数据的困惑度,来判断所述备选数据是否通顺,所述模型对句子困惑度的计算,本质上为计算句子的概率,对于一个句子S,S=W

对于句子概率通过P(S)=P(W

在得到句子对应的困惑度后,将所述困惑度与预设数值进行大小判断,所述困惑度越大,证明模型对所述备选数据越不困惑,即越通顺。当所述困惑度小于等于所述预设数值时,则所述备选数据通顺,反之困惑度大于所述预设数值时,所述备选数据则不通顺。

所述n-gram模型是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间,列表中的每一种gram就是一个特征向量维度。可用来根据前(n-1)个item来预测第n个item。

通过利用语言模型对所述备选数据进行通顺判断,仅将通顺的备选数据输出,以提高数据的可用性。

进一步的,在所述通过词性分析模型对所述基准数据进行处理之前,还包括:

通过分类模型对所述基准数据进行分类,得到所述基准数据的所属类别;

在所述通过判断模型对所述备选数据进行通顺判断之后,还包括:

将判断结果为通顺的备选数据输入所述分类模型进行处理,筛选与所述基准数据所属类别相同且判断结果为通顺的备选数据,所述分类模型基于TextRNN模型训练得到。

具体的,通过对基准数据利用分类模型进行分类,得到所述基准数据的所属类别,主要通过基准数据的特征对其进行分类处理,例如一基准数据为“基于NLP技术对大量的文本数据训练”,通过对其进行分类,得到其属于“自然语言处理”的类别;再将判断结果为通顺的备选数据输入所述分类模型进行处理,获取其中属于“自然语言处理”类别的数据,从而获取到具有相同类别且相同词性构成的随机文本数据。

TextRNN擅长捕获更长的序列信息。具体到文本分类任务中,从某种意义上可以理解为可以捕获变长、单向的N-Gram信息(Bi-LSTM可以是双向),其结构主要为首先通过embeddding layer,再取前向/反向LSTM在每一个时间步长上的隐藏状态,对每一个时间步长上的两个隐藏状态进行拼接,然后对所有时间步长上拼接后的隐藏状态取均值,再经过一个softmax层(输出层使用softmax激活函数)进行一个多分类。

通过获取与基准数据同类别的备选数据,实现了得到相同类别且相同词性构成的随机文本数据,提高了获取数据的准确性。

S5、输出所述判断结果为通顺的备选数据。

具体的,输出所述判断结果为通顺的备选数据至数据库中进行存储,以待有关人员进行利用,可用于机器学习模型训练等方面;或者直接调用提前配置好的接口进行测试或者使用。

在本申请的其他实施例中,还可集成其他随机数据的接口,例如随机邮箱地址、随机数等。在配置时提供接口的地址以及相关参数,说明返回值的数据类型及结构。在生产随机数据时去调用该接口,根据配置好的返回值的类型解析结果。从中随机取得某一条数据来使用。

需要强调的是,为了进一步保证数据的私密性和安全性,所述判断结果为通顺的备选数据的所有数据还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

通过获取基准数据,通过词性分析模型对所述基准数据进行处理,得到各词语的词性,以便于后续利用各词语的词性进行数据获取以及填充,根据所述基准数据中各词语的词性,随机调取预设词库中的备选词语进行组装,得到备选数据;根据词性还获取备选词语进行组装,提高了备选数据的丰富性;通过判断模型对备选数据进行通顺判断,得到判断结果;通过进行通顺判断,以使得到的备选数据通顺可用,提高了数据的可用性;最后输出判断结果为通顺的备选数据,实现提高了生成随机文本数据的丰富性以及可用性。

本实施例还提供一种随机文本生成装置,如图4所示,是本申请随机文本生成装置的功能模块图。

本申请所述随机文本生成装置100可以安装于电子设备中。根据实现的功能,所述随机文本生成装置100可以包括获取模块101、词性分析模块102、组装模块103、判断模块104和输出模块105。本申请所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。

在本实施例中,关于各模块/单元的功能如下:

获取模块101,用于获取基准数据;

词性分析模块102,用于通过词性分析模型对所述基准数据进行处理,得到各词语的词性;

进一步的,所述词性分析模块102包括模型处理子模块;

所述模型处理子模块,用于通过词性分析模型对所述基准数据进行分词以及词性标注处理,所述词性分析模型基于结巴分词训练得到。

通过模型处理子模块,对基准数据进行分词以及词性标注处理,以得到各词语的词性,便于后续利用各词语的词性,作为模板进行数据填充,能提高后续数据填充时的处理效率。

组装模块103,用于根据所述基准数据中各词语的词性,随机调取预设词库中的备选词语进行组装,得到备选数据;

进一步的,随机文本生成装置100还包括文本获取模块、分析模块和构建模块;

所述文本获取模块,用于获取文本数据;

所述分析模块,用于通过利用所述词性分析模型对所述文本数据进行处理,得到文本数据中各字词对应的词性;

所述构建模块,用于收集各所述字词以及所述字词对应的词性,构建所述词库。

通过文本获取模块、分析模块和构建模块的配合,获取大量的文本数据,并通过词性分析模型对所述文本数据进行处理,以得到大量的字词及其对应的词性,从而得到大量的备选词语,丰富了备选词语,从而便于后续得到丰富的备选数据。

进一步的,组装模块103包括排序子模块和填充子模块;

所述排序子模块,用于根据所述基准数据中各词语的排序,对所述词语对应的词性进行排序,得到待填充数据;

所述填充子模块,用于从所述预设词库中调取对应词性的所述备选词语填入所述待填充数据的对应位置,得到备选数据。

通过排序子模块和填充子模块的配合,根据词语的顺序,来将对应词性构建得到待填充数据,再根据待填充数据中的词性来从预设词库中随机抽取对应词性的备选词语,得到备选数据,提高了随机文本数据的丰富性。

进一步的,随机文本生成装置100还包括条件判断模块和对应处理模块;

所述条件判断模块,用于通过利用预设的判断条件,对所述备选词语填入所述待填充数据的对应位置后得到的数据进行预判断;

所述对应处理模块,用于若判断出有异常,则再随机抽取所述预设词库中对应词性的备选词语替换异常部分,得到所述备选数据;若没有判断出异常,则直接得到所述备选数据。

通过条件判断模块和对应处理模块的配合,利用判断条件,对所述备选词语填入所述待填充数据的对应位置后得到的数据进行预判断,以减少所述备选数据中可能出现的形式错误,提高数据的可用性。

判断模块104,用于通过判断模型对所述备选数据进行通顺判断,得到判断结果;

进一步的,所述判断模块104包括困惑度计算子模块和数值判断子模块;

所述困惑度计算子模块,用于通过语言模型计算所述备选数据的困惑度,所述语言模型基于n-gram模型训练得到;

所述数值判断子模块,用于将所述困惑度与预设数值进行大小判断,以确定所述备选数据是否通顺。

通过困惑度计算子模块和数值判断子模块的配合,利用语言模型对所述备选数据进行通顺判断,仅将通顺的备选数据输出,以提高数据的可用性。

进一步的,随机文本生成装置100还包括分类模块和筛选模块;

所述分类模块,用于通过分类模型对所述基准数据进行分类,得到所述基准数据的所属类别;

所述筛选模块,用于将判断结果为通顺的备选数据输入所述分类模型进行处理,筛选与所述基准数据所属类别相同且判断结果为通顺的备选数据,所述分类模型基于TextRNN模型训练得到。

通过分类模块和筛选模块的配合,获取与基准数据同类别的备选数据,实现了得到相同类别且相同词性构成的随机文本数据,提高了获取数据的准确性。

输出模块105,用于输出所述判断结果为通顺的备选数据。

通过采用上述装置,所述随机文本生成装置100通过获取模块101、词性分析模块102、组装模块103、判断模块104和输出模块105的配合使用,通过获取基准数据,通过词性分析模型对所述基准数据进行处理,得到各词语的词性,以便于后续利用各词语的词性进行数据获取以及填充,根据所述基准数据中各词语的词性,随机调取预设词库中的备选词语进行组装,得到备选数据;根据词性还获取备选词语进行组装,提高了备选数据的丰富性;通过判断模型对备选数据进行通顺判断,得到判断结果;通过进行通顺判断,以使得到的备选数据通顺可用,提高了数据的可用性;最后输出判断结果为通顺的备选数据,实现提高了生成随机文本数据的丰富性以及可用性。

本申请实施例还提供一种计算机设备。具体请参阅图5,图5为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件41-43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如随机文本生成方法的计算机可读指令等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据,例如运行所述随机文本生成方法的计算机可读指令。

所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本实施例通过处理器执行存储在存储器的计算机可读指令时实现如上述实施例随机文本生成方法的步骤,通过获取基准数据,通过词性分析模型对所述基准数据进行处理,得到各词语的词性,以便于后续利用各词语的词性进行数据获取以及填充,根据所述基准数据中各词语的词性,随机调取预设词库中的备选词语进行组装,得到备选数据;根据词性还获取备选词语进行组装,提高了备选数据的丰富性;通过判断模型对备选数据进行通顺判断,得到判断结果;通过进行通顺判断,以使得到的备选数据通顺可用,提高了数据的可用性;最后输出判断结果为通顺的备选数据,实现提高了生成随机文本数据的丰富性以及可用性。

本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的随机文本生成方法的步骤,通过获取基准数据,通过词性分析模型对所述基准数据进行处理,得到各词语的词性,以便于后续利用各词语的词性进行数据获取以及填充,根据所述基准数据中各词语的词性,随机调取预设词库中的备选词语进行组装,得到备选数据;根据词性还获取备选词语进行组装,提高了备选数据的丰富性;通过判断模型对备选数据进行通顺判断,得到判断结果;通过进行通顺判断,以使得到的备选数据通顺可用,提高了数据的可用性;最后输出判断结果为通顺的备选数据,实现提高了生成随机文本数据的丰富性以及可用性。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。

本申请上述实施例的随机文本生成装置、计算机设备、计算机可读存储介质具有与上述实施例的随机文本生成方法相同的技术效果,在此不作展开。

显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

相关技术
  • 随机文本生成方法、装置、设备及存储介质
  • 文本生成方法、文本生成模型、文本生成设备及存储介质
技术分类

06120114724589