掌桥专利:专业的专利平台
掌桥专利
首页

英文短语识别方法、装置、介质和电子设备

文献发布时间:2023-06-19 11:35:49


英文短语识别方法、装置、介质和电子设备

技术领域

本公开实施例涉及计算机技术领域,尤其涉及一种英文短语识别方法、英文短语识别装置,以及实现英文短语识别方法的计算机可读存储介质和电子设备。

背景技术

短语作为英语表达和运用的基本单元,在英语学习和应用过程中具有举足轻重的作用。

相关技术中的家教机或学习机等可以自动识别英文短语,极大提升了用户英语学习和运用的便利程度。目前的英文短语识别分析技术通常是构建短语库,然后通过字符串匹配或正则匹配的方法在短语库中进行查询识别分析。

但是,目前的英文短语识别分析技术对于例如不固定形式的英文短语,识别的准确率较低。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题,本公开实施例提供了一种英文短语识别方法、英文短语识别装置,以及实现英文短语识别方法的计算机可读存储介质和电子设备。

第一方面,本公开实施例提供了一种英文短语识别方法,包括:

待识别英文文本进行依存句法分析得到分析结果,所述分析结果至少包括所述英文文本中的指定词和/或指定词块;

基于预设字符替换规则,将所述英文文本中的所述指定词和/或指定词块替换为对应的指定字符,生成候选查询文本;

基于预设的AC自动机,识别所述候选查询文本中是否包含目标短语模板,所述AC自动机是预先基于样本短语模板而构建;

在识别到所述候选查询文本包含目标短语模板时,在所述英文文本中确定所述目标短语模板对应的目标短语。

在本公开的一些实施例中,所述预设字符替换规则包括第一字符替换规则和/或第二字符替换规则;

其中,所述第一字符替换规则指示对以下任意一项或多项指定词和/或指定词块进行字符替换:动词、动名词、动词的过去分词、所有格形式的词、包含指定后缀的词、形容词、副词、名词、名词词块;

所述第二字符替换规则指示对以下任意一项或多项指定词块进行字符替换:依序包含名词词块和动词的词块;依序包含名词词块、介词to和动词的词块;依序包含名词词块、介词for和动词的词块。

在本公开的一些实施例中,所述第一字符替换规则指示对动词、动名词、动词的过去分词、所有格形式的词、包含指定后缀的词分别由对应不同的第一指定字符替换;对形容词和副词由同一第二指定字符替换;对名词和名词词块由同一第三指定字符替换;

所述第二字符替换规则指示对各所述指定词块中的名词词块均由所述第三指定字符替换,动词由对应的所述第一指定字符替换。

在本公开的一些实施例中,所述方法还包括:

识别到所述候选查询文本包含目标短语模板时,记录所述目标短语模板在所述英文文本中的起始字符位置;

所述在所述英文文本中确定所述目标短语模板对应的目标短语,包括:

基于所述起始字符位置,在所述英文文本中确定所述目标短语模板对应的目标短语的字符位置;

基于所述字符位置,确定所述目标短语模板对应的目标短语。

在本公开的一些实施例中,所述方法还包括:

基于所述字符位置确定的目标短语有至少两个时,若各所述目标短语对应的字符位置部分重合,则保留每个所述目标短语;

若一个所述目标短语的字符位置完全包含另一个所述目标短语的字符位置,则仅保留该一个所述目标短语。

在本公开的一些实施例中,所述方法还包括:

对所述英文文本进行词形还原处理;

基于所述AC自动机识别词形还原处理后的英文文本中的目标短语。

在本公开的一些实施例中,所述方法还包括:

基于所述预设字符替换规则,将样本英文短语中的指定词和/或指定词块替换为对应的指定字符,得到样本短语模板。

第二方面,本公开实施例提供一种英文短语识别装置,包括:

英文文本分析模块,用于对待识别的英文文本进行依存句法分析得到分析结果,所述分析结果至少包括所述英文文本中的指定词和/或指定词块;

查询文本构建模块,用于基于预设字符替换规则,将所述英文文本中的所述指定词和/或指定词块替换为对应的指定字符,生成候选查询文本;

短语模板识别模块,用于基于预设的AC自动机,识别所述候选查询文本中是否包含目标短语模板,所述AC自动机是预先基于样本短语模板而构建;

英文短语确定模块,用于在识别到所述候选查询文本包含目标短语模板时,在所述英文文本中确定所述目标短语模板对应的目标短语。

第三方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一实施例所述英文短语识别方法的步骤。

第四方面,本公开实施例提供一种电子设备,包括:

处理器;以及

存储器,用于存储所述处理器的可执行指令;

其中,所述处理器配置为经由执行所述可执行指令来执行上述任一实施例所述英文短语识别方法的步骤。

本公开实施例提供的技术方案与现有技术相比具有如下优点:

本公开实施例提供的技术方案中,对待识别的英文文本进行依存句法分析得到分析结果,所述分析结果至少包括所述英文文本中的指定词和/或指定词块,然后基于预设字符替换规则,将所述英文文本中的所述指定词和/或指定词块替换为对应的指定字符,生成候选查询文本,接着通过预先基于样本短语模板而构建的AC自动机识别所述候选查询文本中是否包含目标短语模板,在识别到所述候选查询文本包含目标短语模板时,在所述英文文本中确定所述目标短语模板对应的目标短语。这样,本实施例的方案将英文文本中的指定词和/或指定词块替换为对应的指定字符形成包含潜在具有固定形式的短语模板的候选查询文本,基于构建的AC自动机识别候选查询文本中的短语模板,然后基于短语模板实现目标短语识别,如此可以实现对例如不固定形式的英文短语的识别,识别的准确率较高,同时识别的效率也较高。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本公开实施例英文短语识别方法流程图;

图2为本公开另一实施例英文短语识别方法流程图;

图3为本公开又一实施例英文短语识别方法流程图;

图4为本公开实施例英文短语识别装置示意图;

图5为本公开实施例实现英文短语识别方法的电子设备示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。

应当理解,在下文中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。

图1为本公开实施例提供的一种英文短语识别方法流程图,该英文短语识别方法可以应用于电子设备如家教机、学习机等终端,也可以是应用于如服务器等电子设备,但不限于此。具体的,该英文短语识别方法可以包括以下步骤:

步骤S101:对待识别的英文文本进行依存句法分析得到分析结果,所述分析结果至少包括所述英文文本中的指定词和/或指定词块。

示例性的,依存句法分析是自然语言处理中的关键技术之一,它是对输入的文本句子进行分析以得到句子的句法结构的处理过程,可以获取每个词的词性、词形变化、词在句子中的成分,以及词与词之间的逻辑和语法关系等。关于依存句法分析技术具体可以参考现有技术理解,此处不再赘述。

由于英文句子中的词形变化、词性变化和主语、宾语、宾补等位置的名词性成分是千变万化的,对英文短语识别来说,可以将其视为噪声。为了从中识别还原出用到的短语,需将这些噪声去除。因此本实施例中采用依存句法分析技术分析待识别的英文文本,得到英文文本中每个词的词性、词形和词与词之间的依存关系,基于此可对其中的指定词和/或指定词块例如动词、名词、形容词和词块等必要元素识别出来。其中词块是综合依存关系和词性分析出的有固定含义的名词性词组。

步骤S102:基于预设字符替换规则,将所述英文文本中的所述指定词和/或指定词块替换为对应的指定字符,生成候选查询文本。

示例性的,指定字符可以自定义设置,本实施例中对此不作具体限制。不同词性的指定词和指定词块例如动词、名词、形容词和词块等对应的指定字符可以不同。

本实施例中通过字符替换可以将英文文本中潜在的不固定形式的英文短语统一处理成标准的短语模板,从而形成候选查询文本,也可以理解为对英文文本进行归一化处理,使得不固定形式的英文短语具有统一固定的形式,以方便后续对不固定形式的英文短语的识别处理。

步骤S103:基于预设的AC自动机,识别所述候选查询文本中是否包含目标短语模板,所述AC自动机是预先基于样本短语模板而构建。

可以理解的是,AC自动机是基于Aho-Corasick算法实现的一种有限状态自动机,可以O(n)的时间复杂度实现字符串查找。关于AC自动机的具体内容均可以参考现有技术理解,此处不再赘述。

本实施例中预先基于样本短语模板而构建AC自动机,具体构建过程在下文描述。基于构建的AC自动机,可以O(n)的时间复杂度识别候选查询文本中是否包含目标短语模板,在一定程度上提高整体的短语识别效率。

步骤S104:在识别到所述候选查询文本包含目标短语模板时,在所述英文文本中确定所述目标短语模板对应的目标短语。

具体的,在构建的AC自动机识别到候选查询文本包含目标短语模板时,即确定候选查询文本实际包含标准的具有固定形式的短语模板,此时可在所述英文文本中确定所述目标短语模板对应的目标短语,也即识别到了不固定形式的短语。候选查询文本不包含目标短语模板时,说明英文文本中无英文短语,可不作任何处理。

本实施例公开的上述技术方案中,将英文文本中的指定词和/或指定词块替换为对应的指定字符形成包含潜在具有固定形式的短语模板的候选查询文本,基于构建的AC自动机识别候选查询文本中的短语模板,然后基于短语模板实现目标短语识别,如此可以实现对例如不固定形式的英文短语的识别,识别的准确率较高,同时基于AC自动机识别且基于短语模板识别而不是原始短语的全部字符进行识别,数据处理量少因此识别的效率较高。

可选的,在本公开的一些实施例中,所述预设字符替换规则可以包括但不限于第一字符替换规则和/或第二字符替换规则。

其中,所述第一字符替换规则可以指示对以下任意一项或多项指定词和/或指定词块进行字符替换:动词、动名词、动词的过去分词、所有格形式的词、包含指定后缀的词、形容词、副词、名词、名词词块,但不限于此。

具体的,第一字符替换规则主要可用于替换只有一处为不固定部分的短语。有一处为不固定部分的短语如help sb. to do中,sb.代表各种指人的词或词块,又例如go tothe expense of doing中doing代表可以是各种动词的现在分词形式。不固定部分指的是此部分内容可能会有无数种可能,其主要可包括但不限于动词、动名词、动词的过去分词、所有格形式的词如one's、名词和名词词块、做修饰作用的形容词和副词、包含指定后缀的词如以-self结尾的词等。在一些实施例中,所述第一字符替换规则可以指示对动词、动名词、动词的过去分词、所有格形式的词、包含指定后缀的词分别由对应不同的第一指定字符替换。例如,字符“”用于代替动名词,字符“”用于代替动词,字符“”用于代替动词的过去分词,字符“”用于代替所有格形式的词,如“do one's best”替换为“do best”。对形容词和副词可以由同一第二指定字符如“”替换。对名词和名词词块如sb.或sth.等名词词组由同一第三指定字符如“”替换。yourself, myself等以self结尾的词都替换转为oneself。

示例性的,例如英文文本是“Broken glass lines the top of most walls to

本实施例中对英文文本进行上述字符替换处理,即归一化操作,可以有效地归纳不固定形式的英文短语的短语模板,最终提高短语识别的泛化性和有效性,使得识别的准确性和效率大为提高。

可选的,在一些实施例中,所述第二字符替换规则指示对以下任意一项或多项指定词块进行字符替换:依序包含名词词块和动词的词块如名词词块+do;依序包含名词词块、介词to和动词的词块如名词词块+to do;依序包含名词词块、介词for和动词的词块如名词词块+for doing。示例性的,所述第二字符替换规则指示对各所述指定词块中的名词词块均由所述第三指定字符替换,动词由对应的所述第一指定字符替换。第二字符替换规则中字符替换的具体实施与上述第一字符替换规则相同,具体可以参考前述实施例中的详细描述,此处不再赘述。

本实施例中,第二字符替换规则主要用于实现替换多处为不固定部分的英文短语,如多处为不固定部分的短语catch in the act of 中,既包含某人、某物,又包含动词的现在分词形式。通过字符替换进行英文文本的归一化操作,如此可以有效地归纳多部分可变类型英文短语的短语模板,最终提高复杂短语识别的泛化性和有效性,进而使得复杂短语识别的准确性和效率大为提高。

在本公开的一些实施例中,如图2中所示,所述方法还可包括以下步骤:

步骤S201:识别到所述候选查询文本包含目标短语模板时,记录所述目标短语模板在所述英文文本中的起始字符位置。

示例性的,英文文本是“Broken glass lines the top of most walls to

AC自动机识别到候选查询文本中包含目标短语模板“keep from ”,此时记录目标短语模板“keep from ”在英文文本“Broken glass lines the topof most walls to

相应的,上述步骤S104中在所述英文文本中确定所述目标短语模板对应的目标短语,具体可以包括以下子步骤:

步骤S202:基于所述起始字符位置,在所述英文文本中确定所述目标短语模板对应的目标短语的字符位置。

示例性的,在确定上述第10个单词的首字母位置是起始字符位置后,基于该起始字符位置,在英文文本“Broken glass lines the top of most walls to keep would-beburglars from climbing over”中确定目标短语模板“keep from ”对应的目标短语“keep would-be burglars from climbingover”的字符位置,即从第10个单词“keep”的首字母位置依次至第15个单词“over”的尾字母的字符位置。

步骤S203:基于所述字符位置,确定所述目标短语模板对应的目标短语。

示例性的,在确定上述字符位置后,即可从英文文本“Broken glass lines thetop of most walls to keep would-be burglars from climbing over”中提取目标短语“keep would-be burglars from climbing over”。

本实施例的上述技术方案可以在识别到例如具有不固定形式的目标英文短语时,较为准确地确定目标短语,提高短语识别的准确性。

在上述实施例的基础上,本公开的一些实施例中,所述方法还可以包括以下步骤:

步骤a):基于所述字符位置确定的目标短语有至少两个时,若各所述目标短语对应的字符位置部分重合,则保留每个所述目标短语。

步骤b):若一个所述目标短语的字符位置完全包含另一个所述目标短语的字符位置,则仅保留该一个所述目标短语。

具体的,作为一个示例,例如识别中可能出现位置重合的短语,如:文本“Themother was afraid of waking up her baby”中可识别到固定短语“be afraid of”和不固定短语“be afraid of doing”,因此需要对识别到的短语进行后处理。本实施例中对字符位置有重合的短语进行去重处理,处理规则为:对部分位置重合的短语,均保留;对位置有包含的短语,仅保留范围更大的短语。示例性的,在本实施例中,由于短语“be afraid ofdoing”完全包括短语“be afraid of”,因此可以仅保留短语“be afraid of doing”。

本实施例的上述技术方案可以在识别到例如具有不固定形式的目标英文短语时,较为准确地确定目标短语,不遗漏短语,提高短语识别的准确性。

在上述各实施例的基础上,本公开的一些实施例中,所述方法还可以包括以下步骤:

步骤i):对所述英文文本进行词形还原处理。

示例性的,可以将英文文本中的例如动词变为原形。如对英文文本“Often theperson who actually calls the shots is an aide or assistant”中的单词“calls”进行词形还原处理,得到词形还原处理后的英文文本“Often the person who actuallycall the shots is an aide or assistant”。

步骤ii):基于所述AC自动机识别词形还原处理后的英文文本中的目标短语。

示例性的,例如识别英文文本“Often the person who actually call theshots is an aide or assistant”得到目标短语“call the shots”。

在一个示例中,如表1所示不同的英文文本与对应识别到的目标短语。

表1

可选的,在本公开的一些实施例中,构建所述AC自动机具体可以包括:基于所述预设字符替换规则,将所述样本英文短语中的指定词和/或指定词块替换为对应的指定字符,得到样本短语模板。基于样本短语模板构建AC自动机。

具体的,可以先构建一个短语库,此库仅包含各种短语的基本框架即可。示例性的,本实施例中构建了包含9000多种样本短语的短语库。样本短语模板通过预设字符替换规则对样本短语进行处理得到。

示例性的,针对只有一处为不固定部分的短语,可以以下方式进行字符替换:可用于代替动名词doing,如be busy doing替换为be busy 可用于代替动词do,如be glad to do替换为be glad to可用于代替过去分词done,如havesomething done替换为have something用于代替所有格形式's,如do one'sbest替换为do best;用于替代各种名词性词或词块,如give dad and mom acall,将名词词块dad and mom用替换,即替换为give a call;用于替代形容词和副词,如as soon as possible替换为as as possible;yourself,myself等以self结尾的词都转为oneself。

另外,针对多处出现不固定部分的短语,可以以下举例的方式进行字符替换:1)let sb. do 替换为let ;2)start sb. doing sth.,替换为start ;3)force sb. to do sth.替换为force to ;4)excuse sb. for doing sth.替换为excuse for ;5)set one's mind to doing sth.替换为set mind to。可以理解的是,以上仅为举例说明,本实施例中并不限于此。

进行上述字符替换的归一化处理后,基于短语库中的样本短语模板训练AC自动机来构建AC自动机。该AC自动机可以O(n)的时间复杂度识别候选查询文本中是否包含短语模板,在一定程度上提高整体的短语识别效率。

在本公开的一个具体示例中,如图3所示英文短语识别方法包括以下步骤:

步骤S301:短语库中样本短语字符替换处理。

具体的,对样本短语模板字符替换处理即归一化处理,具体处理过程可以参考前述实施例中通过预设字符替换规则对样本短语进行处理得到样本短语模板。

如下表2示出单独一处为不固定部分的短语字符替换示例,以及表3示出多处为不固定部分的短语字符替换示例。其中“归一化的短语模版”为字符替换后的样本短语模版。

表2

表3

步骤S302:基于归一化处理得到的短语模板构建AC自动机。

具体的,归一化的短语模版为字符替换后的样本短语模版,基于大量样本短语模版训练构建AC自动机。具体训练过程可以参考现有技术理解,此处不再赘述。

步骤S303:英文文本字符替换即归一化处理,得到候选查询文本。

示例性的,如表2和表3中所示,“英文文本”为要查询的英文句子,“归一化的候选查询文本”为字符替换后的候选查询文本。需要说明的是,表2和表3中仅是举例说明,本实施例中并不限于此。

本实施例中通过对英文文本进行依存句法分析,基于分析结果将其中的指定词和/或指定词块替换为指定字符,即字符替换处理,也可以理解为文本的归一化处理,处理后得到候选查询文本,该候选查询文本中可能包括具有固定形式的短语模板,其对应的是原始的具有不固定形式的短语。字符替换具体处理过程可参考前述实施例中的详细描述,此处不再赘述。可以理解的是,步骤S303与步骤S301或步骤S302可以异步执行,也可以同步执行,对此不作限制。

步骤S304:AC自动机识别短语模板。

具体的,基于步骤S302中构建的AC自动机,识别上述候选查询文本中的短语模板。在识别到候选查询文本中包含短语模板时,可以确定其包括英文短语,记录识别到的短语模板在英文文本中的起始字符位置,基于起始字符位置在英文文本中可以确定该短语模板对应的英文短语。而在识别到候选查询文本中未包含短语模板时,可以确定其不包括英文短语,不做处理。

步骤S305:短语去重处理。

具体的,在确定上述短语模板对应的英文短语由例如2个时,可以去除重复的短语,具体处理过程参考前述实施例中的对应部分的详细描述,此处不再赘述。

步骤S306:目标短语输出。

具体的,在确定上述短语模板对应的英文短语后,将识别出的英文短语输出,例如突出显示该英文短语等。

本公开实施例的上述技术方案,通过归一化的短语模版即字符替换后的样本短语模版构建AC自动机,再对要查询的英文文本进行字符替换得到候选查询文本,使得候选查询文本包含潜在的具有固定形式的短语模板,其对应的是原始的具有不固定形式的短语。然后基于构建的AC自动机识别到候选查询文本中包含短语模板时,确定短语模板对应的目标短语。通过上述技术方案可以较为快速、精准地实现英文短语识别。经试验,在标注的2000条英文句子的测试集上准确率达到99%。

需要说明的是,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。另外,也易于理解的是,这些步骤可以是例如在多个模块/进程/线程中同步或异步执行。

基于同一构思,本公开实施例提供一种英文短语识别装置,如图4所示英文短语识别装置包括英文文本分析模块401、查询文本构建模块402、短语模板识别模块403和英文短语确定模块404;其中:

英文文本分析模块401,用于对待识别的英文文本进行依存句法分析得到分析结果,所述分析结果至少包括所述英文文本中的指定词和/或指定词块。

查询文本构建模块402,用于基于预设字符替换规则,将所述英文文本中的所述指定词和/或指定词块替换为对应的指定字符,生成候选查询文本。

短语模板识别模块403,用于基于预设的AC自动机,识别所述候选查询文本中是否包含目标短语模板,所述AC自动机是预先基于样本短语模板而构建。

英文短语确定模块404,用于在识别到所述候选查询文本包含目标短语模板时,在所述英文文本中确定所述目标短语模板对应的目标短语。

可选的,在本公开的一些实施例中,所述预设字符替换规则可以包括第一字符替换规则和/或第二字符替换规则。其中,所述第一字符替换规则指示对以下任意一项或多项指定词和/或指定词块进行字符替换:动词、动名词、动词的过去分词、所有格形式的词、包含指定后缀的词、形容词、副词、名词、名词词块。所述第二字符替换规则指示对以下任意一项或多项指定词块进行字符替换:依序包含名词词块和动词的词块;依序包含名词词块、介词to和动词的词块;依序包含名词词块、介词for和动词的词块。

可选的,在本公开的一些实施例中,所述第一字符替换规则指示对动词、动名词、动词的过去分词、所有格形式的词、包含指定后缀的词分别由对应不同的第一指定字符替换;对形容词和副词由同一第二指定字符替换;对名词和名词词块由同一第三指定字符替换。所述第二字符替换规则指示对各所述指定词块中的名词词块均由所述第三指定字符替换,动词由对应的所述第一指定字符替换。

可选的,在本公开的一些实施例中,所述装置还包括位置记录模块,用于在识别到所述候选查询文本包含目标短语模板时,记录所述目标短语模板在所述英文文本中的起始字符位置。所述英文短语确定模块404还用于基于所述起始字符位置,在所述英文文本中确定所述目标短语模板对应的目标短语的字符位置;基于所述字符位置,确定所述目标短语模板对应的目标短语。

可选的,在本公开的一些实施例中,所述装置还可包括短语去重模块,用于:基于所述字符位置确定的目标短语有至少两个时,若各所述目标短语对应的字符位置部分重合,则保留每个所述目标短语;若一个所述目标短语的字符位置完全包含另一个所述目标短语的字符位置,则仅保留该一个所述目标短语。

可选的,在本公开的一些实施例中,所述装置还可包括词形还原模块和短语识别模块,其中,词形还原模块用于对所述英文文本进行词形还原处理。短语识别模块用于基于所述AC自动机识别词形还原处理后的英文文本中的目标短语。

可选的,在本公开的一些实施例中,所述装置还可包括短语模板处理模块,用于基于所述预设字符替换规则,将所述样本英文短语中的指定词和/或指定词块替换为对应的指定字符,得到样本短语模板。

关于上述实施例中的装置,其中各个模块执行操作的具体方式以及带来的相应技术效果已经在有关该方法的实施例中进行了对应的详细描述,此处将不做详细阐述说明。

应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。作为模块或单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现木公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

本公开实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项实施例所述英文短语识别方法的步骤。

示例性的,该可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。

本公开实施例还提供一种电子设备,包括处理器以及存储器,存储器用于存储所述处理器的可执行指令。其中,所述处理器配置为经由执行所述可执行指令来执行上述任一项实施例中所述英文短语识别方法的步骤。

下面参照图5来描述根据本发明的这种实施方式的电子设备600。图5显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单元640等。

其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述英文短语识别方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元610可以执行如图1中所示英文短语识别方法的步骤。

所述存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。

所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述英文短语识别方法。

需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

相关技术
  • 英文短语识别方法、装置、介质和电子设备
  • 风险短语识别方法、装置、电子设备及存储介质
技术分类

06120112986200