掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本申请涉及人工智能技术领域,尤其涉及语料中地理位置的识别方法及其相关设备。

背景技术

随着计算机技术的不断革新和发展,计算机技术已经广泛应用于各行各业中,许多企业通过实体抽取模型对口语化语料中的地理位置进行识别。以实现获得语料中的地理位置名称。

但口语语料中常常存在不准确、不完整的地理位置名称,在通过实体抽取模型进行抽取时,模型难以对地理位置名称的进行准确的识别和输出。并且,实体抽取模型在场景应用中有所局限,难以做到“千人千面”。细粒度训练模型成本较高,根据粒度粗细需要不同量级训练语料,且人工标记时间较长。对于目前需要以细粒度识别口语化语料中地理位置的场景来说,存在响应速度慢,且准确率较低的情况。

发明内容

本申请实施例的目的在于提出一种语料中地理位置的识别方法及其相关设备,有效提高计算机对语料中地理位置识别的准确率。

为了解决上述技术问题,本申请实施例提供一种语料中地理位置的识别方法,采用了如下所述的技术方案:

一种语料中地理位置的识别方法,包括下述步骤:

接收待识别语料,基于字段生成策略对所述待识别语料进行拆分处理,获得多个待识别字段;

接收城市三级基表,基于所述城市三级基表的表内容和表结构构建特征概率模型,其中,所述城市三级基表包括三个不同层级的地理位置名称,且所述不同层级的地理位置名称之间具有关联关系;

基于所述特征概率模型对所述待识别字段进行校正操作,获得地理位置特征。

进一步的,所述基于字段生成策略对所述待识别语料进行拆分处理,获得多个待识别字段的步骤包括:

对所述待识别语料进行单个字的拆分操作,获得多个单字;

将所述单字基于所述待识别语料进行延展,获得所述多个待识别字段。

进一步的,所述将所述单字基于所述待识别语料进行延展,获得所述多个待识别字段的步骤包括:

基于预设的多个不同的延展数值,分别将每个所述单字在所述待识别语料中进行延展,获得所述多个待识别字段。

进一步的,所述基于所述特征概率模型对所述待识别字段进行校正操作,获得地理位置特征的步骤包括:

基于所述特征概率模型中的状态转移概率方程,对所述待识别字段进行校正操作,获得所述地理位置特征。

进一步的,所述城市三级基表设定的表结构层级包括省级、市级和县级,所述基于所述特征概率模型中的状态转移概率方程,对所述待识别字段进行校正操作,获得所述地理位置特征的步骤包括:

将所述待识别字段与所述地理位置名称进行匹配,确定是否匹配成功;

当所述待识别字段与所述地理位置名称匹配成功时,将匹配成功的地理位置名称作为目标地理位置名称;

确定所述目标地理位置名称在所述城市三级基表中的层级,作为目标层级,在所述目标层级为县级时,将所述目标地理位置名称作为待拼接县级关键词,并获取所述待拼接县级关键词关联的省级和市级的地理位置名称,分别作为待拼接省级关键词和待拼接市级关键词,依次拼接所述待拼接省级关键词、待拼接级关键词和待拼接县级关键词,获;

当所述待识别字段与所述地理位置名称匹配失败时,计算所述每个待识别字段与所述地理位置名称之间的相似概率,并基于所述相似概率对所述地理位置名称进行筛选,获得所述地理位置特征。

进一步的,所述计算所述每个待识别字段与所述地理位置名称之间的相似概率,并基于所述相似概率对所述地理位置名称进行筛选,获得所述地理位置特征的步骤包括:

获取所述城市三级基表中省级所对应的地理位置名称;

分别计算省级所对应的每个地理位置名称与每个所述待识别字段之间的相似概率,获得第一相似度,并将数值最高的第一相似度,所对应的地理位置名称作为省级关键词;

确定与所述省级关键词关联的市级的地理位置名称,作为待确定市级特征;

分别计算每个待确定市级特征与每个所述待识别字段之间的相似概率,获得第二相似度,并将数值最高的第二相似度,所对应的待确定市级特征作为市级关键词;

确定与所述市级关键词关联的县级的地理位置名称,作为待确定县级特征;

分别计算每个待确定县级特征与每个所述待识别字段之间的相似概率,获得第三相似度,并将数值最高的第三相似度,所对应的待确定县级特征作为县级关键词;

依次拼接所述省级关键词、市级关键词和县级关键词,获得所述地理位置特征。

进一步的,所述基于所述目标层级的级别,执行对应的预设纠正操作,获得所述地理位置特征的步骤包括:

在所述目标层级为省级时,将所述目标地理位置名称作为第一目标省级关键词,并确定与所述目标省级关键词关联的市级的地理位置名称,作为目标待确定市级特征;

计算所述目标待确定市级特征与所述待识别字段之间的相似概率,获得目标相似概率,并基于所述目标相似概率对所述地理位置名称进行筛选,获得第一目标市级关键词;

基于所述第一目标市级关键词和所述待识别字段,获得第一目标县级关键词,并依次拼接所述第一目标省级关键词、第一目标市级关键词和第一目标县级关键词,获得所述地理位置特征;

在所述所述目标层级为市级时,将所述目标地理位置名称作为第二目标市级关键词,并基于所述第二目标市级关键词和所述待识别字段,获得第二目标县级关键词;

获取与所述第二目标市级关键词关联的省级的地理位置名称,作为第二省级关键词,并依次拼接所述第二目标省级关键词、第二目标市级关键词和第二目标县级关键词,获得所述地理位置特征;

在所述目标层级为县级时,将所述目标地理位置名称作为第三目标县级关键词,并获取所述第三目标县级关键词关联的省级和市级的地理位置名称,分别作为第三目标省级关键词和第三目标市级关键词;

依次拼接所述第三目标省级关键词、第三目标市级关键词和第三目标县级关键词,获得所述地理位置特征。

一种语料中地理位置的识别装置,包括:

接收模块,用于接收待识别语料,基于字段生成策略对所述待识别语料进行拆分处理,获得多个待识别字段;

构建模块,用于接收城市三级基表,基于所述城市三级基表的表内容和表结构构建特征概率模型,其中,所述城市三级基表包括三个不同层级的地理位置名称,且所述不同层级的地理位置名称之间具有关联关系;以及

纠正模块,用于基于所述特征概率模型对所述待识别字段进行校正操作,获得地理位置特征。

为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:

一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现上述的语料中地理位置的识别方法的步骤。

为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:

一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现上述的语料中地理位置的识别方法的步骤。

与现有技术相比,本申请实施例主要有以下有益效果:

本申请基于字段生成策略对待识别语料进行拆分处理,便于后续通过特征概率模型对获得的待识别字段进行纠正。基于不同层级的地理位置名称间具有关联关系的城市三级基表,来构建特征概率模型,进而特征概率模型能够基于该关联关系对待识别字段进行校正操作,实现获得地理位置特征。由于城市三级基表具有多个层级的地理位置名称,实现了对待识别字段进行不同层级的细粒度纠正。获得准确率较高的地理位置特征。

附图说明

为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图;

图2是根据本申请的语料中地理位置的识别方法的一个实施例的流程图;

图3是根据本申请的语料中地理位置的识别装置的一个实施例的结构示意图;

图4是根据本申请的计算机设备的一个实施例的结构示意图。

附图标记:200、计算机设备;201、存储器;202、处理器;203、网络接口;300、语料中地理位置的识别装置;301、接收模块;302、构建模块;303、纠正模块。

具体实施方式

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是,本申请实施例所提供的语料中地理位置的识别方法一般由服务器/终端设备执行,相应地,语料中地理位置的识别装置一般设置于服务器/终端设备中。

应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

继续参考图2,示出了根据本申请的语料中地理位置的识别方法的一个实施例的流程图。所述的语料中地理位置的识别方法,包括以下步骤:

S1:接收待识别语料,基于字段生成策略对所述待识别语料进行拆分处理,获得多个待识别字段。

在本实施例中,通过字段生成策略对待识别语料进行拆分,便于后续模型对获得的待识别字段进行纠正操作。本申请的字段生成策略为N-gram(自然语言处理)策略。N-Gram算法具体过程:过滤掉文本数据中的标点符号和其他特殊字符;对所有单词执行小写转换,并删除单词之间的空格、换行符等标志位;使用长度为N的窗口对文本内容执行字符级滑动取词,将结果存入有序列表。

在本实施例中,语料中地理位置的识别方法运行于其上的电子设备(例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方式接收待识别语料。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

具体的,所述基于字段生成策略对所述待识别语料进行拆分处理,获得多个待识别字段的步骤包括:

对所述待识别语料进行单个字的拆分操作,获得多个单字;

将所述单字基于所述待识别语料进行延展,获得所述多个待识别字段。

在本实施例中,字段生成策略即为:先将待识别语料拆分为单个字,再基于待识别语料对单个字进行延展,获得待识别字段。例如:待识别语料为:我家在那个湖那个北武术。则先拆分为单字:我、家、在、那、个、湖、北、武、术。将每个单字都基于待识别语料进行延展,获得的多个待识别字段为:我的,我的家,我的家在,我的家在那,的家,的家在,的家在那,的家在那个,家在,家在那,家在那个,家在那个湖,等等。通过延展保证了语序,避免语序混乱。便于后续的计算机进行纠正操作。

进一步的,所述将所述单字基于所述待识别语料进行延展,获得所述多个待识别字段的步骤包括:

基于预设的多个不同的延展数值,分别将每个所述单字在所述待识别语料中进行延展,获得所述多个待识别字段。

在本实施例中,本申请的延展数值设置为1、2、3、4、5,即分别将每个单字在待识别语料中延展1、2、3、4、5个字,生成字数不同的待识别字段。

S2:接收城市三级基表,基于所述城市三级基表的表内容和表结构构建特征概率模型,其中,所述城市三级基表包括三个不同层级的地理位置名称,且所述不同层级的地理位置名称之间具有关联关系。

在本实施例中,本申请对隐马尔可概率模型进行改进,将城市三级基表加入至隐马尔科夫概率模型中,生成特征概率模型。本申请的特征概率模型为零次学习(zero-shotl earn i ng),不需要训练样本对模型进行训练。隐马尔可夫概率模型是马尔可夫链的一种,其状态不能直接观察到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。所以,隐马尔可夫模型是一个双重随机过程----具有一定状态数的隐马尔可夫链和显示随机函数集。其中,城市三层级基表中的三级指省、市、县(或区),城市三级基表的具体举例如下:

省级的地理位置名称包括:湖北、广东等全国各省,市级的地理位置名称包括:武汉、广州等市,县级的地理位置名称包括青山、白云等区/县。本申请在于三个省,市,县的关联关系,比如,武汉,与上一层级,即省级的地理位置名称(湖北)相关联。

S3:基于所述特征概率模型对所述待识别字段进行校正操作,获得地理位置特征。

在本实施例中,上述步骤构建的特征概率模型能够基于该关联关系对待识别字段进行校正操作,实现获得地理位置特征。由于城市三级基表具有多个层级的地理位置名称,实现了对待识别字段进行不同层级的细粒度纠正。

具体的,所述基于所述特征概率模型对所述待识别字段进行校正操作,获得地理位置特征的步骤包括:

基于所述特征概率模型中的状态转移概率方程,对所述待识别字段进行校正操作,获得所述地理位置特征。

在本实施例中,通过状态转移概率方程和城市三级基表中各层级的地理位置名称之间的关联关系,在纠正的过程中,逐渐缩小地理位置名称的层级,获得细粒度的地理位置特征。

进一步的,所述城市三级基表设定的表结构包括省级、市级和县级,所述基于所述特征概率模型中的状态转移概率方程,对所述待识别字段进行校正操作,获得所述地理位置特征的步骤包括:

将所述待识别字段与所述地理位置名称进行匹配,确定是否匹配成功;

当所述待识别字段与所述地理位置名称匹配成功时,将匹配成功的地理位置名称作为目标地理位置名称;

确定所述目标地理位置名称在所述城市三级基表中的层级,作为目标层级,并基于所述目标层级的级别,执行对应的预设纠正操作,获得所述地理位置特征;

当所述待识别字段与所述地理位置名称匹配失败时,计算所述每个待识别字段与所述地理位置名称之间的相似概率,并基于所述相似概率对所述地理位置名称进行筛选,获得所述地理位置特征。

在本实施例中,先将待识别字段与城市三级基表中的地理位置名称进行匹配,若匹配成功,则根据目标层级的不同,执行不同的预设纠正策略,实现快速获得地理位置特征,提高计算机的处理效率。若匹配失败,则进行后续的相似概率计算。所述相似概率的特征为:

p(x)=∏

其中,p(x)为所述相似概率,Xi为所述待识别字段,x

其中,所述计算所述每个待识别字段与所述地理位置名称之间的相似概率,并基于所述相似概率对所述地理位置名称进行筛选,获得所述地理位置特征的步骤包括:

获取所述城市三级基表中省级所对应的地理位置名称;

分别计算省级所对应的每个地理位置名称与每个所述待识别字段之间的相似概率,获得第一相似度,并将数值最高的第一相似度,所对应的地理位置名称作为省级关键词;

确定与所述省级关键词关联的市级的地理位置名称,作为待确定市级特征;

分别计算每个待确定市级特征与每个所述待识别字段之间的相似概率,获得第二相似度,并将数值最高的第二相似度,所对应的待确定市级特征作为市级关键词;

确定与所述市级关键词关联的县级的地理位置名称,作为待确定县级特征;

分别计算每个待确定县级特征与每个所述待识别字段之间的相似概率,获得第三相似度,并将数值最高的第三相似度,所对应的待确定县级特征作为县级关键词;

依次拼接所述省级关键词、市级关键词和县级关键词,获得所述地理位置特征。

在本实施例中,本申请基于三层逻辑优先级确定最终输出的地理位置特征,三层逻辑优先级为:省级>市级>县级。将待识别字段与城市三级基表中的省级、市级、县级的地理位置名称逐一层级进行概率计算。由于省级的优先级最高,故先计算待识别字段与省级的地理位置名称之间的相似概率。从而确定出省级关键词。例如:计算出湖那个北与湖北的相似概率最高,其中,湖那个北为待识别字段,湖北为省级的地理位置名称。即由于max(P(xpa=“湖那个北”))=“湖北”,将湖北作为省级关键词。在计算当已知省为湖北时候的市级城市概率,即maxP(x|xpa=”湖北”),计算出maxP(x=“武术”|xpa=”湖北”)=“武汉”,所以市级关键词为武汉。

需要说明的是:本申请既可以选择将数值最高的第一相似度,所对应的地理位置名称作为省级关键词,也可以选择对所有的第一相似度进行降序排序,获得省级概率列表,选择所述省级概率列表中的前n个第一相似度所对应的地理位置名称作为初始省级关键词,其中,n为大于1的正整数,本申请中n可以取3。即将第一相似度从高至低排序(ranking),确定出前三个(top3)候选答案。从数据库中获取预先存储的目标查找表,目标查找表中包括目标地理词语。其中,在业务中,目标查找表中的目标地理词语为对应的业务所涉及的地理位置。通过将初始省级关键词与目标查找表中的目标地理词语进行匹配,从而将匹配成功的初始隐马特征作为省级关键词来输出。匹配成功则表示该初始隐马特征为业务范围内的地理位置。对于市级关键词和县级关键词的生成方式,也可以采用上述省级关键词的生成过程来生成。

此外,所述基于所述目标层级的级别,执行对应的预设纠正操作,获得所述地理位置特征的步骤包括:

在所述目标层级为省级时,将所述目标地理位置名称作为第一目标省级关键词,并确定与所述目标省级关键词关联的市级的地理位置名称,作为目标待确定市级特征;

计算所述目标待确定市级特征与所述待识别字段之间的相似概率,获得目标相似概率,并基于所述目标相似概率对所述地理位置名称进行筛选,获得第一目标市级关键词;

基于所述第一目标市级关键词和所述待识别字段,获得第一目标县级关键词,并依次拼接所述第一目标省级关键词、第一目标市级关键词和第一目标县级关键词,获得所述地理位置特征;

在所述所述目标层级为市级时,将所述目标地理位置名称作为第二目标市级关键词,并基于所述第二目标市级关键词和所述待识别字段,获得第二目标县级关键词;

获取与所述第二目标市级关键词关联的省级的地理位置名称,作为第二省级关键词,并依次拼接所述第二目标省级关键词、第二目标市级关键词和第二目标县级关键词,获得所述地理位置特征;

在所述目标层级为县级时,将所述目标地理位置名称作为第三目标县级关键词,并获取所述第三目标县级关键词关联的省级和市级的地理位置名称,分别作为第三目标省级关键词和第三目标市级关键词;

依次拼接所述第三目标省级关键词、第三目标市级关键词和第三目标县级关键词,获得所述地理位置特征。

在本实施例中,通过县级可以倒着推出与县级相关联的,市级和省级的地理位置名称。通过市级也可以倒着推出与市级相关联的省级的地理位置名称,而县级的地理位置名称则需要通过概率计算获得。通过这种方式,能够有效减少计算量,快速获得地理位置特征。

本申请基于字段生成策略对待识别语料进行拆分处理,便于后续通过特征概率模型对获得的待识别字段进行纠正。基于不同层级的地理位置名称间具有关联关系的城市三级基表,来构建特征概率模型,进而特征概率模型能够基于该关联关系对待识别字段进行校正操作,实现获得地理位置特征。由于城市三级基表具有多个层级的地理位置名称,实现了对待识别字段进行不同层级的细粒度纠正。获得准确率较高的地理位置特征。

需要强调的是,为进一步保证上述特征概率模型的私密和安全性,上述特征概率模型还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(B l ockchai n),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本申请可应用于智慧城市管理领域中,用于纠正语料中的地理位置,从而推动智慧城市的建设。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。

应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3,作为对上述图2所示方法的实现,本申请提供了一种语料中地理位置的识别装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。

如图3所示,本实施例所述的语料中地理位置的识别装置300包括:接收模块301、构建模块302以及纠正模块303。其中:接收模块301,用于接收待识别语料,基于字段生成策略对所述待识别语料进行拆分处理,获得多个待识别字段;构建模块302,用于接收城市三级基表,基于所述城市三级基表的表内容和表结构构建特征概率模型,其中,所述城市三级基表包括三个不同层级的地理位置名称,且所述不同层级的地理位置名称之间具有关联关系;以及纠正模块303,用于基于所述特征概率模型对所述待识别字段进行校正操作,获得地理位置特征。

在本实施例中,本申请基于字段生成策略对待识别语料进行拆分处理,便于后续通过特征概率模型对获得的待识别字段进行纠正。基于不同层级的地理位置名称间具有关联关系的城市三级基表,来构建特征概率模型,进而特征概率模型能够基于该关联关系对待识别字段进行校正操作,实现获得地理位置特征。由于城市三级基表具有多个层级的地理位置名称,实现了对待识别字段进行不同层级的细粒度纠正。获得准确率较高的地理位置特征。

接收模块301包括拆分子模块和延展子模块。其中,拆分子模块用于对所述待识别语料进行单个字的拆分操作,获得多个单字;延展子模块用于将所述单字基于所述待识别语料进行延展,获得所述多个待识别字段。

在本实施例的一些可选的实现方式中,上述延展子模块进一步用于:基于预设的多个不同的延展数值,分别将每个所述单字在所述待识别语料中进行延展,获得所述多个待识别字段。

在本实施例的一些可选的实现方式中,上述纠正模块303进一步用于:基于所述特征概率模型中的状态转移概率方程,对所述待识别字段进行校正操作,获得所述地理位置特征。

所述纠正模块303包括匹配子模块、作为子模块、确定子模块和计算子模块。其中,匹配子模块用于将所述待识别字段与所述地理位置名称进行匹配,确定是否匹配成功;作为子模块用于当所述待识别字段与所述地理位置名称匹配成功时,将匹配成功的地理位置名称作为目标地理位置名称;确定子模块用于确定所述目标地理位置名称在所述城市三级基表中的层级,作为目标层级,并基于所述目标层级的级别,执行对应的预设纠正操作,获得所述地理位置特征;计算子模块用于当所述待识别字段与所述地理位置名称匹配失败时,计算所述每个待识别字段与所述地理位置名称之间的相似概率,并基于所述相似概率对所述地理位置名称进行筛选,获得所述地理位置特征。

计算子模块包括获取单元、第一计算单元、第一确定单元、第二计算单元、第二确定单元、第三计算单元和拼接单元。获取单元用于获取所述城市三级基表中省级所对应的地理位置名称;第一计算单元用于分别计算省级所对应的每个地理位置名称与每个所述待识别字段之间的相似概率,获得第一相似度,并将数值最高的第一相似度,所对应的地理位置名称作为省级关键词;第一确定单元用于确定与所述省级关键词关联的市级的地理位置名称,作为待确定市级特征;第二计算单元用于分别计算每个待确定市级特征与每个所述待识别字段之间的相似概率,获得第二相似度,并将数值最高的第二相似度,所对应的待确定市级特征作为市级关键词;第二确定单元用于确定与所述市级关键词关联的县级的地理位置名称,作为待确定县级特征;第三计算单元用于分别计算每个待确定县级特征与每个所述待识别字段之间的相似概率,获得第三相似度,并将数值最高的第三相似度,所对应的待确定县级特征作为县级关键词;拼接单元用于依次拼接所述省级关键词、市级关键词和县级关键词,获得所述地理位置特征。

确定子模块包括第一作为单元、筛选单元、第一获得单元、第二获得单元、第三获得单元、第二作为单元和第四获得单元。其中,第一作为单元用于在所述目标层级为省级时,将所述目标地理位置名称作为第一目标省级关键词,并确定与所述目标省级关键词关联的市级的地理位置名称,作为目标待确定市级特征;筛选单元用于计算所述目标待确定市级特征与所述待识别字段之间的相似概率,获得目标相似概率,并基于所述目标相似概率对所述地理位置名称进行筛选,获得第一目标市级关键词;第一获得单元用于基于所述第一目标市级关键词和所述待识别字段,获得第一目标县级关键词,并依次拼接所述第一目标省级关键词、第一目标市级关键词和第一目标县级关键词,获得所述地理位置特征;第二获得单元用于在所述所述目标层级为市级时,将所述目标地理位置名称作为第二目标市级关键词,并基于所述第二目标市级关键词和所述待识别字段,获得第二目标县级关键词;第三获得单元用于获取与所述第二目标市级关键词关联的省级的地理位置名称,作为第二省级关键词,并依次拼接所述第二目标省级关键词、第二目标市级关键词和第二目标县级关键词,获得所述地理位置特征;第二作为单元用于在所述目标层级为县级时,将所述目标地理位置名称作为第三目标县级关键词,并获取所述第三目标县级关键词关联的省级和市级的地理位置名称,分别作为第三目标省级关键词和第三目标市级关键词;第四获得单元用于依次拼接所述第三目标省级关键词、第三目标市级关键词和第三目标县级关键词,获得所述地理位置特征。

本申请基于字段生成策略对待识别语料进行拆分处理,便于后续通过特征概率模型对获得的待识别字段进行纠正。基于不同层级的地理位置名称间具有关联关系的城市三级基表,来构建特征概率模型,进而特征概率模型能够基于该关联关系对待识别字段进行校正操作,实现获得地理位置特征。由于城市三级基表具有多个层级的地理位置名称,实现了对待识别字段进行不同层级的细粒度纠正。获得准确率较高的地理位置特征。

为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。

所述计算机设备200包括通过系统总线相互通信连接存储器201、处理器202、网络接口203。需要指出的是,图中仅示出了具有组件201-203的计算机设备200,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-ProgrammableGate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器201至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器201可以是所述计算机设备200的内部存储单元,例如该计算机设备200的硬盘或内存。在另一些实施例中,所述存储器201也可以是所述计算机设备200的外部存储设备,例如该计算机设备200上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器201还可以既包括所述计算机设备200的内部存储单元也包括其外部存储设备。本实施例中,所述存储器201通常用于存储安装于所述计算机设备200的操作系统和各类应用软件,例如语料中地理位置的识别方法的计算机可读指令等。此外,所述存储器201还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器202在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器202通常用于控制所述计算机设备200的总体操作。本实施例中,所述处理器202用于运行所述存储器201中存储的计算机可读指令或者处理数据,例如运行所述语料中地理位置的识别方法的计算机可读指令。

所述网络接口203可包括无线网络接口或有线网络接口,该网络接口203通常用于在所述计算机设备200与其他电子设备之间建立通信连接。

在本实施例中,实现了对待识别字段进行不同层级的细粒度纠正。获得准确率较高的地理位置特征。

本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的语料中地理位置的识别方法的步骤。

在本实施例中,实现了对待识别字段进行不同层级的细粒度纠正。获得准确率较高的地理位置特征。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。

显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

相关技术
  • 语料中地理位置的识别方法及其相关设备
  • 一种语句级手语识别方法、系统、设备及终端
技术分类

06120113022644