掌桥专利:专业的专利平台
掌桥专利
首页

一种数据处理方法、装置和用于数据处理的装置

文献发布时间:2023-06-19 09:44:49


一种数据处理方法、装置和用于数据处理的装置

技术领域

本发明涉及输入技术领域,尤其涉及一种数据处理方法、装置和用于数据处理的装置。

背景技术

设备作为计算机系统与用户或其他设备通信的桥梁,是用户和计算机系统之间进行信息交互的主要装置之一,其可以方便用户在多种场景中输入信息。例如,用户可以在搜索引擎中输入关键词以搜索网页,也可以在即时通讯APP(应用程序,Application)中输入文字以与其他用户进行交流,还可以在文档APP中输入文字以编辑文档等等。

输入法联想功能是输入法程序的一种扩展功能,它的出现减少了用户主动输入的次数、按键的次数,并增加了输入法的智能性。该输入法的实现过程是首先获取用户输入的上文,并根据该上文查询系统二元词库等预设词库来获取联想候选。例如,若上文为“信春哥”,则联想候选可以为“得永生”。例如,若上文为“非洲人来北京避暑”,则联想候选可以为“结果中暑了”。

二元库可用于记录两个元素之间的二元关系,元素可以包括:词汇或者词组或者短句等。目前的二元库可以依据语料训练得到,在实际应用中,语料分布不均等因素、容易导致二元库的覆盖率和命中率较低,进而使得联想候选的命中率较低。例如,若二元库中记录有“信春哥”与“得永生”之间的二元关系1,则在上文1为“信赫哥”的情况下,该上文1将无法命中二元关系1,进而无法得到对应的联想候选。又如,若二元库中记录有“非洲人来北京避暑”与“结果中暑了”之间的二元关系2,则在上文2为“非洲人来西安避暑”的情况下,该上文2将无法命中二元关系2,进而无法得到对应的联想候选。

发明内容

本发明实施例提供一种数据处理方法、装置和用于数据处理的装置,可以提高第一联想候选的命中率。

为了解决上述问题,本发明实施例公开了一种数据处理方法,包括:

确定上文对应的泛化处理结果;

依据所述泛化处理结果、以及多元关系数据,确定所述上文对应的第一联想候选;其中,所述多元关系数据包括:至少两个元素之间的关系,所述至少两个元素中的至少一者经过泛化处理;

输出所述第一联想候选。

另一方面,本发明实施例公开了一种数据处理装置,包括:

泛化处理结果确定模块,用于确定上文对应的泛化处理结果;

第一联想候选确定模块,用于依据所述泛化处理结果、以及多元关系数据,确定所述上文对应的第一联想候选;其中,所述多元关系数据包括:至少两个元素之间的关系,所述至少两个元素中的至少一者经过泛化处理;以及

第一联想候选输出模块,用于输出所述第一联想候选。

再一方面,本发明实施例公开了一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:

确定上文对应的泛化处理结果;

依据所述泛化处理结果、以及多元关系数据,确定所述上文对应的第一联想候选;其中,所述多元关系数据包括:至少两个元素之间的关系,所述至少两个元素中的至少一者经过泛化处理;

输出所述第一联想候选。

又一方面,本发明实施例公开了一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如前述一个或多个所述的数据处理方法。

本发明实施例包括以下优点:

本发明实施例依据上文对应的泛化处理结果、以及多元关系数据,确定所述上文对应的第一联想候选;由于上文对应的泛化处理结果为对上文进行泛化处理后得到,故其可以包括较高层的概念;而多元关系数据中的至少一个元素也经过了泛化处理,故其可以包括较高层的概念;因此本发明实施例可以提高泛化处理结果与多元关系数据之间的匹配率和命中率,进而可以提高第一联想候选的命中率。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种数据处理方法的应用环境的示意;

图2是本发明的一种数据处理方法实施例一的步骤流程图;

图3是本发明的一种数据处理方法实施例二的步骤流程图;

图4是本发明的一种数据处理方法实施例三的步骤流程图;

图5是本发明的一种数据处理方法实施例四的步骤流程图;

图6是本发明的一种数据处理装置实施例的结构框图;

图7是本发明的一种用于数据处理的装置800的框图;及

图8是本发明的一些实施例中服务端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供了一种数据处理方案,该方案可以确定上文对应的泛化处理结果;依据所述泛化处理结果、以及多元关系数据,确定所述上文对应的第一联想候选;其中,所述多元关系数据可以包括:至少两个元素之间的关系,上述至少两个元素中的至少一者经过了泛化处理;输出所述第一联想候选。

本发明实施例中,上文可以指输入光标之前的部分。根据一种实施例,该上文可以包括:最近一次或者最近多次的上屏内容。根据另一种实施例,该上文可以包括:在通信场景下,通信对端发送的通信内容。例如,在即时通讯场景下,用户A接收到用户B发送的通信内容“非洲人来西安避暑”后,点击输入框进行输入,则输入框中可以出现输入光标,由于通信内容在通讯窗口中位于输入光标之前,故可以将该通信内容作为上文。可以理解,本发明实施例对于具体的上文不加以限制。

泛化可以指将具体的、个别的扩大为一般的。数据中通常包含原始概念层的细节信息,故本发明实施例的泛化处理可以将数据从较低的概念层抽象到较高的概念层,用较高层的概念来代替较低层次的概念。例如,用“地点”代替“西安”,或者用省代替地市级的概念等。

本发明实施例依据上文对应的泛化处理结果、以及多元关系数据,确定所述上文对应的第一联想候选;由于上文对应的泛化处理结果为对上文进行泛化处理后得到,故其可以包括较高层的概念;而多元关系数据中的至少一个元素也经过了泛化处理,故其可以包括较高层的概念;因此本发明实施例可以提高泛化处理结果与多元关系数据之间的匹配率和命中率,进而可以提高第一联想候选的命中率。

以上文为“非洲人来西安避暑”为例,本发明实施例可以确定“非洲人来西安避暑”对应的泛化处理结果:“非洲人来地点避暑”;并且,本发明实施例的多元关系数据中可以记录有“非洲人来地点避暑”与“结果中暑了”之间的关系;因此,本发明实施例可以确定“非洲人来西安避暑”对应的第一联想候选:“结果中暑了”。

以上文为“信赫哥”为例,本发明实施例可以确定“信赫哥”对应的泛化处理结果:“信人名”;并且,本发明实施例的多元关系数据中可以记录有“信人名”与“得永生”之间的关系;因此,本发明实施例可以确定“信赫哥”对应的第一联想候选:“得永生”。

以上文为“要想知道梨子的味道”为例,本发明实施例可以确定“要想知道梨子的味道”对应的泛化处理结果:“要想知道水果的味道”;并且,本发明实施例的多元关系数据中可以记录有“要想知道水果的味道”与“就要亲口尝一尝”之间的关系;因此,本发明实施例可以确定“要想知道梨子的味道”对应的第一联想候选:“就要亲口尝一尝”。

本发明实施例可应用于键盘符号、语音、手写等各种输入方式的输入法程序,即用户可以通过编码字符串(也即本发明实施例中的输入串)进行文字输入。在输入法领域,对于例如中文、日文、韩文、或者其它语言的输入法程序,通常可以把用户输入的输入串转换成相应语言的候选项。以下主要以中文为例进行说明,日文、韩文等其它语言相互参照即可。可以理解,所述中文输入法可以包括但不限于全拼、简拼、笔画、五笔等,本发明实施例对于某种语言对应的具体输入法程序不加以限制。

本发明实施例提供的数据处理方法可应用于图1所示的应用环境中,如图1所示,客户端100与服务端200位于有线或无线网络中,通过该有线或无线网络,客户端100与服务端200进行数据交互。

可选地,客户端100可以运行在终端上,上述终端具体包括但不限于:智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3,Moving Picture ExpertsGroup Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4,Moving PictureExperts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。客户端100可以对应于网站、或者APP(应用程序,Application)。

在实际应用中,对于键盘符号的输入方式,用户可以通过实体键盘、或者虚拟键盘等输入上述输入串。例如,对于具有触摸屏的终端,其可以在输入界面中设置虚拟键盘,以使用过通过触发上述虚拟键盘包括的虚拟按键进行输入串的输入。可选地,上述虚拟键盘的例子可以包括:9键键盘和26键键盘等。并且,可以理解,上述输入界面中除了设置有字母对应的虚拟按键之外,还可以设置有符号按键、数字按键、例如中英切换按键的功能按键,或者,还可以设置有工具栏按键等,可以理解,本发明实施例对于输入界面所包含的具体按键不加以限制。

根据一些实施例,上述输入串可以包括但不限于:用户通过按键所输入的一个按键符号或多个按键符号的组合。所述按键符号具体可以包括:拼音、笔画、假名等。

本发明实施例中,候选可用于表示输入法程序提供的待被用户选择的一个或多个字符。候选可以与上文相应,或者,候选可以与输入串相应,或者,候选可以与输入串和上文相应。候选可以为中文字符、英文字符、日文字符等语言的字符,候选也可以为颜文字、图片等形式的符号组合。其中,所述颜文字包括但不限于线条、符号、文字所组成的图画,例如,所述颜文字的例子可以包括:“:P”、“:-o”、“:-)”等。

多元关系数据可以包括二元和二元以上的关系数据。二元关系,又称2-gram,用于表示两个元素相继出现的概率,在输入法领域,这里的元素可以包括:词汇、词组、短句、字母、数字和符号中的至少一种。本发明实施例中,所述二元主要可以包括词汇的二元关系,其他类型的二元关系相互参照即可。二元以上的关系则用于表示两个以上元素相继出现的概率。

对于词汇,其二元关系数据主要用于反映两个词汇邻接使用的概率。一方面,所述词汇可以包括以字母组成的语言文字,其可以是键盘上印刷的字母组成的单词、词组、短语,具体可以适用于英文、法文、德文等;另一方面,所述词汇还可以包括以拼音和/或笔画组成的文字语言所对应的字符序列,这里,所述以拼音和/或笔画组成的文字语言所对应的字符序列可以包括拼音对应的字词、笔画对应的字词等,具体可以适用于中文、日文、韩文等。

在本发明的一种可选实施例中,可以通过数据模型表征多元关系数据。数据模型的类型可以包括但不限于:语言模型、神经网络模型等。上述数据模型可以提供P(任意元素|上文,…),即一定上文等条件下,任意元素的概率。根据这个概率,可以确定上文对应的联想候选。其中,数据模型所采用的语料可以包括:在上文等条件下的语料,上述语料包括但不限于:互联网语料、用户的语聊语料、用户的输入语料等。

数学模型是运用数理逻辑方法和数学语言建构的科学或工程模型,数学模型是针对参照某种事物系统的特征或数量依存关系,采用数学语言,概括地或近似地表述出的一种数学结构,这种数学结构是借助于数学符号刻画出来的关系结构。数学模型可以是一个或一组代数方程、微分方程、差分方程、积分方程或统计学方程及其组合,通过这些方程定量地或定性地描述系统各变量之间的相互关系或因果关系。除了用方程描述的数学模型外,还有用其他数学工具,如代数、几何、拓扑、数理逻辑等描述的模型。其中,数学模型描述的是系统的行为和特征而不是系统的实际结构。其中,可采用机器学习、深度学习方法等方法进行数学模型的训练,机器学习方法可包括:线性回归、决策树、随机森林等,深度学习方法可包括:卷积神经网络(Convolutional Neural Networks,CNN)、长短期记忆网络(LongShort-Term Memory,LSTM)、门控循环单元(Gated Recurrent Unit,GRU)等。

可选地,数据模型的条件还可以包括:输入环境特征。此种情况下,数据模型可以提供P(任意元素|上文,输入环境特征,…)。

本发明实施例中,输入环境特征可用于表征用户输入时终端所处的环境信息。输入环境特征可以在一定程度上反映用户的输入意图,因此,在输入环境特征与用户的输入意图之间建立联系,可以间接识别用户的输入意图,进而提高用户的输入效率。

在实际应用中,上述输入环境特征可以包括各种类型的特征。可选地,上述输入环境特征可以包括:时间环境特征、位置环境特征、气候环境特征、应用程序环境特征和页面环境特征中的至少一种。

即使同一终端,其所处的环境信息也很有可能是变化的,时间环境特征就是一个典型的例子。因此,本发明实施例的输入环境特征可以具有实时性,在输入过程中,可以实时获取输入串对应的输入环境特征。

针对一个输入串,其接收时间可以作为对应的时间环境特征。

依据其IP(网络之间互连的协议,Internet Protocol)地址、终端的GPS(全球定位系统,Global Positioning System)或移动通信网络获得的位置信息可以作为对应的位置环境特征。

输入法程序作为寄宿程序,可以寄宿于任意的宿主程序,且可被宿主程序调起,以实现宿主程序中的输入,例如,用户可以在宿主程序中键入输入串,并选择输入串对应的候选项上屏。本发明实施例中,输入串对应的应用程序环境特征可以为输入法程序对应的宿主程序的信息。

可选地,可以依据输入法程序正在服务的当前对象的识别特征,确定输入串对应的应用程序环境特征,例如,输入法程序在运行中,调用GetModuleFilename发现程序路径名“C:ProgramFilesMicrosoftOfficeOFFICE11WINWORD.EXE”,即可确定对应的应用程序环境特征为“WinWord.exe”,也即输入串是在“word”中输入的,当然本发明实施例对于输入串对应的应用程序环境特征的具体获取方式不加以限制。

本发明实施例中,所述应用程序环境特征可以包括:应用程序标识和/或应用程序类别。例如,“word”为应用程序标识,“word”对应的应用程序类别为办公类别等。可以理解,本领域技术人员可以根据实际应用需求,将应用程序划分到对应的应用程序类别,例如,应用程序类别的例子可以包括但不限于:即时通讯类别、文档类别、搜索类别、网页类别、购物类别、旅游类别等等。

页面环境特征可用于表征应用程序或者网站提供的页面环境,可选地,上述页面环境可以包括但不限于:即时通讯页面环境、文档页面环境、邮件页面环境、密码输入页面环境、游戏页面环境、搜索页面环境、旅游页面环境、购物页面环境、社交页面环境、影视页面环境、阅读页面环境等。

当然,除了时间环境特征、位置环境特征、应用程序环境特征和页面环境特征外,本发明实施例的输入环境特征还可以包括其它环境特征,例如,气压、海拔、温度、湿度等物理环境特征等。其中,可以理解,本发明实施例对于具体的输入环境特征不加以限制。

方法实施例一

参照图2,示出了本发明的一种数据处理方法实施例一的步骤流程图,具体可以包括如下步骤:

步骤201、对多元关系数据中的左元进行泛化处理,以得到第一元素;

步骤202、依据所述第一元素、以及所述多元关系数据中的右元,得到第一元素与第二元素之间的关系。

图2所示实施例的至少一个步骤可由服务端或客户端执行,当然本发明实施例对于各个步骤的具体执行主体不加以限制。

二元关系数据中可以包括:左元和右元,左元可以位于右元的左侧,也即,左元可以位于右元的前面。

图2所示实施例可用于对多元关系数据中的左元进行泛化处理,以得到第一元素与第二元素之间的关系。

多元关系数据可以为对语料进行训练得到。在实际应用中,语料分布不均等因素,容易导致多元关系数据的覆盖率较低。例如,语料可以包括:“信春哥,得永生”、“非洲人来北京避暑,结果中暑了”、“要想知道苹果的味道,就要亲口尝一尝”等,依据上述语料得到的多元关系数据,将无法覆盖“信赫哥”、“非洲人来西安避暑”、“要想知道梨子的味道”等上文。

为了提高多元关系数据的覆盖率,本发明实施例对多元关系数据中的至少一个元进行泛化处理。多元关系中的元,可用于表征多元关系中的一个元素,可选地可以通过独立的字段来表征一个元素。

图2所示方法实施例,可以对多元关系数据中的左元进行泛化处理,以得到第一元素,进而可以得到第一元素与第二元素之间的关系;由于多元关系数据中的第一元素经过了泛化处理,故可以提高多元关系数据的覆盖率和命中率。

本发明实施例中,可以依据元素在语言中的出现顺序,确定多元关系数据中的左元和右元。

本发明实施例可以提供对多元关系数据中的左元进行泛化处理的如下技术方案:

技术方案A1、

技术方案A1中,所述对多元关系数据中的左元进行泛化处理,具体可以包括:依据词与词类别之间的映射关系,对多元关系数据中的左元进行泛化处理。

词类别可用于表征词的类别。可选地,可以通过语义词典保存词与词类别之间的映射关系。语义词典中可以保存如下映射关系:苹果-水果、北京-城市、晴天-天气、高兴-心情等,可以理解,本发明实施例对于词与词类别之间的具体映射关系不加以限制。

对多元关系数据中的左元进行泛化处理的过程可以包括:将多元关系数据中的左元与映射关系中的词进行匹配,若匹配成功,则将左元替换为对应的词类别。

需要说明的是,左元中可以包括:一个与映射关系相匹配的目标词;或者,左元中可以包括:多个与映射关系相匹配的目标词,此种情况下,可以针对多个目标词分别进行泛化处理。

例如,左元中包括:目标词1和目标词2,则对应的泛化处理方式可以包括:仅仅针对目标词1进行泛化处理;仅仅针对目标词2进行泛化处理;或者同时针对目标词1和目标词2进行泛化处理;因此本发明实施例可以针对一个左元得到多个泛化处理结果。

因此,本发明实施例可以针对左元中的单个目标词进行泛化处理,或者,可以针对左元中的多个目标词进行泛化处理,由此可以得到多个泛化处理结果。

技术方案A2、

技术方案A2中,所述对多元关系数据中的左元进行泛化处理,具体可以包括:识别左元中的至少一个实体词;将所述左元中的至少一个实体词替换为对应的实体类别词。

本发明实施例中,实体是一个具体事物或概念。实体一般会划分类型,例如人物类实体、电影类实体、动物类实体、历史类实体等。同一个实体可以对应多个实体实例,实体实例可以是在网络(或其它媒介)中对一个实体的描述性页面(内容),例如百科的页面中即包含实体对应的实体实例。

可选地,实体可以包括:命名实体(named entity),命名实体可以指人名、机构名、地名以及其他所有以名称为标识的实体。更广泛的命名实体还可以包括:书名、歌曲名、影视剧名、产品名、品牌名、数字、日期、货币、地址等等。

可选地,所述实体类别可以包括如下类别中的至少一种:人物、地点、水果、蔬菜、动物、植物、建筑物、衣物、食物、药物、交通工具、家具、乐器、电器、以及自然现象。

在本发明的一种实施例中,可以采用NER(命名实体识别,Named EntityRecognition)方法,确定所述文本内容中的实体。

根据一种实施例,NER方法可以包括:基于词库的方法。基于词库的方法可以根据词组出现的频率对高频词构建实体库,对于可以在实体库中检索到的词直接将其识别为实体。其中,词组可以指两个或更多词的组合。在实际应用中,可以从互联网抓取实体相关数据,并对实体相关数据进行分析,以得到对应的实体词,并将该实体词存储至实体库,本发明实施例对于具体的实体词及其获取方式不加以限制。

根据另一种实施例,NER方法可以包括:基于规则的方法。基于规则的方法可以根据词组的组成规则,将请求中满足相应规则的词组标注为实体。

根据再一种实施例,NER方法可以包括:基于统计学习的方法。基于统计学习的方法将命名实体识别看作一个分类问题,采用类似SVM(支持向量机,Support VectorMachine)、贝叶斯等分类方法;或者,将命名实体识别看作一个序列标注问题,采用HMM(隐马尔科夫模型,Hidden Markov Model)、最大熵模型(Maximum Entropy Model)、CRF(条件随机场,conditional random field algorithm)、LSTM(长短期记忆网络,Long Short-Term Memory)模型等序列标注模型。

需要说明的是,左元中可以包括:一个实体词;或者,左元中可以包括:多个实体词,此种情况下,可以针对多个实体词分别进行泛化处理。

例如,左元中包括:实体词1和实体词2,则对应的泛化处理方式可以包括:仅仅针对实体词1进行泛化处理;仅仅针对实体词2进行泛化处理;或者同时针对实体词1和实体词2进行泛化处理;因此本发明实施例可以针对一个左元得到多个泛化处理结果。

因此,本发明实施例可以针对左元中的单个实体词进行泛化处理,或者,可以针对左元中的多个实体词进行泛化处理,由此可以得到多个泛化处理结果。

可以理解,识别左元中的至少一个实体词,只是作为可选实施例,实际上,还可以识别左元中的形容词、动词等词。

步骤202可以将所述多元关系数据中的右元作为第二元素,由此可以得到第一元素与第二元素之间的关系,并保存。

综上,本发明实施例的数据处理方法,对多元关系数据中的左元进行泛化处理,以得到第一元素,进而可以得到第一元素与第二元素之间的关系;由于多元关系数据中的第一元素经过了泛化处理,故可以提高多元关系数据的覆盖率和命中率。

可以理解,上述对多元关系数据中的左元进行泛化处理,以得到第一元素,只是作为可选实施例。实际上,本发明实施例还可以对多元关系数据中的右元进行泛化处理,以得到第二元素,进而可以得到第一元素与第二元素之间的关系。

在实际应用中,可能存在用户记得表达的后半句、而忘记表达的前半句的情形,此种情况下,用户可以输入表达的后半句,本发明实施例可以通过泛化处理后的第二元素,自动提供表达的前半句,且可以提高第一联想候选的命中率。

可以理解,上述的第一元素与第二元素之间的关系只是作为示例,实际上,本发明实施例的多元关系数据可以表征两个以上元素之间的映射关系,此种情况下,可以对两个以上元素中的至少一个进行泛化处理,以提高多元关系数据的覆盖率和命中率。

方法实施例二

参照图3,示出了本发明的一种数据处理方法实施例二的步骤流程图,具体可以包括如下步骤:

步骤301、确定上文对应的泛化处理结果;

步骤302、依据所述泛化处理结果、以及多元关系数据,确定上文对应的第一联想候选;其中,所述多元关系数据可以包括:至少两个元素之间的关系,上述至少两个元素中的至少一者经过泛化处理;

步骤303、输出所述第一联想候选。

图3所示实施例的至少一个步骤可由服务端和/或客户端执行,当然本发明实施例对于各个步骤的具体执行主体不加以限制。

步骤301中,客户端可以获取上文,并确定上文对应的泛化处理结果。或者,客户端可以获取上文,并向服务端发送上文,以使服务端确定上文对应的泛化处理结果。

本发明实施例可以提供确定上文对应的泛化处理结果的如下技术方案:

技术方案B1、

技术方案B1中,所述确定上文对应的泛化处理结果,具体可以包括:依据词与词类别之间的映射关系,确定上文对应的泛化处理结果。

技术方案B2、

技术方案B2中,所述确定上文对应的泛化处理结果,具体可以包括:识别上文中的至少一个实体词;将所述上文中的至少一个实体词替换为对应的实体类别词。

可选地,所述实体类别可以包括如下类别中的至少一种:人物、地点、水果、蔬菜、动物、植物、建筑物、衣物、食物、药物、交通工具、家具、乐器、电器、以及自然现象。

需要说明的是,上文中可以包括:一个实体词;或者,上文中可以包括:多个实体词,此种情况下,可以针对多个实体词分别进行泛化处理。

例如,上文中包括:实体词3和实体词4,则对应的泛化处理方式可以包括:仅仅针对实体词3进行泛化处理;仅仅针对实体词4进行泛化处理;或者同时针对实体词3和实体词4进行泛化处理;因此本发明实施例可以针对一个上文得到多个泛化处理结果。

因此,本发明实施例可以针对上文中的单个实体词进行泛化处理,或者,可以针对上文中的多个实体词进行泛化处理,由此可以得到多个泛化处理结果。

在本发明的一种应用示例中,上文“非洲人来北京避暑”中包括:实体词“非洲人”和实体词“北京”等,可选地,可以将“非洲人”泛化为“外国人”,将实体词“北京”泛化为“城市”等。

在本发明的一种可选实施例中,上述将所述上文中的至少一个实体词替换为对应的实体类别词,具体可以包括:从上文中确定出与位置环境特征相匹配的目标实体词,将上文中的目标实体词替换为对应的实体类别词。

例如,上文“非洲人来北京避暑”中包括:实体词“非洲人”和实体词“北京”等,假设位置环境特征为“中国”,则实体词“北京”与位置环境特征相匹配,实体词“非洲人”与位置环境特征不匹配,故可以仅仅针对实体词“北京”进行泛化处理。

步骤302中,可以按照图2所示方法实施例,对上述至少两个元素中的至少一者进行泛化处理。

步骤302中,可以依据所述泛化处理结果,在多元关系数据中进行查找,以得到与泛化处理结果相匹配的元素,进而可以得到上文对应的第一联想候选。

具体地,可以将泛化处理结果与多元关系数据中的任一元素进行匹配,例如,将泛化处理结果与第一元素或第二元素进行匹配。若泛化处理结果与第一元素相匹配,则可以将对应的第二元素作为第一联想候选。或者,若泛化处理结果与第二元素相匹配,则可以将对应的第一元素作为第一联想候选。

步骤303中,客户端可以向用户展现第一联想候选,或者,服务端可以向客户端输出第一联想候选。

综上,本发明实施例的数据处理方法,依据上文对应的泛化处理结果、以及多元关系数据,确定所述上文对应的第一联想候选;由于上文对应的泛化处理结果为对上文进行泛化处理后得到,故其可以包括较高层的概念;而多元关系数据中的第一元素或者第二元素也经过了泛化处理,故其可以包括较高层的概念;因此本发明实施例可以提高泛化处理结果与多元关系数据之间的匹配率和命中率,进而可以提高第一联想候选的命中率。

方法实施例三

参照图4,示出了本发明的一种数据处理方法实施例三的步骤流程图,具体可以包括如下步骤:

步骤401、确定上文对应的泛化处理结果;

步骤402、依据所述泛化处理结果、以及多元关系数据,确定所述上文对应的第一联想候选;其中,所述多元关系数据可以包括:至少两个元素之间的关系,上述至少两个元素中的至少一者经过泛化处理;

步骤403、输出所述第一联想候选;

相对于图3所示实施例,本实施例的方法还可以包括:

步骤404、依据上文、以及第三元素与第四元素之间的关系,确定所述上文对应的第二联想候选;所述第三元素和所述第四元素均未经过泛化处理。

本发明实施例可以利用未经过泛化处理的第三元素与第四元素之间的关系,确定上文对应的第二联想候选。具体地,可以将上文与第三元素或第四元素进行匹配。若泛化处理结果与第三元素相匹配,则可以将对应的第四元素作为第一联想候选。或者,若泛化处理结果与第四元素相匹配,则可以将对应的第三元素作为第一联想候选。

本发明实施例对于步骤401与步骤404的执行顺序不加以限制,两者的执行顺序可以为:先后顺序、后先顺序、或者并列顺序等。

在实际应用中,若同时得到第一联想候选和第二联想候选,则可以同时展现第一联想候选和第二联想候选,或者,可以展现第一联想候选和第二联想候选中的一者,例如,可以仅仅展现第二联想候选。

方法实施例四

参照图5,示出了本发明的一种数据处理方法实施例四的步骤流程图,具体可以包括如下步骤:

步骤501、客户端向服务端发送上文、以及上文对应的泛化处理结果;

步骤502、服务端依据上文,在第三元素与第四元素之间的关系中进行查找,若查找成功,则执行步骤503,否则,若查找失败,则执行步骤504;

步骤503、服务端向客户端输出上文对应的第二联想候选;

第二联想候选可以为依据第三元素与第四元素之间的关系得到。

步骤504、服务端依据所述泛化处理结果、以及至少两个元素之间的关系,确定所述上文对应的第一联想候选;

步骤505、服务端向客户端输出上文对应的第一联想候选。

在一种实施例中,客户端根据语义词典,对上文进行泛化处理,将用户上文和泛化处理结果发送至云端;如果上文和第三元素与第四元素之间的关系相匹配,则直接给出对应的第二联想候选;否则使用泛化处理结果、以及至少两个元素之间的关系,得到第一联想候选,并返回给客户端。

需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的运动动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的运动动作并不一定是本发明实施例所必须的。

装置实施例

参照图6,示出了本发明的一种数据处理装置实施例的结构框图,具体可以包括:

泛化处理结果确定模块601,用于确定上文对应的泛化处理结果;

第一联想候选确定模块602,用于依据所述泛化处理结果、以及多元关系数据,确定所述上文对应的第一联想候选;其中,所述多元关系数据包括:至少两个元素之间的关系,上述至少两个元素中的至少一者经过泛化处理的;以及

第一联想候选输出模块603,用于输出所述第一联想候选.

可选地,泛化处理结果确定模块601可以包括:

第一确定模块,用于依据词与词类别之间的映射关系,确定上文对应的泛化处理结果。

可选地,泛化处理结果确定模块601可以包括:

识别模块,用于识别上文中的至少一个实体词;

第二确定模块,用于将所述上文中的至少一个实体词替换为对应的实体类别词。

可选地,所述实体类别可以包括如下类别中的至少一种:人物、地点、水果、蔬菜、动物、植物、建筑物、衣物、食物、药物、交通工具、家具、乐器、电器、以及自然现象。

可选地,所述装置还可以包括:

泛化处理模块,用于对多元关系数据中的左元进行泛化处理,以得到第一元素;

关系确定模块,用于依据所述第一元素、以及所述多元关系数据中的右元,得到第一元素与第二元素之间的关系。

可选地,所述装置还可以包括:

第二联想候选确定模块,用于依据上文、以及第三元素与第四元素之间的关系,确定所述上文对应的第二联想候选;所述第三元素和所述第四元素均未经过泛化处理。

可选地,所述元素可以包括:词汇、词组、短句、字母、数字和符号中的至少一种。

对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

本发明实施例提供了一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:确定上文对应的泛化处理结果;依据所述泛化处理结果、以及多元关系数据,确定所述上文对应的第一联想候选;其中,所述多元关系数据包括:至少两个元素之间的关系,所述至少两个元素中的至少一者经过泛化处理;输出所述第一联想候选。

图7是根据一示例性实施例示出的一种用于数据处理的装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。

参照图7,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。

处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音输入模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID,Radio Frequency Identification)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。

在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。

在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图8是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。

一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时,使得装置能够执行图2或图3所示的数据处理方法。

一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时,使得装置能够执行一种数据处理方法,所述方法包括:确定上文对应的泛化处理结果;依据所述泛化处理结果、以及多元关系数据,确定所述上文对应的第一联想候选;其中,所述多元关系数据包括:至少两个元素之间的关系,所述至少两个元素中的至少一者经过泛化处理;输出所述第一联想候选。

本发明实施例公开了A1、一种数据处理方法,所述方法包括:

确定上文对应的泛化处理结果;

依据所述泛化处理结果、以及多元关系数据,确定所述上文对应的第一联想候选;其中,所述多元关系数据包括:至少两个元素之间的关系,所述至少两个元素中的至少一者经过泛化处理;

输出所述第一联想候选。

A2、根据A1所述的方法,所述确定上文对应的泛化处理结果,包括:

依据词与词类别之间的映射关系,确定上文对应的泛化处理结果。

A3、根据A1所述的方法,所述确定上文对应的泛化处理结果,包括:

识别上文中的至少一个实体词;

将所述上文中的至少一个实体词替换为对应的实体类别词。

A4、根据A3所述的方法,所述实体类别包括如下类别中的至少一种:人物、地点、水果、蔬菜、动物、植物、建筑物、衣物、食物、药物、交通工具、家具、乐器、电器、以及自然现象。

A5、根据A1所述的方法,所述方法还包括:

对多元关系数据中的左元进行泛化处理,以得到第一元素;

依据所述第一元素、以及所述多元关系数据中的右元,得到第一元素与第二元素之间的关系。

A6、根据A1所述的方法,所述方法还包括:

依据上文、以及第三元素与第四元素之间的关系,确定所述上文对应的第二联想候选;所述第三元素和所述第四元素均未经过泛化处理。

A7、根据A1至A6中任一所述的方法,所述元素包括:词汇、词组、短句、字母、数字和符号中的至少一种。

本发明实施例公开了B8、一种数据处理装置,包括:

泛化处理结果确定模块,用于确定上文对应的泛化处理结果;

第一联想候选确定模块,用于依据所述泛化处理结果、以及多元关系数据,确定所述上文对应的第一联想候选;其中,所述多元关系数据包括:至少两个元素之间的关系,所述至少两个元素中的至少一者经过泛化处理;以及

第一联想候选输出模块,用于输出所述第一联想候选。

B9、根据B8所述的装置,所述泛化处理结果确定模块包括:

第一确定模块,用于依据词与词类别之间的映射关系,确定上文对应的泛化处理结果。

B10、根据B8所述的装置,所述泛化处理结果确定模块包括:

识别模块,用于识别上文中的至少一个实体词;

第二确定模块,用于将所述上文中的至少一个实体词替换为对应的实体类别词。

B11、根据B10所述的装置,所述实体类别包括如下类别中的至少一种:人物、地点、水果、蔬菜、动物、植物、建筑物、衣物、食物、药物、交通工具、家具、乐器、电器、以及自然现象。

B12、根据B8所述的装置,所述装置还包括:

泛化处理模块,用于对多元关系数据中的左元进行泛化处理,以得到第一元素;

关系确定模块,用于依据所述第一元素、以及所述多元关系数据中的右元,得到第一元素与第二元素之间的关系。

B13、根据B8所述的装置,所述装置还包括:

第二联想候选确定模块,用于依据上文、以及第三元素与第四元素之间的关系,确定所述上文对应的第二联想候选;所述第三元素和所述第四元素均未经过泛化处理。

B14、根据B8至B13中任一所述的装置,所述元素包括:词汇、词组、短句、字母、数字和符号中的至少一种。

本发明实施例公开了C15、一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:

确定上文对应的泛化处理结果;

依据所述泛化处理结果、以及多元关系数据,确定所述上文对应的第一联想候选;其中,所述多元关系数据包括:至少两个元素之间的关系,所述至少两个元素中的至少一者经过泛化处理;

输出所述第一联想候选。

C16、根据C15所述的装置,所述确定上文对应的泛化处理结果,包括:

依据词与词类别之间的映射关系,确定上文对应的泛化处理结果。

C17、根据C15所述的装置,所述确定上文对应的泛化处理结果,包括:

识别上文中的至少一个实体词;

将所述上文中的至少一个实体词替换为对应的实体类别词。

C18、根据C17所述的装置,所述实体类别包括如下类别中的至少一种:人物、地点、水果、蔬菜、动物、植物、建筑物、衣物、食物、药物、交通工具、家具、乐器、电器、以及自然现象。

C19、根据C15所述的装置,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:

对多元关系数据中的左元进行泛化处理,以得到第一元素;

依据所述第一元素、以及所述多元关系数据中的右元,得到第一元素与第二元素之间的关系。

C20、根据C15所述的装置,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:

依据上文、以及第三元素与第四元素之间的关系,确定所述上文对应的第二联想候选;所述第三元素和所述第四元素均未经过泛化处理。

C21、根据C15至C20中任一所述的装置,所述元素包括:词汇、词组、短句、字母、数字和符号中的至少一种。

本发明实施例公开了D22、一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如A1至A7中一个或多个所述的数据处理方法

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。

应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

以上对本发明所提供的一种数据处理方法、一种数据处理装置和一种用于数据处理的装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

相关技术
  • 图像数据处理方法、用于图像数据处理方法的程序、记录有用于图像数据处理方法的程序的记录介质和图像数据处理装置
  • 工程机械的数据处理方法、用于执行其的装置、用于工程机械的数据处理的服务器以及工程机械的数据处理单元
技术分类

06120112286672