掌桥专利:专业的专利平台
掌桥专利
首页

语料分析方法、装置、电子设备和存储介质

文献发布时间:2023-06-19 09:26:02


语料分析方法、装置、电子设备和存储介质

技术领域

本申请实施例涉及大数据技术领域,尤其涉及一种语料分析方法、装置、电子设备和存储介质。

背景技术

热线服务平台如热线电话、公众号等,作为广大用户反馈问题的重要途径之一,对于服务行业及政府部门提高服务质量来说至关重要。因此,对热线服务平台的语料进行分析,成为服务行业及政府部门及时掌握业务导向、用户普遍关注的问题和进行突发事件定位等舆情分析的重要手段。

现在技术中,通过设置平台工作人员专门负责热线服务平台的用户对接,并由平台工作人员将用户集中反映的问题进行汇总,将汇总结果反映给有关部门,以使有关部门进行舆情分析。

然而,现有技术的方法不仅造成人力物力的浪费,而且由于现有技术的方法受人为因素影响较大,且无法进行复杂的数据分析,因此,采用现有技术的方法进行舆情分析时存在效率和准确率不高的问题。

发明内容

本申请提供一种语料分析方法、装置、电子设备和存储介质,以解决现有技术中通过交互语料进行舆情分析时存在效率和准确率不高的问题。

第一方面,本申请实施例提供一种语料分析方法,包括:

获取用户在问题反馈过程中产生的交互语料;

对所述交互语料进行自然语言处理,得到所述交互语料中用户方语料的原始分词集合;

通过语料分析模型对所述原始分词集合中的分词进行处理,得到用户高频短语集合;

根据预设时长内不同用户的用户高频短语集合,确定目标高频短语集合。

可选地,所述通过语料分析模型对所述原始分词集合中的分词进行处理,得到用户高频短语集合,包括:

根据所述原始分词集合中每个分词的出现次数,生成高频分词集合;

对所述高频分词集合中的高频分词进行组合,得到所述用户高频短语集合。

可选地,所述根据所述原始分词集合中每个分词的出现次数,生成高频分词集合,包括:

判断所述原始分词集合中每个分词的出现次数是否达到第一阈值;

提取出所述原始分词集合中出现次数达到所述第一阈值的分词,得到所述高频分词集合。

可选地,所述对所述高频分词集合中的高频分词进行组合,得到所述用户高频短语集合,包括:

根据所述高频分词集合中每个高频分词的词性,按目标自然语言的语法规则和语言习惯对所述高频分词进行组合,得到高频短语集合;

筛选出所述高频短语集合中满足业务特点的高频短语,作为所述用户高频短语集合。

可选地,所述对所述交互语料进行自然语言处理,得到所述交互语料中用户方语料的原始分词集合,包括:

通过自然语言第一处理模型对所述交互语料进行处理,得到所述交互语料中的用户方语料,所述自然语言第一处理模型包括语言转换技术和内容识别技术;

通过自然语言第二处理模型对所述用户方语料进行处理,得到所述用户方语料的原始分词集合,所述自然语言第二处理模型包括分词技术和关键词提取技术。

可选地,所述通过自然语言第一处理模型对所述交互语料进行处理,得到所述交互语料中的用户方语料,包括:

通过所述语言转换技术,将所述交互语料的语言转换成目标自然语言,得到标准格式的交互语料;

通过所述内容识别技术对所述标准格式的交互语料的内容进行识别,区分出所述交互语料中的用户方语料和非用户方语料;

提取出所述交互语料中的用户方语料,并进行存储。

可选地,所述通过自然语言第二处理模型对所述用户方语料进行处理,得到所述用户方语料的原始分词集合,包括:

根据分词技术,对所述用户方语料进行切分,得到分词格式的用户方语料;

根据关键词提取技术,将所述分词格式的用户方语料中的实词作为关键词提取出来,得到所述用户方语料的原始分词集合。

可选地,所述根据预设时长内不同用户的用户高频短语集合,确定目标高频短语集合包括:

对预设时长内不同用户在问题反馈过程中产生的用户高频短语集合中的用户高频短语进行统计,得到每个用户高频短语的累计出现次数;

将累计出现次数达到第二阈值的用户高频短语提取出来,得到所述目标高频短语集合。

可选地,所述通过语料分析模型对所述原始分词集合中的分词进行处理,得到用户高频短语集合之前,所述方法还包括:

获取历史交互语料;

对所述历史交互语料进行自然语言处理,得到所述历史交互语料中用户方语料的原始分词集合;

对所述历史交互语料中用户方语料的原始分词集合中分词进行统计和分析,确定所述语料分析模型的第一阈值和业务特点中的至少一项。

可选地,所述方法还包括:

根据所述目标高频短语集合中的目标高频短语,进行舆情分析。

可选地,所述方法还包括:

控制对所述目标高频短语集合中的目标高频短语以预设方式输出,所述预设方式包括以下方式中的至少一种:屏幕展示、语音播报、短信提示和警报。

可选地,所述交互语料为电话交互语料,所述获取用户在问题反馈过程中产生的交互语料,包括:

通过设置在电话中的录音装置,获取用户在问题反馈过程中产生的交互语料。

第二方面,本申请实施例提供一种语料分析装置,包括:

获取模块,用于获取用户在问题反馈过程中产生的交互语料;

处理模块,用于对所述交互语料进行自然语言处理,得到所述交互语料中用户方语料的原始分词集合;通过语料分析模型对所述原始分词集合中的分词进行处理,得到用户高频短语集合;根据预设时长内不同用户的用户高频短语集合,确定目标高频短语集合。

第三方面,本申请实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一方面所述的语料分析方法。

第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的语料分析方法。

本申请实施例提供的语料分析方法、装置、电子设备和存储介质,通过获取用户在问题反馈过程中产生的交互语料,对交互语料进行自然语言处理,得到交互语料中用户方语料的原始分词集合,通过语料分析模型对原始分词集合中的分词进行处理,得到用户高频短语集合,根据预设时长内不同用户的用户高频短语集合,确定目标高频短语集合,根据业务特点和大数据的方式实现了对一段时间内用户在问题反馈过程中产生的交互语料中的隐藏信息的深度挖掘,不仅节约了人力成本,而且根据本实施例得到的目标高频短语集合进行舆情分析,与现有技术相比,分析的效率和准确率大大提高,更有利于相关部门在第一时间掌握舆情的发展。

附图说明

图1为本申请实施例一提供的语料分析方法的流程示意图;

图2为本申请实施例二提供的语料分析方法的流程示意图;

图3为本申请实施例三提供的语料分析装置的结构示意图;

图4为本申请实施例四提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。

本申请提供一种进行语料分析的技术方案,用于根据业务特点和大数据的方式,对用户在热线服务平台如热线电话、公众号进行问题反馈中产生的交互数据进行分析,实现了对交互数据隐藏价值的挖掘,便于相关部门更好地利用交互数据。

现有技术中通过平台工作人员对与用户对接过程中集中反映的问题进行汇总,并由平台工作人员将用户集中反映的问题进行汇总,将汇总结果反映给有关部门,以使有关部门进行舆情分析。以银行热线服务平台为例,银行热线服务平台的业务错综复杂,如各类业务咨询、投诉等,往往涉及数千种不同类型的业务,因此,银行热线服务平台每天都会产生大量的业务数据,一方面,由于数据量巨大,采用现有技术的方法对平台工作人员需求量较大,存在人力物力的浪费,另一方面,由于现有技术受人为主观因素影响较大,而由人获取到的信息往往局限于浅层的表面涵义,所以,采用现有技术的方法在进行舆情分析时,存在效率和准确率不高的问题。

本申请技术方案的主要思路:基于现有技术中存在的技术问题,本申请的技术方案,预先根据行业特点和大数据的方式构建语料分析模型,通过将用户在问题反馈过程中产生的交互语料输入到语料分析模型中,就可以得到足以反映用户所注的问题的一个或多个关键短语,通过语料分析模型对一段时间内不同用户进行问题反馈过程中产生的交互语料分别进行分析,就可以得到一系列关键短语,再通过对这些关键短语进行统计和分析,就可以得到反映一段时间内用户普遍关注问题的一个或多个关键短语,实现了对用户在问题反馈过程中产生的交互语料的深层分析,有利于相关部门在第一时间掌握舆情的发展,并提高了舆情的分析效率和准确率。

实施例一

图1为本申请实施例一提供的语料分析方法的流程示意图,本实施例的方法可以由本申请实施例所提供的语料分析装置执行,该装置可以由软件和/或硬件的方式来实现,并可集成于客户端、服务器以及智能终端等电子设备中。如图1所示,本实施例的语料分析方法包括:

S101、获取用户在问题反馈过程中产生的交互语料。

本步骤中,为提高服务质量,及时解决用户反映的问题,各服务行业或政府部门往往会设置不同类型的热线服务平台,如热线电话、公众号等,而交互语料是用户通过热线服务平台进行问题反馈过程中产生的,因此,交互语料不仅可以是文字语料,也可以是电话语料或语音语料等,交互语料的类型具本可以根据热线服务平台提供的用户进行问题反馈的途径进行确定。

本步骤中,交互语料可以通过热线服务平台主动或被动上传的方式获取,例如,根据接收到交互语料上传指令进行相应地交互语料的上传,或者,只要有交互语料产生,就进行上传操作。

在一种可能的实现方式中,交互语料为电话交互语料,本实施例中通过设置在电话中的录音装置,获取用户在问题反馈过程中产生的交互语料。

在一种可能的实现方式中,交互语料为文本交互语料,本实施例中从相应设备的存储器中获取用户在问题反馈过程中产生的交互语料。

可以理解的是,本申请实施例中的用户为问题反馈方。

S102、对交互语料进行自然语言处理,得到交互语料中用户方语料的原始分词集合。

本实施例上,由于S101获取到的交互语料中通常既包括用户方语料(即问题反馈方语料),也包括非用户方语料(平台方语料),因此,本步骤中,首先通过自然语言第一处理模型对S101中得到的交互语料进行处理,得到交互语料中的用户方语料。另外,为满足语料分析模型的输入需求,还需要通过自然语言第二处理模型对用户方语料作进一步处理,从而得用户方语料的原始分词集合。

在一种可能的实现方式中,自然语言第一处理模型包括语言转换技术和内容识别技术。具体地,本实施例中,通过语言转换技术,将交互语料的语言转换成目标自然语言,得到标准格式的交互语料;通过内容识别技术对标准格式的交互语料的内容进行识别,区分出交互语料中的用户方语料和非用户方语料;进而提取出交互语料中的用户方语料,并进行存储。

本实现方式中,目标自然语言是事先选定的一种标准语言,如标准普通话。语言转换技术不仅可以将其他语种的语言转换成目标自然语言,也可以将相同语种下的方言或不规则表述等转换成符合目标自然语言语法规则和语言习惯的表述。标准格式的交互语料,即通过目标自然语言的标准格式表述的交互语料。

本实现方式中,可以在对标准格式的交互语料的内容进行识别的过程中,根据非用户方的规范用语,区分出交互语料中的用户方语料和非用户方语料,在完成双方语料的区分之后,可以对双方语料分别收集存储,也可以仅提取出其中的用户方语料,并进行存储,具体地,还可以根据实际使用需求设置相应的存储方式和存储路径,此处不做限定。

在一种可能的实现方式中,自然语言第二处理模型包括分词技术和关键词提取技术。具体地,本实施例中,根据分词技术,对用户方语料进行切分,得到分词格式的用户方语料;根据关键词提取技术,将分词格式的用户方语料中的动词、名词、形容词和副词作为关键词提取出来,得到用户方语料的原始分词集合。

本实现方式中,可以根据已有的分词库,如汉语字典词库,对用户方语料进行切分,得到分词格式的用户方语料。示例性地,若目标自然语言为标准普通话,在进行关键词提取时,将用户方语料中的实词作为关键词提取出来,或者将用户方语料中的虚词去除掉,得到用户方语料的原始分词集合。在标准普通话中,实词包括名词、动词、形容词等,虚词包括助词、副词、叹语等。

可以理解的是,本实施例中,原始分词集合中包括用户方语料中的全部实词。

S103、通过语料分析模型对原始分词集合中的分词进行处理,得到用户高频短语集合。

本步骤中,将S102中得到的原始分词集合输入到语料分析模型中,由语料分析模型根据原始分词集合中每个分词的出现次数,生成高频分词集合,并对高频分词集合中的高频分词进行组合,得到用户高频短语集合。

在一种可能的实现方式中,本实施例中通过统计原始分词集合中每个分词的出现次数,并判断每个分词的出现次数是否达到预设阈值,确定原始分词集合中的高频分词。具体地,判断原始分词集合中每个分词的出现次数是否达到第一阈值,提取出原始分词集合中出现次数达到第一阈值的分词,得到高频分词集合,每个高频分词即为高频分词集合中的元素。

需要说明的是,高频分词集合中的高频分词的数量为有限个,若原始分词集中每个分词的出现次数均小于第一阈值时,则高频分词集合为空集。

可以理解的是,对于不同性质或不同类别的分词,其第一阈值的大小可以相同,也可以不同,具体地,可以在进行语料分析模型训练过程中,确定不同性质或不同类别分词的第一阈值大小。

在一种可能的实现方式中,本实施例中根据高频分词集合中每个高频分词的词性,按目标自然语言的语法规则和语言习惯对高频分词进行组合,得到高频短语集合,筛选出高频短语集合中满足业务特点的高频短语,作为用户高频短语集合。

本实现方式中,通过目标自然语言的语法规则和语言习惯组合得到的高频短语通常数量较多,因此,需要再根据业务特点对这些高频短语做进一步筛选,从而得到可以用于进行问题反映的用户高频短语集合。其中,业务特点可以为不同类别业务的特点,如交通类业务、通信类业务、住房类业务等。

示例性地,本实施例中可以以不同类型业务的常用词汇和专业术语等作为其业务特点,如将拥堵、事故、车牌号、红绿灯等词语作为交通类业务的业务特点,在筛选时,通过判断这些高频短语中是否包括这些反映业务特点语汇,确定该高频短语是否可以作为用户高频短语,将所有涉足业务特点高频短语筛选出来,即可得到用户高频短语集合。

类似地,本实施例中,也可以在进行语料分析模型训练过程中,确定不同类别业务的业务特点。

需要说明的是,本步骤中的语料分析模型中用到的目标自然语言与S102进行自然语言处理用到的目标自然语言相同。

S104、根据预设时长内不同用户的用户高频短语集合,确定目标高频短语集合。

本实施例中,先获取预设时长内不同用户的在问题反馈过程中产生的交互语料,并通过S102-S103分别对不同用户产生的交互语料进行处理,得到每个用户与对应的用户高频短语集合的对应关系,再通过S104对所有用户的用户高频短语集合进行分类和汇总,确定出目标高频短语集合。

其中,不同用户之间可以通过身份标识,如用户账号进行区分,示例性地,用户与对应的用户高频短语集合的对应关系可以通过表1的格式示出。

表1

在一种可能的实现方式中,本实施例中通过对预设时长内不同用户在问题反馈过程中产生的用户高频短语集合中的用户高频短语进行统计,得到每个用户高频短语的累计出现次数,将累计出现次数达到第二阈值的用户高频短语提取出来,得到目标高频短语集合。

示例性地,在表1中,将用户U1、U2、U3、U4对应该的用户高频短语集合中的所有高频短语汇总统计,可知用户高频短语1、用户高频短语2、用户高频短语3、用户高频短语4、用户高频短语5累计出现次数分别为3次、1次、1次、1次、2次,假设第二阈值为3次,则累计出现次数达到3次的只有用户高频短语1,因此,用户高频短语1即为最终确定的目标高频短语,对应地,目标高频短语集合表示为{用户高频短语1};假设第二阈值为2次,则累计出现次数达到2次的用户高频短语1和用户高频短语5,因此,用户高频短语1和用户高频短语5均为目标高频短语,对应地,目标高频短语集合表示为{用户高频短语1,用户高频短语5}。

可以理解的是,本步骤中,第二阈值可以根据经验值预先设定,具体可以根据业务特点、场景需求等进行设定,此处不做限制。

可选地,在S104之后,本实施例的方法还可以包括:

控制对目标高频短语集合中目标高频短语以预设方式输出,预设方式包括以下方式中的至少一种:屏幕展示、语音播报、短信提示和警报,以通知相关人员根据输出的目标高频短语进行舆情分析。可以理解的是,屏幕展示、语音播报、短信提示和警报仅为本申请实施例列举可能的几种预设方式,根据不同的应用场景需求,对目标高频短语的输出还可以有其他的选择,如震动提示、闪光灯提示、邮件发送等,发明人对此不做限制。

可选地,在S104之后,本实施例的方法还可以包括:

根据目标高频短语集合中的目标高频短语,进行舆情分析。

具体地,可以通过爬虫技术搜索与各目标高频短语相关的时事、新闻等,实现舆情分析。

本实施例中,通过获取用户在问题反馈过程中产生的交互语料,对交互语料进行自然语言处理,得到交互语料中用户方语料的原始分词集合,通过语料分析模型对原始分词集合中的分词进行处理,得到用户高频短语集合,根据预设时长内不同用户的用户高频短语集合,确定目标高频短语集合,根据业务特点和大数据的方式实现了对一段时间内用户在问题反馈过程中产生的交互语料的隐藏信息的深度挖掘,不仅节约了人力成本,而且根据本实施例得到的目标高频短语集合进行舆情分析,与现有技术相比,分析的效率和准确率大大提高,更有利于相关部门在第一时间掌握舆情的发展。

实施例二

上述实施例一中,可以理解的是,在通过语料分析模型对原始分词集合中的分词进行处理,得到用户高频短语集合之前,还应包括语料分析模型中相关参数的确定过程,具体地,图2为本申请实施例二提供的语料分析方法的流程示意图,如图2所示,本实施例中语料分析模型中相关参数的确定过程包括:

S201、获取历史交互语料。

本实施例中,语料分析模型是基于在热线服务平台上积累的以往用户在问题反馈中产生的历史交互语料训练得到的。本步骤中,获取历史交互语料的具体实现方式与S101中类似,此处不再赘述。

S202、对历史交互语料进行自然语言处理,得到历史交互语料中用户方语料的原始分词集合。

本步骤中,可以分别对每个历史用户的历史交互语料进行自然语言处理,从而得到不同用户的历史交互语料对应的用户方语料的原始分词集合。具体地,本步骤中对历史交互语料进行自然语言处理,得到历史交互语料中用户方语料的原始分词集合的具体实现方式与S102中类似,此处不再赘述。

S203、对历史交互语料中用户方语料的原始分词集合中分词进行统计和分析,确定语料分析模型的第一阈值和业务特点中的至少一项。

本步骤中,根据统计学的分析方法,对所有历史用户对应的原始分词集合中分词进行统计和分析,从而确定语料分析模型的第一阈值、业务特点或者第一阈值和业务特点。当其中的某个值为已知量或者默认值时,则只需确定其中的一项,如当业务特点已知时,则通过S203只需确定语料分析模型的第一阈值。

本实施例中,通过获取历史交互语料,对历史交互语料进行自然语言处理,得到历史交互语料中用户方语料的原始分词集合,对历史交互语料中用户方语料的原始分词集合中分词进行统计和分析,确定语料分析模型的第一阈值和业务特点中的至少一项,实现了对语料分析模型相关参数的确定,由于本实施例中基于大量历史交互语料进行语料分析模型相关参数的确定,从而提高了根据语料分析模型分析得到的目标高频短语集合的有效性,进而提高了对舆情的分析效率和准确性。

实施例三

图3为本申请实施例三提供的语料分析装置的结构示意图,如图3所示,本实施例中,语料分析装置10包括:

获取模块11和处理模块12。

获取模块11,用于获取用户在问题反馈过程中产生的交互语料;

处理模块12,用于对所述交互语料进行自然语言处理,得到所述交互语料中用户方语料的原始分词集合;通过语料分析模型对所述原始分词集合中的分词进行处理,得到用户高频短语集合;根据预设时长内不同用户的用户高频短语集合,确定目标高频短语集合。

可选地,处理模块12具体用于:

根据所述原始分词集合中每个分词的出现次数,生成高频分词集合;

对所述高频分词集合中的高频分词进行组合,得到所述用户高频短语集合。

可选地,处理模块12具体用于:

判断所述原始分词集合中每个分词的出现次数是否达到第一阈值;

提取出所述原始分词集合中出现次数达到所述第一阈值的分词,得到所述高频分词集合。

可选地,处理模块12具体用于:

根据所述高频分词集合中每个高频分词的词性,按目标自然语言的语法规则和语言习惯对所述高频分词进行组合,得到高频短语集合;

筛选出所述高频短语集合中满足业务特点的高频短语,作为所述用户高频短语集合。

可选地,处理模块12具体用于:

通过自然语言第一处理模型对所述交互语料进行处理,得到所述交互语料中的用户方语料,所述自然语言第一处理模型包括语言转换技术和内容识别技术;

通过自然语言第二处理模型对所述用户方语料进行处理,得到所述用户方语料的原始分词集合,所述自然语言第二处理模型包括分词技术和关键词提取技术。

可选地,处理模块12具体用于:

通过所述语言转换技术,将所述交互语料的语言转换成目标自然语言,得到标准格式的交互语料;

通过所述内容识别技术对所述标准格式的交互语料的内容进行识别,区分出所述交互语料中的用户方语料和非用户方语料;

提取出所述交互语料中的用户方语料,并进行存储。

可选地,处理模块12具体用于:

根据分词技术,对所述用户方语料进行切分,得到分词格式的用户方语料;

根据关键词提取技术,将所述分词格式的用户方语料中的实词作为关键词提取出来,得到所述用户方语料的原始分词集合。

可选地,处理模块12具体用于:

对预设时长内不同用户在问题反馈过程中产生的用户高频短语集合中的用户高频短语进行统计,得到每个用户高频短语的累计出现次数;

将累计出现次数达到第二阈值的用户高频短语提取出来,得到所述目标高频短语集合。

可选地,获取模块11还用于:

获取历史交互语料;

可选地,处理模块12还用于:

对所述历史交互语料进行自然语言处理,得到所述历史交互语料中用户方语料的原始分词集合;对所述历史交互语料中用户方语料的原始分词集合中分词进行统计和分析,确定所述语料分析模型的第一阈值和业务特点中的至少一项。

可选地,处理模块12还用于:

根据所述目标高频短语集合中的目标高频短语,进行舆情分析。

可选地,处理模块12还用于:

控制对所述目标高频短语集合中的目标高频短语以预设方式输出,所述预设方式包括以下方式中的至少一种:屏幕展示、语音播报、短信提示和警报。

可选地,所述交互语料为电话交互语料,获取模块11具体用于:

通过设置在电话中的录音装置,获取用户在问题反馈过程中产生的交互语料。

本实施例所提供的语料分析装置可执行实施例一或实施例二所提供的语料分析方法,具备执行方法相应的功能模块和有益效果。本实施例的实现原理和技术效果与上述方法实施例类似,此处不再一一赘述

实施例四

图4为本申请实施例四提供的一种电子设备的结构示意图,如图4所示,该电子设备20包括存储器21、处理器22及存储在存储器上并可在处理器上运行的计算机程序;电子设备20处理器22的数量可以是一个或多个,图4中以一个处理器22为例;电子设备20中的处理器22、存储器21可以通过总线或其他方式连接,图4中以通过总线连接为例。

存储器21作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本申请实施例中的获取模块11和处理模块12对应的程序指令/模块。处理器22通过运行存储在存储器21中的软件程序、指令以及模块,从而执行设备/终端/服务器的各种功能应用以及数据处理,即实现上述的语料分析方法。

存储器21可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器21可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器21可进一步包括相对于处理器22远程设置的存储器,这些远程存储器可以通过网格连接至设备/终端/服务器。上述网格的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实施例五

本申请实施例五还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在由计算机处理器执行时用于执行一种语料分析方法,该方法包括:

获取用户在问题反馈过程中产生的交互语料;

对所述交互语料进行自然语言处理,得到所述交互语料中用户方语料的原始分词集合;

通过语料分析模型对所述原始分词集合中的分词进行处理,得到用户高频短语集合;

根据预设时长内不同用户的用户高频短语集合,确定目标高频短语集合。

当然,本申请实施例所提供的一种包计算机可读存储介质,其计算机程序不限于如上所述的方法操作,还可以执行本申请任意实施例所提供的语料分析方法中的相关操作。

通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本申请可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网格设备等)执行本申请各个实施例所述的方法。

值得注意的是,上述语料分析装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。

注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。

技术分类

06120112167959