掌桥专利:专业的专利平台
掌桥专利
首页

文本信息处理方法及介质、设备、系统

文献发布时间:2023-06-19 12:05:39


文本信息处理方法及介质、设备、系统

技术领域

本发明涉及信息处理领域,具体地,涉及文本信息处理方法及介质、设备、系统。

背景技术

随着数据化时代的到来,越来越多的信息以文本信息的形式呈现。如何从文本信息中高效的挖掘符合预期目标的信息成为亟待解决的问题。

该问题呈现在各种领域中。例如,在旅游服务领域,如何挖掘得到符合预期目标的优质文本,已成为该领域中信息服务提供方研究的热点。

以旅游服务领域为例,随着互联网技术的发展,在线旅行社(Online TravelAgency,OTA)应运而生。OTA指"旅游消费者通过网络向旅游服务提供商预定旅游产品或服务,并通过网上支付或者线下付费,即各旅游主体可以通过网络进行产品营销或产品销售"。OTA的出现将原来传统的旅行社销售模式放到网络平台上,更广泛的传递了线路信息,互动式的交流更方便了客人的咨询和订购。

大型的OTA平台积累了大量的用户文本(评论,问答,攻略分享等等)信息。这些信息包含了用户的真实的评价,如何合理运用这些宝贵的信息是众多OTA平台亟待解决的问题。一方面面对上亿级别的数据,传统的人工挑选的方法来挑选产品的优质文本内容,已经不适合现在的技术发展;另一方面技术的快速发展,尤其是自然语言处理(NLP,NaturalLanguage Processing)方面的机器学习,深度学习等方法,也是的如何处理海量信息成为可能。如何利用机器学习,深度学习并结合传统方法来发现有价值,高品质的文本内容成为OTA亟待解决的技术难题。

发明内容

针对现有技术中的问题,本发明实施例提供票务信息交互方法,包括:建立内容丰富度模型,所述内容丰富度模型用于对目标文本对应的内容丰富度进行评价,所述目标文本来源于用户的历史文本,所述内容丰富度至少包括:所述目标文本的信息量;基于所述丰富度模型对所述目标文本进行分析,得到丰富度衡量后的文本;根据所述丰富度衡量后的文本确定选定的文本集合。

可选的,对所述目标文本的信息量进行评价包括:利用信息熵、词性以及依存句法中至少一种确定所述目标文本对应的语句信息量。

可选的,所述文本信息处理方法还包括:获取指定产品的信息;所述内容丰富度模型用于对目标文本对应的内容丰富度进行评价还包括:评价所述目标文本与所述指定产品的内容关联关系。

可选的,所述目标文本与所述指定产品的内容关联关系基于实体识别技术以及知识图谱确定。

可选的,所述文本信息处理方法还包括:获取所述目标文本对应的应用场景;所述内容丰富度模型用于对目标文本对应的内容丰富度进行评价包括:基于所述应用场景对所述目标文本进行评价。

可选的,基于所述应用场景对所述目标文本进行评价包括:

建立对应不同应用场景的评价维度及评价维度分类模型;

基于所述评价维度及评价维度分类模型对所述目标文本进行评价。

可选的,在所述建立内容丰富度模型之前还包括:对所述用户的历史文本进行预处理,筛选情感为正向的文本作为所述目标文本。

可选的,所述的文本信息处理方法还包括:

获取用户的个性化要求;

基于所述个性化要求,建立个性化匹配模型;

根据所述个性化匹配模型对所述目标文本或所述丰富度衡量后的文本进行匹配,以得到个性化匹配后的结果;

所述根据所述丰富度衡量后的文本确定选定的文本集合包括:结合所述个性化匹配后的结果以及所述丰富度衡量后的文本确定选定的文本集合。

可选的,所述建立个性化匹配模型包括:

采用相同的神经网络结构,分别对所述已标注的训练集和所述个性化要求的个性化表征语句进行向量特征抽取及变换;

采用余弦形似度衡量两者之间的相关性得分;

利用反向传播方法对模型进行训练,最终满足衡量个性化要求和语句的相关性的模型。

可选的,根据所述丰富度衡量后的文本确定选定的文本集合包括:优化所述丰富度衡量后的文本,所述优化包括以下至少一种:进行相似度去重、进行语义匹配以及进行文本优美度判断。

可选的,所述根据所述丰富度衡量后的文本确定选定的文本集合包括:对所述丰富度衡量后的文本确进行排序,基于所述排序确定所述选定的文本集合。

可选的,所述文本信息处理方法还包括:

确定目标应用场景;

基于所述文本集合,生成符合所述目标应用场景的文本,或者生成符合所述目标应用场景的文本以及标题。

本申请实施例还提供一种文本信息处理系统,用于实现所述的文本信息处理方法,包括:

模型建立单元,用于建立内容丰富度模型,所述内容丰富度模型用于对目标文本对应的内容丰富度进行评价,所述目标文本来源于用户的历史文本,所述内容丰富度至少包括:所述目标文本的信息量;

丰富度衡量单元,用于基于所述丰富度模型对所述目标文本进行筛选,得到丰富度衡量后的文本;

文本集合确立单元,用于根据所述丰富度衡量后的文本确定选定的文本集合。

本申请实施例还提供一种文本信息处理设备,包括:

处理器;

存储器,其中存储有所述处理器的可执行指令;

其中,所述处理器配置为经由执行所述可执行指令来执行所述的文本信息处理方法的步骤。

本申请实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被执行时实现所述的文本信息处理方法的步骤。

本发明实施例中的文本信息处理方法通过建立内容丰富度模型,基于内容丰富度模型进行筛选,可以根据丰富度衡量后的文本确定符合需求的文本集合,进而能够大大提升文本筛选的效率,达到节省系统资源的效果。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。

图1是本发明实施例中一种文本信息处理方法的流程图;

图2是本发明实施例中另一种文本信息处理方法的流程图;

图3是本发明实施例中一种基于应用场景进行评价的流程图;

图4是本发明实施例中一种建立匹配模型的方法的流程图;

图5是是本发明实施例中另一种文本信息处理方法的流程图;

图6是本发明实施例中一种的文本信息处理设备的结构示意图;

图7是本发明实施例中一文本信息处理系统的结构示意图;以及

图8是本发明实施例中一种计算机可读存储介质的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的实施方式;相反,提供这些实施方式使得本发明将全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构,因而将省略对它们的重复描述。

图1是是本发明实施例中的一种文本信息处理方法的流程图。结合参考图1,文本信息处理方法可以包括如下步骤:

步骤S11,建立内容丰富度模型,所述内容丰富度模型用于对目标文本对应的内容丰富度进行评价,所述目标文本来源于用户的历史文本,所述内容丰富度至少包括:所述目标文本的信息量;

步骤S12,基于所述丰富度模型对所述目标文本进行分析,得到丰富度衡量后的文本;

步骤S13,根据所述丰富度衡量后的文本确定选定的文本集合。

在具体实施中,用户的历史文本可以是OTA平台用户的历史数据。目标文本可以来源于该历史数据。

结合参考图2,在具体实施中,信息处理方法还可以包括步骤S21,对所述用户的历史文本进行预处理,筛选情感为正向的文本作为所述目标文本。

进一步的,预处理过程可以通过情感分析模块实现。在本发明一实施例中,该模块可以使用2w条标注数据(正负比例1:1)的人工标注的数据进行一个二分类模型的训练,分类结果为正向情感和负向情感。我们设计了基于SVM(支持向量机)+TF-IDF的机器学习方法及基于迁移学习BERT方法,训练情感模型,用以筛选情感为正向的语句。可以理解的是,2w仅为举例,并非对本申请的限制。

其中,TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。BERT是谷歌提出的一种非常优秀的预训练模型,它是一种Transformer结构,在很多自然语言处理任务中都打破了当时的记录。

通过正向情感的筛选,可以更高效的得到优质文本集合,也即选定的文本集合。在具体实现中,预处理还可以包括其它过程,例如:长度筛选、情感控制、敏感词过滤、拼写错误检查、繁简体转换等。

继续参考图1,在具体实施中,步骤S12中对所述目标文本的信息量进行评价包括:利用信息熵、词性以及依存句法中至少一种确定所述目标文本对应的语句信息量。高质量的文本,其信息量通常是比较高。通过建立能够衡量目标文本的信息量的模型,可以更准确的识别高质量的文本。

在具体实施中,文本信息处理方法还可以包括:获取指定产品的信息。所述内容丰富度模型用于对目标文本对应的内容丰富度进行评价还可以包括:评价所述目标文本与所述指定产品的内容关联关系。

进一步的,还可以利用实体识别技术(Bi-LSTM+CRF)及知识图谱来进行产品特征的识别,判断语句与该产品的内容关系。

其中,Bi-LSTM(long Short Term)可以看成是两层神经网络,第一层从左边作为系列的起始输入,在文本处理上可以理解成从句子的开头开始输入,而第二层则是从右边作为系列的起始输入,在文本处理上可以理解成从句子的最后一个词语作为输入,反向做与第一层一样的处理处理。最后对得到的两个结果进行处理。CRF即下条件随机场(Conditional Random Field,CRF)模型。

指定的产品信息是与目标文本对应的产品信息,通过进行产品特征的识别,可以更精确的对目标文本进行分析,进而更准确的识别出选定的文本集合,也即更高效的得到优质文本的集合。

在具体实施中,所述文本信息处理方法还可以包括:获取所述目标文本对应的应用场景;所述内容丰富度模型用于对目标文本对应的内容丰富度进行评价包括:基于所述应用场景对所述目标文本进行评价。

结合参考图3,在具体实施中,基于所述应用场景对所述目标文本进行评价可以包括:

S31,建立对应不同应用场景的评价维度及评价维度分类模型;

S32,基于所述评价维度及评价维度分类模型对所述目标文本进行评价。

具体地,应用场景可以是景点、酒店、餐厅等维度。对应不同的应用场景可以设立不同的评价维度,并且可以建立评价维度分类模型。通过建立该模型,可以更加精确的对目标文本进行评价,提升对文本筛选得到选定的文本集合的准确性,进而可以使后续的处理基于更准确的数据,避免反复多次的信息处理过程,提升系统效率。

在具体实施中,文本信息处理方法还可以包括:

获取用户的个性化要求;

基于所述个性化要求,建立个性化匹配模型;

根据所述个性化匹配模型对所述目标文本或所述丰富度衡量后的文本进行匹配,以得到个性化匹配后的结果;

所述根据所述丰富度衡量后的文本确定选定的文本集合包括:结合所述个性化匹配后的结果以及所述丰富度衡量后的文本确定选定的文本集合。

结合参考图4,建立个性化匹配模型可以包括如下步骤:

步骤S41,采用相同的神经网络结构,分别对所述已标注的训练集和所述个性化要求的个性化表征语句进行向量特征抽取及变换;

步骤S42,采用余弦形似度衡量两者之间的相关性得分;

步骤S43,利用反向传播方法对模型进行训练,最终满足衡量个性化要求和语句的相关性的模型。

上述个性化要求可以是例如亲子、情侣等个性化要求等召回需求。该个性化模型使用相同的Bi-LSTM网络结构,分别对个性化表征语句及已标注的训练集,进行向量特征抽取及变换,最后使用余弦形似度衡量两者之间的相关性得分,然后利用反向传播方法对模型进行训练,最终满足衡量个性化要求和语句的相关性的模型,帮助我们满足不同需求的用户的对内容的需求。

其中,已标注的训练集可以来源于所述目标文本或所述丰富度衡量后的文本,标注的内容可以与个性化表征语句相同。

在本发明的具体实现中,可以先采用丰富度模型对所述目标文本进行分析,得到得到丰富度衡量后的文本。该衡量后的文本可以是基于分析进行筛选后的结果,其数量小于目标文本的数量。

在得到得到丰富度衡量后的文本后,结合参考图5,可以再利用个性化匹配模型对丰富度衡量后的文本进行匹配(步骤S51)。匹配的计算量小于利用丰富度模型对目标文本进行分析的计算量,故该中方式可以减少计算量,节省系统资源。

本申请并不对上述过程的顺序进行限定,所有结合所述个性化匹配后的结果以及所述丰富度衡量后的文本确定选定的文本集合的方式均落入本申请的保护范围。

在具体实施中,根据所述丰富度衡量后的文本确定选定的文本集合可以包括:优化所述丰富度衡量后的文本。所述优化包括以下至少一种:进行相似度去重、进行语义匹配以及进行文本优美度判断。

可以理解的是,本申请中对所述丰富度衡量后的文本,并非仅限于经过丰富度衡量后的文本,可以是也经过了个性化匹配模型后的文本。

相应的,在具体实施中,可以在丰富度衡量以及个性化匹配模型后,对相应的数据进行优化(步骤S52)。

在具体实施中,所述根据所述丰富度衡量后的文本确定选定的文本集合可以包括:对所述丰富度衡量后的文本确进行排序,基于所述排序确定所述选定的文本集合。

可以理解的是,本申请中对所述丰富度衡量后的文本,并非仅限于经过丰富度衡量后的文本,可以是经过前述优化后的文本,或者经过个性化匹配模型后的文本,或者经过丰富度衡量、优化以及个性化匹配模型的文本,或者经过本申请中其它步骤的组合。可以根据实际应用时的需求进行选择。

在具体实施中,结合参考图5,文本信息处理方法还可以包括如下步骤:步骤S54,确定目标应用场景;基于所述文本集合,生成符合所述目标应用场景的文本,或者生成符合所述目标应用场景的文本以及标题。

目标应用场景可以是满足用户某种个性化要求层面的应用场景,例如:亲子,情侣等个性化要求等场景。

具体的,可以建立模型以进行处理,使得文本更加匹配目标应用场景的处理。模型可以基于sequence2sequence(序列到序列模型)的方法为基础完成文本生成技术。训练时候首先利用大量的内容-不同风格的标题对的数据进行模型训练。然后再生成阶段使用copynet(复制网)方法,引入copy(复制)机制解决超出词汇表(Out-of-vocabulary,OOV)问题。该生成模型一方面能够自动归纳长文本的信息,另一方面还能够变化语句风格,来满足不同场景下的需求。

在具体实施中,个性化匹配模型的生成和运用、优化、以及针对目标应用场景的匹配处理,均可以根据需要进行选择。在一些场景下,也可以仅进行内容丰富度衡量,基于内容丰富度衡量进行排序和优质文本的确定。或者,也可以选取上述个性化匹配模型的生成和运用、优化、以及针对目标应用场景的匹配处理的过程中的一个或多个,结合内容丰富度衡量共同确定优质文本。

基于本申请实施例中的文本信息处理方法得到的文本集合,可以应用于多种场景,例如智能问答,或者应用于进一步的大数据分析决策,在此不做限制。

本申请实施例还提供一种文本信息处理系统,结合参见图7,通过该系统可以实现如前所述的文本信息处理方法。该系统可以包括如下单元:

模型建立单元71,用于建立内容丰富度模型,所述内容丰富度模型用于对目标文本对应的内容丰富度进行评价,所述目标文本来源于用户的历史文本,所述内容丰富度至少包括:所述目标文本的信息量;

丰富度衡量单元72,用于基于所述丰富度模型对所述目标文本进行筛选,得到丰富度衡量后的文本;

文本集合确立单元73,用于根据所述丰富度衡量后的文本确定选定的文本集合。

所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“平台”。

本申请实施例中文本信息处理系统的具体实现和有益效果可以参见前文所述,在此不再赘述。

图6是本发明的一种文本信息处理设备的结构示意图。下面参照图6来描述根据本发明的这种实施方式的电子设备600。图3显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。

其中,存储单元存储有程序代码,程序代码可以被处理单元610执行,使得处理单元610执行本说明书上述文本信息处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,处理单元610可以执行如图1中所示的步骤。

存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。

存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。

图8是本发明的计算机可读存储介质的结构示意图。参考图8所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

在本说明书的描述中,参考术语“一实施例”、“再具体实施中”、“具体地”、或“一些示例”等的描述意指综合该实施例或示例描述的具体特征、结构、材料或者特点包括于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式综合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行综合和组合。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或综合这些指令执行系统、装置或设备而使用。

综上,本发明实施例中的文本信息处理方法通过建立内容丰富度模型,基于内容丰富度模型进行筛选,可以根据丰富度衡量后的文本确定符合需求的文本集合,进而能够大大提升文本筛选的效率,达到节省系统资源的效果。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

相关技术
  • 分布式文本信息处理方法、装置、系统、设备及存储介质
  • 文本信息处理方法及介质、设备、系统
技术分类

06120113162173