掌桥专利:专业的专利平台
掌桥专利
首页

留言文本信息处理方法、装置、系统和计算机设备

文献发布时间:2023-06-19 11:22:42


留言文本信息处理方法、装置、系统和计算机设备

技术领域

本发明涉及留言文本挖掘技术领域,特别是涉及一种留言文本信息处理方法、装置、系统、计算机设备和存储介质。

背景技术

近些年来,微信、微博、市长信箱等网络问政平台技术的不断提升,各类社情民意相关的文本数据量也随之不断提升。文本挖掘技术是自然语言处理技术的一种手段,面对着日益庞大的信息量,迫切需要应用人工智能的相关技术,对数据进行深层次的分析并研究各类信息的规律和关系,以更好地提高留言文本信息的管理水平和处理效率。对这些留言内容进行有关的文本挖掘研究和技术应用探索,是对数据挖掘邻域技术发展有着不凡的意义。因此,将数据挖掘技术有效地应用于各类留言文本信息分析是目前数据处理的迫切需要。

然而,传统的留言信息处理方法仍然是依靠人工来进行留言划分和热点整理,使得留言数据的处理工作量上升,从而使得留言文本信息的处理效率下降。

发明内容

本发明的目的是克服现有技术中的不足之处,提供一种提高留言数据处理效率的留言文本信息处理方法、装置、系统、计算机设备和存储介质。

本发明的目的是通过以下技术方案来实现的:

一种留言文本信息处理方法,所述方法包括:

根据留言文本信息获取第一留言数据以及第二留言数据,其中,所述第一留言数据与留言文本信息中的留言详情对应,所述第二留言数据与留言文本信息中的留言主题对应;

对所述第一留言数据以及所述第二留言数据进行合并分类操作,得到多类合并分词数据;

对每一类合并分词数据分别进行聚类操作,得到多个聚类簇的聚类值;

根据所述聚类值调整各聚类簇的排序优先级。

在其中一个实施例中,所述对每一类合并分词数据分别进行聚类操作,包括:对所述合并分词数据进行初步聚类操作,得到多个第一聚类簇;根据多个所述第一聚类簇获取多个第二聚类簇。

在其中一个实施例中,所述对所述合并分词数据进行初始聚类操作,包括:对所述合并分词数据进行层次聚类。

在其中一个实施例中,所述根据多个所述第一聚类簇获取多个第二聚类簇,包括:对多个所述第一聚类簇进行二次聚类,得到多个所述第二聚类簇。

在其中一个实施例中所述对多个所述第一聚类簇进行二次聚类,得到多个所述第二聚类簇,包括:获取各所述第一聚类簇的初始中心点;根据各所述初始中心点输出多个所述第二聚类簇。

在其中一个实施例中所述对所述第一留言数据以及所述第二留言数据进行合并分类操作,得到多类合并分词数据,包括:对所述第一留言数据进行一次分词操作,得到留言详情属性数据;根据所述留言详情属性数据对所述第二留言数据进行二次分词操作,得到合并分词数据。

一种留言文本信息处理装置,所述装置包括:

采集模块,用于根据留言文本信息获取第一留言数据以及第二留言数据,其中,所述第一留言数据与留言文本信息中的留言详情对应,所述第二留言数据与留言文本信息中的留言主题对应;

第一处理模块,用于对所述第一留言数据以及所述第二留言数据进行合并分类操作,得到多类合并分词数据;

第二处理模块,用于对每一类合并分词数据分别进行聚类操作,得到多个聚类簇的聚类值;

排序模块,用于根据所述聚类值调整各聚类簇的排序优先级。

一种留言文本信息处理系统,包括:文本信息存储装置、答复文本信息处理装置以及上述实施例所述的留言文本信息处理装置;所述文本信息存储装置的第一输入端用于接收留言文本信息,所述文本信息存储装置的输出端与所述留言文本信息处理装置的输入端连接,所述留言文本信息处理装置的输出端与所述答复文本信息处理装置的输入端,所述答复文本信息处理装置的输出端与所述文本信息存储装置的第二输入端连接,所述答复文本信息处理装置用于向所述文本信息存储装置发送与所述留言文本信息对应的答复文本信息。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

根据留言文本信息获取第一留言数据以及第二留言数据,其中,所述第一留言数据与留言文本信息中的留言详情对应,所述第二留言数据与留言文本信息中的留言主题对应;

对所述第一留言数据以及所述第二留言数据进行合并分类操作,得到多类合并分词数据;

对每一类合并分词数据分别进行聚类操作,得到多个聚类簇的聚类值;

根据所述聚类值调整各聚类簇的排序优先级。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

根据留言文本信息获取第一留言数据以及第二留言数据,其中,所述第一留言数据与留言文本信息中的留言详情对应,所述第二留言数据与留言文本信息中的留言主题对应;

对所述第一留言数据以及所述第二留言数据进行合并分类操作,得到多类合并分词数据;

对每一类合并分词数据分别进行聚类操作,得到多个聚类簇的聚类值;

根据所述聚类值调整各聚类簇的排序优先级。

与现有技术相比,本发明至少具有以下优点:

通过将留言主题以及留言详情进行合并分类,之后再对合并分词数据进行聚类操作,使得分词数据的种类减少,即减少了数据处理的数量,在获得对应的聚类值后,根据聚类值对留言进行不同优先级的排序,便于将留言文本信息的重要程度进行排序,从而便于对留言文本的内容进行快速分类,提高了对留言数据处理效率。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为一实施例中留言文本信息处理方法的流程图;

图2为一实施例中计算机设备的内部结构图。

具体实施方式

为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施方式。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施方式。相反地,提供这些实施方式的目的是使对本发明的公开内容理解的更加透彻全面。

需要说明的是,当元件被称为“固定于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的,并不表示是唯一的实施方式。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施方式的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

本发明涉及一种留言文本信息处理方法。在其中一个实施例中,所述留言文本信息处理方法包括根据留言文本信息获取第一留言数据以及第二留言数据,其中,所述第一留言数据与留言文本信息中的留言详情对应,所述第二留言数据与留言文本信息中的留言主题对应;对所述第一留言数据以及所述第二留言数据进行合并分类操作,得到多类合并分词数据;对每一类合并分词数据分别进行聚类操作,得到多个聚类簇的聚类值;根据所述聚类值调整各聚类簇的排序优先级。通过将留言主题以及留言详情进行合并分类,之后再对合并分词数据进行聚类操作,使得分词数据的种类减少,即减少了数据处理的数量,在获得对应的聚类值后,根据聚类值对留言进行不同优先级的排序,便于将留言文本信息的重要程度进行排序,从而便于对留言文本的内容进行快速分类,提高了对留言数据处理效率。

请参阅图1,其为本发明一实施例的留言文本信息处理方法的流程图。所述留言文本信息处理方法包括以下步骤的部分或全部。

S100:根据留言文本信息获取第一留言数据以及第二留言数据,其中,所述第一留言数据与留言文本信息中的留言详情对应,所述第二留言数据与留言文本信息中的留言主题对应。

在本实施例中,所述留言文本信息为留言内容对应的文字数据信息,所述留言文本信息包括有所述留言详情以及所述留言主题,所述留言主题与所述留言详情相对应。在每一个留言主题下的留言文本中,留言详情是对留言主题的内容进行详细描述,即每一个留言文本的留言详情与留言主题一一对应,便于将留言主题与留言详情进行绑定,从而便于根据不同的留言主题获取对应的留言详情,使得留言文本信息中的留言主题以及留言详情相对独立又相互关联。而且,在另一实施例中,为了便于将所述留言详情以及所述留言主题进一步绑定,所述留言文本信息还包括有留言时间、留言编号以及留言用户身份编码,所述留言用户身份编码即为留言用户的身份证明,用于与其他留言文本信息进行区分,而所述留言时间与所述留言详情以及所述留言主题相对应,便于对所述留言文本信息的产生时间进行确定,所述留言时间同样可以作为不同留言文本信息的区分条件;所述留言编号与所述留言主题形成一一对应的关系,使得每一个留言主题具有唯一的留言编号,便于快速区分具有相同留言内容的留言主题,从而将具有相同留言主题的留言详情区分。

S200:对所述第一留言数据以及所述第二留言数据进行合并分类操作,得到多类合并分词数据。

在本实施例中,所述第一留言数据以及所述第二留言数据中均具有多个留言词,即所述第一留言数据对应于留言详情中的多个留言词语,所述第二留言数据对应于留言主题中的多个留言词语。由于所述留言主题是对所述留言详情的内容的具体描述,所述留言主题中的留言词语均会出现在所述留言详情中,使得所述第一留言数据对应的留言词与所述第二留言数据对应的留言词有部分重叠,从而使得所述第二留言数据与所述第一留言数据有部分相同的数据。为了避免留言文本信息中的重要信息遗漏,将所述第一留言数据以及所述第二留言数据进行合并处理,即将所述第一留言数据以及所述第二留言数据同时进行分词处理,利用jieba分词器对所述第一留言数据以及所述第二留言数据中的留言词进行分词以及去停留词,使得所述留言文本信息中的留言词的数量减少,且保证主要信息保留,从而使得对留言文本信息的留言主题以及留言详情的数据分析量减少,进而提高了对留言文本信息的处理效率。而且,所述合并分类操作还对经过jieba分词器处理后的留言数据进行分类,即对所述第一留言数据以及所述第二留言数据经过jieba分词器处理后的数据进行分类,例如,对所述第一留言数据以及所述第二留言数据经过jieba分词器处理后的数据进行基于TF-IDF的SVM分类,其采用的分类模型为TF-IDF(Term Frequency-InverseDocument Frequency,词频-逆文本频率指数)的SVM(Support Vector Machine,支持向量机)模型。在TF-IDF基础上利用支持向量机对留言文本进行分类,在文本分类过程中,SVM模型将输入的训练文本作为几何空间中的一个点,通过对训练样本的学习构建一个可分离不同样本的超平面,并根据测试样本在落在超平面两侧的位置确定其类别。SVM模型在规模较小的数据上的分类效果优良,由于其具有的核函数特性,在某些高维情景下同样适用。

S300:对每一类合并分词数据分别进行聚类操作,得到多个聚类簇的聚类值。

在本实施例中,所述第一留言数据以及所述第二留言数据被划分为多类别的所述合并分词数据,每一分类类别中包含有多个分词数据,每一个分词数据为留言文本信息中的留言词语经过合并分类操作形成的,使得具有相同类别的留言词语被划分为同一类,实现了对所述第一留言数据以及所述第二留言数据的分词属性的分类,即基于TF-IDF的SVM分类模型对所述第一留言数据以及所述第二留言数据进行分类,其中,留言词语的分类是根据自身的属性进行划分的,例如,TF-IDF的SVM分类模型的分类类别为一级级别类别,一级级别类别标注有15个,“城乡建设”:1,“环境保护”:2,“交通运输”:3,“教育文体”:4,“劳动和社会保障”:5,“商贸旅游”:6,“卫生计生”:7,“党务政务”:8,“国土资源”:9,“纪检监察”:10,“经济管理”:11,“科技与信息产业”:12,“民政”:13,“农村农业”:14,“政法”:15。根据上述一级级别类别,对应将所述合并分词数据划分为相同类别。这样,在对每一类所述合并分词数据进行聚类操作,是对各类合并分词数据中的多个数据进行二次划分,但是,所述聚类操作是将各类合并分词数据中属性相近的数据进行数据分析,使得每一类的合并分词数据中数据进行数据属性聚类,即将经过所述合并分类操作的分词数据进行属性数据聚类分析,便于将所述留言文本信息的数据量再一次进行降低,从而便于后续对每一个类别中的多个聚类簇进行排序,降低了后续的排列的数据数量,提高了对所述留言数据处理效率。

S400:根据所述聚类值调整各聚类簇的排序优先级。

在本实施例中,所述聚类值为各所述聚类簇的聚类个数,所述聚类值用于体现各所述聚类簇中的聚类数量,便于展示各聚类簇中的数据属性相同或者相近的个数。由于所述聚类簇是所述合并分词数据经过所述聚类操作后形成的,所述聚类簇的数量为对应合并分词数据的聚类种数,使得所述聚类簇中包含至少一个分词数据,而每一个所述聚类簇内的分词数据的数据属性相同或者相近。这样,在所述聚类簇的聚类值体现分词数据的个数,表明了数据属性相同或者相近的分词在当前聚类簇内的数量,便于展示数据属性相同或者相近的分词在所述留言文本信息中出现的次数,从而便于展示数据属性相同或者相近的分词在留言文本中的频率,进而便于对每一类合并分词数据中的各聚类簇的优先级进行排序,例如,对每一类合并分词数据中的各聚类簇的热度进行排序。在另一实施例中,所述聚类值为所述聚类簇中各分词数据对应的留言的点赞数以及反对数的总和,例如,对每一类合并分词数据中各聚类簇的点赞数以及反对数的总和进行大小排序,选取前5个数值较大的聚类簇为热点问题。

上述留言文本信息处理方法中,通过将留言主题以及留言详情进行合并分类,之后再对合并分词数据进行聚类操作,使得分词数据的种类减少,即减少了数据处理的数量,在获得对应的聚类值后,根据聚类值对留言进行不同优先级的排序,便于将留言文本信息的重要程度进行排序,从而便于对留言文本的内容进行快速分类,提高了对留言数据处理效率。

在其中一个实施例中,所述对每一类合并分词数据分别进行聚类操作,包括:对所述合并分词数据进行初步聚类操作,得到多个第一聚类簇;根据多个所述第一聚类簇获取多个第二聚类簇。在本实施例中,所述合并分词数据经过所述初步聚类操作得到多个所述第一聚类簇,是对所述合并分词数据进行一次聚类,使得所述合并分词数据生成对应的聚类簇,即所述第一聚类簇,在根据所述第一聚类簇的中心进行聚类,从而使得所述第二聚类簇的聚类操作时基于所述第一聚类簇的,而在所述第一聚类簇具有聚类中心点的前提下,有效地提高了所述第二聚类簇的聚类效果。

进一步地,所述对所述合并分词数据进行初始聚类操作,包括:对所述合并分词数据进行层次聚类。在本实施例中,在获取所述第二聚类簇之前,对所述合并分词数据进行层次聚类,所述层次聚类通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中,不同类别的原始数据点是树的最低层,树的顶层是一个聚类的根节点,即采用“自底向上”的聚类策略。具体思路是先将数据集中的每个样本看作一个初始聚类簇,然后找出两个聚类最近的两个簇进行合并,不断重复该步骤,直到达到预设的聚类个数或某种条件。其中利用平均距离来计算两个簇之间的距离。这样,在所述层次聚类后,所述合并分词数据形成多个所述第一聚类簇,而多个所述第一聚类簇提供了多个中心点,为获取所述第二聚类簇提供了质心,即所述层次聚集为所述第二聚类簇提供了聚类的中心点,便于将所述第一聚类簇的中心点作为形成所述第二聚类簇的聚类输入点,在确保了所述第二聚类簇的收敛的情况下,还提高了全局收敛效果。

进一步地,所述根据多个所述第一聚类簇获取多个第二聚类簇,包括:对多个所述第一聚类簇进行二次聚类,得到多个所述第二聚类簇。在本实施例中,所述二次聚类是对所述第一聚类簇聚类,即所述二次聚类是对所述合并分词数据的再次聚类,也即所述二次聚类是基于所述层次聚类的再次聚类,使得所述合并分词数据的收敛效果提升。而且,在经过两个不同的聚类后,使得所述合并分词数据形成的聚类簇的数量减少,减少了对各聚类簇的排序优先级的个数,进一步提高了所述第二聚类簇的聚类效果。

更进一步地,所述对多个所述第一聚类簇进行二次聚类,得到多个所述第二聚类簇,包括:获取各所述第一聚类簇的初始中心点;根据各所述初始中心点输出多个所述第二聚类簇。在本实施例中,所述二次聚类为K-Means聚类,K-Means聚类方法如下:(1)、随机确定k个初始点作为质心;(2)、将数据集中的每个点找到距离最近的质心,并将其分配到该质心对应的簇中;(3)、将每个簇的质心更新为该簇中所有点的平均值;(4)、重复第(2)、(3)步骤,直到簇的分配结果不再变化。在所述合并分词数据经过所述层次聚类之后,所述第一聚类簇的初始中心点作为K-Means聚类的中心点的输入,而且,所述合并分词数据经过所述层次聚类之后形成的所述第一聚类簇的个数与K-Means聚类的K值相同,即多次随机选择中心点训练K-Means来确定一个合适K值,便于选择效果最好的聚类结果。

在其中一个实施例中,所述对所述第一留言数据以及所述第二留言数据进行合并分类操作,得到多类合并分词数据,包括:对所述第一留言数据进行一次分词操作,得到留言详情属性数据;根据所述留言详情属性数据对所述第二留言数据进行二次分词操作,得到合并分词数据。在本实施例中,所述第一留言数据与留言详情相对应,所述第二留言数据与留言主题相对应,在对所述第二留言数据进行分类操作后,即对所述第二留言数据进行分词操作,形成的分类留言主题数据会存在丢失的情况。而这是由于在对所述第一留言数据和所述第二留言数据进行分词时,会将其中的重复分词数据进行删除,即保留其中一个分词,从而导致留言主题中的分词出现缺失的情况。为了避免上述情况,获取所述第一留言数据的留言详情属性数据,在所述留言详情属性数据的基础上,再对所述第二留言数据进行二次分词操作,使得所述第二留言数据经过分词后形成的重复分词保留,确保了所述合并分词数据中用于展示留言主题的分词,提高了留言主题的分词数据的完整性,降低了留言主题的分词数据的丢失率。

可以理解的,所述留言文本信息是对留言信息的汇总,所述留言文本信息包含有留言编号、留言用户身份编码、留言时间、留言主题以及留言详情,所述留言主题与所述留言详情一一对应,而每一个所述留言主题还分别对应有一个留言编号、留言用户身份编码以及留言时间,所述留言编号用于对留言文本信息进行存储,所述留言用户身份编码用于展示留言文本信息的上传者的身份信息,所述留言时间用于展示留言文本信息的上传提交时间。其中,在对各所述聚类簇的排序优先级时,是根据各聚类簇对应的聚类值进行的,即基于对每一类合并分词数据的一个聚类簇的数量的判断。然而,当留言者恶意刷留言时,将会出现多个相同留言主题以及留言详情的情况,使得此类留言的热度迅速上升,而此类的留言实际是存在无效留言的情况,从而导致留言的热度发生错误提示的情况,进而导致留言问题的展示正确率降低。

为了提高留言问题的展示正确率,所述对所述第一留言数据以及所述第二留言数据进行合并分类操作,得到多类合并分词数据,之前还包括以下步骤:

对各所述第一留言数据进行初步分词操作,得到对应的第一分词数据;

检测任意两个所述第一分词数据是否相同;

当存在两个所述第一分词数据相同时,获取相同的两个所述第一分词数据对应的留言用户身份编码;

检测两个所述留言用户身份编码是否相同;

当两个所述留言用户身份编码相同时,将其中一个所述留言用户身份编码对应的留言信息剔除。

在本实施例中,所述第一留言数据为各留言用户上传的留言信息中的具体内容,即留言详情,所述第一留言数据经过所述初步分词操作后,其中的重要留言信息被筛选出来,便于对每一个所述第一留言数据的具体内容的相似度进行判断。存在两个所述第一分词数据相同,表明了在多个留言详情中,存在有留言内容相同的情况,为了避免有的留言用户重复留言而导致处理效率下降的情况,对于留言详情相同的留言信息,需要进行精简。这样,当存在两个所述第一分词数据相同的情况下,获取相同的两个所述第一分词数据对应的留言用户身份编码,便于对留言详情相同的留言用户进行确定,而且,留言详情相同的两个所述留言用户身份编码如果相同,则表明了留言详情相同的上传者为相同的留言用户,即表明了存在同一个留言用户重复留言的情况,通过将其中一个所述留言用户身份编码对应的留言信息剔除,使得相同的留言信息的数量减少,降低了对留言文本信息的处理量,从而提高了对留言文本信息的处理效率。其中,删除的留言信息还有相同留言详情对应的留言主题以及留言用户身份编码。

进一步地,为了避免对同一个上传者使用多个留言用户身份编码进行重复留言导致的留言信息处理量上升的情况,所述检测两个所述留言用户身份编码是否相同,之后还包括以下步骤:

当两个所述留言用户身份编码不同时,对两个所述留言用户身份编码对应的所述第二留言数据进行初步分词操作,得到两个第二分词数据;

检测两个所述第二分词数据的匹配度是否大于或等于预设匹配值;

当两个所述第二分词数据的匹配度大于或等于所述预设匹配值时,剔除留言时间较大的留言信息。

在本实施例中,在两个所述第一留言数据相同的情况下,即两个留言详情相同的情况,虽然此时两个所述第一留言数据对应的留言用户身份编码不同,即两个相同的留言详情对应的留言用户不同,也即两个不同的留言用户上传的留言详情相同,但是,这里的留言用户身份编码仅仅是虚拟账户,可以是同一个上传者使用不同的虚拟账户进行留言的,这就有可能导致重复留言的情况,从而加重对留言文本信息的处理量。这样,检测两个所述第二分词数据的匹配度是否大于或等于预设匹配值,有助于分辨不同留言用户上传的留言是否存在留言重复的情况。而且,由于所述第二留言数据为留言主题,其经过分词处理后形成的分词数据更为突出,并且第二分词数据的数量减少,对所述第二留言数据进行分析,便于快速确定两个所述第二分词数据之间的匹配程度。两个所述第二分词数据的匹配度大于或等于所述预设匹配值,表明了两个相同的留言详情对应的留言主题之间的相似程度较高,即表明了两个相同的留言详情对应的留言主题有较多的相类似的分词,从而在相同的留言详情的情况下,便于确定不同的留言用户的留言主题相同,进而上述两个不同留言用户存在留言重复的情况。通过剔除留言时间较大的留言信息,使得重复留言的不同留言用户中的较晚上传留言的用户的留言信息删除,从而减少了后续对留言文本信息的合并分类操作以及聚类操作的数据量,进一步提高了对留言文本信息的处理效率。

应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

本申请还提供一种留言文本信息处理装置,其采用上述任一实施例中所述的留言文本信息处理方法实现。在其中一个实施例中,所述留言文本信息处理装置具有用于实现所述留言文本信息处理方法各步骤对应的功能模块。所述留言文本信息处理装置包括采集模块、第一处理模块、第二处理模块以及排序模块,其中:

采集模块,用于根据留言文本信息获取第一留言数据以及第二留言数据,其中,所述第一留言数据与留言文本信息中的留言详情对应,所述第二留言数据与留言文本信息中的留言主题对应;

第一处理模块,用于对所述第一留言数据以及所述第二留言数据进行合并分类操作,得到多类合并分词数据;

第二处理模块,用于对每一类合并分词数据分别进行聚类操作,得到多个聚类簇的聚类值;

排序模块,用于根据所述聚类值调整各聚类簇的排序优先级。

上述留言文本信息处理装置中,第一处理模块通过将留言主题以及留言详情进行合并分类,之后第二处理模块再对合并分词数据进行聚类操作,使得分词数据的种类减少,即减少了数据处理的数量,在第二处理模块获得对应的聚类值后,排序模块根据聚类值对留言进行不同优先级的排序,便于将留言文本信息的重要程度进行排序,从而便于对留言文本的内容进行快速分类,提高了对留言数据处理效率。

在其中一个实施例中,所述第二处理模块还用于对所述合并分词数据进行初步聚类操作,得到多个第一聚类簇;根据多个所述第一聚类簇获取多个第二聚类簇。在本实施例中,所述第二处理模块将所述合并分词数据经过所述初步聚类操作得到多个所述第一聚类簇,是对所述合并分词数据进行一次聚类,使得所述合并分词数据生成对应的聚类簇,即所述第一聚类簇,所述第二处理模块在根据所述第一聚类簇的中心进行聚类,从而使得所述第二聚类簇的聚类操作时基于所述第一聚类簇的,而在所述第一聚类簇具有聚类中心点的前提下,有效地提高了所述第二聚类簇的聚类效果。

进一步地,所述第二处理模块还用于对所述合并分词数据进行层次聚类。在本实施例中,在所述第二处理模块获取所述第二聚类簇之前,所述第二处理模块对所述合并分词数据进行层次聚类,所述层次聚类通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中,不同类别的原始数据点是树的最低层,树的顶层是一个聚类的根节点,即采用“自底向上”的聚类策略。具体思路是先将数据集中的每个样本看作一个初始聚类簇,然后找出两个聚类最近的两个簇进行合并,不断重复该步骤,直到达到预设的聚类个数或某种条件。其中利用平均距离来计算两个簇之间的距离。这样,在所述层次聚类后,所述第二处理模块根据所述合并分词数据形成多个所述第一聚类簇,而多个所述第一聚类簇提供了多个中心点,为获取所述第二聚类簇提供了质心,即所述层次聚集为所述第二聚类簇提供了聚类的中心点,便于将所述第一聚类簇的中心点作为形成所述第二聚类簇的聚类输入点,所述第二处理模块在确保了所述第二聚类簇的收敛的情况下,还提高了全局收敛效果。

进一步地,所述第二处理模块还用于对多个所述第一聚类簇进行二次聚类,得到多个所述第二聚类簇。在本实施例中,所述二次聚类是对所述第一聚类簇聚类,即所述二次聚类是对所述合并分词数据的再次聚类,也即所述二次聚类是基于所述层次聚类的再次聚类,使得所述合并分词数据的收敛效果提升。而且,所述第二处理模块在对所述合并分词数据经过两个不同的聚类后,使得所述合并分词数据形成的聚类簇的数量减少,减少了对各聚类簇的排序优先级的个数,进一步提高了所述第二聚类簇的聚类效果。

更进一步地,所述第二处理模块还用于获取各所述第一聚类簇的初始中心点;根据各所述初始中心点输出多个所述第二聚类簇。在本实施例中,所述二次聚类为K-Means聚类,K-Means聚类方法如下:(1)、随机确定k个初始点作为质心;(2)、将数据集中的每个点找到距离最近的质心,并将其分配到该质心对应的簇中;(3)、将每个簇的质心更新为该簇中所有点的平均值;(4)、重复第(2)、(3)步骤,直到簇的分配结果不再变化。在所述合并分词数据经过所述层次聚类之后,所述第一聚类簇的初始中心点作为K-Means聚类的中心点的输入,而且,所述第二处理模块将所述合并分词数据经过所述层次聚类之后形成的所述第一聚类簇的个数与K-Means聚类的K值相同,即多次随机选择中心点训练K-Means来确定一个合适K值,便于所述第二处理模块选择效果最好的聚类结果。

在其中一个实施例中,所述第一处理模块还用于对所述第一留言数据进行一次分词操作,得到留言详情属性数据;根据所述留言详情属性数据对所述第二留言数据进行二次分词操作,得到合并分词数据。在本实施例中,所述第一留言数据与留言详情相对应,所述第二留言数据与留言主题相对应,在所述第一处理模块对所述第二留言数据进行分类操作后,即所述第一处理模块对所述第二留言数据进行分词操作,形成的分类留言主题数据会存在丢失的情况。而这是由于在对所述第一留言数据和所述第二留言数据进行分词时,会将其中的重复分词数据进行删除,即保留其中一个分词,从而导致留言主题中的分词出现缺失的情况。为了避免上述情况,所述第一处理模块获取所述第一留言数据的留言详情属性数据,在所述留言详情属性数据的基础上,再对所述第二留言数据进行二次分词操作,使得所述第二留言数据经过分词后形成的重复分词保留,确保了所述合并分词数据中用于展示留言主题的分词,提高了留言主题的分词数据的完整性,降低了留言主题的分词数据的丢失率。

本申请还提供一种留言文本信息处理系统,包括:文本信息存储装置、答复文本信息处理装置以及上述任一实施例所述的留言文本信息处理装置;所述文本信息存储装置的第一输入端用于接收留言文本信息,所述文本信息存储装置的输出端与所述留言文本信息处理装置的输入端连接,所述留言文本信息处理装置的输出端与所述答复文本信息处理装置的输入端,所述答复文本信息处理装置的输出端与所述文本信息存储装置的第二输入端连接,所述答复文本信息处理装置用于向所述文本信息存储装置发送与所述留言文本信息对应的答复文本信息。

在本实施例中,留言文本信息处理装置中的第一处理模块通过将留言主题以及留言详情进行合并分类,之后留言文本信息处理装置中的第二处理模块再对合并分词数据进行聚类操作,使得分词数据的种类减少,即减少了数据处理的数量,在留言文本信息处理装置中的第二处理模块获得对应的聚类值后,排序模块根据聚类值对留言进行不同优先级的排序,便于将留言文本信息的重要程度进行排序,从而便于对留言文本的内容进行快速分类,提高了对留言数据处理效率。

在其中一个实施例中,文本信息存储装置、答复文本信息处理装置以及留言文本信息处理装置之间分别通过一通讯装置实现数据传输,例如,所述留言文本信息处理系统包括文本信息存储装置、答复文本信息处理装置、留言文本信息处理装置、第一通讯装置、第二通讯装置以及第三通讯装置,所述文本信息存储装置中涉及留言编号、留言用户、留言主题、留言详情、留言时间、答复留言、答复时间等多个用户留言信息和对应的多个答复信息;所述文本信息存储装置中用户通过填写留言主题、留言详情发布留言来寻求帮助;所述文本信息存储装置通过第一通讯装置给留言文本信息处理装置提供信息,包括各用户的留言主题、留言详情、留言时间等;所述留言文本信息处理装置中包含数据处理模块、模型识别模块、热度排序模块;所述留言文本信息处理装置通过第二通讯装置与所述答复文本信息处理装置信息交互;所述答复文本信息处理装置中包含多个答复模块;所述答复文本信息处理装置在自然语言处理技术系统的第二通讯装置处采集已分类好并按热度降序排序好的留言信息交付给相应的答复模块;所述答复文本信息处理装置通过第三通讯装置把答复意见、答复时间传达到文本信息存储装置相应位置。该留言文本信息处理系统通过在用户的留言信息获得数据,经过一定的处理后获得带有标签并按热度降序排序好的数据,根据标签把留言交付给各个答复模块处理,答复模块获取信息后进行答复。其中,所述第一通讯装置为数据库,所述第一通讯装置通过查询留言表中内容与所述留言文本信息处理装置信息交互;所述第二通讯装置为数据库,所述第二通讯装置通过查询模型和热度与答复文本信息处理装置进行信息交互;所述第三通讯装置为数据库,所述答复文本信息处理装置把答复意见、答复时间提交到数据库表中。

关于留言文本信息处理装置的具体限定可以参见上文中对于留言文本信息处理方法的限定,在此不再赘述。上述留言文本信息处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图2所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储留言文本信息中的留言主题、留言详情、留言编号、留言用户身份编码、留言时间、答复意见以及答复时间等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种留言文本信息处理方法。

本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在其中一个实施例中,本申请还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在其中一个实施例中,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

相关技术
  • 留言文本信息处理方法、装置、系统和计算机设备
  • 文本信息处理方法、系统、设备及计算机可读存储介质
技术分类

06120112901035