掌桥专利:专业的专利平台
掌桥专利
首页

数据分类方法、装置、设备、介质、车辆及云端服务器

文献发布时间:2024-04-18 19:58:30


数据分类方法、装置、设备、介质、车辆及云端服务器

技术领域

本公开涉及数据处理技术领域,尤其涉及一种数据分类方法、装置、设备、介质、车辆及云端服务器。

背景技术

现有技术中,为了获取用户对产品的口碑,需要从网络上获取大量的舆情数据。如:通过对舆情数据分析,可以得到舆情数据的功能分类,如:车道保持或者车道偏离预警等。但是,上述结果需要人工逐一去分析舆情数据,这样就会出现不同的人在分析相同的舆情数据时,所得到的舆情数据的功能分类存在差异,导致功能分类的分析效率较低。

发明内容

为了解决上述技术问题,本公开提供了一种数据分类方法、装置、设备、介质、车辆及云端服务器,用于解决现有技术中在对舆情数据进行分析时,需要人工逐一去分析舆情数据,这样导致舆情数据的分析效率较低的问题。

为达到上述目的,本公开采用如下技术方案:

第一方面,本公开提供了一种数据分类方法,包括:获取待分析舆情数据;将待分析舆情数据输入至预先配置的主题模型中,确定待分析舆情数据在每个功能分类上的第一分类概率;将待分析舆情数据进行分词,确定待分析舆情数据包括的至少一个分词;将待分析舆情数据输入至预先配置的决策模型中,确定待分析舆情数据在每个功能分类上的第二分类概率;对第一分类概率和第二分类概率进行融合处理,确定待分析舆情数据在每个功能分类上的融合概率;根据融合分类概率为待分析舆情数据匹配对应的功能分类。

在一些可实施的示例中,预先配置的主题模型的训练过程如下:获取第一训练样本数据和训练监督数据;其中,第一训练样本数据和训练监督数据二者均包括至少一条第一舆情数据,每个第一舆情数据包括一个或者多个第一训练分词;针对第一训练样本数据中的每个第一舆情数据,执行如下操作:将第一舆情数据对应的所有第一训练分词输入至隐含狄利克雷分布模型进行训练,得到目标模型;基于训练监督数据对目标模型进行验证,直至目标模型的验证结果满足预设条件,得到预先配置的主题模型。

在一些可实施的示例中,将待分析舆情数据输入至预先配置的主题模型中,确定待分析舆情数据在每个功能分类上的第一分类概率,包括:对待分析舆情数据进行分词,确定待分析舆情数据包括的至少一个第一分词;将所有第一分词输入至预先配置的主题模型中,确定待分析舆情数据在每个功能分类上的第一分类概率。

在一些可实施的示例中,预先配置的决策模型的训练过程如下:获取第二训练样本数据;其中,第二训练样本数据包括至少一条第二舆情数据,每个第二舆情数据包括一个或者多个第二训练分词;针对第二训练样本数据中的每个第二舆情数据,执行如下操作:将第二舆情数据对应的所有第二训练分词输入至基于决策树算法的分布式梯度提升框架模型中,依次训练至少一个决策树,直到每个决策树的训练残差满足目标条件时,得到预先配置的决策模型。

在一些可实施的示例中,将待分析舆情数据输入至预先配置的决策模型中,确定待分析舆情数据在每个功能分类上的第二分类概率,包括:对待分析舆情数据进行分词,确定待分析舆情数据包括的至少一个第二分词;将第二分词输入至预先配置的决策模型中,确定待分析舆情数据在每个功能分类上的第二分类概率。

在一些可实施的示例中,对待分析舆情数据进行分词,包括:采用自然语言处理对待分析舆情数据进行分词。

在一些可实施的示例中,对第一分类概率和第二分类概率进行融合处理,确定待分析舆情数据在每个功能分类上的融合概率,包括:对第一分类概率和第二分类概率进行求和处理,确定待分析舆情数据在每个功能分类上的融合概率。

在一些可实施的示例中,根据融合分类概率为待分析舆情数据匹配对应的功能分类,包括:根据融合概率,确定最大的融合概率对应的功能分类为待分析舆情数据的功能分类。

第二方面,本公开提供了一种数据分类装置,包括:获取单元,用于获取待分析舆情数据;处理单元,用于将获取单元获取的待分析舆情数据输入至预先配置的主题模型中,确定待分析舆情数据在每个功能分类上的第一分类概率;处理单元,还用于将获取单元获取的待分析舆情数据输入至预先配置的决策模型中,确定待分析舆情数据在每个功能分类上的第二分类概率;处理单元,还用于对第一分类概率和第二分类概率进行融合处理,确定待分析舆情数据在每个功能分类上的融合概率;处理单元,还用于根据融合分类概率为待分析舆情数据匹配对应的功能分类。

在一些可实施的示例中,预先配置的主题模型的训练过程如下:获取单元,还用于获取第一训练样本数据和训练监督数据;其中,第一训练样本数据和训练监督数据二者均包括至少一条第一舆情数据,每个第一舆情数据包括一个或者多个第一训练分词;处理单元,还用于针对第一训练样本数据中的每个第一舆情数据,执行如下操作:将获取单元获取的第一舆情数据对应的所有第一训练分词输入至隐含狄利克雷分布模型进行训练,得到目标模型;处理单元,还用于基于获取单元获取的训练监督数据对目标模型进行验证,直至目标模型的验证结果满足预设条件,得到预先配置的主题模型。

在一些可实施的示例中,处理单元,具体用于对获取单元获取的待分析舆情数据进行分词,确定待分析舆情数据包括的至少一个第一分词;处理单元,具体用于将所有第一分词输入至预先配置的主题模型中,确定待分析舆情数据在每个功能分类上的第一分类概率。

在一些可实施的示例中,预先配置的决策模型的训练过程如下:获取单元,还用于获取第二训练样本数据;其中,第二训练样本数据包括至少一条第二舆情数据,每个第二舆情数据包括一个或者多个第二训练分词;处理单元,还用于针对第二训练样本数据中的每个第二舆情数据,执行如下操作:将获取单元获取的第二舆情数据对应的所有第二训练分词输入至基于决策树算法的分布式梯度提升框架模型中,依次训练至少一个决策树,直到每个决策树的训练残差满足目标条件时,得到预先配置的决策模型。

在一些可实施的示例中,处理单元,具体用于对获取单元获取的待分析舆情数据进行分词,确定待分析舆情数据包括的至少一个第二分词;处理单元,具体用于将第二分词输入至预先配置的决策模型中,确定待分析舆情数据在每个功能分类上的第二分类概率。

在一些可实施的示例中,处理单元,具体用于对第一分类概率和第二分类概率进行求和处理,确定待分析舆情数据在每个功能分类上的融合概率。

在一些可实施的示例中,处理单元,具体用于根据融合概率,确定最大的融合概率对应的功能分类为待分析舆情数据的功能分类。

第三方面,本公开提供一种电子设备,包括:存储器和处理器,存储器用于存储计算机程序;处理器用于在执行计算机程序时,使得电子设备实现如上述第一方面提供的数据分类方法。

第四方面,本公开提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,当计算机程序被计算设备执行时,使得计算设备实现如上述第一方面提供。

第五方面,本公开提供一种车辆或云端服务器,包括如第二方面提供的数据分类装置。

在本公开中,上述数据分类装置的名字对设备或功能模块本身不构成限定,在实际实现中,这些设备或功能模块可以以其他名称出现。只要各个设备或功能模块的功能和本公开类似,属于本公开权利要求及其等同技术的范围之内。

本公开的这些方面或其他方面在以下的描述中会更加简明易懂。

本公开提供的技术方案与现有技术相比具有如下优点:

通过预先配置的主题模型和预先配置的决策模型,这样在分析待分析舆情数据时,可以将待分析舆情数据输入至预先配置的主题模型中,确定待分析舆情数据在每个功能分类上的第一分类概率。之后,通过预先配置的决策模型,再次对待分析舆情数据进行分析,确定待分析舆情数据在每个功能分类上的第二分类概率。之后,通过对第一分类概率和第二分类概率进行融合处理,从而得到待分析舆情数据在每个功能分类上的融合概率。最后,根据融合概率,为待分析舆情数据匹配对应的功能分类。由于,无需人工去逐一标注待分析舆情数据的功能分类,这样可以大大提高待分析舆情数据的功能分类的分析效率,解决了现有技术中在对舆情数据进行分析时,需要人工逐一去分析舆情数据,这样导致舆情数据的分析效率较低的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种数据分类方法的流程示意图之一;

图2为本公开实施例提供的一种数据分类方法的流程示意图之二;

图3为本公开实施例提供的一种数据分类方法的流程示意图之三;

图4为本公开实施例提供的一种数据分类方法的流程示意图之四;

图5为本公开实施例提供的一种数据分类方法的流程示意图之五;

图6为本公开实施例提供的一种数据分类方法的流程示意图之六;

图7为本公开实施例提供的一种数据分类方法的流程示意图之七;

图8为本公开实施例提供的一种数据分类装置的结构示意图;

图9为本公开实施例提供的一种电子设备的结构示意图;

图10为本公开实施例提供的一种数据分类方法的计算机程序产品的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。

需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

本公开实施例中的舆情数据是指通过舆情系统获取的数据。其中,舆情系统是指对信息收集系统上报的数据进行挖掘,得到用于描述交通工具领域的具体功能(如:自动驾驶、自动泊车等)及观点(不好,体验较差等)等数据。

本公开实施例提供的数据分类方法,通过预先配置的主题模型和预先配置的决策模型,这样在分析待分析舆情数据时,可以将待分析舆情数据输入至预先配置的主题模型中,确定待分析舆情数据在每个功能分类上的第一分类概率。同时,将待分析舆情数据输入至预先配置的决策模型中,确定待分析舆情数据在每个功能分类上的第二分类概率;最后,对第一分类概率和第二分类概率进行融合处理,确定待分析舆情数据在每个功能分类上的融合概率。之后,根据融合概率,为待分析舆情数据匹配对应的功能分类。具体的实现过程如下:

本申请实施例的数据分类方法的执行主体为数据分类装置,该数据分类装置可设置于电子设备中,其中,电子设备可以包括智能手机、个人计算机、服务器以及车载终端等,本实施例对此不进行限定。当该电子设备为车载终端时,电子设备的处理器可以为车辆的控制器。

示例性的,以执行本公开实施例提供的数据分类方法的执行主体为服务器为例,对本公开实施例所提供的文本数据分类方法进行介绍。

如图1所示,本公开实施例提供的数据分类方法包括以下步骤S11-S14的内容:

S11、获取待分析舆情数据。

在一些示例中,舆情数据包括用户在论坛或者社区上发布的帖子中包含的数据,和/或通过客户关系管理(Customer Relationship Management,CRM)提取的工单中包含的数据。

需要说明的是,上述示例是以舆情数据包括用户在论坛或者社区上发布的帖子中包含的信息,和/或通过CRM提取的工单中包含的信息为例进行说明的。在其他的一些示例中,舆情数据包括网络上用于描述汽车的具体功能以及观点的数据,此处不做限定。

S12、将待分析舆情数据输入至预先配置的主题模型中,确定待分析舆情数据在每个功能分类上的第一分类概率。

S13、将待分析舆情数据输入至预先配置的决策模型中,确定待分析舆情数据在每个功能分类上的第二分类概率。

S14、对第一分类概率和第二分类概率进行融合处理,确定待分析舆情数据在每个功能分类上的融合概率。

在一些示例中,可以根据第一分类概率和第二分类概率之和,确定融合概率。或者,可以根据第一分类概率和第二分类概率的平均值,确定融合概率。或者,根据预先配置的第一分类概率的权重值,以及第二分类概率的权重值,以及第一分类概率和第二分类概率,确定融合概率。其中,P=ω

具体的,不同的功能分类,对应的ω

具体的,由于一个功能分类对应一个融合概率,因此可以根据融合概率,确定待分析舆情数据的功能分类。如:在仅存在一个最大的融合概率的情况下,确定最大的融合概率对应的功能分类为待分析舆情数据的功能分类。或者,在仅存在两个或者多个相同的最大的融合概率的情况下,获取该待分析舆情数据对应的词向量与每个功能分类对应的标签关键词的词向量的相似度。之后,选择最大的相似度对应的标签关键词所归属的功能分类为该待分析舆情数据的功能分类。

S15、根据融合概率,为待分析舆情数据匹配对应的功能分类。

在一些示例中,用户可以根据实际需要进行功能分类的领域划分。如:该领域为高级驾驶辅助系统(Advanced Driving Assistance System,ADAS)时,可以创建一个或者多个一级分类,每个一级分类下对应一个或者多个二级类别,一个二级类别对应一个功能分类,不同二级类别对应的标签关键词不同。

示例性的,用户可以将ADAS领域划分1个一级分类,和2个二级类别,划分后的功能分类如表1所示。

表1

如此,在设定了ADAS领域中每个一级分类对的每个二级类别后,通过计算待分析舆情数据在每个功能分类上的第一分类概率和第二分类概率对应的融合概率,从而可以根据融合概率,为待分析舆情数据匹配对应的功能分类。如,将最大的融合概率对应的功能分类作为该待分析舆情数据的功能分类。

具体的,功能分类的划分的一级分类和二级类别的数量越多,信息挖掘覆盖度越高。如:在ADAS领域,用户可以设置6个一级分类,21个二级类别,以精准定位待分析舆情数据所描述的功能,即该待分析舆情数据所归属的功能分类。

在一些示例中,待分析舆情数据包括一个或者多个短句,不同的短句所表达的意思可能存在差异。这样在根据相似度,为待分析舆情数据匹配对应的功能分类时,每个短句可能对应一个功能分类,如此,在根据融合概率,为待分析舆情数据匹配对应的功能分类时,需要确定待分析舆情数据中包含的每个短句对应的功能分类,之后通过将每个短句对应的功能分类进行汇总,就可以得到对应该待分析舆情数据的功能分类。如,在待分析舆情数据中仅包含一个短句的情况下,该待分析舆情数据对应的功能分类为该短句对应的功能分类。在待分析舆情数据中包含多个短句的情况下,该待分析舆情数据对应的功能分类为每个短句对应的功能分类。

具体的,功能分类用于描述待分析舆情数据的功能倾向。如:由表1可知,待分析舆情数据为“车道保持不错”,此时通过本公开实施例提供的数据分类方法,确定“车道保持不错”在每个功能分类上对应融合概率。之后,确定最大的融合概率对应的功能分类为“车道保持”。因此,可以确定待分析舆情数据“车道保持不错”对应的功能分类为“车道保持”。

又或者,由表1可知,待分析舆情数据为“车道偏离预警效果差强人意”,此时通过本公开实施例提供的数据分类方法,确定“车道偏离预警”在每个功能分类上对应融合概率。之后,确定最大的融合概率对应的功能分类为“ACC-车道偏离预警”。因此,可以确定待分析舆情数据“车道偏离预警效果差强人意”对应的功能分类为“ACC-车道偏离预警”。

又或者,由表1可知,待分析舆情数据为“车道保持不错,但车道偏离预警效果差强人意”,此时通过本公开实施例提供的数据分类方法,确定短句“车道保持不错”在每个功能分类上对应融合概率。之后,确定最大的融合概率对应的功能分类为“车道保持”。因此,可以确定待分析舆情数据“车道保持不错”对应的功能分类为“车道保持”。同时,通过本公开实施例提供的数据分类方法,确定短句“但车道偏离预警效果差强人意”在每个功能分类上对应融合概率。之后,确定最大的融合概率对应的功能分类为“ACC-车道偏离预警”。因此,可以确定待分析舆情数据“但车道偏离预警效果差强人意”对应的功能分类为“ACC-车道偏离预警”。之后,可以确定待分析舆情数据为“车道保持不错,但车道偏离预警效果差强人意”对应的功能分类为:短句“车道保持不错”对应的功能分类为“ACC-车道保持”,短句“但车道偏离预警效果差强人意”对应的功能分类为“ACC-车道偏离预警”。

需要说明的是,上述示例是以领域为ADAS时,可以创建一个或者多个一级分类,每个一级分类下对应一个或者多个二级类别,一个二级类别对应一个功能分类,不同二级类别对应的标签关键词不同为例进行说明的。在其他的一些示例中,用户可以设置多级分类,如:一级分类、二级分类、三级类别等。此时,功能分类对应该多级分类的最后一级的类别。如:多级分类的最后一级的类别为三级类别,则一个功能分类对应一个三级类别。

由上述可知,采用本公开实施例提供的数据分类方法对待分析舆情数据进行分析时,无需人工去逐一标注待分析舆情数据的功能分类,这样可以大大提高待分析舆情数据的功能分类的分析效率,解决了现有技术中在对舆情数据进行分析时,需要人工逐一去分析舆情数据,这样导致舆情数据的分析效率较低的问题。

在一些可实施的示例中,结合图1,如图2所示,本公开实施例提供的预先配置的主题模型的训练过程包括S16-S18。

S16、获取第一训练样本数据和训练监督数据。其中,第一训练样本数据和训练监督数据二者均包括至少一条第一舆情数据,每个第一舆情数据包括一个或者多个第一训练分词。

S17、针对第一训练样本数据中的每个第一舆情数据,执行如下操作:将第一舆情数据对应的所有第一训练分词输入至隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型进行训练,得到目标模型。

S18、基于训练监督数据对目标模型进行验证,直至目标模型的验证结果满足预设条件,得到预先配置的主题模型。

在一些示例中,训练监督数据还包括每条第一舆情数据的功能分类,在基于训练监督数据对目标模型进行验证时,若该目标模型预测的功能分类与该第一舆情数据对应的功能分类不同时,此时继续训练该目标模型,直至目标模型的验证结果满足预设条件,如:预设条件包括目标模型预测的功能分类与该第一舆情数据对应的功能分类的匹配成功率大于目标阈值(如:95%)时,得到预先配置的主题模型。

在一些可实施的示例中,结合图1,如图3所示,上述S12具体可以通过下述S120和S121实现。

S120、对待分析舆情数据进行分词,确定待分析舆情数据包括的至少一个第一分词。

在一些示例中,可以采用自然语言处理对待分析舆情数据进行分词,确定待分析舆情数据包括的至少一个第一分词。

需要说明的是,上述示例是以采用自然语言处理对待分析舆情数据进行分词,确定待分析舆情数据包括的至少一个第一分词为例进行说明的。在其他的在一些示例中,还可以采用正向最大匹配法,反向最大匹配法等对训练舆情数据进行分词处理,确定至少一个第一分词,此处不做限定。

S121、将所有第一分词输入至预先配置的主题模型中,确定待分析舆情数据在每个功能分类上的第一分类概率。

具体的,在将第一分词输入至预先配置的主题模型时,若待分析舆情数据包括1个短句时,将该短句对应的所有第一分词输入至预先配置的主题模型中。若待分析舆情数据包括2个及以上的短句时,分别将每个短句对应的所有第一分词依次输入至预先配置的主题模型中。

在一些可实施的示例中,结合图1,如图4所示,本公开实施例提供的预先配置的决策模型的训练过程包括S19和S20。

S19、获取第二训练样本数据;其中,第二训练样本数据包括至少一条第二舆情数据,每个第二舆情数据包括一个或者多个第二训练分词。

S20、针对第二训练样本数据中的每个第二舆情数据,执行如下操作:将第二舆情数据对应的所有第二训练分词输入至基于决策树算法的分布式梯度提升框架(LightGradient Boosting Machine,LightGBM)模型中,依次训练至少一个决策树,直到每个决策树的训练残差满足目标条件时,得到预先配置的决策模型。

在一些示例中,目标条件可以是训练残差小于或等于预设阈值,当每个决策树的训练残差小于或等于预设阈值时,停止训练,得到该预先配置的决策模型。

或者,目标条件可以是训练残差连续N次循环不再变化,如N等于5。此时,当每个决策树的训练残差连续5次循环不再变化时,停止训练,得到该预先配置的决策模型。

在一些可实施的示例中,结合图1,如图5所示,上述S13具体可以通过下述S130和S131实现。

S130、对待分析舆情数据进行分词,确定待分析舆情数据包括的至少一个第二分词。

需要说明的是,对待分析舆情数据进行分词,确定待分析舆情数据包括的至少一个第二分词的过程,与对待分析舆情数据进行分词,确定待分析舆情数据包括的至少一个第一分词的过程类似,此处不再赘述。

S131、将第二分词输入至预先配置的决策模型中,确定待分析舆情数据在每个功能分类上的第二分类概率。

具体的,在将第二分词输入至预先配置的决策模型时,若待分析舆情数据包括1个短句时,将该短句对应的所有第二分词输入至预先配置的决策模型中。若待分析舆情数据包括2个及以上的短句时,分别将每个短句对应的所有第二分词依次输入至预先配置的决策模型中。

在一些可实施的示例中,结合图1,如图6所示,上述S14具体可以通过下述S140实现。

S140、对第一分类概率和第二分类概率进行求和处理,确定待分析舆情数据在每个功能分类上的融合概率。

在一些可实施的示例中,结合图1,如图7所示,上述S15具体可以通过下述S150实现。

S150、根据融合概率,确定最大的融合概率对应的功能分类为待分析舆情数据的功能分类。

具体的,电子设备为智能手机、个人计算机或者车载终端时执行本公开实施例所提供的文本数据分类方法的流程,与电子设备为服务器时执行本公开实施例所提供的文本数据分类方法的流程相同,此处不再赘述。

上述主要从方法的角度对本公开实施例提供的方案进行了介绍。为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。

本公开实施例可以根据上述方法示例对数据分类装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本公开实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

如图8所示,为本公开实施例提供的一种数据分类装置10的结构示意图。包括获取单元101和处理单元102。

获取单元101,用于获取待分析舆情数据;处理单元102,用于将获取单元101获取的待分析舆情数据输入至预先配置的主题模型中,确定待分析舆情数据在每个功能分类上的第一分类概率;处理单元102,还用于将获取单元101获取的待分析舆情数据输入至预先配置的决策模型中,确定待分析舆情数据在每个功能分类上的第二分类概率;处理单元102,还用于对第一分类概率和第二分类概率进行融合处理,确定待分析舆情数据在每个功能分类上的融合概率;处理单元102,还用于根据融合分类概率为待分析舆情数据匹配对应的功能分类。

在一些可实施的示例中,预先配置的主题模型的训练过程如下:获取单元101,还用于获取第一训练样本数据和训练监督数据;其中,第一训练样本数据和训练监督数据二者均包括至少一条第一舆情数据,每个第一舆情数据包括一个或者多个第一训练分词;处理单元102,还用于针对第一训练样本数据中的每个第一舆情数据,执行如下操作:将获取单元101获取的第一舆情数据对应的所有第一训练分词输入至隐含狄利克雷分布模型进行训练,得到目标模型;处理单元102,还用于基于获取单元101获取的训练监督数据对目标模型进行验证,直至目标模型的验证结果满足预设条件,得到预先配置的主题模型。

在一些可实施的示例中,处理单元102,具体用于对获取单元101获取的待分析舆情数据进行分词,确定待分析舆情数据包括的至少一个第一分词;处理单元102,具体用于将所有第一分词输入至预先配置的主题模型中,确定待分析舆情数据在每个功能分类上的第一分类概率。

在一些可实施的示例中,预先配置的决策模型的训练过程如下:获取单元101,还用于获取第二训练样本数据;其中,第二训练样本数据包括至少一条第二舆情数据,每个第二舆情数据包括一个或者多个第二训练分词;处理单元102,还用于针对第二训练样本数据中的每个第二舆情数据,执行如下操作:将获取单元101获取的第二舆情数据对应的所有第二训练分词输入至基于决策树算法的分布式梯度提升框架模型中,依次训练至少一个决策树,直到每个决策树的训练残差满足目标条件时,得到预先配置的决策模型。

在一些可实施的示例中,处理单元102,具体用于对获取单元101获取的待分析舆情数据进行分词,确定待分析舆情数据包括的至少一个第二分词;处理单元102,具体用于将第二分词输入至预先配置的决策模型中,确定待分析舆情数据在每个功能分类上的第二分类概率。

在一些可实施的示例中,处理单元102,具体用于采用自然语言处理对待分析舆情数据进行分词。

在一些可实施的示例中,处理单元102,具体用于对第一分类概率和第二分类概率进行求和处理,确定待分析舆情数据在每个功能分类上的融合概率。

在一些可实施的示例中,处理单元102,具体用于根据融合概率,确定最大的融合概率对应的功能分类为待分析舆情数据的功能分类。

其中,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,其作用在此不再赘述。

当然,本公开实施例提供的数据分类装置10包括但不限于上述模块,例如数据分类装置10还可以包括存储单元103。存储单元103可以用于存储该写数据分类装置10的程序代码,还可以用于存储数据分类装置10在运行过程中生成的数据,如写请求中的数据等。

图9为本公开实施例提供的一种电子设备的结构示意图,如图9所示,该电子设备可以包括:至少一个处理器51、存储器52、通信接口53和通信总线54。

下面结合图9对电子设备10的各个构成部件进行具体的介绍:

其中,处理器51是电子设备的控制中心,可以是一个处理器,也可以是多个处理元件的统称。例如,处理器51是一个中央处理器(Central Processing Unit,CPU),也可以是特定集成电路(Application Specific Integrated Circuit,ASIC),或者是被配置成实施本公开实施例的一个或多个集成电路,例如:一个或多个DSP,或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,FPGA)。

在具体的实现中,作为一种实施例,处理器51可以包括一个或多个CPU,例如图9中所示的CPU0和CPU1。且,作为一种实施例,电子设备可以包括多个处理器,例如图9中所示的处理器51和处理器55。这些处理器中的每一个可以是一个单核处理器(Single-CPU),也可以是一个多核处理器(Multi-CPU)。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

存储器52可以是只读存储器(Read-Only Memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(Random Access Memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器52可以是独立存在,通过通信总线54与处理器51相连接。存储器52也可以和处理器51集成在一起。

在具体的实现中,存储器52,用于存储本公开中的数据和执行本公开的软件程序。处理器51可以通过运行或执行存储在存储器52内的软件程序,以及调用存储在存储器52内的数据,执行空调器的各种功能。

通信接口53,使用任何收发器一类的装置,用于与其他设备或通信网络通信,如无线接入网(Radio Access Network,RAN),无线局域网(Wireless Local Area Networks,WLAN)、终端、云端等。通信接口53可以包括获取单元,以实现获取功能。

通信总线54,可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component Interconnect,PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

为一个示例,结合图8,数据分类装置10中的获取单元101实现的功能与图9中的通信接口53的功能相同,数据分类装置10中的处理单元102实现的功能与图9中的处理器51的功能相同,数据分类装置10中的存储单元103实现的功能与图9中的存储器52的功能相同。

本公开另一实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当计算机程序被计算设备执行时,使得计算设备执行上述方法实施例所示的方法。

在一些实施例中,所公开的方法可以实施为以机器可读格式被编码在计算机可读存储介质上的或者被编码在其它非瞬时性介质或者制品上的计算机程序指令。

图10示意性地示出本公开实施例提供的计算机程序产品的概念性局部视图,所述计算机程序产品包括用于在计算设备上执行计算机进程的计算机程序。

在一个实施例中,计算机程序产品是使用信号承载介质410来提供的。所述信号承载介质410可以包括一个或多个程序指令,其当被一个或多个处理器运行时可以提供以上针对图1描述的功能或者部分功能。因此,例如,参考图1中所示的实施例,S11-S14的一个或多个特征可以由与信号承载介质410相关联的一个或多个指令来承担。此外,图10中的程序指令也描述示例指令。

在一些示例中,信号承载介质410可以包含计算机可读介质411,诸如但不限于,硬盘驱动器、紧密盘(CD)、数字视频光盘(DVD)、数字磁带、存储器、只读存储记忆体(read-only memory,ROM)或随机存储记忆体(random access memory,RAM)等等。

在一些实施方式中,信号承载介质410可以包含计算机可记录介质412,诸如但不限于,存储器、读/写(R/W)CD、R/W DVD、等等。

在一些实施方式中,信号承载介质410可以包含通信介质413,诸如但不限于,数字和/或模拟通信介质(例如,光纤电缆、波导、有线通信链路、无线通信链路、等等)。

信号承载介质410可以由无线形式的通信介质413(例如,遵守IEEE 802.41标准或者其它传输协议的无线通信介质)来传达。一个或多个程序指令可以是,例如,计算设备可执行指令或者逻辑实施指令。

在一些示例中,诸如针对图8描述的数据分类装置10可以被配置为,响应于通过计算机可读介质411、计算机可记录介质412、和/或通信介质413中的一个或多个程序指令,提供各种操作、功能、或者动作。

本公开的其他实施例还提供一种车辆,包括如上所述数据分类装置或电子设备,或者车辆的控制器可以用来执行如上所述的数据分类方法。作为其他实施例,上述执行的服务器可以为云端服务器。

通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。

在本公开所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本公开实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

相关技术
  • 车辆重定位方法、装置、车载设备、服务器及存储介质
  • 一种车辆保险提示方法、云端服务器、系统及存储介质
  • 知识社区中内容数据的管理及查看方法及其装置、设备/终端/服务器、计算机可读介质
  • 服务器代码部署方法、装置、服务器设备及存储介质
  • 数据分类方法、装置、终端设备和存储介质
  • 一种车辆云端数据采集系统架构的获取方法、装置、设备及介质
  • 车辆数据管理方法、装置、终端设备、服务器及存储介质
技术分类

06120116501420