导航：首页> 石油、煤气及炼焦工业；含一氧化碳的工业气体；燃料；润滑剂；泥煤>信息处理方法和设备

信息处理方法和设备

文献发布时间：2023-06-19 13:26:15

技术领域

本申请实施例涉及但不限于电子与信息技术领域，尤其涉及一种信息处理方法和设备。

背景技术

业务系统中存在大量的业务文件，这些业务文件中会存一些异常文件，例如，信息未填写完整的文件、信息缺失的文件或者虚假文件等。

相关技术中需要工作人员对这些大量的业务文件逐一审核，从而确定业务文件中的异常文件，然而，这种确认异常文件的方式不仅效率低，还会浪费大量的人力资源。

发明内容

本申请实施例提供一种信息处理方法和设备。

本申请实施例提供一种信息处理方法，包括：

获取第一业务文件集合；所述第一业务文件集合中每个业务文件是在处理特定类型业务的情况下生成的；

对所述第一业务文件集合中每个业务文件中的业务信息进行分析，确定与所述第一业务文件集合对应的至少一个业务指标信息；

确定与所述至少一个业务指标信息分别对应的至少一个指标范围信息；所述至少一个指标范围信息用于对待分析的第二业务文件集合中每个业务文件的业务信息进行分析，确定所述第二业务文件集合中的异常业务文件。

在一些实施例中，所述第一业务文件集合包括第一部分业务文件集合；所述第一部分业务文件集合包括多个子业务文件集合，所述多个子业务文件集合分别从多个数据源获取；

所述对所述第一业务文件集合中每个业务文件中的业务信息进行分析，确定与所述第一业务文件集合对应的至少一个业务指标信息，包括：

确定与每个所述子业务文件集合对应的多个业务指标信息；

基于所述多个业务指标信息和与每个所述子业务文件集合对应的数据源的属性信息，确定所述至少一个业务指标信息。

在一些实施例中，所述第一业务文件集合包括第二部分业务文件集合；

所述对所述第一业务文件集合中每个业务文件中的业务信息进行分析，确定与所述第一业务文件集合对应的至少一个业务指标信息，包括：

从所述第二部分业务文件集合中每一业务文件的业务信息中提取关键词，得到关键词集合；

基于所述关键词集合中出现次数大于第一阈值的关键词，确定所述至少一个业务指标信息。

在一些实施例中，所述第一业务文件集合包括第三部分业务文件集合；

所述对所述第一业务文件集合中每个业务文件中的业务信息进行分析，确定与所述第一业务文件集合对应的至少一个业务指标信息，包括：

从所述第三部分业务文件集合中每一业务文件的业务信息中提取第一特征向量，得到特征向量集合；

对所述特征向量集合进行聚类，得到第一聚类结果；

基于所述第一聚类结果中每一个类别下的业务文件所对应的关键词，确定所述至少一个业务指标信息。

在一些实施例中，所述确定与所述至少一个业务指标信息分别对应的至少一个指标范围信息，包括：

确定所述至少一个业务指标信息中每一业务指标信息所对应的目标业务文件集合；所述目标业务文件集合包括在所述第一业务文件集合中；

确定所述目标业务文件集合中业务文件的数量，与所述第一业务文件集合中业务文件的数量的比值；

确定所述目标业务文件集合中业务文件的统计参数；

基于所述比值和/或所述统计参数，确定所述至少一个指标范围信息。

在一些实施例中，所述确定与所述至少一个业务指标信息分别对应的至少一个指标范围信息，包括：

确定与所述至少一个业务指标信息分别对应的至少一个第一范围信息；

获取预先规定的至少一个第二范围信息；

将所述至少一个第一范围信息和所述至少一个第二范围信息的并集，确定为所述至少一个指标范围信息。

在一些实施例中，所述确定与所述至少一个业务指标信息分别对应的至少一个指标范围信息，包括：

确定与所述至少一个业务指标信息分别对应的至少一个第一范围信息；

响应于针对所述至少一个第一范围信息中的目标范围信息进行修改的修改操作，得到所述至少一个指标范围信息。

在一些实施例中，所述确定与所述至少一个业务指标信息分别对应的至少一个指标范围信息之后，所述方法还包括：

确定所述第二业务文件集合中每一业务文件的第二特征向量；

对所述每一业务文件的第二特征向量进行降维，得到所述每一业务文件的第三特征向量；

对所述每一业务文件的第三特征向量进行聚类，得到第二聚类结果；

在显示的所述第二聚类结果中标记所述异常业务文件。

在一些实施例中，所述方法还包括：

从所述每一业务文件的第三特征向量中，确定与所述异常业务文件对应的目标特征向量；

获取所述目标特征向量的至少一个临近特征向量；

从所述第二业务文件集合中，确定与所述至少一个临近特征向量对应的特定业务文件；

将所述特定业务文件关联的对象，确定为待关注对象。

本申请实施例提供一种信息处理设备，包括：存储器和处理器，

所述存储器存储有可在所述处理器上运行的计算机程序，

所述处理器执行所述计算机程序时上述方法中的步骤。

本申请实施例中，通过对第一业务文件集合中每个业务文件中的业务信息进行分析，确定与第一业务文件集合对应的至少一个业务指标信息，然后确定与至少一个业务指标信息分别对应的至少一个指标范围信息，从而能够通过历史得到的第一业务文件集合中的业务文件，自动的确定出指标范围信息，进而能够采用指标范围信息对得到的业务文件确认是否为异常业务文件，不仅确定异常文件的效率高，还减少了人力资源的浪费。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本申请实施例提供的一种信息处理方法的实现流程示意图；

图2为本申请实施例提供的另一种信息处理方法的实现流程示意图；

图3为本申请实施例提供的又一种信息处理方法的实现流程示意图；

图4为本申请实施例提供的再一种信息处理方法的实现流程示意图；

图5为本申请另一实施例提供的一种信息处理方法的实现流程示意图；

图6为本申请实施例提供的一种信息处理装置的组成结构示意图；

图7为本申请实施例提供的一种信息处理设备的硬件实体示意图。

具体实施方式

下面将通过实施例并结合附图具体地对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

需要说明的是：在本申请实例中，“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

另外，本申请实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

本申请实施例将以特定类型业务为售后服务业务，来对信息处理方法进行举例说明，需要注意的是，在特定类型业务为其它业务的情况下，可以参照售后服务业务的举例。

在服务的体系中存在大量的商业售后维修服务站，服务站聘用工程师提供实际的售后维修服务，但在实际提供售后维修服务的过程中存在着供应商、服务站或者工程师等不同维度的虚假开单行为，此类情况对公司的运营发展造成破坏导致较为严重的经济损失，鉴于此需要采取一种切实有效的监管机制进行高效的管控以解决此类问题。

针对服务体系中虚假开单的问题往往采用人工筛查的方式进行考核筛选，采取的策略是监管人员通过汇集大量的供应商、服务站、工程师等维度的工单数据，使用凝练的业务指标对大量的工单数据进行计算评估，依据总体的工单数据在各个业务指标上的数据分布状况并推断出较为异常的数据指标，最终在较为异常的数据中筛选出存在虚假开单等违规作弊行为的服务站或者工程师。

然而，采用人工筛查的解决办法需要监管人员对业务体系、供应链、渠道结构、运营体系等方面具备较深层次的认知，对监管人员的从业经验、行业经历、从事相关领域工作的年限等因素要求极高。构建业务指标人工筛查的方法高度依赖业务分析专家的业务水平以及经验水准，评估指标的适用性、有效性与监管人员的行业经验水准直接相关。违规筛查所用的指标数据严重依赖领域经验，领域知识的可复用性与扩展性较低，难于参照已有经验对近似应用场景进行知识迁移与应用，并且这种人工构建指标数据进行筛查的应用方式针对初学者的上手难度较高。

图1为本申请实施例提供的一种信息处理方法的实现流程示意图，如图1所示，该方法应用于信息处理设备，该方法包括：

S101、获取第一业务文件集合；所述第一业务文件集合中每个业务文件是在处理特定类型业务的情况下生成的。

信息处理设备可以包括处理器、处理器集群、芯片或芯片集群，以使处理器、处理器集群、芯片或芯片集群执行本申请实施例中的信息处理方法。在另一些实施例中，信息处理设备可以执行本申请实施例中的信息处理方法。

信息处理设备可以包括以下之一或者至少两者的组合：服务器、手机(MobilePhone)、平板电脑(Pad)、带无线收发功能的电脑、掌上电脑、台式计算机、个人数字助理、便捷式媒体播放器、智能音箱、导航装置、智能手表、智能眼镜、智能项链等可穿戴设备、计步器、数字TV、虚拟现实(VirtualReality，VR)终端设备、增强现实(Augmented Reality，AR)终端设备、工业控制(Industrial Control)中的无线终端、无人驾驶(Self Driving)中的无线终端、远程手术(Remote Medical Surgery)中的无线终端、智能电网(Smart Grid)中的无线终端、运输安全(Transportation Safety)中的无线终端、智慧城市(Smart City)中的无线终端、智慧家庭(Smart Home)中的无线终端、车联网系统中的车、车载设备、车载模块等等。

在一些实施例中，特定类型业务可以是预先定义的业务类型。在另一些实施例中，信息处理设备可以接收用户针对显示的多个类型业务中特定类型业务的操作，确定特定类型业务。

特定类型业务可以包括以下至少之一：服务业务(例如，售后服务业务、售中服务业务、售前服务业务、咨询业务等中的至少之一)、票据业务、问卷调查业务等。

第一业务文件集合中的所有业务文件可以具有是否为异常业务文件的标签，这些是否为异常业务文件的标签可以是事先标定的。在另一些实施例中，第一业务文件集合中的部分业务文件可以具有是否为异常业务文件的标签，另一部分业务不具有是否为异常业务文件的标签。

在一些实施场景中，在处理售后服务业务的情况下，例如，工程师在对产品进行维修后，可以填写工单上的信息，例如，工程师、故障说明、维修部件、维修费用、产品型号、故障图像等中的至少之一，从而生成一个业务工单，这个业务工单即是业务文件。在另一些实施场景中，一个业务文件可以是在处理特定类型业务的情况下产生的发票等票据文件(例如，酒店发票、乘车发票、购物发票等)。在又一些实施场景中，一个业务文件可以在处理问卷调查业务的情况下生成的问卷调查。本申请实施例不限定第一业务文件是如何得到，只需要第一业务文件能够表征出处理特定业务类型即可。

第一业务文件集合可以包括多个子业务文件集合，不同子业务文件集合中的子业务文件，是在处理不同的特定类型业务的情况下生成的，和/或，不同子业务文件集合中的子业务文件，生成于不同的地理位置(例如不同的行政区)。

S102、对所述第一业务文件集合中每个业务文件中的业务信息进行分析，确定与所述第一业务文件集合对应的至少一个业务指标信息。

业务信息可以业务文件中的全部信息或者部分信息。例如，业务信息可以是业务文件中的与业务相关的信息。示例性地，以业务文件为业务工单的情况下，业务信息可以包括以下至少之一：工程师、故障说明、维修部件。再示例性地，在业务文件为票据文件的情况下，业务信息可以包括以下至少之一：票据文件的上传者、票据文件中的购买方信息、销售方信息、货物或应税劳务、服务名称等。

示例性地，至少一个业务指标信息可以包括以下至少之一：工程师对应各个设备的比例(例如，工程师对应手机的比例、工程师对应电脑的比例等)、凭发票保修的业务工单的比例、同一张发票多次使用的比例、产品的某个部件故障的次数、服务站维修某个产品的次数等等，本申请实施例对至少一个业务指标信息的确定不作限制。

至少一个业务指标信息用于关注第一业务文件集合中的各个指标，因为在相关人员需要确认异常业务文件的情况下，根本就不知道如何选取用于评估的业务指标信息。而本申请实施例中，通过确定第一业务文件集合对应的至少一个业务指标信息，从而至少一个业务指标信息的确定，能够与第一业务文件集合的业务信息中对应，提高了确定的至少一个业务指标信息的针对性。

S103、确定与所述至少一个业务指标信息分别对应的至少一个指标范围信息；所述至少一个指标范围信息用于对待分析的第二业务文件集合中每个业务文件的业务信息进行分析，确定所述第二业务文件集合中的异常业务文件。

至少一个业务指标信息可以与至少一个指标范围信息具有一一对应的关系。例如，在某一个业务指标信息为A的情况下，该业务指标信息对应的指标范围可以为A＞α且A≤β，α大于β。再例如，在某一个业务指标信息为B的情况下，该业务指标信息对应的指标范围可以为γ≤B≤δ。

在一些实施例中，可以显示至少一个业务指标信息，以使用户确定至少一个指标范围信息，并通过向信息处理设备输入至少一个指标范围信息，从而使信息处理设备得到至少一个指标范围信息。在这种情况下，用户可以确定每个业务指标信息对应的指标范围信息。

在另一些实施例中，可以基于至少一个业务指标信息在第一业务文件集合中分布情况，确定至少一个指标范围信息。例如，通过确定与业务指标信息A关联的第一业务文件集合中的业务文件有哪些，与业务指标信息B关联的第一业务文件集合中的业务文件有哪些等等，从而能够确定至少一个业务指标信息中的每个业务指标信息关联的第一业务文件集合中的业务文件，从而基于每个业务指标信息关联的第一业务文件集合中的业务文件的统计参数，确定至少一个指标范围信息。其中，统计参数可以包括以下至少之一：通过加、减、乘、除、指数运算、对数运算中的至少一个运算得到的值、平均数、中位数、众数、最小值、最大值、方差、标准差、分位数等。

在一些实施例中，信息处理设备确定的至少一个指标范围信息，可以为正常业务文件所对应的至少一个指标范围信息，这样，在采用至少一个指标范围信息对第二业务文件集合进行分析的情况下，可以确定第二业务文件集合中每个文件的业务指标信息，并将处于至少一个指标范围信息之内的业务文件，确定为正常业务文件；将处于至少一个指标范围信息之外的业务文件，确定为异常业务文件。

在另一些实施例中，信息处理设备确定的至少一个指标范围信息，可以包括正常业务文件所对应的至少一个指标范围信息，以及异常业务文件所对应的至少一个指标范围信息。这样，将处于正常业务文件所对应的至少一个指标范围信息之内的业务文件，确定为正常业务文件；将处于异常业务文件所对应的至少一个指标范围信息之内的业务文件，确定为异常业务文件；将处于正常业务文件所对应的至少一个指标范围信息之外，且处于异常业务文件所对应的至少一个指标范围信息之外色业务文件，确定为待关注业务文件。待关注业务文件可以通过其它方式判断为正常业务文件或异常业务文件，或者，可以显示待关注业务文件，以使相关工作人员确定为正常业务文件或异常业务文件。

第二业务文件集合可以包括多个业务文件，可以对第二业务文件集合中每个对象(例如、工程师、服务站或供应商等)关联的至少一个业务文件的指标值，将该指标值与至少一个指标范围信息相匹配，如果该指标值在对应的一个指标范围信息之内，则表明该关联的至少一个业务文件为正常业务文件。

例如，至少一个指标范围信息可以包括：用于维修主板的工程师维修主板的比例在大于0.7的范围内，如果第二业务文件集合中张三维修主板，张三关联的第二业务文件集合中的业务文件中，维修主板的比例为0.8，则表明张三关联的第二业务文件集合中的业务文件为正常业务文件；如果张三关联的第二业务文件集合中的业务文件中，维修主板的比例为0.5，则表明张三关联的第二业务文件集合中的业务文件为异常业务文件。

在一些实施例中，第一业务文件集合可以包括多个不同的业务文件集合，不同的业务文件集合通过不同的方式，确定不同的业务文件集合对应的至少一个业务指标信息。例如，第一业务文件集合可以包括以下至少之一：第一部分业务文件集合、第二部分业务文件集合以及第三部分业务文件集合。

以下说明确定第一部分业务文件集合对应的至少一个业务指标信息的方式：

所述第一业务文件集合包括第一部分业务文件集合；所述第一部分业务文件集合包括多个子业务文件集合，所述多个子业务文件集合分别从多个数据源获取；所述对所述第一业务文件集合中每个业务文件中的业务信息进行分析，确定与所述第一业务文件集合对应的至少一个业务指标信息，包括：确定与每个所述子业务文件集合对应的多个业务指标信息；基于所述多个业务指标信息和与每个所述子业务文件集合对应的数据源的属性信息，确定所述至少一个业务指标信息。

多个数据源中不同的数据源可以包括以下至少之一不同：供应商不同、服务站不同、服务地区不同(例如，服务省市区不同)。

在一些实施例中，确定与每个所述子业务文件集合对应的多个业务指标信息可以包括：对每个所述子业务文件集合中每个业务文件中的业务信息进行分析，确定与所述对每个所述子业务文件集合对应的多个业务指标信息。在另一些实施例中，确定与每个所述子业务文件集合对应的多个业务指标信息可以包括：通过人工对每个所述子业务文件集合中的业务文件进行分析，确定每个所述子业务文件集合对应的多个业务指标信息。

数据源的属性信息可以包括：数据源对应的供应商、数据源对应的服务站、数据源对应的服务地区。

至少一个业务指标信息可以包括：多个服务地区中每个服务地区所对应的至少一个业务指标信息，不同的服务地区所对应的至少一个业务指标信息不同；或者可以包括：多个服务站中每个服务站所对应的至少一个业务指标信息，不同的服务站所对应的至少一个业务指标信息不同。

确定所述至少一个业务指标信息，可以包括：确定不同数据源的属性信息中每个属性信息所对应的至少一个业务指标信息。在一个属性信息对应于至少两个子业务文件集合的情况下，可以确定至少两个子业务文件集合分别对应的多个业务指标信息，然后将分别对应的多个业务指标信息的并集，确定为该属性信息对应的至少一个业务指标信息。

在本申请实施例中，通过使用当前体系中存在的数据进行处理分析，获取可用的数据分析评估维度等信息，针对数据实体规模较大的情况，可对大批量数据进行大数据统计分析，将多个不同数据源数据进行采集、整合，利用分布式数据库或者分布式计算集群来对存储海量结构化、非结构化数据进行普通的分析和分类汇总等处理，提取蕴含于数据中的关键信息以满足实际的分析及使用需求。

以下说明确定第二部分业务文件集合对应的至少一个业务指标信息的方式：

所述第一业务文件集合包括第二部分业务文件集合；所述对所述第一业务文件集合中每个业务文件中的业务信息进行分析，确定与所述第一业务文件集合对应的至少一个业务指标信息，包括：从所述第二部分业务文件集合中每一业务文件的业务信息中提取关键词，得到关键词集合；基于所述关键词集合中出现次数大于第一阈值的关键词，确定所述至少一个业务指标信息。

在一些实施例中，可以采用自然语言处理(Natural Language Processing，NLP)策略，从每一业务文件的业务信息中提取关键词，得到关键词集合。

关键词可以是与产品的部件相关的信息。例如，关键词可以为主板、显示屏、键盘等。在一些实施例中，某一个业务文件的业务信息包括：主板故障，更换主板，从该业务文件的业务信息中提取的关键词为主板。

在一些实施例中，关键词集合中存在50个关键词A，20个关键词B以及5个关键词C，在第一阈值为10的情况下，可以基于关键词A和关键词B确定至少一个业务指标信息。在一些实施例中，第一阈值的大小可以与第一业务文件集合中的业务文件的数量相关，例如，第一阈值可以与第一业务文件集合中的业务文件的数量的比值为一个固定值。在另一些实施例中，第一阈值可以为固定的一个值。

在一些实施例中，可以将出现次数大于第一阈值的关键词直接确定为至少一个业务指标信息。在另一些实施例中，可以基于出现次数大于第一阈值的关键词，以及对应的工程师、服务站、供应商、服务地区中的至少一者，确定至少一个业务指标信息。例如，大于第一阈值的关键词为主板，至少一个业务指标信息可以为服务地区关联的主板、工程师关联的主板、服务站关联的主板、供应商关联的主板中的至少一个。

在本申请实施例中，运用自然语言处理策略提取所需的关键信息，利用实际数据中的维修记录、工单记录等文本信息作为原始数据并对其进行进一步的处理分析，由于常规的文本信息不能直接用于机器学习，可以经过一定的预处理操作转化为机器能识别的语言形式。采取自然语言处理策略的典型步骤为分词，词干提取，词性标注，去除停用词等处理步骤，通过前述操作从中提取关键词作为实际所需的维度特征。

以下说明确定第三部分业务文件集合对应的至少一个业务指标信息的方式：

所述第一业务文件集合包括第三部分业务文件集合；所述对所述第一业务文件集合中每个业务文件中的业务信息进行分析，确定与所述第一业务文件集合对应的至少一个业务指标信息，包括：从所述第三部分业务文件集合中每一业务文件的业务信息中提取第一特征向量，得到特征向量集合；对所述特征向量集合进行聚类，得到第一聚类结果；基于所述第一聚类结果中每一个类别下的业务文件所对应的关键词，确定所述至少一个业务指标信息。

在一些实施例中，可以确定与业务信息对应的第一特征向量，得到特征向量集合。在另一些实施例中，可以对每一业务文件的业务信息进行关键词提取，得到每一业务文件对应的关键词，从而基于每一业务文件对应的关键词，得到每一业务文件的第一特征向量，得到特征向量集合。

特征向量集合中每个向量的维度相同，维度可以为预设值，在基于业务信息或者关键词得到的向量的维度不为预设值的情况下，可以对得到的向量进行维度压缩或维度扩展，以使向量的维度达到预设值。

基于所述第一聚类结果中每一个类别下的业务文件所对应的关键词，确定所述至少一个业务指标信息，可以包括：对每一个类别下的每一个业务文件提取关键词，得到每一个类别对应的多个关键词，将多个关键词中出现次数大于第二阈值的关键词，确定为每一个类别对应的业务指标信息，从而基于将每一个类别对应的业务指标信息的并集，确定为至少一个业务指标信息。

在本申请实施例中，通过对数据进行无监督分析处理获取关键信息。基于无监督学习的聚类分析能够发现数据本身的规律和模式，与有监督学习相比无监督不需要对数据进行标记，从而能够节约大量的人力物力成本。通过聚类分析可以发现隐藏于数据中的簇，同时也可以分化出离群数据，还能够对高维度特征的数据进行数据降维，提取数据中的主要特征。

运用数据处理分析等策略从已有的数据中提取出有效的信息作为维度特征，将提取出的具象化的维度特征作为诚信评估指标(及上述的至少一个业务指标信息)。

图2为本申请实施例提供的另一种信息处理方法的实现流程示意图，如图2所示，该方法应用于信息处理设备，该方法包括：

S201、获取第一业务文件集合；所述第一业务文件集合中每个业务文件是在处理特定类型业务的情况下生成的。

S202、对所述第一业务文件集合中每个业务文件中的业务信息进行分析，确定与所述第一业务文件集合对应的至少一个业务指标信息。

S203、确定所述至少一个业务指标信息中每一业务指标信息所对应的目标业务文件集合；所述目标业务文件集合包括在所述第一业务文件集合中。

S204、确定所述目标业务文件集合中业务文件的数量，与所述第一业务文件集合中业务文件的数量的比值。

例如，某一个业务指标信息为工程师李四对应的主板，则可以确定工程师李四对应的主板相关的目标业务文件集合。

S205、确定所述目标业务文件集合中业务文件的统计参数。

统计参数可以包括以下至少之一：通过加、减、乘、除、指数运算、对数运算中的至少一个运算得到的值、平均数、中位数、众数、最小值、最大值、方差、标准差、分位数等。

S206、基于所述比值和/或所述统计参数，确定所述至少一个指标范围信息。

本申请实施例不限定基于所述比值和/或所述统计参数，确定所述至少一个指标范围信息的方式，任何基于所述比值和/或所述统计参数，确定所述至少一个指标范围信息的方式都应该在本申请的保护范围之内。例如，基于最小值和最大值，确定至少一个指标范围信息；或者，基于比值，确定至少一个指标范围信息，或者基于比值和平均数，确定至少一个指标范围信息等等。

在本申请实施例中，在已经获取维度特征作为诚信评估指标(对应至少一个业务指标信息)的基础上，可按照维度特征对数据进行整合、汇集，按照不同的指标计算汇集原始数据，计算出原始数据在各项指标数据的实际分布、占比等。针对不同指标数据进行统计学维度的计算，计算各项指标数据的总和、均值、极值、标准差等数据。通过各项指标数据在统计维度的分布表现，按照指标数据占比等具体情况对指标数据进行分析，获取合理的指标评估参数(对应少一个指标范围信息)。

通过对各个维度特征进行计算汇集生成业务指标数据，并对各项业务指标数据进行统计计算测算出各项指标的统计学测度数据，进一步设定各项指标数据的评估参数，从而使后续诚信分析能够依照指标分析的设计进行诚信评估分析。

图3为本申请实施例提供的又一种信息处理方法的实现流程示意图，如图3所示，该方法应用于信息处理设备，该方法包括：

S301、获取第一业务文件集合；所述第一业务文件集合中每个业务文件是在处理特定类型业务的情况下生成的。

S302、对所述第一业务文件集合中每个业务文件中的业务信息进行分析，确定与所述第一业务文件集合对应的至少一个业务指标信息。

S303、确定与所述至少一个业务指标信息分别对应的至少一个第一范围信息。

S304、获取预先规定的至少一个第二范围信息。

S305、将所述至少一个第一范围信息和所述至少一个第二范围信息的并集，确定为所述至少一个指标范围信息。

图4为本申请实施例提供的再一种信息处理方法的实现流程示意图，如图4所示，该方法应用于信息处理设备，该方法包括：

S401、获取第一业务文件集合；所述第一业务文件集合中每个业务文件是在处理特定类型业务的情况下生成的。

S402、对所述第一业务文件集合中每个业务文件中的业务信息进行分析，确定与所述第一业务文件集合对应的至少一个业务指标信息。

S403、确定与所述至少一个业务指标信息分别对应的至少一个第一范围信息。

S404、响应于针对所述至少一个第一范围信息中的目标范围信息进行修改的修改操作，得到所述至少一个指标范围信息。

通过这种方式，在得到至少一个第一范围信息之后，还可以对至少一个第一范围信息进行显示，以使人工确定至少一个第一范围信息中的不合理的目标范围信息，并对目标范围信息进行修改的修改操作，得到所述至少一个指标范围信息，从而提高了确定的至少一个指标范围信息的准确性。

在本申请实施例中，利用前项生成的评判指标数据(对应至少一个业务指标信息)以及通过指标分析所获得的合理的指标评估参数(对应至少一个指标范围信息)，可对具体数据进行诚信评估，在指标评估参数的限定范围之内的数据在该指标下为正常数据，分布在指标评估参数的限定范围之外则为该指标下的异常数据。

在诚信评判分析中，可纳入常规的业务分析规则对诚信分析进行补充与强化，通过实测对照等测试引入适用的业务评判准则。在诚信分析推算评估结果后，可引入业务分析专家对分析结果进行评估判断，通过引入业务专家分析测度对分析结果准确性进行提升。

图5为本申请另一实施例提供的一种信息处理方法的实现流程示意图，如图5所示，该方法应用于信息处理设备，该方法包括：

S501、获取第一业务文件集合；所述第一业务文件集合中每个业务文件是在处理特定类型业务的情况下生成的。

S502、对所述第一业务文件集合中每个业务文件中的业务信息进行分析，确定与所述第一业务文件集合对应的至少一个业务指标信息。

S503、确定与所述至少一个业务指标信息分别对应的至少一个指标范围信息；所述至少一个指标范围信息用于对待分析的第二业务文件集合中每个业务文件的业务信息进行分析，确定所述第二业务文件集合中的异常业务文件。

S504、确定所述第二业务文件集合中每一业务文件的第二特征向量。

在一些实施例中，可以将与每一业务文件的业务信息对应的特征向量，确定为每一业务文件的第二特征向量。在另一些实施例中，可以对每一业务文件的业务信息进行关键词提取，得到每一业务文件对应的关键词，从而基于每一业务文件对应的关键词，得到每一业务文件的第二特征向量。

S505、对所述每一业务文件的第二特征向量进行降维，得到所述每一业务文件的第三特征向量。

第三特征向量的维度可以是二维或者三维，以能够容易地对每一业务文件的第三特征向量进行可视化展示。

S506、对所述每一业务文件的第三特征向量进行聚类，得到第二聚类结果。

S507、在显示的所述第二聚类结果中标记所述异常业务文件。

在本申请实施例中，将多维度或者高维度的数据指标进行缩减，并将数据量化映射在三维立体空间或者二维平面空间进行表征。使用三维立体空间或者二维平面空间的量化数据进行可视化展示，从而获取整体数据在三维立体空间或者二维平面空间的整体分布态势。

在一些实施例中，信息处理方法还可以包括：从所述每一业务文件的第三特征向量中，确定与所述异常业务文件对应的目标特征向量；获取所述目标特征向量的至少一个临近特征向量；从所述第二业务文件集合中，确定与所述至少一个临近特征向量对应的特定业务文件；将所述特定业务文件关联的对象，确定为待关注对象。

待关注对象可以是工程师、服务站、供应商、服务地区等。

目标特征向量中可以包括一个或多个向量，临近特征向量可以是一个或多个向量中每个向量的临近向量，每个向量的临近向量的数量可以是至少一个。每个向量的临近向量的数量可以预先设定，或者，每个向量的临近向量的数量不预先设定，而是根据与每个向量与其它向量之间的特征距离来确定，例如，在小于设定值的特征距离越多时，可以确定临近向量的数量越多，在小于设定值的特征距离越少时，可以确定临近向量的数量越少。

在本申请实施例中，利用三维立体空间或者二维平面空间的量化数据，结合前述诚信分析结果中的异常数据作为种子数据，通过测算三维立体空间或者二维平面空间的量化个体与种子数据的近邻关系，从其中计算挖掘疑似的个体数据，从而保障诚信分析的结果更全面可靠。

在本申请实施例中，通过数据分析提取特征构建考核指标，基于不同特征的属性指标对待评估数据进行分析评估，生成分析结果数据，针对数据特征维度较高的情况进行降维并生成可视化图示结果，从立体空间距离等分析维度结合已有的标注数据、分析结果关联疑似人员，从而可以进一步挖掘高疑似作弊人员。通过采用基于机器学习的半监督反作弊应用解决方案，能够有效的利用已有的数据构建特征，充分高效地利用现有的资源；由于采用半监督的学习方式，使得学习器不依赖于外界交互、自动地利用未标记样本数据提升最终的作弊识别性能；该解决方案能够有力的辅助业务分析专家进行辅助决策判别或承担人工筛查的工作职能，并且借助计算机与算法的组合能够极大的提升工作效率，进一步降低人力的投入成本，从而降本增效；该解决方案便于通过数据、具体算法模型调节的方式实现对不同应用场景的算法适配与迁移应用。

在本申请实施例中，基于服务工单数据、维修记录等数据结合自然语言处理、大数据分析、广义文本聚类分析等技术处理手段挖掘关键的语义信息，抽取其中的主要信息作为维度特征进行数据分析，避免了通过人工筛选方式操控海量数据，并且有效的规避了对监管从业者领域经验的高度依赖。

通过已有数据经过汇总整理抽取关键的信息而得，评估指标构建与设计摆脱了对人工的依赖，通过大数据、自然语言处理等技术加持能够更全面的挖掘全量信息，避免人工筛选时由于领域认知局限导致有效指标缺少、遗漏等问题。

评估指标的有效性、适用性与生成指标所运用数据质量与算法处理逻辑相关，通过预先良好的数据预处理操作以及应用成熟的算法解决方案，能够提升评估指标的有效性与实际场景适用性。

利用数据与算法组合的形式能够具备更强场景适用性与可迁移性，可依据实际的使用需求进行应用场景调整迁移，实际的迁移调整仅对实际运用的数据进行预处理、算法进行优化调节即可实现，实际的应用转换与拓展更为简便。

经过高维度数据降维压缩处理提取维度数据中的主成分关键信息，利用分离的关键信息在三维立体空间或者二维平面空间构建实际数据的分布呈现，通过数据图示化展示能够对实际数据的整体分布进行更为直观的感知。

针对降维后数据可在立体空间或者平面空间进行空间近距关联，通过同属性或者类别空间分布近似的特性进一步挖掘疑似诚信违规作弊记录，从而避免对不良记录数据的筛查遗漏。

在应用的现实场景中可依据实际的业务需求对使用场景进行可视化定制，利用压缩后维度特征在空间中的分布态势进行可视化展示，通过立体或者平面坐标系直观展示实测数据整体的分布状态以及聚合、游离状态，从而能够对正常数据与异常数据产生更为直观的认知。

基于前述的实施例，本申请实施例提供一种信息处理装置，该装置包括所包括的各单元、以及各单元所包括的各模块，可以通过信息处理设备中的处理器来实现；当然也可通过具体的逻辑电路实现。

图6为本申请实施例提供的一种信息处理装置的组成结构示意图，如图6所示，信息处理装置600包括：

获取单元601，用于获取第一业务文件集合；所述第一业务文件集合中每个业务文件是在处理特定类型业务的情况下生成的；

分析单元602，用于对所述第一业务文件集合中每个业务文件中的业务信息进行分析，确定与所述第一业务文件集合对应的至少一个业务指标信息；

确定单元603，用于确定与所述至少一个业务指标信息分别对应的至少一个指标范围信息；所述至少一个指标范围信息用于对待分析的第二业务文件集合中每个业务文件的业务信息进行分析，确定所述第二业务文件集合中的异常业务文件。

在一些实施例中，所述第一业务文件集合包括第一部分业务文件集合；所述第一部分业务文件集合包括多个子业务文件集合，所述多个子业务文件集合分别从多个数据源获取；分析单元602，还用于确定与每个所述子业务文件集合对应的多个业务指标信息；基于所述多个业务指标信息和与每个所述子业务文件集合对应的数据源的属性信息，确定所述至少一个业务指标信息。

在一些实施例中，所述第一业务文件集合包括第二部分业务文件集合；分析单元602，还用于从所述第二部分业务文件集合中每一业务文件的业务信息中提取关键词，得到关键词集合；基于所述关键词集合中出现次数大于第一阈值的关键词，确定所述至少一个业务指标信息。

在一些实施例中，所述第一业务文件集合包括第三部分业务文件集合；分析单元602，还用于从所述第三部分业务文件集合中每一业务文件的业务信息中提取第一特征向量，得到特征向量集合；对所述特征向量集合进行聚类，得到第一聚类结果；基于所述第一聚类结果中每一个类别下的业务文件所对应的关键词，确定所述至少一个业务指标信息。

在一些实施例中，确定单元603，还用于确定所述至少一个业务指标信息中每一业务指标信息所对应的目标业务文件集合；所述目标业务文件集合包括在所述第一业务文件集合中；确定所述目标业务文件集合中业务文件的数量，与所述第一业务文件集合中业务文件的数量的比值；确定所述目标业务文件集合中业务文件的统计参数；基于所述比值和/或所述统计参数，确定所述至少一个指标范围信息。

在一些实施例中，确定单元603，还用于确定与所述至少一个业务指标信息分别对应的至少一个第一范围信息；获取预先规定的至少一个第二范围信息；将所述至少一个第一范围信息和所述至少一个第二范围信息的并集，确定为所述至少一个指标范围信息。

在一些实施例中，确定单元603，还用于确定与所述至少一个业务指标信息分别对应的至少一个第一范围信息；响应于针对所述至少一个第一范围信息中的目标范围信息进行修改的修改操作，得到所述至少一个指标范围信息。

在一些实施例中，确定单元603，还用于确定所述第二业务文件集合中每一业务文件的第二特征向量；对所述每一业务文件的第二特征向量进行降维，得到所述每一业务文件的第三特征向量；对所述每一业务文件的第三特征向量进行聚类，得到第二聚类结果；在显示的所述第二聚类结果中标记所述异常业务文件。

在一些实施例中，确定单元603，还用于从所述每一业务文件的第三特征向量中，确定与所述异常业务文件对应的目标特征向量；获取所述目标特征向量的至少一个临近特征向量；从所述第二业务文件集合中，确定与所述至少一个临近特征向量对应的特定业务文件；将所述特定业务文件关联的对象，确定为待关注对象。

以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述的信息处理方法，并作为独立的产品销售或使用时，也可以存储在一个计算机存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台信息处理设备执行本申请各个实施例所述方法的全部或部分。

图7为本申请实施例提供的一种信息处理设备的硬件实体示意图，如图7所示，该信息处理设备700的硬件实体包括：处理器701和存储器702，其中，存储器702存储有可在处理器701上运行的计算机程序，处理器701执行程序时实现上述任一实施例的方法中的步骤。

存储器702存储有可在处理器上运行的计算机程序，存储器702配置为存储由处理器701可执行的指令和应用，还可以缓存待处理器701以及信息处理设备700中各模块待处理或已经处理的数据(例如，图像数据、音频数据、语音通信数据和视频通信数据)，可以通过闪存(FLASH)或随机访问存储器(Random Access Memory，RAM)实现。

处理器701执行程序时实现上述任一项的信息处理方法的步骤。处理器701通常控制信息处理设备700的总体操作。

本申请实施例提供一种计算机存储介质，计算机存储介质存储有一个或者多个程序，该一个或者多个程序可被一个或者多个处理器执行，以实现如上任一实施例的信息处理方法的步骤。

这里需要指出的是：以上存储介质和设备实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请存储介质和设备实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

上述信息处理装置、芯片或处理器可以包括以下任一个或多个的集成：特定用途集成电路(Application Specific Integrated Circuit，ASIC)、数字信号处理器(DigitalSignal Processor，DSP)、数字信号处理装置(Digital Signal Processing Device，DSPD)、可编程逻辑装置(Programmable Logic Device，PLD)、现场可编程门阵列(FieldProgrammable Gate Array，FPGA)、中央处理器(Central Processing Unit，CPU)、图形处理器(Graphics Processing Unit，GPU)、嵌入式神经网络处理器(neural-networkprocessing units，NPU)、控制器、微控制器、微处理器、可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以理解地，实现上述处理器功能的电子器件还可以为其它，本申请实施例不作具体限定。

上述计算机存储介质/存储器可以是只读存储器(Read Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory，FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory，CD-ROM)等存储器；也可以是包括上述存储器之一或任意组合的各种终端，如移动电话、计算机、平板设备、个人数字助理等。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”或“本申请实施例”或“前述实施例”或“一些实施方式”或“一些实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”或“本申请实施例”或“前述实施例”或“一些实施方式”或“一些实施例”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在未做特殊说明的情况下，信息处理设备执行本申请实施例中的任一步骤，可以是信息处理设备的处理器执行该步骤。除非特殊说明，本申请实施例并不限定信息处理设备执行下述步骤的先后顺序。另外，不同实施例中对数据进行处理所采用的方式可以是相同的方法或不同的方法。还需说明的是，本申请实施例中的任一步骤是信息处理设备可以独立执行的，即信息处理设备执行上述实施例中的任一步骤时，可以不依赖于其它步骤的执行。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本申请的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接或可以相互通讯；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请实施例中，不同实施例中相同步骤和相同内容的说明，可以互相参照。在本申请实施例中，术语“并”不对步骤的先后顺序造成影响，例如，信息处理设备执行A，并执行B，可以是信息处理设备先执行A，再执行B，或者是信息处理设备先执行B，再执行A，或者是信息处理设备执行A的同时执行B。

值得注意的是，本申请实施例中的附图只是为了说明各个器件在信息处理设备上的示意位置，并不代表在信息处理设备中的真实位置，各器件或各个区域的真实位置可根据实际情况(例如，信息处理设备的结构)作出相应改变或偏移，并且，图中的信息处理设备中不同部分的比例并不代表真实的比例。

在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

需要说明的是，本申请所涉及的各个实施例中，可以执行全部的步骤或者可以执行部分的步骤，只要能够形成一个完整的技术方案即可。

以上所述，仅为本申请的实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：鲍金玉;杨晨光;王萌;
专利申请人：联想(北京)有限公司;

上一篇：机构码生成方法、系统及存储介质
下一篇：一种耐水钢丝绳润滑脂组合物及其制备方法