掌桥专利:专业的专利平台
掌桥专利
首页

一种特征标签生成方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 13:49:36


一种特征标签生成方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机技术领域,尤其涉及一种特征标签生成方法、装置、电子设备及存储介质。

背景技术

在大数据时代,如何从海量数量中获取到重要的信息是人们广泛关注的问题。目前,一些业务系统(如设备指纹、端安全等)会采集海量数据(如设备数据、用户行为数据等),基于这些数据的特征产生大量的标签,供应用方(如反爬、反作弊等)使用。其中,特征是固有属性的描述,例如人的身高、体重,等等,再例如,用户登录的次数。而标签则是根据固有属性产生的认知,例如用户在短时间内登录的次数过多,可能是存在异常行为的用户。相关技术中的标签平台,可以在一定程度上满足标签的生成的需求,但是其功能较为单一。

发明内容

本发明实施例提供一种特征标签生成方法、装置、电子设备及存储介质,以解决相关技术中的问题。

本发明的目的是通过以下技术方案实现的:

第一方面,本发明实施例提供一种特征标签生成方法,包括:

获取输入的与源数据对应的配置信息,所述配置信息包括至少一个待生成标签的生成规则,以及生成所述待生成标签所需的至少一个待生成特征的生成规则;

按照所述待生成特征的生成规则,生成所述待生成特征,以及按照所述待生成标签的生成规则,利用所述待生成特征,生成所述待生成标签,将生成的所述待生成特征和所述待生成标签一同存储到数据库中。

第二方面,本发明实施例提供一种特征标签生成装置,包括:

配置获取模块,用于获取输入的与源数据对应的配置信息,所述配置信息包括至少一个待生成标签的生成规则,以及生成所述待生成标签所需的至少一个待生成特征的生成规则;

生成存储模块,用于按照所述待生成特征的生成规则,生成所述待生成特征,以及按照所述待生成标签的生成规则,利用所述待生成特征,生成所述待生成标签,将生成的所述待生成特征和所述待生成标签一同存储到数据库中。

第三方面,本发明实施例提供一种电子设备,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如第一方面中任一项所述的特征标签生成方法的步骤。

第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面中任一项所述的特征标签生成方法的步骤。

上述技术方案中的优点或有益效果至少包括:可以基于输入的源数据对应的配置信息中的待生成特征和标签的生成规则,生成的待生成特征和待生成标签并一同存储到数据库中,如此,在得到标签的同时也得到了特征,与相关技术中仅保留标签的方案相比,在后续用到该特征时,无需再重复生成特征,提高了特征、标签生成效率,降低了特征生成的成本,并且特征和标签可以统一生成、存储,也降低了维度成本,为特征、标签的提供者提供了便利。

上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

图1是本发明实施例提供的一种示例性的特征标签生成方法的流程图;

图2是本发明实施例提供的一种示例性的系统框架图;

图3是本发明实施例提供的一种示例性的特征标签生成方法的流程图;

图4是本发明实施例提供的一种示例性的特征标签生成装置的结构示意图;

图5是本发明实施例提供的一种示例性的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1是本发明实施例提供的一种示例性的特征标签生成方法的流程图。如图1所示,该特征标签生成方法至少包括如下步骤:

步骤101、获取输入的与源数据对应的配置信息,所述配置信息包括至少一个待生成标签的生成规则,以及生成所述待生成标签所需的至少一个待生成特征的生成规则。

这里的源数据即采集的原始数据,包含至少一个数据字段的数据。

特征和标签可以包括统计类,规则类,等等。

其中,统计类是基于源数据统计得到的。例如,交易次数、近几日登录次数等用户状态的描述,是统计类特征。再例如,交易次数大于预设次数的用户,为统计类标签。

其中,规则类可以是基于源数据的统计以及设定的规则产生的。例如,手机号是否符合规范,位数是否为标准位数,需要设定规则产生,为规则类标签。再例如,用户是男还是女,是规则类特征。

实际应用中,服务端可以提供一特征标签一体化平台,向该平台中输入上述配置信息即可。

步骤102、按照所述待生成特征的生成规则,生成所述待生成特征,以及按照所述待生成标签的生成规则,利用所述待生成特征,生成所述待生成标签,将生成的所述待生成特征和所述待生成标签一同存储到数据库中。

在实现本发明的过程中,发明人发现:相关技术中,在一种应用场景中,模型训练时所使用的特征,生成特征的逻辑都在模型内部,这样就无法实现模型间的特征共享,而且特征的生成成本、维护成本等相对较高。在另一种应用场景中,特征和标签通过不同的平台管理,对于特征或者标签的提供者而言,无法生成特征与标签组合出来的标签,对于特征或者标签的用户(即使用者)而言,没有统一的使用方式,从而在一定程度上造成生成、维护、使用成本都很高的现状。

而本实施例中,可以基于输入的源数据对应的配置信息中的待生成特征和标签的生成规则,生成待生成特征和待生成标签并一同存储到数据库中,如此,在得到标签的同时也得到了特征,与相关技术中仅保留标签的方案相比,在后续用到该特征时,无需再重复生成特征,提高了特征、标签生成效率,降低了特征生成的成本,并且特征和标签可以统一生成、存储,也降低了维度成本,为特征、标签的提供者提供了便利。

在示例性实施例中,所述配置信息还包括生成所述待生成标签所需的历史生成并存储的至少一个标签和/或特征。相应的,所述利用所述待生成特征,生成所述待生成标签,其具体实现方式可以包括:利用生成的所述待生成特征以及所述历史生成并存储的至少一个标签和/或特征,生成所述待生成标签。

实际应用中,生成待生成标签时,还可以利用已经生成并存储的标签和/或特征,无需再重新生成,提高了标签生成的效率,并且,可以通过特征和标签的组合,生成一个新的标签,标签生成的方式更灵活、多样。

在示例性实施例中,所述配置信息还可以包括所述待生成特征和所述待生成标签的类型,所述按照所述待生成特征的生成规则,生成所述待生成特征,以及按照所述待生成标签的生成规则,利用所述待生成特征,生成所述待生成标签,将生成的所述待生成特征和所述待生成标签一同存储到数据库中,其具体实现方式可以包括:基于所述类型对应的计算引擎,按照所述待生成特征的生成规则,生成所述待生成特征,以及按照所述待生成标签的生成规则,利用所述待生成特征,生成所述待生成标签,将生成的所述待生成特征和所述待生成标签一同存储到所述类型对应的数据库中。

其中的类型可以按照实时性的要求,分为实时统计类,实时规则类,离线统计类,离线规则类。

实时统计类是可以实时生成的统计类。

实时规则类是可以实时生成的规则类。

离线统计类是可以离线生成的统计类。

离线规则类是可以离线生成的规则类。

当源数据的数据量达到预设数据量时,即数据量较大时,不适于进行实时生成,可以设置为离线统计类或者离线规则类。相应的计算引擎可以为spark或者pyspark计算引擎。相应的数据库可以为Hbase或者hive数据库。

spark是专为大规模数据处理而设计的快速通用的计算引擎,适用于离线计算。pyspark是spark为Python开发者提供的应用程序接口(API,Application ProgrammingInterface)。

Hbase是一个分布式的、面向列的开源数据库,适用于量级大的数据的存储。Hive是基于hadoop的数据仓库工具,可以将结构化数据文件映射为数据库表,适用于离线存储。

当源数据的数据量未达到预设数据量时,即数据量较小时,如需进行实时生成,可以设置为实时统计类或者实时规则类。相应的计算引擎可以为java或者flink计算引擎。相应的数据库可以为WTable数据库。

java计算引擎是轻量级计算引擎,适用于实时计算。flink作为第三代实时计算引擎已经得到广泛应用,性能优良。WTable数据库的内存较小,适用于实时存储。

实际应用中,针对不同的类型的标签,预设对应的计算引擎和数据库,如此,采用与标签的类型相匹配的计算引擎和数据库,实现资源利用的合理性最大化,处理效率更高。

在示例性实施例中,基于所述类型对应的计算引擎,按照所述待生成特征的生成规则,生成所述待生成特征,以及按照所述待生成标签的生成规则,利用所述待生成特征,生成所述待生成标签,其具体实现方式可以包括:基于所述待生成特征的生成规则、所述待生成标签的生成规则以及预设的代码模板,得到用于生成所述待生成特征和所述待生成标签的逻辑代码;将所述逻辑代码传入所述类型对应的计算引擎中;在所述类型对应的计算引擎中,执行所述逻辑代码,以生成所述待生成特征和所述待生成标签。

实际应用中,可以预先编写好与生成规则对应的代码模板。以统计类的特征举例来说,可以编写具有统计功能的代码模板,将配置信息中包含的需要统计的数据字段,传入该代码模板中,即可得到需要统计的数据字段的逻辑代码,将该逻辑代码注入计算引擎中,在计算引擎中执行该逻辑代码,从而生成特征。本实施例中,通过向计算引擎中注入逻辑代码,使得计算引擎具有待生成特征和待生成标签的生成逻辑,基于此生成待生成特征和待生成标签。

在示例性实施例中,所述述待生成特征的生成规则和所述待生成标签的生成规则携带在预先编写的逻辑代码中,所述按照所述待生成特征的生成规则,生成所述待生成特征,以及按照所述待生成标签的生成规则,利用所述待生成特征,生成所述待生成标签,其具体实现方式可以包括:将所述逻辑代码传入预设的计算引擎中;在所述预设的计算引擎中,执行所述逻辑代码,以生成所述待生成特征和所述待生成标签。实际应用中,可以按照待生成特征的生成规则和待生成标签的生成规则,预先编写好逻辑代码,直接将该逻辑代码传入预设的计算引擎即可,无需再设置代码模板。对于一些特殊的生成规则,未曾设置代码模板时,可以采用本实施例的方案,直接编写逻辑代码传入预设的计算引擎,实现方便。

在示例性实施例中,所述配置信息还包括预设的所述待生成标签的已命中时间与所述待生成标签的置信度的对应关系,所述待生成标签的已命中时间越长,所述待生成标签的置信度越低,上述方法还可以包括:以所述源数据中的预设数据字段的数据为实体,响应于所述实体对应的数据命中所述待生成标签,按照所述对应关系,实时更新所述实体所命中的所述待生成标签的置信度。

示例性的,这里的实体可以是一条数据的身份标识(ID,Identity)。

示例性的,在实体刚刚命中待生成标签时,其置信度是100%,随着已命中时间的增加,其置信度随之降低,例如,一天之后,其置信度降为99%,每增加一天,置信度降低1%。

本实施例中,在实体命中标签时,结合已命中时间,提供了置信度的参考,提供的信息更加全面。

在示例性实施例中,上述方法还可以包括:响应于所述待生成特征或者所述待生成标签生成失败,发出第一预警信息。

实际应用中,计算引擎在执行逻辑代码时,如果执行失败,会发出提示信息,接收到该提示信息时,确定生成任务失败,此时,可以发出预警,以便及时发现、解决,从而实现了对底层任务的监控。

上述方法还可以包括:响应于至少一个所述待生成特征中生成失败的数量或者至少一个所述待生成标签中生成失败的数量大于或者等于第一阈值,发出第二预警信息。这里的第一阈值可以根据实际情况设置,此处不做具体限定。

实际应用中,如果大部分任务失败,此时,可能是服务出现问题,可以发出预警,以便及时发现、解决,从而实现了对服务的监控。

上述方法还可以包括:响应于所述待生成特征或者所述待生成标签所用的生成时间大于或者等于第二阈值,发出第三预警信息。这里的第二阈值可以根据实际情况设置,此处不做具体限定。

实际应用中,如果待生成特征或者所述待生成标签所用的生成时间过长,也可能是服务出现问题,可以发出预警,以便及时发现、解决,从而实现了对服务的监控。

上述方法还可以包括:响应于所述源数据所包含的至少一条数据中命中所述待生成标签的数据的条数在总条数的比例大于或者等于第三阈值,发出第四预警信息。这里的第三阈值可以根据实际情况设置,此处不做具体限定。

实际应用中,如果命中标签的数据过多,可能是标签配置存在异常,可以发出预警,以便及时发现、解决,从而实现了对标签的生成量级的监控。

上述方法还可以包括:响应于所述数据库中已占用的存储空间在总存储空间的比例达到第四阈值,发出第五预警信息。这里的第四阈值可以根据实际情况设置,此处不做具体限定。

实际应用中,随着数据库中存入的特征、标签的增多,占用的存储空间增多,可用的存储空间减少,当占用的存储空间过多时,可以发出预警,以便及时进行扩容,以满足存储需求。

在示例性实施例中,上述方法还可以包括:响应于接收到的针对所述待生成标签的命中查询指令,查询所述源数据所包含的至少一条数据中命中所述待生成标签的条数。本实施例中,可以对标签的命中条数进行查询,如此,可以及时了解标签的命中情况,在命中的条数出异常时,进行处理。

当然,也可以针对待生成特征进行查询,响应于接收到的针对所述待生成特征的命中查询指令,从数据库中查询该待生成特征。

在示例性实施例中,所述按照所述待生成特征的生成规则,生成所述待生成特征,以及按照所述待生成标签的生成规则,利用所述待生成特征,生成所述待生成标签,其具体实现方式可以包括:响应于接收到的预测试指令,按照所述待生成特征的生成规则,生成所述待生成特征,以及按照所述待生成标签的生成规则,利用所述待生成特征,生成所述待生成标签,以进行预测试。在完成配置信息的配置之后,可以进行预测试,从而合理判断配置的生成规则是否合适。

需要说明的是,在预测试时,由于没有真正的上线,待生成特征和待生成标签,不进行存储。

在示例性实施例中,上述方法还可以包括:响应于接收到的用户针对所述待生成特征和/或所述待生成标签的读取指令,确定所述用户是否具有对所述待生成特征和/或所述待生成标签的读取权限;响应于所述用户具有对所述待生成特征和/或所述待生成标签的读取权限,确定允许所述用户读取所述待生成特征和/或所述待生成标签。

实际应用中,用户可以使用已经存储的待生成标签和待生成特征,从而实现特征和标签的共享,但是,需要获取到读取权限之后,才可以使用,以避免信息滥用。

在示例性实施例中,所述源数据是从多种业务的源数据中选择的目标业务的源数据;所述将生成的所述待生成特征和所述待生成标签一同存储到数据库中,其具体实现方式可以包括:将生成的所述待生成特征和所述待生成标签一同存储到数据库中与所述目标业务对应的存储空间中。

实际应用中,可以针对多种业务的数据源,选择需要的目标业务的数据源,输入相应的配置信息,进而生成特征和标签,不需要分别独立维护一套系统,统一了用户的使用方式,降低了使用成本。

在示例性实施例中,所述获取输入的与源数据对应的配置信息,其具体实现方式可以包括:基于页面上的输入操作,获取输入的与源数据对应的配置信息。

实际应用中,可以提供一可视化页面,在该页面上进行输入操作,从而输入与源数据对应的配置信息,操作简单、便利。

其中的配置信息还可以包括名称、版本、描述、有效期、上述对应关系等元数据信息。

其中的描述是对待生成特征或者待生成标签的详细信息的介绍。

其中的有效期是指待生成特征或者待生成标签的有效期。

下面通过具体的应用场景进行说明。

本实施例的方案中将特征的生成使用方案与标签平台进行了整合与重构,统一了特征和标签的生成、存储、使用方式,打造了面向大数据的特征标签一体化平台。

本实施例的整个平台的架构如图2所示,包括数据层、数据计算层、数据存储层、元数据管理层和平台数据监控层。

一、数据层。

数据层可以采集埋点数据、设备属性数据(如手机等设备的型号等)或者设备中的传感器(如陀螺仪传感器)数据等不同业务的源数据,进行数据源管理。用户可以按需选择,根据不同业务的源数据、不同量级(即数据量)、不同需求选择适合的特征、标签的计算方式和底层存储。

二、数据计算层。

数据计算层包括实时计算的java、flink计算引擎或者其它的计算引擎(即能力平台),离线计算的spark、pyspark,这些计算引擎可以根据用户配置的生成规则对应的上述逻辑代码,生成待生成标签和待生成特征。

三、数据存储层。

数据存储层包括WTable、Hbase、hive数据库等第三方中间件。按照用户配置的待生成特征、待生成标签的类型完成待生成标签和待生成特征的统一存储。

四、元数据管理层。

用户可以在可视化页面进行待生成特征和待生成标签的配置,包含待生成特征、待生成标签的元数据信息的配置(即注册),生成规则配置,还可以进行状态管理(即待生成特征和待生成标签的上线、下线管理)、待生成特征和待生成标签的查询等等。

五、平台数据监控层。

为保证整个平台的平稳健康运行,平台数据监控层可以对整个服务、底层任务、底层存储、以及标签的生成量级(即特征标签监控)进行了全方位的监控,从而在有问题的时候能够及时预警、及时发现、及时解决,具体可以参考以上相关实施例,此处不做赘述。

六、应用层。

对于生成存储的待生成特征,在模型训练时,可以直接应用,无需再重新生成。其它的平台也可以应用生成并存储的待生成特征和待生成标签。

如图3所示,特征标签的生成流程包括:

第一步、特征标签页面配置:

用户在页面上针对选择的数据源进行待生成特征和待生成标签配置:

配置名称、描述、版本、有效期、上述对应关系等基本的元数据信息,即信息录入。还配置类型,其中的类型包含实时统计类、实时规则类、离线统计类、离线规则类等,并配置生成规则,即规则配置。

第二步、特征标签预测试:

用户在页面点击预测试控件后,平台会根据待生成特征、待生成标签的类型,触发该类型对应的计算引擎。

对于flink,可以先将待生成特征和待生成标签的生成规则转换成sql语句传入基础框架,在基础框架就中,基于预设的代码模板,生成逻辑代码,再将逻辑代码传入flink,flink可以加载源数据,并执行逻辑代码(即逻辑执行),最后通过写流速控制将得到的待生成特征和待生成标签输出,并存储到WTable数据库中。

对于spark/pyspark,可以先将待生成特征和待生成标签的生成规则转换成sql语句或者脚本传入基础框架,在基础框架就中,基于预设的代码模板,生成逻辑代码,再将逻辑代码传入spark/pyspark,spark/pyspark可以通过实时数据总线获取实时的数据源,然后存储到hive数据库中,以进行离线存储,然后可以加载hive数据库中的离线数据,并执行逻辑代码(即逻辑执行),最后通过写流速控制将得到的待生成特征和待生成标签输出,并存储到hive数据库中。其中,如果待生成特征和待生成标签的生成规则较为简单,可以转换成sql语句,如果较复杂,则可以转换成脚本的形式。

对于需要应用特征和标签的模型,则可以基于下发配置得到所选择的数据源中的预设数据字段,作为实体(即字段采集),从数据库中获取该实体对应的待生成特征和标签,进行聚合并存储,输入到模型中,得到模型类标签并存储到hive数据库中。其中的实体可以是用户的ID,IP等等。

对于能力平台,可以直接将按照待生成特征和待生成标签的生成规则编写好的逻辑代码传入能力平台,然后通过聚类/分析服务对源数据进行数据清洗、数据预处理之后,执行逻辑代码(即逻辑执行),将得到的待生成特征和待生成标签输出,并存储到hive或者WTable数据库中。

第三步、特征标签上线:

用户选择测试通过的待生成特征和待生成标签的版本进行上线,此时,可以以实体为单位,将该实体对应的待生成特征和待生成标签作为一条数据存储到线上数据库中。

除上述特征标签的生成流程外,响应于接收到特征或者标签的版本切换的指令,进行版本的切换。切换时,可以基于灰度上线策略,进行版本的切换。其中,灰度上线策略是指将分批将原版本的特征或者标签切换成新版本的特征或者标签。其中的灰度上线策略的具体实现可以参考相关技术,此处不做赘述。

第四步、查询。

实施中,可以在页面上点击特征查询的控件,进行特征查询,点击标签查询的控件,进行标签的命中查询。

特征标签的应用流程包括:用户注册,配置读取权限,基于配置的读取权限调用权限内的特征和标签,从而实现特征和标签的共享。

本方案对特征和标签在存储、管理、使用上进行了整合统一的同时,还实现了业务数据和标签的共享,并且,在提升了生成和使用的灵活性、便利性的同时,还能够进行全方位的监控,从而更好的服务于业务。

本实施例的效果如下:

1)提高了特征标签生成效率,为特征标签提供者提供了便利。

2)降低特征标签的维护成本,将平台进行了统一,不需要各个应用方独立维护一套系统。

3)统一了应用方的使用方式,降低了使用成本。

4)对特征标签有了统一的监控和报表,对业务贡献有了更直观的了解。

5)实现了数据和标签共享,打通了各个业务线的数据和标签,从而能够更好的服务于各业务线。

图4是本发明实施例的一种示例性的特征标签生成装置的结构示意图。如图4所示,该特征标签生成装置400包括:

配置获取模块401,用于获取输入的与源数据对应的配置信息,所述配置信息包括至少一个待生成标签的生成规则,以及生成所述待生成标签所需的至少一个待生成特征的生成规则;

生成存储模块402,用于按照所述待生成特征的生成规则,生成所述待生成特征,以及按照所述待生成标签的生成规则,利用所述待生成特征,生成所述待生成标签,将生成的所述待生成特征和所述待生成标签一同存储到数据库中。

在示例性实施例中,所述配置信息还包括生成所述待生成标签所需的历史生成并存储的至少一个标签和/或特征;

所述生成存储模块,具体用于利用生成的所述待生成特征以及所述历史生成并存储的至少一个标签和/或特征,生成所述待生成标签。

在示例性实施例中,所述配置信息还包括所述待生成特征和所述待生成标签的类型,所述生成存储模块,具体用于:

基于所述类型对应的计算引擎,按照所述待生成特征的生成规则,生成所述待生成特征,以及按照所述待生成标签的生成规则,利用所述待生成特征,生成所述待生成标签,将生成的所述待生成特征和所述待生成标签一同存储到所述类型对应的数据库中。

在示例性实施例中,所述生成存储模块,具体用于:

基于所述待生成特征的生成规则、所述待生成标签的生成规则以及预设的代码模板,得到用于生成所述待生成特征和所述待生成标签的逻辑代码;

将所述逻辑代码传入所述类型对应的计算引擎中;

在所述类型对应的计算引擎中,执行所述逻辑代码,以生成所述待生成特征和所述待生成标签。

在示例性实施例中,所述述待生成特征的生成规则和所述待生成标签的生成规则携带在预先编写的逻辑代码中,所述生成存储模块,具体用于:

将所述逻辑代码传入预设的计算引擎中;在所述预设的计算引擎中,执行所述逻辑代码,以生成所述待生成特征和所述待生成标签。

在示例性实施例中,所述类型为实时统计类,实时规则类,离线统计类或者离线规则类。

在示例性实施例中,所述配置信息还包括预设的所述待生成标签的已命中时间与所述待生成标签的置信度的对应关系,所述待生成标签的已命中时间越长,所述待生成标签的置信度越低,还包括:

置信度更新模块,用于以所述源数据中的预设数据字段的数据为实体,响应于所述实体对应的数据命中所述待生成标签,按照所述对应关系,实时更新所述实体所命中的所述待生成标签的置信度。

在示例性实施例中,还包括:

预警模块,用于响应于所述待生成特征或者所述待生成标签生成失败,发出第一预警信息;

和/或,响应于至少一个所述待生成特征中生成失败的数量或者至少一个所述待生成标签中生成失败的数量大于或者等于第一阈值,发出第二预警信息;

和/或,响应于所述待生成特征或者所述待生成标签所用的生成时间大于或者等于第二阈值,发出第三预警信息;

和/或,响应于所述源数据所包含的至少一条数据中命中所述待生成标签的数据的条数在总条数的比例大于或者等于第三阈值,发出第四预警信息;

和/或,响应于所述数据库中已占用的存储空间在总存储空间的比例达到第四阈值,发出第五预警信息。

在示例性实施例中,还包括:

查询模块,用于响应于接收到的针对所述待生成标签的命中查询指令,查询所述源数据所包含的至少一条数据中命中所述待生成标签的条数。

在示例性实施例中,所述生成存储模块,具体用于:

响应于接收到的预测试指令,按照所述待生成特征的生成规则,生成所述待生成特征,以及按照所述待生成标签的生成规则,利用所述待生成特征,生成所述待生成标签,以进行预测试。

在示例性实施例中,还包括:

读取模块,用于响应于接收到的用户针对所述待生成特征和/或所述待生成标签的读取指令,确定所述用户是否具有对所述待生成特征和/或所述待生成标签的读取权限;

响应于所述用户具有对所述待生成特征和/或所述待生成标签的读取权限,确定允许所述用户读取所述待生成特征和/或所述待生成标签。

在示例性实施例中,所述源数据是从多种业务的源数据中选择的目标业务的源数据;

所述生成存储模块,具体用于:

将生成的所述待生成特征和所述待生成标签一同存储到数据库中与所述目标业务对应的存储空间中。

在示例性实施例中,所述配置获取模块,具体用于:

基于页面上的输入操作,获取输入的与源数据对应的配置信息。

本发明实施例各装置中的各模块的功能可以参见上述特征标签生成方法实施例中的对应描述,在此不再赘述。

优选的,本发明实施例还提供了一种电子设备,包括:处理器,存储器,存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述特征标签生成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

图5是本发明实施例提供的一种示例性的电子设备的结构示意图。如图5所示,该电子设备可以包括:处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储器503中的计算机程序,以执行以上任一实施例中的特征标签生成方法。

本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述特征标签生成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

本领域普通技术人员可以意识到,结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

相关技术
  • 一种特征标签生成方法、装置、电子设备及存储介质
  • 一种概念标签生成方法、装置、电子设备和存储介质
技术分类

06120113822543