掌桥专利:专业的专利平台
掌桥专利
首页

数据提取方法、装置、设备及存储介质

文献发布时间:2023-06-19 11:22:42


数据提取方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域,尤其涉及一种数据提取方法、装置、设备及存储介质。

背景技术

随着技术的发展,深度学习模型广泛应用于各个业务场景中,深度学习模型的使用不仅简化了业务的处理流程,而且提高了用户体验。以广告推荐的业务场景为例,通过对训练样本数据进行训练,使得训练后的模型能够基于用户的用户数据向用户推荐适于该用户的广告。

当前,训练样本数据由深度学习模型的使用方自行编写数据提取任务,从源数据中提取样本数据。然而,每次均由使用方编写数据提取任务,导致获得样本数据的效率较低。

发明内容

本申请提供了一种数据提取方法、装置、设备及存储介质,用以提高获得样本数据的效率,如下所示:

第一方面、提供一种数据提取方法,包括:

确定数据源中各待提取特征的处理参数,所述处理参数用于指示与所述待提取特征相匹配的数据处理逻辑;

利用所述数据源的存储地址和所述处理参数,对任务模板进行配置,得到目标处理任务;

执行所述目标处理任务,得到与所述各待提取特征对应的样本数据,所述样本数据用于对目标模型进行训练。

第二方面、提供一种数据提取装置,包括:

确定单元,用于确定数据源中各待提取特征的处理参数,所述处理参数用于指示与所述待提取特征相匹配的数据处理逻辑;

配置单元,用于利用所述数据源的存储地址和所述处理参数,对任务模板进行配置,得到目标处理任务;

执行单元,用于执行所述目标处理任务,得到与所述各待提取特征对应的样本数据,所述样本数据用于对目标模型进行训练。

第三方面、提供一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信;所述存储器,用于存储计算机程序;所述处理器,用于执行所述存储器中所存储的程序,实现第一方面所述的数据提取方法。

第四方面、提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的数据提取方法。本申请实施例提供的上述技术方案与现有技术相比具有如下优点:

本申请实施例提供的技术方案,当需要提取各待提取特征对应的样本数据时,利用数据源的存储地址和处理参数,对任务模板进行配置,得到目标处理任务,并基于目标处理任务得到样本数据。由于可以基于对任务模板的自动化配置得到样本数据,因此本方案支持多种数据格式和规范,适于各种业务场景下的模型,具有较强的通用性,另外本方案将各待提取特征的特征数据和训练数据的离线和实时数据统一起来,一次配置即可得到各待提取特征的样本数据,因此比较便捷,最后由于可以直接得到各待提取特征的样本数据,因此极大的提高了特征数据的生产迭代,降低了维护成本。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。

图1为本申请实施例中一种数据提取方法的流程示意图;

图2为本申请实施例中另一种数据提取方法的流程示意图;

图3为本申请实施例中另一种数据提取方法的流程示意图;

图4为本申请实施例中数据提取装置的结构示意图;

图5为本申请实施例中电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。

本申请实施例提供一种数据提取方法,该方法可以应用于任一电子设备中;

本申请实施例所描述电子设备可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、笔记本电脑、视频矩阵、监控平台、移动互联网设备(MID,Mobile Internet Devices)或穿戴式设备等,上述仅是举例,而非穷举,包含但不限于上述装置,当然,上述电子设备还可以为服务器。

如图1所示,该方法可以包括以下步骤:

步骤101、确定数据源中各待提取特征的处理参数。

其中,处理参数用于指示与待提取特征相匹配的数据处理逻辑。按照该数据处理逻辑对数据源进行处理,能够得到与各待提取特征对应的样本数据。具体地,数据源中具有用于表达各待提取特征的源数据,利用处理参数指示的数据处理逻辑可以从数据源中提取用于表达各待提取特征的源数据,并将提取的源数据作为各待提取特征各自的特征表达。

本实施例中,不同的业务场景下的各待提取特征不同,且各待提取特征可以由用户自定义。可选地,各待提取特征可以由用户指示,当然也可以预先设置。当存在用户指示的各待提取特征时,优先提取用户指示的各待提取特征的特征表达,当不存在用户指示的各待提取特征时,电子设备默认提取预先设置的各待提取特征的特征表达。

当用户指示各待提取特征时,实际应用时,电子设备的配置界面显示输入框,用户在输入框中输入各待提取特征后,通过输入设备(如鼠标的单击或双击操作)指示输入完成,从而实现使得电子设备依据该指示获得各待提取特征。

本实施例中,由于不同的业务场景所对应的数据源不同,因此不同业务场景下的数据源和待提取特征不能交叉适配。例如,业务场景A的数据源A中包括表达各待提取特征A的源数据;业务场景B中包括表达各待提取特征B的源数据。由于数据源A与各待提取特征B不能适配,因此数据源A中并不包括表达各待提取特征B的源数据。

本实施例中,数据源的格式类型包括但不限于hive类型或hdfs类型中的至少一种。

步骤102、利用数据源的存储地址和处理参数,对任务模板进行配置,得到目标处理任务。

可选地,数据源的存储地址包括但不限于URL(uniform resource locator,同一资源定位符)或文件地址。

本实施例中,数据源的存储地址和处理参数均可以由用户指示。当由用户指示数据源的存储地址时,电子设备获取用户输入的存储地址,并将该存储地址作为数据源的存储地址;或,电子设备基于用户的操作向用户显示属于数据源的存储地址的多个存储地址,获取用户从多个存储地址中所选择的目标存储地址,将目标存储地址作为步骤102中的数据源的存储地址。同理,当用户指示处理参数时,电子设备获取用户输入的处理参数,或基于用户的操作向用户显示多个处理参数,并获取用户从多个处理参数中所选择的目标处理参数,将目标处理参数作为步骤102中的处理参数。

本实施例中,任务模板包括待配置数据和模板数据。

其中,模板数据包括任务模板的版本号、对数据源的查找方式,等数据。通常在对任务模板进行配置时,并不需要更改模板数据;待配置数据至少包括特征聚合项和数据源配置项,数据源配置项用于配置数据源的存储地址,特征聚合项用于配置处理参数。

可选地,对数据源的查找方式包括但不限于基于SQL语句的查询方式。为了实现用户对数据源的格式类型的配置,数据源配置项进一步可以包括类型配置项和参数配置项,类型配置项用于配置数据源的格式类型,参数配置项用于配置数据源的存储地址。

需要说明的是,类型配置项中的数据源的格式类型可以根据用户的指示进行配置,当然,也可以采用默认的格式类型,本实施例对此不作具体限定。

为了后续方便对各待提取特征对应的样本数据进行读取,任务模板中的模板数据还可以包括样本数据的存储配置项,存储配置项用于配置样本数据的存储地址。

可选地,样本数据的存储地址可以由用户指示或预先设置一默认地址。具体地,当存在用户指示的样本数据的存储地址时,以用户指示的样本数据的存储地址对存储配置项进行配置;当不存在用户指示的样本数据的存储地址时,采用默认存储地址对存储配置项进行配置。

一个例子中,该默认存储地址可以为云存储地址或电子设备自动分配的存储器中的地址。

为了使得任务模板的代码具有简洁和清晰的层次结构,本实施例采用JSON(JavaScript Object Notation,JS对象简谱)表达式预先编写得到任务模板。

步骤103、执行目标处理任务,得到与各待提取特征对应的样本数据,样本数据用于对目标模型进行训练。

其中,当目标模型为针对广告推荐的业务场景时,目标模型的输入为待预测用户的特征数据,目标模型的输出为适于待预测用户的广告插播次数或视频。

其中,用户的特征数据为用户的用户画像中的部分特征数据或全部特征数据。

当目标模型为针对商品推荐的业务场景时,目标模型的输入为用户的年龄,目标模型的输出为适于该用户的商品。

电子设备在执行目标处理任务时,运行与目标处理任务对应的模板代码,使得模板代码调用处理参数所指示的数据处理逻辑进行数据处理,得到样本数据。

本实施例中,目标模型可以为适于任何业务场景的模型,例如,当业务场景为广告推荐的场景时,目标模型为进行广告推荐的模型;当业务场景为商品推荐的场景时,目标模型为进行商品推荐的模型等。

以下分别针对广告推荐的场景和商品推荐的场景介绍本本实施例:

在广告推荐的场景下:

数据源可以为存储有不同用户的观看记录的日志文件,各待提取特征可以包括以下至少一项:年龄、性别、预设时间段内的历史观看记录或每次观影时的广告插播次数。

其中,预设时间段内的历史观看记录可以包括预设时间段内的观影时长和/或所观看的视频的类别。例如,预设时间段内的历史观看记录可以为7天内观看电影视频的时长、观看综艺视频的时长和/或观看动漫的时长。

其中,广告插播次数指的是在观看一次视频的过程中,所插播的中贴广告的次数。

此时目标模型用于预测适于待预测用户的广告插播次数或适配。具体地,目标模型用于输入待预测用户的特征数据,输出适于待预测用户的广告插播次数或视频。

在商品推荐的场景下:

数据源可以为存储有不同用户的购物记录的日志文件,各待提取特征包括以下至少一项:人生阶段、性别、商品类别。

示例性地,人生阶段可以包括儿童、青少年、青年、中年和老年;

可以根据用户的用户画像确定用户的人生阶段。

当青年为15-30岁的人群、中年为31-50岁的人群、老年为年龄大于50岁的人群时,通过与人生阶段相匹配的数据处理逻辑,对用户购物记录中的用户年龄进行分析,从而确定用户所对应的人生阶段。

此时目标模型用于预测适于待预测用户的商品种类。具体地,目标模型用于输入待预测用户的特征数据,输出适于待预测用户的商品种类。

本申请实施例提供的技术方案,当需要提取各待提取特征对应的样本数据时,利用数据源的存储地址和处理参数,对任务模板进行配置,得到目标处理任务,并基于目标处理任务得到样本数据。由于可以基于对任务模板的自动化配置得到样本数据,因此本方案支持多种数据格式和规范,适于各种业务场景下的模型,具有较强的通用性,另外本方案将各待提取特征的特征数据和训练数据的离线和实时数据统一起来,一次配置即可得到各待提取特征的样本数据,因此比较便捷,最后由于可以直接得到各待提取特征的样本数据,因此极大的提高了特征数据的生产迭代,降低了维护成本。

在本申请的另一实施例中,各待提取特征的处理参数可以包括各待提取特征各自对应的处理算子以及各待提取特征对应的数据聚合标识。

在确定数据源中各待提取特征的处理参数时,如图2所示,可以包括以下步骤:

步骤201、获取用户指示的各待提取特征各自对应的处理算子。

任意一个处理算子用于指示对应的待提取特征的特征表达的提取逻辑。

可选地,处理算子可以为待提取特征对应的提取函数,该提取函数定义了待提取特征的特征表达的提取逻辑。

以待提取特征为人生阶段为例,定义人生阶段对应的特征表达包括青年(18-30岁)、中年(30-50岁)或老年(>50岁),那么该待提取特征对应的提取函数可以为:

可选地,本实施例中,获取用户指示的处理算子可以通过以下两种方式实现:

其一、电子设备基于用户的操作向用户显示多个预定义的处理算子,获取用户从多个预定义的处理算子中所选择的目标处理算子,将目标处理算子作为步骤201中的处理算子。

其二、电子设备获取用户基于电子设备内自定义算子的框架所编写的处理算子,并将该处理算子作为步骤201中的处理算子。

步骤202、确定各待提取特征对应的数据聚合标识。

数据聚合标识用于对各待提取特征的特征表达进行聚合得到多条样本数据,任意两条样本数据的数据聚合标识不同。

本实施例中,利用数据聚合标识可以将不同用户的待提取特征的特征表达区分开来,从而利用数据聚合标识,得到多条样本数据。

可选地,任意一条样本数据可以为同一用户对应的各待提取特征的特征表达所聚合得到的样本数据,此时数据聚合标识可以为用户的身份信息,如用户的标识(ID);或,任意一条样本数据为至少两个用户对应的各待提取特征的特征表达所聚合得到的样本数据,此时数据聚合标识可以为用户的性别等参数。

数据聚合标识可以由用户指示,或,预先设置默认特征作为数据聚合标识。

以下以待提取特征为人生阶段和性别为例,设定数据聚合标识为用户ID,且设定数据源的数据如表一所示,简介获得样本数据的过程:

表一

经过各待提取特征的各自对应的处理算子得到的各待提取特征的特征表达分别参见表二以及表三:

表二

表三

经过数据聚合标识得到的样本数据请参见表四:

表四

步骤203、将处理算子和数据聚合标识,确定为处理参数。

基于上述处理参数的具体实现,相应地,预先设置特征聚合项包括提取逻辑配置项和聚合参数配置项。提取逻辑配置项用于配置各待提取特征各自的处理算子,聚合参数配置项用于配置数据聚合标识。

本实施例中,直接获取各待提取特征各自对应的处理算子、以及各待提取特征对应的数据聚合标识,不仅增加了数据提取的便捷性,而且提高了数据提取的效率。

在本申请的另一实施例中,为了提高用户的可操作性,设置可以在电子设备上编写待提取特征的处理算子。具体地,用户指示处理算子的算子参数,电子设备在获取用户所指示的算子参数之后,调用软件开发工具包,生成与算子参数对应的处理算子,并存储该处理算子。

其中,算子参数包括但不限于算子名称和描述信息。

一个例子中,当处理算子为求和的算子时,该处理算子的算子名称可以为“求和(sum)”,描述信息为“用于求和”。

基于相同的发明构思,本申请实施例还提供一种数据提取装置,如图4所示,包括:

确定单元401,用于确定数据源中各待提取特征的处理参数,处理参数用于指示与待提取特征相匹配的数据处理逻辑;

配置单元402,用于利用数据源的存储地址和处理参数,对任务模板进行配置,得到目标处理任务;

执行单元403,用于执行目标处理任务,得到与各待提取特征对应的样本数据,样本数据用于对目标模型进行训练。

可选地,确定单元401,包括:

获取用户指示的各待提取特征各自对应的处理算子,任意一个处理算子用于指示对应的待提取特征的特征表达的提取逻辑;

确定各待提取特征对应的数据聚合标识,数据聚合标识用于对各待提取特征的特征表达进行聚合得到多条样本数据,任意两条样本数据的数据聚合标识不同;

将处理算子和数据聚合标识,确定为处理参数。

可选地,配置单元402,包括:

从任务模板中,获取数据源配置项和特征聚合项;

利用数据源的存储地址配置数据源配置项,以及采用处理参数配置特征聚合项,得到目标处理任务。

可选地,执行单元403,包括:

运行与目标处理任务对应的模板代码,使得模板代码调用处理参数所指示的数据处理逻辑进行数据处理,得到样本数据。

可选地,还包括:

确定数据源中各待提取特征的处理参数之前,获取各待提取特征各自对应的处理算子的算子参数,算子参数包括算子名称和描述信息;

利用软件开发工具包,生成与算子参数对应的处理算子,并存储处理算子。

可选地:

数据源包括日志文件,日志文件存储有用户的观看记录;

各待提取特征包括以下至少一项:年龄、性别、预设时间段内的历史观看记录或每次观影时的广告插播次数;

目标模型用于预测适于待预测用户的广告插播次数或视频。

可选地,还包括:

利用数据源的存储地址和处理参数,对任务模板进行配置,得到目标处理任务之前,按照JSON表达式的格式编写得到所述任务模板。

基于同一构思,本申请实施例中还提供了一种电子设备,如图5所示,该电子设备主要包括:处理器501、通信接口502、存储器503和通信总线504,其中,处理器501、通信接口502和存储器503通过通信总线504完成相互间的通信。其中,存储器503中存储有可被至处理器501执行的程序,处理器501执行存储器503中存储的程序,实现上述任一实施例中所描述的数据提取方法。

上述电子设备中提到的通信总线504可以时外设部件互连标准(PeripheralComponent Interconnect,简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture,简称EISA)总线等。该通信总线504可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口502用于上述电子设备与其他设备之间的通信。

存储器503可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器501的存储装置。

上述的处理器501可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等,还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当该计算机程序在计算机上运行时,使得计算机执行上述任一实施例中所描述的数据提取方法。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机指令时,全部或部分地产生按照本申请实施例所述的流程或功能。该计算机可以时通用计算机、专用计算机、计算机网络或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、微波等)方式向另外一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如软盘、硬盘、磁带等)、光介质(例如DVD)或者半导体介质(例如固态硬盘)等。

需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

相关技术
  • 数据提取方法、数据提取装置、存储介质和电子设备
  • 数据提取方法、数据提取装置、存储介质和电子设备
技术分类

06120112899851