掌桥专利:专业的专利平台
掌桥专利
首页

数据处理方法、装置、电子设备和计算机可读存储介质

文献发布时间:2023-06-19 18:47:50


数据处理方法、装置、电子设备和计算机可读存储介质

技术领域

本申请涉及数据处理领域,具体涉及一种数据处理方法、装置、电子设备和计算机可读存储介质。

背景技术

随着互联网的快速发展,互联网上所传播的数据的数量不断增长。为了便于用户快速,有效的浏览数据,往往会对数据进行分类以提高用户体验感。

然而,数据的存在形式繁多,如视频、音频、文字等,需要人工对数据附上标签,从而基于标签实现分类,此种方式费时费力,效率低下。

发明内容

鉴于此,本申请提出一种数据处理方法、装置、电子设备和计算机可读存储介质,能够兼容多种数据的格式,对传播的数据自动分类,提高数据分类效率。

一方面,本申请提供一种数据处理方法,该方法包括:获取待处理数据;提取待处理数据的内容词条;基于内容词条确定待处理数据的业务属性词条;获取与业务属性词条和内容词条匹配的局部电子公文包;将待处理数据加入局部电子公文包。

采用该技术方案,能够自动对待处理数据进行内容分析,并基于分析得到的各词条将数据加入对应的电子公文包,从而实现各种格式的待处理数据的自动分类,提高待处理数据分类效率。

在一些实施例中,将所述待处理数据加入所述局部电子公文包,包括:基于所述待处理数据生成包括所述待处理数据的网页页面;将所述网页页面加入所述局部电子公文包。

采用该技术方案,将待处理数据转换成网页页面,由于网页页面能够逐页加载,因此,相较于待处理数据一次性加载,能够提高原文件加载速度,减少设备卡死情况。

在一些实施例中,基于所述待处理数据生成包括所述待处理数据的网页页面,包括:确定所述待处理数据的格式类型;获取与所述格式类型匹配的网页模板;基于所述网页模板和所述待处理数据生成网页页面。

采用该技术方案,基于不同待处理数据的格式自动匹配网页模板,能够便于得到适配于待处理数据的网页模板,且能够提高客户体验感。

在一些实施例中,提取所述待处理数据的内容词条,包括:若所述待处理数据包括非文本数据,基于所述非文本数据生成所述非文本数据的内容描述文本;基于所述内容描述文本提取所述内容词条。

采用该数据方案,将非文本数据统一转换成内容描述文本,便于后续对非文本数据的处理。

在一些实施例中,基于所述非文本数据生成所述非文本数据的内容描述文本,包括:若所述待处理数据包括音频数据,将所述音频数据通过语音识别转换为所述内容描述文本;若所述待处理数据包括图像数据,通过预设的图像描述模型处理所述图像数据,得到所述内容描述文本;若所述待处理数据包括视频数据且所述视频数据中包括音频数据,将所述视频数据中的音频数据通过语音识别转换为所述内容描述文本;若所述待处理数据包括视频数据且所述视频数据中不包括音频数据,提取所述视频数据中的图像帧;通过所述图像描述模型处理所述图像帧,得到所述内容描述文本。

采用该技术方案,针对各种非文本数据,如音频、图像、视频,均能准确得到内容描述文本。

在一些实施例中,基于所述内容词条确定所述待处理数据的业务属性词条之后,所述方法还包括:获取用于进行词条分组的分类词条;基于各数据标签与所述分类词条的相似度,对所述各数据标签进行分组;其中,所述各数据标签包括:所述内容词条和所述业务属性词条;同一组的各数据标签与同一分类词条的相似度均满足预设相似条件;基于每组数据标签在所述待处理数据中的次数,确定所述待处理数据与各组数据标签的关联程度,及构建与所述关联程度对应的数据标签的检索优先级。

采用该技术方案,通过相近含义的数据标签在待处理数据中的出现次数,确定检索优先级,便于在用户输入检索词时,基于检索优先级检索到与检索词匹配的待处理数据。

在一些实施例中,将所述待处理数据加入所述局部电子公文包之后,所述方法还包括:获取用户对所述局部电子公文包中的待处理数据的访问记录;基于所述待处理数据的内容词条、业务属性词条,以及所述访问记录,生成用户画像;基于所述用户画像对所述用户推荐待处理数据。

采用该技术方案,便于电子设备基于用户感兴趣内容进行推荐,提高用户体验感。

另一方面,本申请提供一种数据处理装置,该数据处理装置包括:获取模块,用于获取待处理数据;提取模块,用于提取所述待处理数据的内容词条;匹配模块,用于基于所述内容词条确定所述待处理数据的业务属性词条;以及用于获取与所述业务属性词条和所述内容词条匹配的局部电子公文包;存储模块,用于将所述待处理数据加入所述局部电子公文包。

另一方面,本申请还提供一种电子设备,该电子设备包括:

一个或多个处理器;

存储器;以及

一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现第一方面中任一项所述的数据处理方法。

第四方面,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行第一方面任一项所述的数据处理方法中的步骤。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的数据处理方法的一个实施例流程示意图;

图2是本申请实施例提供的确定各数据标签与待处理数据的关联程度的一个实施例流程图;

图3是本申请实施例提供的电子公文包的管理示意图;

图4是本申请实施例中提供的数据处理装置的一个实施例结构示意图;

图5是本申请实施例中提供的电子设备的一个实施例结构示意图。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施方式对本申请进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施方式及实施方式中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本申请,所描述的实施方式仅是本申请一部分实施方式,而不是全部的实施方式。

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施方式的目的,不是旨在于限制本申请。

进一步需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

本申请中“至少一个”是指一个或者多个,“多个”是指两个或多于两个。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不是用于描述特定的顺序或先后次序。

在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

本申请的数据处理方法可应用在一个或者多个电子设备中。该电子设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于处理器、微程序控制器(Microprogrammed Control Unit,MCU)、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。所述电子设备可以是便携式电子设备(如手机、平板电脑)、个人电脑、服务器等。

图1是本申请数据处理方法一实施例的步骤流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。

参阅图1所示,该数据处理方法可以包括以下步骤。

步骤101,获取待处理数据。

待处理数据可以为任意携带有内容的数据。例如,待处理数据可以包括:非文本数据和文本数据等。非文本数据可以包括:音频数据、图像数据、视频数据等。文本数据以书面语言的表现形式,例如文档、富文本等。

待处理数据可以基于内容源链接获取。例如,若内容源链接为网页网址,可以基于该网页网址访问该网页,将该网页中记载的内容作为待处理数据。

待处理数据也可以从电子设备的本地文件中获取。本地文件可以包括以下格式的文件:PDF文档、WORD文档、EXCEL文档、PPT文档、MP3文件、MP4文件和PNG文件,但不限于此。

步骤102,提取待处理数据的内容词条。

在一些实施例中,步骤102可以包括:获取待处理数据的标题,基于标题提取待处理数据的内容词条。

然而,有些待处理数据不存在标题,或者标题不准确,因此,基于待处理数据的标题提取内容词条可能会导致内容词条提取遗漏,或不准确。

鉴于此,在另一些实施例中,可以先将待处理数据统一转换为内容描述文本,然后,基于内容描述文本提取内容词条。

在一些实施例中,步骤102中将待处理数据转换未内容描述文本,可以包括:若待处理数据包括文本数据,文本数据的文本内容可以直接作为该文本数据的内容描述文本,若待处理数据包括非文本数据,可以基于非文本数据生成待处理数据的内容描述文本。本实施例能够基于文本数据和非文本数据的内容描述文本提取内容词条,使得内容词条的提取更加准确和全面。

以下以非文本数据为音频数据、图像数据、视频数据为例,说明非文本数据的内容描述文本的生成过程。

也就是说步骤102中提取待处理数据的内容描述可以包括:

(1)若待处理数据包括音频数据,将音频数据通过语音识别转换为内容描述文本。

(2)若待处理数据包括图像数据,通过预设的图像描述模型处理图像数据,得到内容描述文本。

其中,图像描述模型(Image Caption)是一个融合计算机视觉、自然语言处理和机器学习的综合模型,它类似于翻译一副图片为一段描述文字。

图像数据可以包括静态图像和动态图像,在判定待处理数据包括图像数据之后,可以识别图像数据为静态图像还是动态图像,若图像数据为静态图像,可以将该静态图像输入图像描述模型,得到静态图像的内容描述文本。

若图像数据为动态图像,可以每隔预设时间段截取动态图像,得到动态图像的图像帧,将截取到的图像帧输入图像描述模型,得到内容描述文本。相较于在图像数据为动态图像的情况下,只解析动态图像中的一个图像帧,本申请实施例截取多个图像帧,得到动态图像的内容描述文本,使得内容描述文本更加准确,从而使得分类更加精确。

其中,识别该图像数据为静态图像还是动态图像,可以包括:根据图像数据的文件名后缀判断该图像为静态图像还是动态图像。例如,若文件名后缀为gif,则该图像数据一般为动态图像,但是,部分图像数据并不携带后缀文件名,或者,依据文件名后缀无法判断图像数据为静态图像或是动态图像。

因此,为了能够准确识别静动态图像,在另一些实施例中,识别该图像数据为静态图像还是动态图像,可以包括:每隔预设时间段获取图像数据的code码,得到各code码;获取各code码的信息摘要;若各code码的信息摘要相同,判定图像数据为静态图像;若各code码的信息摘要不完全相同,判定图像数据为动态图像。

code码为图像标识,若图像数据为静态数据,每隔预设时间段获取的code码的信息摘要是相同的,若图像数据为动态数据,随着时间变化,动态数据显示的图像帧也会有变化,因此,code码的信息摘要也会发生变化,从而,通过code码的信息摘要可以判断图像数据的动静状态。

code码的信息摘要可以通过MD5信息摘要算法获取,即,将code码输入MD5信息摘要算法,得到code码的信息摘要。

(3)若待处理数据为视频数据且视频数据中包括音频数据,将视频数据中的音频数据通过语音识别转换为内容描述文本。

(4)若待处理数据为视频数据且视频数据中不包括音频数据,提取视频数据中的图像帧;通过图像描述模型处理图像帧,得到内容描述文本。

上述实施例能够针对不同非文本数据的格式采取不同的内容提取方式,从而提高内容描述文本提取的成功率,以及使得提取出的内容描述文本贴合于待处理数据的实际内容。

在获取到待处理数据的内容描述文本后,可通过分词器对内容描述文本进行分词处理,其中,将纯中文>=4个字节、纯英文>=2个字节,或中英>=3个字节的词条为有效词条,有效词条可作为内容词条,内容词条包括描述词条和事务词条,描述词条一般为形容词,事务词条一般为名词。

例如,内容描述文本为:“那是个美丽的村庄”,通过分词器处理,可以得到“美丽”(描述词条)、“村庄”(事务词条)。

步骤103,基于内容词条确定待处理数据的业务属性词条。

业务属性词条为待处理数据的业务场景或者所属的行业。业务属性词条可以包括:医疗、科技、体育、农业、旅游、人工智能、金融和产品推荐等,但不限于此,可根据实际需求设置。

例如,待处理数据的内容词条为“运动员”,“足球”,和“比赛”,业务属性词条可以为“体育”;待处理数据的内容词条为“护肤品”,“淡斑”和“种草”,业务属性词条可以为“产品推荐”。

在一些实施例中,还可先基于内容词条确定数据清洗后的描述内容,然后,基于数据清洗后的描述内容生成业务属性词条。本实施例可以使得文本描述内容更加精简,提高业务属性词条的匹配效率。

例如,数据清洗后的描述内容为“美丽村庄”,待处理数据的业务属性词条可以为“旅游”。

可将上述的业务属性词条和内容词条统称为数据标签,在步骤103之后,即获取数据标签之后,可以确定各数据标签与待处理数据的关联程度;并构建与关联程度对应的词条检索优先级。

具体地,可参照图2所示,确定各数据标签与待处理数据的关联程度,可以包括:

步骤201,获取用于进行词条分组的分类词条。

分类词条可存储于词条分析池中,词条分析池中包括各种词条和场景内容等信息均可作为分类词条。

步骤202,基于各数据标签与分类词条的相似度,对各数据标签进行分组。

其中,同一组的各数据标签与同一分类词条的相似度均满足预设相似条件,相似度指的是语义相似度。

相似条件可以为:若某待处理数据与某分类词条相似度高于预设的相似度阈值,表征该待处理数据与该分类词条满足预设相似条件。例如,分类词条为“AA0”,待处理数据包括:“AA1”和“AA2”;“AA1”和“AA0”的相似度高于相似度阈值,“AA2”和“AA0”的相似度高于相似度阈值,则同一组的待处理数据包括:“AA1”和“AA2”。

相似条件也可为:比较待处理数据与各分类词条的相似度,确定最大相似度对应的分类词条,该最大相似度对应的分类词条与该待处理数据满足预设相似条件。例如,分类词条包括:“AA0”,“BB0”,“CC0”,待处理数据为“AA1”;“AA1”与“AA0”的相似度最大,“AA1”可以划分至“AA0”对应的数据标签组。

在一些实施例中,还可进一步将内容描述文本的关键段落输入词条分析池,与数据标签一同进行相似度分析,以便于结合上下文得到语义相似度,提高相似度分析的准确性。

步骤203,基于每组数据标签在待处理数据中的次数,确定待处理数据与各组数据标签的关联程度。其中,次数越高,关联程度越高。

按照关联程度由高到低的顺序,构建待处理数据的各数据标签的词条检索优先级。例如,关联程度在top1~top10的数据标签组对应的词条检索优先级为第一优先级,top11~top50的数据标签组对应的词条检索优先级为第二优先级。

在用户输入检索词后,检索词可以与各数据标签进行匹配;若检索词与某数据标签的相似度高于预设相似阈值,则该检索词与该数据标签匹配;获取该数据标签的词条检索优先级;基于该词条检索优先级确定该待处理数据的推荐优先级,其中,该数据标签的词条检索优先级越高,越优先推荐该待处理数据。

例如,若用户输入的检索词为“AA”,待处理数据1和待处理数据2的数据标签均包括“AA”,即待处理数据1和待处理数据2均与用户输入的检索词匹配,在待处理数据1中,数据标签“AA”的词条检索优先级为第一优先级;在待处理数据2中,数据标签“AA”的词条检索优先级为第二优先级;因此,优先将待处理数据1推荐给用户,然后,将待处理数据2推荐给用户,例如,可以按照词条检索优先级由高到低的顺序,对待处理数据进行排序,向用户推送排序后的待处理数据,即,在向用户推送的数据列表中,待处理数据1位于待处理数据2之前。

也就是说,本申请实施例确定待处理数据中各数据标签的检索优先级,检索优先级能够反映数据标签与待处理数据的关联程度,在用户检索数据时,优先给用户推荐与用户输入的检索词条关联程度高的待处理数据,从而能够检索到与检索词更匹配的待处理数据,优化待处理数据的推荐过程,提高用户体验感。

步骤104,获取与业务属性词条和内容词条匹配的局部电子公文包。

局部电子公文包有对应的公文包标签,例如,行业介绍,资讯,活动等,行业介绍包括例如:体育,美妆,科技等。全局电子公文包中包括多个局部电子公文包,全局电子公文包存储于电子设备的全局存储空间中,全局存储空间包括各局部存储空间,局部电子公文包有其对应的局部存储空间,通过局部电子公文包的对应的公文包标签可以实现数据在该存储空间中的分类存储。

将数据标签(业务属性词条和内容词条)与公文包标签计算语义相似度,通过语义相似度确定匹配的局部电子公文包。例如,在各电子公文包中,确定与数据标签相似度最大的公文包标签,将该相似度最大的公文包标签对应的局部电子公文包作为匹配的局部电子公文包。

例如,业务属性词条为“科技”,内容词条为“人工智能”、“损失函数”等,公文包标签包括“科技”,因此该公文包标签对应电子公文包可为匹配的局部电子公文包。

步骤105,将待处理数据加入匹配的局部电子公文包。

在一些实施例中,步骤105可以包括:将该待处理数据存储于与该待处理数据匹配的局部电子公文包所属的局部存储空间。

然而,有些待处理数据为大文件数据,在用户访问该待处理数据时,需要一次性加载该待处理数据,会导致加载速度慢,进而导致用户访问数据的体验感较低。

鉴于此,在另一些实施例中,步骤105可以包括:基于待处理数据生成包括待处理数据的网页页面;将网页页面加入该局部电子公文包。也就是说,将包括待处理数据的网页页面存储于该局部电子公文包所属的局部存储空间。

本实施例将待处理数据转换成网页页面,由于网页页面能够逐页加载,因此,相较于待处理数据一次性加载,能够提高原文件加载速度,减少设备卡死情况。

在基于待处理数据生成包括待处理数据的网页页面的过程中,可以直接讲待处理数据的文件后缀名更改为“htm”或者“html”,以此,得到包括待处理数据的网页页面,然而,该种方式生成的网页较为简陋,尤其是在待处理数据包括视频数据、音频数据的情况下,呈现给用户的网页效果教差。

因此,本申请提供另一些实施例,在该实施例中,步骤105中基于待处理数据生成包括待处理数据的网页页面,可以包括:确定待处理数据的格式类型;获取与格式类型匹配的网页模板;基于网页模板和待处理数据生成网页页面。

本实施例通过基于不同的格式类型匹配不同的网页模板,使得网页模板更加适配于待处理数据,从而给用户呈现界面友好的网页,提高客户体验感。

其中,网页页面可以为超文本标记语言(HyperText Markup Language 5,HTML5)编写的页面,也可简称为H5页面。

在生成H5页面的过程中,若待处理数据的格式类型包括:视频数据和图像数据等,可以按照待处理数据的像素大小按照一定的比例进行缩放,以适应于网页模板的显示尺寸。

网页模板中可包括浮层(div)、悬浮按钮、输入框、进度条等界面控件和文本控件,但不限于此。网页模板中的控件还可绑定有软件开发工具包(Software Development Kit,SDK)属性触发事件。

例如,动态图像或视频数据被点击,或者拖拉时,会触发浮层中对应的事件,如图像放大、缩小等,在待处理数据包括视频数据、音频数据时,网页模板中还可植入播放进度条的浮层。

绑定的SDK属性触发事件可包括:浏览事件,翻页下拉事件,浏览位置停留时长事件,内容复制事件,点击事件,分享事件,动态图像、视频或音频观看事件等,但不限于此。

在基于网页模板生成网页页面后,可通过人工再次编辑网页页面,例如,自定义组合各种元素:放大缩小、插入背景、控件、图片、视频、自定义事件等,使得网页页面更加美观,更具有吸引力。

在生成网页页面后,可以生成网页页面的链接,如网页短链接。局部电子公文包和全局电子公文包也可具有对应的访问链接,以便于局部电子公文包和全局电子公文包的传播和共享。

可参照图3所示,图3为电子公文包的管理示意图,电子设备可以通过电子公文包营销数据资产,传播数据、产生数据,并基于用户行为进行智能分析。

例如,电子设备可以获取用户对待处理数据的访问记录,访问记录可以通过SDK属性触发事件获取,访问记录中可包括用户行为数据,如点击、浏览时长、数据分享、数据复制等,然后,基于待处理数据的内容词条、业务属性词条,以及访问记录,生成用户画像,例如给用户打上对应与内容词条和业务属性词条相关的用户标签;基于用户画像对用户推荐待处理数据。

SDK中封装有埋点方法,本实施例生成的网页页面(如H5页面)可以绑定SDK的埋点方法,如当前网页页面停留时间,网页页面触底,网址跳转,网页共享以及网址访问等埋点方法,达到网页页面埋点效果,从而能够通过SDK的埋点方法对用户行为数据进行收集并分析,进而明确用户的行为偏好,即用户画像,并能够确定网页页面的传播效果,有利于后续对电子公文包中存储的内容数据进行进一步优化。

针对各用户画像,可在展示端进行展示,以便于促进数据的营销传播。示例性的,电子设备可以展示各电子公文包的概览情况,如电子公文包的访问热度、电子设备中的各数据的指标,如数据浏览,关注,收藏,点赞,浏览时长等指标,数据传播所面向的关联用户列表、关联用户列表的画像,以及分析出的意向客户。

电子公文包传播数据包括如下应用场景:

(1)基于全局电子公文包的数据传播和检索。全局电子公文包即所有电子公文包,可将全局电子公文包共享给用户,如将全局电子公文包对应的链接传输给用户,全局电子公文包中的各局部电子公文包可以通过栏目列表的形式展现给客户,例如科技、文化,用户可以点击相应的栏目列表,以查看栏目列表对应的局部电子公文包的数据,用户也可以输入检索词,以检索全局电子公文包中包括的数据的内容,若用户未输入检索词,可基于用户画像向用户推荐全局电子公文包中的数据。

(2)单个或多个电子公文包的数据传播和检索。

对于员工分享模式:员工具有某电子公文包的使用权限,电子设备可以生成基于该员工的电子公文包链接,该电子公文包链接携带有该员工的员工标识,员工可将该链接发送给用户,从而可以通过携带有员工标识的电子公文包推送数据。在推送数据的过程中,若不存在用户画像,可通过与该员工对应的数据推送策略为用户推荐数据,若存在用户画像,可结合用户画像为用户推送数据。员工可在用户的允许下,查看用户在该电子公文包下的用户行为数据。

对于个人模式:用户可以直接访问个人电子公文包,若无用户画像,根据默认的推荐顺序推荐电子公文包的数据,员工访问该电子公文包数据的过程中,电子设备可不断收集用户足迹,分析用户阅读的内容,即收集用户行为数据,得到用户感兴趣的内容,从而进行用户画像。

上述列出了电子公文包的使用场景,但是不限于此。

本申请实施例可兼容多种格式的数据,将其自动进行转换成网页,并进行自动分类,且能够追踪用户对数据的访问,以实现用户画像,从而便于对用户推送数据以及便于对用户进行营销。

基于与上述实施例中的数据处理方法相同的思想,本申请还提供数据处理装置,该装置可用于执行上述数据处理方法。为了便于说明,数据处理装置实施例的结构示意图中,仅仅示出了与本申请实施例相关的部分,本领域技术人员可以理解,图示结构并不构成对该装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图4所示,数据处理装置包括获取模块401、提取模块402、匹配模块403和存储模块404。在一些实施例中,上述模块可以为存储于存储器中且可被处理器调用执行的可程序化软件指令。可以理解的是,在其他实施方式中,上述模块也可为固化于处理器中的程序指令或固件(firmware)。

获取模块401,用于获取待处理数据;

提取模块402,用于提取所述待处理数据的内容词条;

匹配模块403,用于基于所述内容词条确定所述待处理数据的业务属性词条;以及用于获取与所述业务属性词条和所述内容词条匹配的局部电子公文包;

存储模块404,用于将所述待处理数据加入所述局部电子公文包。

采用该技术方案,能够自动对待处理数据进行内容分析,并基于分析得到的各词条将数据加入对应的电子公文包,从而实现各种格式的待处理数据的自动分类,提高待处理数据分类效率。

在一些实施例中,存储模块404中将所述待处理数据加入所述局部电子公文包,包括:基于所述待处理数据生成包括所述待处理数据的网页页面;将所述网页页面加入所述局部电子公文包。

采用该技术方案,将待处理数据转换成网页页面,由于网页页面能够逐页加载,因此,相较于待处理数据一次性加载,能够提高原文件加载速度,减少设备卡死情况。

在一些实施例中,存储模块404中基于所述待处理数据生成包括所述待处理数据的网页页面,包括:确定所述待处理数据的格式类型;获取与所述格式类型匹配的网页模板;基于所述网页模板和所述待处理数据生成网页页面。

采用该技术方案,基于不同待处理数据的格式自动匹配网页模板,能够便于得到适配于待处理数据的网页模板,且能够提高客户体验感。

在一些实施例中,提取模块402中提取所述待处理数据的内容词条,包括:若所述待处理数据包括非文本数据,基于所述非文本数据生成所述非文本数据的内容描述文本;基于所述内容描述文本提取所述内容词条。

采用该数据方案,将非文本数据统一转换成内容描述文本,便于后续对非文本数据的处理。

在一些实施例中,提取模块402中基于所述非文本数据生成所述非文本数据的内容描述文本,包括:若所述待处理数据包括音频数据,将所述音频数据通过语音识别转换为所述内容描述文本;若所述待处理数据包括图像数据,通过预设的图像描述模型处理所述图像数据,得到所述内容描述文本;若所述待处理数据包括视频数据且所述视频数据中包括音频数据,将所述视频数据中的音频数据通过语音识别转换为所述内容描述文本;若所述待处理数据包括视频数据且所述视频数据中不包括音频数据,提取所述视频数据中的图像帧;通过所述图像描述模型处理所述图像帧,得到所述内容描述文本。

采用该技术方案,针对各种非文本数据,如音频、图像、视频,均能准确得到内容描述文本。

在一些实施例中,提取模块402中基于所述内容词条确定所述待处理数据的业务属性词条之后,所述方法还包括:获取用于进行词条分组的分类词条;基于各数据标签与所述分类词条的相似度,对所述各数据标签进行分组;其中,所述各数据标签包括:所述内容词条和所述业务属性词条;同一组的各数据标签与同一分类词条的相似度均满足预设相似条件;基于每组数据标签在所述待处理数据中的次数,确定所述待处理数据与各组数据标签的关联程度,及构建与所述关联程度对应的数据标签的检索优先级。

采用该技术方案,通过相近含义的数据标签在待处理数据中的出现次数,确定检索优先级,便于在用户输入检索词时,基于检索优先级检索到与检索词匹配的待处理数据。

在一些实施例中,存储模块404将所述待处理数据加入所述局部电子公文包之后,所述方法还包括:获取用户对所述局部电子公文包中的待处理数据的访问记录;基于所述待处理数据的内容词条、业务属性词条,以及所述访问记录,生成用户画像;基于所述用户画像对所述用户推荐待处理数据。

采用该技术方案,便于电子设备基于用户感兴趣内容进行推荐,提高用户体验感。

图5为本申请电子设备一实施例的示意图。

电子设备100包括存储器20、处理器30以及存储在存储器20中并可在处理器30上运行的计算机程序40。处理器30执行计算机程序40时实现上述数据处理方法实施例中的步骤,例如图1所示的步骤101~步骤105。

示例性的,计算机程序40同样可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在存储器20中,并由处理器30执行。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,所述指令段用于描述计算机程序40在电子设备100中的执行过程。例如,可以分割成图4所示的获取模块401、提取模块402、匹配模块403和存储模块404。

本领域技术人员可以理解,所述示意图仅仅是电子设备100的示例,并不构成对电子设备100的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如电子设备100还可以包括输入输出设备、网络接入设备、总线等。

处理器30可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器、单片机或者处理器30也可以是任何常规的处理器等。

存储器20可用于存储计算机程序40和/或模块/单元,处理器30通过运行或执行存储在存储器20内的计算机程序和/或模块/单元,以及调用存储在存储器20内的数据,实现电子设备100的各种功能。存储器20可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备100的使用所创建的数据(比如音频数据)等。此外,存储器20可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。

电子设备100集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,所述计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

在本申请所提供的几个实施例中,应该理解到,所揭露的电子设备和方法,可以通过其它的方式实现。例如,以上所描述的电子设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

另外,在本申请各个实施例中的各功能单元可以集成在相同处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在相同单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。电子设备权利要求中陈述的多个单元或电子设备也可以由同一个单元或电子设备通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

最后应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照上述实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或等同替换,而不脱离本申请技术方案的精神和范围。

相关技术
  • 数据处理方法、装置、计算机可读存储介质和电子设备
  • 数据处理方法和装置、电子设备及计算机可读存储介质
  • 三维模型处理方法和装置、电子设备、计算机可读存储介质
  • 图像处理方法和装置、电子设备、计算机可读存储介质
  • 任务处理方法、装置、电子设备及计算机可读存储介质
  • 数据处理方法和装置、数据系统、计算节点、电子设备以及计算机可读存储介质
  • 数据存储方法、数据处理方法、装置、电子设备及计算机可读介质
技术分类

06120115691685