内容处理方法、装置、电子设备和存储介质

文献发布时间：2023-06-19 11:35:49

技术领域

本公开涉及数据处理技术领域，尤其涉及互联网信息处理领域。

背景技术

得益于互联网的快速发展，知识传播方式不断进化。目前，在互联网知识社区中分享知识成为主流的知识传播方式。通过评定内容生产者的级别，量化知识社区中各内容生产者的生产能力，可以促进更多优质内容的产出，保持知识社区蓬勃发展。因此，如何准确识别内容生产者的生产能力，是知识社区运营的热点问题。

发明内容

本公开提供了一种内容处理方法、装置、电子设备和存储介质。

根据本公开的一方面，提供了一种内容处理方法，包括：

基于目标生产者所生产的N个内容的标签，确定N个内容涉及的M个知识领域；其中，N和M均为正整数；

基于N个内容中与M个知识领域分别对应的内容的数量，确定N个内容的领域集中度；

基于N个内容的领域集中度，确定目标生产者的推荐级别。

根据本公开的另一方面，提供了一种内容处理装置，包括：

领域确定模块，用于基于目标生产者所生产的N个内容的标签，确定N个内容涉及的M个知识领域；其中，N和M均为正整数；

集中度确定模块，用于基于N个内容中与M个知识领域分别对应的内容的数量，确定N个内容的领域集中度；

级别确定模块，用于基于N个内容的领域集中度，确定目标生产者的推荐级别。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本公开任一实施例中的方法。

本公开的技术方案，根据目标生产者所生产的内容的标签，确定出对应的领域集中度。基于领域集中度确定目标生产者的推荐级别，使得推荐级别能够准确体现目标生产者对领域的专注程度，有利于准确识别目标生产者的生产能力。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开一个实施例提供的内容处理方法的示意图；

图2是本公开另一个实施例提供的内容处理方法的示意图；

图3是本公开又一个实施例提供的内容处理方法的示意图；

图4是本公开一个应用示例中推荐生产任务的示意图；

图5是本公开一个实施例提供的内容处理装置的示意图；

图6是本公开另一个实施例提供的内容处理装置的示意图；

图7是本公开又一个实施例提供的内容处理装置的示意图；

图8是用来实现本公开实施例的内容处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1示出了本公开一个实施例提供的内容处理方法的示意图。如图1所示，该方法包括：

步骤S110，基于目标生产者所生产的N个内容的标签，确定N个内容涉及的M个知识领域；其中，N和M均为正整数；

步骤S120，基于N个内容中与M个知识领域分别对应的内容的数量，确定N个内容的领域集中度；

步骤S130，基于N个内容的领域集中度，确定目标生产者的推荐级别。

本公开实施例中，目标生产者可以包括诸如问答平台、百科平台、文库平台等知识社区中待确定推荐级别的内容生产者。其中，内容生产者例如是问答平台中回复问题的用户、文库平台中上传文献的用户等。

示例性地，可以周期性地获取目标生产者在一定时段内所生产的内容。例如，在每周的起始时刻获取目标生产者在前一周所生产的内容，或者在每周的起始时刻获取目标生产者在前两周所生产的内容。相应的，可以将当前待处理的内容即最新获取的内容确定为上述N个内容。通过周期性获取目标生产者所生产的内容并基于该内容确定目标生产者的推荐级别，可以克服对内容生产者的生产能力变化不敏感的问题，有利于准确识别内容生产者的生产能力。

本公开实施例中，内容可以指信息的各种载体，例如知识文档、文章、问题答案等。在知识社区中，可以为各内容确定标签。示例性地，可以针对不同领域设置不同的标签集合，根据内容的关联实体、主题、关键词等，从各标签集合中选取出内容的标签。

通过建立各标签与各知识领域的对应关系，可以基于N个内容的标签，确定N个内容所涉及的M个知识领域。其中，N个内容中的每个内容可以具有至少一个标签，涉及至少一个知识领域。获取每个内容所涉及的领域并进行去重，可以得到N个内容所涉及的M个知识领域。

进一步地，可以针对M个知识领域中的每个知识领域，分别确定N个内容中与每个知识领域对应的内容的数量，得到目标生产者生产的内容在各知识领域的分布情况。基于N个内容中与M个知识领域分别对应的内容的数量，可以确定N个内容的领域集中度。

示例性地，可以根据上述数量，计算M个知识领域中的每个知识领域对应的内容在N个内容中的数量占比，以数量占比最高的K个例如一个或两个知识领域所对应的数量占比总和，作为N个内容的领域集中度。

举例而言，4个内容中的内容1涉及领域1，内容2涉及领域1，内容3涉及领域2，内容4涉及领域3。基于此，内容1至4所涉及的领域包括领域1至3。其中，4个内容中与领域1对应的内容的数量为2，与领域2对应的内容的数量为1，与领域3对应的内容的数量为1。可见，4个内容主要集中在领域1中。其中，领域1的内容在4个内容中占比为1/2，则4个内容的领域集中度可以是1/2。

实际应用中，也可以采用其他方式确定领域集中度。

示例性地，可以将领域集中度的取值范围划分为多个子范围，每个范围对应一个推荐级别。例如，根据预设阈值将领域集中度的取值范围划分为两个子范围。若领域集中度高于预设阈值，则目标生产者的推荐级别为一级；若领域集中度低于预设阈值，则目标生产者的推荐级别为二级。实际应用中，可以向推荐级别为一级的内容生产者投放更多的激励资源，以促进该内容生产者生产更多优质内容。

可见，根据本公开实施例的方法，根据目标生产者所生产的内容的标签，确定出对应的领域集中度。基于领域集中度确定目标生产者的推荐级别，使得推荐级别能够准确体现目标生产者对领域的专注程度，有利于准确识别目标生产者的生产能力。进一步地，有利于促进优质的内容生产者生产更多优质内容，保持知识社区的良好生态发展。

在一种示例性的实施方式中，如图2所示，上述步骤S120，基于N个内容中与M个知识领域分别对应的内容的数量，确定N个内容的领域集中度，可以包括：

步骤S210，基于N个内容中与M个知识领域分别对应的内容的数量与N的比值，确定N个内容的类别熵；

步骤S220，根据N个内容的类别熵，确定N个内容的领域集中度。

举例而言，对于M个知识领域中的第i个知识领域，N个内容中与第i个知识领域对应的数量为X，则该数量与N的比值为P＝X/N。其中，i为大于等于1且小于等于M的整数。根据以下公式，可以计算N个内容的类别熵entropy_cat：

基于上述类别熵entropy_cat以及以下公式，可以确定N个内容的领域集中度domain：

其中，tanh()表示双曲正切函数。

上述实施方式中，根据N个内容的类别熵确定领域集中度，可以提高领域集中度的客观性和准确性，从而提高目标生产者的推荐级别的准确性。有利于准确量化目标生产者的生产能力。

在另一种示例性的实施方式中，如图3所示，上述步骤S120，基于N个内容中与M个知识领域分别对应的内容的数量，确定N个内容的领域集中度，可以包括：

步骤S310，在M个知识领域包含目标知识领域的情况下，基于N个内容中与M个知识领域分别对应的内容的数量，确定目标知识领域的分布信息；

步骤S320，基于目标知识领域的分布信息，确定N个内容的领域集中度。

示例性地，目标知识领域可以是与目标生产者具有关联关系的知识领域。例如，目标知识领域可以是根据目标生产者做出的选择操作所确定的目标生产者所属的知识领域，或者是根据目标生产者在一定时段例如半年内或一年内生产的内容所确定的目标生产者最擅长的知识领域。

示例性地，目标知识领域的分布信息可以是目标知识领域对应的内容在N个内容中的数量占比，或者该数量占比在M个领域中各领域对应的数量占比中的排序信息等。例如，如果目标生产者的目标知识领域为人工智能，目标生产者所生产的人工智能领域的内容在N个内容中的占比为0.6。则分布信息可以是0.6。或者，人工智能领域的内容在N个内容中的数量占比为M个领域中各领域的内容在N个内容中的数量占比中的最大值，则分布信息可以为排序第一。相应的，分布信息越高或者排序越前，领域集中度更高。

基于目标知识领域的分布信息确定N个内容的领域集中度，可以使领域集中度更准确体现目标生产者对目标知识领域的专注度，从而提高目标生产者的推荐级别的准确性。有利于准确量化目标生产者的生产能力。

根据上述各实施方式确定的领域集中度，用于确定目标生产者的推荐级别。具体而言，上述步骤S130，基于N个内容的领域集中度，确定目标生产者的推荐级别，包括：

基于N个内容以及分类模型，确定目标生产者的内容质量评分；

根据N个内容的领域集中度以及目标生产者的内容质量评分，确定目标生产者的推荐级别。

示例性地，可以利用分类模型对N个内容进行质量分类，综合N个内容的质量类别得到目标生产者的内容质量评分。再结合内容质量评分以及领域集中度，确定目标生产者的推荐级别。

示例性地，分类模型可以是XGBoost(Extreme Gradient Boosting，极端梯度提升)模型，可以提高内容质量评分的准确性。

示例性地，可以将N个内容的领域集中度、内容质量评分等多个维度的信息作为预定的算法或模型的输入信息，基于预定的算法或模型，得到目标生产者的推荐级别。

实际应用中，还可以结合其他维度的信息确定目标生产者的推荐级别。例如，可以结合目标生产者的活跃度、用户喜爱度、权威度等各维度的信息确定目标生产者的推荐级别。

其中，目标生产者的活跃度可以基于RFM(Recency-Frequency-Monetary，近期表现-频率-数额)模型确定。例如根据目标生产者最近一次生产的内容的质量或生产时间、目标生产者生产内容的频率和目标生产者生产的内容的数量，确定目标生产者的活跃度。

目标生产者的用户喜爱度可以基于GBDT(Gradient Boosting Decison Tree，梯度提升)回归模型确定。例如将各用户对目标生产者所生产的内容的浏览、点赞、收藏等行为的数量输入GBDT模型，采用GBDT模型计算得到用户喜爱度。

目标生产者的权威度可以基于目标生产者的认证信息得到。

需要说明的是，本公开的技术方案中，所涉及的内容生产者信息或者说用户信息(包括内容生产者所生产的内容以及上述各维度的信息)的获取、存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据上述实施方式，由于采用多维度的信息确定目标生产者的推荐级别，因此，能够进一步提高目标生产者的推荐级别，更准确地识别目标生产者的生产能力。

采用多维度的信息确定的推荐级别，可以用于挖掘优质生产者，完善用户激励机制。例如在问答社区中，可以基于目标生产者的各维度的信息，挖掘领域集中度高的优质生产者，在问答社区的客户端上显示优质生产者的标记，例如美妆达人、运动达人等。一方面可以起到鼓励作用，另一方面能够人格化问答页面中的生产者，促使知识社区的用户之间产生关注、交流等互动行为，提高知识社区的活跃度。

作为一种示例，上述内容处理方法还包括：

根据目标生产者的推荐级别，确定目标生产者的推荐生产任务。

例如，在问答社区中，若目标生产者的推荐级别较高，体现目标生产者的领域集中度较高，则将相关领域的待回答列表作为目标生成者的推荐生产任务，推荐给目标生产者进行回答，以促使目标生产者生产答案内容。如图4所示，在目标生产者的客户端上，可以包含多个不同类型的问题选项卡，例如推荐问题选项卡、全部问题选项卡、视频问题选项卡。其中，在推荐问题选项卡中显示推荐给目标生产者的待回答列表。列表中各问题与目标生产者所属的领域如食品、电子等相关。

可见，基于上述实施方式，将目标生产者的推荐级别用于知识内容分发，可以有效提升知识社区中生产的内容的质量。在知识社区中，可以有效提升问题回答率等核心指标。

在一些示例中，还可以基于目标生产者的各维度的信息以及推荐级别，实现知识社区的精细化运营。以下列举多种根据目标生产者的各维度的信息以及推荐级别实施的示例性操作：

(1)监控业务核心指标。例如定期监控内容生产者数量、优质内容生产者数量等。

(2)查询生产者画像。例如，用户可以利用内容生产者的标识信息，查询内容生产者的画像标签。

(3)筛选和分析生产者。例如，用户可以利用知识领域、领域集中度、内容质量评分筛选出感兴趣的内容生产者。

(4)分析业务健康度。例如，结合知识社区的拉新、促活数据，统计拉新、促活过程中产出的优质生产者，以获得针对知识社区的全面的健康度分析，支持业务调研和决策。

(5)管理任务。例如，支持创建和管理批量查询任务，满足大数据分析需求。

本公开实施例的方法，根据目标生产者所生产的内容的标签，确定出对应的领域集中度。基于领域集中度确定目标生产者的推荐级别，使得推荐级别能够准确体现目标生产者对领域的专注程度，有利于准确识别目标生产者的生产能力。进一步地，有利于促进优质的内容生产者生产更多优质内容，保持知识社区的良好生态发展。实际应用中，可以基于一个刻画框架，实现上述方法。具体而言，刻画框架可以包括：

策略执行模块，用于统一执行上述用于获取各维度信息的模型；

任务调度模块，用于调度和串联各种信息的获取顺序、各种步骤的执行顺序；

标识匹配模块，用于基于内容生产者的唯一标识，实现同一内容生产者的各维度的信息之间的关联；

模型管理模块，用于处理上述各模型的上线、下线和配置修改等；

数据监控模块，用于监控上述各模型所依赖的数据的环比和同比表现，以及时发现异常，提醒运营者进行处理，保证各模型的效果；

数据更新模块，用于根据需求更新各数据。

作为上述各方法的实现，本公开还提供一种内容处理装置，如图5所示，该装置包括：

领域确定模块510，用于基于目标生产者所生产的N个内容的标签，确定N个内容涉及的M个知识领域；其中，N和M均为正整数；

集中度确定模块520，用于基于N个内容中与M个知识领域分别对应的内容的数量，确定N个内容的领域集中度；

级别确定模块530，用于基于N个内容的领域集中度，确定目标生产者的推荐级别。

在一种示例性的实施方式中，如图6所示，集中度确定模块520包括：

类别熵确定单元610，用于基于N个内容中与M个知识领域分别对应的内容的数量与N的比值，确定N个内容的类别熵；

第一集中度确定单元620，用于根据N个内容的类别熵，确定N个内容的领域集中度。

在一种示例性的实施方式中，如图7所示，集中度确定模块520包括：

分布确定单元720，用于在M个知识领域包含目标知识领域的情况下，基于N个内容中与M个知识领域分别对应的内容的数量，确定目标知识领域的分布信息；

第二集中度确定单元730，用于基于目标知识领域的分布信息，确定N个内容的领域集中度。

示例性地，如图7所示，上述装置还包括：

任务推荐模块710，用于根据目标生产者的推荐级别，确定目标生产者的推荐生产任务。

示例性地，如图7所示，级别确定模块530包括：

质量确定单元740，用于基于N个内容以及分类模型，确定目标生产者的内容质量评分；

级别确定单元750，用于根据N个内容的领域集中度以及目标生产者的内容质量评分，确定目标生产者的推荐级别。

本公开实施例各装置中的各单元、模块或子模块的功能可以参见上述方法实施例中的对应描述，在此不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或要求的本公开的实现。

如图8所示，电子设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序来执行各种适当的动作和处理。在RAM 803中，还可存储电子设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入输出(I/O)接口805也连接至总线804。

电子设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如内容处理方法。例如，在一些实施例中，内容处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到电子设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的内容处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行内容处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：吴广发;薛璐影;施鹏;孙六英;魏谨谦;
专利申请人：北京百度网讯科技有限公司;

上一篇：一种地下空间爆破炮烟有毒有害气体的全段面监测方法
下一篇：一种柔性电路板及其制造方法及电子设备