掌桥专利:专业的专利平台
掌桥专利
首页

一种媒体画像生成方法和系统

文献发布时间:2023-06-19 09:30:39


一种媒体画像生成方法和系统

发明领域

本发明涉及一种互联网大数据领域,特别涉及一种媒体画像生成方法和系统。

背景技术

互联网领域中的每个媒体都存在各自的主营业范围,并根据主营业范围生产相关的报道,因此针对不同的媒体,业务内容和业务方式存在一定的差别,对于不同属性的媒体目前还没有专门数据化并且可视化的分析的方法和工具。对互联网媒体属性的分析有利于提高对媒体的认识,也能在大数据分析基础下更针对性地开展比如广告投放、电视转播等业务。

发明内容

本发明其中一个发明目的在于提供一种媒体画像生成方法和系统,所述方法和系统媒体类型建立基础属性,在基础属性之上通过大数据分析和处理建立画像内容,提高对媒体认知。

本发明另一个发明目的在于提供一种媒体画像生成方法和系统,本发明采用人工智能技术,根据媒体属性建立多个分析模型,根据分析模型生成媒体画像,通过大数据和人工智能可以给每个媒体提供多样化的标签,从而可以自动地在细分属性中体现媒体的画像内容,提高画像内容的解析深度,提高媒体画像的准确性和多样性。

本发明另一个发明目的在于提供一种媒体画像生成方法和系统,所述方法和系统将不同的属性以一定的规则进行可视化显示,从而可以提高媒体画像的可视化效果。

本发明另一个发明目的在于提供一种媒体画像生成方法和系统,所述方法和系统通过多渠道获取媒体发送的内容,可深度获取媒体业务分支和领域内容,全方位提高对媒体的认知。

为了实现至少一个上述发明目的本发明进一步提供一种媒体画像生成方法,所述方法包括如下步骤:

监测目标媒体账号,获取目标媒体的推送数据;

根据推送数据可选择地获取目标媒体的公共画像数据;

可选择地建立至少一个目标媒体偏好画像分析模型,根据推送数据分析获取目标媒体偏好画像数据;

根据公共画像数据、偏好画像数据建立可视化的媒体画像。

根据本发明其中一个较佳实施例,所述公共画像数据包括基础数据,所述基础数据包括:目标媒体机构行政级别、目标媒体所属地域、目标媒体类型、目标媒体定位、目标媒体采用的语种数据。

根据本发明其中一个较佳实施例,所述公共画像数据包括生产力数据、传播力数据和影响力数据;

生产力数据获取方法包括如下步骤:获取目标媒体每一推送数据,并记录每一推送数据发布时间,计算所述目标媒体的推送频率,并对不同推送频率的目标媒体设置不同的生产力标签;

传播力数据获取方法包括如下步骤:计算目标媒体每一推送数据的传播要素,所述传播要素包括总阅读量、总点赞量、总转发量和总评论量数据,并对每一传播要素分别设置权值,计算每一传播要素和对应权值的乘积之和,获取传播力指数,根据传播力指数大小设置不同的传播力标签。

影响力数据获取方法包括如下步骤:计算目标媒体每一推送数据的影响要素,所述影响要素包括原粉丝数,新增粉丝数,单位时间新增粉丝数,对每一影响要素分别设置权值,计算每一影响要素和对应权值的乘积之和,获取影响力指数,根据影响力指数大小设置不同的影响力标签。

根据本发明其中一个较佳实施例,监控目标媒体账号不同渠道的推送数据,分别计算不同渠道相同的推送数据的生产力数据,用于计算目标媒体推送行为偏好数据。

根据本发明其中一个较佳实施例,所述推送行为偏好数据的生产方法包括如下步骤:

获取目标媒体账号在不同渠道的推送数据的推送时间和推送数量,并计算单位时间内目标媒体不同渠道的推送数量,计算每一渠道推送数量相对总推送数量的占比,用于获取所述推送行为偏好数据。

根据本发明其中一个较佳实施例,获取推送数据内容,采用文本分类算法对每一推送数据进行分类,并对每一分类后的推送数据设置分类标签,用于生成目标媒体的偏好画像数据;

其中所述分类方法包括如下步骤:

建立标注好的推送数据训练集、验证集和测试集,采用文本分类算法对所述训练集进行训练;

采用验证集调整所述文本分类算法的超参数调整;

采用测试集评估所述文本分类算法泛化能力,并形成分类模型;

将每一推送数据输入预设的分类模型,获取每一推送数据分类标签。

根据本发明其中一个较佳实施例,所述分类标签包括社会、生活、体育、娱乐、科技、军事、财经和时政,所述计算每一目标媒体推送数据中所述分类标签的种类和数量。

根据本发明其中一个较佳实施例,采用多个实体内容分析模型获取目标媒体推送数据的实体内容偏好,其中所述实体内容分析模型包括地域实体分析模型、人物实体分析模型和机构实体分析模型,将所述目标媒体推送数据分别输入所述地域实体分析模型、人物实体分析模型和机构实体分析模型中,用于获取所述目标媒体推送数据的地域实体标签、人物实体标签和机构实体标签,用于形成所述目标媒体的偏好画像数据。

根据本发明其中一个较佳实施例,获取目标媒体推送数据,并将推送数据输入突发事件分析模型,获取每一推送数据记载的突发事件的标签,用于形成所述目标媒体偏好画像数据。

根据本发明其中一个较佳实施例,获取目标媒体推送数据,将每一推送数据输入主题话题模型,获取每一推送数据的主题话题标签,用于形成所述目标媒体偏好画像数据。

根据本发明其中一个较佳实施例,计算另一目标媒体推送数据,并获取领域目标媒体的主题话题标签,计算两个目标媒体之间主题话题的相似度,设置相似度阈值,若两个目标媒体相似度大于所述相似度阈值,则将两个目标媒体保存,生成相似主题话题的媒体库。

根据本发明其中一个较佳实施例,采用图像转文字模型将所述目标媒体推送数据中图像或视频的文字转化文本文字。

根据本发明其中一个较佳实施例,采用语音转文字模型将所述目标媒体推送数据中的语音信息转化为文本文字。

为了实现至少一个上述发明目的,本发明进一步提供一种媒体画像生成系统,所述系统采用上述一种媒体画像生成方法。

附图说明

图1显示的是本发明一种媒体画像生成方法一个较佳实施例流程示意图;

图2显示的是本发明一种媒体画像生成方法的媒体画像效果示意图。

具体实施方式

以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例,本领域技术人员可以想到其他显而易见的变型。在以下描述中界定的本发发明的基本原理可以应用于其他实施方案、变形方案、改进方案、等同方案以及没有背离本发明的精神和范围的其他技术方案。

本领域技术人员应理解的是,在本发明的揭露中,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系是基于附图所示的方位或位置关系,其仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此上述术语不能理解为对本发明的限制。

可以理解的是,术语“一”应理解为“至少一”或“一个或多个”,即在一个实施例中,一个元件的数量可以为一个,而在另外的实施例中,该元件的数量可以为多个,术语“一”不能理解为对数量的限制。

请参考图1显示的本发明一种媒体画像生成方法流程示意图,具体方法为:

监控目标媒体账号,获取目标媒体推送数据,其中所述推送数据包括但不仅限于推送的文稿内容、视频内容、音频内容、推送时间等,其中推送内容包括原创内容和转发内容;其中监控目标媒体账号还包括监控多个渠道的目标媒体账号,比如微信、微博、抖音和今日头条等APP或网站渠道,获取多个渠道目标媒体账号推送数据。

进一步的,获取目标账号推送数据后,处理分析所述推送数据,获取目标媒体账号的公共画像数据和偏好画像数据,需要说明的是,所述公共画像数据是所述目标媒体自身属性数据,其中所述公共画像数据包括:基础属性数据,所述基础属性数据包括目标媒体机构行政级别、目标媒体所属地域、目标媒体类型、目标媒体定位、目标媒体采用的语种数据。其中根据基础属性对目标媒体设置标签;举例来说:若目标媒体为“央视体育频道”,则手动或自动将“央视体育频道”的目标媒体行政级别标签设置为“国家级”,将目标媒体所属地域标签设置为“北京”,目标媒体类型标签设置为“体育”,目标媒体定位设置为“中国”,目标媒体采用的语种标签设置为“汉语”。需要说明的是,在本发明其中一个较佳实施例中,可根据媒体名称的字段自动设置标签,比如上述的“央视体育频道”可通过识别媒体名称中的字段“央视”自动设置对应标签:“国家级”、“北京”、“中国”。

所述公共画像数据还包括生产力数据、传播力数据和影响力数据,其中所述生产力数据获取方法包括如下步骤:获取多个目标媒体每一推送数据,并记录每一推送数据发布时间,计算目标媒体的推送频率,并对不同推送频率的目标媒体设置不同的生产力标签;举例来说:计算目标媒体中的日推送量S1、近7日推送量S2和近30天推送量S3,并设日推送量权值W1,7日推送量权值W2和近30天推送量权值W3,其中W1+W2+W3=1,生产力指数P1=S1*W1+S2*W2+S3*W3,根据生产力指数P1的值从大到小进行排序,将多个目标媒体进行分类设置标签,其中生产力指数P1前30%的目标媒体设置“高产”标签,生产力指数P1位于中间60%的目标媒体设置“中产”标签,生产力指数位于末尾10%的目标媒体设置“低产”标签,需要说明的是,该标签是根据所有监控的目标媒体推送频率筛选的相对标签,在本发明另一可行实施例中,可计算所述目标媒体所属类型,并计算目标媒体在所属类型中的生产力指数,并根据生产力指数分别设置“高产”、“中产”、“低产”标签,用于形成公共画像数据。

所述传播力数据生成方法包括如下步骤:计算目标媒体每一推送数据的传播要素,所述传播要素包括但不仅限于总阅读量、总点赞量、总转发量和总评论量数据,并对每一传播要素分别设置权值,计算每一传播要素和对应权值的乘积之和,获取传播力指数,根据传播力指数大小设置不同的传播力标签;详细而言:计算目标媒体总推送数据的总阅读量、总点赞量、总转发量、总评论量及推送数据的篇均阅读量、篇均点赞量、篇均转发量、篇均评论量,根据上述8个传播要素分别设置权值,计算所述传播力指数,所述传播力指数为每一传播要素和对应权值的乘积之和。进一步根据传播力指数按照从高到低依次排序,并将传播力指数前30%的目标媒体设置标签为“众多拥趸”,将传播力指数中间60%的目标媒体设置标签为“吸粉”,将传播力指数末尾10%的目标媒体设置标签为“少粉”,用于形成公共画像数据。

将上述基础属性标签、生产力标签、传播力标签、影响力标签提取,并在显示器上可视化显示形成完整的公共画像数据。

值得一提的是,本发明进一步采用深度学习技术生成多个目标媒体偏好画像分析模型,所述目标媒体画像偏好分析模型是基于现有神经网络模型经过训练、验证和测试后形成的分析模型,举例来说,所述目标媒体偏好画像分析模型包括分类模型,用于对每一推送数的内容进行分类筛选,用于生成目标媒体的偏好画像数据,其中所述分类方法包括如下步骤:

建立标注好的推送数据训练集、验证集和测试集,采用文本分类算法(Text CNN)对所述训练集进行训练;

采用验证集调整所述文本分类算法的超参数调整;

采用测试集评估所述文本分类算法泛化能力,并形成分类模型;

将每一推送数据输入预设的分类模型,获取每一推送数据分类标签。

举例来说:根据媒体报道的推送内容可分为社会、生活、体育、娱乐、科技、军事、财经、时政8个类别,将每个训练集、验证集和训练集根据推送内容分别设置上述的8个类别,通过训练集训练所述分类模型,通过验证集调整文本分类算法的超参数,进一步采用测试集评估所述文本分类算法的泛化能力,具体根据损失函获取模型的收敛状态,用于判断所述分类模型是否符合要求。在训练好的分类模型中输入目标媒体推送的文本信息,获取目标媒体的分类标签,用于生成目标媒体的偏好画像数据。

值得一提的是,所述目标媒体偏好画像分析模型包括实体内容分析模型,所述实体内容分析模型包括:人物实体模型、机构实体模型和地域实体模型,其中所述人物实体模型、机构实体模型和地域实体模型均采用标注训练的神经网络模型,举例来说,所述人物实体模型构建方法包括如下步骤:

根据每一目标媒体推送数据标注人物实体信息;

将标注人物实体信息的目标媒体推送数据组成训练集、验证集和测试集;

将训练集的文本内容输入神经网络模型用于训练;

将验证集的文本内容输入所述神经网络模型用于调整超参数;

将测试集的文本内容输入所述神经网络模型用于评估所述神经网络模型的泛化能力;

调整训练集或超参数,用于形成符合泛化要求的人物实体模型;

将每一目标媒体推送数据输入所述人物实体模型,用于获取每一目标媒体的人物实体模型标签,所述人物实体标签用于构建目标媒体推送数据的偏好画像数据。

同理,机构实体模型和地域实体模型的构建方法均采用神经网路模型进行标注和训练。其中机构实体模型构建方法需要标注每一推送数据内容涉及的机构实体信息,其中所述机构实体信息包括但不仅限于机构名称、机构级别、机构地理位置、机构属性。所述机构实体模型用于输出每一推送数据的机构实体标签,计算目标媒体机构实体标签的种类和数量,用于获取所述目标媒体的机构偏好数据,其中地域实体模型构建方法需要标注每一推送数据内容涉及的地域实体信息,其中所述地域实体信息包括但不仅限于新闻事发地,媒体机构地址,并统计新闻事发地的数量,所述地域实体模型输出每一推送数据的地域实体标签,根据所述地域实体标签计算所述目标媒体的地域偏好数据。根据所述机构偏好数据和地域偏好数据可用于构建所述目标媒体的偏好画像数据。

进一步的,采用突发事件模型计算每一目标媒体推送数据文本内容涉及的突发事件数据,其中所述突发事件数据包括但不仅限于自然灾害、交通事故和金融事件,该突发事件模型基于神经网络模型,将每一目标媒体推送数据进行标注,标注内容可以包括但不仅限于:金融危机、火山爆发、海啸,交通事故等,用于获取每一目标媒体推送数据的突发事件标签类型和数量,进一步将标签用于构建所述目标媒体的偏好画像数据。

在本发明其中一个较佳实施例中,获取目标媒体推送数据中的文本信息,并采用关键词模型抽取文本信息中的关键词,其中该关键词模型可根据预先训练获得,本发明对此不再赘述。采用关键词模型获取目标媒体推送数据的关键词分布,用于构建所述目标媒体的偏好画像数据。

采用主题话题模型分析获取每一目标媒体推送数据中的主题话题标签,所述主题话题模型基于现有的神经网络模型构建,构建方法包括:对标注主题话题的训练集、验证集和测试集次输入神经网络模型,通过调整输入数据和神经网络参数,构建符合泛化要求的主题话题模型。其中将每一媒体推送数据输入构建好的主题话题模型,获取对应的主题话题标签,进一步统计所述目标媒体的主题话题标签种类和数量,用于构建所述目标媒体的偏好画像数据。

进一步的,统计所有目标媒体的主题话题标签,进一步计算任意两个目标媒体中相同主题标签的数目,并计算相同主题标签所占单个目标媒体的所有标签的占比,设置相似度阈值,若占比大于所述相似度阈值,则将两个目标媒体保存为相似主题话题媒体库中,举例来说,若相似度阈值为75%,第一目标媒体的总推送量为P

值得一提的是,所述目标媒体推送数据包括但不仅限于文本数据、图像数据、视频数据和语音数据,在本发明其中一个较佳实施例中,可采用图像转文字技术将图像数据或视频数据中的文字图像转化为文本信息,进一步对该文本信息进行分析并设置不同的标签。或者,采用语音转文字技术将目标媒体推送数据中的语音数据转化为可识别的文本信息,进一步根据转化后的文本信息进行分析并设置不同的标签。

特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。

附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

本领域的技术人员应理解,上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明,本发明的目的已经完整并有效地实现,本发明的功能及结构原理已在实施例中展示和说明,在没有背离所述原理下,本发明的实施方式可以有任何变形或修改。

技术分类

06120112193391