基于眼动仪的高质量用户生成内容的识别方法和系统
文献发布时间:2023-06-19 11:32:36
技术领域
本发明涉及用户生成内容分类技术领域,具体涉及一种基于眼动仪的高质量用户生成内容的识别方法和系统。
背景技术
随着互联网技术的高速发展和社交媒体的广泛应用,越来越多的虚拟社区建立起来,由用户创造传播的信息在网络社会中发挥着越来越重要的作用,用户生成内容(UGC,User-Generated Content)成为了Web2.0环境下众多学者的研究热点。但UGC信息质量良莠不齐,需要投入大量的时间和精力才能从中寻找出高质量的UGC信息。
现有的UGC质量研究通常仅基于信息质量和用户属性进行识别。
但上述方法无法很好应对水军、机器人等问题,导致高质量用户生成内容的识别准确度不高。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于眼动仪的高质量用户生成内容的识别方法和系统,解决了现有高质量用户生成内容识别方法无法很好应对水军、机器人的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
第一方面,提供了一种基于眼动仪的高质量用户生成内容的识别方法,该方法包括:
基于上传的文章,获取所述文章的段落信息
基于眼动仪获取的注视区域,计算各个段落的重排版信息Set={s
其中,
基于各个段落的重排版信息,对所述文章进行重排版;
基于重排版后的文章,生成包含多个段落的段落显示区域
用户打开文章浏览页面后,眼动仪实时获取用户的注视区域,并计算注视区域在各个段落显示区域的停留时长
基于所述停留时长,计算文章的评论的可信值B,将所述可信值高于第一预设阈值的评论标记为高质量评论;
基于所述高质量评论,计算文章的质量值Q,并将所述质量值大于第二预设阈值的文章标记为高质量文章。
进一步的,所述基于眼动仪获取的注视区域,计算第n个段落的重排版信息
对注视区域进行圆拟合,获取注视区域的中心和直径R;设置字符尺寸size
对于任意段落,基于字符尺寸size
基于行间距d
进一步的,所述每行预设字符数num
所述段落的行数
所述计算段落的显示尺寸
其中,pixel
进一步的,所述基于重排版后的文章,生成包含多个段落的段落显示区域
所述段落显示区域
在刷新文章浏览页面时,更新文章浏览页面中的段落显示区域
进一步的,所述计算注视区域在各个段落显示区域的停留时长
当注视区域与段落显示区域
当注视区域与段落显示区域
进一步的,所述计算注视区域在各个段落显示区域的停留时长还包括:
停留时长
若移动高度mh大于字符尺寸size
进一步的,所述基于所述停留时长,计算文章的评论的可信值B,包括:
获取评论对应的用户的历史阅读速度V
计算用户阅读第n个段落的阅读速度V
计算该用户的文章已阅读比例作为评论的可信值B。
进一步的,所述基于所述高质量评论,计算文章的质量值Q,包括:
获取文章的高质量评论,所述评论的类型包括好、一般或不好;
计算各个评论的类型的占比,将评论为好的占比作为文章的质量值Q。
进一步的,所述第一预设阈值为80%,第二预设阈值为60%,第三阈值为45°。
第二方面,提供了一种基于眼动仪的高质量用户生成内容的识别系统,所述系统包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
(三)有益效果
本发明提供了一种基于眼动仪的高质量用户生成内容的识别方法和系统。与现有技术相比,具备以下有益效果:
本发明利用眼动仪获取注视区域,并根据注视区域对文章进行重排版,重排版后的字符更加适配使用场景,能够使后续阅读时长的计时更加准确。用户打开文章浏览页面后,通过眼动仪实时获取用户的注视区域,并计算注视区域在各个段落显示区域的停留时长作为段落的阅读时长,再基于所述停留时长,计算文章的评论的可信值B,基于可信值筛选高质量评论;同时基于所述高质量评论,计算文章的质量值Q,基于质量值筛选高质量文章,使机器人和水军的评论不会被收入评判数据,最终实现高准确度的高质量用户生成内容的识别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的流程图;
图2为眼动仪获取的注视区域示意图;
图3为不计入停留时长的视线移动方向的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种基于眼动仪的高质量用户生成内容的识别方法和系统,解决了现有高质量用户生成内容识别方法无法很好应对水军、机器人的问题。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
实施例1:
如图1所示,本发明提供了一种基于眼动仪的高质量用户生成内容的识别方法,该方法包括:
基于上传的文章,获取所述文章的段落信息
基于眼动仪获取的注视区域,计算各个段落的重排版信息Set={s
其中,
基于各个段落的重排版信息,对所述文章进行重排版;
基于重排版后的文章,生成包含多个段落的段落显示区域
用户打开文章浏览页面后,眼动仪实时获取用户的注视区域,并计算注视区域在各个段落显示区域的停留时长
基于所述停留时长,计算文章的评论的可信值B,将所述可信值高于第一预设阈值的评论标记为高质量评论;
基于所述高质量评论,计算文章的质量值Q,并将所述质量值大于第二预设阈值的文章标记为高质量文章。
本实施例的有益效果为:
本实施例利用眼动仪获取注视区域,并根据注视区域对文章进行重排版,重排版后的字符更加适配使用场景,能够使后续阅读时长的计时更加准确。用户打开文章浏览页面后,通过眼动仪实时获取用户的注视区域,并计算注视区域在各个段落显示区域的停留时长作为段落的阅读时长,再基于所述停留时长,计算文章的评论的可信值B,基于可信值筛选高质量评论;同时基于所述高质量评论,计算文章的质量值Q,基于质量值筛选高质量文章,最终实现高质量的用户生成内容的识别。
下面对本发明实施例的实现过程进行详细说明:
S1、基于上传的文章,获取所述文章的段落信息
举例说明:例如在用户上传一篇文章后,可按照段落标记对文章进行拆分,得到文章的段落信息
考虑到眼动仪的注视区域的大小在不同应用场景下会有差异,而文章的字符尺寸若不能与注视区域的大小匹配,会导致后续阅读时长数据的准确性下降,为了保证阅读时长数据的准确度,需要在获取阅读时长前,根据不同的应用场景对文章进行重排版。可采用S2的步骤进行处理:
S2、基于眼动仪获取的注视区域,计算各个段落的重排版信息Set={s
其中,
举例说明:如图2所示,可采用现有眼动仪获取注视区域。计算各个段落的重排版信息Set={s
S21、对注视区域进行圆拟合,获取注视区域的中心和直径R;
S22、设置字符尺寸size
S23、对于任意段落,基于字符尺寸size
S24、基于每行预设字符数num
S25、基于行间距d
其中,pixel
根据S23~S25步骤对各个段落进行处理,即可获得所有段落的重排版信息Set={s
S3、基于各个段落的重排版信息,对所述文章进行重排版。重排版后的文章能够更加适配当前的使用场景。
S4、基于重排版后的文章,生成包含多个段落的段落显示区域
例如,根据文章浏览页面的大小,可设置3个段落显示区域
且在刷新文章浏览页面时(如用户发出翻页指令时),更新文章浏览页面中的段落显示区域
S5、用户打开文章浏览页面后,眼动仪实时获取用户的注视区域,并计算注视区域在各个段落显示区域的停留时长
例如,可采用如下方法计算注视区域在段落显示区域的停留时长:
S51、当注视区域与段落显示区域
S52、当注视区域与段落显示区域
为了进一步提高段落的阅读时长的准确度,需要针对不同的视线移动方向进行筛选,因此,计算注视区域在段落显示区域的停留时长的方法还包括:
S511、停留时长
S512、若移动高度mh大于字符尺寸size
S6、基于所述停留时长,计算文章的评论的可信值B,将所述可信值高于第一预设阈值的评论标记为高质量评论;
S61、获取评论对应的用户的历史阅读速度V
S62、计算用户阅读第n个段落的阅读速度V
S63、计算该用户的文章已阅读比例作为评论的可信值B;
S64、将所述可信值高于第一预设阈值的评论标记为高质量评论,第一预设阈值设置为80%。
S7、基于所述高质量评论,计算文章的质量值Q,并将所述质量值大于第二预设阈值的文章标记为高质量文章。
S71、获取文章的高质量评论,所述评论的类型包括好、一般或不好;
S72、计算各个评论的类型的占比,将评论为好的占比作为文章的质量值Q;
S73、将所述质量值大于第二预设阈值的文章标记为高质量文章,第二预设阈值为60%。
实施例2
本发明还提供了一种基于眼动仪的高质量用户生成内容的识别系统,所述系统包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
可理解的是,本发明实施例提供的基于眼动仪的高质量用户生成内容的识别系统与上述基于眼动仪的高质量用户生成内容的识别方法相对应,其有关内容的解释、举例、有益效果等部分可以参考基于眼动仪的高质量用户生成内容的识别方法中的相应内容,此处不再赘述。
综上所述,与现有技术相比,本发明具备以下有益效果:
①本发明例利用眼动仪获取注视区域,并根据注视区域对文章进行重排版,重排版后的字符更加适配使用场景,能够使后续阅读时长的计时更加准确。用户打开文章浏览页面后,通过眼动仪实时获取用户的注视区域,并计算注视区域在各个段落显示区域的停留时长作为段落的阅读时长,再基于所述停留时长,计算文章的评论的可信值B,基于可信值筛选高质量评论;同时基于所述高质量评论,计算文章的质量值Q,基于质量值筛选高质量文章,使机器人和水军的评论不会被收入评判数据,最终实现高准确度的高质量用户生成内容的识别。
②通过在停留时长
③在判定用户是否阅读段落时,通过获取历史数据和实时的阅读速度,在阅读速度过快时,可判定为未阅读,能够更准确的计算评论的可信值。
需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
- 基于眼动仪的高质量用户生成内容的识别方法和系统
- 一种基于高质量模板的智能尾箱指纹识别方法及系统