掌桥专利:专业的专利平台
掌桥专利
首页

一种即时聊天通讯工具快速爬楼方法

文献发布时间:2023-06-19 16:11:11



技术领域

本发明涉及一种即时聊天通讯工具的爬楼方法。

背景技术

通讯是人类文明发展的必然需求,从信件、电报到电话,再到现在的即时通讯软件。随着市场上的即时通讯软件的功能日益丰富,人们对即时通讯软件的要求也越来越高,不仅要好用,还需要通讯软件更加智能,能够想用户之所想。

即时通讯软件所提供的群聊功能是现在使用最多的一种小群体的沟通方式,每个用户的即时通讯软件中通常有非常多的群聊,有家庭群、好友群、工作群等,有一些群有用户所关心的人或事,这些群聊中的每一条消息都不会错过。但是也有部分群的消息是用户并不急于了解的,但是出于各种原因用户又不能主动退出这些群,所以即时通讯软件就提供了群消息屏蔽的功能。

用户一般没有精力立即查看每个群聊中新增的每一条群聊天信息,所以往往一天下来,各种群积攒了非常多的群聊天信息,爬楼就成为了用户每天必须要做的“功课”,为的就是不错过未读群群聊天信息中一些重要的讯息。但对于可能多达几百上千条的未读群聊天信息,爬楼需要花费大量的时间,而且大部分的群聊天信息可能并不是用户所关注的。现在即时通讯软件可以提供的爬楼功能为用户显示所有xxx条未读消息,用户通过点击向上箭头回到第一条未读消息,起到了快速定位起点的功能。即时通讯软件还提供的另外一种爬楼功能为通过查询聊天信息关键字来快速定位包含该聊天信息关键字的所有消息。

发明内容

本发明的目的是:提高即时聊天通讯工具的爬楼效率。

为了达到上述目的,本发明的技术方案是提供了一种即时聊天通讯工具快速爬楼方法,其特征在于,包括以下步骤:

步骤1、用户给出需要阅读当前群聊中所有未读消息的指令;

步骤2、数据展示模块获得用户给出的指令后,获取当前群聊所有未读消息的数量:若将所有未读消息直接展示给用户;若数量大于预先设定的话题分析阈值,则进入步骤3;

步骤3、人工智能话题分析模块获取所有未读消息,对所有未读消息的文字进行分析,利用模糊匹配的方式,计算出每个未读消息所围绕的主题,由此得到多个不同主题以及围绕每个主题的消息;

步骤4、将步骤3所得到的所有话题展示给用户,用户选择自己感兴趣的话题进行查看;查看时,数据展示模块将围绕当前话题的所有未读消息展开后,展示给用户。

优选地,步骤2中,若当前群聊所有未读消息的数量不大于预先设定的话题分析阈值,则按照时间顺序,定位至当前群聊的第一条未读消息,并将该未读消息展示给用户,用户从第一条未读消息开始浏览所有未读消息。

优选地,步骤3中,先采用问题抛出式方式来计算未读消息所围绕的主题,包括以下步骤:

步骤3A01、人工智能模块判断当前获得的消息是否为子消息,并设置对应的主消息:

若人工智能模块获得的当前消息i为对消息j的回复,则当前消息i判定为子消息,并将消息j设置为消息i的主消息,若消息j同时为消息k的子消息,则进一步将消息i设定为消息k的子消息,由此建立相互嵌套的层级关系;

步骤3A02、当通过步骤3A01获得新的主消息后,人工智能模块采用LAD模型对主消息进行标签认定,为主消息打上不同优先级的主题分类标签;人工智能模块采用LAD模型对当前主消息的子消息进行标签认定,为子消息打上不同优先级的主题分类标签;

步骤3A03、人工智能模块将子消息的主题分类标签依据不同优先级与对应的主消息的主题分类标签进行交互确认,若当前子消息的主题分类标签与主消息的主题分类标签之存在交集关联关系,则以主消息的主题分类标签为话题主题,将主题分类标签存在交集关联关系的主消息和子消息划分至同一话题主题;

对于划分至同一话题主题的主消息和子消息,基于主消息和子消息的主题分类标签的重合度设定不同的优先级,重合度越高,则对应子消息的优先级越高,若任意两个子消息的主题分类标签与同一主消息的主题分类标签的重合度相同,则根据消息发出的时间来区分两个子消息的优先级,消息发出的时间越早,则优先级越高;

问题抛出式方式无法处理的所有未读消息由数据交集式方式进行处理,包括以下步骤:

步骤3B01、对剩余的所有未读消息做分词处理,统计每个词所出现的词频,若当前词出现的词频不小于预先设定的话题产生阈值,则将当前词标记为话题点,每个话题点则为一个数据交集式话题;

步骤3B02、将包含步骤3B01得到的话题点的所有未读消息作为围绕与之对应的数据交集式话题的消息。

优选地,步骤3中,若群聊用户发出的是语音消息,则将该语音消息转换为文字后,再进行问题抛出式处理以及数据交集式处理。

优选地,步骤4中,对于问题抛出式方式无法处理得到的主题,通过数据展示模块提供控件供用户选择是否以时间顺序将未读消息展开。

优选地,当用户选择不以时间顺序将未读消息展开时,则有:

分析出主题相关的主消息和子消息后,数据展示模块以主消息为依据划分为一个主题消息包,主消息设定第一消息,与主消息相关的所有子消息则按照优先级从高到低依次展开。

优选地,数据展示模块提供控件给用户以设定相似度阈值,基于该相似度阈值数据展示模块判断任意两个主题所对应的主题消息包的消息是否接近,若接近,则将两个主题消息包合并为一个主题消息包。

优选地,步骤4中,用户能够选择一个话题进行查看,也能够同时选择至少两个话题进行查看。

优选地,步骤3A02中,基于历史数据建立机器学习数据样本库,在机器学习数据样本库中存储认定正确的主题分类标签及对应的消息数据,LAD模型基于该机器学习数据样本库进行标签认定,并根据认定结论不断更新机器学习数据样本库。

与现有技术相比,本发明具有如下优点:

1、智能分析出未读消息所围绕的话题,可以让用户快速了解未读消息的大致内容;

2、用户可以选择查看自己感兴趣的话题所对应的未读消息,节省了爬楼的时间,提高了爬楼效率。

附图说明

图1为初始界面示意;

图2为快读定位未读消息流程图;

图3为主消息与子消息的关系示意图;

图4为话题展示界面示意图。

具体实施方式

下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明提供的一种即时聊天通讯工具快速爬楼方法,包括以下步骤:

步骤1、用户给出需要阅读当前群聊中所有未读消息的指令。本实施例中,用户通过点击屏幕上显示的某个控件的方式给出该指令。如图1所示,屏幕上显示有当前群聊的未读消息按钮,用户点击该未读消息按钮后,即给出了需要阅读当前群聊中所有未读消息的指令。

步骤2、数据展示模块获得用户给出的指令后,获取当前群聊所有未读消息的数量:若数量不大于预先设定的话题分析阈值,则按照时间顺序,定位至当前群聊的第一条未读消息,并将该未读消息展示给用户,用户从第一条未读消息开始浏览所有未读消息;若数量大于预先设定的话题分析阈值,则进入步骤3。

步骤3、人工智能话题分析模块获取所有未读消息,对所有未读消息的文字进行分析,利用模糊匹配的方式,计算出每个未读消息所围绕的主题,由此得到多个不同主题,以及围绕每个主题的消息。

本实施例中,采用以下两种方式来计算未读消息所围绕的主题:

第一种方式:主题标签交集式

人工智能模块对聊天窗口始终处于监控状态,且具有进程守护功能,保证该人工智能模块的正常运作。

当任意成员发布一条消息,人工智能模块将对此消息进行主题类型标签的标注,参考LAD主题模型。LDA主题模型由Blei,David M.、Ng,Andrew Y.、Jordan于2003年提出,用来推测文档的主题分布。它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题分布后,便可以根据主题分布进行主题聚类或文本分类。具体包括以下步骤:

步骤3A01、人工智能模块判断当前获得的消息是否为子消息,并设置对应的主消息:

若人工智能模块获得的当前消息i为对消息j的回复,则当前消息i判定为子消息,并将消息j设置为消息i的主消息,若消息j同时为消息k的子消息,则进一步将消息i设定为消息k的子消息,由此建立相互嵌套的层级关系。

例如:某成员发布的消息001被设置为主消息,后面对消息001进行回复的消息均为子消息。假设消息002是直接对消息001进行回复的消息,则消息002是消息001的子消息。假设消息003以及消息004是对消息002进行回复的消息,则消息002是消息001的子消息的同时,也是消息003以及消息004的主消息,并且消息003以及消息004即是消息002的子消息,也是消息001的子消息。以此类推,从而可以建立起一种相互嵌套的层级关系。

步骤3A02、当通过步骤3A01获得新的主消息后,人工智能模块采用LAD模型对主消息进行标签认定。为解决标签认定精准度不高的问题,本发明基于历史数据建立机器学习数据样本库,在机器学习数据样本库中存储认定正确的标签及对应的消息数据,LAD模型基于该机器学习数据样本库进行标签认定,为主消息打上不同优先级的主题分类标签,例如对于某个LAD模型可以获得具有不同优先级的主题分类标签001,主题分类标签002以及主题分类标签003,假设主题分类标签001的优先级最高,则表示主题分类标签001的准确性最高,主题分类标签003的优先级最低,则表示主题分类标签003的准确性最底。随着机器学习数据样本库中数据量的不断增加,LAD模型进行标签认定的准确定将会越来越高。

与主消息相同,人工智能模块采用LAD模型对当前主消息的子消息进行标签认定,为子消息打上不同优先级的主题分类标签。

步骤3A03、人工智能模块将子消息的主题分类标签依据不同优先级与对应的主消息的主题分类标签进行交互确认,若当前子消息的主题分类标签与主消息的主题分类标签之存在交集关联关系,则以主消息的主题分类标签为话题主题,将主题分类标签存在交集关联关系的主消息和子消息划分至同一话题主题。

对于划分至同一话题主题的主消息和子消息,基于主消息和子消息的主题分类标签的重合度设定不同的优先级,重合度越高,则对应子消息的优先级越高,若任意两个子消息的主题分类标签与同一主消息的主题分类标签的重合度相同,则根据消息发出的时间来区分两个子消息的优先级,消息发出的时间越早,则优先级越高。本领域技术人员可以根据需要来设计优先级等级,本实施例中,设置1-3三个优先级。第二种方式:数据交集式

步骤3B01、对剩余的所有未读消息做分词处理,统计每个词所出现的词频,若当前词出现的词频不小于预先设定的话题产生阈值,则将当前词标记为话题点,每个话题点则为一个数据交集式话题;

步骤3B02、将包含步骤3B01得到的话题点的所有未读消息作为围绕与之对应的数据交集式话题的消息。步骤3中,若群聊用户发出的是语音消息,智能分析模块则将自动将该语音消息转换为文字,如果用户发出的是图片或者表情,同时智能分析模块对发出的图片或表情进行分析,确认该图片和表情的文字含义,本发明专利对视频类的消息不做处理,本专利对视频分析不做保护。当语音消息、图片、表情消息转换为文字后,再进行上述两种分析方式的主题标签交集式式以及数据交集式智能分析。

步骤4、将步骤3所得到的所有话题展示给用户,如图3所示,可以将得到的所有话题以话题列表的方式展示给用户。用户可以选择自己感兴趣的话题进行查看。查看时,如图4所示可以点击相应的话题,则数据展示模块将围绕该话题的所有未读消息展开后,展示给用户。展开时,数据展示模块可以以围绕话题的顺序将所有未读消息展开,两种展开方式分别对应上述两种话题分析模式:

主题标签交集式,分析出主题相关的主消息和子消息后,数据展示模块将会以主消息为依据划分为一个主题消息包,主消息设定第一消息,与主消息相关的所有子消息则按照优先级从高到低依次展开。当两个主题所对应的主题消息包的消息接近时,则这两个主题消息包可以合并为一个主题消息包。为了避免出现较多的主题,合并相似主题消息包的相似度阈值由用户自主设置,则数据展示模块基于该相似度阈值判断主题消息包的消息是否接近。

数据交集式,分析出数据交集的消息后,数据展示模块将这些产生交集的消息体合并到统一消息数据包中,消息数据包的抬头显示就是数据交集的词组,消息数据包按照时间顺序划分优先级(时间最早的最先展示,依次排列时间靠后的)。

用户可以同时选择多个话题,此时,数据展示模块可以将所有围绕这些话题的未读消息展示给用户。

对于不感兴趣的话题,用户则可以选择略过不看。

技术分类

06120114736804