掌桥专利:专业的专利平台
掌桥专利
首页

诗词推荐方法、装置、设备及存储介质

文献发布时间:2023-06-19 10:32:14


诗词推荐方法、装置、设备及存储介质

技术领域

本发明实施例涉及数据处理技术,尤其涉及诗词推荐方法、装置、设备及存储介质。

背景技术

中华传统文化博大精深,内涵丰富。诗词,作为中国传统文化的重要组成部分,是重点推广的对象之一。近年来,教育部在大力发展中华优秀传统文化,其中也包括了诗词,在最新的中小学教材中,优秀古诗文的比例已经逐渐提升。

然而,现有的古诗词学习普遍存在乏味的问题。大部分学生都是只针对课本里的内容进行学习和背诵,对于超出课本内容以外的古诗词内容了解较少,并不能真正提升学生对于古诗词学习的兴趣,进而提升学生的整体文化素养。

发明内容

本发明实施例提供了诗词推荐方法、装置、设备及存储介质,实现基于多维度信息和关联信息推荐诗词给学生,有效帮助学生拓展见闻,提升学生学习兴趣。

第一方面,本发明实施例提供了一种诗词推荐方法,包括:

获取用户的当前场景信息;

基于所述场景信息在预先构建的诗词知识图谱中进行查询,得到待推荐诗词内容,其中,所述诗词知识图谱基于诗词多维度信息以及诗词关联信息构建;

将所述待推荐诗词内容推荐给用户。

第二方面,本发明实施例还提供了一种诗词推荐装置,包括:

场景获取模块,用于获取用户的当前场景信息;

诗词确定模块,用于基于所述场景信息在预先构建的诗词知识图谱中进行查询,得到待推荐诗词内容,其中,所述诗词知识图谱基于诗词的多维度信息以及诗词之间的关联性构建;

诗词推荐模块,用于将所述待推荐诗词内容推荐给用户。

第三方面,本发明实施例还提供了一种诗词推荐设备,包括:

一个或多个处理器;

存储器,用于存储一个或多个程序;

所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述第一方面中提供的诗词推荐方法。

第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有一个或多个计算机程序,该程序被处理器执行时实现如上述第一方面中提供的诗词推荐方法。

上述实施例提供的诗词推荐方法、装置、设备及存储介质中,所述诗词推荐方法包括:获取用户的当前场景信息;基于场景信息在预先构建的诗词知识图谱中进行查询,得到待推荐诗词内容,其中,诗词知识图谱基于诗词多维度信息以及诗词关联信息构建;将待推荐诗词内容推荐给用户。本实施例的技术方案实现基于诗词的多维度信息和诗词关联信息推荐诗词给学生,有效帮助学生拓展见闻,使学生了解中华诗词的博大精深。

附图说明

图1为本发明实施例提供的诗词推荐方法的流程图;

图2是本申请实施例提供诗词知识图谱构建方法的流程图;

图3是本发明实施例提供的分类模型的结构示意图;

图4是本发明实施例提供的诗词知识图谱构建方法的流程图;

图5为本发明实施例提供的诗词推荐装置的结构示意图;

图6为本发明实施例四提供的一种设备的硬件结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

首先介绍一下,现有的诗词推荐方案。

目前,市面上有诗词推荐方案来帮助学生以更有趣味性的方式来学习古诗词。

常见的诗词推荐方法有:一、利用各种智能硬件提升古诗词的趣味性。如利用AR/VR/3D等方式,让学生通过可视化古诗词内容的方式,让古诗词更具场景化,从而提升古诗词学习的兴趣。此外,也有一些古诗词学习的设备,如古诗词学习板等,通过把古诗词打印成卡片的形式放在一个可以旋转、移动的学习板上,以一些游戏的形式,如填词、填句等,增加整体交互的趣味性,从而提升学生对于古诗词学习的兴趣。二、通过将古诗词的内容集成在软件里,通过一些内容和算法提升学习的趣味性。如通过语音识别的技术帮助学生检验古诗词的背诵效果,也有一些通过设置软件游戏的形式,让学生在玩游戏的过程中记住古诗词的内容等。

对于第一种方案,其耗费的成本较高,对于大规模推广古诗词的学习不利。对于AR/VR/3D可视化古诗词内容的方式,其需要花费大量的人力物力针对某一首古诗制作其相应的资源内容,并且不同的古诗其资源内容往往是不具有可迁移性的。因此,其往往只适用于对于课本内的古诗词去构建资源。而对于诗词学习板,同样需要学生专门为了学习古诗购买对应的设备,并且对于每一首古诗都需要设计、打印相应的词卡,因此,其在诗词的覆盖率上也会比较有限。不利于学生拓展古诗词的学习知识面,提升学习的兴趣与动力。

对于第二种方案,对于语音识别等技术,其只是达到了帮学生检验诗词的背诵效果,其没有过多的趣味性,重点还是在于学生自己需要背诵相应的古诗,具有较高的枯燥性。另外一方面,在软件上把诗词做成一些游戏在一定程度上确实能够提升古诗词学习的趣味性,但是其往往会由于过多的趣味性导致学生沉浸在游戏体验中,而忘记了古诗词学习的初衷。此外,其每次玩游戏的古诗并没有过多的关联,尤其是没有与当下的学生所处的场景,如当前学生课堂上学到的古诗,当下的特殊时间点等有关联,缺少“场景化”。

因此,基于硬件的古诗词学习解决方案往往由于采购的成本、构建资源的费时费力,因此在古诗词和学生的覆盖面都较低,难以大规模铺开。而基于软件的解决方案,只从游戏这一个角度切入希望提升趣味性可能导致过于注重趣味性而忽略了古诗词学习的本质。并且,其忽略了古诗词学习的场景化,也忽略了古诗词和教材、日常生活的关联性,利用的信息较少,难以达到良好的学习效果。

为此,本实施例提出了如下技术方案。

图1为本发明实施例提供的诗词推荐方法的流程图,该方法适用于向学生推荐诗词,进行学习的情况,该方法可以由诗词推荐装置执行,该装置可以由硬件和/或软件实现。该诗词推荐装置可以是两个或多个物理实体构成,也可以是一个物理实体构成,并一般集成在计算机设备中。

需要说明的是,本实施例所提供的诗词推荐方法具体可以在计算机设备上使用,并可认为具体由集成在计算机设备上的诗词推荐装置执行,其中,计算机设备具体可以是包括了处理器、存储器、输入装置和输出装置的计算机设备。如笔记本电脑、台式计算机、平板电脑、智能终端、学习机、早教机、智能可穿戴等。

具体地,计算机设备可以在正常工作状态下实时接收用户通过输入装置输入诗词推荐指令,并可根据诗词推荐指令确定待推荐诗词内容,将待推荐诗词内容推荐给用户,并通过输出装置向用户展示上述待推荐诗词内容。进一步的,上述输入装置可以是内置于计算机设备中的输入设备,如:触摸显示屏,内置语音输入装置等;也可以是通过通讯线与计算机设备进行连接的外置输入设备,如:鼠标、键盘等。进一步的,上述输出装置可以是内置于计算机设备中的输出设备,如:触摸显示屏等;也可以是通过通讯线与计算机设备进行连接的外置输出设备,如:投影仪、数字TV等。

具体的,如图1所示,本发明实施例提供的诗词推荐方法,具体包括如下操作:

S11、获取用户的当前场景信息。

其中,上述当前场景信息是指用户当前所处的场景或者时间信息。例如:可以是课堂学习场景,课堂延伸场景、节日场景、主题场景等中的一种或者多种。

其中,计算机设备可以单独设置诗词内容的推荐功能,也可以是在用户利用计算机设备进行诗词学习过程中,针对当前学习的诗词内容向用户推荐相关联的诗词内容或者练习内容。

进一步的,由于不同场景对每个人的学习效率具有一定影响,因此,在本发明实施例中尽量结合用户所在的场景为用户推荐适宜的学习内容,以提高用户的学习效率和学习效果。

在一个实施方式中,获取用户的当前场景信息,包括:计算机设备可以检测用户在计算机设备中输入的推荐请求,该推荐请求用于请求推荐诗词内容;计算机设备响应于该推荐请求,输出用于向用户确认是否需要开启场景识别功能的询问消息,当检测到用户针对询问消息输入的反馈消息且该反馈消息指示用户需要开启场景识别功能时,控制计算机设备的摄像装置拍摄当前场景图像,并对上述当前场景图像进行图像识别,得到用户的当前场景信息。

在另一个实施方式中,获取用户的当前场景信息,包括:计算机设备可以检测用户在计算机设备中输入的推荐请求,该推荐请求用于请求推荐诗词内容;计算机设备响应于该推荐请求,输出用于供用户选择的预设场景信息选择消息,当检测到用户针对选择消息的反馈消息,其中反馈消息中携带用户选择的场景信息,将反馈消息中携带的用户选择的场景信息确定为当前场景信息。其中,预设场景信息可以是课堂学习场景,课堂延伸场景、节日场景、主题场景中的一种或者多种。

在另一个实施方式中,获取用户的当前场景信息,包括:计算机设备可以检测用户在计算机设备中输入的推荐请求,该推荐请求用于请求推荐诗词内容;计算机设备响应于该推荐请求,输出用于供用户输入场景信息的文本框,当检测到用户在上述文本框中输入信息且输入信息是场景信息时,将用户输入的场景信息确定为当前场景信息。

S12、基于所述场景信息在预先构建的诗词知识图谱中进行查询,得到待推荐诗词内容,其中,所述诗词知识图谱基于诗词多维度信息以及诗词关联信息构建。

其中,诗词内容主要包括诗词题目,诗词作者,诗句等,还可以包括:名句赏析,字词解释,诗词作者简介的内容。本实施例中,仅对诗词内容进行说明,而非限定。

其中,诗词多维度信息是指从多个方面或者多个角度对同一首诗词进行描述的信息。例如:可以是从诗词作者,诗句内容以及诗词的流行度等多个方面对诗词进行描述或者标注标签。诗词关联信息可以理解为诗词与诗词之间的关联性或者诗词与环境的关联性。诗词与诗词之间的关联性可以是多首诗词是同一个诗人在同一时期的作品,也可以是多首诗词都是描述同一个景物的或者同一个主题的作品,例如:描述梅花的两首诗词之间具有关联性。诗词与环境的关联性可以是指诗词与节日的关联性。例如:诗词与上元节的关联性等。

在本实施例中,提供一种构建诗词知识图谱的方法。将获取到的古诗词的详细信息,通过古诗词的标题、朝代、作者三种实体类型建立初级诗词知识图谱,而其余的数据作为上述三种实体的属性信息。对于构建的初版古诗词知识图谱,进一步利用各种算法丰富古诗词的标签和属性内容,得到在预先构建的诗词知识图谱。例如:对于在中小学教材中出现过的诗词,打上对应的学段、学段年级标签。对于有一些古诗词涉及到节日信息的诗词,给该首诗词打上对应的节日标签。构建诗词知识图谱的方法可以参照下述实施例中的描述,本实施例中,不再进行限定。

本实施例中,以定义的4种不同的场景为例进行说明,4种场景分别为:课堂学习场景、课堂延伸场景、节日场景和主题场景。

首先,计算机设备获取用户ID,从诗词知识谱图中筛选出该用户ID未学习的诗词,即过滤该用户ID已经学习过的诗词。根据上述步骤S11中确定的当前场景信息,从诗词知识图谱中获取待推荐的内容。

具体的,如果是课堂学习场景,则确定用户当前正在学习的诗词内容,从诗词知识图谱中获取用户当前正在学习的诗词内容推荐给用户,并根据诗词题目从题库中获取该诗词相关的联系内容推荐给用户。这样,可以让学生在学习、背诵课堂古诗词的同时,利用题目提升对古诗词的掌握度。需要说明的是,课堂学习场景是指有老师带领学习的场景。

如果是课堂延伸场景,则确定用户当前正在学习的诗词内容,从诗词知识图谱中获取与当前正在学习的诗词内容具有关联性的诗词内容推荐给用户。需要说明的是,课堂延伸场景是指学生自己在自习室或者家里独立进行学习的场景。

如果是节日场景,则获取当前日期,检索当前日期是否有对应的节日,若有,则利用知识图谱中的节日标签获取该节日标签对应的诗词内容推荐给学生。

如果是主题场景,则可以让学生选择想阅读、了解的诗词主题场景,如写景、咏物、边塞等,并从中筛选出流行度最高的诗词推送给学生。

S13、将所述待推荐诗词内容推荐给用户。

将待推荐诗词内容推荐给用户可以是将待推荐的诗词内容在计算机的展示装置上进行展示,以供用户进行学习。

本发明实施例提供的诗词推荐方法,包括:获取用户的当前场景信息;基于场景信息在预先构建的诗词知识图谱中进行查询,得到待推荐诗词内容,其中,诗词知识图谱基于诗词多维度信息以及诗词关联信息构建;将待推荐诗词内容推荐给用户。本实施例的技术方案实现基于诗词的多维度信息和诗词关联信息推荐诗词给学生,有效帮助学生拓展见闻,使学生了解中华诗词的博大精深。

在一个实施方式中,基于所述场景信息在诗词知识图谱中进行查询,得到待推荐诗词内容,包括如下一种或多种:如果所述场景信息是课堂场景,则获取用户当前正在学习的诗词内容,从所述诗词知识图谱中获取与当前正在学习的诗词内容关联的诗词内容和/或练习内容;如果所述场景信息是节日场景,则确定节日场景对应的节日标签,在所述诗词知识图谱中获取与所述节日标签对应的诗词内容;如果所述场景信息是主题场景,则确定主题场景对应的风格标签,在所述诗词知识图谱中获取与所述风格标签对应的诗词内容。

在一个实施方式中,基于所述场景信息在诗词知识图谱中进行查询,得到待推荐诗词内容,包括:基于所述场景信息在诗词知识图谱中进行查询,获取候选待推荐诗词内容以及候选待推荐诗词内容对应的流行度;将所述流行度大于流行度阈值的候选待推荐诗词内容确定为待推荐诗词内容。

在本实施例中,课堂场景可以进行具体的划分,划分为课堂学习场景和课堂延伸场景。

具体的,如果上述场景信息是课堂学习场景,则获取用户当前正在学习的诗词内容,从诗词知识图谱中获取用户当前正在学习的诗词内容推荐给用户,并根据诗词题目从题库中获取该诗词相关的联系内容推荐给用户。这样,可以让学生在学习、背诵课堂古诗词的同时,利用题目提升对古诗词的掌握度。

在一个实施方式中,获取用户当前正在学习的诗词内容可以是用户在计算机设备显示的搜索框中输入的诗词相关内容,基于用户输入的诗词相关内容进行检索,查询到所有相关的诗词内容并推送到展示界面进行展示以供用户进行选择,检测到用户到展示界面的选择操作,获取用户当前正在学习的诗词内容。

在一个实施方式中,获取用户当前正在学习的诗词内容还可以是开启计算机设备的音频采集装置,通过音频采集装置获取老师或者用户声音音频,通过音频识别方式获取用户当前正在学习的诗词内容。

具体的,如果上述场景信息是课堂延伸场景,则获取用户当前正在学习的诗词内容,从诗词知识图谱中获取与当前正在学习的诗词内容具有关联性的诗词内容推荐给用户,并根据诗词题目从题库中获取该诗词相关的联系内容推荐给用户。

进一步的,具有关联性的诗词内容可以由当前正在学习的诗词内容以及诗词知识图谱之间的关联关系确定,具体确定方法本实施例中不再赘述。

在一个实施方式中,在诗词知识图谱中可以设置诗词之间的关联度,可以直接将关联度最高的诗词内容推荐给用户。

在另一个实施方式中,在诗词知识图谱中可以设置诗词的流行度,将具有关联性的诗词内容中,流行度最高的诗词内容推荐给用户;或者,将具有关联性的诗词内容中,流行度大于流行阈值的诗词内容推荐给用户。

具体的,如果是节日场景,则确定节日标签,在诗词知识图谱中获取与节日标签对应的诗词内容推荐给用户。

进一步的,确定节日标签可以是用户通过计算机设备的输入装置直接输入的节日。直接输入的节日可以是用户在搜索框中输入的具体节日,例如:用户在搜索框中输入的“春节”。直接输入的节日还可以是计算机设备检测到是节日场景之后,获取最常用的节日在展示界面展示,以供用户选择,检测到用户对节日的选择操作,则基于用户的选择操作确定节日标签。

进一步的,确定节日标签可以是获取当前日期,检索当前日期是否有对应的节日,若有,则将对应的节日作为节日标签,若当前日期没有对应的节日,则选取当前日期最接近的节日,作为节日标签。

进一步的,由于中华诗词内容博大精深,基于节日标签确定的诗词内容是很多的。可以将节日标签确定的诗词内容中,流行度最高的诗词内容推荐给用户。还可以是将节日标签确定的诗词内容中,流行度大于流行阈值的诗词内容推荐给用户。

如果是主题场景,则确定主题场景对应的风格标签,在诗词知识图谱中获取与风格标签对应的诗词内容推荐给用户。

进一步的,确定风格标签可以是用户通过计算机设备的输入装置直接输入的风格关键词。直接输入的风格关键词可以是用户在搜索框中输入的具体风格关键词,例如:用户在搜索框中输入的“边塞”,“咏物”,“写景”等。直接输入的风格关键词还可以是,计算机设备检测到是主题场景之后,获取最常用的风格关键词在展示界面展示,以供用户选择,检测到用户对风格关键词的选择操作,则基于用户的选择操作确定风格标签。

进一步的,由于中华诗词内容博大精深,基于风格标签确定的诗词内容是很多的。可以将风格标签确定的诗词内容中,流行度最高的诗词内容推荐给用户。还可以是将风格标签确定的诗词内容中,流行度大于流行阈值的诗词内容推荐给用户。

相比其他方案把单首古诗词依次通过不同的方式推送给学生进行学习,本实施例中提供的多场景诗词内容推荐方法,考量了学生在使用计算机设备时所在的场景(课堂学习场景、课堂延伸场景、节日场景和主题场景),结合场景进行古诗词的推送,使得古诗词与学生当下的学习、生活状态更为接近,更具场景化以提升学习的趣味性。

上述实施例的基础上,本申请实施例提供一种构建诗词知识图谱的方法。图2是本申请实施例提供诗词知识图谱构建方法的流程图,如图2所示,本申请实施例提供诗词知识图谱构建方法,主要包括如下步骤:

S21、基于诗词基础信息建立初级诗词知识图谱。

在本实施例中,诗词多维度信息包括诗词基础信息和诗词延伸信息。其中,诗词基础信息包括诗词信息和/或诗人信息,进一步的,诗词基础信息包括诗词的标题、作者、朝代、诗词的内容、翻译、赏析、注释、诗词的创作背景、诗词类型、出处等信息。诗人信息诗人的字、号、别称、朝代、风格、流派详细介绍等信息。

进一步的,可以通过网络爬虫技术,从各种渠道来源获取诗词信息,也可以通过网络检索等技术获取诗词的作者信息,即诗人信息。需要说明的是,诗词信息和诗人信息的获取方式,本实施例中不再进行具体描述,所有获取诗词信息和诗人信息的方式都可以在本实施例的保护范围内。

具体的,通过古诗词的题目、朝代、作者三种实体类型建立初级诗词知识图谱,其余的诗词信息和诗人信息作为上述三种实体的属性信息在初级诗词知识图谱中存储。

S22、利用所述诗词延伸信息以及所述节日信息对所述初级诗词知识图谱标注标签,得到预先构建的诗词知识图谱,其中,所述诗词延伸信息包括如下一种或多种:年级信息,流行信息,环境意向信息,风格信息。

在本实施例中,对于构建的初级诗词知识图谱,进一步利用各种算法丰富古诗词的标签和属性内容。

在一个实施方式中,如果所述诗词延伸信息是年级信息,利用诗词延伸信息对所述初级诗词知识图谱标注标签,包括:获取不同版本、不同年级的教材中包括的诗词内容;对于所述教材中包括的诗词内容,在所述初级诗词知识图谱中标注学段年级标签。

其中,教材中包括的诗词内容是指在教材中出现过的诗词,主要是学生在学校需要学习的诗词。进一步的,从不同版本的中小学教材中,抽取出其教材中包括或者涉及到的诗词。抽取教材中包括的诗词可以是采用文本识别方法抽取电子版教材中包括的诗词,还可以是人工手动输入教材中包括的诗词。本实施例中仅对抽取教材中包括的诗词的方法进行说明,而非限定。

对于在中小学教材中出现过的古诗词,在初级诗词知识谱图中对应的诗词上打上对应的学段、年级标签。

示例性的,在小学一年级的教材中抽取到的诗词《春晓》,在初级诗词知识谱图中查询到对应的诗词《春晓》,并将诗词《春晓》春晓标记上小学一年级的标签。在高中一年级的教材中抽取到的诗词《滕王阁序》,在初级诗词知识谱图中查询到对应的诗词《滕王阁序》,并将诗词《滕王阁序》标记上高中一年级的标签。

在一个实施方式中,利用节日信息对所述初级诗词知识图谱标注标签,包括:建构节日表,其中,所述节日表中包括一个或多个节日;如果诗词基础信息中存在节日表中对应的节日,则对初级诗词知识图谱中该诗词基础信息对应的诗词内容标注对应的节日标签。

其中,节日是指中国传统节日,例如:春节、清明节、上元节、中元节、中秋节、重阳节、除夕等。进一步的,基于节日名称和节日日期建立一个节日表。

对于步骤S21中获得的诗词的内容、翻译、赏析、注释、诗词等内容进行匹配,如果一首诗词的内容、翻译、赏析中出现了节日表中的词,则就给该首古诗词打上对应的节日标签。

示例性的,诗词《清明》中直接出现了“清明”,与节日表中的“清明节”匹配成功,则在初级诗词知识谱图中查询到对应的诗词《清明》,并将诗词《清明》标记上清明节的标签。诗词《九月九日忆山东兄弟》中的赏析或者注释中可能会出现“重阳节”或者“重阳”,与节日表中的“重阳节”匹配成功,则在初级诗词知识谱图中查询到对应的诗词《九月九日忆山东兄弟》,并将诗词《九月九日忆山东兄弟》标记上重阳节的标签。

在一个实施方式中,如果所述诗词延伸信息是流行信息,利用诗词延伸信息对所述初级诗词知识图谱标注标签,包括:确定诗人流行度和诗词流行度;基于所述诗词流行度和诗人流行度,对所述初级诗词知识图谱标注流行度标签。

其中,诗人流行度可以理解为在现在社会中人们对某个诗人的认识程度,诗词流行度可以理解为在现在社会中人们对某首诗词的认识程度。

诗词和诗人是有常见度的概念的,即有些古诗非常冷门,在进行推荐时不适合展示。因此,针对每一个诗人、古诗分别计算流行度。

具体的,所述诗人流行度由如下一个或多个信息确定:诗人标准化网络指数,诗人标准化网络编辑次数,诗人标准化网络浏览次数,诗人标准化网络页面介绍字数,诗人是否在K12教材中出现,诗人是否在预设著作中出现;所述诗词流行度由如下一个或多个信息确定:诗词标准化网络指数、诗词标准化网络编辑次数、诗词标准化网络浏览次数,诗词标准化网络页面介绍字数,诗词是否在K12教材中出现,诗词是否在预设著作中出现,诗人流行度,标准化诗词内容完整度。

其中,K12是美国基础教育的统称。“K12”中的“K”代表Kindergarten(幼儿园),“12”代表12年级,即高中三年级。“K12”是指从幼儿园到12年级的教育,K12教材是指从幼儿园到高中三年级的全部教材。

进一步的,由于流行度涉及到多种不同来源、不同量纲的数字求和,因此,均需要进行数据标准化,保证其为同一个量纲,具有可比性。归一化的式子如下所示:

其中,x

其中,上述类别可以是指诗人标准化网络指数数,诗人标准化网络编辑次数数,诗人标准化网络浏览次数数,诗人标准化网络页面介绍字数数,诗人是否在K12教材中出现数,诗人是否在预设著作中出现中的任意一种。

在各个维度的得分进行标准化后,流行度的计算公式如下:

诗人的流行度=诗人标准化网络指数数+诗人标准化网络编辑次数数+诗人标准化网络浏览次数数+诗人标准化网络页面介绍字数数+诗人是否在K12教材中出现数+诗人是否在预设著作中出现。

诗词流行度=诗词标准化网络指数+诗词标准化网络编辑次数+诗词标准化网络浏览次数+诗词标准化网络页面介绍字数+诗词是否在K12教材中出现+诗词是否在预设著作中出现+诗人流行度+标准化诗词内容完整度。

其中,网络指数指的是目前常用的搜索网站提供的数据,其反映了一段时间内网民使用搜索引擎搜索一个关键词的频次,即如果一个关键词被搜索的越多,其越常见和受民众关注。因此,可以用其来衡量古诗词和诗人的流行度。

另外一方面,一次网站百科也是记录各种诗词、诗人的详细信息的一个重要来源。若一个古诗词、诗人越常见,其浏览次数、编辑次数、页面内容文字介绍也都会越多,因此,也可利用其来帮助我们验证古诗词/诗人的常见程度。网站百科可以是百度百科,搜狗百科,360百科等。

另外,如果一首古诗或诗人在学生学习的教材出现了,说明其非常常见,因此将出现在教材中的诗词认为是1,未出现认为是0,用于衡量常见程度。

除了K12的教材以外,若作品被收录在常见的来源如《唐诗三百首》、《宋词三百首》、《千家诗》,也说明其相对较常见,因此类似对于教材的处理方法,根据作品是否在该三个出处中出现,将其置为1和0来衡量常见程度。

对于诗词的流行度而言,由于诗词都对应着诗人。同一个作品,通常而言若其作者较出名,其对应的作品也更出名,因此在维度中也考虑加上了诗人的流行度。此外,由于诗词数据来源是根据全网相关的诗词网站获取的,较为冷门的古诗词由于关注的人较少,其各个维度的数据也较不完善,如缺失翻译、赏析等,因此,也可以根据数据来源中维度的信息不为空的比例来衡量古诗词的常见度。

在一个实施方式中,如果所述诗词延伸信息是环境意向信息,利用诗词延伸信息对所述初级诗词知识图谱标注标签,包括:采用词频-逆向文件频率(term frequency–inverse document frequency,TF-IDF)关键词抽取算法确定所述初级诗词知识图谱中的所有诗词内容的关键词;将所有所述关键词的TF-IDF值由高到低进行排序;将排序在前L个的关键词确定为环境意向词典;基于所述环境意向词典对所述初级诗词知识图谱标注环境意向标签。其中,L是大于或等于1的整数。

在本实施例中,针对古诗词的场景、意向等信息,首先对于全量的诗词内容构建数据集,然后进行中文分词,并使用TF-IDF关键词抽取算法抽取关键词。

TF-IDF是一种用于信息检索(information retrieval)与文本挖掘(textmining)的常用加权技术,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。其中TF为词频,表示一个词条在文本中出现的频率,IDF为逆向文档频率,其相当于一个重要性调整系数,即对于最常见的词(″的″、″是″、″在″)给予最小的权重,较少见的词(″蜜蜂″、″养殖″)给予较大的权重。具体而言,其公式如下所示:

tfidf

其中,tf

对于TF-IDF抽取出来的结果,首先利用停用词表去除停用词,然后对于TF-IDF值最高的前100个词作为最终的场景意向词典,进而通过词典反向匹配的方式,给每一首古诗打上场景、意向的标签。

在一个实施方式中,如果所述诗词延伸信息是风格信息,利用诗词延伸信息对所述初级诗词知识图谱标注标签,包括:将所有诗词内容的风格信息作为数据集;利用文本分类器对所述数据集进行文本分类,得到风格标签;基于所述风格标签对所述初级诗词知识图谱标注风格标签。

在本实施例中,对于古诗词的风格,在通过网络渠道利用爬虫技术获取的诗词中,有些诗词就已经带有风格标签,如咏物、边塞、田园等。把有风格标签的数据当成训练集,利用文本分类器进行文本分类,其中文本分类器优选为FastText文本分类器。

图3是本发明实施例提供的分类模型的结构示意图,如图3所示,所述分类模型包含输入层、隐藏层、输出层三层。输入层是词向量,输出层是具体的标签,即古诗词的风格,隐藏层是对多个词向量的叠加平均。其中,输入层会加入字符级别的N-gram,即对于“锄禾日当午”这个句子,当N选择3时,会生成“锄禾日”、“何日当”、“日当午”三个片段,用这三个词向量的叠加来表示“锄禾日当午”这句话,这种方式对于低频词的分类效果更好。

更进一步的,有些诗人也没有风格标签,而诗人的风格是由其作品决定的,因此,对于没有风格标签的诗人,通过统计其作品的风格,选出出现频次最多的风格作为该诗人的风格标签。

本实施例中的技术方案,相比通常的硬件解决方案,其部署和拓展古诗的成本非常低;相比通常的软件解决方案,其不但考虑了古诗词的多维度信息(作者、内容、流行度等),并且利用了古诗词之间的关联性,甚至是和节日的关联性。因此推荐的古诗词范围是历史上所有的古诗词,而并不只局限在某一小部分古诗词。能更有效的帮助学生拓展见闻,了解中华古诗词的博大精深。

在一个应用性实例中,提供一种诗词知识图谱的构建方法。图4是本发明实施例提供的诗词知识图谱构建方法的流程图,如图4所示,本发明实施例提供的诗词知识图谱构建方法主要包括:

通过网络爬虫技术,从诗词网站获取诗词信息和诗人信息。通过古诗词的题目、朝代、作者三种实体类型建立初级诗词知识图谱,其余的诗词信息和诗人信息作为上述三种实体的属性信息在初级诗词知识图谱中存储。

从不同版本的中小学教材中,抽取出其教材中包括或者涉及到的诗词。抽对于在中小学教材中出现过的古诗词,在初级诗词知识谱图中对应的诗词上打上对应的学段、年级标签。

对于有一些诗词涉及到了节日信息的,如春节、清明、中秋、重阳等特殊节日的,首先构建这样一份节日表,然后对于古诗词的内容、翻译、赏析等进行词表的全匹配,即如果一首古诗的内容、翻译、赏析中出现了节日表中的词,则就给该首古诗词打上对应的节日标签。

采用流行度计算公式计算诗人流行度和诗词流行度,并给响应的诗词打上流行度标签。

对于全量的诗词内容构建数据集,然后进行中文分词,并使用TF-IDF关键词抽取算法抽取关键词,对于TF-IDF抽取出来的结果,首先利用停用词表去除停用词,然后对于TF-IDF值最高的前100个词作为最终的场景意向词典,进而通过词典反向匹配的方式,给每一首古诗打上场景、意向的标签。

在通过网络渠道利用爬虫技术获取的诗词中,把有风格标签的数据当成训练集,利用FastText进行文本分类,确定风格标签,给每一首古诗打上对应的的风格标签。

至此,完成了整个诗词知识图谱的构建。

图5为本发明实施例提供的诗词推荐装置的结构示意图,该方法适用于向学生推荐诗词,进行学习的情况,该装置可以由硬件和/或软件实现。该诗词推荐装置可以是两个或多个物理实体构成,也可以是一个物理实体构成,并一般集成在计算机设备中。

如图5所示,本发明实施例提供的诗词推荐装置主要包括:场景获取模块51,诗词确定模块52,诗词推荐模块53。

其中,场景获取模块51,用于获取用户的当前场景信息;

诗词确定模块52,用于基于所述场景信息在预先构建的诗词知识图谱中进行查询,得到待推荐诗词内容,其中,所述诗词知识图谱基于诗词的多维度信息以及诗词之间的关联性构建;

诗词推荐模块53,用于将所述待推荐诗词内容推荐给用户。

上述实施例提供的诗词推荐装置,包括:获取用户的当前场景信息;基于场景信息在预先构建的诗词知识图谱中进行查询,得到待推荐诗词内容,其中,诗词知识图谱基于诗词多维度信息以及诗词关联信息构建;将待推荐诗词内容推荐给用户。本实施例的技术方案实现基于诗词的多维度信息和诗词关联信息推荐诗词给学生,有效帮助学生拓展见闻,使学生了解中华诗词的博大精深。

进一步的,诗词确定模块52,具体用于执行如下一种或多种操作:

如果所述场景信息是课堂场景,则获取用户当前正在学习的诗词内容,从所述诗词知识图谱中获取与当前正在学习的诗词内容关联的诗词内容和/或练习内容;

如果所述场景信息是节日场景,则确定节日场景对应的节日标签,在所述诗词知识图谱中获取与所述节日标签对应的诗词内容;

如果所述场景信息是主题场景,则确定主题场景对应的风格标签,在所述诗词知识图谱中获取与所述风格标签对应的诗词内容。

进一步的,诗词确定模块52,具体用于基于所述场景信息在诗词知识图谱中进行查询,获取候选待推荐诗词内容以及候选待推荐诗词内容对应的流行度;将所述流行度大于流行度阈值的候选待推荐诗词内容确定为待推荐诗词内容。

进一步的,所述诗词多维度信息包括诗词基础信息和诗词延伸信息,所述诗词关联信息包括节日信息;

所述装置还包括:图谱构建模块,用于基于诗词多维度信息以及诗词关联信息构建诗词知识图谱,具体包括:

初级图谱构建单元,用于基于诗词基础信息建立初级诗词知识图谱,其中,所述诗词基础信息包括诗词信息和/或诗人信息;

知识图谱构建单元,用于利用所述诗词延伸信息以及所述节日信息对所述初级诗词知识图谱标注标签,得到预先构建的诗词知识图谱,其中,所述诗词延伸信息包括如下一种或多种:年级信息,流行信息,环境意向信息,风格信息。

进一步的,知识图谱构建单元,具体用于用于建构节日表,其中,所述节日表中包括一个或多个节日;如果诗词基础信息中存在节日表中对应的节日,则对初级诗词知识图谱中该诗词基础信息对应的诗词内容标注对应的节日标签。

进一步的,知识图谱构建单元,具体用于如果所述诗词延伸信息是年级信息,获取不同版本、不同年级的教材中包括的诗词内容;对于所述教材中包括的诗词内容,在所述初级诗词知识图谱中标注学段年级标签。

进一步的,知识图谱构建单元,具体用于如果所述诗词延伸信息是流行信息,确定诗人流行度和诗词流行度;基于所述诗词流行度和诗人流行度,对所述初级诗词知识图谱标注流行度标签。

具体的,所述诗人流行度由如下一个或多个信息确定:诗人标准化网络指数,诗人标准化网络编辑次数,诗人标准化网络浏览次数,诗人标准化网络页面介绍字数,诗人是否在K12教材中出现,诗人是否在预设著作中出现;

所述诗词流行度由如下一个或多个信息确定:诗词标准化网络指数、诗词标准化网络编辑次数、诗词标准化网络浏览次数,诗词标准化网络页面介绍字数,诗词是否在K12教材中出现,诗词是否在预设著作中出现,诗人流行度,标准化诗词内容完整度。

进一步的,知识图谱构建单元,具体用于如果所述诗词延伸信息是环境意向信息,采用词频-逆向文件频率TF-IDF关键词抽取算法确定所述初级诗词知识图谱中的所有诗词内容的关键词;将所有所述关键词的TF-IDF值由高到低进行排序;将排序在前L个的关键词确定为环境意向词典;基于所述环境意向词典对所述初级诗词知识图谱标注环境意向标签。

进一步的,知识图谱构建单元,具体用于如果所述诗词延伸信息是风格信息,将所有诗词内容的风格信息作为数据集;利用文本分类器对所述数据集进行文本分类,得到风格标签;基于所述风格标签对所述初级诗词知识图谱标注风格标签。

本发明实施例所提供的诗词推荐装置可执行本发明任意实施例所提供的诗词推荐方法,具备执行方法相应的功能模块和有益效果。

图6为本发明实施例四提供的一种设备的硬件结构示意图,如图6所示,该设备包括处理器601、存储器602、输入装置603和输出装置604;设备中处理器601的数量可以是一个或多个,图6中以一个处理器601为例;设备中的处理器601、存储器602、输入装置603和输出装置604可以通过总线或其他方式连接,图6中以通过总线连接为例。

存储器602作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的诗词推荐方法对应的程序指令/模块(例如:附图5所示的诗词推荐装置中的模块,包括:场景获取模块51,诗词确定模块52,诗词推荐模块53)。处理器601通过运行存储在存储器602中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的诗词推荐方法。

存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器602可进一步包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

并且,当上述设备所包括一个或者多个程序被所述一个或者多个处理器601执行时,程序进行如下操作:

获取用户的当前场景信息;

基于所述场景信息在预先构建的诗词知识图谱中进行查询,得到待推荐诗词内容,其中,所述诗词知识图谱基于诗词多维度信息以及诗词关联信息构建;

将所述待推荐诗词内容推荐给用户。

输入装置603可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置604可包括显示屏等显示设备。

本发明实施例五还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理装置执行时实现本发明实施例提供的诗词推荐方法,该方法包括:

获取用户的当前场景信息;

基于所述场景信息在预先构建的诗词知识图谱中进行查询,得到待推荐诗词内容,其中,所述诗词知识图谱基于诗词多维度信息以及诗词关联信息构建;

将所述待推荐诗词内容推荐给用户。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的诗词推荐方法中的相关操作.

通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是,上述诗词推荐装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

相关技术
  • 诗词推荐方法、装置、设备及存储介质
  • 诗词语句输入推荐方法、装置和电子设备
技术分类

06120112587134