掌桥专利:专业的专利平台
掌桥专利
首页

基于自然语言处理和神经网络的留学申请推荐方法及系统

文献发布时间:2024-04-18 19:59:31


基于自然语言处理和神经网络的留学申请推荐方法及系统

技术领域

本发明涉及自然语言处理和神经网络技术领域,更具体地,涉及一种基于自然语言处理和神经网络的留学申请推荐方法及系统。

背景技术

留学涉及多种多样的海外大学及课程信息,传统的留学咨询机构仅凭个人经验很难让咨询工作变得标准化,也难以提供透明、完整的留学信息。留学咨询和推荐服务本是一项高度个性化和智力密集型的服务,如果不结合学生的个人情况进行盲目推荐,那么学生错误地选择留学院校和专业将会为其人生埋下不可预测的隐患。

另外,由于每个学校在审核申请时使用的量化和质化度量标准并不相同,在考量时给予同类指标的权重也不同,而且大多学校甚至不会公布具体的录取考量标准,因此学生也无法准确估计被录取的概率,难以制定完善的留学准备计划,这也进一步提高了学生的留学成本。

现有技术公开了一种留学申请匹配方法及系统,系统包括:申请装置、连接网络、网络浏览器、网络服务器、预测服务器、申请人预测数据库、学院服务器/学院的数据库以及计算机智能语义库;预测服务器,用于对比所述留学申请人的申请数据和之前被录取学生的申请数据得到第一对比结果;同时用于对比所述留学申请人的申请数据和之前被拒绝学生的申请数据得到第二对比结果;预测服务器与申请人预测数据库连接,将上述的对比结果保存至所述申请人预测数据库的学院预测模型中,再根据留学申请人输入的数据在预测服务器中计算出申请人的录取概率;尽管该现有技术的方案使用了部分量化数据的检索匹配给用户进行推荐,但它没有使用简历信息、实习经历等具体的文本数据作为推荐的依据,仅依靠定量数据进行推荐,会丢失很多的对申请成功率起重要影响作用的文本数据信息,从而影响推荐精准度。

发明内容

本发明为克服上述现有技术仅基于定量数据而造成的推荐精度低的缺陷,提供一种基于自然语言处理和神经网络的留学申请推荐方法及系统,将定量数据与文本数据融合进行推荐能够有效提高推荐精准度,从而提高留学申请的成功率。

为解决上述技术问题,本发明的技术方案如下:

一种基于自然语言处理和神经网络的留学申请推荐方法,包括以下步骤:

S1:获取包含若干条用户数据的训练数据集;所述用户数据包括定量数据和文本数据;

S2:对获取到的训练数据集进行预处理,所述预处理包括对定量数据进行标准化,以及对文本数据进行自然语言处理;

S3:建立留学申请融合推荐模型,将预处理后的训练数据集输入留学申请融合推荐模型中进行训练优化,获取最优的留学申请融合推荐模型;

S4:获取待推荐的用户数据及其对应的留学申请范围信息,计算待推荐的用户数据与其留学申请范围信息的笛卡尔积;所述留学申请范围信息包括若干条待申请的留学信息;

S5:将计算得到的笛卡尔积输入最优的留学申请融合推荐模型中进行融合推荐,获取每条待申请的留学信息的成功率,完成用户的留学申请推荐。

优选地,所述步骤S1中,定量数据包括学业学分绩点、意向地区、目标教育层次、语言成绩、毕业院校和毕业专业;

文本数据包括:竞赛获奖经历和实习经历。

优选地,所述步骤S2中,对定量数据进行标准化的具体方法为:

将用户的学业学分绩点转化成百分制成绩后进行标准化处理,将用户的语言成绩直接进行标准化,将用户的意向地区、目标教育层次、毕业院校和毕业专业分别转化为第一、第二、第三和第四有序编码,完成对定量数据的标准化预处理。

优选地,所述步骤S2中,对文本数据进行自然语言处理的具体方法为:将每个用户的文本数据分别输入预设的自然语言处理模型中进行预处理。

优选地,所述自然语言处理模型包括依次连接的:词向量层、双向循环子模型和CRF层;

所述双向循环子模型包括结构相同且并列设置的正向循环神经网络和反向循环神经网络;

所述正向循环神经网络和反向循环神经网络均包括若干个依次连接的RNN层。

优选地,所述双向循环子模型具体为Bi-GRU模型或Bi-LSTM模型;所述RNN层具体为GRU层或LSTM层。

优选地,所述步骤S3中建立的留学申请融合推荐模型具体为SA-NET神经网络模型;

所述SA-NET神经网络模型包括依次连接的特征分组模块、注意力模块和特征融合模块;

所述注意力模块包括并列设置的通道注意力子模块和空域注意力子模块。

优选地,所述步骤S5中,将计算得到的笛卡尔积输入最优的留学申请融合推荐模型中进行融合推荐,最优的留学申请融合推荐模型计算输出每条待申请的留学信息的二分类置信度,根据二分类置信度获取每条待申请的留学信息的成功率;

所述待申请的留学信息包括:待申请的留学院校和留学专业。

优选地,所述步骤S5之后还包括:

S6:获取待推荐的用户的留学申请结果,根据留学申请结果对所述最优的留学申请融合推荐模型进行反馈优化。

本发明还提供一种基于自然语言处理和神经网络的留学申请推荐系统,应用上述的一种基于自然语言处理和神经网络的留学申请推荐方法,包括:

数据获取单元:用于获取包含若干条用户数据的训练数据集;所述用户数据包括定量数据和文本数据;

数据预处理单元:用于对获取到的训练数据集进行预处理,所述预处理包括对定量数据进行标准化,以及对文本数据进行自然语言处理;

模型建立和训练单元:用于建立留学申请融合推荐模型,将预处理后的训练数据集输入留学申请融合推荐模型中进行训练优化,获取最优的留学申请融合推荐模型;

留学信息计算单元:用于获取待推荐的用户数据及其对应的留学申请范围信息,计算待推荐的用户数据与其留学申请范围信息的笛卡尔积;所述留学申请范围信息包括若干条待申请的留学信息;

留学融合推荐单元:用于将计算得到的笛卡尔积输入最优的留学申请融合推荐模型中进行融合推荐,获取每条待申请的留学信息的成功率,完成用户的留学申请推荐。

与现有技术相比,本发明技术方案的有益效果是:

本发明提供一种基于自然语言处理和神经网络的留学申请推荐方法及系统,首先获取包含若干条用户数据的训练数据集,用户数据包括定量数据和文本数据;对获取到的训练数据集进行预处理,预处理包括对定量数据进行标准化,以及对文本数据进行自然语言处理;建立留学申请融合推荐模型,将预处理后的训练数据集输入留学申请融合推荐模型中进行训练优化,获取最优的留学申请融合推荐模型;获取待推荐的用户数据及其对应的留学申请范围信息,计算待推荐的用户数据与其留学申请范围信息的笛卡尔积;所述留学申请范围信息包括若干条待申请的留学信息;最后将计算得到的笛卡尔积输入最优的留学申请融合推荐模型中进行融合推荐,获取每条待申请的留学信息的成功率,完成用户的留学申请推荐;

本发明通过将较难总结的文本数据通过自然语言处理后与显而易见的定量数据进行融合,并将融合结果输入神经网络模型中进行留学申请的推荐,能大幅提高目标院校与专业申请的成功率和推荐准确性,推荐方案也更加符合逻辑与实际情况。

附图说明

图1为实施例1所提供的一种基于自然语言处理和神经网络的留学申请推荐方法流程图。

图2为实施例2所提供的一种基于自然语言处理和神经网络的留学申请推荐方法示意图。

图3为实施例2所提供的留学申请融合推荐模型结构图。

图4为实施例3所提供的一种基于自然语言处理和神经网络的留学申请推荐系统结构图。

具体实施方式

附图仅用于示例性说明,不能理解为对本专利的限制;

为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;

对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示,本实施例提供一种基于自然语言处理和神经网络的留学申请推荐方法,包括以下步骤:

S1:获取包含若干条用户数据的训练数据集;所述用户数据包括定量数据和文本数据;

S2:对获取到的训练数据集进行预处理,所述预处理包括对定量数据进行标准化,以及对文本数据进行自然语言处理;

S3:建立留学申请融合推荐模型,将预处理后的训练数据集输入留学申请融合推荐模型中进行训练优化,获取最优的留学申请融合推荐模型;

S4:获取待推荐的用户数据及其对应的留学申请范围信息,计算待推荐的用户数据与其留学申请范围信息的笛卡尔积;所述留学申请范围信息包括若干条待申请的留学信息;

S5:将计算得到的笛卡尔积输入最优的留学申请融合推荐模型中进行融合推荐,获取每条待申请的留学信息的成功率,完成用户的留学申请推荐。

在具体实施过程中,首先获取包含若干条用户数据的训练数据集,用户数据包括定量数据和文本数据;

对获取到的训练数据集进行预处理,预处理包括对定量数据进行标准化,以及对文本数据进行自然语言处理;

建立留学申请融合推荐模型,将预处理后的训练数据集输入留学申请融合推荐模型中进行训练优化,获取最优的留学申请融合推荐模型;

获取待推荐的用户数据及其对应的留学申请范围信息,计算待推荐的用户数据与其留学申请范围信息的笛卡尔积;所述留学申请范围信息包括若干条待申请的留学信息;

最后将计算得到的笛卡尔积输入最优的留学申请融合推荐模型中进行融合推荐,获取每条待申请的留学信息的成功率,完成用户的留学申请推荐;

本方法通过将较难总结的文本数据通过自然语言处理后与显而易见的定量数据进行融合,并将融合结果输入神经网络模型中进行留学申请的推荐,能大幅提高目标院校与专业申请的成功率和推荐准确性,推荐方案也更加符合逻辑与实际情况。

实施例2

本实施例提供一种基于自然语言处理和神经网络的留学申请推荐方法,包括以下步骤:

S1:获取包含若干条用户数据的训练数据集;所述用户数据包括定量数据和文本数据;

S2:对获取到的训练数据集进行预处理,所述预处理包括对定量数据进行标准化,以及对文本数据进行自然语言处理;

S3:建立留学申请融合推荐模型,将预处理后的训练数据集输入留学申请融合推荐模型中进行训练优化,获取最优的留学申请融合推荐模型;

S4:获取待推荐的用户数据及其对应的留学申请范围信息,计算待推荐的用户数据与其留学申请范围信息的笛卡尔积;所述留学申请范围信息包括若干条待申请的留学信息;

S5:将计算得到的笛卡尔积输入最优的留学申请融合推荐模型中进行融合推荐,获取每条待申请的留学信息的成功率,完成用户的留学申请推荐;

S6:获取待推荐的用户的留学申请结果,根据留学申请结果对所述最优的留学申请融合推荐模型进行反馈优化;

所述步骤S1中,定量数据包括学业学分绩点、意向地区、目标教育层次、语言成绩、毕业院校和毕业专业;

文本数据包括:竞赛获奖经历和实习经历;

所述步骤S2中,对定量数据进行标准化的具体方法为:

将用户的学业学分绩点转化成百分制成绩后进行标准化处理,将用户的语言成绩直接进行标准化,将用户的意向地区、目标教育层次、毕业院校和毕业专业分别转化为第一、第二、第三和第四有序编码,完成对定量数据的标准化预处理;

所述步骤S2中,对文本数据进行自然语言处理的具体方法为:将每个用户的文本数据分别输入预设的自然语言处理模型中进行预处理;

所述自然语言处理模型包括依次连接的:词向量层、双向循环子模型和CRF层;

所述双向循环子模型包括结构相同且并列设置的正向循环神经网络和反向循环神经网络;

所述正向循环神经网络和反向循环神经网络均包括若干个依次连接的RNN层;

所述双向循环子模型具体为Bi-GRU模型或Bi-LSTM模型;所述RNN层具体为GRU层或LSTM层;

所述步骤S3中建立的留学申请融合推荐模型具体为SA-NET神经网络模型;

所述SA-NET神经网络模型包括依次连接的特征分组模块、注意力模块和特征融合模块;

所述注意力模块包括并列设置的通道注意力子模块和空域注意力子模块;

所述步骤S5中,将计算得到的笛卡尔积输入最优的留学申请融合推荐模型中进行融合推荐,最优的留学申请融合推荐模型计算输出每条待申请的留学信息的二分类置信度,根据二分类置信度获取每条待申请的留学信息的成功率;

所述待申请的留学信息包括:待申请的留学院校和留学专业。

在具体实施过程中,首先获取包含若干条用户数据的训练数据集,用户数据包括定量数据和文本数据;在本实施例中,将定量数据记为A类数据,将文本数据记为B类数据,其中:

A类数据包括:学业学分绩点、意向地区、目标教育层次、语言成绩、毕业院校、毕业专业;

B类数据包括:竞赛获奖经历、实习经历、个人陈述、导师推荐信等;

对获取到的训练数据集进行预处理,预处理包括对定量数据进行标准化,以及对文本数据进行自然语言处理;

用户的学业学分绩点为连续变量,本实施例中将用户的学业学分绩点转化成百分制成绩后进行标准化处理;语言成绩也为连续变量,将用户的语言成绩直接进行标准化;用户的意向地区、目标教育层次、毕业院校和毕业专业均为分类变量,本实施例中将其分别转化为第一、第二、第三和第四有序编码,完成对定量数据的标准化预处理;

将每个用户的文本数据分别输入预设的自然语言处理模型中进行预处理;

如图2所示,本实施例中的自然语言处理模型包括依次连接的:词向量层、Bi-GRU模型和CRF层;

将每个用户的文本数据分别输入词向量层中转换为词向量,之后依次输入Bi-GRU模型和CRF层中进行关键信息提取;另外,本实施例中的自然语言处理模型可以针对实体信息进行抽取,采用序列标注的方式,通过循环神经网络Bi-GRU模型对句子等序列信息进行建模,再使用此模型结合对文本信息预定义的实体进行有价值信息的提取;

建立留学申请融合推荐模型,将预处理后的A类数据和B类数据整合之后输入留学申请融合推荐模型中进行训练优化,训练集为已有的数万条用户记录,其中输入为预处理后的A类、B类融合数据,以及用户申请的院校、专业,标签为该条记录是否申请成功,获取最优的留学申请融合推荐模型;

如图3所示,本实施例中的留学申请融合推荐模型具体为SA-NET神经网络模型;

所述SA-NET神经网络模型包括依次连接的特征分组模块、注意力模块和特征融合模块;

所述注意力模块包括并列设置的通道注意力子模块和空域注意力子模块;

在图3的网络模型中,Dense1与Dense3本质是全连接层,Flatten1的作用是将数据展平;在Dense2中针对展平后的部分分组为多个子特征,同时构建通道注意力子模块和空域注意力子模块,以突出显示正确的语义特征区域;此网络模型主要特征在于网络将可量化与不可量化的数据分别通过全连接层与注意力模块再进行合并,合并后的部分会向不可量化数据进行反馈更新,目的是用样本间形式差异较小的可量化数据对差异较大的不可量化数据进行修正,最后将所有内容通过全连接层进行二分类获取预测结果;

最后获取待推荐的用户数据及其对应的留学申请范围信息,计算待推荐的用户数据与其留学申请范围信息的笛卡尔积,该过程实际上就是将用户的所有数据与所有范围内的院校专业进行排列组合,也就是将两个集合(一个是用户信息X,另一个是所有院校专业Y,其中X有1条,Y有若干条)进行匹配,获取所有有序对的过程也就是计算X×Y的笛卡尔积;

所述留学申请范围信息包括若干条待申请的留学信息;

最后使用已调优的二分类神经网络SA-Net,以单次向用户采集的A类、B类数据与范围内的院校、专业求笛卡尔积后分别输入模型,以二分类中的成功置信度作为该用户申请不同院校、专业的成功率,将其降序后推荐给用户;

在用户申请完成后,邀请用户反馈对每个学校申请的成功与否,并将此申请结果数据使用上述的方法处理形成训练数据集格式,并有权重地补充优化SA-Net模型;

本方法最终实现效果为用户提供A类与B类数据,通过本方法运算分析后,向用户提供推荐申请院校、专业及申请成功率信息,最后使用用户的申请结果信息对推荐算法进行补充修正;

另外,本实施例还可通过实验进行数据验证,验证数据方式如下:在不参与融合推荐模型训练的样本库中随机抽样10%的用户记录数据,以申请结果的成功与否作为标准结果,将此部分用户记录的数据分别使用融合推荐模型进行推荐,比对得到的推荐院校专业、对应成功率与标准结果的差异;当模型所推荐的院校专业在标准结果中申请成功即记为该条记录为成功记录,反之记为失败记录;通过成功记录占此部分用户记录总数的比重(最新测试结果大于70%)即可反映本方法的有益效果;

若按照以上规则,采用现有技术的数中推荐方式,成功比重均未能超过50%;本方法的融合推荐能很大程度上提高目标院校与专业申请成功率的准确性,在实际数据的模拟推荐中,本方法所推荐的申请成功率超过80%的院校和专业大部分均申请成功;

本方法通过将较难总结的文本数据通过自然语言处理后与显而易见的定量数据进行融合,并将融合结果输入神经网络模型中进行留学申请的推荐,能大幅提高目标院校与专业申请的成功率和推荐准确性,推荐方案也更加符合逻辑与实际情况。

实施例3

如图4所示,本实施例提供一种基于自然语言处理和神经网络的留学申请推荐系统,应用实施例1或2中所述的一种基于自然语言处理和神经网络的留学申请推荐方法,包括:

数据获取单元301:用于获取包含若干条用户数据的训练数据集;所述用户数据包括定量数据和文本数据;

数据预处理单元302:用于对获取到的训练数据集进行预处理,所述预处理包括对定量数据进行标准化,以及对文本数据进行自然语言处理;

模型建立和训练单元303:用于建立留学申请融合推荐模型,将预处理后的训练数据集输入留学申请融合推荐模型中进行训练优化,获取最优的留学申请融合推荐模型;

留学信息计算单元304:用于获取待推荐的用户数据及其对应的留学申请范围信息,计算待推荐的用户数据与其留学申请范围信息的笛卡尔积;所述留学申请范围信息包括若干条待申请的留学信息;

留学融合推荐单元305:用于将计算得到的笛卡尔积输入最优的留学申请融合推荐模型中进行融合推荐,获取每条待申请的留学信息的成功率,完成用户的留学申请推荐。

在具体实施过程中,首先数据获取单元301获取包含若干条用户数据的训练数据集,用户数据包括定量数据和文本数据;

数据预处理单元302对获取到的训练数据集进行预处理,预处理包括对定量数据进行标准化,以及对文本数据进行自然语言处理;

模型建立和训练单元303建立留学申请融合推荐模型,将预处理后的训练数据集输入留学申请融合推荐模型中进行训练优化,获取最优的留学申请融合推荐模型;

留学信息计算单元304获取待推荐的用户数据及其对应的留学申请范围信息,计算待推荐的用户数据与其留学申请范围信息的笛卡尔积;所述留学申请范围信息包括若干条待申请的留学信息;

最后留学融合推荐单元305将计算得到的笛卡尔积输入最优的留学申请融合推荐模型中进行融合推荐,获取每条待申请的留学信息的成功率,完成用户的留学申请推荐;

本系统通过将较难总结的文本数据通过自然语言处理后与显而易见的定量数据进行融合,并将融合结果输入神经网络模型中进行留学申请的推荐,能大幅提高目标院校与专业申请的成功率和推荐准确性,推荐方案也更加符合逻辑与实际情况。

相同或相似的标号对应相同或相似的部件;

附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;

显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

技术分类

06120116521881