掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明涉及数据分析技术领域,具体是一种面向学涯评价的评级方法与系统。

背景技术

据第三方社会调查机构麦可思研究院2020年发布的《2020年中国大学生就业报告》,本科毕业生就业率已经持续多年缓慢下降,高职高专就业率却逐步上升。在就业去向方面,本科毕业的学生“受雇工作”的比例连续五年持续下降。面对严峻的就业形势,学校需出台更具针对性、科学性和精准性的就业指导服务。立足打通学生培养全过程,支撑学生的职业生涯规划服务。全面记录学生从入校到毕业的全过程成长数据,涵盖学业成绩等在校期间成长数据,为学校建立丰富的人才培养数据库,为学生建立个性化的“成长档案”;基于学生培养过程数据,从多个维度精准刻画学生职业生涯规划画像,为每位学生指明适配的就业方向。

综合测评是一项在我国各高校运行多年的学生素质评价体系,是学生学涯质量评价的重要参考标准。然而,现行综合素质测评指标体系具有主观性,测评操作过程不规范,测评结果不支持学生自主查询。传统的采用纸质方式进行操作管理方式难以满足现有需求,逐渐暴露出效率低、出错概率大、评价过程不透明、评价结果普遍滞后、实际指导性差等弊端。

近年来,现代科技的飞速发展助力教育行业信息化建设水平不断提高,校园卡在消费、门禁中的广泛使用以及校园各类平台系统中数据的积累,共同形成了校园大数据环境。通过对校园数据的分析,可以挖掘出高校学生内在的、可预测的特征,这对提升高校信息化管理水平有着重要意义。然而,虽然当前数据管理平台的应用为学校综合数据分析提供了基础数据支撑,但在如何有效利用这些结果性数据与过程性数据开展数据分析,用于综合素质评价以及学生就业指导过程等方面仍有欠缺。学生画像是用户画像在教育应用中的延伸,根据学生的在校行为数据抽象出标签化的学生模型,得到立体的各类学生画像,探寻学生毕业去向与在校外在表现的连接点,从而提供精细化、精心化、精准化就业指导。

综上,亟需构建一个将大数据挖掘技术和综合测评相结合的平台,量化学生学业、行为、消费以及社交等多方面特性,刻画学生立体画像,探讨挖掘与学生择业相关的可量化指标,提供有针对性地就业指导。

发明内容

本发明的目的在于提供一种面向学涯评价的评级方法与系统,基于综合测评标准研究理论基础及学生培养方案,结合学生培养全流程多维大数据,构建学涯评价和就业岗位匹配指标体系和算法模型。通过整理学生门禁数据、学业成绩及借书记录等在校多维数据,构建学生在校行为轨迹,提取学生行为标签,实现学生“德、勤、体、智、能”多维度分级量化评估和立体画像构建。克服了传统本科生综合测评“专家打分”方法的局限性,实现精准评价。一方面,辅助高校管理者更了解学生学涯状态和行为特性,及时关注学情异常并做出预警;另一方面,通过雷达图定位学生之间的能力差距,对比分析不同类毕业去向的学生群体在校行为的差异性和规律性,从而有效预测学生未来的毕业去向选择,引导在校大学生进行个性化的职业生涯规划,使得学生在大学毕业时有着明确的发展目标,从而来缓解高校大学生就业难的问题。

为实现上述目的,本发明提供如下技术方案:

一种面向学涯评价的评级方法,包括如下步骤:

步骤S1,数据汇聚与数据存储;

步骤S2,数据清洗与转换;

步骤S3,针对各指标量化数据;

步骤S4,特征提取;

步骤S5,学涯评价算法。

作为本发明所述的一种优选实施方案,所述步骤S1数据采集学生基本信息、校园卡消费、各场地门禁记录、教务信息系统及图书馆系统记录;学生基本信息记录包括学生政治面貌、学业信息和就业信息记录;门禁记录包含图书馆出入记录、宿舍出入记录;学生卡消费记录包含食堂消费记录、超市消费记录、澡堂消费记录等;教务信息记录包含学生成绩记录、资助记录和奖惩记录;图书馆系统记录包含学生的图书借阅记录。

作为本发明所述的一种优选实施方案,所述步骤S2数据清理,主应对步骤S1中原始的真实数据中存在部分数据错误或不合理的情况进行数据清理和补充。

作为本发明所述的一种优选实施方案,所述步骤S3中对于类别型定性数据进行数值化处理,可采用离散值的处理方式,以使其能应用于评价指标计算。

作为本发明所述的一种优选实施方案,所述步骤S4学习特征指标计算方法如下:

(1)遵纪守法

学生处分记录包含“警告”、“严重警告”、“记过”、“留校察看”、“开除学籍”这几种;遵纪守法指标以满分10分计算,根据受到纪律处分次数及严重程度加权计算扣分值;

(2)学习态度

通过计算努力指数来反映学生的学习态度;学生是否努力学习且态度端正可以通过计算学生周末假期在图书馆的平均时长与所有学生里最长时间的比值,或日均图书馆停留时间来量化;

(3)学习习惯

分别计算年均借阅书籍的数目,包含正在阅读的书籍和已经完成阅读的书籍,年均完成读书的数目,平均每本书阅读时间(天数)这三个指标;并通过这三个指标加权得出学习习惯的数值,权重的判定是通过主成分分析拟合出来的;

(4)作息习惯

通过计算晚上23:00到次日4:30学生回寝次数占其总次数的比例,得出学生作息习惯指标,该指标为反向指标;

(5)生活规律

通过交叉熵计算的规律指数(EV),先分别计算学生进出图书馆规律指数和进出宿舍规律指数,再计算两者平均数得出学生的生活规律,该指标为反向指标;

规律指数计算公式如下:

其中,n

(6)体质状况

通过体育类课程的表现来衡量学生的体质状况,用“体育”、“球”、“游泳”、“运动”等关键词模糊匹配出体育类的课程;再对这些课程进行一个加权求和,计算加权平均成绩的方法就是将科目所占的学分作为成绩分数的权重从而得出学生的体质状况分数;

计算公式如下:

其中,w

(7)外语水平

通过计算英语四六级考试成绩数据和小语种成绩数据,如俄罗斯语(CRT)、日语(CJT)、法语(CFT)、德语(CGT)等课程,如果有多次考试是取历史最高成绩,并且以该考试满分进行归一化处理;再进行主成分分析之后,综合得出每位学生的外语水平;

(8)计算机能力

通过计算相关课程的成绩衡量某学生的计算机技能水平;用“编程”、“编译”、“计算”、“程序”等关键词模糊匹配出计算机类的课程,再对这些课程进行一个加权求和,从而得出反映学生计算机能力的指标,计算公式见公式(2);

(9)实践能力

通过计算学生担任校内勤工助学岗位累计时间(天数)来反映其实践能力水平高低,并已学生在校天数进行标准化处理;

(10)学习能力

分别计算学业成绩优异、高考投档成绩优异、在校学习期间有无挂科记录这三个指标;并通过这三个指标加权得出学习习惯的数值,权重的判定是通过主成分分析拟合出来的;

(11)评奖评优

通过计算学生在校期间荣获奖学金次数和在校期间荣获奖学金累计金额两方面,进行主成分分析之后,综合得出每位学生的评奖评优指标;

(12)学业预警

通过计算学生在校期间有无学业预警相关处分记录,以满分10分计算,根据受到学业处分(学业警告、试读)次数及严重程度加权计算扣分值;

最后,将上述指标计算结果归一化至0-1之间,并重新按学生ID号索引整理成key-value格式,即学生ID后接着该学生所有指标量化结果;基于上述指标表,根据取值范围设定,进行学生画像标签提取。

作为本发明所述的一种优选实施方案,所述学习习惯主成分分析算法描述如下:

输入:样本集D={x

低维空间维数d'

过程:

对所有样本进行归一化:

计算样本的协方差矩阵XX

对协方差矩阵XX

取最大的d'个特征值所对应的特征向量w

输出:投影矩阵W*=(w

根据特征向量映射所得到的降维矩阵,即为综合上述三个指标所得到的指标值。

作为本发明所述的一种优选实施方案,所述步骤S5中根在对指标评价值进行综合计算得到学涯评分时,应先确定各指标的相对重要性,即权重。

一种面向学涯评价的评级系统,所述系统包括:

指标体系层,包括核心素养模块和综合素质模块,用于评价本科生的学涯质量;形成核心素养视域下的学涯评价指标体系,具体设置五个评价维度包括思想品德、学习表现、身心健康、学业成绩、能力素养;

数据实践层,包括数据采集模块、特征工程模块及权重设计模块,数据采集模块通过使用数据库接口获取大学对应学年的学生基本信息及学生日常行为记录;特征工程模块用于对基本属性数据集进行特征线性构建,提取事实标签,接着通过规则判断以及模型计算得到模型标签;权重设计模块用于根据构建的多维度本科生学涯评价指标体系,建立评价指标与模型标签的数据映射关系;

数字画像层,用于进行形成学涯质量综合评分,并形成学生画像标签体系。

作为本发明所述的一种优选实施方案,所述数据采集模块数据集主要来源于学生校园卡消费、各场地门禁记录及教务信息系统;对大学生原始数据信息预处理,包括数据清洗、缺失值填补及格式转换等,形成规范的、可供数据挖掘的基本属性数据集。

作为本发明所述的一种优选实施方案,所述数字画像层包括学涯评分评级模块以及学生画像标签体系构建模块;学涯评分评级模块以数据实践层构建的评价指标及指标权重为基础,根据学涯综合评价的若干个维度加权计算,形成学涯质量的综合评分及百分比排;学生画像标签体系构建模块通过对数据实践层提取的模型标签进行筛选及规则判断,构建学生画像标签体系。

与现有技术相比,本发明的有益效果是:本发明构建面向本科生学涯评级的多维分级指标评估体系,可实现“德、勤、体、智、能”多维度量化评估。

基于数据挖掘技术,克服传统本科生综合测评“专家打分”方法的局限性,可基于学生培养全流程大数据,通过智能技术采集学生各项学习行为和结果数据,并以自动化方式处理分析,提炼出可描述其特征和行为的标签集,有助于保障学涯评价的信度和效度,实现无感式、伴随式评估。

通过动态的数据流转过程及触发机制设计,随学生入校数据、在校数据以及毕业去向数据动态更新,触发自动化数据处理、指标特征提取流水线,形成学涯评分报表、评级雷达图等,构建出完整的学生成长轨迹和动态的画像趋势。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例。

图1为本发明的一种面向学涯评价的评级方法流程图;

图2为本发明的一种面向学涯评价的学涯评价系统图;

图3为本发明的一种面向学涯评价的本科生学涯评价指标体系表;

图4为本发明的一种面向学涯评价的指标权重表。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

请参阅图1-图4,本发明提供一种面向学涯评价的评级方法,包括具体实施例如下:介绍基于学生多维校园数据量化学生的行为及学业等各方面特性,构建三层学涯评估指标体系和立体画像标签的过程,以及数据流转方式的设计思路。学涯评价算法流程详见图2。

步骤S1,数据汇聚与数据存储。

本发明使用的数据集来自于选定学年的学生基本信息、校园卡消费、各场地门禁记录、教务信息系统及图书馆系统记录。其中学生基本信息记录包括学业信息和就业信息记录;门禁记录包含图书馆出入记录、宿舍出入记录;学生卡消费记录包含食堂消费记录、超市消费记录、澡堂消费记录等;教务信息记录包含学生成绩记录、资助记录和奖惩记录;图书馆系统记录包含学生的图书借阅记录。

学生原始数据存储于Oracle数据库中,通过使用SQL脚本语言导出包含结构定义和数据的sql脚本。通过定期批量执行sql脚本,基于PostgreSQL建立并更新学生数据库,为后续学生行为分析和画像构建等研究目标奠定数据基础。

步骤S2,数据清洗与转换。

原始的真实数据中存在部分数据错误或不合理的情况。例如,在一卡通记录的门禁记录表中,有重复记录学生的单次进出图书馆或宿舍,以及学生进入时间与其离开时间对不上的情况;在学生成绩表中,有部分同学成绩的数据缺失;在奖惩记录中存在处分项以及奖学金金额缺失的情况。因此,对于获取的学生原始数据需首先进行数据清洗。例如,对于重复记录的门禁数据,需要进行筛选和删除;对于缺失的数据记录,需要进行合理的填充。如,使用成绩中值或者达标值来填充成绩表中缺失的成绩值;使用奖惩规则要求填充缺失的奖惩记录等。

步骤S3,针对各指标量化数据。

此外,对于类别型定性数据进行数值化处理,可采用离散值的处理方式,以使其能应用于评价指标计算。

步骤S4,特征提取。

学涯评价指标具体计算方法如下:

(1)遵纪守法

学生处分记录包含“警告”、“严重警告”、“记过”、“留校察看”、“开除学籍”这几种。遵纪守法指标以满分10分计算,根据受到纪律处分次数及严重程度加权计算扣分值。

(2)学习态度

通过计算努力指数来反映学生的学习态度。学生是否努力学习且态度端正可以通过计算学生周末假期在图书馆的平均时长与所有学生里最长时间的比值,或日均图书馆停留时间来量化。

(3)学习习惯

分别计算年均借阅书籍的数目,包含正在阅读的书籍和已经完成阅读的书籍,年均完成读书的数目,平均每本书阅读时间(天数)这三个指标;并通过这三个指标加权得出学习习惯的数值,权重的判定是通过主成分分析拟合出来的。

主成分分析算法描述如下:

根据特征向量映射所得到的降维矩阵,即为综合上述三个指标所得到的指标值。

(4)作息习惯

通过计算晚上23:00到次日4:30学生回寝次数占其总次数的比例,得出学生作息习惯指标,该指标为反向指标。

(5)生活规律

通过交叉熵计算的规律指数(EV),先分别计算学生进出图书馆规律指数和进出宿舍规律指数,再计算两者平均数得出学生的生活规律,该指标为反向指标。

规律指数计算公式如下:

/>

其中,n

(6)体质状况

通过体育类课程的表现来衡量学生的体质状况,用“体育”、“球”、“游泳”、“运动”等关键词模糊匹配出体育类的课程。再对这些课程进行一个加权求和,计算加权平均成绩的方法就是将科目所占的学分作为成绩分数的权重从而得出学生的体质状况分数。

计算公式如下:

其中,w

(7)外语水平

通过计算英语四六级考试成绩数据和小语种成绩数据,如俄罗斯语(CRT)、日语(CJT)、法语(CFT)、德语(CGT)等课程,如果有多次考试是取历史最高成绩,并且以该考试满分进行归一化处理。再进行主成分分析之后,综合得出每位学生的外语水平。

(8)计算机能力

通过计算相关课程的成绩衡量某学生的计算机技能水平。用“编程”、“编译”、“计算”、“程序”等关键词模糊匹配出计算机类的课程,再对这些课程进行一个加权求和,从而得出反映学生计算机能力的指标,计算公式见公式(2)。

(9)实践能力

通过计算学生担任校内勤工助学岗位累计时间(天数)来反映其实践能力水平高低,并已学生在校天数进行标准化处理。

(10)学习能力

分别计算学业成绩优异、高考投档成绩优异、在校学习期间有无挂科记录这三个指标;并通过这三个指标加权得出学习习惯的数值,权重的判定是通过主成分分析拟合出来的。

(11)评奖评优

通过计算学生在校期间荣获奖学金次数和在校期间荣获奖学金累计金额两方面,进行主成分分析之后,综合得出每位学生的评奖评优指标。

(12)学业预警

通过计算学生在校期间有无学业预警相关处分记录,以满分10分计算,根据受到学业处分(学业警告、试读)次数及严重程度加权计算扣分值。

最后,将上述指标计算结果归一化至0-1之间,并重新按学生ID号索引整理成key-value格式,即学生ID后接着该学生所有指标量化结果。基于上述指标表,根据取值范围设定,进行学生画像标签提取。

步骤S5,学涯评价算法。

由于各指标在指标体系中的重要性不同,因而在对指标评价值进行综合计算得到学涯评分时,应先确定各指标的相对重要性,即权重。

本发明中,在文献研究、访谈和实践经验基础上拟定三级指标体系初始权重。为与大学现行的综合测评体系实现衔接,指标权重以原有权重设置为主;对于在现行测评体系中未涉及的细分测评项,综合参考已有国内外学生测评的理论成果,分类和梳理综合测评标准的维度和权重设置,对原有权重进行扩展。具体权重设置参见图4。

进步的请参见图1;本发明公开了一种基于多维度的本科生学涯评价方法及其系统,具体包括指标体系层、数据实践层、数字画像层,如图1所示。其中,指标体系层用于指导数据实践层的数据汇聚、存储、清洗以及指标计算工作;基于数据实践层构建的指标及权重,形成数据画像层的学涯评分评级以及学生画像标签体系。

指标体系层以上海H大学为研究载体,根据校方学生培养特点及办学理念,以及有关学涯评价学术研究文献和政策文本的梳理归纳,从“学业成绩”和“综合素质”两个模块去评价本科生的学涯质量。形成核心素养视域下的学涯评价指标体系,具体设置五个评价维度包括思想品德(德)、学习表现(勤)、身心健康(体)、学业成绩(智)、能力素养(能)。指标体系表详见图3。

数据实践层包括数据采集、特征工程及权重设计。其中,数据采集模块通过使用数据库接口获取H大学选定学年的学生基本信息及学生日常行为记录,此数据集主要来源于学生校园卡消费、各场地门禁记录及教务信息系统。对大学生原始数据信息预处理,包括数据清洗、缺失值填补及格式转换等,形成规范的、可供数据挖掘的基本属性数据集。特征工程模块对基本属性数据集进行特征线性构建,提取事实标签,接着通过规则判断以及模型计算得到模型标签。根据构建的多维度本科生学涯评价指标体系,建立评价指标与模型标签的数据映射关系。权重设计模块基于专家打分结果,结合主成分分析方法对相关性较强的指标进行合并,由此构建指标权重。

数字画像层包括学涯评分评级以及学生画像标签体系构建。学涯评分评级以数据实践层构建的评价指标及指标权重为基础,根据学涯综合评价的若干个维度加权计算,形成学涯质量的综合评分及百分比排名。此外,通过对数据实践层提取的模型标签进行筛选及规则判断,构建学生画像标签体系。

本发明解决了现有技术存在的学生评价工作导致教师工作繁杂,主观打分评价不够客观,无法达到预期效果甚至无法落地的问题。通过智能技术采集学生各项学习行为和结果数据,以客观事实为依据,并以自动化方式处理分析,提炼出可描述其特征和行为的标签集,不仅评价内容丰富完善,且更为科学、公平、客观和全面。

示例性的,处理器从存储器中逐条取出指令、分析指令,然后根据指令要求完成相应操作,产生一系列控制命令,使计算机各部分自动、连续并协调动作,成为一个有机的整体,实现程序的输入、数据的输入以及运算并输出结果,这一过程中产生的算术运算或逻辑运算均由运算器完成;所述存储器包括只读存储器(Read-Only Memory,ROM),所述只读存储器用于存储计算机程序,所述存储器外部设有保护装置。

示例性的,计算机程序可以被分割成一个或多个模块,一个或者多个模块被存储在存储器中,并由处理器执行,以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在终端设备中的执行过程。

本领域技术人员可以理解,上述服务设备的描述仅仅是示例,并不构成对终端设备的限定,可以包括比上述描述更多或更少的部件,或者组合某些部件,或者不同的部件,例如可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,上述处理器是上述终端设备的控制中心,利用各种接口和线路连接整个用户终端的各个部分。

上述存储器可用于存储计算机程序和/或模块,上述处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现上述终端设备的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如信息采集模板展示功能、产品信息发布功能等)等;存储数据区可存储根据泊位状态显示系统的使用所创建的数据(比如不同产品种类对应的产品信息采集模板、不同产品提供方需要发布的产品信息等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例系统中的全部或部分模块/单元,也可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个系统实施例的功能。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、电载波信号、电信信号以及软件分发介质等。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

技术分类

06120115926525