您的当前位置:首页基于数据挖掘的大学生课堂学习行为数据研究

基于数据挖掘的大学生课堂学习行为数据研究

来源:小侦探旅游网
基于数据挖掘的大学生课堂学习行为数据研究

刘艳;耿强;苗莉

【摘 要】本文从数据挖掘的角度出发研究大学生课堂学习行为数据,为进一步的期末考试成绩数据分析做准备.首先引入研究的目的和意义,然后围绕该目的和意义确定数据挖掘方法和算法,再次对研究的学习行为数据进行归纳和介绍了相关实施方案,最后对数据的预处理和转换做了详细介绍. 【期刊名称】《电子商务》 【年(卷),期】2017(000)011 【总页数】2页(P90-91)

【关键词】数据挖掘;学习行为数据 【作 者】刘艳;耿强;苗莉

【作者单位】海口经济学院;海口经济学院;海口经济学院 【正文语种】中 文

课堂教学对于大学生来说是一个很重要的话题。针对不同专业、不同层次的学生,教师该如何驾驭好的课堂,如何进行好的教学设计,从而充分体现其教学魅力并能因材施教、传道授业解惑,为社会培养合格而优秀的人才,这值得我们去研究。 大学作为培养学生专业素质和技能的场所,为学生提供良好的教学环境。学生作为教学的主体,授业的对象,其学习行为直接影响专业素质和技能的培养。然而作为学生个体,由于其教育背景、个性、专业等的差异,其学习行为也千变万化,如何

做到因材施教,需要对学生的学习行为进行分析,正所谓知己知彼才能百战百胜,根据分析的结果进行对策研究,实现教学方法的不断改革,进而为社会的发展做出应有的贡献。

1、数据挖掘及决策树算法比较介绍

数据挖掘是利用一系列方法或算法从数据中获取知识。利用数据挖掘获得的知识,是对数据的高度浓缩,从这些浓缩的数据中获取有价值的信息帮助人类的决策活动。数据挖掘是信息技术在日常生活中应用的体现。由于后续的数据分析需要用到数据挖掘的决策树算法,现介绍如下。

决策树是数据挖掘中的一种重要的分类方法,它是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。其优点是易于理解和实现。人们在通过解释后都有能力去理解决策树所表达的意义。在相对短的时间内能够对大型数据源做出可行且效果良好的结果。决策树算法包括ID3算法、C4.5算法、C5.0算法、CART算法、CHAID算法等。 算法比较如下:

ID3算法可以称得上是分类算法中决策树算法的鼻祖,是最经典的分类算法,随着时间的推移,该算法的延伸算法C4.5和C5.0已经能够完全取代它了。基于ID3开发的数据挖掘工具在市场上几乎看不见了。ID3算法某些因素会导致决策树的预测准确率不高,就比如在选择最佳分组变量使用的标准是信息增益值。因为在对数据进行分组的时候使用信息增益选择属性时会偏向于选择值多的。

C4.5算法虽然说弥补ID3算法的在选择属性偏向于取值偏多的问题,但是C4.5算法并不适用于大数据集,并且这个算法的运算效率没有C5.0的高,并且很难找到能够基于C4.5算法建模的数据挖掘工具。

由于C5.0输出变量只能为分类型,所以只能建立分类树,而CART和CHAID不但

可以建立分类树还可以建立回归树,由于CHAID算法和CART算法都能处理数值型的输出变量,但是CHAID算法的效率比CART算法的效率高,并且CART算法只能建立二叉树,所以在CHAID和CART算法之间我们选择使用CHAID算法来建模。

2、课堂学习行为数据研究与实施 2.1 课堂学习行为介绍

课堂学习行为是指学生参与课堂学习活动的各方面数据表现,是数据挖掘的基础,称为数据的准备。数据准备包括数据选择、数据预处理和数据转换。数据选择的目的是确定发现任务的操作对象,即目标数据。 2.2 研究内容、思路及实施方案 (1)学生基本情况

研究思路:通过历年的教学经验,本人发现学生的基本情况可能会与学生的期末考试成绩有关,从数据挖掘的角度出发有必要收集学生的基本信息包括学号、姓名、性别、籍贯、专业、班级、学历、个性特征、兴趣爱好、联系电话等。 实施方案:通过辅导员了解或学生本人填写设定的基本信息表格。 (2)考勤情况

研究思路:通过历年的教学经验,本人发现平时的课堂考勤很大程度上会影响学生的平时及期末考试成绩,从数据挖掘的角度出发很有必要收集学生的考勤情况,包括迟到、早退、请假、旷课等。

实施方案:由专门学生或教师本人监督并完成学生每次上课的考勤情况并整理成相关信息文档。 (3)平时成绩

研究思路:平时成绩是学生平时学习的直接体现,通过历年的教学经验,它会与期末考试成绩的好坏有很大的联系,从数据挖掘的角度出发,根据不同专业相关班级

的不同课程的课堂设计及教学方法,收集学习过程中的平时成绩包括平时作业、实验、期中成绩、素质拓展成绩等。如2014级财务管理本科专业的1、2、15班在课程《计算机应用课程》的课堂设计及教学方法上采用了培训帮扶模式,于是平时成绩设定包括了平时作业、实验、期中成绩、帮扶加分、作业加分、素质拓展加分和考勤成绩等。又如2015级电子商务本科1、2班在课程《C语言程序设计》教学过程中采用的普通的教学模式,于是平时成绩设定只包括了实验成绩、期中成绩和考勤成绩等。

实施方案:由任课教师认真批改学生各项作业并按照百分制登记得分,整理成相关数据表格。 (4)课堂现象

研究思路:为了便于研究结果的分析,学生的考试成绩可能会与该班级的课堂学习表现相关,从数据挖掘的角度出发,有必要记录学生在课堂学习时玩手机、睡觉、看课外书、发呆、讲小话、频繁上厕所、不带教材等与教学无关的行为。 实施方案:教师上课期间观察、统计并记录。 (5)作业态度

研究思路:为了便于研究结果的分析,学生的考试成绩可能会与平时的作业态度有关,从数据挖掘的角度出发,有必要记录学生是否有抄袭作业、不交作业等现象。 实施方案:教师在批改学生作业的过程中,通过作业的雷同率判断是否有抄袭行为,通过批改作业发现不交作业情况,并进行必要记录。 (6)潜在的学习需求 (7)学习基础 (8)学习效果 (9)教学效果及建议

研究思路:对于研究内容(6)(7)(8)(9)都有可能为分析结果提供必要的数据依据和

研究对策,从数据挖掘的角度出发,有必要收集整理相关学习行为数据。通过了解学生是否愿意学习与该课程相关的其他课程,掌握学生潜在的学习需求。学生的考试成绩可能与学习基础有关,每个学生的学习基础包括基础好、基础一般、基础差。每个学生的学习效果也是不一样的,包括有很大进步、进步一点点、无进步等。教学效果与教师的教学态度、教学方法、课堂管理等因素有关。

实施方案:对于研究内容(6)(7)(8)(9)可以由教师通过设计实名问卷调查统计。具体安排在学期末最后一次课,让本班学生在课堂上如实作答并提交,由教师自行组织安排整理成相关信息表格。

3、学习行为数据预处理和数据转换介绍

根据以上研究,我们收集了大量与数据分析有关的学习行为数据并形成相关文档,接下来的工作就是对数据进行预处理和数据转换。 3.1 数据预处理

数据预处理一般包括消除噪声、推导或计算缺值数据、消除重复记录等。首先我们确保所收集的数据的真实可靠性,尽量保证数据的完整性,对一些中途转专业、转班级、办缓考或退学的学生根据实际情况考虑其相关信息是否保留或删除。其次是成绩信息,目前的成绩数据是不太统一的。主要表现在以下几方面。 (1)表达方式不统一

各项成绩的表达方式不统一,不能很好的体现计算规律。比如平时作业、实验、期中成绩、平时成绩、期末卷面成绩、总评成绩是按照百分制来登记的,作业加分、帮扶加分和素质拓展加分是以实际的分数体现的,考勤是划正字,而平时成绩是由平时作业、实验、期中成绩、作业加分、帮扶加分、素质拓展加分、还有考勤等推导出来的。总评成绩是由平时成绩的30%和期末卷面成绩的70%推导出来的。平时成绩推导的标准是什么?没有一个合适的标准如何得出该生的总评成绩? (2)计算方式不统一

不同专业不同班级不同课程的平时成绩计算方式不统一。比如有的课程既布置了平时作业又布置的实验,而有的课程作业和实验是一起的。又如有的专业班级课程采用了培训帮扶模式及开设了素质拓展,成绩信息中体现了帮扶加分、作业加分,素质拓展加分,而有的课程没有开设素质拓展就没有素质拓展加分。还有专业班级既没有采用帮扶模式也没有开设素质拓展,重点侧重了考勤。 (3)分配比例不均衡

主要是指平时成绩中的各项成绩指标所占比例不均衡。比如有的班级期中考试成绩占30%,有的期中考试成绩占20%等现象。

为了后续数据分析的需要,我们可以将一些相近的属性合并、将平时成绩的各项成绩指标所占比例分配尽量统一、将计算方式尽量保持一致。如可以将平时作业和实验合并成一个属性为实验成绩占平时成绩的60%,即实际分数为18分;期中成绩占平时成绩的20%,即实际分数为6分;考勤占平时成绩的20%,即实际分数为6分。对于采用培训帮扶模式及实施素质拓展的班级由于原始考勤比例一般比较低,可以将帮扶加分、作业加分、素质拓展加分根据本班实际情况对原始考勤按照现有考勤的20%做调整。将考勤转化为分值,比如旷课一次(1学时)扣1分,旷课六次及以上的学生考勤不得分;迟到或早退三次(包括三次)以内的考勤扣1分,四到六次扣两分,依次类推直到扣完为止;请假的学生,有正常请假条,三次(包括三次以内)考勤不扣分,四到六次扣1分,依次类推直到扣完为止。对于旷课和请假耽误作业或实验的同学,旷课六次以内的学生允许补实验,实验成绩按百分制最高60分登记,旷课六次(包括六次)以上的学生不允许补实验。正常请假三次(包括三次)以内的学生允许补实验,实验成绩按正常成绩的90%进行登记,请假四到六次实验成绩按正常成绩的80%进行登记,依次类推。 3.2 数据转换

数据转换的主要目的是完成数据类型转换,尽量削减数据维数或降维,即从初始属

性中找出真正有用的属性以减少数据挖掘时要考虑的属性个数。

首先,确定哪些属性可能会对数据分析有影响则保留,无影响的属性可以忽略。比如基本信息中的学号、姓名等属性的值域是随机的可以忽略,而性别、籍贯、专业、班级等有可能会有影响数据分析则保留,又如平时成绩中的课程类别、实验成绩、期中成绩、考勤很可能会影响数据分析则保留等。

其次,由于各科成绩的值域的离散型,可以考虑将成绩划分为几个阶段,如90分以上阶段为A等级,80到90分阶段为B等级,70到80分阶段为C等级,60到70分阶段为D等级,60分以下为E等级。考勤等级划分实际6分为A等级,5分为B等级,4分为C等级,3分为D等级,3分一下为E等级。期末卷面成绩60以上为及格,60分以下为不及格。

最后,可以将要进行数据分析的所有属性记录集中到一个数据源文件中,可以是电子表格或数据库表等,然后利用数据挖掘工具进行数据分析。 参考文献

【相关文献】

[1] 胡艺龄,顾小青,赵春. 在线学习行为分析建模及挖掘. 开放教育研究[J]. 2014年02期 [2] 毛基业,郭迅华,朱岩. 管理信息系统——基础、应用与方法. 清华大学出版社[M]. 2015.5重印

[3] 陈文伟. 数据仓库与数据挖掘教程(第2版). 清华大学出版社[M]. 2011.11 [4] 袁晓蕾. 基于数据挖掘的高校课堂教学多维分析与评价. 哈尔滨师范大学[J]. 2015

[5] 孙莹,程华,万浩. 基于数据挖掘的远程学习者网上学习行为研究. 中国远程教育[J]. 2008 [6] 范浩. 基于数据挖掘的在线学习行为评估系统设计与实现. 国防科学技术大学[J]. 2005

因篇幅问题不能全部显示,请点此查看更多更全内容