本文基于中学生的家庭背景及在校行为,通过逻辑回归算法生成期末成绩预测模型,从而获得影响中学生学业的关键因素。

背景信息

通过本实验获得学生考试成绩预测模型后,您可以将需要预测的内容上传至Maxcompute表中,从而进行离线预测。

数据集

本实验的数据集由25个特征列和一个目标列组成,具体字段如下。
字段名 类型 描述
sex STRING 性别。F表示女,M表示男。
address STRING 住址。U表示城市,R表示乡村。
famsize STRING 家庭成员数。LE3表示少于三人,GT3表示多于三人。
pstatus STRING 是否与父母一起住。T表示与父母一起住,A表示与父母分开住。
medu STRING 母亲的文化水平,从0~4表示学历依次增高。
fedu STRING 父亲的文化水平,从0~4表示学历依次增高。
mjob STRING 母亲的工作,包括教师相关、健康相关及服务业。
fjob STRING 父亲的工作,包括教师相关、健康相关及服务业。
guardian STRING 学生的监管人,包括motherfatherother
traveltime DOUBLE 从家到学校需要的时间,单位为分钟。
studytime DOUBLE 每周的学习时间,单位为小时。
failures DOUBLE 挂科次数。
schoolsup STRING 是否有额外的学习辅助,取值为yesno
fumsup STRING 是否有家教,取值为yesno
paid STRING 是否有相关考试学科的辅助,取值为yesno
activities STRING 是否有课外兴趣班,取值为yesno
higher STRING 是否有向上求学意愿,取值为yesno
internet STRING 家里是否连网,取值为yesno
famrel DOUBLE 家庭关系,从1~5表示关系从差到好。
freetime DOUBLE 课余时间量,从1~5表示课余时间依次增多。
goout DOUBLE 与朋友出去玩的频率,从1~5表示从少到多。
dalc DOUBLE 日饮酒量,从1~5表示从少到多。
walc DOUBLE 周饮酒量,从1~5表示从少到多。
health DOUBLE 健康状况,从1~5表示状态从差到好。
absences DOUBLE 出勤量,取值范围0次~93次。
g3 DOUBLE 期末成绩,使用20分制表示。
实验数据的示例如下。实验示例数据

预测学生考试成绩

  1. 进入PAI-Studio控制台。
    1. 登录PAI控制台
    2. 在左侧导航栏,选择模型开发和训练 > Studio-可视化建模
    3. PAI可视化建模页面,单击进入机器学习进入机器学习
  2. 构建实验。
    1. 在PAI-Studio控制台的左侧导航栏,单击首页
    2. 模板列表,单击【在线预测】中学生成绩预测下的从模板创建
    3. 新建实验对话框,配置参数(可以全部使用默认参数)。
      参数 描述
      名称 输入【在线预测】中学生成绩预测
      项目 不支持修改。
      描述 输入通过中学生的在校行为,预测期末成绩及成绩的关键影响因子。
      位置 选择我的实验
    4. 单击确定
    5. 可选:等待大约十秒钟,在PAI-Studio控制台的左侧导航栏,单击实验
    6. 可选:我的实验下,单击【在线预测】中学生成绩预测_XX
      其中我的实验为已配置的实验位置【在线预测】中学生成绩预测_XX为已配置的实验名称_XX为系统自动添加的实验序号)。
    7. 系统根据预置的模板,自动构建实验,如下图所示。
      预测成绩实验
      区域 描述
      数据预处理。使用SQL脚本组件将文本数据结构化:
      • 将源数据中的yesno分别转换为01
      • 对于多种类的文本型字段,结合业务场景将数据抽象化。例如Mjob字段,将teacher表示为1,其他值表示为0,即抽象后该特征表示工作是否与教育相关。
      • 对于目标列,将取值大于18的表示为1,反之表示为0
      使用归一化组件将所有字段转换为0~1之间,从而消除字段大小不均衡造成的影响。
      将输入数据集按照8:2的比例拆分为训练数据集和预测数据集。
      通过逻辑回归算法,生成离线模型。
      通过混淆矩阵组件评估模型准确率。
  3. 运行实验并查看输出结果。
    1. 单击画布上方的运行
    2. 实验运行结束后,右键单击画布中的逻辑回归二分类-1,在快捷菜单,单击模型选项 > 查看模型,即可查看各因素对成绩的影响权重。
      成绩影响因子其中权重越大表示特征对结果的影响越大。权重为正数,表示该因素与结果(期末高分)正相关。权重为负数,表示该因素与结果(期末高分)负相关。以下对权重较大的特征进行简单分析。
      字段名 含义 权重 分析
      mjob 母亲的工作 -0.5756277338892716 如果母亲是老师,则不利于孩子考高分。
      fjob 父亲的工作 1.114492913509562 如果父亲是老师,则有利于孩子考高分。
      internet 家里是否连网 1.121226474778686 家里连网可以促进孩子学习。
      medu 母亲的文化水平 1.275664610095503 母亲的文化水平越高,孩子学习成绩越好。
      说明 本实验的数据集较小,以上分析结果不一定准确,仅供参考。
    3. 实验运行结束后,右键单击画布中的混淆矩阵-1,在快捷菜单,单击查看评估报告
    4. 混淆矩阵对话框,单击统计信息页签,即可查看模型预测准确率为80%以上。