深度学习模型在高校录取分数预测工程中的应用研究

发布时间:2020-12-27 23:44:15 论文编辑:vicky
笔者认为当变化产生非线性因素变化时,LSTM 预测模型仍能做出精准预测,从而进一步提高了预测精准度。通过对高校实际录取分数进行分析,发现高校的招生人数变化对高校录取分数预测的准确度存在一定影响,但本论文模型实验中并未加入高校招生人数变化的因素,所以对于考虑招生人数变化是否真能提高高校录取分数的预测精度还有待进一步研究考证。
 
第 1 章  绪论

1.1  研究背景
高考是我国境内最公平、公正、公开的人才选拔和培养形式,从 1952 年实行,到 1966 年被废除,再到 1977 年恢复,一直都是一项非常重要的考试,也是许多寒门学子改变自己命运的最佳机会,对广大考生的人生方向和国家的发展和建设都具有重要作用。高考不仅关系到个人未来的道路与命运,而且影响到社会各行各业的发展与稳定。
1977 年高考恢复以来,从报考条件和选拔标准到考试方式和内容再到志愿填报和录取方式都在不断改革。从开始的估计高考分数填报志愿到如今的公布高考分数填报志愿,虽然改变的是对高考分数的了解情况,但不变的是若想志愿填报准确,必须了解掌握目标院校的录取分数。志愿填报作为高考的重要一环,决定着考生是否能被高校录取,或能否被理想的高校录取,这主要取决于高考志愿填报的是否合理、是否准确。而志愿填报的改革变化过程体现在时序性、顺序性与价值性方面。时序性转变表现在从“估分填报”到“知分填报”,顺序性转变展现在从“梯度志愿”到“平行志愿”,价值性转变体现在从“形式公平”到“实质公平”。而无论是高考志愿的填报还是志愿填报中涉及到的平行志愿梯度院校选择,都离不开高校录取分数的预测准确度,这对志愿院校的录取分数预测精度有了更高的要求。
总体而言,高考改革不断围绕“科学”和“公平”进行探索,特别是 2014 年9 月 3 日国务院印发《关于深化考试招生制度改革的实施意见》[1]以来,在上海和浙江启动高考改革试点,开始了新一轮高考招生制度改革,代表了全国高考改革的趋势和方向。根据上海和浙江的改革方案,录取方式的改变最具有颠覆性。浙江省采取“选考科目绑定专业志愿”、“设置专业平行志愿”的方法以“专业”为单位进行志愿填报,使每个考生可填报 80 个平行志愿;上海采取“选考科目绑定专业志愿”、“设置专业组平行志愿”的方法以“专业组”为单位进行志愿填报,使每个考生可填报 60 个专业组的平行志愿。
........................

1.2  研究意义
从现实角度出发的意义:通过论文研究解决高校录取分数预测问题,让高校录取分数预测的准确度更加精准,从而帮助考生进行志愿填报,通过平行志愿将志愿高校进行梯度安排来填报志愿,才能确保考生能有学校可上学,更是确保考生能被理想高校录取。
从理论角度出发的意义:论文通过构建线上百分位的分数测度,消除高校招生人数变化和省控分数线对录取分数的影响,并通过深度学习模型将影响高校录取分数预测的非线性因素考虑其中,进一步提高高校录取分数预测准确度。
梳理研究国内外有关高考分数预测方面的文献,了解到相关的理论、方法和模型。对于文献的梳理,将从传统预测方法、深度学习预测研究和组合预测模型预测研究三方面进行总结归纳,这将为本论文的高校录取分数预测研究奠定文献基础,从而实现更顺利的研究探索。
..............................

第 2 章  理论与方法分析

2.1 全链接神经网络
全连接神经网络[8]工作原理近似于大脑的工作原理。具有和人类大脑脑组织当中基础神经元相似的结构单元,
与细胞体、树突、轴突与之对应的类似结构为神经元、输入、求和单元、输出等。
1)基本结构
构成全连接神经网络的基本结构为神经元,神经元主要包含五部分,分别为输入、权重值、求和单元、激活函数和输出。其中有的神经元的输入会有偏置项的加入,如图 2 所示。
图 2   神经元结构示意图
..............................

2.2 循环神经网络(RNN)
循环神经网络[38](Recurrent Neural Network,RNN)是有监督学习模型的重要模型之一,如图 7 所示。可理解为一个随着时间的推移,不断重复发生的有向无环结构。通常应用在语音识别、文本生成和图像生成[39]方面。
图 7   循环神经网络经典结构示意图
RNN[40]是由输入层、隐藏层和输出层组成的有向无环结构。隐藏层是循环能够得以实现的基础,它的取值不仅仅取决于本次原始数据的输入,还取决于上次隐藏层数据的输出,而且层级较高的隐藏层并不会向较低级的隐藏层传播数据。RNN 中的“循环”会把系统隐藏层的输出保留在网络中,再与下一时刻的输入共同决定输出。按时间展开后的循环神经网络结构示意图。
.............................

第 3 章  方案设计 ......................................... 21
3.1  整体方案设计 ................................... 21
3.2  高校录取分数线影响因素分析 .......................... 21
第 4 章  方案实施 ................................... 24
4.1 数据采集 ..................................... 24
4.1.1  数据来源 ............................ 24
4.1.2  数据预处理 .............................. 26
第 5 章  总结与展望 .................................... 43
5.1  总结 ................................ 43
5.2  展望 ............................. 43

第 4 章  方案实施

4.1 数据采集
数据采集阶段主要分为两部分,其一是确定数据来源,同时确定实验数据的选取范围,其二是将所选取的实验数据进行预处理,实现实验数据的归一化,为接下来的实验奠定数据基础。实验数据会滚动选取前n-1年的数据作为输入,第??年的数据作为预测输出。实验过程中将通过前 4 年高校录取数据预测第 5 年录取数据
4.1.1  数据来源
本文从高考信息数据库和河北省教育考试院发布的《全国普通高校在河北招生录取分数分布统计》[49]书中选取实验数据,从中提取河北省文理科的本科一批、二批高等院校 2010~2017 年高考录取数据作为实验研究的初始数据。将数据整分析处理,其中主要选取的数据为历年各高校在河北省的录取最低分和录取平均分、2010~2017 年河北省本科一批、二批文理科的省控分数线和 2010~2017 年河北省本科一批、二批文理科的一分一档表。《全国普通高校在河北招生录取分数分布统计》书中的高校招生计划数、录取数、最高分、最低分、平均分,如表 1 所示。
表 1  2014 年部分高校录取计划分数
.............................
 
结论
通过对影响高考录取分数预测因素的分析和实验方案的设计,构建的 LSTM预测模型能较为精准的预测出高校录取分数,是对高校录取分数预测工程研究方法的一个突破。LSTM 预测模型的提出,是适应时代发展的要求,它不仅在预测准确度上提高精准度,还加快了运算速度,提供另一种方便快捷且精确度较高的预测方法。在数据归一化处理问题上,本论文引入线上百分位测度,消除招生人数和省控线对分数的影响,减少各因素对实验数据的影响,使实验数据更简单化,结果更加真实准确。LSTM 预测模型对于高考录取分数的预测精准度远高于传统的平均排位法、线上百分位法,LSTM 模型的预测准确率比平均排位提高 53.45%,比线上百分位回归算法提高 13.74%。而且能够通过多次训练,寻找预测到高校录取分数的未来趋势,这将对提高高校录取分数预测工程的精准度奠定坚实基础。
本文 LSTM 预测模型能自主学习识别影响高校录取分数预测的非线性因素,当变化产生非线性因素变化时,LSTM 预测模型仍能做出精准预测,从而进一步提高了预测精准度。通过对高校实际录取分数进行分析,发现高校的招生人数变化对高校录取分数预测的准确度存在一定影响,但本论文模型实验中并未加入高校招生人数变化的因素,所以对于考虑招生人数变化是否真能提高高校录取分数的预测精度还有待进一步研究考证。
总之,LSTM 神经网络预测模型不仅能有效提高高校录取分数预测的精度,而且相对于其他方法具有更高的预测准确度。
参考文献(略)