本文是一篇计算机论文,笔者认为有关模块化数据中心节能优化这方面的实验成果不是很多,更多的是有关于模块化数据中心前景的分析或者其他模块的应用。另外,现有的大多数的实验成果都是基于大中型数据中心的,或者是基于某个已有的、成熟的数据中心进行分析,做定制化工作,其实并没有一个通用的解决方案,同时也不适合将已有的方案直接应用到模块化数据中心的冷却系统中。
第一章引言
1.1研究背景及意义
随着技术的发展,互联网、物联网、人工智能、5G、云计算、大数据、移动互联网等技术层出不穷,我们的日常生活也产生了巨大的变化。现在的我们已经习惯了在网络上购物、看网络视频、在线打车,也可以实时关注时政热点。另外,生活中到处都有摄像头,还有各种智能家电。此外,由于人工智能的发展,生活中经常见到人脸识别、指纹识别、汽车拍照识别、自然语言处理等技术的应用场景。尤其是手机的大量普及,每家每户基本上至少会有一部手机,各个公司为了更精准的掌握用户动态,会搜集用户的各种数据,包括但不限于手机号、通讯录、定位信息、浏览历史、在屏幕上的停留时间、安装软件列表、购买记录等等信息,这些生活中的各种场景每时每刻都在产生着大量的数据,然后数据分析平台会根据这些信息给用户生成电子肖像、打标签,用于信息的精准推送。除此之外,工业上也会使用大量的传感器监测周围环境或者设备的各项指标,用来保证环境免受污染和保证设备的正常安全运行,这也每时每刻都在产生着海量的数据。各种软件、线上服务平台的建立以及海量数据的存储都需要放在服务器中,以便让客户随时访问以及后续进行数据分析。数据中心承载着保证服务器正常运转的责任,因此也被当作网络的数据基石。
同时,近几年来新冠病毒来势汹汹,而且有很强的变异能力,再加上外国疫情防护不利,也导致国内疫情跟着反反复复,我们的生活也受到了很大的影响。停工不停学、远程办公、线上教学、社区团购、健康码、行程码以及政府线上服务平台等纷纷都出现在我们的生活中。行程码和健康码可以清楚的表明自身的健康情况,在管控疫情方面起了重大的作用。远程办公和线上教学这些举措也证明了线上开展活动的可能性,为以后全部实施线上活动提供了可行性指导。这些举措给我们的生活带来的极大的改变,使得人们享受到了网络带给我们的便利,确保了我们生活的正常有序运转和社会秩序的稳定运行。在这所有的活动正常运转的背后离不开服务器的支持,数据中心这一算力基础设施在其中承担着重要的角色。
1.2研究内容
本论文主要研究模块化数据中心冷却控制系统的节能优化问题,目的在于尽可能的使得电能使用效率的值越低越好。电能使用效率的值是数据中心总能耗和IT设备总功耗的比值,数据中心总能耗是IT设备总能耗、冷却设备总能耗、电源设备总能耗和照明设备总能耗之和[7]。然而IT设备总能耗、电源设备总能耗、照明设备总能耗都是属于硬件层面的,一般来讲是无法动态调控的,从设备投入使用开始,能耗就是已经固定的,因此只能从数据中心冷却控制系统中进行节能优化。近几年机器学习算法在各个领域大放异彩,取得了非常亮眼的成绩,也吸引了国内外很多人的目光,大家纷纷将机器学习算法引入到各自的领域中。国内外有关数据中心节能优化方面的文章中也不断地提到了使用机器学习算法在预测电能使用效率方面取得的进展。然而在模块化数据中心冷却控制系统领域,并不多见这种文章,更多的还是有关于理论和模块化数据中心前景方面的分析。与此同时,目前模块化数据中心一般采用的是空调制冷的冷风冷却控制,将热通道中的热空气通过空调转化为冷空气,再送回数据中心内。也就是说要想对空调冷却控制系统进行优化,就要对空调的开启状态以及空调的设定温度进行控制,从而影响到数据中心内的温度变化,进而提高电能使用效率。综上所述,本文的研究内容可以分为以下两个方面:
首先是设计空调冷却控制系统。整个冷却系统的作用是根据数据中心的实时监测数据,实时动态调整空调的开关状态和空调的设置温度,使得数据中心内的温度始终保持在平稳状态,进而保证数据中心内设备的安全正常运转,最终目的是降低电能使用效率的值,使得电能使用效率的值低于国家标准,整个数据中心始终维持在绿色节能的动态平衡状态。因此在设计空调冷却系统之前,需要确定哪些监测数据属于关键数据,还需要使用机器学习算法对数据进行建模,给下一时刻空调的开关状态和设定温度进行预测。除此之外,在设计空调冷却系统的过程中,还应该考虑到整个数据中心的安全问题,不仅要保证数据中心内的温度处于安全范围内,也要保证温度的平均变化处于温和状态,不能波动太大。因此,系统中应该有一个模块专门用于维护整个数据中心内设备处于安全温度范围内保证设备的安全运行。
第二章技术介绍
2.1监督学习
在传统的数据中心节能优化领域,监督学习主要用于做回归预测。典型的回归模型是以线性回归为代表的线性基函数模型,除此之外,决策树、XGBoost等树形结构模型也可用于回归问题。论文中,模拟器会采用XGBoost对模块化数据中心的一系列指标进行回归预测,基于监督学习的冷却控制系统也会采用XGBoost模型预测PUE和平均冷通道温度,对空调的设置温度和开关状态的决策提供参考。
2.1.1CART回归树
GBDT中用来做分类回归的基础树形结构是CART。CART即分类回归树,需要考虑到模型的输入向量、树形结构的创建和剪枝操作,是应用最广泛的决策树学习方法。
CART从具体的实现来说,可以理解为二叉树。假设给定了输入变量X和输出变量Y,给定了训练数据集D={(x1,.y1),(x2,y2),...,(x N,yN )}。接下来要考虑就是特征的划分和叶子节点上的输出特征值的求解,因为每个树形结构的非叶子节点都是一个输入特征,而叶子节点代表输出,叶子节点的值就是要进行的输出值。
2.2强化学习
在传统的数据中心节能优化领域,使用强化学习算法时,PUE常常作为智能体与环境交互之后的奖励值,在模块化数据中心领域可以尝试同样的方法,论文中在基于强化学习的冷却控制系统中,环境就是编写的模拟器,PUE作为奖励值,动作是空调的设置温度和开关列表。
2.2.1强化学习概述
上图是强化学习的框架图。agent是智能体,也就是主体部分,需要不断地与环境进行交互和学习,通过环境的反馈来不断的优化自身。目标是最大化奖励。action是智能体agent发出的动作,也是让环境进行状态变化的原因。environment是环境,接受agent发出的action指令,让自身状态发生变化,并且输出上一时刻的reward值。综上所述,反复的实验和延迟奖励是强化学习的两个重要特征,并且智能体上一时刻的行为会影响到后续的行为。
从上述文字中可以了解到强化学习的几个要素,即在t时刻,环境的状态为St,个体的动作At,环境的奖励Rt等。除此之外,强化学习还有一些其他的要素,策略是强化学习的核心,定义了智能体对于指定状态所做出的动作,即状态根据策略选取动作,是状态到行为的映射关系,策略可以是具体的映射,也可以是函数分布。
第三章模拟器实现...........................18
3.1概述........................................18
3.1.1模块化数据中心概述......................................18
3.1.2冷却控制系统运行原理概述.................................19
第四章冷却控制系统........................................28
4.1问题分析......................................28
4.2系统架构设计.................................30
4.3数据处理............................30
第五章总结与展望...................................43
5.1总结......................................43
5.2展望.....................................44
第四章冷却控制系统
4.1问题分析
模块化数据中心将冷热通道进行隔离,避免了冷热气流混合导致的冷量损耗,同时将冷通道封闭处理,最大化的利用冷量[3]。其中,整个模块化数据中心的内部温度仅由多个空调进行调节。为了保证数据中心的设备在安全温度范围内正常运转的同时,提高整个数据中心的能源使用效率也就成为了研究的目标。根据国内外发展现状可以得出,现阶段数据中心的电能使用效率与热通道温度、冷通道温度环境温度,环境湿度等关键部位点相关。
(1)延迟效应。空调调节温度需要经过一段时间才可以处于稳定状态,可以说当温度值逐渐趋于稳定值的时候,才算是最佳状态。此外,建模的目的是希望提前预测下一时刻的PUE值,根据预测好的PUE值选取最佳的控制方案,如果直接使用数据中心采集到的数据,将会导致预测结果不准确,模型建立失败。
(2)非线性关系。由于冷凝水的存在会导致空调的耗电量和制冷量并不是呈现线性关系,而是处于抛物线关系。即制冷量处于中间某个状态时,能效比才处于最佳的状态,此时电能转换为冷量的效率最大。
(3)点冲击。空调开关瞬间点亮变化明显,开机瞬间能效比很低、耗电,接着能效比偏高、省电,然后趋于正常。这也将会导致存在脏数据,从而导致预测结果不准确,模型建立失败。
第五章总结与展望
5.1总结数据
中心在社会建设中承担着越来越重要的角色,各大公司和运营商纷纷决定建造属于自己的数据中心,伴随数据中心而来的是高耗能问题。PUE是评价数据中心能源使用效率的指标,围绕着降低PUE这个指标,科学家在大型、超大型数据中心使用了监督学习和强化学习算法解决这一问题,成功的将PUE降低到1.3左右,但是很少将算法应用在微小型数据中心空调控制领域。本文设计并实现了模块化数据中心的空调冷却控制系统,该系统可以通过控制模块化数据中心的空调台数和空调设置温度,保证了模块化数据中心的冷通道温度在安全范围内,同时最小化PUE,达到节能的效果。
一般来讲,模块化数据中心的PUE和冷通道温度除了受到空调冷却系统的控制之外,还与所在地环境温度有关,离线训练的方式无法适应系统需要针对数据中心不断变化的环境及时给出对应的控制策略的问题,所以系统需要采用在线机器学习算法。采用在线机器学习算法也就意味着系统在前2天需要不断的采集数据,在采集数据的过程中,需要使用安全控制来保证数据中心的平均冷通道温度在安全范围内。除此之外,模型采用双网络结构设计,一个网络用来预测下一轮的PUE,另一个网络预测下一轮的平均冷通道温度。两个网络分别训练,将既有连续动作又有离散动作的动作空间进行解耦,极大的加快了模型的收敛速度。最后,空调系统决策过程中依赖于模型预测下一轮的PUE和平均冷通道温度,从候选集中选择在冷通道温度在安全范围内,同时PUE最小对应的空调控制策略,整个过程确保了模块化数据中心安全可靠的同时,达到了节能效果。
参考文献(略)