离线强化学习在HPC能效优化中的20%能耗降低实践
📅 2026/7/4 2:11:01
👁️ 次浏览
1. 离线强化学习在HPC能效优化中的创新实践高性能计算(HPC)节点的能耗问题正成为制约算力发展的关键瓶颈。传统功率控制方法如PI控制器需要针对特定硬件和应用进行精细调参而动态电压频率调节(DVFS)则难以应对复杂多变的负载场景。我们团队开发的离线强化学习功率控制器通过静态基准测试数据集训练智能体实现了对Intel RAPL接口的动态调控在NPB和STREAM系列基准测试中平均降低20.3%能耗性能损失控制在7.5%以内。这个方案的核心突破在于应用无关性仅需5维状态观测(进度、功率、3个PAPI计数器)离线训练安全基于1,291个历史数据点训练避免在线学习风险快速决策10ms级响应速度适合HPC实时控制场景通用性强同一模型适配不同计算特征的应用关键提示RAPL(Running Average Power Limit)是Intel处理器提供的硬件级功率控制接口通过MSR寄存器可直接调节封装功率上限(PCAP)精度可达1W。相比DVFS调节频率电压的方案RAPL具有响应快、开销低的优势。2. 系统架构与关键技术实现2.1 整体控制框架设计系统采用经典的感知-决策-执行闭环架构[应用进程] ←性能监测→ [GEOPM Agent] ↑ ↓ [PAPI计数器] ←状态采集→ [RL控制器] →功率设定→ [RAPL接口] ↓ [离线Q网络]状态空间设计5维度应用进度(progress)通过心跳机制采集的标准化进度值实时功率(power)通过RAPL读取的封装功耗IPC(每周期指令数)PAPI计数器PAPI_TOT_INS/PAPI_TOT_CYC缓存命中率(CMR)PAPI计数器PAPI_L2_DCR/PAPI_L2_DCA存储延迟(STL)PAPI计数器PAPI_MEM_SCY/PAPI_MEM_WCY动作空间采用离散化设计将PCAP划分为16个等距档位(从TDP的30%-100%)。这种设计相比连续动作空间更稳定且符合RAPL的硬件控制特性。2.2 离线强化学习实现细节采用CQL(Conservative Q-Learning)算法解决离线RL的分布偏移问题。网络结构如下class QNetwork(nn.Module): def __init__(self, state_dim5, action_dim16): super().__init__() self.fc1 nn.Linear(state_dim, 10) self.fc2 nn.Linear(10, 10) self.fc3 nn.Linear(10, action_dim) def forward(self, state): x F.relu(self.fc1(state)) x F.relu(self.fc2(x)) return self.fc3(x)关键训练参数折扣因子γ0.9CQL正则化系数α0.1经验回放缓冲区大小128训练迭代次数10,000优化器Adam(lr3e-4)奖励函数设计reward -(w1*energy w2*time w3*ED2P)其中ED2P(Energy-Delay² Product)是HPC领域常用的能效指标权重系数通过帕累托前沿分析确定为w10.6, w20.3, w30.1。3. 基准测试与结果分析3.1 测试环境配置硬件平台CPUIntel Xeon Platinum 8380 (TDP 270W)内存8通道DDR4-3200 256GB系统CentOS 8.4 with Linux 4.18内核软件栈功率控制GEOPM 2.0 RAPL性能监测PAPI 6.0RL框架PyTorch 1.123.2 训练基准测试集Benchmark类型问题规模迭代次数平均IPC平均CMRSTREAM SCALE内存密集型33,554,43210,0000.200.89STREAM TRIAD内存密集型33,554,43210,0000.180.94NPB-EP计算密集型Class-W1,0000.570.13NPB-IS混合型Class-B1,0000.500.863.3 能效优化结果对比在12个基准测试(含6个未训练应用)上的平均表现指标无限制运行RL控制改进率执行时间(s)100.0107.47.4%能耗(kJ)100.079.7-20.3%ED2P(kJ·s²)100.071.8-28.2%典型应用的具体表现STREAM TRIAD能耗降低32.9%时间增加12.6%NPB-EP能耗降低5.9%时间仅增1.5%NPB-MG能耗降低21.8%时间增加14.5%实测发现对于进度信号不稳定的NPB-CG应用控制效果稍差(能耗仅降1.4%)这提示我们需要改进状态观测设计。4. 与传统控制方法的对比4.1 五种控制策略效果对比方法能耗降低性能损失ED2P改善PI全局模型-109.4%19.6%-256%PI应用专用模型8.5%6.3%12.7%DVFS控制0.5%14.5%-5.2%Ondemand Governor-3.8%7.7%-1.2%本方案(离线RL)20.3%7.4%28.5%4.2 技术优势分析训练效率离线训练仅需2小时(双路Xeon节点)而在线RL需要应用实际运行数十小时安全性避免在线探索可能导致的性能崩溃泛化能力同一模型处理内存型(STREAM)和计算型(NPB)负载实现简单5维状态空间16动作的Q网络仅需30KB内存5. 工程实践中的经验总结5.1 关键参数调优心得CQL系数α选择小数据集(1k样本)α0.3-0.5防止过估计大数据集(10k样本)α0.1-0.2避免策略过于保守进度信号处理// 心跳检测示例代码 void heartbeat() { static int count 0; if (count % 1000 0) { double progress (double)count / TOTAL_ITERATIONS; report_progress(progress); } }建议心跳间隔控制在1-10ms过短会增加开销过长会降低控制精度。动作延迟补偿 RAPL功率调节需要约1ms生效我们在状态观测中加入了50ms的滑动平均滤波避免瞬时波动导致振荡。5.2 典型问题排查指南现象可能原因解决方案功率频繁振荡奖励函数权重失衡调整ED2P项的系数进度检测不准确心跳间隔设置不当优化应用插桩频率未见能耗降低α值设置过大减小CQL正则化强度新应用表现差训练集多样性不足增加混合型基准测试6. 扩展应用与未来方向当前框架已成功应用于我们数据中心的以下场景突发负载处理当冷却系统出现临时限电时自动降功率运行能效计费优化根据电价时段动态调节计算节点功率策略异构计算协调在CPU-GPU混合节点上实现联合功率分配未来重点改进方向多节点协同控制扩展至集群级功率管理GPU功率调控集成NVIDIA NVML接口在线微调机制在安全范围内实现模型持续优化这套系统已在GitHub开源(项目匿审暂不公开)包含完整的训练数据集和GEOPM插件实现。在实际部署中我们建议先从非关键业务节点开始验证逐步扩大应用范围。对于追求极致能效的用户可以尝试将我们的控制器与应用程序心跳机制深度集成以获得更精确的进度反馈。
1. 离线强化学习在HPC能效控制中的创新应用高性能计算(HPC)领域正面临严峻的能源挑战,现代超算系统的功耗已达数十兆瓦级别,AI数据中心的规划容量更是向千兆瓦迈进。在这种背景下,我们团队开发了一种基于离线强化学习(Offline RL)的智能功率控…
📅 2026/7/4 2:11:01
1. MACPRUNING侧信道防御机制深度解析在嵌入式设备上部署神经网络模型时,侧信道攻击已成为重大安全威胁。攻击者通过分析功耗、电磁辐射等物理泄漏,能够窃取模型的关键参数。MACPRUNING作为一种创新的防御机制,其核心思想源自神经网络剪枝技术…
📅 2026/7/4 2:11:01
🚀 30款热门AI模型一站整合,DeepSeek/GLM/Qwen 随心用,限时 5 折。 👉 点击领海量免费额度 1. 先搞清楚 YOLO-Master 到底解决了什么问题 如果你在找 YOLO 系列的最新进展,特别是那种能在保持实时性的前提下&#…
📅 2026/7/4 2:11:01
1. 总体原则
离线模式仍然在 Azure Local 上跑,所以所有 Azure Local 的网络硬约束照常适用:
Physical network requirements for Azure LocalSystem requirements for Azure LocalNetwork considerations for cloud deployments
官方原文:…
📅 2026/7/4 3:01:11
摘要Button 是 OpenHarmony ArkUI 框架中最基础、最高频的交互组件,承担页面点击、表单提交、弹窗确认、页面跳转、功能触发等核心交互场景。API Version23 对 Button 组件渲染机制、点击反馈、样式裁剪、禁用状态、点击热区、主题适配进行底层重构,统一…
📅 2026/7/4 3:01:11
助睿实验指导:自媒体运营分析全流程(数据清洗→特征构建→可视化探索)-CSDN博客实验概述:本文基于助睿数智(Uniplore)平台,完整记录“自媒体运营分析”三阶段实验——从原始数据清洗、标题特征工…
📅 2026/7/4 3:01:11
Quark-Auto-Save架构设计与自动化转存技术深度解析 【免费下载链接】quark_auto_save 夸克网盘签到、自动转存、命名整理、发推送提醒和刷新媒体库一条龙 项目地址: https://gitcode.com/gh_mirrors/qu/quark_auto_save
夸克网盘自动转存工具Quark-Auto-Save作为资源收集…
📅 2026/7/4 3:01:11
包裹计数目标检测数据集(约6000张单类别YOLO标注已划分)| 仓储物流包裹统计专用数据集 一、前言
在现代智能仓储、快递分拣中心、电商中转场、物流驿站运营体系中,包裹出入库盘点、分拣流水线数量统计、堆货存量清点是日常高频运维工作。传统…
📅 2026/7/4 3:01:11
资料可下载《和姐姐一起嫁入公府》全文https://pan.baidu.com/s/1GLFSMyRhmys4WIg4EM9Z7w?pwdqeurEnglish Practice Set 56
个人练习草稿,随便记几道题。Part 1 Vocabulary
Choose the best word.Two sisters married into the same noble ______.
A. household …
📅 2026/7/4 2:59:11
Axure RP中文界面终极解决方案:3分钟告别英文困扰 【免费下载链接】axure-cn Chinese language file for Axure RP. Axure RP 简体中文语言包。支持 Axure 11、10、9。不定期更新。 项目地址: https://gitcode.com/gh_mirrors/ax/axure-cn
还在为Axure RP的英…
📅 2026/7/4 0:00:50
1. MC6470与STM32F745VG的黄金组合解析在工业自动化和机器人控制领域,传感器与微控制器的协同工作能力直接决定了系统的响应速度和定位精度。MC6470作为一款6自由度惯性测量单元(6DOF IMU),与STM32F745VG这款基于ARM Cortex-M7内核的高性能微控制器组合&…
📅 2026/7/4 0:00:50
1. 项目概述:为什么要在本地跑 SAM Audio?这不只是“能用”,而是“必须用”SAM Audio——全称是 Segment Anything Model for Audio,不是 Meta 那个视觉领域的 SAM(Segment Anything Model)的简单移植&…
📅 2026/7/4 0:00:50
6个月前的2025年12月,Boris Cherny 公开宣布自己卸载了 IDE。一时间,Vibe Coding 成了全行业最热的话题。6个月后,当我们回过头来拉一份真实账本,发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…
📅 2026/7/2 17:37:53
引言:审计结束三个月了,审计员的权限还没关某城商行每年按照监管要求开展至少一次数据安全审计。审计期间,内审部门需要抽样检查各类业务数据——交易流水、客户信息、员工操作日志、权限配置记录。这些数据分布在不同系统中,审计…
📅 2026/7/2 17:37:51
目录
第一步:选对模板,省心一半
第二步:打开扫码点餐功能
开启功能按钮
桌台管理与桌码生成
第三步:个性化设计,打造品牌感
调整点餐页面
设置点餐规则 你还在让顾客站着排队点餐吗?2025年ÿ…
📅 2026/7/3 4:46:22
在业务中快速构建一个能理解私有文档、准确回答专业问题的智能助手,是很多开发团队面临的共同挑战。传统方案往往需要从零开始搭建复杂的 RAG(检索增强生成)系统,涉及文档解析、向量化、检索、大模型调用等多个环节,整…
📅 2026/7/2 9:49:12
FAE放射组学分析工具:医学影像特征探索的完整解决方案 【免费下载链接】FAE FeAture Explorer 项目地址: https://gitcode.com/gh_mirrors/fae/FAE
你是否曾经面对海量医学影像数据感到无从下手?想要从CT、MRI等影像中提取有价值的定量特征&#…
📅 2026/7/3 10:20:06