SysMax
Amax集群监控系统是一款基于Slurm工作负载管理器开发的专业集群资源监控与管理平台,聚焦数据中心集群运维核心需求,打造集实时监控、节点管理、作业管控、硬件监控、资源统计、配置管理于一体的一站式解决方案。
产品面向系统管理员、集群运维人员、开发人员及所有使用集群资源的用户,通过可视化的界面、精细化的管控能力、多维度的统计分析,帮助运维团队实时掌握集群全维度运行状态,高效管理计算资源,解决集群运维中资源监控不及时、作业管理效率低、资源分配不精准等核心痛点,保障集群系统稳定、高效运行。
产品面向系统管理员、集群运维人员、开发人员及所有使用集群资源的用户,通过可视化的界面、精细化的管控能力、多维度的统计分析,帮助运维团队实时掌握集群全维度运行状态,高效管理计算资源,解决集群运维中资源监控不及时、作业管理效率低、资源分配不精准等核心痛点,保障集群系统稳定、高效运行。

产品架构
-
系统架构采用B/S(浏览器/服务器)架构,所有核心功能与数据均部署在后台服务器,用户仅需通过主流浏览器即可访问,无需在客户端进行任何软件安装、配置操作。
-
访问方式访问途径:通过主流浏览器(Chrome、Firefox、Edge等)即可访问,无客户端软硬件要求
访问权限:免登录直接访问,打开页面即可查看集群全维度监控与管理信息
运行要求:无客户端软硬件要求,仅需保证设备可正常访问系统后台服务器网络

核心功能
集群概览与实时监控
以仪表盘为核心数据看板,一站式展示集群节点、作业、CPU/GPU的总数、状态及使用率,通过图表呈现节点/作业状态分布,实时更新运行/等待作业列表,快速掌握集群整体运行态势。

硬件节点全维度管控
整合节点与GPU专属监控能力,支持节点状态筛选、名称模糊查询,展示节点硬件及Slurm配置详情,可灵活调整节点运行状态;同时监控GPU使用量、温度、显存等核心指标,查看单卡详情及资源占用进程,实现硬件精细化监控。

作业全生命周期管理
支持按状态、分区、ID、用户名多条件精准筛选作业,展示作业资源分配、运行时间等全量信息;提供作业批量取消、挂起、释放等高效操作,可查看作业详情与输出日志,实现作业从提交到结束的全流程管控。

资源使用统计与分析
融合用户、分区、历史数据统计能力,支持多时间范围筛选,统计用户CPU/GPU使用占比、分区作业运行负荷;通过多图表展示作业状态、时长及提交趋势,分析作业等待时间,支持数据导出,为运维决策提供完整数据支撑。

资源配额与QOS管理
实现资源配额与服务质量策略一体化配置,可筛选查看QOS、账户、用户级别的配额规则并精准设置资源限制;支持QOS策略的创建、编辑与删除,自定义优先级、资源限制等规则,保障资源公平分配与核心业务作业优先级。

账户层级规范化管理
基于Slurm实现集群账户的层级化管理,以树形结构展示根账户、子账户的层级关系,支持账户层级、用户列表等视图切换,可新建账户,实现账户与用户的规范化关联管理,适配集群权限管控需求。
