SCOW

SCOW 集群管理平台产品规格表

版本:V1.10适用平台:WEB 端产品类型:企业级集群管理系统

核心功能模块规格

功能模块规格说明
1. 用户管理模块支持 WEB 门户统一用户管理,实现用户创建、删除、信息/状态修改、批量导入操作;支持按用户、组织结构、单位、项目多维度分级管理用户;提供站内消息、邮件、系统通知多渠道消息推送,覆盖作业状态、系统告警、账户通知等场景;为每位用户分配独立私有数据存储空间,基于 ACL 实现组内、用户间、跨组精细化数据共享;采用基于角色的权限管理体系,支持细粒度权限控制与分级授权;搭载动态认证验证模块,仅调度相关用户可登录计算节点,限制普通用户非作业期间的节点访问权限。
2. 作业管理模块支持通用仿真、GPU 加速仿真、人工智能训练三类任务的 WEB 端统一提交、监控、中止、数据管理及文件传输;提供作业脚本创建、模板化配置功能,支持仿真计算/智能训练任务提交页面脚本集成;内置 WEB 化 AI 任务处理页面,覆盖深度学习模型训练、超参数搜索调优、模型评测、模型格式转换;支持 Tensorboard、MindInsight 等可视化工具对接,实现 AI 训练任务实时过程监控;配备大文件传输组件,支持文件/文件夹批量上传下载、100GB 以上单文件传输,自带断点续传功能;支持作业/任务模板集成,实现标准化任务快速提交。
3. 作业调度模块实现通用计算节点、智能加速计算节点的统一纳管与调度,提供资源查询、控制、作业查询全流程功能;支持多调度算法:FCFS(先进先出)、公平共享、抢占式调度、多因素回填、资源独占、资源预约;具备 CPU 绑定功能;兼容高性能计算-智能计算混合计算框架作业调度;支持容器化调度管理,实现仿真计算/机器学习应用容器封装,支持容器 run/stop/attach/exec/log 等操作;支持普通作业与容器作业混合调度、统一管理,实现动态调度与运行。
4. 容器管理模块提供容器化运行环境统一管理与调度集成能力;配备镜像仓库管理接口,支持私有/主流公共镜像仓库对接,实现镜像上传、下载、版本管理、权限控制;提供容器封装集成脚本解析接口,支持标准化脚本解析,自动完成应用环境、依赖库、启动参数封装部署;支持容器镜像导入、导出、构建功能;基于镜像集成脚本实现容器作业一键封装集成,自动完成运行环境准备、资源调度对接、作业启动。
5. 资源监控模块提供资源总览可视化页面,一屏展示集群整体运行状态、核心负载指标;实现节点多维度监控:CPU 利用率、GPU 利用率、内存利用率、显存利用率、IO、页交换、网络流量;支持应用软件许可证统一监控,实现许可证状态可视化、使用统计分析;基于机架拓扑图展示服务器运行状态,同步呈现仿真作业、AI 训练作业在节点上的运行情况。
6. 运维管理模块对接集群全类型节点带外管理接口:IPMI、RESTful、SNMP,兼容通用/智能加速计算节点、管理/登录节点、I/O 服务器;提供硬件状态集中监控、综合可视化展示,实现故障告警、记录、查询、全生命周期管理;支持节点远程控制:开关机、重启、固件更新,且支持批量化远程操作;为智能加速计算节点提供虚拟 KVM、虚拟光驱功能;支持 WEB 远程终端连接所有节点,提供远程调试、运维操作能力。
7. 资源统计模块基于集群监控、作业运行、用户操作全量数据,生成多维度统计分析报表与可视化结果;支持作业维度分析:作业数量、作业吞吐量、CPU 占用时间、GPU 占用时间;提供按用户、应用维度的作业排名统计,支持多维度数据筛选与导出。
8. 资源计费模块支持 CPU、GPU、内存、存储多资源类型计费;支持灵活费率设定:月租金、年租金、存储使用配额计费,可按集群、分区、服务质量分级定价;支持多维度计费统计:用户、组织、单位、项目,实现精细化计费管理;支持账户、租户、平台管理员多角色分级定价,自动生成计费账单。

部署与运行规格

功能模块规格说明
1. 部署方式支持多服务器分布式部署,支持负载均衡组件接入,支持集群化部署架构,支持批量化部署方式。
2. 运行保障故障节点自动接管,保障业务连续性;极端场景下(单服务器可用)核心功能正常运行,降低服务中断风险。
返回首页