XINRUO
欣若AI底层架构加持
大规模集群智能监控系统是一种专为提升网络系统可靠性和可维护性设计的工具,通过独立于数据网络之外的专用管理通道,对网络设备、服务器设备以及机房电源系统等关键资源进行集中化整合管理。它不仅支持远程操作与控制,还具备故障告警与诊断、操作日志记录等功能,有效降低了运维成本,提高了故障响应速度。此外,带外集中管理软件还具备分级授权管理的特点,确保了操作的安全性和可追溯性。五舟大规模集群智能监控系统是现代网络
欣若AI底层架构加持
产品优势
欣若AI底层架构加持
方案特点
欣若AI底层架构加持
欣若AI底层架构加持国产化
1.支持鲲鹏、飞腾多款型号国产CPU;支持麒麟、欧拉及基于Debian开发的多款国产操作系统
欣若AI底层架构加持
欣若AI底层架构加持架构优势
2.分布式存储架构,支持横向扩展构建存储阵列;所有存储节点空间成统一资源,空间可自主划分,支持存储空间的动态扩大
3.统一存储,同时支持块存储,文件存储和对象存储。支持SATA/SAS/SSD数据盘混插、冷热数据分层
欣若AI底层架构加持
欣若AI底层架构加持存储优势
4.用户可按需灵活选择副本策略或者纠删码这两种数据冗余技术。可设置多个资源池,资源池支持不同介质,不同存储策略,支持故障域分隔,数据强一致性,保证存储系统的稳定运行
5.多种故障场景自动进行修复自愈,单个磁盘、节点故障不影响存储服务,业务主机与存储节点之间可实现跨节点的多路径冗余访问提高存储服务连续性
欣若AI底层架构加持
欣若AI底层架构加持设备兼容
极致优化的桌面协议外设通道,用于传输各类外设调用指令,完美兼容打印机、扫描枪、扫描仪、高拍仪、摄像头、手写板、触摸屏、二代身份证读卡器、USB-key等常见外设,还兼容如公安行业多设备合一的捺印版等行业外设,满足各行业各场景的办公需求
系统架构
欣若AI底层架构加持
应用领域
欣若AI底层架构加持
科研领域
科研领域
防篡改、多中心部署提升数据韧性,支撑数据合规
欣若AI底层架构加持
政务领域
政务领域
防篡改、多中心部署提升数据韧性,支撑数据合规
欣若AI底层架构加持
能源领域
能源领域
防篡改、多中心部署提升数据韧性,支撑数据合规
欣若AI底层架构加持
医药领域
医药领域
防篡改、多中心部署提升数据韧性,支撑数据合规
欣若AI底层架构加持
金融领域
金融领域
防篡改、多中心部署提升数据韧性,支撑数据合规
成功案例
产品规格
技术指标 指标参数
系统规格
机器盘位
4/8/12/16/24/36
单盘最大容量
16TB
聚合IO带宽
可选最大可达40GB
操作系统
提供可定制操作系统,默认为CentOS7.9 x86_64
磁盘接口
SATA、SAS、SSD可扩展NVMe
文件系统功能
文件系统
XFS/EXT4/NFS/CIFS/CephFS
权限管理
OpenLDAP
调度
多调度支持
支持Slurm、PBS、Altair PBS Pro等多种调度软件
资源调度
1.能够在用户需求、业务优先级和资源的高利用率之间实现智能的、动态的平衡、并确保HPC系统的高度可靠性、可用性及可扩展性
2.报警告示、文件备份
作业调度
支持将作业均衡的分配到所有计算节点上,避免任务堆积在个别节点,因争抢CPU、内存等资源导致计算变慢。支持随机选择作业的计算节点,解决特定场景和固定调度算法下某些计算节点被频繁使用的问题,允许作业独占计算节点
GPU调度
支持GPU资源调度,可用分配为作业分配指定数量GPU资源或者分配指定GPU资源
资源监测
支持对集群内计算资源健康状况的监测和管理,自动关闭或隔离异常计算资源
资源限制
可按全局,用户组,用户,队列、存储容量、核心数、运行时间、命令权限进行资源
可靠性
数据
RAID 0/1/5/6/10/50/60
存储
支持PentaStor分布式存储
作业管理
提交作业
支持脚本、命令、Web等不同提交模式、支持创建定时作业周期性执行作业
作业操作
支持对作业进行暂停、继续、取消的实时操作
作业监控
监控集群任务运行状态,显示集群核心数使用情况、不同状态任务数量、分区使用情况以及QoS的使用情况;针对单个任务监控其CPU、GPU、内存、磁盘IO的使用情况
用户管理
安全认证
支持用户账号安全策略功能,保障安全性,使用LDAP管理用户
数据隔离
每个用户的数据存储空间相互隔离,每个用户只能访问各自空间中的
数据,无法越界访问未授权的数据
运维管理
集群监控
1.监控集群所有节点状态,提供节点可用视图,CPU平均使用率、内存平均使用率以及GPU信息等可视化数据
2.监控集群GPU资源,包括GPU温度、负载、显存等关键参数
3.支持用户对选定时间段内的CPU、内存和GPU 使用进行统计
4.统一告警管理功能,符合策略将会产生告警信息
5.支持按照告警级别检索告警信息
监控统计
支持用户对选定时间段内的CPU、内存和GPU 使用进行统计
控制台
支持VNC、Web Shell
计费
计费管理
1.支持计费账号管理
2.支持通过“先充值后扣费”方式使用集群资源,只有账号余额充足时才能运行作业
3.支持导出作业粒度的计费详表,供用户核对
容器
镜像管理
1.运行中容器保存为镜像
2.可以提升私有镜像为公有镜像,可以拷贝镜像到其它仓库
3.本地环境pull和push镜像
4.通过docker exec console配置镜像并保存
5.自定义Python包
6.定制版Tensorflflow-GPU、Caffffe、PyTorch、Mxnet的各个版本镜像
7.系统自带镜像仓库实现镜像的保存、推送和下载
8.可查看镜像仓库中的镜像列表,查看镜像的名称、标签、创建时间等信息
9.可查看镜像OS类型、Kernel版本、python版本以及安装的packages
镜像仓库
支持容器技术封装计算应用,软件厂商自有容器仓库,基于容器镜像快速部署计算应用
AI
框架
支持Tersorflflow-GPU. Caffffe、PyTorch、Mxnet、Sklearn、Xgboost各个版本工具包镜像
训练
支持Tensorflflow框架的多机多卡分布式训练,基于Horovod的分布式训练,支持Tensorflflow、 PyTorch、MxNet
基础环境
编译器函数库
GNU、Intel编译器,PGI编译器,支持C/C++/Fotran;MKL、ACML、BLAS、LAPACK、ScaLAPACK、FFTW、PLAPACK、ETSc、GSL、PLASMA、Boost、HDF、netCDF等函数库
并行环境
OpenMP、OpenMPI、MVPAICH2等MPI并行环境(支持InfifiniBand,OPA,以太网)
机房信息
可视化机房机柜信息,集群各个节点在机柜中位置一一对应,可视化查看具体节点的资源占用情况和作业执行情况
基础环境
多语言支持
简体中文、英语
浏览器兼容
支持Safari,Edge,Firefox,Chrome最新版本及部分经典旧版本
系统适配性
CentOS 7.9
CPU适配
x86,鲲鹏920,飞腾D2000、S2500