
主营:
GPU/CPU/嵌入式服务器光模块/高速线缆交换机HGX模组智能网卡服务器配件/芯片算力&AIDC租赁二手拆新软件/智算平台GPU维修&IDC改造施工国产算力
H3C
15台UniServer R5500 G6:CPU:2*8468 (48 核, 2.4GHz)内存:2T (32x64GB)内存,系统盘:M.2 480G*1 数据盘:2 块 3.2TB NVMe SSD
硬盘,GPU:Nvidia H800-SXM5-80G-700W-NvlinkSW*8 网卡 400GE 单口(IB)网卡*4(计算,CX-7-400G 网
卡,含 400G 光模块),200GE 单口(IB)网卡*1(存储,CX-7-200G 网卡,含 400G 光模块)2 块 25GE 双口
网卡(mellanox),带 ilo 管理口;8 块 H800 GPU 基于 sxm 架构实现 400GB/s 的 8 卡全互联。
天翼云骁
智算管理
平台具备资源组管理,支持创建资源组,资源组扩缩容,查看节点列表,节点支持 VNC 远程登录。
具备队列管理,支持队列的创建,锁定,查询和删除。
具备工作空间管理,支持新建工作空间,AI 资产统计,工作空间成员管理,队列授权管理。
具备数据集管理,支持共享存储管理,共享存储支持对象存储和高性能并行文件存储,支持本地数据缓存数据
加速。支持数据集创建和查询。
▲具备镜像管理,支持用户自定义镜像上传和镜像管理,支持公共镜像仓库,托管 Llama2,ChatGLM 开源大模
型训练镜像。
▲具备开发机功能,支持开发机创建,支持开发机的启动、停止和删除,支持打来 vscode 开发环境调试训练模
型。
▲具备大模型训练功能,支持训练任务的创建,训练模式支持 ddp 和 deepspeed,支持数据集和共享存储的挂载,
支持千卡规模的分布式训练。支持 tensorboard 可视化训练过程,支持展示 pod 维度的训练日志。训练任务支持
启动运行、暂停、终止、删除等操作。
具备推理功能,支持将模型发布为在线服务创建,提供 Restful 风格的 API 服务,支持服务的查询和管理。
具备集群,节点,任务多种维度的资源监控能力,支持基于规则的告警功能。
支持基于角色的用户权限控制,需要内置租户管理员,工作空间管理员和开发者等角色。
具备异构 GPU 资源池化和调度方法,多规格 GPU 专属云主机集群的高可用方案。
具备第三方专业机构关于智算平台能力的检验证明。
