智算中心
天数智芯基于已商用量产的通用GPU芯片(包括训练、推理),以及开源的Kubernetes容器集群管理系统,联合生态合作伙伴,搭建了一套覆盖laaS、PaaS、Saas的异构计算平台参考解决方案,覆盖不同的云服务模式,可以为公有云、私有云、混合云的不同客户需求做深度定制开发。
目前该集群管理平台已经与不同维度的合作伙伴完成了生态适配,支持x86和ARM两大市场主流CPU架构,支持异构混插,云平台包括裸金属、云原生厂商等。
TECHNICAL PROPOSALS
智算中心
天数智芯基于已商用量产的通用GPU芯片(包括训练、推理),以及开源的Kubernetes容器集群管理系统,联合生态合作伙伴,搭建了一套覆盖laaS、PaaS、Saas的异构计算平台参考解决方案,覆盖不同的云服务模式,可以为公有云、私有云、混合云的不同客户需求做深度定制开发。
目前该集群管理平台已经与不同维度的合作伙伴完成了生态适配,支持x86和ARM两大市场主流CPU架构,支持异构混插,云平台包括裸金属、云原生厂商等。
CHALLENGES
保证集群性能及可靠性,同时优化集群管理功能
解决异构算力的孤岛效应
SCENARIOS
智算中心
智算中心通过合理分配算力达到最大化利用资源
支持大规模高性能分布式训练,实现管理与业务分离,通过隔离保证安全和性能调度异构算力,解决拓扑感知和程序侵入问题,通过碎片调度提高GPU资源的利用率提供软件管理平台,对内管理所有服务器资源,对外提供算力服务可视化界面
ADVANTAGE
一站式 | 支持虚拟化 | |
IaaS->PaaS->SaaS | 算力分配最小颗粒是1/100 | |
VM、POD、容器统一管理 | 内存分配最小颗粒是256M |
部署灵活 | 稳定可靠 | ||
支持x86和ARM架构CPU系统 | 自带看门狗监测系统异常并自动恢复 | ||
支持异构纳管,混合部署 | 安全存储,用户隔离 |