技术方案

TECHNICAL PROPOSALS

智算中心

      天数智芯基于已商用量产的通用GPU芯片(包括训练、推理),以及开源的Kubernetes容器集群管理系统,联合生态合作伙伴,搭建了一套覆盖laaS、PaaS、Saas的异构计算平台参考解决方案,覆盖不同的云服务模式,可以为公有云、私有云、混合云的不同客户需求做深度定制开发。

      目前该集群管理平台已经与不同维度的合作伙伴完成了生态适配,支持x86和ARM两大市场主流CPU架构,支持异构混插,云平台包括裸金属、云原生厂商等。

应用挑战

CHALLENGES

保证集群性能及可靠性,同时优化集群管理功能

解决异构算力的孤岛效应

应用场景

SCENARIOS

智算中心

智算中心通过合理分配算力达到最大化利用资源

支持大规模高性能分布式训练,实现管理与业务分离,通过隔离保证安全和性能调度异构算力,解决拓扑感知和程序侵入问题,通过碎片调度提高GPU资源的利用率提供软件管理平台,对内管理所有服务器资源,对外提供算力服务可视化界面

天数优势

ADVANTAGE

一站式   支持虚拟化
IaaS->PaaS->SaaS   算力分配最小颗粒是1/100
VM、POD、容器统一管理   内存分配最小颗粒是256M

 

  部署灵活   稳定可靠
  支持x86和ARM架构CPU系统                             自带看门狗监测系统异常并自动恢复
  支持异构纳管,混合部署    安全存储,用户隔离