為什么需要GPU算力集群
在AI算力基礎設施方面,鎧沙科技的GPU算力服務器采用單節點8-16張GPU卡的中高密度算力節點,提升GPU間通信性能,減少節點間網絡通信開銷,提升整體處理性能。同一個模型訓練任務,使用鎧沙算力服務器運行不僅可以有效降低總能耗,同時可以減少機柜占用,提高集群算力密度,實現基礎資源降本增效。
在算力調度優化方面,鎧沙AMStation智能業務生產創新平臺助力構建了高性能、高可靠、可擴展的軟硬件系統架構,實現了AI訓練場景下算力資源的統一管理與智能化調度。鎧沙AMStation是專為人工智能開發和部署提供全流程支持的端到端平臺,以強大的資源調度和管理能力助力客戶加速AI開發與部署,通過對計算資源、數據資源、深度學習軟件棧資源進行統一管理,全面提速AI開發應用創新落地。高可靠的系統設計提供了多場景下故障容錯能力,故障發生時可自動觸發訓練作業容錯漂移,不影響集群整體業務運行,有效保障金融級訓練作業可靠運行。
在集群高速互聯方面,鎧沙AMStation智能業務生產創新平臺的智能調度技術可以根據AI訓練任務特性,自動匹配資源調度策略,實現對集群內任意節點的任意GPU資源組合的自動化調度,有效提升了GPU并行運算集群對大模型分布式訓練的支撐能力,并提高了集群算力的整體利用率。
在協同聯動方面,鎧沙AMStation智能業務創新平臺的智能調度新技術能夠有效抑制多節點協同的性能損耗,隨著AI算力卡數的遞增,實現整體訓練效率線性增長,有效支撐金融業大規模AI模型的創新發展。
幫助用戶建立一套既能最大限度地滿足用戶實際需要且技術又處于領先地位的GPU算力集群環境是鎧沙科技為用戶設計方案的基本出發點。
鎧沙AI算力集群解決方案

GPU集群架構圖
