近日,智源研究院發布AI芯片生態實驗室和九鼎智算平臺。九鼎平臺旨在打造AI科研創新的基石與試驗場,目標向上支撐未來十年的計算新范式,包括通用智能基礎大模型、AI for Science等;向下致力于為產學研加速融合、軟硬件協同創新、國產AI芯片生態建設提供強大基座。目前,九鼎平臺在建1000P算力,每服務器400Gbps高速互連能力的高性能環境。
與傳統商業云計算專注于“推理”任務不同,九鼎平臺發力探索滿足大規模混合計算任務的調度方法,追求在科研“訓練”任務上表現更加優秀。此外,作為混合架構云平臺,九鼎將支撐多家廠商AI加速芯片,希望通過探索自動適配的新方法,讓每一款異構計算芯片發揮其最佳運算能力,以提升整體平臺效能,降低AI異構加速芯片的產業化難度。
此外,智源大模型團隊積極開展國際技術交流合作,目前正在攜手埃及阿拉伯科技與海運學院、埃及亞歷山大圖書館,共建世界最大阿拉伯語數據集,共同開展阿拉伯大模型研制和應用開發。
融合人工智能(AI)與高性能計算(HPC)是探索新一代計算系統體系結構的重要趨勢。傳統科學計算以結構化數據為主,高性能低延遲,雙精度數值計算,而AI智能計算系統以非結構化為主,高并發高吞吐率、低精度張量計算,高帶寬訪存。隨著人工智能技術前沿、多學科交叉應用與產業化落地的發展,兩種計算范式逐漸走向融合與共存,其中通用大模型、AI for Science 最典型的科研領域。
智源研究院總工程師林詠華在接受記者采訪時表示,目前九鼎平臺在建構之余,將探索三大技術問題——
第一,滿足大規模混合計算任務的調度方法。以產業界為例,商業云廠商的AI任務多以并發量高的推理任務為主,與九鼎平臺的AI大模型訓練任務差異性很大。在多個大模型同時訓練的情況下,如何支持數據層級、算子層級、任務層級等不同并行優化策略,同時平衡好網絡和計算是調度需要解決的核心問題。
第二,AI+HPC融合的云計算體系結構。在AI for Science領域,深度學習計算與傳統高性能計算兩種范式如何高效共存是需要解決的重要問題。由于AI和HPC需要的計算需求有明顯差異,在現有的通用處理器和AI加速器的異構計算云平臺資源上,構造一套能混合、彈性調度AI和HPC workload的云計算能力,對AI科研云平臺的發展至關重要。
[if !supportLists]第三,實現拉動異構計算體能力的統一適配層。為不同廠商的多樣化AI加速芯片,探索一種能自動學習、自動匹配最佳運行硬件架構環境的適配層,即用AI學習能力來自動優化AI系統的運行環境,讓每一款異構計算芯片都能達發揮其最佳的運算能力,整體提升異構云平臺的效能,幫助產業大大降低優化的門檻。
對此,林詠華指出,這三個重要的技術方向關乎未來AI計算的體系結構、系統平臺的發展,十分需要與技術企業、科研團體開放合作。“比如,我們在進行這些探索研究中,很重要的一類合作伙伴就是AI芯片企業。”
她進一步解釋稱,智源研究院尋求的是通過AI生態合作,來推動AI基礎研究成果的落地。作為科研機構,智源研究院強調的不是護城河,而是開放合作。“因為AI領域十分寬廣和縱深。它涉及十分寬廣的不同產業應用領域(如計算機視覺、NLP等領域,又或AI用到金融、工業、自動駕駛等不同應用領域),每個應用領域都十分專業。而在每一個垂直的應用領域又十分縱深,涉及從底層的加速芯片、硬件系統到上面的AI算法、AI應用、AI安全等等。所以,人工智能的發展需要許多團隊和人才不斷前赴后繼、把技術推陳出新。因此,我們不想構筑自己的護城河,反而希望搭建可以共同開放創新的平臺,一旦有新的技術和新的積累,都希望以開源開放的方式共享給整個產業,從而和整個產業一起推動AI的創新。”
據了解,基于九鼎平臺大規模科研計算實踐環境,智源研究院也于近日宣布聯合多家國內AI芯片公司,北京大學羅國杰團隊、北京大學董豪團隊、清華大學翟季冬團隊、中科院計算所崔慧敏團隊等相關科研團隊,共建AI芯片生態實驗室,旨在加速國內AI芯片的生態發展和應用落地。通過搭建AI芯片的產學研平臺,推動測試、標準、創新、應用等方面合作,從而加速國內AI芯片滿足大規模應用部署的條件,通過軟硬件協同創新實現在性能上的突破,并為未來通用智能大模型、AI for Science等新的計算范式做好準備。
林詠華告訴記者,摩爾定律已接近瓶頸,通用大模型、AIfor Science等前沿技術探索正驅動著新一代計算的體系結構變革。AI芯片生態實驗室將有助于拉動國產AI芯片對相關重大科研計算范式的優化,加速完善芯片軟件生態建設。
“這不是一個簡單的聯盟,是圍繞AI芯片來打造生態的實驗室,強調的是軟硬件協同創新。”她指出,AI芯片要成功,必須要構建足夠強大的上層生態軟件,尤其是通過生態軟件的開源開放,形成各種開放接口的標準體系。“這也是為什么我們實驗室名字有‘生態’這兩個字,需要各方把研發的能力聚集在一起,扎實進行有利于生態建設的開發和創新。”
“單純依靠摩爾定律下的工藝發展所帶來的芯片性能已接近極限,加上許多最先進的工藝技術國內難以使用,通過芯片架構創新獲得下一代芯片性能提升變得至關重要。在過去幾十年,CPU發展進程已經充分證明基礎系統軟件對芯片架構的重要性,架構創新離不開系統軟件的配合,并且需要通過系統軟件(如編譯器等)來實現自動利用、自動優化,才能讓上層應用獲益。在國內,AI芯片的研發力量集中在芯片公司,而基礎軟件的創新主要在高校團隊。因此,要拉動國產AI芯片的軟硬件協同創新,需要鼓勵和加大跨層的創新和合作。”她補充道。
最新評論