新聞中心back

今天,阿里巴巴達摩院公布多模態大模型M6最新進展,其參數已從萬億躍遷至10萬億,成為全球最大的AI預訓練模型。

M6是達摩院研發的通用性人工智能大模型,擁有多模態、多任務能力,尤其擅長設計、寫作、問答,在電商、制造業、文學藝術、科學研究等領域有廣泛應用前景。

與傳統AI相比,大模型擁有成百上千倍“神經元”數量,認知和創造能力也更勝一籌,被普遍認為是未來的“基礎模型”。但大模型的算力成本相當高昂,訓練1750億參數語言大模型GPT-3所需能耗,相當于汽車行駛地月往返距離。

今年5月,通過專家并行策略及優化技術,達摩院M6團隊將萬億模型能耗降低超八成、效率提升近11倍。

10月,M6再次突破業界極限,使用512 GPU在10天內即訓練出具有可用水平的10萬億模型。相比去年發布的大模型GPT-3,M6實現同等參數規模,能耗僅為其1%。

圖片 1.png

10萬億參數放進512張GPU

模型擴展到千億及以上參數的超大規模時,將很難放在一臺機器上。

為了幫助多模態預訓練模型進行快速迭代訓練,達摩院在阿里云PAI自研Whale框架上搭建MoE模型,并通過更細粒度的CPU offload技術,最終實現將10萬億參數放進512張GPU:

自研Whale框架:自研Whale分布式深度學習訓練框架,針對數據并行、模型并行、流水并行、混合并行等多種并行模型進行了統一架構設計,讓用戶在僅僅添加幾行API調用的情況下就可以實現豐富的分布式并行策略。

MoE專家并行策略:Whale架構中實現Mixture-of-Experts(MoE)專家并行策略,在擴展模型容量、提升模型效果的基礎上,不顯著增加運算FLOPs(每秒所執行的浮點運算次數),從而實現高效訓練大規模模型的目的。

CPU offload創新技術:在自研的分布式框架Whale中通過更細粒度的CPU offload,解決了有限資源放下極限規模的難題,并通過靈活地選擇offload的模型層,進一步地提高GPU利用率。

訓練速度大幅度提升

此外,針對訓練效率問題,M6團隊設計了Pseudo-to-Real(共享解除)機制,即利用訓練好的共享參數模型初始化大模型,讓收斂效率進一步提升7倍,解決大模型訓練速度慢的問題。

對比不使用該機制,預訓練達到同樣loss用時僅需6%;和此前萬億模型相比,訓練樣本量僅需40%。

圖片 2.png

作為國內首個商業化落地的多模態大模型,M6已在超40個場景中應用,日調用量上億。

今年,大模型首次支持雙11,應用包括但不限于:

M6在犀牛智造為品牌設計的服飾已在淘寶上線;

憑借流暢的寫作能力,M6正為天貓虛擬主播創作劇本;

依靠多模態理解能力,M6正在增進淘寶、支付寶等平臺的搜索及內容認知精度。

圖片 3.png

M6設計的飛行汽車

未來,M6將積極探索與科學應用的結合,通過AI for science讓大模型的潛力充分發揮,并加強M6與國產芯片的軟硬一體化研究。

達摩院智能計算實驗室負責人周靖人表示:

“接下來,我們將深入研究大腦認知機理,致力于將M6的認知力提升至接近人類的水平;另一方面,還將不斷增強M6在不同場景中的創造力,產生出色的應用價值。”

目前,達摩院聯合阿里云已推出M6服務化平臺https://m6.aliyun.com),為大模型訓練及應用提供完備工具,首次讓大模型實現“開箱即用”,算法人員及普通用戶均可方便地使用平臺。

/ END /

聯系我們

溫馨提示:為確保留言的有效性,請您填寫真實的公司名稱和聯系方式

  • 公司名稱
  • 郵 箱
  • 聯系電話
  • 地 址
您的企業現在面臨的問題?

需求描述

山西京軒科技集團有限公司
熱線電話:400-606-7577
郵       箱:shichangbu@360it.cn
地       址:山西省太原市晉源區義井街道西中環路
阿里云創新中心
Copyright 2015-2020
山西京軒科技集團有限公司        版權所有
晉ICP備15006409號     晉公網安備14019202000635號
久久久精品电影网