新京報貝殼財經(jīng)訊(記者 羅亦丹)11月8日,貝殼財經(jīng)記者從阿里巴巴達摩院獲悉,其多模態(tài)大模型M6最新參數(shù)已從萬億躍遷至10萬億,規(guī)模超過了谷歌、微軟此前發(fā)布的萬億級模型,成為全球最大的AI預(yù)訓(xùn)練模型。
貝殼財經(jīng)記者觀察到,2021年以來,AI訓(xùn)練模型的規(guī)模不斷擴大。據(jù)不完全統(tǒng)計,這些大模型包括年初華為發(fā)布的1000億參數(shù)盤古大模型、1.6萬億參數(shù)的Google switch transformer模型、1.75萬億參數(shù)的智源悟道2.0智能模型、1.9萬億參數(shù)的快手精排模型等。其中,阿里達摩院M6模型上一次公布的參數(shù)規(guī)模為1萬億。
據(jù)了解,與傳統(tǒng)AI相比,大模型擁有成百上千倍“神經(jīng)元”數(shù)量,且預(yù)先學(xué)習(xí)過海量知識,表現(xiàn)出像人類一樣“舉一反三”的學(xué)習(xí)能力。因此,大模型被普遍認為是未來的“基礎(chǔ)模型”,將成下一代AI基礎(chǔ)設(shè)施。
“近年來人工智能的發(fā)展應(yīng)該從家家戶戶‘大煉模型’的狀態(tài)逐漸變?yōu)榘奄Y源匯聚起來,訓(xùn)練超大規(guī)模模型的階段,通過設(shè)計先進的算法,整合盡可能多的數(shù)據(jù),匯聚大量算力,集約化地訓(xùn)練大模型,供大量企業(yè)使用,這是必然趨勢。”北京大學(xué)信息科學(xué)技術(shù)學(xué)院教授黃鐵軍此前告訴貝殼財經(jīng)記者。
需要注意的是,訓(xùn)練大模型的算力成本相當(dāng)高昂,如訓(xùn)練1750億參數(shù)語言大模型GPT-3所需能耗,相當(dāng)于汽車行駛地月往返距離。對此,達摩院表示,M6使用512 GPU在10天內(nèi)即訓(xùn)練出具有可用水平的10萬億模型,相比去年發(fā)布的大模型GPT-3,M6實現(xiàn)同等參數(shù)規(guī)模,能耗減至其1%,達摩院透露,實現(xiàn)能耗減少的技術(shù)原理包括通過更細粒度的CPU offload、共享-解除算法等。
據(jù)了解,M6是達摩院研發(fā)的通用性人工智能大模型。目前,達摩院聯(lián)合阿里云推出了M6服務(wù)化平臺,為大模型訓(xùn)練及應(yīng)用提供完備工具,算法人員及普通用戶均可使用平臺。
達摩院智能計算實驗室負責(zé)人周靖人表示,“接下來,我們將深入研究大腦認知機理,致力于將M6的認知力提升至接近人類的水平,比如,通過模擬人類跨模態(tài)的知識抽取和理解方式,構(gòu)建通用的人工智能算法底層框架;另一方面,不斷增強M6在不同場景中的創(chuàng)造力,產(chǎn)生出色的應(yīng)用價值。”
校對 柳寶慶