夢(mèng)晨 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
預(yù)訓(xùn)練大模型,自誕生以來不斷刷新AI能力,成為業(yè)界競(jìng)爭(zhēng)的焦點(diǎn)。
參數(shù)規(guī)模突破千億直奔萬億,開發(fā)難度和成本也隨之增大。
到了這個(gè)份上,大模型的開發(fā)與應(yīng)用似乎成了“巨頭專屬”,效果越來越驚艷,離普通人卻越來越遠(yuǎn)了。
不過,例外正在發(fā)生。
最近一場(chǎng)AI創(chuàng)意賽上,全國(guó)各地近2000人參與,大家腦洞大開,使用大模型能力開發(fā)出各類趣味應(yīng)用。
如B站UP主同濟(jì)同濟(jì)子豪兄的這款論文起名神器,輸入摘要就可自動(dòng)生成論文標(biāo)題。
開發(fā)出這些作品的人其實(shí)很多并非AI從業(yè)者,甚至沒有計(jì)算機(jī)專業(yè)背景,比如文科生,還有創(chuàng)業(yè)公司產(chǎn)品經(jīng)理等。
這些作品本身倒不是本文的重點(diǎn),只是,使用大模型什么時(shí)候門檻這么低了?
這場(chǎng)由百度舉辦的比賽,提供的是文心知識(shí)增強(qiáng)大模型做技術(shù)支持,此外還有一個(gè)特別的標(biāo)簽——
業(yè)界首次大模型能力向公眾開放。
要知道,大模型能力像要向公眾開放,不能光是發(fā)發(fā)論文、開源一下代碼了事。
背后還要額外付出努力,提供一系列低門檻的開發(fā)平臺(tái)和工具、相應(yīng)的培訓(xùn)和教學(xué),才能讓沒有AI基礎(chǔ)、甚至不會(huì)編程的人都能“玩轉(zhuǎn)大模型”。
為什么要做到這一步?
百度集團(tuán)副總裁吳甜這樣回答:
這個(gè)世界上有技術(shù)背景的人還是少數(shù),AI想要落地不能僅靠技術(shù)人員,創(chuàng)意在民間。
只有技術(shù)門檻低到了所有人都可以的時(shí)候,創(chuàng)意才會(huì)真正大規(guī)模爆發(fā)起來,這是人工智能落地路上必然的趨勢(shì)。
大模型落地難在哪?
想要理解這個(gè)趨勢(shì),得先跳出比賽本身,看看AI落地、特別是大模型落地到底遇到了什么困難。
最近,微軟認(rèn)知服務(wù)團(tuán)隊(duì)發(fā)表的一篇大模型遭遇“不可能三角”論文,引發(fā)業(yè)內(nèi)關(guān)注。
論文提出,目前的預(yù)訓(xùn)練語言模型對(duì)于模型規(guī)模、精調(diào)能力、小樣本能力三者不可兼得。
目前業(yè)內(nèi)的普遍做法,是試圖得其二的同時(shí)努力往第三點(diǎn)靠。
放棄控制規(guī)模開發(fā)超大模型,可以再用知識(shí)蒸餾等手段做小型化。
不追求少樣本能力,可以在缺少數(shù)據(jù)的任務(wù)上做數(shù)據(jù)增強(qiáng)。
不追求精調(diào)能力,改用提示學(xué)習(xí)(Prompt learning)做少樣本任務(wù)的方法最近也火了起來。
不過妥協(xié)的辦法總歸是有這樣那樣的問題,從效果或成本上阻礙大模型進(jìn)一步應(yīng)用落地。
如何突破這個(gè)“不可能三角”,各家都有著自己的答案。
微軟論文中給出一種可能路徑,先從個(gè)別任務(wù)上打開突破口,如命名實(shí)體識(shí)別或文本摘要,實(shí)現(xiàn)單一任務(wù)占據(jù)全部三項(xiàng)優(yōu)勢(shì)后再圖橫向拓展。
谷歌近日推出的下一代AI架構(gòu)Pathway,則是從提升訓(xùn)練效率角度嘗試解決。也就是不怕模型大,轉(zhuǎn)而追求把煉大模型的難度降低。
百度的技術(shù)路線則是知識(shí)增強(qiáng),讓AI在大規(guī)模知識(shí)的指導(dǎo)下以更高效率學(xué)習(xí)到海量數(shù)據(jù)(603138)中蘊(yùn)含的規(guī)律。
百度靠引入大規(guī)模知識(shí)圖譜,只用百億級(jí)參數(shù)規(guī)模就在語言模型權(quán)威測(cè)評(píng)SuperGlue上登頂全球榜首,超越人類水平0.8個(gè)百分點(diǎn)。
后來發(fā)布的全球首個(gè)千億級(jí)知識(shí)增強(qiáng)大模型鵬城-百度·文心,更是在機(jī)器閱讀理解、文本分類、語義相似度計(jì)算等60多項(xiàng)任務(wù)中都取得了最好效果,在30多項(xiàng)小樣本和零樣本任務(wù)上,也刷新了基準(zhǔn)。
……
關(guān)于模型本身的事先說到這里,現(xiàn)階段要想真正解決大模型落地問題,百度還提出一個(gè)觀點(diǎn):
光靠技術(shù)手段是遠(yuǎn)遠(yuǎn)不夠的。
跳出技術(shù)之外
文心大模型家族自2019起開始打造,百度對(duì)其定位是產(chǎn)業(yè)級(jí)知識(shí)增強(qiáng)大模型。
知識(shí)增強(qiáng)前面已經(jīng)介紹,那么該如何理解“產(chǎn)業(yè)級(jí)”這個(gè)定位?
吳甜解釋其含義為“來源于產(chǎn)業(yè)實(shí)踐,同時(shí)服務(wù)于產(chǎn)業(yè)實(shí)踐,在實(shí)踐當(dāng)中建設(shè)起來”。
一方面,百度研發(fā)大模型的初衷就來自產(chǎn)業(yè)的落地實(shí)踐。
AI落地場(chǎng)景越多,模型面臨泛化性差的問題就越突出。每面臨一個(gè)新的場(chǎng)景就需要收集新的數(shù)據(jù),進(jìn)行新的模型訓(xùn)練。
預(yù)訓(xùn)練模型的出現(xiàn),通過集中提供通用算法、打造技術(shù)底座,大幅降低了人工智能的應(yīng)用門檻,從開發(fā)階段就應(yīng)該是面向產(chǎn)業(yè)的。
開發(fā)設(shè)計(jì)階段用到的數(shù)據(jù)要來源于產(chǎn)業(yè)。百度走的知識(shí)增強(qiáng)路線,意味著深入到金融、醫(yī)療等特定行業(yè)時(shí),除了收集該行業(yè)的非結(jié)構(gòu)化數(shù)據(jù),還要積累專業(yè)知識(shí)。
做不同的任務(wù)設(shè)計(jì),模型最后學(xué)到的是不一樣的。百度會(huì)結(jié)合大量的產(chǎn)業(yè)應(yīng)用,借助任務(wù)構(gòu)建器不斷地提煉任務(wù)、挖掘任務(wù),讓模型持續(xù)進(jìn)行學(xué)習(xí)。
另一方面,文心又依托于百度功能完備的產(chǎn)業(yè)化大生產(chǎn)平臺(tái)輸出到百行千業(yè),為行業(yè)使用大模型帶來更大的便捷。
文心大模型開放了配套大模型開發(fā)、輕量化和部署的工具,推進(jìn)產(chǎn)業(yè)落地應(yīng)用,激發(fā)創(chuàng)意。
依托百度飛槳平臺(tái)自主研發(fā)的端到端自適應(yīng)分布式訓(xùn)練框架與4D混合并行技術(shù),以及百舸AI異構(gòu)計(jì)算平臺(tái),解決了大模型訓(xùn)練過程中多個(gè)世界性難題,使大模型訓(xùn)練速度提升、模型效果更優(yōu)。
在落地應(yīng)用上,文心若僅提供API調(diào)用只能滿足離技術(shù)較近行業(yè)的少量需求。
因此,百度還會(huì)提供配套的數(shù)據(jù)標(biāo)注、模型輕量化、邊緣部署等一系列工具和平臺(tái)。
如此開發(fā)出的產(chǎn)業(yè)級(jí)知識(shí)增強(qiáng)大模型,核心價(jià)值在于驅(qū)動(dòng)AI的規(guī)模化應(yīng)用。
人工智能在與眾多這些產(chǎn)業(yè)結(jié)合時(shí),場(chǎng)景非常分散、長(zhǎng)尾。
針對(duì)高頻次、容易流程化和標(biāo)準(zhǔn)化的場(chǎng)景,可以直接提供開發(fā)好的AI能力,如保險(xiǎn)行業(yè)的合同處理,可以靠智能文檔分析能力完成。
但還有很多如制造業(yè)、教育等行業(yè)中更碎片化的場(chǎng)景,數(shù)字化基礎(chǔ)薄弱,行業(yè)知識(shí)更依靠人類專家經(jīng)驗(yàn)、師徒間口口相傳。
這就回到了文章開頭的問題,為什么要把AI大模型能力做到向公眾開放?
數(shù)量眾多的場(chǎng)景,要是靠AI工程師去一個(gè)一個(gè)去深入調(diào)研、做適配,無法解決所有的問題。
只有讓有需求的人都能認(rèn)識(shí)、接觸、親手用上大模型,才能激發(fā)創(chuàng)意,取得應(yīng)用落地上的更大突破。
為此,百度飛槳提供了零門檻AI開發(fā)平臺(tái)EasyDL,擁有從數(shù)據(jù)采集、標(biāo)注、清洗到模型訓(xùn)練、部署的一站式AI開發(fā)能力,無需編程和算法基礎(chǔ)就能使用。
對(duì)更復(fù)雜的需求,也有BML全功能AI開發(fā)平臺(tái),提供開發(fā)環(huán)境、功能組件和高性價(jià)比的算力資源。
通過不斷降低門檻,構(gòu)建大模型生態(tài),文心大模型對(duì)外調(diào)用量超5000萬次,服務(wù)了6萬+開發(fā)者、企業(yè)、科研機(jī)構(gòu)。
為了讓更多人看到大模型、了解大模型、用上大模型,百度舉辦了面向公眾的AI創(chuàng)意賽。
此外還有面向產(chǎn)業(yè)的首席AI架構(gòu)師培養(yǎng)計(jì)劃,已向業(yè)界輸送247位AI架構(gòu)師,遍布工業(yè)、農(nóng)業(yè)、金融、交通、能源等數(shù)十個(gè)行業(yè)。
人工智能高校師資培訓(xùn),免費(fèi)培訓(xùn)AI專業(yè)教師3000余人,助力700多個(gè)高校開設(shè)深度學(xué)習(xí)課程,培養(yǎng)了數(shù)萬名在校生。
去年底,還宣布成立百度松果學(xué)堂,打造源于產(chǎn)業(yè)的AI人才培養(yǎng)平臺(tái),致力于讓每個(gè)人都能更便捷地獲取AI知識(shí),學(xué)習(xí)AI技術(shù)。
所有積累的行業(yè)知識(shí)、產(chǎn)業(yè)應(yīng)用、人才都將匯聚在文心大模型生態(tài),以及背后更大的百度飛槳深度學(xué)習(xí)生態(tài)中進(jìn)一步推動(dòng)AI落地,形成正向循環(huán)。
到底什么才是一個(gè)好的大模型?
當(dāng)今,各大研究機(jī)構(gòu)、科技公司都爭(zhēng)相打造自己的大模型。
參數(shù)規(guī)模上千億、訓(xùn)練數(shù)據(jù)也上千GB。單體稠密模型之外,也有稀疏模型路線,參數(shù)更是突破萬億。
各大基準(zhǔn)測(cè)試榜單也不斷被刷新,超越人類平均水平已是過去式,追上人類最佳水平成了新的目標(biāo)。
層出不窮的進(jìn)展讓人眼花繚亂,到底該如何評(píng)價(jià)一個(gè)大模型的優(yōu)劣?
若是單純比參數(shù)大小,缺失了成本和效率的維度。若只看跑分高低,也看不出真正落地時(shí)的效果。
如此看下來,一個(gè)大模型好壞的新標(biāo)準(zhǔn)也呼之欲出:
能否在性能領(lǐng)先的同時(shí)支撐大量產(chǎn)業(yè)應(yīng)用。
從這個(gè)角度看,開發(fā)者數(shù)量超過6萬、在數(shù)百個(gè)場(chǎng)景中落地應(yīng)用的文心大模型,真正可稱作“產(chǎn)業(yè)級(jí)”大模型。
而且百度打造大模型,從技術(shù)和難度上來說,并無意外之處。
但最值得關(guān)注的還是入場(chǎng)的初心和立場(chǎng)。
據(jù)稱文心大模型問世,核心是來自于產(chǎn)業(yè)實(shí)際的需求,并非閉門造車的結(jié)果。
一方面,產(chǎn)業(yè)有需求,于是百度有了響應(yīng),并且很快實(shí)現(xiàn)了技術(shù)工程化,再通過飛槳快速實(shí)現(xiàn)了產(chǎn)業(yè)應(yīng)用。
另一方面,產(chǎn)業(yè)的反饋?zhàn)C明了大模型的價(jià)值。在文心落地中,不僅各類大小企業(yè)實(shí)現(xiàn)了產(chǎn)業(yè)化升級(jí),而且側(cè)面證明了大模型在商業(yè)化落地上的可能性和可行性之路。
在AI模型中,輸入、輸出以及反饋是缺一不可的關(guān)鍵要素,而文心大模型的實(shí)踐,同樣完成了這樣的閉環(huán)。
但這種路徑在大模型上是否可復(fù)制?
答案或許還不能言之鑿鑿。
首先要考慮的是技術(shù)能力,其次還得有產(chǎn)業(yè)生態(tài),最后還能真正從開發(fā)者的反饋中獲得認(rèn)可。
文心之路,多少有點(diǎn)百度飛槳的“凡爾賽”意味,其所具備的要素,并非其他玩家兼具。
但至少,一條大模型的商業(yè)化落地路徑,現(xiàn)在已經(jīng)清晰可見。
文心模式,就是這條路線。
參考資料:
[1]https://arxiv.org/abs/2204.06130
本文首發(fā)于微信公眾號(hào):量子位。文章內(nèi)容屬作者個(gè)人觀點(diǎn),不代表和訊網(wǎng)立場(chǎng)。投資者據(jù)此操作,風(fēng)險(xiǎn)請(qǐng)自擔(dān)。
關(guān)鍵詞: