從競(jìng)爭(zhēng)打響,再到?jīng)Q出勝負(fù),最快需要多長(zhǎng)時(shí)間?
【資料圖】
在科技圈,大模型如論第二,則很少有行業(yè)敢稱第一。2023年,業(yè)界刮起一股“百模大戰(zhàn)”風(fēng)潮,百余個(gè)大模型面世,期待贏得下一個(gè)人工智能時(shí)代的入場(chǎng)券。但時(shí)間僅過半年有余,這場(chǎng)萬(wàn)眾矚目的角逐便走至了“決賽圈”。
目前,行業(yè)中的大模型用戶體驗(yàn)已逐漸出現(xiàn)“分水嶺”。背后的推手,無(wú)疑是科技巨頭們正在投入巨資,強(qiáng)化自家產(chǎn)品的基礎(chǔ)模型能力。
近期有媒體報(bào)道稱,百度正在加緊訓(xùn)練文心大模型4.0,或?qū)⒃?0月17日百度世界大會(huì)上發(fā)布。據(jù)透露,目前這款基礎(chǔ)模型已在理解、生成、邏輯和記憶四大方面有巨大突破,在邏輯推理、代碼、數(shù)學(xué)等方面的進(jìn)步水平明顯。另一組引人注意的信息是,文心大模型4.0的推理成本相比文心大模型3.5增加很多,有傳聞是8-10倍,也有說(shuō)法是至少翻了10倍。
如何理解大模型的推理成本?其訓(xùn)練成本和推理成本的關(guān)系是什么?如果百度文心4.0推理成本真的至少翻了10倍,那么大模型的可持續(xù)發(fā)展之路在何方?這些問題無(wú)疑為這場(chǎng)科技競(jìng)賽增添了更多看點(diǎn)。
01
推理成本激增
什么是推理成本?通常意義上,它指的是大語(yǔ)言模型訓(xùn)練完成后在線為用戶提供生成內(nèi)容服務(wù)時(shí)產(chǎn)生的成本,模型的每一次“思考”和“輸出”都會(huì)產(chǎn)生資源消耗。
推理成本由質(zhì)量和數(shù)量?jī)刹糠謽?gòu)成。一方面,在質(zhì)量側(cè),需要優(yōu)秀的算法和技術(shù)實(shí)力儲(chǔ)備作為支撐,其背后往往意味著專業(yè)的算法工程師和數(shù)據(jù)科學(xué)家團(tuán)隊(duì)的支持;而在數(shù)量側(cè),“暴力計(jì)算”所依賴的計(jì)算資源也是重要因素。
GPU“堆料”能不能解決所有問題?
應(yīng)該說(shuō),在過去的一段時(shí)間是可以這樣認(rèn)為的。不過,目前隨著模型網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜化、參數(shù)規(guī)模的巨量化,線性的基礎(chǔ)設(shè)施投入所取得的邊際收益正在降低。
對(duì)于技術(shù)研發(fā)能力不足的大模型廠商而言,由于AI芯片價(jià)格的持續(xù)高企,“堆料”邏輯是死路一條,并必將被市場(chǎng)淘汰。而推理成本本身,也是因不同的開發(fā)商而異的。
02
“中文天才”已就位
在市場(chǎng)中,有實(shí)力的企業(yè)通常愿意雇傭名牌大學(xué)的高等生。在大模型領(lǐng)域內(nèi),這個(gè)規(guī)律同樣適用。
目前,行業(yè)里已出現(xiàn)多種為大模型生成內(nèi)容付費(fèi)的使用方式,不過根本上,遇到刁鉆或時(shí)效性問題時(shí),大模型給出的結(jié)果仍然效果不甚理想。一方面,這是由于中文特有的復(fù)雜性決定;另一方面,也是用戶激增帶來(lái)的短期算力不足所導(dǎo)致。
實(shí)際上,此前行業(yè)所提及的“訓(xùn)練成本”和“推理成本”并不能等同。
一般而言,訓(xùn)練GPT-3等級(jí)的大模型的成本約為140萬(wàn)美元,這也是幾個(gè)月前人們對(duì)大模型成本測(cè)算的核心依據(jù),但GPT-3迭代到3.5、GPT-4后,大模型的成本增長(zhǎng)是非常驚人的。對(duì)于一些私有部署的模型而言,其模式是在已經(jīng)訓(xùn)練好的模型進(jìn)行輸出,成本相對(duì)較低。但這種模式只能滿足特定需求,并不適用于開放市場(chǎng)。
目前,考慮到在線推理場(chǎng)景,則更需要處理大規(guī)模數(shù)據(jù),成本隨之被推高。
根據(jù)海外最新研究《TheEconomicsofLargeLanguageModels》,可以有如下估計(jì):每個(gè)token(1000token約等于750個(gè)單詞)的訓(xùn)練成本通常約為6N(N為參數(shù)的計(jì)量單位),而推理成本約為2N,也就是說(shuō)推理成本大約相當(dāng)于訓(xùn)練成本的三分之一。但隨著模型上線部署后使用量的增加,推理成本可能遠(yuǎn)超訓(xùn)練成本。
在國(guó)外,大模型的付費(fèi)是大勢(shì)所趨。其中以ChatGPT專業(yè)版為例,其版本所提供的用戶體驗(yàn)與免費(fèi)版差別很大。當(dāng)然,這也有助于大模型向著健康正向、持續(xù)發(fā)展的角度進(jìn)步。
有媒體估算過,使用云計(jì)算服務(wù)(以AWS為例)調(diào)用ChatGPT的能力,每處理一個(gè)輸入長(zhǎng)度為50字、輸出長(zhǎng)度為1000字的問題,大約需要消耗0.00014611美元的云計(jì)算資源。即用1美元可以向ChatGPT提問約6843個(gè)問題。
據(jù)推測(cè),文心4.0的推理成本將比3.5版本上升10倍。不過,其帶來(lái)的好處也是顯而易見的,那就是相當(dāng)于為每個(gè)普通人都帶來(lái)了“高知高學(xué)”的AI助手。
03
中文大模型逐漸彎道超車
應(yīng)該說(shuō),2023年是屬于“遙遙領(lǐng)先”的一年。在眾多網(wǎng)友的觀感中,這個(gè)詞匯除弘揚(yáng)國(guó)產(chǎn)技術(shù)實(shí)力外,也有一些趣味因素在其中。
中文大模型是否能夠“遙遙領(lǐng)先”?這是十分令人期待的。
嚴(yán)肅些說(shuō),中國(guó)需要自己的中文大模型。可以看到,中文大模型的崛起已在日程之上。在OpenAI的GPT系列活躍量連續(xù)下滑之際,諸如百度文心一言等產(chǎn)品的增長(zhǎng)卻與日俱增。應(yīng)該說(shuō),從落后再到領(lǐng)跑,在過去的幾個(gè)月間,中文大模型打出了一場(chǎng)漂亮的逆襲戰(zhàn)。
中文大模型的優(yōu)勢(shì)是,它在語(yǔ)義理解上更加準(zhǔn)確,在文化背景差異上也幾乎沒有代溝。如果當(dāng)我們把視角放在科技創(chuàng)新、產(chǎn)業(yè)升級(jí)等大背景下,中文大模型所承載的知識(shí)量或?qū)⒃俅嗡⑿氯藗兊恼J(rèn)知。
應(yīng)該看到,中文大模型也是“國(guó)貨”的一種,它不僅是高新技術(shù)領(lǐng)域的突破,也可被看成一種對(duì)外名片和集體記憶。
一個(gè)好消息是,目前據(jù)已知的訊息,百度文心大模型4.0已進(jìn)入小流量測(cè)試階段,其參數(shù)量大于所有已經(jīng)公開的LLM(大語(yǔ)言模型)。
值得注意的是,該款產(chǎn)品是國(guó)內(nèi)首次使用萬(wàn)卡規(guī)模AI集群訓(xùn)練的大語(yǔ)言模型。借助百度飛槳的深度融合,它將大幅超越前作。作為國(guó)內(nèi)對(duì)標(biāo)“GPT-4"的產(chǎn)品,它的問世將是令人激動(dòng)的。
有媒體爆料,百度文心大模型4.0正在加緊訓(xùn)練,已經(jīng)接近可發(fā)布狀態(tài)。
言而總之,對(duì)于國(guó)內(nèi)眾多廠商而言,如今的大模型已至競(jìng)爭(zhēng)的下半場(chǎng),“百模大戰(zhàn)”或更快落幕。不過對(duì)于普通人而言,產(chǎn)品的品牌廠商并不重要,能享受到體驗(yàn)上乘的產(chǎn)品才是第一選擇。
(責(zé)任編輯:徐帥 )【免責(zé)聲明】本文僅代表第三方觀點(diǎn),不代表和訊網(wǎng)立場(chǎng)。投資者據(jù)此操作,風(fēng)險(xiǎn)請(qǐng)自擔(dān)。
關(guān)鍵詞: