(資料圖片)
鳳凰網(wǎng)科技訊 6月16日消息,鳳凰網(wǎng)科技《浪潮》對話智源研究院黃鐵軍,談到對中英文大模型算法分析的看法,黃鐵軍表示,ChatGPT訓(xùn)練時用的英文數(shù)據(jù)多,中文數(shù)據(jù)只有百分之幾,所以英文表現(xiàn)得比中文好。
鳳凰網(wǎng)科技《浪潮》:我們剛才也提到了一個上下游,因為要進(jìn)入到這個生態(tài)里邊,要投入很多的技術(shù)和內(nèi)容。我們在剛接觸ChatGPT的時候發(fā)現(xiàn)用英文比用中文更好溝通。它們的理解,它們的算法,都是以英文為基礎(chǔ)。您覺得中文的這個大模型的算法分析和英文的這些哪一個更加容易,或者是哪個更困難一些?
黃鐵軍: ChatGPT當(dāng)初訓(xùn)練的時候用的確實是英文數(shù)據(jù)多,中文數(shù)據(jù)少,而且據(jù)我們了解,他們也用了智源中文的數(shù)據(jù)集,但他們用的中文數(shù)據(jù)只有百分之幾,所以它英文表現(xiàn)得比中文好,這也是自然而然的。因為我們剛才說大模型的智能主要是來源于數(shù)據(jù),那數(shù)據(jù)的分布也就決定了它的智能輸出特性的不同。中文的這個數(shù)據(jù)的建設(shè),確實對于未來大模型發(fā)展來說是特別重要的一項工作。
(責(zé)任編輯:王治強(qiáng) HF013)關(guān)鍵詞: