相泽南亚洲一区二区在线播放,91亚洲一区二区在线观看不卡,亚洲AV无码专区电影在线观看

(相關資料圖)

鳳凰網科技訊《AI前哨》 5月9日消息，今日，中文通用大模型綜合性評測基準SuperCLUE正式發布。中文通用大模型基準（SuperCLUE），是針對中文可用的通用大模型的一個測評基準。

據介紹，SuperCLUE主要回答的問題是：在當前通用大模型大力發展的情況下，中文大模型的效果情況。包括但不限于：這些模型不同任務的效果情況、相較于國際上的代表性模型做到了什么程度、這些模型與人類的效果對比如何？它嘗試在一系列國內外代表性的模型上使用多個維度能力進行測試。SuperCLUE是中文語言理解測評基準（CLUE）在通用人工智能時代的進一步發展。

與此同時，SuperCLUE評測榜單也同步公開。該榜單測試了國內外9個模型，分別為GPT4、GPT3.5-turbo、訊飛星火認知大模型、MiniMax、BELLE-138、ChatGML-68、M0SS-168、Vicuna-138、文心一言，九大模型還與人類進行了對比。

榜單顯示，從人類測評角度看，基礎能力（98%）+中文特性（95%），都達到了非常高的水平。除GPT-4外，人類準確率大幅超過了其他的大模型（如在基礎能力上超過其他模型20多個百分點）。AI雖然進展很快，但人類還是有相對優勢的，比如在計算方面，人類比最強模型GPT-4高出了30個百分點。

目前，國際先進模型效果具有較大的領先性，而同時國產GPT模型也有不俗的表現。

榜單中，表現最好的國內大模為訊飛星火認知大模型，總分53.58分，與GPT-4相比有23個百分點的差距，與gpt-3.5-turbo在總分上有13個百分點的差距。在語義理解方面，訊飛星火認知大模型得分100分，超過GPT-4。百度文心一言在榜單中排名最后一名，得分32.61分。

據悉，SuperCLUE從基礎能力、專業能力和中文特性能力三個不同的維度評價大模型。其中，基礎能力包括了常見的有代表性的模型能力，如語義理解、對話、邏輯推理、角色模擬、代碼、生成與創作等10項能力；專業能力包括了中學、大學與專業考試，涵蓋了從數學、物理、地理到社會科學等50多項能力；中文特性能力針對有中文特點的任務，包括了中文成語、詩歌、文學、字形等10項多種能力。

值得注意的是，SuperCLUE標明了評測基準的不足和局限，包括中文特性能力總數據量比較少，以及選取的模型較少。

（責任編輯：劉靜 HZ010）

關鍵詞：

亚洲精品国产情侣av在线_91亚洲国产成人久久精品网站_亚洲AV无码专区电影在线观看_亚洲AV无码专区亚洲AV桃

【世界聚看點】AI前哨 | 中文通用大模型評測基準SuperCLUE發布：訊飛星火大模型國內第一

熱點話題

熱點推薦

頭條