首頁 > 互聯網 > > 正文

              【世界聚看點】AI前哨 | 中文通用大模型評測基準SuperCLUE發布:訊飛星火大模型國內第一

              2023-05-09 17:43:53    來源:鳳凰網


              (相關資料圖)


              鳳凰網科技訊 《AI前哨》 5月9日消息,今日,中文通用大模型綜合性評測基準SuperCLUE正式發布。中文通用大模型基準(SuperCLUE),是針對中文可用的通用大模型的一個測評基準。

              據介紹,SuperCLUE主要回答的問題是:在當前通用大模型大力發展的情況下,中文大模型的效果情況。包括但不限于:這些模型不同任務的效果情況、相較于國際上的代表性模型做到了什么程度、 這些模型與人類的效果對比如何?它嘗試在一系列國內外代表性的模型上使用多個維度能力進行測試。SuperCLUE是中文語言理解測評基準(CLUE)在通用人工智能時代的進一步發展。

              與此同時,SuperCLUE評測榜單也同步公開。該榜單測試了國內外9個模型,分別為GPT4、GPT3.5-turbo、訊飛星火認知大模型、MiniMax、BELLE-138、ChatGML-68、M0SS-168、Vicuna-138、文心一言,九大模型還與人類進行了對比。

              榜單顯示,從人類測評角度看,基礎能力(98%)+中文特性(95%),都達到了非常高的水平。除GPT-4外,人類準確率大幅超過了其他的大模型(如在基礎能力上超過其他模型20多個百分點)。AI雖然進展很快,但人類還是有相對優勢的, 比如在計算方面,人類比最強模型GPT-4高出了30個百分點。

              目前,國際先進模型效果具有較大的領先性,而同時國產GPT模型也有不俗的表現。

              榜單中,表現最好的國內大模為訊飛星火認知大模型,總分53.58分,與GPT-4相比有23個百分點的差距,與gpt-3.5-turbo在總分上有13個百分點的差距。在語義理解方面,訊飛星火認知大模型得分100分,超過GPT-4。百度文心一言在榜單中排名最后一名,得分32.61分。

              據悉,SuperCLUE從基礎能力、專業能力和中文特性能力三個不同的維度評價大模型。其中,基礎能力包括了常見的有代表性的模型能力,如語義理解、對話、邏輯推理、角色模擬、代碼、生成與創作等10項能力;專業能力包括了中學、大學與專業考試,涵蓋了從數學、物理、地理到社會科學等50多項能力;中文特性能力針對有中文特點的任務,包括了中文成語、詩歌、文學、字形等10項多種能力。

              值得注意的是,SuperCLUE標明了評測基準的不足和局限,包括中文特性能力總數據量比較少,以及選取的模型較少。

              (責任編輯:劉靜 HZ010)

              關鍵詞:

              上一篇:內容正在升級改造,請稍后再試! 全球快看
              下一篇:最后一頁

              熱點話題

              熱點推薦

              頭條

              ? 亚洲资源在线视频| 久久亚洲美女精品国产精品 | 亚洲精品中文字幕无码蜜桃| mm1313亚洲国产精品无码试看| 在线观看亚洲AV每日更新无码| 亚洲天堂2016| 日本亚洲免费无线码 | 亚洲欧洲日本国产| 亚洲首页在线观看| 亚洲毛片一级带毛片基地| 亚洲综合一区二区精品久久| 亚洲色图古典武侠| 亚洲人成在线中文字幕| 久久亚洲最大成人网4438| 亚洲综合在线一区二区三区| 亚洲人片在线观看天堂无码| 亚洲大码熟女在线观看| 国产亚洲精品美女久久久久| 亚洲国产午夜福利在线播放| 国产乱辈通伦影片在线播放亚洲| 中文字幕亚洲一区二区va在线| 亚洲综合精品香蕉久久网| 亚洲精品乱码久久久久久中文字幕| 国产成人亚洲综合色影视| 亚洲日韩图片专区第1页| 亚洲福利一区二区三区| 中文文字幕文字幕亚洲色| 亚洲色最新高清av网站| 激情无码亚洲一区二区三区| 亚洲av区一区二区三| 在线亚洲午夜理论AV大片| 亚洲成a人片77777kkkk| 久久国产亚洲高清观看| 久久精品国产亚洲av麻豆图片| 亚洲日本VA中文字幕久久道具| xvideos亚洲永久网址| 国产亚洲成归v人片在线观看 | 亚洲性色精品一区二区在线| 99亚洲精品卡2卡三卡4卡2卡| 亚洲色偷拍区另类无码专区| 国产精一品亚洲二区在线播放|