探展WAIC | 上海數(shù)交所總經(jīng)理湯奇峰:語料庫建設(shè)挑戰(zhàn)主要集中于開放程度和數(shù)據(jù)質(zhì)量兩方面

              2023-07-09 05:47:17    來源:藍(lán)鯨財經(jīng)

              (圖片來源:圖蟲創(chuàng)意)

              “大模型建設(shè)中,語料庫是一個非常重要的方向。”7月8日,上海數(shù)交所總經(jīng)理湯奇峰在“大模型時代下的數(shù)據(jù)要素流通”主題論壇中如是表示。他認(rèn)為,大模型時代下的語料庫建設(shè)存在語料庫供給不足、語料庫質(zhì)量不高、語料庫多樣性匱乏、語料庫標(biāo)準(zhǔn)欠缺等問題。


              (相關(guān)資料圖)

              “語料庫建設(shè)不是單一企業(yè)的責(zé)任,需要多方共同推進,如果每個企業(yè)都單獨建設(shè)維護語料庫,會拉低效率,也會增加企業(yè)成本,數(shù)交所希望通過加強數(shù)據(jù)要素建設(shè)提升語料庫建設(shè)效率。”湯奇峰表示。

              藍(lán)鯨財經(jīng)了解到,上海數(shù)交所官網(wǎng)已于7月7日正式上線語料庫,累計掛牌近30個語料數(shù)據(jù)產(chǎn)品,包含文本、音頻、圖像等多模態(tài),覆蓋金融、交通運輸和醫(yī)療等領(lǐng)域。

              關(guān)于語料庫建設(shè)的挑戰(zhàn),湯奇峰認(rèn)為主要集中于開放程度和數(shù)據(jù)質(zhì)量兩方面:“能否有大模型企業(yè)所需的高質(zhì)量語料?目標(biāo)對象愿不愿意開放數(shù)據(jù)?”由此,湯奇峰指出可以根據(jù)開放程度強弱和數(shù)據(jù)質(zhì)量高低將語料數(shù)據(jù)生態(tài)機構(gòu)分出四類供方。

              上海數(shù)據(jù)交易所語料庫為這四類供方制定差異化工作策略。湯奇峰建議可以從政府引導(dǎo)市場主導(dǎo)、豐富種類提高質(zhì)量、統(tǒng)一標(biāo)準(zhǔn)規(guī)范建設(shè)、加強監(jiān)管保障安全、加強監(jiān)管保障安全四個方向建設(shè)大模型時代下的語料庫。

              湯奇峰指出,針對數(shù)據(jù)質(zhì)量高但開放程度低的供方,可以通過數(shù)據(jù)交易鏈有效破解語料數(shù)據(jù)流通的信任問題,“核心之一在于產(chǎn)權(quán)和參與大模型后的收益分配問題。”

              此外,上海數(shù)據(jù)交易所語料庫亦將提供特色標(biāo)簽服務(wù)體系、挖掘應(yīng)用場景價值、驅(qū)動稀缺數(shù)據(jù)開放流通以提高該類供方開放數(shù)據(jù)積極性。針對開放程度高但數(shù)據(jù)質(zhì)量低的機構(gòu),上海數(shù)交所語料庫則通過搭建專業(yè)化數(shù)商服務(wù)渠道提高數(shù)據(jù)質(zhì)量。

              湯奇峰介紹道,上海數(shù)交所在建設(shè)語料庫時考慮的兩個維度與數(shù)交所對企業(yè)數(shù)據(jù)發(fā)展進程四個階段的觀察密切相關(guān)。對于這四個階段,湯奇峰解釋,第一個階段是企業(yè)數(shù)據(jù)自產(chǎn)自用階段。隨著企業(yè)數(shù)據(jù)的內(nèi)部供給有限時,企業(yè)數(shù)據(jù)需求逐步轉(zhuǎn)向外部,進入到第二階段,在該階段,大平臺和大企業(yè)通過資本紐帶在體系內(nèi)部形成數(shù)據(jù)流通。到了第三個階段,企業(yè)累積的數(shù)據(jù)將開放給整個行業(yè),產(chǎn)業(yè)內(nèi)形成標(biāo)準(zhǔn)。第四個階段,數(shù)據(jù)使用在資產(chǎn)化過程中會產(chǎn)生新的更高階業(yè)態(tài)。

              “語料庫采購已經(jīng)在不少大模型企業(yè)成本中占據(jù)重要比重,上海數(shù)交所希望以市場配置的方式組織數(shù)據(jù)要素推動語料庫建設(shè)?!睖娣灞硎尽?/p>

              據(jù)悉,為更好打造高質(zhì)量語料庫、圍繞語料數(shù)據(jù)共建數(shù)商生態(tài),上海數(shù)交所牽頭發(fā)起語料數(shù)據(jù)生態(tài)創(chuàng)新合作伙伴計劃,攜手首批合作伙伴上海人工智能實驗室、商湯科技、中國知網(wǎng)、瀾舟科技、OpenKG、拓爾思(300229)、新致和蜜度正式啟動該計劃,積極引導(dǎo)不同行業(yè)、不同領(lǐng)域、具有一定規(guī)模的高質(zhì)量語料數(shù)據(jù)產(chǎn)品掛牌交易,推動人工智能大模型技術(shù)創(chuàng)新與應(yīng)用落地,進一步豐富語料庫多樣性,助力數(shù)據(jù)要素市場建設(shè)。

              (責(zé)任編輯:王治強 HF013)

              關(guān)鍵詞:

              上一篇:上海數(shù)交所總經(jīng)理湯奇峰:構(gòu)建大模型時代語料庫數(shù)據(jù)生態(tài) 推動數(shù)據(jù)要素市場創(chuàng)新
              下一篇:最后一頁

              熱點話題

              熱點推薦

              頭條

              ? 中文有码亚洲制服av片| 亚洲第一福利网站| 久久精品国产亚洲综合色| 精品国产亚洲一区二区在线观看| 亚洲中文字幕无码av| 亚洲男人的天堂久久精品| 亚洲av成人一区二区三区| 亚洲国产精品日韩在线| 亚洲国产精品一区二区久| 亚洲国产成人综合| 亚洲乱码一二三四区乱码| 国产色在线|亚洲| 亚洲偷自拍另类图片二区| 亚洲中文精品久久久久久不卡| 亚洲中文字幕一区精品自拍| 亚洲爆乳大丰满无码专区| 噜噜综合亚洲AV中文无码| 国产午夜亚洲精品不卡免下载| www.亚洲精品| 国产精品亚洲αv天堂无码| 亚洲午夜福利AV一区二区无码| 亚洲精品无码国产| 亚洲av无码成h人动漫无遮挡 | 亚洲AV无码国产精品色午友在线| 国产av天堂亚洲国产av天堂| 久久噜噜噜久久亚洲va久| 久久精品九九亚洲精品| 亚洲性无码av在线| 中文字幕乱码亚洲无线三区| 国产精品亚洲一区二区在线观看 | 亚洲av成人无码久久精品| 久久亚洲美女精品国产精品| 亚洲国产成人超福利久久精品| 在线综合亚洲中文精品| 朝桐光亚洲专区在线中文字幕| 亚洲av再在线观看| 亚洲乱码中文字幕综合| 亚洲AV无码成人精品区蜜桃| 亚洲日产2021三区在线| 亚洲熟妇成人精品一区| 亚洲国产精品成人久久蜜臀|