移動(dòng)平臺
`
2025/8/14 14:50
我國已建設(shè)高質(zhì)量數(shù)據(jù)集超過3.5萬個(gè),體量超過400PB
0
0

C114訊 8月14日消息(南山)今日,國新辦舉行“高質(zhì)量完成‘十四五’規(guī)劃”系列主題新聞發(fā)布會(huì)。

國家發(fā)展改革委黨組成員、國家數(shù)據(jù)局局長劉烈宏在發(fā)布會(huì)上表示,作為人工智能發(fā)展的三大核心要素之一,數(shù)據(jù)在推動(dòng)“人工智能+”過程中發(fā)揮著關(guān)鍵作用,特別是高質(zhì)量數(shù)據(jù)集的建設(shè)至關(guān)重要,比如在醫(yī)療健康領(lǐng)域,通過標(biāo)注的醫(yī)學(xué)影像高質(zhì)量數(shù)據(jù)集,模型的疾病診斷準(zhǔn)確率可以提升15%以上。在人工智能時(shí)代,Token,也就是大家通常所說的詞元,作為處理文本的最小數(shù)據(jù)單元,如同互聯(lián)網(wǎng)時(shí)代大家所說的“流量”。

劉烈宏(徐想 攝)

“2024年初,我國日均Token的消耗量為1千億,截至今年6月底,日均Token消耗量已經(jīng)突破30萬億,1年半時(shí)間增長了300多倍,這反映了我國人工智能應(yīng)用規(guī)模的快速增長!眲⒘液曛赋。

我國人工智能的快速發(fā)展,與我國高度重視數(shù)據(jù)工作是密不可分的。國家數(shù)據(jù)局強(qiáng)調(diào)“人工智能+”行動(dòng)到哪里,高質(zhì)量數(shù)據(jù)集的建設(shè)和推廣就要到哪里。截至今年6月底,我國已經(jīng)建設(shè)高質(zhì)量數(shù)據(jù)集超過3.5萬個(gè),總體量超過了400PB(1PB可存儲約5億張2MB大小的高清照片,400PB的總量相當(dāng)于中國國家圖書館數(shù)字資源總量的140倍左右)。

劉烈宏介紹,人工智能模型的訓(xùn)練也推動(dòng)了數(shù)據(jù)交易需求的攀升,截至今年6月底,各地高質(zhì)量數(shù)據(jù)集累計(jì)交易額近40億元,數(shù)據(jù)交易機(jī)構(gòu)掛牌的高質(zhì)量數(shù)據(jù)集總規(guī)模達(dá)到了246PB。以北京數(shù)交所為例,高質(zhì)量數(shù)據(jù)集占交易總量的比例從去年的10%躍升到目前的近80%。上海、天津、安徽等地正在試點(diǎn)“數(shù)據(jù)語料作價(jià)入股”等新模式,引導(dǎo)企業(yè)將高質(zhì)量數(shù)據(jù)集折算為股權(quán)投入到相關(guān)企業(yè)。高質(zhì)量數(shù)據(jù)集的發(fā)展需要數(shù)據(jù)標(biāo)注產(chǎn)業(yè)的支撐,我們已布局了成都、沈陽、合肥等7個(gè)數(shù)據(jù)標(biāo)注基地,助力高質(zhì)量數(shù)據(jù)集的建設(shè)。

劉烈宏還特別提到,中文數(shù)據(jù)在國內(nèi)大模型的訓(xùn)練性能提升方面發(fā)揮著重要作用。大家都非常關(guān)心中文數(shù)據(jù)在訓(xùn)練數(shù)據(jù)中的占比情況,經(jīng)過一段時(shí)間的努力,國內(nèi)多數(shù)模型訓(xùn)練使用的中文數(shù)據(jù)占比已經(jīng)超過了60%,有的模型已達(dá)到80%。中文高質(zhì)量數(shù)據(jù)的開發(fā)和供給能力持續(xù)增強(qiáng),推動(dòng)我國人工智能模型性能的快速提升。

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實(shí)相關(guān)內(nèi)容。

給作者點(diǎn)贊
0 VS 0
寫得不太好

C114簡介     聯(lián)系我們     網(wǎng)站地圖

Copyright©1999-2025 c114 All Rights Reserved 滬ICP備12002291號-4

C114通信網(wǎng)版權(quán)所有 舉報(bào)電話:021-54451141 用戶注銷