近日,中國互聯(lián)網(wǎng)協(xié)會(huì)在北京舉辦第六屆“數(shù)字發(fā)展論壇”。論壇以“數(shù)據(jù)要素驅(qū)動(dòng)高質(zhì)量發(fā)展”為主題,匯聚國內(nèi)200余位頂尖專家學(xué)者、行業(yè)精英和企業(yè)代表,深入交流與探討數(shù)字發(fā)展趨勢(shì)、機(jī)遇挑戰(zhàn)、案例經(jīng)驗(yàn),國務(wù)院原副秘書長江小涓、中國工程院院士鄔賀銓等專家參會(huì)。中國電信科技委主任邵廣祿應(yīng)邀在論壇中進(jìn)行“AI和數(shù)據(jù)驅(qū)動(dòng),加速高質(zhì)量發(fā)展”主旨演講,分享了中國電信在人工智能和數(shù)據(jù)開放方面的實(shí)踐和體會(huì)。
中國電信科技委主任、中國電信集團(tuán)原總經(jīng)理邵廣祿
科技革命引發(fā)全要素生產(chǎn)率(TFP)快速提升的“蝴蝶效應(yīng)”,蒸汽機(jī)、電力、IT互聯(lián)網(wǎng)是歷史上三次科技革命的“蝴蝶”,邵廣祿指出,人工智能將成為新的“蝴蝶”推動(dòng)新一輪科技革命和產(chǎn)業(yè)變革,AI和數(shù)據(jù)驅(qū)動(dòng)正催生市值數(shù)量級(jí)增長的企業(yè)。在人工智能發(fā)展過程中,面臨高性能與異構(gòu)算力、高質(zhì)量數(shù)據(jù)集等挑戰(zhàn)。在實(shí)踐中,中國電信總結(jié)算力方面需要攻克很多技術(shù)難點(diǎn),譬如萬卡集群線性加速、網(wǎng)絡(luò)與調(diào)度能力、穩(wěn)定性與故障恢復(fù)能力、并行資源調(diào)度能力等。中國電信在AI產(chǎn)業(yè)早布局,快發(fā)展,全面布局AI大模型,持續(xù)攻克萬卡算力、息壤算力調(diào)度平臺(tái)、數(shù)據(jù)要素平臺(tái)、星辰系列大模型以及行業(yè)大模型等核心技術(shù),并積極開源星辰大模型和開放中文數(shù)據(jù)集 TeleChat-PTD。
在人工智能由“模型中心”轉(zhuǎn)向“數(shù)據(jù)中心”過程中,邵廣祿指出,數(shù)據(jù)集是大模型構(gòu)建的基石,在大模型開發(fā)中越來越重要。面對(duì)數(shù)據(jù)集構(gòu)建中“量不足、質(zhì)不高、用不暢”的三大挑戰(zhàn),在實(shí)踐中,我們總結(jié)發(fā)現(xiàn)高質(zhì)量的數(shù)據(jù)集的生產(chǎn)是個(gè)系統(tǒng)工程,會(huì)涉及六個(gè)方面。一是數(shù)據(jù)底座,包含云、網(wǎng)、隱私計(jì)算等;二是數(shù)據(jù)采集,當(dāng)前網(wǎng)頁數(shù)據(jù)比較成熟,但中文數(shù)據(jù)質(zhì)量不高,特別需要生態(tài)合作開放數(shù)據(jù)集,如政府、事業(yè)單位及垂直領(lǐng)域的數(shù)據(jù)。三是數(shù)據(jù)預(yù)處理和分級(jí)分類。四是數(shù)據(jù)標(biāo)注,需要產(chǎn)業(yè)化發(fā)展來提供更大范圍更高質(zhì)量的數(shù)據(jù)集。五是預(yù)訓(xùn)練的配比。六是高質(zhì)量數(shù)據(jù)集的篩選。這六大方面對(duì)大模型的性能與準(zhǔn)確度和智能水平具有決定性影響。
同行同業(yè)的數(shù)據(jù)集合就是行業(yè)的數(shù)據(jù)集,其價(jià)值遠(yuǎn)高于一個(gè)企業(yè)的數(shù)據(jù)價(jià)值,數(shù)據(jù)價(jià)值倍增。邵廣祿提到,中國電信與溫州醫(yī)療合作數(shù)據(jù)開放共享,大力提升醫(yī)療水平,如通過AI質(zhì)控提高圖像質(zhì)量來避免患者重復(fù)檢查;中國電信與中國聯(lián)通通過5G共建共享合作實(shí)踐,三年節(jié)省千億數(shù)量級(jí)投資,每年節(jié)省百億數(shù)量級(jí)運(yùn)營成本。
邵廣祿提出,通過開源開放、共享資源、共享收益,來減少企業(yè)重復(fù)建設(shè)和成本投入,促進(jìn)數(shù)據(jù)集的共建共享,促進(jìn)人工智能大模型的共建共享,通過AI和數(shù)據(jù)驅(qū)動(dòng),加速高質(zhì)量發(fā)展。