C114通信網(wǎng)  |  通信人家園

資訊
2024/11/7 09:41

積極開源數(shù)據(jù)“藍(lán)! 為應(yīng)用發(fā)展“推波助瀾”

通信信息報  陳洲

近日,由中國通信標(biāo)準(zhǔn)化協(xié)會主辦、中國信通院承辦的2024 OSCAR開源產(chǎn)業(yè)大會在北京召開。中國電信天翼云科技有限公司打造的“TeleDB分布式數(shù)據(jù)庫在開源社區(qū)的特性貢獻案例”成功入選。這不僅是對天翼云TeleDB數(shù)據(jù)庫技術(shù)創(chuàng)新性的權(quán)威認(rèn)可,更提升了該數(shù)據(jù)庫在開源領(lǐng)域的行業(yè)影響力。

數(shù)據(jù)開源為何如此重要?

數(shù)據(jù)開源是指將數(shù)據(jù)集的訪問權(quán)限開放給公眾,允許任何人查看、分析和重用數(shù)據(jù),通常是通過互聯(lián)網(wǎng)進行。數(shù)據(jù)開源的意義在于其對社會經(jīng)濟、科技創(chuàng)新和數(shù)字經(jīng)濟發(fā)展的深遠(yuǎn)影響。

從社會經(jīng)濟角度來看,數(shù)據(jù)開源打破了大型企業(yè)或機構(gòu)對數(shù)據(jù)的壟斷,使得小型企業(yè)能夠站在一個相對公平的起跑線上。

從科技創(chuàng)新角度看,以人工智能領(lǐng)域為例,許多開源的圖像數(shù)據(jù)集、文本數(shù)據(jù)集等為研究人員提供了豐富的素材,他們可以在這些開源數(shù)據(jù)的基礎(chǔ)上進行算法開發(fā)和模型訓(xùn)練,大大縮短了研究周期,加速了科技創(chuàng)新的速度。

從數(shù)字經(jīng)濟發(fā)展角度看,開源數(shù)據(jù)為數(shù)字產(chǎn)業(yè)生態(tài)中的各個環(huán)節(jié)提供了資源。

中國電信數(shù)據(jù)開源促應(yīng)用發(fā)展

2024年初,中國電信開源了百億級星辰語義大模型- 7B,成為第一家開源大模型的央企;前不久,中國電信又正式對外開源首個基于全國產(chǎn)化萬卡集群和國產(chǎn)深度學(xué)習(xí)框架訓(xùn)練的千億參數(shù)大模型——星辰語義大模型TeleChat2-115B;日前,由中國電信自主研發(fā)的星辰大模型在2024 OSCAR開源產(chǎn)業(yè)大會上榮獲信通院泰爾實驗室“可信開源大模型成熟度能力”認(rèn)證,并被評為“2024年度央國企開源項目典型案例”。

在數(shù)據(jù)開源的具體實施過程中,中國電信特別注重應(yīng)用層面的創(chuàng)新與發(fā)展。

在面向產(chǎn)業(yè)應(yīng)用過程中,為了增強模型的商用性,星辰語義大模型在業(yè)界首次提出緩解多輪幻覺的解決方案,通過關(guān)鍵信息注意力增強技術(shù)、多輪知識記憶和強化技術(shù)等手段,幻覺率下降了40%。在價值對齊上,星辰語義大模型將指令分為不同的簇類,并從各個簇類中按照一定比例抽取具有代表性的指令集,再由標(biāo)注人員構(gòu)建相似的指令。這不僅可以較為全面地覆蓋人類指令,還能保證與微調(diào)階段數(shù)據(jù)具有相同的數(shù)據(jù)分布,更有利于模型在對齊階段的訓(xùn)練。

中國電信還聯(lián)合頭部生態(tài)機構(gòu),憑借在各行業(yè)深耕多年的優(yōu)勢和經(jīng)驗,依托基礎(chǔ)大模型,構(gòu)建了涵蓋教育、政務(wù)、應(yīng)急等20多個行業(yè)大模型,覆蓋全行業(yè)500多個應(yīng)用場景,有效滿足了各行各業(yè)對人工智能技術(shù)的多樣化需求。

將持續(xù)深化數(shù)據(jù)開源工作

中國電信的數(shù)據(jù)開源計劃和大模型能力的不斷迭代,標(biāo)志著中國電信在人工智能領(lǐng)域的戰(zhàn)略布局和對行業(yè)發(fā)展趨勢的積極響應(yīng)。通過這些措施,中國電信不僅提升了自身的技術(shù)競爭力,也為推動整個行業(yè)的創(chuàng)新和數(shù)字化轉(zhuǎn)型做出了貢獻。

如今,作為最早布局并首先開源大模型的央企機構(gòu),中國電信正通過構(gòu)建高質(zhì)量數(shù)據(jù)集、成立專業(yè)公司和平臺、加速數(shù)據(jù)要素能力體系建設(shè)、跨行業(yè)數(shù)據(jù)結(jié)合、數(shù)據(jù)平臺和產(chǎn)品開發(fā)等等方式,為數(shù)據(jù)的開源夯實了發(fā)展基礎(chǔ)。

中國電信還不斷加速AI創(chuàng)新和應(yīng)用落地,積極通過開源推動技術(shù)創(chuàng)新發(fā)展,持續(xù)加快前沿技術(shù)向產(chǎn)業(yè)落地的躍遷。

給作者點贊
0 VS 0
寫得不太好

  免責(zé)聲明:本文僅代表作者個人觀點,與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機版

      Copyright©1999-2024 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網(wǎng) 版權(quán)所有 舉報電話:021-54451141