C114訊 12月18日消息(水易)今日,在以“數據重塑價值 智能鏈接未來”為主題的“2024數據資產管理大會”期間,中國信通院云計算與大數據研究所所長何寶宏發(fā)表了題為《下一代數據治理》的演講。
數據治理能力建設迫在眉睫
據統(tǒng)計2023年我國數據生產總量達到了32.85ZB,同比增長高達22.44%,數據產業(yè)規(guī)模已達2萬億元。政策方面,國家高度重視數據產業(yè)發(fā)展,2020年以來陸續(xù)出臺了10多項政策文件,覆蓋數據基礎制度、數據整合利用、數據基礎設施與數據管理能力建設。
政策和企業(yè)自身數字化轉型需求推動數據管理能力不斷提升,數據治理需求愈發(fā)旺盛。同時,隨著國家數據局和各級數據管理機構的揭牌運行,我國上下聯動、橫向協(xié)同的數據工作體系基本形成,數據要素相關的政策布局思路也日漸明確。
何寶宏表示,“如何確保數據供得出、流得動、用得好,更好發(fā)揮數據要素作用”成為了數據要素發(fā)展的核心主線。數據的跨主體流轉和使用依賴于企業(yè)的數據治理能力,跨主體數據標準、數據質量、數據安全體系的建設迫在眉睫。
與此同時,以大模型為代表的強人工智能應用正在對社會各界產生顛覆式的變革,對科技、金融、醫(yī)療健康等各個領域產生了深遠的影響。
通用人工智能的發(fā)展,離不開數據的支持,大模型使得數據與算法的邊界更加模糊,數據嵌入到了模型的生成中,數據質量與安全直接影響模型結果,面向人工智能開展數據治理成為了企業(yè)關注的新課題。另外,在人工智能技術的加持下,Text to SQL、ChatBI、智能化數據治理等應用百花齊放,數據治理開始由勞動密集型工作向自動化、智能化轉變。
何寶宏指出,隨著數據要素市場的蓬勃發(fā)展和人工智能技術的快速迭代,企業(yè)數據治理面臨管理效能、人員協(xié)同、多模數據管理、高質量數據集建設等挑戰(zhàn),急需新的方法和技術來應對,下一代數據治理體系應運而生。
下一代數據治理體系架構基本形成
何寶宏介紹,在產業(yè)各方的協(xié)同下,下一代數據治理體系架構已經已基本形成,總體呈現出治理對象全域化、研發(fā)模式工程化、治理技術智能化、數據架構分布式、數據安全縱深化、數據管理價值化六大趨勢。
趨勢一:全域數據治理。全域的數據治理涵蓋了結構化數據與非結構化數據。人工智能已經從“卷算法”向“卷數據”轉變,通過對訓練數據開展治理,從而形成可信的訓練數據集是人工智能發(fā)展的必然選擇。通過關注對非結構化數據的治理、合成數據的治理,研究配套的的方法論體系、技術平臺以及標準規(guī)范,進而形成質量高、安全牢、觀點正的可信數據集。
中國信通院依托大數據技術標準推進委員會,發(fā)布業(yè)界首本《面向人工智能的數據治理實踐指南(1.0)》。同時,圍繞非結構化數據管理、合成數據等方向,TC601還在持續(xù)開展研究和標準化工作,推動我國數據治理工作向全域化發(fā)展。
趨勢二:數據研發(fā)模式工程化、敏捷化。數據驅動時代,業(yè)務需求快速變化,數據處理流程紛繁復雜,企業(yè)必須處理好旺盛數據需求與數據生產力不足之間的矛盾,革新數據開發(fā)流程,加大數據供給力度,從而更好地響應需求、賦能業(yè)務發(fā)展。
DataOps是一種新的數據開發(fā)模式,通過構建高效協(xié)同機制,建立精細化數據運營體系,打造規(guī)范化、一體化的數據開發(fā)流程,實現數據產品高質量與高效率地交付。
依托DataOps標準,中國信通院開展了DataOps能力評估,已經在移動、聯通、農行、工行等十多家機構落地,以評促建,幫助企業(yè)構建敏捷、精益地數據工程能力。未來,工作組還將結合各行業(yè)特征開展多個行業(yè)標準的制定,圍繞全域數據工程體系開展理論研究、標準研制工作,為社會發(fā)布最新的研究成果。
趨勢三:數據治理技術智能化。據觀察,企業(yè)中的數據治理是勞動密集型工作!爸悄芑瘮祿卫怼敝荚诮柚斯ぶ悄芗夹g手段開展數據治理工作,利用智能化技術在語義理解、邏輯推理、智能生成等方面的優(yōu)勢,幫助企業(yè)優(yōu)化治理流程,提升治理效率及效果。
中國信通院認為,未來“數據治理Agent”將是智能化數據治理成熟形態(tài)。一是具備靈活的適應性,可以通過外部接口靈活響應外部監(jiān)管要求。二是以任務落地為導向,幫助企業(yè)實現治理動作智能化實施。三是可通過對企業(yè)知識庫的學習對企業(yè)偏好形成認知,并通過反饋不斷優(yōu)化治理方案規(guī)劃,幫助企業(yè)智能決策。
趨勢四:數據架構分布式化。企業(yè)數據架構管理以企業(yè)內所有數據為管理對象,對數據的靜態(tài)結構和動態(tài)特性進行管理,對數據的定義、分布、集成、整合等進行規(guī)劃、管控和應用,確保數據與業(yè)務需求保持一致。
數據編織是一種分布式數據管理的架構理念,支持對數據跨平臺、跨域的靈活集成。采用邏輯集中、物理分散的管理方式,實現在正確的時間,從任意位置,將正確的數據與正確的人連接起來的終極目標。數據編織有以下特點:一是適配多源異構的數據來源;二是具備非常巨大的數據存儲容量;三是采用分布式的數據管理架構;四是支持AI協(xié)同的自動化能力。
另外,數據編織還可以作為企業(yè)數據空間的底層技術,實現多主體數據的邏輯統(tǒng)一管理。依托大數據技術標準推進委員會,國內數據編織的理論研究、技術標準制定等工作已經陸續(xù)開展。未來還將進一步聯合各界的專家學者共同完善數據編織的理論體系、標準體系以及標準驗證工作。
趨勢五:數據安全縱深化。隨著三法兩條例的發(fā)布實施,我國數據安全治理體系已經基本完善,企業(yè)數據安全能力建設從體系建設向場景化建設發(fā)展,數據分類分級、數據安全風險評估等工作正在如火如荼地開展。
另外,人工智能的發(fā)展給數據安全帶來了新的機遇與挑戰(zhàn)。一方面,人工智能技術的蓬勃發(fā)展,為數據安全領域帶來了前所未有的機遇。另一方面,數據作為大模型訓練的重要燃料,在模型生成、訓練、精調等過程面臨數據竊取、數據泄露、數據篡改等一系列數據安全風險。
趨勢六:數據管理價值化。在數據要素政策逐步完善、數據交易市場日趨成熟的背景下,企業(yè)以釋放數據價值為導向開展數據資產化路徑探索,量化數據資產、賦能業(yè)務價值、預期經濟收益,明確數據資源入表流程、成本核算機制,推動數據從資源化階段向資產化階段發(fā)展,充分釋放數據資產價值。
2024年是數據資源估值和入表的“元年”,中國信通院和中國聯通集團合作了“數據要素價值管理與實踐”研究報告,從成本投入、內部收益、外部收益全面評估了數據價值,指導企業(yè)進一步深化數據應用、優(yōu)化數據管理模式。
數據入表方面,截至到今年第三季度,已有50多家企業(yè)入表,累計入表金額超過15億元,其中三大運營商入表規(guī)模占比很高,也是央企中率先開展入表披露的企業(yè)。
數據交易流通方面,場內數據交易日趨規(guī)范,場外流通依然活躍。企業(yè)也在構建更多對外能力,比如建行的產融平臺、中國電信集團的“星海”大數據品牌都已良好運營,全力向數據要素型企業(yè)轉型升級。