本報記者 樊三彩
日前,全國數據資源調查工作組發布《全國數據資源調查報告(2023年)》(以下簡稱《報告》),分析了2023年全國數據資源調查的結果及未來的發展趨勢。
“我國數據資源‘產—存—算’規模優勢基本形成,數據‘供—流—用’各環節主體逐漸豐富,海量數據和豐富場景優勢潛力亟須釋放,數據資源管理和利用整體處于起步階段?!薄秷蟾妗妨信e了4個方面具體表現:一是數據生產總量大,但有效供給不足。存儲數據中,一年未使用的數據占比約4成,數據加工能力不足導致大量數據價值被低估、難以挖掘復用。二是算力、存力規模增長,還需適度超前布局。隨著大模型研發應用不斷增加,對存力、算力提出更高要求。三是數據流通交易需求旺盛,多元流通模式待完善。數據交易機構建設加速,產品成交率為17.9%,數據供給難以滿足旺盛需求。四是數據應用場景加速落地,數據價值有待釋放。樣本企業中,96%的行業重點企業已實現數據場景化應用,但實現數據復用增值的大企業僅占8.3%。
數據產存算規模大,數據流通、交易變化快
《報告》顯示,我國數據產量、存量、算力規模大,數據流通、交易變化快,公共數據開放共享授權運營加快探索,企業數據多場景落地,為構建數據要素市場提供了堅實基礎。
一是數據生產規模大、范圍廣,增長速度快。2023年數據生產總量達到32.85澤字節(ZB),同比增長22.44%,非結構數據爆發式增長。在生產方面,老舊生產設備的升級改造以及智能邊緣設備、工業機器人、數控機床等智能設備的推廣應用,推動生產制造數據同比增長20%。
二是數據存儲空間合理,終端存儲高于云存儲,產存轉化待提升。2023年,我國累計數據存儲總量為1.73澤字節(ZB),存儲空間利用率為59%。數據云存儲占比超過40%,其中行業重點企業云存儲占比為23.49%。云存儲高靈活性和高便捷性的優勢有效支撐了業務協同帶來的數據交互需求。行業重點企業數據終端存儲占比超七成,海量數據被分散存儲,數據互聯、復用難度較大,但邊緣智能化一定程度上能促進數據由存向用轉化。同時,數據產存轉化率較低。一方面,海量數據復用價值較低;另一方面,大模型、訓練工具等支撐能力不足,部分高價值數據在“大浪淘沙”過程中被遺棄。
三是算力規模增長快,區域算力按需布局,智算能力需求旺。截至2023年底,2200多個算力中心的算力規模約為0.23十萬億億次浮點運算/秒(ZFLOPS),同比增長約30%。與此同時,大模型訓練算力需求高漲,一體化算力體系建設仍需加快推進。東部地區實時計算需求增幅較大,西部地區憑借綠色化和低成本的算力優勢逐步承接東部計算需求,但存算利用率仍然低于東部地區。能夠支撐行業垂直領域大模型落地的算力不足,大模型與國產軟硬件的適配性問題尚需解決。
四是數據流通方式多元,交互能力有所提升,交易供需不均衡。全國各地交易所快速鋪開,上海、浙江、深圳、海南等地數據交易機構“百花齊放”,交易模式、數商生態、技術底座各具特色。然而,交易機構在標準、規則方面尚未達成共識,場內交易吸引力不足。27家交易所上架的數據產品中,僅有17.9%實現交易,數據場內交易活躍度較低。
五是公共數據開放共享初見成效,授權運營起步探索,政企數據融合不斷深入。公共數據體系逐步完善,數據匯聚能力不斷提升,授權運營機制正初步探索。公共數據在開發利用、流通交易中占比較大,平臺企業、數據分析企業對公共數據需求高漲。該調查中,有18.6% 的平臺企業和51%的中央企業在數據開發利用過程中用到了政府開放數據。工商、氣象、交通、地理等公共數據廣泛應用于數據開發利用,成為釋放數據價值的催化劑。
六是數字化轉型激活企業數據,場景應用提質增效,數據外溢效應仍不足。該調查中,96%的行業重點企業已實現數據場景化應用,其中超八成行業重點企業已經運用數據輔助運營管理優化,半數企業在生產環節實現數據驅動。該調查中,21.9%的大企業尚未建設數據管理系統,大多數中小企業數字化轉型產生的數據未實現復用。企業對數據價值的認識和判斷不足,數據增值的投入和能力有限,開展數字化轉型的大型行業重點企業中,僅有8.3%實現了數據復用增值,數據價值有待進一步釋放。
數據流通將向規范有序、多元協同發展
《報告》顯示,全國數據資源調查工作驗證了我國發展數字經濟具備超大規模市場、海量數據資源和豐富應用場景的潛在優勢。未來,隨著數據技術不斷進步,基礎制度持續完善,數據產、存、流、用將呈現以下趨勢。
一是數據生產向高增速和高質量同步發展。在政策、技術和應用多重因素驅動下,我國數據規模將保持快速增長趨勢,高質量數據資源將成為經濟增長的重要源泉。一方面,數據規模優勢將進一步擴大,預計2024年數據生產量增幅將超25%;另一方面,數據存儲能力也將隨硬件技術的迭代升級和成本降低而提升。數字化轉型將促進各行業高質量數據的形成,數據從設備、系統的分散狀態轉向匯聚和應用。同時,AI大模型的迅猛發展對大規模、高質量、多樣性數據集提出更高要求,有助于數據質量進一步提升。
二是數據存儲計算向一體化按需供給發展。隨著人工智能訓練需求的高漲,算力在短期內仍會出現難以滿足需求的情況,但會隨應用需求加速調整布局,提高算力利用率。一方面,數據存儲結構將按需調整,邊緣智能計算能力將有所提高,把有價值的數據釋放出來;另一方面,協同交互需求推動部分數據向云端遷移,實現在線調度和應用。隨著數據高效計算、實時讀取需求不斷增長,未來全國一體化算力體系將向算力調度、安全服務等多元功能擴展,緩解東部實時計算壓力的同時,釋放西部算力優勢。
三是數據流通向規范有序、多元協同發展。一方面,隨著國家層面的數據交易規范、數據流通基礎規則不斷完善,數據交易場所、數據服務商等流通載體將逐步走向規范有序;另一方面,場內場外流通交易模式更加多元化,各類細分領域交易機構將向專業化發展。平臺企業和中央企業將持續發揮行業數據樞紐作用,帶動行業領域的數據匯聚、 流通和應用。
四是數據應用向需求牽引、智能驅動發展。應用場景牽引的數據開發利用將成為主要趨勢,AI技術成為數據開發利用的重要推動力。一是應用需求涌現,場景逐漸豐富化。大模型對海量高質量數據提出了迫切需求,垂直領域的數據應用需求將持續保持快速增長,并逐步從業務降本提效轉向協同創新、市場拓展,數據驅動業務發展將成為主要應用訴求。二是自然語言處理、語音識別等技術進步降低開發門檻,圍繞數據增值的產品服務將逐漸成為數據供給的主要方式。
《中國冶金報》(2024年06月18日 04版四版)