郭朝暉
大數據的概念源于搜索引擎等互聯網行業。在這些行業中,成千上萬個網站的數據不斷加入,數據格式各種各樣?;ヂ摼W公司認為這是個機會,但數據量大到難以處理。于是,谷歌提出一套辦法解決這類問題,大數據的概念就此產生了。在這種背景下,人們總結出了大數據的幾個特征,如數據量大、價值密度低、類型多、增加快等。其中有一個關鍵的問題——數據量大了怎么辦?
伴隨著摩爾定律的延續,工業企業的數據也在不斷增加。于是,也有人提出了“工業大數據”的概念。但是,工業企業和互聯網企業的數據背景很不一樣。傳統工業企業一般只采集必須的數據,比如那些與生產控制和質量標準有關的數據,而設備狀態數據就很少存儲或存儲時間很短。人們希望得到更多的數據,但必須考慮采集和存儲的成本問題。這是另外一種“數據量大了怎么辦”的問題。現在,數據采集、傳輸和存儲的成本大大降低了,數據采集和存儲條件改善了,“數據量大了怎么辦”的困難也就弱化了。
由此可見,在工業和互聯網領域都曾面臨“數據量大了怎么辦”的問題。但是,在互聯網行業,瓶頸是數據量大帶來的困難,這出現在數據量大的時候,需要用技術手段去解決;而在工業行業,主要瓶頸是成本問題,出現在數據少的時候。所以,隨著數據越來越多,在互聯網行業的技術困難越來越大,而在工業行業獲得數據的經濟困難卻越來越小。從某種意義上說,工業領域的大數據時代是“不必考慮數據量大了怎么辦”的時代——因為現在有辦法解決了。
事實上,工業和互聯網領域對大數據的理解還有很多不同。比如,互聯網領域的數據分析強調相關性,而工業領域往往需要因果關系支撐,否則,分析結果的可靠性就難以保證,會給應用過程帶來極大的危害。再如,互聯網數據之間的關聯性相對較弱,而工業數據之間的關聯性很強。
然而,很多人仍然把互聯網公司的思想、概念和方法直接套用到工業界,這樣做會誤導工作的方向、喪失時代的機遇,是缺乏思考的表現。對于工業人來說,我們現在主要關心的不是“數據量大了怎么辦”,而是如何利用數據帶動技術和管理水平的提升、如何用數據帶來價值。
寶鋼信息技術奠基人何麟生先生在多年前就有一個愿望:“要有一個虛擬的數字化寶鋼,能夠在計算機和網絡平臺上充分地描述實體寶鋼的實時活動?!边@樣的愿望,只有在大數據時代才有條件實現。因為只有數據足夠多的時候,才能完整、實時、準確地描述和記錄生產過程。就像寶鋼老專家王洪水先生說的“像錄像一樣地記錄生產過程”,這樣,數據才能反映生產過程的因果關系。
有了這樣的數據基礎之后,我們可以全面深入地推進智能化。在筆者看來,在短期內,鋼廠智能化的重點應該是管理和控制的融合。美國大河公司的實踐,證明了這個方向的正確性。
在工業大數據時代,可以通過工業互聯網等技術重構人和機器的界面來推進決策革命、提升企業的整體價值。這些技術又會導致更深刻的變化,如組織流程的重構、生產流程的再造、從服從到協同的文化轉變等。所有這一切,都是在“數據量大了不是問題”的前提下才能實現的。這才是工業大數據真正的意義所在。
(作者系優也信息科技有限公司首席科學家,工業互聯網產業聯盟工業大數據組副主席)
《中國冶金報》(2020年09月15日 04版四版)