習近平在中央政治局第十八次集體學習時強調,要“加快區塊鏈和人工智慧、大資料、物聯網等前沿資訊科技的深度融合,推動整合創新和融合應用。”看似簡單的一句話,實際上包含著巨大的資訊量。很多人都在問,區塊鏈與大資料到底什麼關係?它們究竟如何融合?
我們都知道,在以上幾種前沿技術中,物聯網在獲取海量資料,以及這些海量資料的儲存、傳輸和處理中扮演著重要的角色。這些海量資料,無疑是大資料的重要內容來源。人工智慧作用的發揮,更大程度上依靠資料的訓練。沒有足夠的資料為基礎,人工智慧也不可能發揮作用。
大資料從其概念的誕生開始,就是以透過資料充分分享實現資料互聯互通,發揮資料綜合效用為宗旨的(參見維克托·邁爾-舍恩伯格《大資料時代》,以及塗子沛《資料之巔》)。但各種大資料系統的建設,卻背離了這一目標。以至於目前資料孤島到處存在,資料成為石油之後的又一世界性的壟斷資源。
資料孤島的存在,則主要是各種部門和機構利益作祟的結果。資料不能互聯互通,不僅影響著資料作用的進一步發揮,而且由於各個部門和機構壟斷著資料,還存在著利用資料優勢進一步獲取壟斷性競爭地位的可能,甚至還時時發生著大的部門和機構利用資料佔有優勢侵犯使用者隱私和使用者利益的事情。
資料作為未來的生產資料,在社會的發展中起著非常重要的作用,打破資料壟斷勢在必行。究竟怎麼破?區塊鏈的出現,為打破資料壟斷提供了技術架構上的可能。
一、區塊鏈有利於透過資料確權打破資料孤島,實現共贏
作為一種相對特殊的資料傳輸和資料儲存架構,區塊鏈這種特殊架構及其自身的發展,將從根本上改寫大資料發展格局,校正大資料的發展方向,並豐富物聯網的體系架構形式。
區塊鏈的本質意義,在於透過對資料進行全網一致性分發和冗餘儲存,降低所有節點在資料佔有方面的不對等,進而使所有節點在平等佔有資料的基礎上,有了業務自組織權力和業務自組織能力。
區塊鏈系統中的所有節點在資料全網一致性基礎上實現了業務流程的自組織,也就是實現了業務流程的去中心化和去中介化。去中心化和去中介化的系統,較之前建立在資料中心化基礎上的業務流程中心化和他組織結構,帶來了更高的業務生產效率和更大的容錯空間,同時,又節省了原來中心環節和中介環節佔有的利潤。
但區塊鏈系統建立的前提,一定是資料的對等分享,而不可能是資料的單方面分享。因此,在區塊鏈系統和業務體系內,資料必須來自於所有節點,才有可能實現資料對等佔有、效率對等提升、利益對等享有。
因此,區塊鏈系統對資料的所有權進行確權就成為必需。大資料系統基本不考慮資料從哪裡來,到哪裡去,資料的所有權屬於誰,資料產生的收益又應該由誰分享。區塊鏈系統要求鏈上資料對所有人開放,因此就必須保證鏈上資料真實可信。由此,在區塊鏈系統中,就需要所有人都負責各自資料的寫入,同時所有人要負責對其他人寫入資料的真實性進行確認。在這些真實資料的基礎上,才能夠實現業務流程的最佳化和重構,才能進一步實現效率的提升和利益的重新分配。
二、區塊鏈技術架構有望提高資料質量
大資料是一種低價值資料。透過大量資料的聚合,尋找到資料之間的相關關係,發揮資料的作用,是大資料系統建設和開發的核心訴求。大資料系統中大部分資料的質量並不高,這種質量,包括資料本身的真實性,資料自身蘊含的內在價值,資料價值與其自身佔用空間的比例等不同維度。
區塊鏈資料是一種高價值資料,是稀缺資料。低價值資料或無價值資料沒有在全網範圍內進行一致性分發和冗餘儲存的必要,只有高價值資料和稀缺資料才有這種需要,並經過全網範圍內的一致性分發和冗餘儲存,確保資料不可篡改不可偽造,且來源可追溯。因此,可以透過區塊鏈系統,對大資料系統中的資料去偽存真,保留必要的資料上鍊,而不是一股腦將所有資料上鍊。將所有資料上鍊既沒有必要,現有的區塊鏈系統也無法承載,更無法承受。
因此,區塊鏈系統的應用,就必須對大資料系統中的資料進行篩選,提高資料的可用性和資料質量。
三、區塊鏈與大資料的未來融合創新之路
資料從古至今都是稀缺資源。讓資料發揮更大作用,是建設美好社會的前提和基礎。區塊鏈更大意義上是一種體系架構和新的業務邏輯結構。相對於中心化架構,區塊鏈更加強調節點在資料共享基礎上的自治。大資料與區塊鏈既有必須結合以提高效率和效能之處,也存在由於技術架構的侷限而不能或不易結合之處。
麥肯錫全球研究所給出的大資料定義是,一種規模大到在獲取、儲存、管理、分析方面大大超出了傳統資料庫軟體工具能力範圍的資料集合,具有海量的資料規模、快速的資料流轉、多樣的資料型別和價值密度低四大特徵。
而目前的區塊鏈系統儲存的資料,從體量上是小資料,從流轉上是靜態資料,從型別上是單一型別資料,從價值密度上是高價值資料。
按照麥肯錫全球研究所給出的定義所定義的大資料,是無法透過區塊鏈系統在全網範圍內進行分發和儲存的。因此,必須對區塊鏈系統的資料組織方式和資料儲存方式重新進行結構,否則,區塊鏈系統與大資料無法融合。
區塊鏈系統與大資料的融合,可以針對不同的業務場景,實現不同層級的資料共享。針對小體量的資料,可以直接將資料上鍊,實現全部資料的共享。針對體量略大一些的資料,則可以抽取出資料處理結果上鍊,而將原始資料存在鏈下,並透過區塊鏈中的時間戳和雜湊函式,保證原始資料不被篡改不被偽造。如果是極大體量資料,則可以將資料所在儲存區塊的時間戳和雜湊值上鍊,透過不同層次的雲端計算和邊緣計算,實現不同層級的資料本地化或雲化處理,從而發揮資料的作用。
同時,還必須將快速流轉的資料靜態化處理,或者直接靜態化,或者將資料處理結果靜態化。也必須將多樣資料型別資料進行型別單一化處理,以便於區塊鏈系統可以分發和儲存。此外,還必須從大量的低價值密度資料中抽取出資料的內在價值,否則,低價值密度資料也沒有必要用區塊鏈進行處理。
區塊鏈與大資料的融合,在具體應用中會遇到各種各樣的問題。但隨著各種設施裝置在儲存容量、運算速度和傳輸效率方面的進一步提升,隨著各種技術的發展,尤其是緊密結合各種應用場景所能開展的最佳化,區塊鏈與大資料相互融合並共同服務於人類生產生活效率提升,共同創造人類社會美好未來的前景,是值得期待,也值得努力付出,並一定會實現的。
首發鏈證經濟公號。