基於區塊鏈資料市場訓練的機器學習模型有可能創造出世界上最強大的人工智慧。
它們結合了兩個強有力的元素:一是隱私的機器學習。它允許在不洩露敏感隱私資料的前提下進行模型訓練。二是基於區塊鏈的激勵。區塊鏈系統將吸引最好的資料和模型,來使其更加智慧。結果是在公開市場上,任何人都能夠售賣他們的資料,同時保護他們的隱私。開發者則透過提供激勵獲得演算法所需的最佳資料。
構建這樣的系統極具挑戰性,但簡單的初始版本看起來是有可能的。我相信這樣的市場將把我們從當前的Web 2.0大公司資料壟斷時代進化到資料和演算法公開競爭的Web 3.0時代。兩者都直接商業化。
由來
這個想法源自於2015年與Numerai的<a href="/project/R/" target="_blank"">Richard交談。 Numerai是一家對沖基金,它會向資料科學家傳送加密的市場資料,這些資料用於構建各自的股票市場模型。Numerai結合最佳模型,並提交到“元模型”中,並透過“元模型”在市場中進行交易。如果模型表現良好,資料科學家會獲得收益。
讓資料科學家們進行競爭似乎是一個很讚的想法。它讓我想到:是否能夠建立一個完全去中心化的系統,可以應用到更通用的場景?我的答案是肯定的。
實施
舉個例子,讓我們先嚐試建立一個完全分散式的系統,用來進行加密貨幣的交易。以下這些是架構類似系統的元素:
資料
資料提供者對資料擁有權益,並使其可供建模者使用。
構建模型
建模者建立模型並選擇用於訓練的資料。在不洩露基礎資料的安全情況下,進行模型訓練。模型也會有權益。
元模型的構建
基於演算法建立元模型,該演算法考慮每個模型權益。
建立元模型是可選的——你可以想象使用的模型是那種還沒被整合進元模型中的。
使用元模型
智慧合約採用元模型,並透過去中心化交易所在鏈上進行交易。
分配收益或損失
經過一段時間後,交易產生盈利或虧損。這種利潤或損失在元模型的貢獻者之間進行分配,這取決於模型有多智慧。如果模型造成損失,該模型的部分或全部權益會被沒收。同時,對於模型的資料提供者,也會執行類似的利益分配或權益消減機制。
可驗證的計算
每個步驟的計算要麼執行中心化,中心化則可驗證且具有挑戰性(使用類似於Truebit的可驗證遊戲),要麼實施去中心化,使用安全多方計算。
託管
資料和模型要麼託管在IPFS上,要麼託管在安全的多方計算網路中,因為鏈上儲存太昂貴了。