《區塊鏈將如何顛覆數據科學:大數據中的 5 個區塊鏈用例》(How Blockchain Will Disrupt Data Science: 5 Blockchain Use Cases in Big Data)
By Salih SARIKAYA, Jan 6, 2019
Source: https://towardsdatascience.com/how-blockchain-will-disrupt-data-science-5-blockchain-use-cases-in-big-data-e2e254e3e0ab
筆者前言: 因著社區時間銀行以為群聚與強化社會資本的應用,伴隨這篇美國華盛頓大學(University of Washington, Seattle, Washington, USA) 所出版的《社區級數據科學及其影響範圍:超越新奇平方》(Community-level data science and its spheres of influence: beyond novelty squared),就不得不來看,區塊鏈與數據科學這兩項新興科技,如何彼此相互應用,進一步強化社區/地方創生的創新果效。
另請參閱: 相關 《數位學習歷程》>>《T型技能》(T-shaped Skills) 關鍵字文章
最後,《白石CES時間銀行社群雲》(KCE2CES Community Cloud) 致力於全年無休《誠如台灣總統盃黑客松》社區/社群創新實踐模式! 歡迎來自台灣與台灣以外的法人/自然人單位,一起來參予實踐「e 起共善經濟」! 因為,在這裏,我們沒有提案截止日,只有致力社區/社群SDGs永續創新! 歡迎您的法人或是自然人單位,同樣在致力邁進聯合國永續發展目標 (UN Sustainable Development Goals, SDGs 17) 創新管理最後一哩路: 社區/社群單位者,與我們聯絡。
本文開始:
區塊鍊和大數據是最重要的新興技術之一,有望徹底改變多個行業,從根本上改變企業和組織的運營方式。人們可能會認為這些技術是相互排斥的——每一種都形成獨特的路徑並相互獨立地應用。
但這會不合時宜。(But that will be off the mark.)
區塊鏈——就像數據科學一樣——正在逐漸改變多個行業的運作方式。雖然數據科學專注於利用數據進行適當的管理,但區塊鏈通過維護分散的分類賬來確保數據的可信度。
問題是,這兩個概念有沒有彼此截取的地方?(The question is, Is there a place these two concepts intercept?)
這兩種技術同時應用會達到什麼效果?(What will be achieved when these two technologies are concurrently applied?)
簡單地說,區塊鏈如何顛覆數據科學?(Simply put, how can blockchain disrupt data science?)
要回答這些問題,將有助於更好地理解區塊鍊和數據科學彼此分開。
什麼是區塊鏈? (What is Blockchain?)
區塊鏈基本上是一個不受信任的分類賬,它記錄經濟交易,使其無法被操縱。由於人們普遍對比特幣和加密貨幣感興趣,該技術變得突出,但此後發現不僅記錄加密貨幣交易而且記錄任何有價值的東西都具有相關性。了解這項新興技術的功能後,開發人員和技術愛好者已經開始為區塊鏈設計一個又一個用例。
對區塊鏈開發人員的高需求 (High Demand for Blockchain Developers)
區塊鏈開發人員的需求在過去幾年中激增,就像項目在區塊鏈的不同應用程序上工作一樣。來自 UpWork 等自由職業平台的報告將區塊鏈技能保留為最需要的技能。以類似的方式,據說法律研究等其他領域的專業人士如果擁有區塊鏈技能——或者至少對這項技術有了解,就會具有重大優勢。
什麼是數據科學?(What is Data Science?)
數據科學旨在從結構化和非結構化數據中提取知識和見解。該領域包括統計、數據分析、機器學習和其他用於使用數據理解和分析實際過程的高級方法。
數據通常被描述為經濟術語中的新石油,這也是著名的 GAFA(谷歌、亞馬遜、Facebook 和蘋果)等領先企業能夠控制大量數據的原因。數據科學的一些常見應用見於互聯網引擎協議、數字廣告和推薦服務。數據分析是數據科學的一個關鍵方面,已被發現與醫療保健行業相關,可用於跟踪患者治療和設備流程;在旅行中玩遊戲以改善消費者體驗;用於能源管理以及許多其他領域。
對數據科學家的高需求 (High Demand for Data Scientists)
對於能夠提供更多數據洞察力並幫助解決更多問題的數據科學家來說,似乎也有著永不滿足的需求。在考慮大數據時,這一點更加明顯,大數據是數據科學的一個高級方面,它處理傳統數據處理方法無法處理的大量數據。
區塊鏈與數據科學的關係 (The relationship between Blockchain and Data Science)
與現在非常熟悉區塊鏈的金融科技、醫療保健和供應鍊等領域不同,該技術尚未在數據科學方面得到廣泛探索。對某些人來說,這些概念之間的關係即使不是不存在也不清楚。
首先,區塊鍊和數據科學都處理數據——數據科學分析數據以獲得可操作的見解,而區塊鏈記錄和驗證數據。兩者都利用創建的算法來管理與各種數據段的交互。您很快就會注意到一個共同的主題,即“用於預測的數據科學;數據完整性的區塊鏈。”
區塊鏈對數據的影響 (Blockchain impact on data)
數據科學,就像任何技術進步都有其自身的挑戰和局限性,當解決這些挑戰和局限性時,將釋放其全部功能。數據科學面臨的一些主要挑戰包括無法訪問的數據、隱私問題和臟數據。
髒數據(或錯誤信息)的控制是區塊鏈技術可以在不小的程度上積極影響數據科學領域的一個領域。根據 2017 年對 16,000 名數據專業人士的調查,包含重複或錯誤數據等臟數據被認為是數據科學面臨的最大挑戰。通過分散的共識算法和密碼學,區塊鏈驗證數據,由於需要大量的計算能力,因此幾乎不可能被操縱。
區塊鏈技術再次通過其去中心化系統確保數據的安全性和隱私性。大多數數據存儲在中央服務器中,這些服務器通常是網絡攻擊者的目標;一些關於黑客和安全漏洞的報告顯示了威脅的程度。另一方面,區塊鏈將數據的控制權恢復給生成數據的個人,這使得網絡犯罪分子大規模訪問和操縱數據成為一項艱鉅的任務。
區塊鏈如何幫助大數據?(How Blockchain Can Help Big Data?)
Janexter 的 Maria Weinberger 說,如果數量很大,那麼區塊鏈就是質量。這是遵循這樣的理解,即區塊鏈專注於驗證數據,而數據科學或大數據涉及從大量數據中進行預測。
區塊鏈帶來了一種全新的數據管理和操作方式——不再是將所有數據匯集在一起的中心視角,而是一種分散的方式,可以在單個設備的邊緣分析數據。區塊鏈與其他先進技術集成,如雲解決方案、人工智能 (AI) 和物聯網 (IoT)。
此外,通過區塊鏈技術生成的經過驗證的數據結構化且完整,而且正如我們之前提到的那樣,它是不可變的。區塊鏈生成的數據成為大數據推動力的另一個重要領域是數據完整性,因為區塊鏈通過其鏈接鏈確定數據的來源。
大數據中的 5 個區塊鏈用例 (5 Blockchain Use Cases in Big Data)
一般來說,區塊鏈數據至少有五種特定的方式可以幫助數據科學家。
(1)確保信任(數據完整性)(Ensuring Trust (Data Integrity))
記錄在區塊鏈上的數據是值得信賴的,因為它們必須經過驗證過程以確保其質量。它還提供了透明度,因為可以跟踪在區塊鍊網絡上發生的活動和交易。
去年,聯想展示了區塊鏈技術的這個用例,用於檢測欺詐性文件和表格。 PC 巨頭使用區塊鏈技術來驗證用數字簽名編碼的物理文檔。數字簽名由計算機處理,文件的真實性通過區塊鏈記錄進行驗證。
大多數情況下,當有關數據塊的來源和交互的詳細信息存儲在區塊鏈上並在對其採取行動之前自動驗證(或驗證)時,可以確保數據完整性。
(2)防止惡意活動 (Preventing Malicious Activities)
由於區塊鏈使用共識算法來驗證交易,因此單個單元不可能對數據網絡構成威脅。開始異常行為的節點(或單元)可以很容易地被識別並從網絡中刪除。
由於網絡如此分散,單方幾乎不可能產生足夠的計算能力來改變驗證標準並允許系統中出現不需要的數據。要更改區塊鏈規則,必須將大多數節點集中在一起以達成共識。這對於一個壞演員來說是不可能實現的。
(3)進行預測(預測分析)(Making Predictions (Predictive Analysis))
區塊鏈數據,就像其他類型的數據一樣,可以被分析以揭示對行為、趨勢的有價值的見解,因此可以用來預測未來的結果。更重要的是,區塊鏈提供從個人或個人設備收集的結構化數據。
在預測分析中,數據科學家基於大量數據準確確定社交事件的結果,例如客戶偏好、客戶生命週期價值、動態價格和與業務相關的流失率。然而,這不僅限於商業洞察力,因為無論是社會情緒還是投資標記,幾乎任何事件都可以通過正確的數據分析進行預測。
由於區塊鏈的分佈式特性和通過它提供的巨大計算能力,即使在較小的組織中,數據科學家也可以承擔廣泛的預測分析任務。這些數據科學家可以使用連接在區塊鍊網絡上的數千台計算機的計算能力作為基於雲的服務,以其他方式無法實現的規模分析社會結果。
(4)實時數據分析 (Real-Time Data Analysis)
正如在金融和支付系統中所展示的那樣,區塊鏈可以實現實時跨境交易。幾家銀行和金融科技創新者現在正在探索區塊鏈,因為它可以提供快速——實際上是實時——的巨額資金結算,而不受地理障礙的影響。
同樣,需要大規模實時分析數據的組織可以調用支持區塊鏈的系統來實現。借助區塊鏈,銀行和其他組織可以實時觀察數據變化,從而能夠快速做出決策——無論是阻止可疑交易還是跟踪異常活動。
(5)管理數據共享 (Manage Data Sharing)
在這方面,從數據研究中獲得的數據可以存儲在區塊鍊網絡中。這樣,項目團隊就不會重複其他團隊已經進行的數據分析或錯誤地重用已經使用過的數據。此外,區塊鏈平台可以幫助數據科學家將他們的工作貨幣化,可能是通過交易存儲在平台上的分析結果。
結論
如前所述,區塊鏈正處於起步階段,儘管由於該技術在短時間內得到了大肆宣傳,它可能不會出現。人們預計,隨著技術的成熟和圍繞它的更多創新,將會發現和探索更多具體的用例——數據科學是一個將從中受益的領域。
話雖如此,但它對數據科學的影響提出了一些挑戰,尤其是在需要處理大量數據的大數據中。一個擔憂是,在這方面的區塊鏈應用將非常昂貴。這是因為與傳統方式相比,區塊鏈上的數據存儲成本很高。與每秒為大數據和其他數據分析任務收集的大量數據相比,塊處理的數據量相對較少。
區塊鏈如何發展以解決這一問題並繼續顛覆數據科學領域將特別有趣,因為正如我們所見,該技術具有改變我們管理和使用數據方式的巨大潛力。