沒有存儲,沒有哭泣:下沉數據存儲障礙


7 月 11 日至 12 日在舊金山與高層管理人員一起聆聽領導者如何整合和優化 AI 投資以取得成功. 了解更多


在這個信息時代, 大數據 越來越多地被視為任何組織的命脈。 然而,由於數據變得如此龐大和多樣化,正確分析數據對企業來說仍然是一個巨大的挑戰。

因此,這些基本數據本應能夠產生的業務洞察力變得過於困難、耗時或成本高昂。

一個關鍵挑戰是存儲和分析解決方案之間的交互,以及它們是否能夠處理這些海量數據——或者是否有辦法完全跳過存儲障礙?

數據存儲格式:歷史

大數據爆炸的時間線可以分為三個不同的時期。

事件

轉型 2023

7 月 11 日至 12 日在舊金山加入我們,高層管理人員將分享他們如何整合和優化 AI 投資以取得成功並避免常見的陷阱。

現在註冊

首先是簡單的文本文件 (TXT) 存儲,然後是關係數據庫管理系統 (RDBMS),以便更輕鬆地監控和與更大的數據集交互。

第三階段——現代開源格式,如 Parquet 和 Iceberg,它們可以更有效地收集壓縮文件——是因為這些數據庫的容量超過了它們收集和分析的數據量。

然後是數據庫公司將以形式開發自己的存儲方法的階段 數據倉庫. 這些定制的、專有的數據存儲格式提供了更好的性能,並允許依賴數據的公司以他們可以最有效地查詢和處理的方式存儲他們的數據。

那麼,為什麼數據分析仍然滯後?

數據倉庫的成本

儘管他們提供定制,數據倉庫存儲格式有很多缺點。

這些倉庫的攝取協議需要 企業數據入庫前要經過預處理,查詢延遲大。 也沒有單一的“真相”來源,因為原始存儲位置(數據仍以原始格式創建)和數據倉庫之間的同步過程很複雜,並且可能會扭曲數據集。

供應商鎖定是另一個問題,因為來自任何存儲格式位置的可查詢數據通常只對一個應用程序關閉,因此並不總是與數據分析所需的各種工具兼容。 最後,任何時候一個部門想要分析其數據,都需要復制數據源,這可能會導致不同數據倉庫之間複雜的、有時甚至是不可能的數據共享。

隨著這些短板日益凸顯,對數據驅動型企業提出了更大的挑戰,數據存儲傳奇的第四章正在展開。

輸入“數據湖”。

潛入數據湖

與數據倉庫(以及其名稱所暗示的封閉、有限的性質)不同,數據湖是流動的、深邃的、敞開的。 第一次,任何規模的企業都可以將相關數據從圖像、視頻到文本保存在一個集中、可擴展、可廣泛訪問的存儲位置。

由於這些解決方案具有入口和支流以及存儲格式的流動性,不僅是為數據存儲而設計的,而且還考慮到了數據共享和同步,因此數據湖不會因供應商鎖定、數據複製挑戰而陷入困境或單一真相來源並發症。

結合 Apache Parquet 文件等開源格式——這些文件足以有效地管理組織內各個孤島的分析需求——這些獨特的存儲系統使企業能夠在數據湖架構中成功工作並享受其性能優勢。

湖邊的房子

儘管數據湖是一種很有前途的存儲和分析解決方案,但它們仍然相對較新。 因此,行業專家仍在探索此類雲計算功能對其存儲解決方案可能帶來的潛在機遇和陷阱。

克服當前缺點的一種嘗試是將數據湖功能與數據倉庫組織和雲計算相結合——被稱為“數據湖屋”——本質上是一個漂浮在數據湖之上的數據倉庫。

考慮數據湖只是文件夾中文件的集合:簡單易用,但如果沒有集中式數據庫就無法有效地提取數據。 即使數據倉庫已經開發出一種讀取開源文件格式的方法,攝取延遲、供應商鎖定和單一事實來源等挑戰仍然存在。

另一方面,數據湖屋允許企業使用類似數據庫的處理引擎和語義層按原樣查詢所有數據,無需過多的轉換和復制,同時保持這兩種方法的優勢。

這種數據存儲和分析組合方法的成功已經令人鼓舞。 Ventana Research 副總裁兼研究總監 Matt Aslett 預測 到 2024 年,超過四分之三的數據湖採用者將投資數據湖屋技術,以提高其積累數據的商業價值。

企業現在可以享受 SQL 數據庫的分析優勢以及雲數據湖的廉價、靈活的存儲功能,同時仍然擁有自己的數據並為每個域維護單獨的分析環境。

這個湖有多深?

隨著數據公司越來越多地採用雲數據湖屋,越來越多的 企業將能夠專注於當今最重要的業務資產之一——對大數據集的複雜分析。 企業實際上不會將他們的數據帶入託管引擎,而是將高級引擎帶入他們需要分析的任何數據。

由於雲數據湖屋的進入門檻低,只需點擊幾下即可實現硬件分配,組織將可以輕鬆訪問每個可能的用例的數據。

Data Lakehouse 供應商將繼續接受測試,以測試他們處理更大數據集的能力,而無需將其計算資源自動擴展到無限大。 但即使隨著技術的進步,數據湖屋方法在允許數據獨立性以及為用戶提供數據倉庫和數據湖的優勢方面仍將保持一致。

數據湖的水域似乎未經測試,但越來越明顯的是,不冒險的供應商和企業將無法發揮其數據潛力。

Matan Libis 是產品副總裁 平方.

數據決策者

歡迎來到 VentureBeat 社區!

DataDecisionMakers 是專家(包括從事數據工作的技術人員)可以分享與數據相關的見解和創新的地方。

如果您想了解前沿思想和最新信息、最佳實踐以及數據和數據技術的未來,請加入我們的 DataDecisionMakers。

您甚至可以考慮發表一篇您自己的文章!

閱讀來自 DataDecisionMakers 的更多信息

發佈留言