loading

Resources

16Oct 2017

Cloudera SDX:深入剖析

Cloudera SDX:深入剖析

 

2017 9 月 26
作者:Fred Koopmans
原文Cloudera Blog
 
什麼是 SDX?
Shared Data Experience (SDX) 是 Cloudera 的秘密成份,有了它,才可以在單一平台上部署 Cloudera 的四個核心功能 (資料工程、資料科學、分析資料庫、營運資料庫)。
 
它為什麼重要?
首先,每一個核心功能皆是所有現代企業業務所不可或缺的。
    •       資料工程讓企業可以用批次或串流形式執行程序,加速 ETL 和訓練機器學習模型
    •       資料科學讓企業可以進行巨量資料規模的探索性資料科學,享有完整的資料安全性與治理功能
    •       分析資料庫能用最短時間完成獨到分析,而且可在任何環境中針對任何類型的資料執行分析,既有彈性又靈活。
    •       營運資料庫讓企業建置資料導向的應用程式,提供近即時的獨到分析
 
第二,根據過去的經驗,大部份業務應用程式實際上需要結合兩個以上的功能才能解決現實的問題。換言之,大部份業務應用程式不但牽涉大量的資料,亦需要對相同的資料集套用多種不同的分析準則,包括 ETL、BI、ML 和即時分析。
客戶範例:這種多功能的方式協助運輸公司避免車子停擺。他們即時擷取貨車車隊的各項遙測資料,利用機器學習去預測特定零件在指定時間內會發生故障的機率,然後藉由分析去研判讓貨車停在路邊並進行維修,使停擺時間降到最低的最佳方法,
 

第三,根據過去的經驗,要讓不同類別的資料從業人員使用共享的敏感或受管制的資料互動,必須具備可擴充且一致的安全和治理模型。

客戶範例:製藥公司讓整個研究團隊利用共享的資料池進行自助式分析,以利推進藥物研究計劃的進度。然而,由於這類資料大多受到 HIPAA 的管制,如果資料管理團隊無法先確保全面採用一貫的安全性與治理模式,則無法實現此一比較有效的藥物研究方法。

 
有鑑於此,我們能清楚知道,任何企業都希望可以有一個平台能可靠地執行這些核心功能且同時讓該平台上所有資料從業人員共享資料。這種統合型企業資料管理模式確實是成本效益最好、部署最快且最容易保護和治理的。SDX 就是實現這種統合模式的關鍵。SDX 為 Cloudera 的客戶創造這種共享資料的體驗。
 
SDX 為 Cloudera 客戶帶來哪些好處?
讓我們詳細瞭解 SDX 的主要優點:
成本效益較高
SDX 可以:
  • 降低採購成本,購買含有多項功能的一個平台而不必購買多個平台,即便那些平台是由同一家廠商提供
  • 降低基礎架構成本,減少冗餘和效率不彰的情況 (額外的資料副本、在平台之間移動資料的額外管線、額外的平台管理服務、超額佈建等)。
  • 降低營運成本,讓一個營運團隊可以有效地運用一貫的方式支援所有巨量資料業務應用程式,因為所有功能均已整合至相同的管理介面
更快速

SDX 可以:

  • 使用軟體提供開箱即可用的共享資料體驗,縮短部署時間,不需要冗長的服務合同讓所有東西搭配運用
  • 利用所有既有的設定和環境 (擷取、安全、治理、目錄等),縮短啟動新應用程式的時間,不必針對後續每個應用程式重新建立環境、定義和政策。
  • 縮短新用戶的上手時間,繼承其他用戶現有的最佳實務組態。
更簡單
SDX 可以:
  • 改善安全性,更加容易建立一套安全政策,平台上所有應用程式和全部使用者一體適用,不需要手動重新建構不同平台之間的安全政策和不同層級的控管,因此能降低平台整體的安全風險。
  • 改善治理效果,為所有知識工作人員提供通用的資料目錄,含有技術感知和業務感知的定義,更容易追蹤所有資料
  • 建立自助服務的環境,不需要聯絡資料管理團隊取得支援,即可輕鬆探索新的資料集以及與這些資料集相關的歷程
  • 改善工作負載管理,可以輕鬆擴充平台、排解疑難以及監控和最佳化工作
 
 
它是怎麼辦到的?
SDX 由五項獨立的功能組成,這些功能結合起來能夠解決非常困難的問題:在一個支援各種不同的工作負載和使用者互動模式的平台上實現資料共享。接下來我們仔細瞭解每一個功能以及它們在 Cloudera Enterprise 中的實作情況:
功能
客戶體驗
主要功能
實作
共享安全性
能夠在整個平台上用統一的方式執行一貫的、詳盡的驗證、授權、加密和合規控管
驗證
授權
加密
金鑰管理
共享治理
能夠用統一的方式治理您的資料,讓使用者輕鬆探索新的資料、瞭解資料的來源並追蹤資料的修改歷程
稽核
探查
資料歷程
資料管理
允許管理員按照業務要求分配資源及指定工作負載的優先順序,因而能夠建立、管理和最佳化工作負載,無論是逐個或是作為集合
工作負載建立
工作負載排程
工作負載最佳化
工作負載疑難排解
  • Cloudera Director
  • Cloudera Manager
  • Apache YARN
  • Apache Oozie
  • Job History Server
  • Workload Analytics
共享擷取與複寫
能夠立即擷取資料並提供給所有功能、應用程式和使用者使用,不需要額外的擷取管線或資料副本
 
 
能夠按需求把資料複寫到遠端位置或直接到雲端上
擷取
複寫
災難復原
一致性
  • Apache Flume
  • Apache Sqoop
  • Apache Kafka
  • Apache Kite
  • Cloudera Backup & Disaster Recovery
  • S3Guard
共用資料目錄
能夠提供綱要和歷程中繼資料的通用目錄,供每一個存取該平台的工作負載和使用者使用,以利達成最佳效率和生產力
中繼資料管理
  • Apache HMS
  • Cloudera Navigator
 
 
沒有 SDX 的資料平台會是什麼情況?
沒有其他平台具有 SDX,因而相較於具有 SDX 的 Cloudera Enterprise,這些替代平台的購置與營運成本更高,部署與擴充的速度較慢,而且整體而言保護、治理與管理皆不容易。接下來我們仔細瞭解替代平台的客戶體驗。
類別
客戶體驗
專門供應商
客戶向不同的供應商購買每一個功能並僱用開發人員或顧問將每一個功能連結起來,好讓應用程式可以使用這些功能
產品組合供應商
客戶向單一供應商購買多個平台外加一份大型服務合約,把所有東西連結起來,好讓應用程式可以使用這些功能
Hadoop 單項產品供應商
客戶購買一個平台,也許能夠共享一個或兩個核心功能之間的原始資料,但是無法在開箱即可用的條件下共享不同功能之間相關的資料環境 (目錄、安全性、治理等),因此客戶必須設法自行填補之間的斷層,或是更常見的情況是在沒有共享資料的情況下運作
 
 
 
SDX 是新概念嗎?
採用內部部署的客戶一直以來均可隨時使用 SDX,而這類客戶絕大多數享受到在單一平台上部署多功能應用程式的好處 (參見下圖)。然而,SDX 的強大功能卻因此受限於內部部署。
SDX diagram
 
直至現在,沒有供應商能夠提供一個多功能平台並提供在雲端共享資料的服務。工作負載可以輕鬆透過雲端物件儲存共享原始資料,但是要在雲端環境中共享安全性、治理、工作負載管理和資料目錄卻不是易事。所以,雲端部署大多限於單一功能應用程式而且開發/測試工作負載分開處理。更糟糕的情況是,早期採用這種方案的人們雖然一度十分積極設法在雲端中提供多功能的服務,最後卻無奈選擇把內部部署的模型 (在專用基礎架構上運行的大型多用戶叢集) 複製到雲端,以便能共享資料,儘管這麼做會讓雲端基礎架構失去大部份的優點,而且營運成本十分高昂。
現在情勢已完全改變。這是首次 Cloudera 為雲端提供 SDX 功能。這意味著企業可以在雲端部署多功能應用程式,而不必犧牲他們渴望在內部部署享有的共享資料功能也不必犧牲雲端基礎架構的優點。因此,發佈雲端適用的 SDX 功能,會讓企業的雲端巨量資料應用程式邁向全新的時代。
 
在雲端執行的 SDX 有任何差異嗎?
在雲端上,SDX 雖然比較困難卻也具備更高價值,因為真正對雲端最佳化的資料應用程式通常多在隔離的基礎架構上運行 (每個工作負載使用不同的虛擬機器群) 而且通常是暫時性 (如此可為每個工作自動提供和移除整個資料環境)。
少了 SDX 的話,每個工作負載會退化成包含孤立的安全政策與中繼資料環境的孤島,讓資料團隊的管理雪上加霜。
我們可以透過 SDX 建立一個邏輯叢集,提供共享資料的服務來支援多功能應用程式,並同時允許每個工作負載善用雲端 IaaS,如下圖所述。
SDX Cloud diagram
 
SDX 在雲端如何運作?
下圖說明 SDX 有雲端的運作方式。從最底端開始,
  • 透過 Shared Object Storage 執行儲存層,而且只需要一份原始資料副本即可導入 SDX,讓效率、安全性和治理達到最佳表現。
  • 透過一組共享的 metastore 和相關工具導入中繼資料層,讓整個平台維持一致的資料目錄
  • 電腦層的執行方式是在隔開的工作負載叢集中執行每個工作負載,好讓每個工作負載均可針對雲端 IaaS 全面最佳化
  • 透過 Cloudera 領先業界的企業管理套件執行管理層,更容易建立和管理暫時性和永久性的工作負載
  • 透過 Cloudera 新的自助式資料應用程式執行使用介面層Cloudera Altus—,讓使用者在由資料團隊管理的共享環境中建立工作和排解工作的疑難雜症
SDX layers
Cloudera 很高興可以發佈雲端適用的 SDX,迫不及待想要看到客戶們的實際使用情況,在明日實現今日的不可能。要瞭解更多資訊,請立即報名參加即將舉辦的網路研討會,一起討論這個主題。

 

  

Back to list.
Prev
Cloudera Hadoop Security VIP 會後報導
Cloudera Hadoop Security VIP 會後報導
Next
Apache Impala (incubating) 與 Amazon Red-shift:在 AWS 上的 S3 整合、彈性、敏捷性與性價比優勢
Apache Impala (incubating) 與 Amazon Red-shift:在 AWS 上的 S3 整合、彈性、敏捷性與性價比優勢