資料倉庫快速入門教程6-OLAP
什麼是線上分析處理?
OLAP(Online Analytical Processing)允許使用者同時分析來自多個數據庫系統的資訊。 這項技術使分析師能夠從不同的角度提取和檢視業務資料。
分析師經常需要分組,彙總和加入資料。 關係資料庫中的這些操作是資源密集型的。 使用OLAP資料可以預先計算和預先聚合,從而加快分析速度。
OLAP資料庫分為一個或多個多維資料集。 立方體的設計使得建立和檢視報告變得容易。
OLAP多維資料集:
OLAP的核心是OLAP多維資料集。 OLAP多維資料集是為快速資料分析而優化的資料結構。
OLAP多維資料集由稱為度量的數字事實組成,這些度量按維度分類。 OLAP Cube也稱為 超立方體 。
通常,使用簡單的電子表格執行資料操作和分析,其中資料值以行和列格式排列。 這是二維資料的理想選擇。 但是,OLAP包含多維資料,資料通常從不同且不相關的源獲取。 使用電子表格不是最佳選擇。 多維資料集可以以邏輯和有序的方式儲存和分析多維資料。
它是如何工作的?
資料倉庫將從多個數據源和格式中提取資訊,如文字檔案,Excel工作表,多媒體檔案等。
提取的資料被清理和轉換。 將資料載入到OLAP伺服器(或OLAP多維資料集)中,在這裡預先計算資訊以供進一步分析。
OLAP的基本分析操作
OLAP中的四種分析操作是:
- Roll-up 匯聚
- Drill-down 下沉
- Slice and dice 切片和骰子
- Pivot 旋轉
1) Roll-up :
彙總也稱為“合併”或“聚合”。 有兩種方式
- 減少尺寸
- 概念層次結構是一種根據訂單或級別對事物進行分組的系統。
- 在這個例子中,城市新澤西和洛杉磯歸入美國。
- 新澤西州和洛杉磯的銷售額分別為440和1560,合併為2000。
- 在此聚合過程中,資料是位置層次結構從城市向國家。
- 在捲起過程中,需要移除至少一個或多個尺寸。 在此示例中,Quater維度已刪除。
2)下沉
- 向下移動概念層次結構
- 增加維度
- Quater Q1將在1月,2月和3月進行。 相應的銷售也是登記冊。
- 在此示例中,添加了維度月份。
3)切片:
選擇維度,建立新的子多維資料集。
下圖說明了切片操作的執行方式:
- 使用Q1作為過濾器對尺寸時間進行切片。
- 完全建立了一個新的多維資料集。
Dice:
類似於切片。 不同之處在於您選擇了2個或更多維度,從而導致建立子多維資料集。
4)樞軸
在Pivot中,您可以旋轉資料軸以提供資料的替代表示。
在以下示例中,資料透視表基於項型別。
OLAP系統的型別
OLAP分層結構
OLAP的型別 | 說明 |
---|---|
關係OLAP(ROLAP): | 擴充套件的RDBMS以及多維資料對映,以執行標準的關係操作。 |
多維OLAP(MOLAP) | 在多維資料中實現操作。 |
混合線上分析處理(HOLAP) | 在HOLAP方法中,聚合總計儲存在多維資料庫中,而詳細資料儲存在關係資料庫中。 這提供了ROLAP模型的資料效率和MOLAP模型的效能。 |
桌面OLAP(DOLAP) | 在桌面OLAP中,使用者從本地或在桌面上從資料庫下載部分資料並進行分析。 DOLAP的部署成本相對較低,因為與其他OLAP系統相比,它提供的功能非常少。 |
Web OLAP(WOLAP) | 可以通過Web瀏覽器訪問OLAP系統的Web OLAP。 WOLAP是一個三層架構。 它由三個元件組成:客戶端,中介軟體和資料庫伺服器。 |
移動OLAP: | Mobile OLAP可幫助使用者使用移動裝置訪問和分析OLAP資料 |
空間OLAP: | 建立SOLAP是為了便於管理地理資訊系統(GIS)中的空間和非空間資料 |
ROLAP
ROLAP使用關係資料庫中存在的資料。 事實和維度表儲存為關係表。 它還允許對資料進行多維分析,是增長最快的OLAP。
ROLAP模型的優點:
- 高資料效率。 它提供了高資料效率,因為查詢效能和訪問語言特別針對多維資料分析進行了優化。
- 可擴充套件性。 這種型別的OLAP系統為管理大量資料提供了可擴充套件性,即使資料正在穩步增長。
ROLAP模型的缺點:
- 對更高資源的需求: ROLAP需要高人力,軟體和硬體資源的利用率。
- 聚合資料限制。 ROLAP工具使用SQL進行聚合資料的所有計算。 但是,處理計算沒有設定限制。
- 查詢效能慢。 與MOLAP相比,此模型中的查詢效能較慢
MOLAP
MOLAP使用基於陣列的多維儲存引擎來顯示資料的多維檢視。 基本上,他們使用OLAP多維資料集。
參考資料
- python測試開發專案實戰-目錄
- python工具書籍下載-持續更新
- python 3.7極速入門教程 - 目錄
- 討論qq群630011153 144081101
- 原文地址
- 本文涉及的python測試開發庫 謝謝點贊!
- [本文相關海量書籍下載]( https://github.com/china-testing/python-api-tesing/blob/master/books.md
- http://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html
混合OLAP
混合OLAP是ROLAP和MOLAP的混合體。 它提供了MOLAP的快速計算和ROLAP的更高可擴充套件性。 HOLAP使用兩個資料庫。
- 聚合或計算資料儲存在多維OLAP多維資料集中
- 詳細資訊儲存在關係資料庫中。
混合OLAP的好處:
- 這種OLAP有助於節省磁碟空間,並且它還保持緊湊,有助於避免與訪問速度和便利性相關的問題。
- Hybrid HOLAP使用立方體技術,可以更快地處理所有型別的資料。
- ROLAP即時更新,HOLAP使用者可以訪問這些實時即時更新的資料。 MOLAP帶來了資料的清理和轉換,從而提高了資料的相關性。 這帶來了兩全其美。
混合OLAP的缺點:
- 更高的複雜性級別 : HOLAP系統的主要缺點是它支援ROLAP和MOLAP工具和應用程式。 因此,它非常複雜。
- 潛在的重疊 : 特別是在功能方面存在重疊的可能性更高。
OLAP的優點
- OLAP是適用於所有型別業務的平臺,包括計劃,預算,報告和分析。
- OLAP多維資料集中的資訊和計算是一致的。 這是一個至關重要的好處。
- 快速建立和分析“假設”場景
- 輕鬆搜尋OLAP資料庫以獲取廣泛或特定的術語。
- OLAP為業務建模工具,資料探勘工具,效能報告工具提供構建塊。
- 允許使用者通過各種維度,度量和過濾器完成切片和切塊立方體資料。
- 它有利於分析時間序列。
- 使用OLAP可以輕鬆找到一些叢集和異常值。
- 它是一個功能強大的視覺化線上分析處理系統,可提供更快的響
OLAP的缺點
- OLAP要求將資料組織成星形或雪花模式。 這些模式實現和管理起來很複雜
- 您不能在單個OLAP多維資料集中擁有大量維度
- OLAP系統無法訪問事務資料。
- OLAP多維資料集中的任何修改都需要完全更新多維資料集。 這是一個耗時的過程
摘要:
- OLAP是一種技術,使分析師能夠從不同的角度提取和檢視業務資料。
- OLAP的核心是OLAP多維資料集。
- 各種業務應用程式和其他資料操作都需要使用OLAP Cube。
- OLAP中有五種主要的分析操作1)捲起2)向下鑽取3)切片4)骰子和5)旋轉
- 三種廣泛使用的OLAP系統是MOLAP,ROLAP和Hybrid OLAP。
- 桌面OLAP,Web OLAP和移動OLAP是一些其他型別的OLAP系統。