大資料儲存和管理是真正的基礎,頂級的大數
如今,為了滿足企業的主要需求,大資料工具正在迅速得到應用。在大資料技術作為概念和業務戰略出現的十年中,湧現了執行各種任務和流程的數千種工具。而推出這些工具的提供商都承諾可以為企業節省時間和成本,並發現能夠讓企業獲利的商業洞察力。顯然,大資料分析工具的市場正在不斷增長。
許多大資料分析工具最初像大資料軟體框架Hadoop一樣都是開源專案,但商業實體迅速湧現,為開源產品提供了新工具或商業的支援和開發。
而在這些工具中選擇是一個挑戰,特別是許多大資料工具只具有單一用途,而企業需要使用大資料完成許多不同的任務,因此企業的分析工具箱會變得過於充實。根據這個行業領域的專家顧問的建議,以下列出一系列主要的大資料分析工具,並列出三個主要類別。
主要的大資料工具
如上所述,大資料工具都傾向於單一使用類別,並且有多種使用大資料的方式。所以可以按類別分類,然後分析每個分析工具。
大資料工具:資料儲存和管理
大資料都是從資料儲存開始。這意味著從大資料框架Hadoop開始。它是由Apache Foundation開發的開源軟體框架,用在計算機叢集上分散式儲存非常大的資料集。
顯然,儲存對於大資料所需的大量資訊至關重要。但更重要的是,需要有一種方式來將所有這些資料集中到某種形成/管理結構中,以產生洞察力。因此,大資料儲存和管理是真正的基礎,而沒有這樣的分析平臺是行不通的。在某些情況下,這些解決方案包括員工培訓。
而這個領域的主要的大資料工具有:
1. Cloudera
基本上,Hadoop增加了一些額外的服務,企業將需要這些服務,因為大資料並不是一個簡單的練習。 Cloudera的服務團隊不僅可以幫助企業構建大資料叢集,還可以幫助培訓員工更好地訪問資料。
2. MongoDB
MongoDB是最流行的大資料資料庫,因為它適用於管理大資料經常出現的非結構化資料或頻繁更改的資料。
3. Talend
作為一家提供廣泛解決方案的公司,Talend的產品是圍繞整合平臺構建的,該平臺結合了大資料、雲端計算、應用程式,以及實時資料整合、資料準備和主資料管理。
Talend大資料整合包括資料質量和治理功能
大資料工具:資料清理
在企業真正處理大量資料以獲取洞察資訊之前,先需要對其進行清理、轉換並將其轉變為可遠端檢索的內容。大資料集往往是非結構化和無組織的,因此需要進行某種清理或轉換。
在這個時代,資料的清理變得更加必要,因為資料可以來自任何地方:行動網路、物聯網、社交媒體。並不是所有這些資料都容易被“清理”,以產生其見解,因此一個良好的資料清理工具可以改變所有的差異。事實上,在未來的幾年中,將有效清理的資料視為是一種可接受的大資料系統與真正出色的資料系統之間的競爭優勢。
4. OpenRefine
OpenRefine是一款易於使用的開源工具,通過刪除重複項、空白欄位和其他錯誤來清理凌亂的資料。它是開源的軟體,但它有一個可以提供幫助的大型社群。
5. DataCleaner
與OpenRefine類似,DataCleaner將半結構化資料集轉換為資料視覺化工具可讀取的乾淨可讀的資料集。該公司還提供資料倉庫和資料管理服務。
6. Microsoft Excel
人們可以從各種資料來源匯入資料。Excel對手動資料輸入和複製/貼上操作特別有用。它可以消除重複、查詢、替換,拼寫檢查以及用於轉換資料的許多公式。但它很快陷入困境,並不適用於大資料集。
大資料工具:資料探勘
一旦資料被清理並準備好進行檢查,就可以通過資料探勘開始搜尋過程。這就是企業進行實際發現、決策和預測的過程。
資料探勘在很多方面都是大資料流程的真正核心。資料探勘解決方案通常非常複雜,但力求提供一個令人關注和使用者友好的使用者介面,這說起來容易做起來難。資料探勘工具面臨的另一個挑戰是:它們的確需要工作人員開發查詢,所以資料探勘工具的能力並不比使用它的專業人員強。
7. RapidMiner
RapidMiner是一款易於使用的預測分析工具,具有非常使用者友好的視覺化介面,這意味著企業無需編寫程式碼,即可執行分析產品。
8. IBM SPSS Modeler
IBM SPSS Modeler是一套適用於企業級的高階分析的產品,用於資料探勘。而IBM的服務和諮詢無疑是首屈一指的。
9. Teradata
Teradata為資料倉庫、大資料和分析以及市場營銷應用提供端到端解決方案。這一切意味著企業的業務可以真正成為一個數據驅動的業務,並提供商業服務、諮詢、培訓和支援。
像許多當前的大資料工具一樣,RapidMiner解決方案也包含雲端計算解決方案
大資料工具:資料視覺化
資料視覺化是企業的資料以可讀的格式顯示的方式。這是企業檢視圖表和圖形以及將資料放入透檢視中的方法。
資料的視覺化與科學一樣,是一種藝術形式。而大資料公司將擁有越來越多的資料科學家和高階管理人員,很重要的一點是可以為員工提供更加廣泛的視覺化服務。銷售代表、IT支援、中層管理等這些團隊中的每一個成員都需要理解它,因此重點在於可用性。但是,易於閱讀的視覺化有時與深度特徵集的讀取不一致,這成為了資料視覺化工具的一個主要挑戰。
10. Tableau
作為這一領域的領導者之一,其資料視覺化工具專注於商業智慧,無需程式設計即可建立各種地圖、圖表、圖形等等。Tableau總共有五款產品,其中有一個名為Tableau Public的免費版本供潛在客戶試用。
11. Silk
Silk是一種簡單版本的Tableau,Silk可讓企業將資料視覺化為地圖和圖表,而無需任何程式設計。它甚至會嘗試在第一次載入時自動將資料視覺化。它還使得線上釋出結果變得容易。
12. Chartio
Chartio使用自己的視覺化查詢語言,只需點選幾下即可建立功能強大的儀表板,而無需瞭解SQL或其他建模語言。與其他不同的是,企業直接連線到資料庫,因此不需要資料倉庫。
IBM Watson Analytics
IBM Watson Analytics是機器學習(ML)和人工智慧(AI)的結合,可幫助提供智慧資料科學助理,為業務分析師和資料科學家提供廣泛的資料科學技能集的使用者指南。
三層大資料工具
普華永道移動資料和分析計劃首席技術官Ritesh Ramesh說,就精密程度和市場戰略而言,大資料工具分解為三層。
第一層:也是最大的一層,是一系列開源工具。每家公司都以這種方式開始,像Cloudera和Hortonworks。除了基本的基礎設施。伺服器和儲存之外,價值非常小。大多數雲端計算廠商已經將這一層實現商品化。
第二層:這是大多數這些供應商已經意識到需要增加他們的市場份額的地方,他們必須在開放原始碼工具之上構建一些專有應用程式,從而與其他供應商區分開。例如,Cloudera公司構建了一些類似於Hadoop核心中的資料科學平臺。
第三層:這些是垂直專用的應用程式。這些公司大多與普華永道、Cognizant或埃森哲等系統整合商合作。這就是真正的價值所在,而且這也是大資料工具製造商非常有效的競爭策略。
Ramesh說,除了基本功能之外,還有三個工具需求領域。首先是資料處理工具。他說,“資料學習工具是客戶進行資料質量和效能分析的工具包中的重要工具,可處理5000萬行資料,以發現洞察力。”
他說,行業領先的供應商還包括Trifacta,Paxata和Talend公司。
第二大類應用程式是治理的應用程式,例如企業如何擁有元資料定義。“很多人都為此而努力。人們將大量垃圾轉儲到資料湖中。市場上沒有多少工具可以在資料湖中有效地工作。由於大部分這項工作都是由IT人員完成的,他們更有興趣將資料輸入到資料湖中,而不是將治理結構置於其周圍。”Ramesh說。
這個行業領域的頂級供應商:Waterline Data,Tamr的資料編目工具和Collibra。
經常出現的第三類需求是安全性的應用程式。Ramesh說,“人們希望單一產品具有所有安全訪問層、列、行和物件。他們希望支援差異資料物件的使用者訪問和安全性的產品。”
這個行業領域的主要供應商是Wandisco公司和FireEye公司。
在不久的將來,多智時代一定會徹底走入我們的生活,有興趣入行未來前沿產業的朋友,可以收藏 ofollow,noindex" target="_blank"> 多智時代 ,及時獲取人工智慧、大資料、雲端計算和物聯網的前沿資訊和基礎知識,讓我們一起攜手,引領人工智慧的未來!