hadoop框架結構的說明介紹

科技 · 發表 2018-10-15 15:54:43

摘要：原標題：hadoop框架結構的說明介紹近年，隨著網際網路的發展特別是移動網際網路的發展，資料的增長呈現出一種爆炸式的成長勢頭。單是谷歌的爬蟲程式每天下載的網頁超過1億個（2000年資料，）資料的爆炸式增長直接推動了海量資料處理技術的發展。谷歌公司提出的大表、分散式檔案系統和分散式計算的三大技術構...

近年，隨著網際網路的發展特別是移動網際網路的發展，資料的增長呈現出一種爆炸式的成長勢頭。單是谷歌的爬蟲程式每天下載的網頁超過1億個（2000年資料，）資料的爆炸式增長直接推動了海量資料處理技術的發展。谷歌公司提出的大表、分散式檔案系統和分散式計算的三大技術構架，解決了海量資料處理的問題。谷歌公司隨即將設計思路開源，發表了具有劃時代意義的三篇論文，很快根據谷歌設計思路的開源框架就出現了，就是如今非常火爆的hadoop、Maperduce和許多Nosql系統。這三大技術也是整個大資料技術的核心基礎。

目前國內的hadoop商業發行版也是比較多，這些hadoop商業版大部分都是由國外發行的，純國產的發行版不是很多，比如DKhadoop，可以說是目前國內自主做hadoop商業版比較好的了。下面就以大快搜索DKhadoop為例來給大家介紹一下hadoop框架結構！

圖示：DKhadoop技術技術架構圖

hadoop框架結構核心：

hadoop的框架結構最核心的設計就是：HDFS和MapReduce。HDFS為海量的資料提供了儲存，MapReduce為海量的資料提供了計算。

大資料一體化開發框架：

大資料的應用開發過於偏向底層，設計技術面非常廣泛，學習的難度自然要大的很多。對於新手入門更是難上加難。DKhadoop則是大快搜索將一系列技術框架在底層進行了重新封裝。把大資料開發中的一些通用的，重複使用的基礎程式碼、演算法封裝為類庫，降低了大俗局的學習門檻，降低開發難度。

DKhadoop框架結構構成模組：

我們以DKhadoop發行版為例：

1、框架由：資料來源與SQL引擎、資料採集（自定義爬蟲）模組、資料處理模組、機器學習演算法、自然語言處理模組、搜尋引擎模組，六部分組成。

2、大快的大資料通用計算平臺（DKH），已經整合相同版本號的開發框架的全部元件。如果在開源大資料框架上部署大快的開發框架，需要平臺的元件支援如下：

（1）資料來源與SQL引擎：DK.Hadoop、spark、hive、sqoop、flume、kafka

（2）資料採集：DK.hadoop

（3）資料處理模組：DK.Hadoop、spark、storm、hive

（4）機器學習和AI：DK.Hadoop、spark

（5）NLP模組：上傳伺服器端JAR包，直接支援

（6）搜尋引擎模組：不獨立釋出

Dkhadoop是大快深度整合，重新編譯後的HADOOP發行版，可單獨釋出。獨立部署FreeRCH（大快大資料一體化開發框架）時，必需的元件。DK.HADOOP整合集成了NOSQL資料庫，簡化了檔案系統與非關係資料庫之間的程式設計；DK.HADOOP改進了叢集同步系統，使得HADOOP的資料處理更加高效。

hadoop框架結構的說明介紹

您可能也會喜歡…