hadoop – 大資料和資料探勘有什麼區別?
如Wikpedia所言
The overall goal of the data mining process is to extract informationfrom a data set and transform it into an understandable structure forfurther use
這與大資料有什麼關係?如果我說Hadoop正在以並行方式進行資料探勘,是正確的嗎?
大資料是一切
大資料是營銷術語,而不是技術術語.一切都是大資料這些天.我的U盤現在是一個“個人雲”,而我的硬碟是大資料.認真.這是一個完全不具體的術語,主要是由各種非常樂觀的公司的營銷部門以及主要公司的C * Os所購買的,以使魔術發生.
資料探勘是舊的大資料
實際上,資料探勘就像過度使用一樣,這可能意味著任何事情
收集資料(認為NSA)
>儲存資料
機器學習/ AI(早於資料探勘術語)
>非ML資料探勘(如“知識發現”中,資料探勘術語實際上是創造的;但重點在於新知識,而不是學習現有知識)
>業務規則和分析
>視覺化
>任何涉及資料的東西,你想出售卡車的錢
只是營銷需要一個新的術語. “商業智慧”,“商業分析”,…他們仍然繼續銷售相同的東西,現在只是重新命名為“大資料”.
大多數“大”資料探勘並不大
由於大多數方法 – 至少那些給出有趣結果的方法 – 只是不縮放,大多數資料“開採”實際上並不大.這顯然比10年前大得多,但不如Exabytes大. KDnugget的調查顯示,有1-10 GB是平均“分析的最大資料集”.任何資料管理手段都不是很大的資料;使用複雜的方法可以分析什麼呢? (我不是在說平凡的演算法,如k-means).
大多數“大資料”不是資料探勘
現在“大資料”是真實的. Google擁有大資料,而CERN也擁有大量資料.大多數人可能不會.資料開始很大,當你需要1000臺電腦來儲存它.
大資料技術,如Hadoop也是真實的.它們並不總是被明智地使用(不要麻煩地執行不到100個節點的hadoop叢集),因為這可能可以從精選的非叢集機器獲得更好的效能),但是當然人們寫這樣的軟體.
但是大部分正在做的不是資料探勘.這是ofollow,noindex" target="_blank">Extract, Transform, Load (ETL) ,所以它正在取代資料倉庫.而不是使用具有結構,索引和加速查詢的資料庫,資料只是被轉儲到hadoop中,當你想出了要做什麼,你重新讀取所有的資料,並提取你真正需要的資訊,轉換它和將其載入到excel電子表格中.因為選擇,提取和轉化後,通常不是“大”了.
資料質量受到影響
大資料的許多營銷承諾將不成立.對於絕大多數公司而言,Twitter對於廣告來說無非常少見(除非您是青少年的搖滾明星) Twitter使用者群受到很大的偏見.糾正這種偏見是困難的,需要經驗豐富的統計人員.
資料偏差是一個問題 – 如果您只是從網際網路或應用程式中收集一些隨機資料,通常不具有代表性;特別是不是潛在的使用者.相反,如果您不設法取消這些效果,您將會對現有的重型使用者過度使用.
另一個大問題就是噪音.您有垃圾郵件機器人,還有其他工具(認為Twitter的“趨勢主題”導致“趨勢”的加強),使資料比其他來源更加重要.清理這些資料很難,而不是技術問題,而是統計領域的專業知識.例如,Google流感趨勢被重複發現是相當不準確的.它在一些較早的年份(可能是因為過度配合)而工作,但不再是質量好的.
不幸的是,很多大資料使用者對此並不太關注;這可能是大多數大型資料專案似乎失敗的原因之一(其他是無法管理,膨脹和不切實際的期望,缺乏公司文化和技術人員).
Hadoop!=資料探勘
現在你的問題的第二部分. Hadoop不做資料探勘. Hadoop管理資料儲存(通過HDFS,一種非常原始的分散式資料庫),並且可以計劃計算任務,從而可以在儲存資料的相同機器上執行計算.它沒有做任何複雜的分析.
有一些工具試圖將資料探勘帶到Hadoop.特別是,Apache Mahout可以稱之為官方Apache嘗試在Hadoop上進行資料探勘.除了它主要是機器學習工具(機器學習!=資料探勘;資料探勘有時使用機器學習的方法). Mahout的一些部分(如聚類)遠未達到先進水平.問題是Hadoop對線性問題很有好處,但大多數資料探勘並不是線性的.而非線性演算法不僅僅是擴充套件到大資料;您需要仔細地開發線性時間近似,並以精確的損失來實現 – 損失必須小於通過簡單處理較小資料而損失的損失.
這個權衡問題的一個很好的例子是k-means. K-means實際上是(大多數)線性問題;所以它可以在Hadoop上有些執行.單個迭代是線性的,如果你有一個很好的實現,它將擴充套件到大資料.然而,直到收斂的迭代次數隨著資料集大小而增長,因此它不是真正的線性.然而,由於這是一種查詢“手段”的統計方法,所以結果實際上並不會隨資料集大小而改善.所以當你可以在大資料上執行k-means時,它並沒有多大意義 – 你只需要對資料進行抽樣,執行高效的單節點版本的k-means,結果將會一樣好因為額外的資料只是給你一些額外的數字的精度的值,你不需要那麼精確.
由於這適用於相當多的問題,Hadoop上的實際資料探勘似乎沒有開始.每個人都試圖做到這一點,很多公司都賣這個東西.但它並不比非大版本好多了.但只要客戶想買這個,公司就會賣這個功能.只要它獲得了一筆資金,研究人員就會在此寫論文.無論它是否工作.這就是生命.
這些事情有幾種情況可行. Google搜尋就是一個例子,而Cern.而且影象識別(但不是使用Hadoop,GPU的叢集似乎是去那裡的方式)最近受益於資料量的增加.但是在任何這些情況下,您都有相當乾淨的資料. Google索引所有內容Cern放棄任何非有趣的資料,只分析有趣的測量 – 沒有垃圾郵件傳送者將其垃圾郵件提供給Cern …並且在影象分析中,您可以對預先選定的相關影象進行訓練,而不是在網路攝像機或網際網路上的隨機影象(以及如果是,您將它們視為隨機影象,而不是代表性的資料).
http://stackoverflow.com/questions/22419958/what-is-the-difference-between-big-data-and-data-mining