Spark

Spark local模式連線叢集hdfs、hive

Spark提供了local、standalone、on yarn等多種執行模式,但為了保持開發環境與實際執行環境的一致性,通常都是在本地編寫程式碼,然後編譯並上傳jar包到Spark叢集除錯執行。 但是面對複雜

Spark學習——資料傾斜

資料傾斜是一種很常見的問題(依據二八定律),簡單來說,比方WordCount中某個Key對應的資料量非常大的話,就會產生資料傾斜,導致兩個後果: OOM(單或少數的節點); 拖慢整個Job

Apache Spark 記憶體管理詳解(下)

導讀:本文是續接上一篇《 Apache Spark記憶體管理詳解(上) 》(未閱讀的同學可以點選檢視)的內容,主要介紹兩部分:儲存記憶體管理,包含 RDD的持久化機制、RDD快取的過程、淘汰和

基於Spark的機器學習實踐 (七) - 迴歸演算法

0 相關原始碼 1 迴歸分析概述 1.1 迴歸分析介紹 ◆ 迴歸與分類類似,只不過迴歸的預測結果是 連續 的,而分類的預測結果是 離散 的 ◆ 如此,使得很多回歸與分類的模型可以經過改動

SparkSQL執行時引數優化

近期接手了不少大資料表任務排程補資料的工作,補數時發現資源消耗異常的大且執行速度卻不怎麼給力. 發現根本原因在於sparkSQL配置有諸多問題,解決後總結出來就當拋磚引玉了.

Spark學習(三)——Stage和寬窄依賴

指父RDD的每一個分割槽最多被一個子RDD的分割槽所用,表現為一個父RDD的分割槽對應於一個子RDD的分割槽,和兩個父RDD的分割槽對應於一個子RDD 的分割槽。圖中,map/filter和union屬於第一類

Spark+Hbase 億級流量分析實戰( PV/UV )

作為一個百億級的流量實時分析統計系統怎麼能沒有PV /UV 這兩經典的超級瑪麗亞指標呢,話說五百年前它倆可是鼻祖,咳咳...,不好意思沒忍住,迴歸正文, 大豬 在上一篇已經介紹了 小巧高效能ETL程式設計與實

Spark streaming消費Kafka的正確姿勢

前言 在遊戲專案中,需要對每天千萬級的遊戲評論資訊進行詞頻統計,在生產者一端,我們將資料按照每天的拉取時間存入了Kafka當中,而在消費者一端,我們利用了spark streaming從kafka中不斷拉取

Spark Core

Spark Core DAG概念 有向無環圖 Spark會根據使用者提交的計算邏輯中的RDD的轉換(變換方法)和動作(action方法)來生成RDD之間的依賴關係,同時這個計算鏈也就生成了邏輯

1715340883.1555