Spark

Spark 排序算法系列之（MLLib、ML）LR 使用方式介紹

2019-05-15 09:16:27

“ 【Spark排序算法系列】主要介紹的是目前推薦系統或者廣告點選方面用的比較廣的幾種演算法，和他們在Spark中的應用實現，本篇文章主要介紹LR演算法。 ”

Spark local模式連線叢集hdfs、hive

稀土掘金

2019-05-14 23:06:09

Spark提供了local、standalone、on yarn等多種執行模式，但為了保持開發環境與實際執行環境的一致性，通常都是在本地編寫程式碼，然後編譯並上傳jar包到Spark叢集除錯執行。但是面對複雜

Spark學習——資料傾斜

稀土掘金

2019-05-04 20:18:41

資料傾斜是一種很常見的問題（依據二八定律），簡單來說，比方WordCount中某個Key對應的資料量非常大的話，就會產生資料傾斜，導致兩個後果： OOM（單或少數的節點）；拖慢整個Job

Apache Spark 記憶體管理詳解(下)

開源技術架構

2019-04-29 11:07:47

導讀：本文是續接上一篇《 Apache Spark記憶體管理詳解(上) 》（未閱讀的同學可以點選檢視）的內容，主要介紹兩部分：儲存記憶體管理，包含 RDD的持久化機制、RDD快取的過程、淘汰和

重磅 | Apache Spark 社群期待的 Delta Lake 開源了

過往記憶大資料

2019-04-26 11:52:50

本文原文（點選下面閱讀原文即可進入） https://www.iteblog.com/archives/2545.html 2019年4月24日在美國舊金山召開的 Spark+AI Summit

基於Spark的機器學習實踐 (七) - 迴歸演算法

簡書

2019-04-15 22:56:08

0 相關原始碼 1 迴歸分析概述 1.1 迴歸分析介紹 ◆ 迴歸與分類類似，只不過迴歸的預測結果是連續的,而分類的預測結果是離散的 ◆ 如此,使得很多回歸與分類的模型可以經過改動

Docker Spark 歷險記（一）

稀土掘金

2019-04-07 21:47:50

CentOS-7-x86_64-Minimal-1810.iso 橋接模式進入虛擬機器之後，查詢ip 地址，需要用到：ipconfig 指令，所以輸入如下指令：

大資料技術之_16_Scala學習_11_客戶資訊管理系統+併發程式設計模型 Akka+Akka 網路程式設計-小黃雞客服案例...

部落格園精華區

2019-04-06 01:25:00

第十五章客戶資訊管理系統 15.1 專案的開發流程 15.2 專案的需求分析模擬實現基於文字介面的《客戶資訊管理軟體》。該軟體 scala 能夠實現對客戶

解決spark streaming長時間執行日誌不斷增長問題

简书

2019-04-02 12:55:39

@[TOC](解決spark streaming長時間執行日誌不斷增長問題) 元件：基於CDH5.13、spark2.2.X 背景：由於s

SparkSQL執行時引數優化

Linux公社

2019-04-01 20:33:57

近期接手了不少大資料表任務排程補資料的工作,補數時發現資源消耗異常的大且執行速度卻不怎麼給力. 發現根本原因在於sparkSQL配置有諸多問題,解決後總結出來就當拋磚引玉了.

Spark學習（三）——Stage和寬窄依賴

稀土掘金

2019-04-01 13:54:54

指父RDD的每一個分割槽最多被一個子RDD的分割槽所用，表現為一個父RDD的分割槽對應於一個子RDD的分割槽，和兩個父RDD的分割槽對應於一個子RDD 的分割槽。圖中，map/filter和union屬於第一類

Spark+Hbase 億級流量分析實戰（ PV/UV ）

稀土掘金

2019-03-29 17:48:27

作為一個百億級的流量實時分析統計系統怎麼能沒有PV /UV 這兩經典的超級瑪麗亞指標呢，話說五百年前它倆可是鼻祖，咳咳...，不好意思沒忍住，迴歸正文，大豬在上一篇已經介紹了小巧高效能ETL程式設計與實

Spark streaming消費Kafka的正確姿勢

稀土掘金

2019-03-26 11:58:34

前言在遊戲專案中，需要對每天千萬級的遊戲評論資訊進行詞頻統計，在生產者一端，我們將資料按照每天的拉取時間存入了Kafka當中，而在消費者一端，我們利用了spark streaming從kafka中不斷拉取

【Spark調優】小表join大表資料傾斜解決方案

部落格園精華區

2019-03-24 00:23:00

【使用場景】對RDD使用join類操作，或者是在Spark SQL中使用join語句時，而且join操作中的一個RDD或表的資料量比較小（例如幾百MB或者1~2GB），比較適用此

Spark Core

部落格園精華區

2019-03-19 12:50:00

Spark Core DAG概念有向無環圖 Spark會根據使用者提交的計算邏輯中的RDD的轉換(變換方法）和動作（action方法）來生成RDD之間的依賴關係，同時這個計算鏈也就生成了邏輯