母嬰電商分析
資料分析5步驟
提出問題
理解資料
資料清洗
構建模型
資料視覺化
一、提出問題
不同年齡的商品購買量;
商品品類在男嬰、女嬰的消費分佈;
二、理解資料
在阿里雲天池上獲取了兒童電商相關的資料
Tianchi:Data setstianchi.aliyun.com 商品表格欄位 嬰兒資訊欄位 在任意單元格上,單擊滑鼠右鍵,點選設定單元格格式;
對照如下表格,確定資料型別;(注:字串型別左對齊、數字型別右對齊)
3.為了方便後面分析,我需要把表2中的出生日期、性別合併到表1中,這裡需要用到Vlookup函式,利用使用者ID去獲取表2中的出生日期、性別
4.根據出生日期、購買日期算出兒童購買年齡=(購買日期-出生日期)/365
三、資料清洗
選擇子集
列名重新命名
刪除重複值
缺失值處理
一致化處理
資料排序
異常值處理
1.選擇子集
選擇資料分析需要用到的列,不需要的列通過點選滑鼠右鍵>點選隱藏,如果需要把隱藏的列展示出來,可以先全選表格,點選滑鼠右鍵>點選取消隱藏。
2.列名重新命名
商品表格欄位:
user_id:使用者ID
auction_id:使用者行為
cat_id:商品種類編號
cat:商品序列號
property:商品屬性
buy_mount:購買數量
day:購買日期
商品表格欄位 嬰兒資訊欄位:
user_id:使用者ID
birthday:出生日期
gender:性別
嬰兒資訊欄位 3.刪除重複值
因為使用者ID是唯一標識,所以通過這一列的值去確定有沒有重複值。在選項卡點選資料>點選刪除重複項。
4.缺失值處理
因為使用者ID是資訊的唯一標識,所以通過使用者ID去確定其他列有沒有缺失的數值,如果有缺失值,該如何對缺失值進行處理,有4種方法:
人工補全缺失值
刪除缺失值
平均值代替缺失值
統計模型代替缺失值
這裡針對人工補全缺失值詳細說明一下,選擇整列>點選編輯>點選查詢>點選定位>點選定位條件>選擇空值>點選確定,定位到缺失值後,先輸入值,輸入完成後點選ctrl+enter,其他空白單元格都變成了剛剛輸入的值。
5.一致化處理
有些單元格的多個值,這會影響到後面資料分析的結果,所以需要做一致化的處理。可以使用Excel的分列功能,將某一列按照特定的規則拆分,需要注意的是分列功能會覆蓋到右列單元格,所以在分列之前先把要分列的列複製到最後一列,複製後可以把原來的列隱藏掉。
然後通過下面步驟,完成分列,選擇資料選項卡>選擇分割符號>點選下一步>勾選連續分隔符號視為單個處理、勾選其他(在輸入框中輸入要進行分割的符號)>點選下一步>點選完成
有些列雖然有數字,但是是文字格式,不方便後面計算,計算的時候可能會用到Excel函式。可以按照下面步驟,計算值,選中要插入函式的單元格>點選公式選項卡下面的插入函式功能>選擇函式要輸入的資料>點選確定
常用函式如下:
Find查詢一個字串在另一個字串中出現的起始位置
Find(要查詢的字串,字串所在單元格位置)
擷取字串中的內容:left,Right,Mid
left/Right(字串所在單元格位置,從左/右開始到XX位置進行擷取)
Mid(字串所在單元格位置,開始位置,擷取長度)
find函式與left、Right、Mid函式配合使用,可以擷取字串中的任何內容。
通過篩選功能,可以檢視哪些數值有錯誤,點選資料選項卡下的篩選,在彈出的彈框中拉倒最下面
6資料排序
把年齡項按照降序排列,點選功能區的排序和篩選,在出現的彈框中注意勾選擴充套件選定區域。
7.異常值處理
篩選出異常值,隱藏有異常值的行,再把完整數值行/列複製到新的表格裡,因為如果在原表格,後面用到資料透視表分析的時候,也會取異常值,所以需要把需要分析的值複製到新建的表格。
四、構建模型
現在針對剛開始提出的問題構建模型:
不同年齡的商品購買量
插入資料透視表,把年齡項拖入行,把購買數量拖入計數項
各商品品類男童、女童的購買量對比 插入資料透視表,把性別拖入行,購買數量拖入計數項,商品序列號拖入列
通過資料分析 >描述統計可以分析出消費者的年齡分佈情況
五、資料視覺化