人人都要懂資料分析
資料不會說謊,但是使用資料的人會利用資料說謊,想要不掉進資料的陷阱,首先你必須懂資料。
本文的靈感來自Khan academy的宣傳視訊 You can learn anything!
The most beautiful, complex concepts in the whole universe are built on basic ideas that anyone, anywhere can understand.
Whoever you are, wherever you are, you only have to know one thing: You can learn anything!
我與資料的淵源起於高中吧,之前數學一直平平,高一遇到了一個好老師突然開竅數學一直都不錯。後來到了大學商學院基礎課程中有統計,研究生專修市場分析學,更系統的學習了統計學,搞搞聚類因子分析、決策樹和邏輯迴歸模型啥的(捂臉都忘了)。
第一份工作天天寫SAS程式碼,後面的工作更多是對資料的解讀和分析,我覺得吧,其實不管從事什麼工作,都需要懂資料分析。
正所謂“流氓懂科學,誰也擋不住”。如今越來越多的複雜統計資料像潮水般向我們湧來,一批又一批的調查結果,都顯得那麼鏗鏘有力,似乎那就是客觀事實。統計陷阱被科學流氓們包裝的越發完美,一不小心就把我們忽悠了。
先不論其他的目的,為了防止被忽悠,培養批判性思考的能力,我們要學學資料分析!
資料解讀,正確的資料解讀,是所有資料分析工作最關鍵的一步,這一步錯了,前面的所有努力都是白搭,然後,往往很多人簡單的以為“資料會說話”,他們認為把資料處理完一擺就ok了
倖存者偏差(Survivorship bias),另譯為“生存者偏差”或“存活者偏差”,駁斥的是一種常見的邏輯謬誤(“謬誤”而不是“偏差”),這個被駁斥的邏輯謬誤指的是隻能看到經過某種篩選而產生的結果,而沒有意識到篩選的過程,因此忽略了被篩選掉的關鍵資訊。
這東西的別名有很多,比如“沉默的資料”、“死人不會說話”等等。
在日常生活中,最明顯的例子就是“我親戚吃這個藥好了”或者“我一個朋友去找了這個老中醫”等等。
不管你的親戚和朋友和你關係如何好,如何值得信任和尊重,在客觀規律面前他們都是等同的。疾病和醫藥不會因為你的喜好而照顧或者偏袒你的親朋。
如何應對呢?最明顯的辦法當然是讓“死人”說話。雙盲實驗設計和詳細全面客觀的資料紀錄都是應對“倖存者偏差”的良方。
所謂“兼聽則明”也是這個道理,拋掉對個案的迷信,全面系統的瞭解才能克服這個偏差。
美國人的錢袋長、高都是羅坦提亞木匠的兩倍,看起來挺忠實於資料的,但是右邊錢袋實際佔用的面積就是左邊的4倍。
這幅影象導致的暗示效果其實還沒完,因為在生活中錢袋都是立體的,所以每個讀者看到這個錢袋的時候會不經意地給它加上一個厚度,這樣一來,在有些人眼裡這幅圖表達的明明是美國木匠的收入是羅坦提亞的8倍——這樣的印象完全脫離了原始資料所給出的資訊,無疑是一次成功的誤導。
在美國與西班牙交戰期間,美國海軍的死亡率是 9‰,而同時期紐約市居民的死亡率是 16‰。後來海軍徵兵人員就用這些資料來證明參軍更安全。
如果假定這些資料是正確的,那 麼促使這種差異產生的真正原因是什麼?海軍徵兵人員根據兩個資料的差異得出的結論是否正確?
這兩組物件是不可比的。海軍主要由那些體格健壯的年輕人組成,而城市居民包括嬰兒、 老人、病人,他們無論在哪兒都有較高的死亡率。這些資料根本不能說明符合參軍標準的人 在海軍會比在其他地方有更高的存活機 會,相反的結論也不能證明。
在上例中,當抽菸與低分同時出現時,人們得到了一個未經證實的假設,抽菸導致低分。
難道就不能是相反的解 釋嗎?也許低分促使學生不喝酒而變得愛抽菸。這種說法與前一種一樣能得到證據很好的支撐。只是它不能夠滿足宣傳人員的要求。然而,更大的可能性是兩個周素並不互為因果,而同為第三個因素的產物。
是否那些不把讀書當回事的愛社交的學生更愛抽菸?又或者是否可以在有人曾經建立的性格外向與成績之間的相關關係(其相關性比成績和智力的相關性更高)上找到線索?也許,性格外向的學生比性格內向的更愛抽菸。
一種相關是由於機緣巧合而產生的。由於機會的存在,你或許可以通過一組資料來證明 一些根本不存在的結論。但換一組資料也許又無法證明。就像自稱能防止蛀牙的牙膏生產廠商,你只需將對自己不利的資料扔到一邊而公開你需要的結論就能達到目的。
利用小樣本, 任意兩個你能想到的事件或兩組特性之間都能建立顯著的相關。
本文由@cyx1106 原創釋出於人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基於CC0協議