積累:入行資料分析第二年
本文是作者在2018年10月16日眾智匯社群分享的記錄。由 @kellie 記錄整理。
作者 : 倪雪華 ,某 網際網路金融公司資深分析師 。
2013年從985院校化學專業碩士畢業,進入化工廠成為實驗員。2016年經過數月自學,轉行成為網際網路公司資料分析師。現在知名網際網路金融公司,負責信用評分產品的建模工作。
雪華是我們眾智匯社群從傳統行業轉行資料分析的成功範例!
之前曾分享轉行經驗,及入行第一年的奮鬥經過:
-
OA==&mid=2652729815&idx=1&sn=bc22bf279831a23d28cc1467229d3399&chksm=805c1b64b72b9272e7af489fb2c6b68cfa57320182e2ddf796f365e66f850c24bb01de361259&scene=21#wechat_redirect" target="_blank" rel="nofollow,noindex"> 《三個月,從化工實驗員到資料分析師》
如今,雪華為我們帶來了入行第二年的經歷分享:
從去年5月底入職目前所在公司後,一直從事網際網路金融風控相關的建模工作,截止到今天大概有一年零五個月了。
這次分享的主題就是兩個字——積累! 這一年主要是在積累,積累經驗、技術和職場軟技能。
積累互金行業業務經驗
對於網際網路金融行業,經驗的積累主要是指業務能力的積累。
網際網路金融的業務類別
大家都知道網際網路金融分很多類別:
-
抵押貸,就是房貸、車貸;
-
信用貸——信用卡以外的信用貸,比如宜人貸之類的信用貸;
-
消費分期貸,又分為很多細類:買衣服、買手機、買網際網路課程的消費分期貸款等等;
-
小額現金貸——額度比較低的現金貸款,可能就500或者1000,最多1500塊。
我在上一家公司,只做手機3C業務——手機的消費貸,接觸的貸款型別單一, 進入現公司後,接觸的業務型別明顯多了,有了業務感覺上的積累。
信用模型 vs 欺詐模型
而且,在上家公司我做的是手機3C業務的信用模型,而 現在主要負責欺詐模型,這兩者有很大的區別。
信用模型計算各項總分,看整體結果,但欺詐模型卻緊盯短板。
如果你是一個學歷比較低的人,那麼學歷這一項的信用分就會比較低,但是模型的綜合輸出可以通過其他特徵進行補償。
比如你是已婚,是女性,或者從事的工作是公務員之類相對有保障的職業,那麼這些方面的分數會比較高。
最後累加各項得分得出信用分。即使一個人某一項分比較低,也可以通過其他項來得到綜合高分。因此信用模型 會有補償。
欺詐模型中不管各項指標有多麼得好,只要有一項出現欺詐風險,就是欺詐。
現在我能夠很輕鬆地跟大家解釋清楚 兩者區別 。但就這一點,我是狠狠地花了好幾個月功夫,才瞭解清楚,知道欺詐模型的精髓的!
小額現金貸 vs 大額信貸
市面上面能看到的關於風控模型的書基本都是針對大額信貸的。大額信貸跟普通銀行貸款、信用卡借款、房貸、銀行信用貸款有很大相似。
而小額現金貸,則是和額度比較低的消費分期,例如手機分期類似。這方面的就資料非常少。
而且, 小額現金貸出現得很晚,是一種非常年輕的信貸產品,大概一直到去年春節前後才興起。 所以市面上也沒有什麼現成的資料可以借鑑,就需要自己摸索。
小額現金貸剛出來的時候,鼓吹用機器學習整合弱相關變數訓練模型。後來實踐證明弱相關變數要跟強相關變數結合使用才可以。
開始的時候,大家都還不能確定小額現金貸的強相關變數,所以很難做。經過 一年多的積累,慢慢摸索出來一些強相關、預測力準的變數。
這個強相關變數摸索過程是各家機構、各個公司都必然經歷的。我個人感覺,這個過程就是靠想象、靠靈感。
比如我剛進公司的時候做的一個社交關係網的模型——拿到的資料是所有客戶的通訊錄,要求我根據通訊錄做一個社交關係網的模型出來。
整個建模的摸索過程非常痛苦,用了很長時間。最後摸索出來了:將聯絡人分為一階聯絡人和二階聯絡人,比如a打電話給b,b又打電話給c,那麼b就是a的一階聯絡人,c就是a的二階聯絡人。
現在這種方法在市場上比較多,但是一開始都是大家在摸索。當時幸虧有 我們老闆帶著,以我自己當時的水平肯定做不出來的。
在工作的過程中,會發現一些 反業務直覺的事情。 舉個例子——
我們原本認為:如果一個人借過小額現金貸(比如曾經借過500塊或者1000塊錢),再來借1萬塊錢的大額信貸,這個人很大概率上就是一個壞客戶!
為什麼呢?我們這麼想:因為這1萬塊錢的額度就算分12期還,每個月要還的錢也有一兩千塊。如果這個人連500到1000塊錢都需要借,說明其還款能力是有問題的。
那麼反過來,如果一個人先借了大額信貸,再來借小額現金貸,我們也認為此人會是一個壞客戶!
這種情況下我們想的是:這個人已經借了大額貸款,都有這麼多錢了,還來借小額現金貸,連500、1000塊錢都仍然想要,說明這個人就是來騙錢、套現的。
以上是我們直覺的考慮。 但實際上,通過資料分析發現,小額現金貸人群的表現並不是這樣的,是否借過大額信貸跟小額現金貸的還款行為沒有強相關關係!
這些都在長期的實踐過程中,日積月累下來的業務經驗。沒有什麼捷徑可走,只能是自己一點一滴地慢慢地積累。
積累 資料分析技術、工具
除了經驗,技能的積累也非常重要。主要包括: 模型、程式碼,和資料庫。
模型
我們常用的模型有:邏輯迴歸、Lasso、隨機森林、決策樹等。
在動手做專案前,單純從書本上學習到的對模型的理解,和反覆調模參以獲得更高 預測準確率 過程中認識到的模型,是不一樣的。
對模型的引數的理解,以及衡量指標(比如準確率、ROC之類)的認識,都是很不同的。
需要在長時間的實踐中,多次建模、調參的過程中慢慢積累, 實踐、探索、琢磨,才能夠比較深刻地理解它們的意義。
程式碼
我習慣用的資料分析工具是SAS。做資料分析的很多人都用Python和R。
現在我也開始用Python和R了,主要是因為:
-
一方面有些機器學習模型SAS支援得不好;
-
另一方面SAS無法並行工作,一旦開始跑一個需要很長時間的程式,SAS就不能在接受新任務了,只能等著。
在等SAS的間隙,我會用Python來做一些簡單的工作,這樣就會比較充分地利用時間。
其實我也沒有系統地學過SAS,最開始就是拿前輩寫好的現成程式碼自己慢慢改,想要什麼功能就去百度,這樣一點一點學的。
這樣做固然上手快,但基礎很不紮實。 SAS執行的原理不是很清楚,隨之而來的問題是:寫出來的程式碼可以跑出結果,但是執行速度不夠快。
工作任務繁重的時候,需要快速地計算出結果,這就要優化程式碼。我優化程式碼的能力也是在實踐的過程中慢慢地學習和積累的。
資料庫
我們公司用的資料庫是Oracle。
上一家公司雖然也用Oracle,但是因為業務也比較單一,IT的同事負責把我們風控建模可能用到的所有資料做成了一個大表(table),我只要查詢單一table就可以了。
來了現在公司之後,發現數據庫裡有各種各樣的表,各種各樣的關聯方法。光資料之間的關聯,我都理解了很長時間。
經過一段時間,對於Oracle的資料庫慢慢熟悉起來,對它們互相關聯的套路也比較瞭解了之後,查詢資料庫就簡單多了。
工作流程和方法
每次老闆給了一個新任務之後,需要:
-
快速地熟悉和了解資料;
-
結合老闆的目標,自己的業務感覺和資料庫裡能夠拿到的資料,迅速地找到能夠完成這個目標的路徑或者方法;
-
沿著自己的思路一步一步去實現這個目標。
如果出現了問題,能夠想到用什麼樣的方法去解決這個問題。如果問題解決不了,能夠找到解決問題的方法,或者能知道去哪兒找。
這些都是在實踐中慢慢積累的。
積累 職場軟技能
業務和技術屬於硬技能,溝通、協調、向上管理等職場軟技能,也是必須積累的。
說來慚愧,我已經工作五年了。按理來說,工作五年的人應該比較能夠信手拈來了,但是我 還在學習職場的套路。
溝通和協調
溝通和協調能力比較重要, 尤其是當你獨當一面的時候。
比如,要推動一個產品上線,要協調的部門就會很多——要協調產品部,既要完成預計的功能,又要保證產品質量和效能;要協調IT部,討論資源上的分配問題;還要協調BD部門,收集客戶的反饋,保持與客戶的順暢溝通;其他還有運維等部門,都要協調。
我感覺自己的溝通和協調做得不好,但是我在努力學。
最近剛剛 學會兩招 :
-
當其他同事的工作成果與你的預想相差甚遠,甚至可能根本達不到要求時,首先要再在領導面前肯定他們的工作,畢竟人家努力了; 然後再提出改進意見。不然人家心裡會有意見。
-
和其他部門溝通時,常會遇到一些問題,雙方各有自己的考慮。怎麼說服別人來達到你想要的目標呢?就要找對方的痛點!
比如,我喜歡爬山,想找同事陪我去爬山。有一個同事很猶豫,又想去玩,又沒有動力,跟他怎麼說他都一直在猶豫。
有一天我發現他是佛教徒,我就說:咱們可以去爬鳳凰嶺,那裡有一個龍泉寺,可以去拜一拜。這樣他就有動力了。
向上管理
向上管理,我也是最近才剛剛開始學。網路上有很多講向上管理的課,大家也可以去聽一聽。
我個人的感覺:老闆對員工是有期望的。可能一開始,老闆的期望比較低,如果員工完成任務的水平超出了期望,TA就會調高期望。
那麼對於員工而言,如果你想能夠更進一步,就要在現有任務上超出老闆的期望,TA調高期望,你再超出新的期望,如此迭代,就能夠獲得更進一步的可能。
這裡有個向上管理失敗的例子:
我們團隊為了防止資料洩密,平時資料都放在虛擬機器上,用的時候再臨時匯入到本地。之前負責將虛擬機器上資料匯入到本地機的同事離職了,老闆就把這項工作交給了我,讓我負責團隊資料管理。
最初我非常不想接,因為一則接手這項工作經常會被打擾,本來正常地做自己的事,同事甲乙丙都來要求導資料,就要停下來幫他們;二則,這項任務付出很多,卻看不到績效,責任大——萬一資料洩露了就是全責,功勞幾乎沒有。
我其實很想拒絕,可又不知道該如何在不影響老闆對我的期望和印象的情況下拒絕,所以就把它接了。但其實心裡很排斥 。
我還需要學習,職場必備技能一定要積累!可惜在這方面我還不能分享很多,因為自己還是個菜鳥。
記賬——生活中的積累
除了工作中的積累,給大家分享一個我堅持了九年的習慣——記賬。
我 從2010年上研究生,學校發補助開始,就在手機上下了app(那個時候還是Java手機,還不叫app),給自己設定結餘目標。 每個月 拿到錢,先扣除結餘數目,再在剩下的錢裡消費。
哪怕今天才15號或者是10號,我發現我的錢花完了,或者剩下的錢就只夠我剩下的20天吃飯了,這20天就強迫自己不再買東西,把錢省下來。
這個過程非常痛苦,尤其是剛開始的時候,控制自己真的很難。但這是我九年以來唯一堅持下來的一件事。
我工作前兩年是在國企,第三年是在一傢俬有企業,收入並不多。我老公也因為某些原因在前兩三年沒有往家裡拿過錢。
但即使是這樣,因為我有儲蓄的好習慣,堅持記賬,堅持自律,每月嚴格執行儲蓄目標。 到去年,工作四年多之後,就存了一筆錢,加上家裡的資助,已經付了首付,買了房子。
北京的房價這麼貴,首付怎麼也要一百多萬。雖然有家裡支援,但如果沒有我們自己存下的那一筆錢,是不可能在北京買上房子的。這就是堅持和積累的力量。
轉行兩年的心得總結
從傳統行業轉入資料分析已經兩年了,總結一下兩年來的心得:
第一,興趣是原動力
知道我是轉行的朋友,經常會問:在資料分析這行裡,你的基礎天然就不如別人,要比別人付出更多的努力,你是怎麼持續不斷地讓自己保有熱情的呢? 我認為只有一點:興趣。
你要對自己所作的事有興趣,沒有興趣就去把興趣培養出來。一定要從工作中找到樂趣才可以。否則,很難長時間壓迫自己幹一件不願意做的事情,即使勉強做了,也不會有什麼成就。
今天是我在眾智匯社群第三次分享。從我分享這個系列開始,就有很多小夥伴加我的微信,跟我討論轉行資料分析。
我覺得大家在轉行之前,先要想清楚,不要只是覺得這個行業賺錢多,或者現在火、熱門,就去幹這個。以錢或者追熱點為驅動的決定,這是沒有後勁的。一定要有興趣才可以。
第二,向著明確的目標持續努力
首先,目標一定要明確。
你不能有模稜兩可的目標,一會兒向這個努力一會兒向那兒努力。
其次,持續努力。
一個人想要過得好,坐到比別人高的職位,比別人更體面,比別人收入多,就得打敗別人。
而大家都是普通人,互相之間的才幹能力資源都沒有相差不大。 你怎麼能打敗別的人,自己脫穎而出呢?
方法就是向著一個確定的目標,堅持不懈地努力。堅持說來簡單,但其實大部分人都做不到。而做到的那個,就能夠脫穎而出了。
第三,放棄妄想捷徑,堅持和積累才是正道
一夜暴富是不可能的;天上不會掉餡餅;就算天上掉了餡餅也不太可能正好砸在你我頭上……
大家都是凡夫俗子,真的只有日復一日,年復一年,一點點慢慢的積累,才能讓達到想要的目標, 過上想要的生活 。
大家不要小看堅持和積累的力量,這種力量其實是非常非常強大的,比你想象的要大很多。
最後,對自己的行為和選擇負責
這一條,我前兩次分享也都一直跟大家強調—— 對自己的行為和選擇負責是一個人成熟的標誌。
無論選擇什麼樣的生活、愛人、行業或者工作,既然選了,就要承擔後果,不要推卸、抱怨。
Q1 :通常資料分析崗位面試的時候會問哪些風控的問題?
A1 :其實,我兩次換工作面試,面試官都沒怎麼問風控的問題。 我就把我曾經遇到過的一些風控上的問題,跟大家分享一下。
和風控相關的典型問題有:
-
你所在的公司壞賬率是多少?
-
你所在的公司首逾有多少?(一般對於信用貸款,尤其是大額的信用貸款來說,會分幾期,比如你借了1萬塊錢分12期,假設每期還2000塊錢,你第一期就沒有還,這就叫作首逾。)
和風控建模相關的問題有:
-
模型評價指標上的問題——KS它是什麼含義,它是怎樣算出來的?ROC是什麼含義,是如何算出來的?
-
MIS的問題,例如:怎樣根據現有的資料預測未來公司的壞賬率。
我覺得這些業務相關問題,如果你是幹風控的一線人員,平時注意自己琢磨,都能答上來的。如果是一個新手,人家也不會問這麼深,而主要看潛力。
Q2 :壞賬率大概在多少合適?
A2 :這個沒有一個嚴格的標準。
一般頭部平臺的信貸,壞賬率很低,甚至能做到接近銀行的水平。 但是,小額現金貸的壞賬率就往往很高。做得比較差的平臺/產品,比如車抵貸、3C產品賣手機的,壞賬都非常高。
根據我有限的經驗, 越是下沉的壞賬率越高,從幾個點到幾十個點都有的。
Q3 :面試的時候會問資料結構或者演算法的問題嗎?
A3 :這些問題我沒有碰到過。
我感覺面試官問什麼和TA對面試者的預期有關,TA會問TA認為面試者應該懂的東西。
Q4 :評分卡模型常用到的演算法是什麼?
A4 :評分卡信用模型,目前市場上通用的是邏輯迴歸。
但是在做邏輯迴歸之前,做特徵處理的時候會用到一些別的演算法,比如Lasso、隨機森林、決策樹等。 會做一些mini model,再把這些mini model處理過的資料輸入到邏輯迴歸裡面去。
在探索建模的時候,可能會將各種各樣的模型都試上一遍。但實際上最後上線的,據我所知,大部分都是邏輯迴歸。
Q5 :你一般怎麼找到解決問題的方法?向同事學習還是看書呢?
A5 :解決問題的方法主要有三種來源:
-
跟同事、跟老闆討論;
-
平常要不間斷地看書。這樣,遇到問題的時候,你可能會想起來:“我在哪個地方曾經看到過”,就可以返回去找;
-
找百度,如果還沒有就找Google。
Q6 :之前沒有做過資料分析,想入行該怎麼自學?
A6 :首先你可以學一下Oracle DB,也不用學的很深,能把想要的資料從庫裡取出來就可以。
剛開始轉行的話,可能人家也不會要求你的Python、R或者是SAS用得多好,只要Excel,VLOOKUP能用好,就可以去找工作了,在工作中再慢慢實踐積累。
學程式碼就是實踐積累,你寫得多了自然就會寫了。自己看書,或者報一個課程學的內容,通常轉頭就忘,在實踐中一遍一遍寫出來的程式碼,才可以記住。
Q7 :從哪裡可以獲得好的資料用來學習建模?
A7 :我知道在Kaggle上面會有資料,去下載吧。
Kaggle是一個數據建模、資料探勘的一個平臺,上面有很多比賽,有風控的比賽,也有別的方向建模的比賽。
Q8 :Web前端開發適合轉行資料分析師嗎?
A8 :我覺得,Web前端轉行的,在做把模型布到系統裡的工作時,還是有優勢的。至少你知道怎麼跟IT的人溝通。
我為了學習跟IT部門員工的溝通,費了很大的功夫。因為思維方式的差異,我認為他們懂,其實他們根本就不懂,他們認為我本來就應該完全懂,但是其實我根本也不懂,磨合了很長時間我才終於get到IT同事們的點。 如果你是幹Web前端的話,可能就沒有這個困擾了。
但是 我還是那句話: 適合不適合,你要找到自己的興趣,興趣才是一切的源動力。因為你會天然地面對沒有基礎的困境,所以你必須得有興趣才能持續不斷地努力。
Q9 :為什麼要從國企辭職和轉行?
A9 :為什麼轉行我在我的第一篇 《三個月,從化工實驗員到資料分析師》 裡講過了,大家可以去看一下。
為什麼辭職?我只能用四個字來形容: 水土不服。 我無法認同國企的價值觀,也無法適應國企的官僚文化。
Q10 :四年存一百萬,每年平均存有二十五萬,請問是因為選擇了好的理財方式嗎?
A10 :其實四年我只存了50萬而已,家裡支援了50萬,又找親朋好友借了40萬左右。
能借到40萬,就是平時人品上的積累吧。你平時跟人相處,別人就會對你有一個判斷,你要讓別人覺得你是一個靠譜、可信任、知恩圖報的人,這樣的話就借錢不會很難。
Q11 :存錢需要大量理財知識去購買理財產品嗎?
A11 :理財的第一步是你得有錢,有錢的第一步是你得儲蓄,儲蓄的第一步是你得記賬。
存下一筆錢,真的挺不容易的。這就是堅持和積累的力量,真的是積累的魔力,真的是我從小到大我唯一一件堅持了九年的事。
我自己都驚詫於積累原來可以這麼強大。反正大家就從手邊開始做起,每月記賬強制自己存錢吧。
小編直通車:掃描下列二維碼,傳送“眾智匯”加入社群
“眾智匯” 願景
盡職盡才,允公允能 —— 本社群不定期舉行線上分享,組織群友分享知識、經驗、資源,以達到 讓我們每個人的職業生涯得到最大程度的發展 的目的 。
往期線上分享例項
成全自己的熱愛與瘋狂——從醫生到創業者+動漫創作者,夢想使然
程式設計師的前10年——職業發展建議
歡迎掃面下列二維碼關注“悅思悅讀”公眾微訊號