最受歡迎的5種資料科學工具
資料和分析為數字化轉型提供了燃料,而企業充分發揮這些燃料的唯一途徑是,為其統計學家、資料專家和企業分析專家提供正確的資料科學工具,從而為企業提供寶貴的洞察力。
無論是用於直接統計分析、機器學習建模還是視覺化,資料科學工具對於建設資料驅動的企業文化都至關重要。
最近我們採訪了各個行業中經驗豐富的資料科學家,詢問他們最常使用的工具。下面是我們從中精心挑選的5個工具。
1. Python
與用於建立自定義演算法的程式設計方法不同,Python不是一種獨特的軟體,但它是很多資料科學家的首選。在最近資料科學網站KDnuggets對2052名使用者進行的分析/資料科學軟體調查中,Python被65.6%的受訪者列為首選工具。
Cindicator公司首席資料科學家Alexander Osipenko表示:“我們將Python用於資料科學和後端,這為我們提供了快速開發和機器學習模型部署。對於我們來說,同樣重要的是確保部署工具的安全性。”
Katie Malone最初是一名粒子物理學家,現在她是Civis Analystic公司的資料科學研究團隊的負責人之一,她指出,Python是她作為物理學家首選的資料科學工具,而現在她在商業世界也在繼續使用它。對於她而言,最吸引她的是圍繞Python強大的開源生態系統,這使她能夠利用各種資料科學庫來幫助她解決特定的分析問題。
她表示:“這個社群擁有非常充滿活力的開源人群,他們使用Python來解決有趣的資料科學問題。”
Wovenware公司創新總監兼首席資料科學家Leslie De Jesus對此表示贊同,她非常依賴Python庫。
“我們使用 Python庫(包括Scrapy)用於網路抓取,並能夠從網際網路上提取資料並將其上傳到資料框架進行分析,”De Jesus說。 “同時,我們使用Pandas和NumPy Python庫進行資料分析和矩陣操作。這些都有助於我們更快建立程式碼,而NumPy還允許複雜的廣播功能。”
Tiger Analytics公司資料科學和創新主管Niranjan Krishnan解釋說,Python的用例非常多。
Krishnan說:“我們已經成功部署Python資料科學模型,用於優化直接面向客戶的營銷活動和人壽保險承保,以及改善線上廣告的實時定價。”
這裡的缺點是,Python是基於程式碼,這裡需要高水平的程式設計和分析技能。
他指出:“而Knime和Alteryx是優秀的選單驅動的低程式碼替代品,也可供一般資料科學家和業務分析師使用。”
2. R
與Python類似,R是很多資料科學專業人員喜愛的另一種程式語言,它更加簡單且更專注於資料科學。在KDnuggets調查中,R排名第三,48.5%的受訪者將其列為首選資料科學工具之一。
Civis Analytics公司的Malone表示,R具有非常複雜的機器學習和統計功能,這是她的團隊成員除Python之外的常用選擇。
她指出:“這取決於具體情況,我們有多種需求,所以這兩個我們都喜歡。從統計和定量社會科學方面來看,R更多一些。”
根據Untapt公司首席資料科學家Jon Krohn的說法,R是他的首選資料探索工具。
他指出:“我可以快速檢視平均值、中位數和四分位數等摘要統計資料;快速建立不同的圖表;以及建立測試資料集,這些可輕鬆地共享並匯出位CSV格式。”
3. Jupyter Notebook
從資料視覺化和資料通訊來看,很多資料科學團隊的資料科學工具列表中還會有Jupyter Notebook。
HackerRank公司資料科學副總裁SofusMacskássy表示:“Jupyter Notebook支援R和Python,對資料訪問和視覺化提供強大庫支援。該工具還使團隊能夠輕鬆匯出工作簿用於演示,它正成為資料科學領域的標準。”
對於Anexinet公司數字和分析服務高階副總裁Michael Golub而言,Jupyter的另一個好處是,可靈活使用最受歡迎的資料科學庫。Golub解釋說Jupyter是他團隊最喜歡的協作開發環境。
Golub稱:“Jupyter Notebook是我們協作資料科學專案工作的首選工具,在涉及需要教育的時候,它也非常有用。”
此外,Untapt公司的Krohn稱,Jupyter Notebook是互動式構建原型模型的絕佳工具。
他表示:“在Untapt,我們利用Jupyter Notebook來編寫原型程式碼,也用於列印資料表、摘要指標和圖表。”
4. Tableau
在硬資料科學團隊和更多以業務為中心的分析人員之間,Tableau可提供良好的橋樑。
Entersoft Security公司的SEO高階主管Pooja Pandey表示:“對於資料科學家和資料科學新手來說,這是很棒的工具。這是一個快速儀表板工具,可提供視覺化洞察力和分析資料,它有著非常短的學習曲線。”
Tableau的視覺化和報告功能的速度可為各種使用者提供洞察力。
QuotesAdvisor.com執行長Sophie Miles表示:“它可以很快部署、易於學習且非常直觀。通過Tableau,該公司的不同部門可根據需要制定詳盡的報告。
Miles解釋稱,由於該儀表板非常靈活,因此對資料組合的臨時請求數量有所減少。因此,QuotesAdvisor.com的效率提高了95%。她說道:“現在人們花更多的時間來思考問題,而不是生成報告。”
5. Keras
根據日立Vantara公司首席技術官辦公室首席資料科學家Wei Lin表示,他最常用的資料科學工具是Python、R和Keras。他使用Python和R用於上述所有原因,而利用Keras的深度學習功能。
Lin稱:“Keras是使用Python編寫的開源神經網路庫,以快速通過深度神經網路進行實驗。並且,它能夠執行在TensorFlow、微軟Cognitive Toolkit或Thea。”
Kera的優勢在於高維模式匹配。
他表示:“例如,影象和自然語言處理以及支援完善的深度學習分析模型,包括卷積神經網路和短期記憶。”
根據Cindicator公司的Osipenko表示,Keras的最大吸引點在於它可幫助節省大量時間。
他指出:“我們新增新工具的主要標準是,它是否能讓你作為資料科學家的工作變得更輕鬆。這裡的例子就是Keras,這個開源高階包裝器,可大大加快開發神經網路的過程。任何在TensorFlow編寫神經網路的人都會明白我在說什麼。即使Keras不完美,但它可以改變這個開發流程,讓你的程式碼對其他開發人員更具可讀性。”成都加米穀大資料培訓機構,小班教學,免費試聽。