論文閱讀 | Clustrophile 2: Guided Visual Clustering Analysis

聚類分析 · 發表 2018-09-10 21:35:00

摘要：左側邊欄可以匯入資料，或者開啟以及前儲存的結果。右側顯示了所有的日誌，可以輕鬆回到之前的狀態，檢視的主區域上半部分是資料，下半部分是聚類檢視。 INTRODUCTION 資料聚類對於處理無標籤資料，高維資料是非常有效的工具。聚類演算法中如何確定最好的聚類方法和引數比較困難，需...

左側邊欄可以匯入資料，或者開啟以及前儲存的結果。右側顯示了所有的日誌，可以輕鬆回到之前的狀態，檢視的主區域上半部分是資料，下半部分是聚類檢視。

INTRODUCTION

資料聚類對於處理無標籤資料，高維資料是非常有效的工具。聚類演算法中如何確定最好的聚類方法和引數比較困難，需要視覺化系統的幫助。Clustrophile 2，這是一種用於引導聚類分析的新型互動式工具，引導使用者進行基於聚類的探索性分析，調整使用者反饋以改進聚類效果，並幫助快速推理群集之間的差異。為此，Clustrophile 2提供了一個新穎的功能，clustering tour，幫助使用者選擇聚類引數，並評估與當前分析目標和使用者期望的差距。我們通過12位資料科學家的user study評估這個系統。結果表明，Clustrophile 2提高了專家和非專家的探索性聚類分析的速度和有效性。

DESIGN CRITERIA

Clustrophile 2總結了9個設計標準：

Show variation within clusters(快速顯示聚類效果)，Allow quick iteration over parameters （實時更新引數），Represent clustering instances compactly（多檢視顯示），Facilitate interpretable naming（資料簇重新命名和分離），Support analysis of large datasets（大型資料支援），Support reasoning about clusters and clustering instances（支援對於聚類結果的推斷和評估），Promote multiscale exploration（多尺度探索聚類），Keep a stateful representation of the current analysis（儲存當前探索狀態），Guide users in clustering analysis（指導使用者聚類分析）。

論文中作者這樣描述本文的貢獻：

在Clustrophile系統的基礎上，增加豐富的聚類演算法，引數，評估指標以及視覺化工具。
開發出引導使用者進行聚類分析的一體化程式，Clustering Tour。
定義了更合理的聚類質量衡量指標，考慮了使用者反饋，可解釋性等方面

USER INTERFACE AND INTERACTIONS

視覺化系統的主檢視包括，聚類檢視，調參推薦介面，聚類之旅(clusting tour) 三個部分

Visualization Views

在聚類檢視中，散點圖顯示了資料降維後投影在2D平面上的資料聚類結果，其中距離編碼資料點之間的相似性，而右側的熱力圖中每列代表一個聚類，而行代表了不同的特徵，顏色深淺代表了資料的相對大小。

除此之外，我們還可以通過觀察資料表的介面對於資料進行觀察和篩選

Choosing Parameters and Guiding Users Towards a Better Clustering

Clustrophile 2在調參與演算法推薦的功能詳盡，並提供了完備的聚類效果衡量標準：

Clustrophile2支援自動調參，刪除具有低方差的特徵，支援自定義取樣。
根據資料特徵推薦合適的聚類演算法，根據分層聚類的樹形圖推薦合適的叢集數量。
將不同的投影方式進行比較，推薦能將聚類緊湊性和分離性儘量滿足的投影(降維)演算法。
從偏斜分佈程度，子簇密度，演算法對噪聲的魯棒性，cost function的單調性等方面定量的衡量聚類結果
通過將聚類結果放入決策樹進行訓練，這樣可以推斷不同叢集中的資料點的主要特徵
支援分析聚類分佈中的異常點，刪除它們後重新聚類

Clustering Tour

通過迭代地改變所有聚類引數，使用者可以動態地探索可能的聚類解決方案的空間，直到找到滿意的解決方案或資料集。但是，即使在引數選擇的指導下，可能的引數組合和聚類解決方案的空間太大，無法完全手動探索。某些引數選擇在很大程度上影響聚類結果，而其他引數對結果的影響最小。考慮到這一概念，我們引入了聚類遊覽功能，以幫助使用者快速探索可能的聚類結果空間。下面的介面包含（a）先前探索的解決方案列表，（b，c）散點圖和熱圖視覺化當前的方案，（e）使用者提供反饋的一組按鈕，喜歡還是拒絕，（d）使用者可以約束引數更新方式的模態選擇。

整個類似模擬退火的過程。系統首先會按照每種聚類的相似性，找出差距較大的幾種聚類結果。使用者依次瀏覽這些解決方案，如果喜歡這個方案，系統會在這個方案基礎上進行輕微的引數改動，相當於進入了一個葉子節點。如果不滿意就會退回到父親。直到探索時間和方案數等達到一個闔值為止。

USER STUDY

實驗物件，12位資料科學從業者
實驗目標：：1）瞭解資料科學家如何根據資料領域的先驗知識進行互動 2）如何在開放式分析任務中找到了令人滿意的解決方案
實驗資料：患有帕金森病的受試者資料集，該資料集具有8652行和37個特徵
實驗任務：識別代表帕金森病的不同型別。我們要求參與者確定他們滿意的一個聚類例項，為每個聚類分配名稱和描述，最後口頭解釋他們獲得這個結果的重要性。
我們將候選人分為三類：黑客，指令碼編寫者和應用程式使用者。每種4人，並且每個人中有2個人瞭解醫學知識。

從實驗結果，我們證明Clustrophile 2證明不同型別的資料分析師。十二個使用者中的三個（其中兩個屬於應用程式使用者原型）傾向於使用ClusterCour來進行分析。最後，分析繼續對聚類引數和所選特徵進行迭代和迴圈修改，直到參與者意識到他們只能找到聚類基於受影響的一方或疾病嚴重程度的結果。這些聚類很容易從熱圖視覺化中解釋，熱圖視覺化顯然可以提供非常有效的資訊。

CONCLUSION

調參和演算法選擇是非常重要的
Clustering Tour 提高了使用者自主性和創造力
使用者對結果的反饋加快了探索過程
管理，快取資料和過程方便了使用者的探索

此外還有一些可以改進的點

增加可解釋性的聚類研究
增加更多預計算與推薦功能
增加對於任意聚類演算法介面的支援，增加程式碼介面，讓使用者可以在框架進行拓展