Angr AEG：堆溢位之Exploit自動生成

安全技術 · 發表 2019-02-14 10:02:04

摘要： *本文原創作者：xiaohan0x00，本文屬FreeBuf原創獎勵計劃，未經許可禁止轉載本文主要介紹如何基於 Angr 進行漏洞挖掘，並自動生成 Exploit。對於 Exploit 的自動生成問題，也被稱為 AEG（Automatic Exploit Generation），...

*本文原創作者：xiaohan0x00，本文屬FreeBuf原創獎勵計劃，未經許可禁止轉載

本文主要介紹如何基於 Angr 進行漏洞挖掘，並自動生成 Exploit。對於 Exploit 的自動生成問題，也被稱為 AEG（Automatic Exploit Generation），其中包含漏洞挖掘、Crash分析、約束條件構造、約束求解、Exploit 生成等環節，下文通過符號執行實現對二進位制程式的自動化漏洞挖掘及利用，並展示完整的 AEG 過程。文中所分析的漏洞程式為 Insomni`Hack 2016 題目之一。下載地址，其中包含漏洞程式原始碼 demo_bin.c、編譯後的可執行程式 demo_bin 以及 Angr 指令碼 solver.py。

0×00 漏洞原理

1、原始碼分析

首先檢視原始碼 demo_bin.c，存在一處堆溢位漏洞，關鍵點如下：

1） component_name[128] 大於 component->name[32]；

2） initializa_component( char *cmp_naem) 函式中，在賦值時未檢查緩衝區大小；

3）呼叫 do_something() 時，產生 Crash。

2、GDB 除錯

分析過程式原始碼後，利用 GDB 動態除錯 demo_bin，以觸發 Crash。首先通過 r2 檢視 initializa_component( char *cmp_naem) 所對應的彙編程式碼。

分析後可知，結構體 component 大小為 36 位元組，其中 component->name[32] 佔用 32 位元組，隨後 4 位元組為函式指標，因此構造 PoC 為 “AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAABBBB”。

利用 GDB 載入 demo_bin 並輸入 PoC，在 initializa_component( char *cmp_naem) 函式中，呼叫 malloc() 之後設定斷點。檢視此時 malloc() 所分配的記憶體情況。

繼續除錯，單步至 initializa_component( char *cmp_naem) 函式返回，檢視此時記憶體情況。可見 cmp 在堆上的地址為 “0x804b410”，而 cmp->do_something(1) 所對應的地址 “0x804b430” 此刻已被 “\x42\x42\x42\x42” 所覆蓋，如下圖所示。

當程式執行至 cmp->do_something(1) 時觸發 Segmentation fault，此時 EIP 為 “\x42\x42\x42\x42”，表明程式的控制流已被劫持。

通過以上簡要分析可知，demo_bin 中存在堆溢位漏洞，可導致控制流劫持。在此基礎上，下文主要介紹如何通過 Angr 實現對該漏洞的自動化挖掘以及利用。

0×01 Angr AEG

完整的 AEG 過程，在邏輯上大致可分為以下幾個環節：

1） 漏洞挖掘，Angr 主要採用帶有前置約束及路徑選擇策略的符號執行；
2） 崩潰現場分析：EIP 狀態、記憶體佈局；
3） 約束條件構造；
4） 約束求解，Exploit 生成；

1、漏洞挖掘

在本例中，主要是針對控制流劫持漏洞的挖掘。利用符號執行檢測控制流劫持，關鍵在於 EIP，若 EIP 完全被符號變數所覆蓋，則代表著控制流可以被劫持，此時 Angr 會丟擲 unconstrained 狀態。

solve.py 中 65 ~ 84 行，通過搜尋二進位制程式的狀態空間以實現漏洞挖掘。由於 demo_bin.c 中的漏洞邏輯較為簡單，因此在挖掘過程中並未加入複雜的前置約束以緩解路徑爆炸，也未採用額外的路徑搜尋策略，僅使用 SimulationManager 的 step() 方法，迴圈執行，直到出現 unconstrained 狀態。

注意，在設定 SimulationManager() 時，save_unconstrained 必須設定為 True。

2、崩潰現場分析

指令碼執行不久後，便會觸發 unconstrained 狀態，此時需要對崩潰現場進行分析，以判定 unconstrained 狀態的可利用性。

1) EIP 可控性分析

solve.py 中使用 fully_symbolic() 方法檢查 EIP 中符號變數的數量。其中 state.arch.bits 代表系統字長（The number of bits in a word），state.solver.symbolic() 用以判斷輸入資料是否為符號變數，該方法在 ./angr/state_plugins/solver.py 中實現：