基於語義意圖的車輛行為預測

神經網路 · 發表 2018-10-31 11:45:00

摘要：本文介紹作者在IV2018上的獲獎論文“Probabilistic Prediction of Vehicle Semantic Intention and Motion”。 1. 什麼是預測及預測的重要性 “預測”這個詞對我們來說並不陌生，而且...

本文介紹作者在IV2018上的獲獎論文“Probabilistic Prediction of Vehicle Semantic Intention and Motion”。

1. 什麼是預測及預測的重要性

“預測”這個詞對我們來說並不陌生，而且我們經常會做各種各樣的預測。比如我們會預測明天或是未來會發生什麼；預測哪支球隊能奪得世界盃冠軍；當然在開車的時候我們也會下意識地預測其它車輛的行為，避免可能發生的危險。但是人類所能捕獲到的外部資訊是有限的，當遇到一些不那麼遵紀守法的司機，或者某輛車在我們的盲區時，預測他們的行為便變得不那麼容易了。同時，司機的注意力也很難做到長時間的集中，有時甚至會被一些外部因素所分散（比如手機等）。而交通事故往往就發生在這些時刻。

對於未來的無人車，能準確地預測出路面車輛將會發生的行為是尤為重要的。目前的許多研究僅通過考慮特定場景來確定駕駛意圖的數量。但是不在同場景下，車輛會有不同可能的駕駛意圖。比如在高速場景下，可行的駕駛意圖通常分為三種：直行，左變道，和右變道；而在十字路口，可行的駕駛意圖除了以上列舉的三種，還包括左轉彎，右轉彎，和直行通過路口。所以，我們需要設計一種方法，使其能夠適用於不同場景的意圖預測。

自動駕駛汽車配有各類感測器，比如微波雷達，鐳射雷達等。這使得它們具備遠超人類的檢測感知能力，並且可以做到不間斷，全方位地檢測周圍環境。所以，我們希望利用這一點，讓自動駕駛汽車擁有比人類更好的預測的能力，使其擁有安全、舒適、且具有合作性的駕駛能力。

2. 我們想預測什麼？

當然，想要讓自動駕駛汽車預測路面汽車的駕駛行為，我們首要明白人類開車時候會做出什麼樣的行為。事實上，我們開車時通常在做的一件事就是在不停尋找合適的“插入區域”。可以通過下面這個動圖來更好地理解：

在這個圖中，假設我們在駕駛著這輛紅色轎車，想要到達星號的位置。隨著車輛的位置變化，我們的目標區域（紅色陰影）也在發生著變化。在這個過程中，我們做了三件事/完成三個小目標：左變道，跟車，左轉彎。我們經歷著不同的場景，不同的道路結構和不同的駕駛行為，但是有一件事情是不變的：我們一直在尋找一個可以插入的空隙。以上，我們總結出以下兩點：

人類在駕駛的時候為了完成一個個小的目標，會不斷尋找並插入到不同的行駛區域中；
預測人類駕駛行為可被簡化為預測車輛會插入到哪個區域。

當然，除了預測可能插入的區域，我們希望自動駕駛汽車能夠做到更多：

預測多久能夠完成這個過程（時間資訊）；
預測具體會插入到這個區域的哪個位置（位置資訊）。

所以我們把需要解決的預測問題用語義的方式描述成：“預測車輛最有可能插入到哪個區域裡？何時？何處？ ”

3. 用什麼方法實現預測？

我們提出一個 Semantic based Intention and Motion Prediction(SIMP) 的方法。翻譯過來就是 基於語義意圖和運動的預測方法。 這是一個基於 混合密度網路 （Mixture Density Network ）和 深度神經網路 （DeepNeural Network ）的方法。每一個“插入區域”都被指定了一個二維的 高斯混合模型 （Gaussian Mixture Model ），具體公式如下：

下角標a代表其中一個插入區域a；x是輸入，包括當前從環境中提取的一些狀態特徵，y是輸出，包括以上提到的時間和位置資訊。整體框架的輸出包括每一個二維高斯混合模型需要的引數（P），以及每一個可以插入的區域的權重（w）。

SIMP框架圖如下：

我們把損失函式定義為:

如此定義的損失函式不僅可以使真正插入的區域擁有最大的權重，同時也使得該區域內的正確的時間和位置資訊擁有最高的預測概率。

4. 真實場景預測

簡單介紹完了方法，我們來看看它在真實的道路場景中的效果如何吧！我們選用了NGSIM的資料集，這是一個開源的資料集，裡面包括真實高速路段中的車輛資訊。我們選取了其中17179個frame作為訓練和測試的資料。

在高速場景中我們定義瞭如下資訊以便於特徵提取和結果評估。黃色的車是想要預測的車輛，幾輛藍色的車是在這三條道路上距離預測車輛最近的三輛車。青色的圓圈便是所有可能插入的區域，在這裡我們稱其為動態的插入區域因為這些區域的位置和大小一直在隨著時間而變化，並不固定。通過以上的定義方法，當預測車輛旁邊的某條車道不存在或者車道上沒有車時，一樣可以使用我們提出的方法。

5. 實驗結果及分析

我們選取了以下三種不同的測試情況來看看預測的結果：

場景1：參考車輛的突然改變

場景2：典型的車道線變換

場景3：改變主意

我們對於第二種場景提取了幾個典型的frame，並畫出了預測的時間資訊曲線如下。可以看到，我們的時間預測結果與真實值的差距在變道前 3 秒都在 0.3s 以內。

我們分別把我們的方法與經典的分類方法（ 支援向量機 SVM ）和迴歸方法 （分位數迴歸樹 QRF ）分別進行了對比，結果如下：

這裡， “True Positive” 代表正確預測出向左或是向右變道， “False Positive” 代表錯誤地預測了變道的方向。通過 ROC 對比圖，可看出我們的方法的準確率超過了傳統的 SVM 方法。除此之外，我們還對比了其他的數值， F1-Score 表示分類能力的好壞， Avg. Predict Time 表示可以在變道前多久能夠做出準確預測 ( 數值越大越好 ) 。

以上兩張圖分別從時間和位置兩方面將我們的方法和QRF方法的預測結果進行了比較。可以看出，對於兩種車輛運動的預測，使用我們方法得出的RMSE誤差都小於使用QRF方法得到的結果。由於使用我們方法得到的誤差以及一個和兩個標準差之間的差距在不斷減小，說明我們預測的高斯分佈的最高峰也越來越接近真正的值。

具體方法細節可參見論文：

[1] Yeping Hu, Wei Zhan, and Masayoshi Tomizuka, “Probabilistic prediction of vehicle semantic intention and motion,” in 2018 IEEEIntelligent Vehicles Symposium (IV), Jun. 2017.

ofollow,noindex">ControlPlusAI

分享機器人控制和AI領域裡的一些知識和感想，偏學術。由來自UC Berkeley, Stanford, CMU的研究者們原創撰稿。

理論語義理解自動駕駛深度神經網路高斯混合模型 SVM

相關資料

神經網路技術

Neural Network

（人工）神經網路是一種起源於 20 世紀 50 年代的監督式機器學習模型，那時候研究者構想了「感知器（perceptron）」的想法。這一領域的研究者通常被稱為「聯結主義者（Connectionist）」，因為這種模型模擬了人腦的功能。神經網路模型通常是通過反向傳播演算法應用梯度下降訓練的。目前神經網路有兩大主要型別，它們都是前饋神經網路：卷積神經網路（CNN）和迴圈神經網路（RNN），其中 RNN 又包含長短期記憶（LSTM）、門控迴圈單元（GRU）等等。深度學習是一種主要應用於神經網路幫助其取得更好結果的技術。儘管神經網路主要用於監督學習，但也有一些為無監督學習設計的變體，比如自動編碼器和生成對抗網路（GAN）。

來源：機器之心

深度神經網路技術

Deep neural network

深度神經網路（DNN）是深度學習的一種框架，它是一種具備至少一個隱層的神經網路。與淺層神經網路類似，深度神經網路也能夠為複雜非線性系統提供建模，但多出的層次為模型提供了更高的抽象層次，因而提高了模型的能力。

來源：機器之心 Techopedia

高斯混合模型技術

Gaussian Mixture Model

高斯混合模型（Gaussian Mixture Model，GMM）是單一高斯概率密度函式的延伸，就是用多個高斯概率密度函式（正態分佈曲線）精確地量化變數分佈，是將變數分佈分解為若干基於高斯概率密度函式（正態分佈曲線）分佈的統計模型。

來源：維基百科

高斯分佈技術

Gaussian distribution

正態分佈是一個非常常見的連續概率分佈。由於中心極限定理(Central Limit Theorem)的廣泛應用，正態分佈在統計學上非常重要。中心極限定理表明，由一組獨立同分布，並且具有有限的數學期望和方差的隨機變數X1,X2,X3,...Xn構成的平均隨機變數Y近似的服從正態分佈當n趨近於無窮。另外眾多物理計量是由許多獨立隨機過程的和構成，因而往往也具有正態分佈。

來源： Wikipedia

損失函式技術

Loss function

在數學優化，統計學，計量經濟學，決策理論，機器學習和計算神經科學等領域，損失函式或成本函式是將一或多個變數的一個事件或值對映為可以直觀地表示某種與之相關“成本”的實數的函式。

來源： Wikipedia

引數技術

parameter

在數學和統計學裡，引數（英語：parameter）是使用通用變數來建立函式和變數之間關係（當這種關係很難用方程來闡述時）的一個數量。

來源：維基百科

自動駕駛技術

self-driving

從 20 世紀 80 年代首次成功演示以來（Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)），自動駕駛汽車領域已經取得了巨大進展。儘管有了這些進展，但在任意複雜環境中實現完全自動駕駛導航仍被認為還需要數十年的發展。原因有兩個：首先，在複雜的動態環境中執行的自動駕駛系統需要人工智慧歸納不可預測的情境，從而進行實時推論。第二，資訊性決策需要準確的感知，目前大部分已有的計算機視覺系統有一定的錯誤率，這是自動駕駛導航所無法接受的。

來源：機器之心

感知技術

perception

知覺或感知是外界刺激作用於感官時，腦對外界的整體的看法和理解，為我們對外界的感官資訊進行組織和解釋。在認知科學中，也可看作一組程式，包括獲取資訊、理解資訊、篩選資訊、組織資訊。與感覺不同，知覺反映的是由物件的各樣屬性及關係構成的整體。

來源：維基百科

權重技術

Weight

線性模型中特徵的係數，或深度網路中的邊。訓練線性模型的目標是確定每個特徵的理想權重。如果權重為 0，則相應的特徵對模型來說沒有任何貢獻。

來源：Google AI Glossary

英特爾機構

Intel

英特爾是計算創新領域的全球領先廠商，致力於拓展科技疆界，讓最精彩體驗成為可能。英特爾創始於1968年，已擁有近半個世紀產品創新和引領市場的經驗。英特爾1971年推出了世界上第一個微處理器，後來又促進了計算機和網際網路的革命，改變了整個世界的程序。如今，英特爾正轉型成為一家資料公司，制定了清晰的資料戰略，憑藉雲和資料中心、物聯網、儲存、FPGA以及5G構成的增長良性迴圈，提供獨到價值，驅動日益發展的智慧互聯世界。英特爾專注於技術創新，同時也積極支援中國的自主創新，與產業夥伴攜手推動智慧互聯的發展。基於明確的資料戰略和智慧互聯全棧實力，英特爾瞄準人工智慧、無人駕駛、5G、精準醫療、體育等關鍵領域，與中國深度合作。面向未來，英特爾致力於做中國高價值合作伙伴，在新科技、新經濟、新消費三個方面，著力驅動產業協同創新，為實體經濟增值，促進消費升級。

涉及領域

準確率技術

Accuracy

分類模型的正確預測所佔的比例。在多類別分類中，準確率的定義為：正確的預測數/樣本總數。在二元分類中，準確率的定義為：(真正例數+真負例數)/樣本總數

來源： Google ML Glossary

支援向量機技術

Support Vector Machines

在機器學習中，支援向量機是在分類與迴歸分析中分析資料的監督式學習模型與相關的學習演算法。給定一組訓練例項，每個訓練例項被標記為屬於兩個類別中的一個或另一個，SVM訓練演算法建立一個將新的例項分配給兩個類別之一的模型，使其成為非概率二元線性分類器。SVM模型是將例項表示為空間中的點，這樣對映就使得單獨類別的例項被儘可能寬的明顯的間隔分開。然後，將新的例項對映到同一空間，並基於它們落在間隔的哪一側來預測所屬類別。

來源： Wikipedia

基於語義意圖的車輛行為預測

1. 什麼是預測及預測的重要性

2. 我們想預測什麼？

3. 用什麼方法實現預測？

4. 真實場景預測

5. 實驗結果及分析

您可能也會喜歡…