
一方面,半自動駕駛沒有一些常規限制:它們反應迅速,可以長距離協調操作,最重要的是,運營公司可以簡單地修改其制動和加速模式以減少擁堵。
但是,半自動駕駛真的能夠減輕堵車情況么?還是說當半自動汽車和人類駕駛汽車在同一條路上行駛的時候會加劇堵車情況?
一位伯克利大學的研究生、特斯拉自動駕駛組的實習生Eugene Vinitsky通過調查發現,雖然目前只有一小部分車輛是半自動的,但現有研究表明即使很小的出現率(3-4%)也足以開始緩解擁堵。
也就是說,鑒于AV的獨特功能,我們希望確保其駕駛模式的設計能夠最大限度地滿足道路要求。AV的正確部署應盡量減少堵塞,降低總能耗,并最大限度地提高道路的通行能力。
但是最佳駕駛策略的研究關鍵問題是沒有形成共識。
對于自動駕駛汽車公司來說,沒有一個簡單的指標可以讓他們評估并實施其駕駛策略。
換句話說,當前半自動駕駛的部署沒有基準,即可以用來比較不同研究組和方法進展的標準化問題。
如果能有設計合理的基準,就可以檢查AV的駕駛行為并快速為其打分,確保在道路上行駛的都是最佳設計的AV。此外,基準應該促進研究,使研究人員能夠輕松快速地嘗試新技術和算法,了解這些技術和算法是如何解決擁堵問題的。
混合自動駕駛的11個新基準填補研究空白

為了填補這一空白,Eugene Vinitsky在CORL上發表的論文提出了集中式混合自動駕駛交通控制中的11個新基準。
以下是其研究的基本情況,以第一人稱敘述:
這些基準會作為Flow工具項目的一部分,這個項目用于在交通模擬器SUMO和AIMSUN中將控制和強化學習(使用RLlib 和rllab作為強化學習庫)應用于自動駕駛車輛和交通燈。這些基準中獲得高分意味著實際擁塞指標的改進,例如平均行駛速度,道路系統總延遲和道路吞吐量。通過在這些基準上取得的進展,希望可以回答有關AV應用的基本問題,并給出現實世界中部署可改善擁塞的AV的路線圖。
本文前面描述的基準場景包括以下設置:
一個簡單的8字形,代表一個小型交叉路口,其最佳方案是蛇形行駛或學會選擇向沒有沖突的方向移動。
可調整大小的紅綠燈網格,其目標是優化燈光模式,以最大限度地縮短平均轉換時間。
許多車輛從匝道進入高速路主道上引起行車緩慢,導致道路平均行駛速度下降。
以下GIF展示了在這些基準中發現的緊急行為案例,很有趣也很有意義,圖中顯示了瓶頸的一部分,其中四車道合并為兩車道,后續的二車道合并一車道并未示出。
上半部顯示的人類駕駛的情形。人類駕駛員駕駛汽車隨意地由四車道駛入兩車道,由于車道合并導致瓶頸繼而發展成為擁堵,降低了整個道路系統的速度。在下部動圖中,在人類駕駛車輛(橙色)中混入了自動駕駛車輛(紅色)。我們發現自動駕駛車輛通過學習控制其進入合并車道的速度,從而有助于后面的車輛順利切入合并車道。盡管只有十分之一的車輛是自動駕駛的,但道路系統能夠保持不擁擠,并且車流量提高了35%。
一旦我們制定好了基準,我們就要確保研究人員有一組基準值來檢查他們的算法。我們執行了一個小規模的超參數掃描,然后將找到最佳超參數提供以下RL算法運使用:增強隨機搜索,近端策略優化,進化策略和信任區域策略優化。
下面圖表的第一行表示在訓練時間內使用一組指標獎勵的基準分數。每個圖對應于一個場景,顯示其算法獲得分數與訓練時間的函數關系。如果算法分數偏離這些數值,就可以立即知道算法是否正確。
然而,從對擁塞的影響這一角度來看,真正重要的是最后的圖表,即我們根據真正影響擁塞的指標對算法進行的評分。這些指標包括:8字形和合并車道的平均行駛速度,交通網中每輛車的平均延遲,以及瓶頸路段每小時車輛的總流出量。中間四列是算法根據這些基準指標的評分,最后一列是完全人類駕駛的得分。請注意,所有這些基準的AV出現率都相對較低,從最低的7%到最高的25%(即每14輛車中1 輛AV到每4輛車1輛 AV)。完全人類駕駛一欄中的擁堵指標都嚴重惡化,這表明即使出現率非常低,AV也可以對擁堵產生驚人的影響。


那么AV究竟是如何緩解擁堵的呢?下面的動圖展示了一種可能的機制,它比較了在主干道匝道入口完全人類駕駛的情形(上半部)和每十輛車中有一輛是自動駕駛(紅色)而其它九輛是人類駕駛(白色)的情形。在這兩種情形下,人類駕駛員都想盡快沖入主道,而幾乎不關心主道上的車輛。
在完全人類駕駛的情況下,車輛緊密地跟隨,當匝道上的車沖入主道時,后面的車輛需要急踩剎車,導致“車輛聚集”。然而,在存在AV的情況下,自動駕駛車輛在接近匝道入口時加速從而拉開了與后面車輛之間的距離。較大的距離會形成緩沖區,因此當匝道上車輛進入主道時,主道上的車只需輕踩剎車就可避讓開。
雖然我們無法用數學方法證明,但我們相當確定我們的結果都沒有達到最佳分數。而我們的論文給出了一些論據,表明我們只是找到了局部最小值。
當前的挑戰:任重而道遠
目前還有一大堆完全沒有解決的問題。首先,這些基準只是用于完全集中式的情況,即所有汽車都由一臺中央計算機控制。任何真正的道路駕駛策略算法都可能必須是分布式的:我們能否在不降低效果的情況下使用分布式?此外,還有一些公平原則沒有討論。
如下面的視頻所示,通過完全攔住某車道可以顯著改善瓶頸路段的車輛流出;雖然這種道路駕駛策略是有效的,但是它在獎勵了其他駕駛員的同時嚴重懲罰被攔截車道上的駕駛員,這不可避免會導致狂暴情緒。
最后,還有一個頗具吸引力的泛化問題。對于每個獨特的駕駛場景,似乎很難部署一個統一的駕駛策略; 是否有可能找到一個適用于不同類型交通網絡的單一控制策略?我們的目標是在未來的一系列基準中解決所有這些問題。