行為預(yù)測到底重要在哪?
在行駛過程中,自動(dòng)駕駛汽車恐怕要一直回答這個(gè)問題——「我周邊的車輛、行人與自行車在未來 5 秒內(nèi)會(huì)做什么?」
這個(gè)問題的學(xué)名叫「行為預(yù)測」。
行為預(yù)測到底重要在哪?
自動(dòng)駕駛公司 Pronto CEO Anthony Levandowski 講述了自己的看法:他認(rèn)為自動(dòng)駕駛原型車在「預(yù)測」能力上的短板是阻礙其奔向 Level 4/5 的絆腳石。
在 Medium 上發(fā)布的一篇博文中,Levandowski 寫道:
「現(xiàn)在沒人能實(shí)現(xiàn) Level 4/5 是因?yàn)槿缃竦能浖€不太行,它無法預(yù)測未來。在這方面,軟件跟人類直覺差遠(yuǎn)了,而行為預(yù)測又恰恰是道路安全最重要的因素。」
在 TechCrunch 的采訪中,Levandowski 又重申了這一觀點(diǎn):
「如果你想分析測試車每次『脫離』背后的故事,找到真正的原因,最終結(jié)果都是軟件故障。即使是較為成熟的公司也難以避免,因?yàn)樵趶?fù)雜環(huán)境下,車輛很容易出現(xiàn)誤解或溝通問題。眼下我們的問題不是能否找到更好的傳感器,而是如何解決預(yù)測這個(gè)大問題。」
另一位持有相同觀點(diǎn)的是 Chris Urmson。2013-2016 年他是 Waymo 的實(shí)際掌舵人,現(xiàn)在則是自動(dòng)駕駛公司 Aurora 的 CEO。
在最近的一次采訪中,Urmson 告訴麻省理工助理教授 Lex Fridman:
「如果我有魔杖,會(huì)用魔力提升系統(tǒng)哪部分,好加速自動(dòng)駕駛技術(shù)落地呢?當(dāng)然是車輛的感知預(yù)測能力。也就是說,如果明天你能給我一個(gè)完美模型,告訴車輛剛才發(fā)生了什么,現(xiàn)在什么正在發(fā)生和未來五秒將發(fā)生什么,情況將大不相同。」
數(shù)據(jù)越多其準(zhǔn)確度就越高?
Waymo 和特斯拉這樣的頭部公司正試圖用深度學(xué)習(xí)來解決行為預(yù)測問題,即用數(shù)據(jù)集訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)。
對深度神經(jīng)網(wǎng)絡(luò)來說,數(shù)據(jù)越多其準(zhǔn)確度就越高,因此各家公司都開啟了瘋狂「投喂數(shù)據(jù)」模式。
特斯拉 AI 主管 Andrej Karpathy 就在今年 3 月的 Autonomy Day 上講述了特斯拉是如何玩轉(zhuǎn)深度學(xué)習(xí)的:
在類似目標(biāo)探測的深度學(xué)習(xí)應(yīng)用中,許多公司都會(huì)遭遇瓶頸,因?yàn)樗麄冃枰ㄥX請人手動(dòng)給圖片或視頻加標(biāo)簽。
拿目標(biāo)探測舉例,灌入神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)可能是視頻中包含了行人的一幀畫面,而各家公司想要的輸出是自動(dòng)打上「行人」這個(gè)標(biāo)簽。
當(dāng)然,訓(xùn)練神經(jīng)網(wǎng)絡(luò)也同樣是一個(gè)勞動(dòng)密集型工作。
想通過訓(xùn)練得到這樣的效果,就得給神經(jīng)網(wǎng)絡(luò)持續(xù)輸入成千上萬張類似圖片,并且在畫面中標(biāo)出哪些是行人,而這個(gè)打標(biāo)簽的過程全靠人手工完成。
有了行為預(yù)測,再加上過去 5 秒對周邊車輛動(dòng)向的輸入數(shù)據(jù),輸出端可能就會(huì)給出未來 5 秒對周邊環(huán)境變化的預(yù)測。
這 10 秒鐘的記錄會(huì)成為你手上的輸入-輸出對,是訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的上好「養(yǎng)料」。至于人工打標(biāo)簽,則完全沒有必要。
采用行為預(yù)測這種方法后,你甚至不用上傳視頻,車輛能直接保存一段周邊環(huán)境的抽象記錄,而在自動(dòng)駕駛系統(tǒng)看來,這段抽象記錄其實(shí)與人工打上的標(biāo)簽并無二致。
在行為預(yù)測上,特斯拉的優(yōu)勢就在于那每天奔忙在路上的 50 多萬輛電動(dòng)車——這樣車輛搭載 Autopilot 的第二代和第三代硬件。
也就是說,特斯拉用車上搭載的 8 顆攝像頭、前置雷達(dá)、神經(jīng)網(wǎng)絡(luò)計(jì)算機(jī)搞定了車輛行駛途中的數(shù)據(jù)記錄,這些數(shù)據(jù)還能通過 Wi-Fi 回傳給特斯拉。
想象一下,如果這 50 萬輛車回傳的都是抽象記錄而非原始視頻,特斯拉的行為預(yù)測訓(xùn)練數(shù)據(jù)庫得有多強(qiáng)?
當(dāng)然,車輛獲得的數(shù)據(jù)也不會(huì)一股腦都塞給車隊(duì),篩選是個(gè)必要的過程。
舉例來說,將行為預(yù)測神經(jīng)網(wǎng)絡(luò)犯的錯(cuò)當(dāng)訓(xùn)練數(shù)據(jù)就非常有意義,而這個(gè)糾錯(cuò)的過程是個(gè)進(jìn)步的捷徑,比投喂各種隨機(jī)數(shù)據(jù)有效多了。
簡而言之,數(shù)據(jù)在精不在量。
從「長尾理論」的角度來看,即使做出錯(cuò)誤行為預(yù)測的幾率很低,比如每 100 萬英里一次,特斯拉的車隊(duì)每個(gè)月行駛 10 億英里也能拿到 1000 個(gè)「反面典型」。雖然這 1000 條數(shù)據(jù)量不大,但絕對價(jià)值連城。
算力的提升可助推神經(jīng)網(wǎng)絡(luò)的性能
雖然整個(gè)行業(yè)都如打雞血一般,但誰也不敢肯定全自動(dòng)駕駛到底什么時(shí)候才能實(shí)現(xiàn),也許明年就能成,也許十多年后才能落地。
不過,華爾街巨鱷們相信,一旦全自動(dòng)駕駛普及,自動(dòng)駕駛打車行業(yè)會(huì)大行其道,最終孕育出一個(gè)年?duì)I收破萬億的超級(jí)市場。
如此巨大的誘惑之下,大家都打破頭要深耕深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)和行為預(yù)測。

ARK Invest 的金融模型預(yù)計(jì),如果特斯拉如 Musk 所言,明年實(shí)現(xiàn)全自動(dòng)駕駛,從長期來看特斯拉股價(jià)漲上 20 倍都沒問題。
即使一分進(jìn)賬都沒有,通用旗下自動(dòng)駕駛部門 Cruise 估值依然高達(dá) 190 億美元。
去年 8 月,摩根士丹利更是大膽給了 Waymo 1750 億美元的超高估值。
今年,投資銀行 Jefferies 則直接拋出 2500 億美元的新價(jià)碼,稱未來十年內(nèi) Waymo 就能站上這一臺(tái)階。最近更是有消息傳出,稱 Waymo 有意尋求外部投資者,其估值頂?shù)纳虾脦讉€(gè) Cruise。
如果說行為預(yù)測真的是自動(dòng)駕駛最難且最重要的問題,特斯拉在這方面還領(lǐng)先 Waymo、Cruise 等公司的話,那么特斯拉在自動(dòng)駕駛出租車和自動(dòng)駕駛卡車市場上必然前途不可限量,其股價(jià)也應(yīng)該大大超過 Waymo 或 Cruise(現(xiàn)在特斯拉市值僅 420 億美元)。
即使全自動(dòng)駕駛永遠(yuǎn)也實(shí)現(xiàn)不了,特斯拉在半自動(dòng)駕駛市場也能玩的風(fēng)生水起。
現(xiàn)在特斯拉已經(jīng)上線 Navigate on Autopilot 與增強(qiáng)版召喚等功能,如果加上未來新的半自動(dòng)駕駛功能,足以讓特斯拉旗下電動(dòng)車有自己獨(dú)特的辨識(shí)度。
如果其他公司無法搭建像特斯拉一樣的數(shù)據(jù)采集車隊(duì),在深度學(xué)習(xí)上想與 Musk 競爭完全是癡人說夢,而深度學(xué)習(xí)的「深度」則決定了半自動(dòng)駕駛技術(shù)先進(jìn)與否。
一直以來,許多評(píng)論家都認(rèn)為特斯拉只不過是一家電動(dòng)車公司,只要競爭對手們肯用功,早晚能拿出更棒的產(chǎn)品。
事實(shí)上,Musk 眼光可沒這么短淺,自動(dòng)駕駛才是特斯拉真正的「護(hù)城河」。
從公司文化看,市場上的特斯拉「殺手」其實(shí)都是硬件公司。
舉例來說,2012 年特斯拉就開始進(jìn)行的 OTA 升級(jí),這些汽車廠商們現(xiàn)在才開始追趕。從長遠(yuǎn)來看,這也是特斯拉保持競爭力的一大動(dòng)力來源。
據(jù) Elon Musk 介紹,當(dāng)下特斯拉的神經(jīng)網(wǎng)絡(luò)與其他自動(dòng)駕駛相關(guān)軟件其實(shí)只是占據(jù)特斯拉新型定制芯片 FSD 5%-10% 的算力。
鑒于算力可助推神經(jīng)網(wǎng)絡(luò)的性能,因此未來特斯拉還會(huì)繼續(xù)進(jìn)行挖潛。
在去年第三季度財(cái)報(bào)電話會(huì)上,特斯拉 AI 主管 Andrej Karpathy 就表示,更強(qiáng)大的神經(jīng)網(wǎng)絡(luò)已經(jīng)在路上,F(xiàn)SD 是其堅(jiān)強(qiáng)后盾。
最近,Musk 也在推特上指出,今年第四季度開始,搭載 FSD 的車型在功能性上會(huì)逐漸甩開其他車型。
在懂行的人看來,Musk 什么時(shí)候?qū)?FSD 的性能壓榨到極限,特斯拉就要迎來新階段。
鑒于 Karpathy 在公開場合頻頻釋放信號(hào),想必特斯拉新的神經(jīng)網(wǎng)絡(luò)已經(jīng)秘密開發(fā)多時(shí)。
這顆「小核彈」不但體積更大,架構(gòu)上肯定也得到了優(yōu)化(比如升級(jí)了人工神經(jīng)元和連接方式)。
對特斯拉來說,性能上的幾何級(jí)提升是其對神經(jīng)網(wǎng)絡(luò)的最大期待。
如何將視覺、預(yù)測與模擬編織在一張網(wǎng)里?
如果計(jì)算視覺神經(jīng)網(wǎng)絡(luò)沒能探測到路上的一輛車,處在下游的行為預(yù)測神經(jīng)網(wǎng)絡(luò)也同樣會(huì)對這輛車「失明」。
同樣的,這個(gè)流程產(chǎn)生的抽象記錄質(zhì)量也會(huì)變差。所以無論是訓(xùn)練還是推理,計(jì)算視覺的提升就意味著行為預(yù)測的進(jìn)步。
這樣的道理也適用于模仿學(xué)習(xí),而特斯拉就在用這項(xiàng)技術(shù)進(jìn)行路徑預(yù)測。
在模仿學(xué)習(xí)過程中,神經(jīng)網(wǎng)絡(luò)會(huì)「吸入」一些輸入數(shù)據(jù),它可能是原始視頻,但恐怕更像計(jì)算視覺神經(jīng)網(wǎng)絡(luò)生成的抽象記錄。
整個(gè)神經(jīng)網(wǎng)絡(luò)通路走下來,大家想在輸出端得到車輛下一步該采取什么行動(dòng)的指示,隨后這些數(shù)據(jù)會(huì)被傳輸至控制軟件以決定到底該下什么命令(剎車、轉(zhuǎn)向還是加速)。
借助成千上萬特斯拉車主,特斯拉能采集到豐富的輸出數(shù)據(jù)。這些數(shù)據(jù)與抽象記錄相結(jié)合,就能生成訓(xùn)練所用的「輸入-輸出」。
在模仿學(xué)習(xí)中,這個(gè)「輸入-輸出」對其實(shí)就是「狀態(tài)-動(dòng)作」,它包含了世界或周邊環(huán)境的狀態(tài),以及人類駕駛員的動(dòng)作。
與行為預(yù)測類似,模仿學(xué)習(xí)的「輸入-輸出」對也無需人類對數(shù)據(jù)進(jìn)行手動(dòng)標(biāo)記。
有了充足的「狀態(tài)-動(dòng)作」對,神經(jīng)網(wǎng)絡(luò)就能從人類駕駛員那里學(xué)到狀態(tài)與動(dòng)作間的聯(lián)系。再加上充分的訓(xùn)練,神經(jīng)網(wǎng)絡(luò)就能自己找到發(fā)號(hào)施令的狀態(tài),從而學(xué)會(huì)駕駛。
如果在模仿學(xué)習(xí)中用到了抽象記錄,那么訓(xùn)練和推理中計(jì)算視覺錯(cuò)誤的減少,也意味著模仿學(xué)習(xí)錯(cuò)誤的減少。
此外,提升行為預(yù)測能力也能促進(jìn)模仿學(xué)習(xí)。
也就是說,模仿學(xué)習(xí)用到的輸入數(shù)據(jù)并不一定非要來自計(jì)算視覺網(wǎng)絡(luò),行為預(yù)測網(wǎng)絡(luò)也能貢獻(xiàn)額外的輸入數(shù)據(jù)。

ChauffeurNet 組成部分:FeatureNet 和 AgentRNN
Waymo 的模仿學(xué)習(xí)網(wǎng)絡(luò) ChauffeurNet 就遵循了這樣的邏輯。
它將視覺、預(yù)測與模擬編織在一張網(wǎng)里之后,模仿學(xué)習(xí)就能有兩個(gè)參考目標(biāo),學(xué)習(xí)起人類司機(jī)的動(dòng)作就更高效了。
想要搞清環(huán)境狀態(tài)與駕駛員動(dòng)作之間的關(guān)聯(lián),模仿網(wǎng)絡(luò)就得被置于與人類司機(jī)相同的環(huán)境下,并且獲取相同的信息。
眾所周知,人類開車不只靠視覺,我們還有很強(qiáng)的預(yù)測能力。
在自動(dòng)駕駛系統(tǒng)中:
計(jì)算視覺網(wǎng)絡(luò)負(fù)責(zé)重建人類眼睛看到的車輛外部環(huán)境;
行為預(yù)測網(wǎng)絡(luò)則需要再造人類大腦中的整個(gè)預(yù)測流程。
兩大網(wǎng)絡(luò)的目的都是拿出正確的駕駛策略。
未來,自動(dòng)駕駛汽車可能會(huì)直接從像素中獲取相關(guān)信息,但眼下機(jī)器學(xué)習(xí)工程師還是傾向于將任務(wù)分配給視覺、預(yù)測和模仿。
因此,預(yù)測能力(作為輸入)的提升也意味著模仿能力的提升,而視覺能力(作為輸入)的進(jìn)步則能讓預(yù)測和模仿共同受益。
行為預(yù)測才是自動(dòng)駕駛的終極殺器
在討論數(shù)據(jù)采集時(shí),許多人并不看好特斯拉的「超級(jí)車隊(duì)」,因?yàn)樗麄冋J(rèn)為特斯拉付不起人工打標(biāo)簽的錢。
可惜,特斯拉根本就沒玩監(jiān)督學(xué)習(xí)那一套,行為預(yù)測才是終極殺器。
除此之外,特斯拉還用上了模仿學(xué)習(xí),而它不用人工打標(biāo)簽。
其實(shí),即使選擇用傳統(tǒng)的監(jiān)督學(xué)習(xí)研究計(jì)算視覺,特斯拉的車隊(duì)也能帶來各種價(jià)值連城的數(shù)據(jù)(包括各種極端情況)。
舉例來說,用來識(shí)別馬匹的深度學(xué)習(xí)網(wǎng)絡(luò)也可以在車上運(yùn)行,一旦它覺得馬出現(xiàn)了,就能啟動(dòng)相機(jī)快速拍一張。顯然,這種方法能用在識(shí)別相對稀有的物體上。
眼下,業(yè)界正在攻克計(jì)算視覺的自監(jiān)督學(xué)習(xí)技術(shù),有了它,訓(xùn)練信號(hào)就可以完全取自數(shù)據(jù)本身,無需人工標(biāo)簽。
據(jù)汽車之心了解,在深度感知領(lǐng)域,特斯拉已經(jīng)開始試驗(yàn)自監(jiān)督學(xué)習(xí)。
上述討論可能有些晦澀難懂,不過特斯拉未來到底價(jià)值幾何其實(shí)靠的就是這些技術(shù)。
面對自動(dòng)駕駛這個(gè)萬億級(jí)別的市場,誰都想成為領(lǐng)軍者。而這,意味著數(shù)千億美元的估值。