自動(dòng)駕駛大模型，千萬別入戲太深

汽車通訊社 2024/2/5 15:26:12 責(zé)編：夢(mèng)澤

評(píng)論：

美國的 CES 展，長久以來都是人們觀察全球科技風(fēng)向的一個(gè)重要風(fēng)向標(biāo)。

在 2024 年的 CES 展上，兩位人工智能領(lǐng)域的專家，李飛飛和吳恩達(dá)做了一場(chǎng)對(duì)談，在這場(chǎng)談話中，他們提及了一個(gè)足以影響自動(dòng)駕駛行業(yè)的關(guān)鍵點(diǎn)。

自動(dòng)駕駛大模型，千萬別入戲太深

那就是，AI 大模型開始從“大語言模型”向“大視覺模型”的轉(zhuǎn)變，AI 大模型不但能理解語言，還能生成圖像，還有對(duì)圖像進(jìn)行分析，讓計(jì)算機(jī)更好地理解圖像的含義，從而給自動(dòng)駕駛帶來質(zhì)的飛躍。

對(duì)此，本文分為兩部分：

為什么李飛飛和吳恩達(dá)會(huì)說“大視覺模型”將給自動(dòng)駕駛帶來質(zhì)的飛躍？

為什么我們對(duì)自動(dòng)駕駛的 AI 大模型別入戲太深？

大視覺模型會(huì)帶來顛覆性革命嗎？

當(dāng)一個(gè)人駕駛車輛時(shí)，不是簡單地把著方向盤，控制著油門和剎車，還要處理很多復(fù)雜的事情。

你要看交通信號(hào)，你要看各種路邊的標(biāo)志物，你要判斷路上有什么東西。如果前面路上有一只小鴨子在慢慢走，你得踩剎車；但是如果是一只鳥，你可以想象車開過去它就會(huì)飛走，你就不用減速。如果路上有個(gè)塑料袋，你可以直接碾壓過去；但如果那是個(gè)石頭，你就必須繞著走。

你對(duì)路面狀況有深刻的理解，這種理解和你的生活閱歷、和你平時(shí)積累的經(jīng)驗(yàn)有關(guān)。最起碼你得知道塑料袋是什么，石頭是什么，鳥是什么，但汽車并不知道。

要想讓汽車知道這些東西，那這背后涉及的技術(shù)可太難了?，F(xiàn)有的圖形識(shí)別能力，哪怕把障礙物換個(gè)角度，計(jì)算機(jī)都看不出來。更何況人的路面知識(shí)無窮無盡，你根本就沒辦法把每個(gè)知識(shí)都告訴計(jì)算機(jī)，而它自己根本沒有思考能力。

當(dāng)下，自動(dòng)駕駛搞的都是狹義 AI，走的是機(jī)器學(xué)習(xí)的路線。計(jì)算機(jī)把路上的所有物體，包括建筑物、其他的車、行人都當(dāng)成是三維模型，它不再試圖理解這些物體。

自動(dòng)駕駛大模型，千萬別入戲太深

計(jì)算機(jī)只關(guān)心這些物體的移動(dòng)趨勢(shì)，估算每個(gè)物體的速度，預(yù)測(cè)它的路線，看看跟車的路線會(huì)不會(huì)發(fā)生沖突，如果有沖突就踩剎車或者繞著走。

然而，真實(shí)的路面上會(huì)有各種意外。Google 一直在訓(xùn)練自動(dòng)駕駛技術(shù)，他們遇到過各種各樣奇怪的情況。有一次有幾個(gè)小孩在高速公路上在玩青蛙。還有一次，一個(gè)殘疾人，坐著電動(dòng)輪椅，在路中間追逐一只鴨子，鴨子繞圈跑，她也繞著圈追。那你說像這種情況你能一下子就準(zhǔn)確預(yù)測(cè)這些人的行動(dòng)路線嗎？

自動(dòng)駕駛汽車識(shí)別路邊的物體，都是靠把激光打到各種東西上再反射回來?？扇绻谙卵┗蛘呦掠?，激光可能打到雪花或者雨滴上反射，汽車就可能對(duì)周圍物體有重大誤判。

計(jì)算機(jī)能不能保證看懂路邊標(biāo)記限速、慢行的交通標(biāo)志牌？圖形識(shí)別技術(shù)非常難，曾經(jīng)，Google 自動(dòng)駕駛技術(shù)把 Obama 夫人米歇爾給識(shí)別成一只猩猩，貽笑大方，而且假如標(biāo)志牌有損壞，或者上面被人貼了小廣告，那汽車就很可能無法識(shí)別。

2016 年，一個(gè)特斯拉車主違反規(guī)定，把車完全交給自動(dòng)駕駛，結(jié)果因?yàn)槠嚊]有識(shí)別出來前面的一輛白色卡車，它可能以為那是天上的白云或者別的什么東西，司機(jī)當(dāng)場(chǎng)死亡。當(dāng)然這是司機(jī)犯了錯(cuò)誤，但這恰恰也說明自動(dòng)駕駛技術(shù)非常容易遭遇意外。

但是，“大視覺模型”卻可能改變這一切。

2023 年 9 月，OpenAI 發(fā)布了測(cè)試版的 GPT—4V，能看懂圖片，能解讀電子競(jìng)技比賽。也就是說，GPT 對(duì)圖像和視頻中的各種事物有了很強(qiáng)的理解能力，在測(cè)試中，讓 GPT—4V 看不同駕駛場(chǎng)景的圖像和視頻都獲得了驚人的突破，表現(xiàn)出了超越現(xiàn)有自動(dòng)駕駛系統(tǒng)的潛力。

自動(dòng)駕駛大模型，千萬別入戲太深

而且，不只是識(shí)別數(shù)據(jù)，大模型還能生成自動(dòng)駕駛數(shù)據(jù)。比如，一家來自英國的自動(dòng)駕駛公司 Wayve 就做出了嘗試，他們開發(fā)了一個(gè)名叫 GAIA-1 的生成式 AI 模型，人們輸入視頻和文本，AI 就會(huì)根據(jù)需求創(chuàng)建逼真的駕駛視頻。

GAIA-1 可以學(xué)習(xí)和理解有關(guān)駕駛的很多概念，包括汽車、行人、道路布局、交通燈、建筑物等等，能夠生成很多復(fù)雜路況，對(duì)走視覺路線的自動(dòng)駕駛系統(tǒng)非常有幫助。

值得一提的是，來自 UC 伯克利和約翰斯?霍普金斯大學(xué)的研究人員，提出了一種全新的建模方法，可以在不使用任何語言數(shù)據(jù)的情況下，訓(xùn)練大視覺模型。

簡單來說，就是大視覺模型只需看圖訓(xùn)練，就能理解和處理復(fù)雜的視覺信息，不用依賴語言數(shù)據(jù)?？梢?，大視覺模型的進(jìn)程才剛剛開始，它有巨大的潛能尚待挖掘，這對(duì)特斯拉的自動(dòng)駕駛純視覺方案是個(gè)巨大的利好。

為什么我勸你別太高估大模型了

今天，在自動(dòng)駕駛領(lǐng)域，各種概念層出不窮，每當(dāng)有新技誕生，都會(huì)有人驚呼，全新的時(shí)代要誕生了！

但實(shí)際上，大部分人沒有人意識(shí)到，自動(dòng)駕駛的邊界就是人工智能的邊界，而人工智能的邊界是數(shù)學(xué)的邊界，沒錯(cuò)，數(shù)學(xué)是有邊界的。

1931 年，數(shù)學(xué)家哥德爾認(rèn)為，許多數(shù)學(xué)家試圖構(gòu)建一個(gè)既完備又一致的數(shù)學(xué)體系，這樣的的努力方向，是錯(cuò)誤的，數(shù)學(xué)體系不可能既完備又一致。也就是說，保證了完備性，結(jié)論就會(huì)矛盾；保證了一致性，就會(huì)有很多結(jié)論無法用邏輯推理的方法證明。這提醒人們，讓人們知道，數(shù)學(xué)不是萬能的，世界上很多問題不是數(shù)學(xué)問題。

比如，你正在以很快的速度開車，突然發(fā)現(xiàn)前邊有一群小學(xué)生在馬路上打鬧。要避讓這些小學(xué)生，你就會(huì)撞到路邊的建筑物墻上，而如果撞墻，你的生命安全就面臨危險(xiǎn)。請(qǐng)問在這種情況下，你是選擇撞墻還是選擇撞向小學(xué)生呢？

自動(dòng)駕駛大模型，千萬別入戲太深

如果汽車廠商告訴你，我們這個(gè)車就是講道德的，我們的自動(dòng)駕駛系統(tǒng)在這種情況下一定會(huì)首先確保行人的安全，請(qǐng)問這樣的車你會(huì)買嗎？你會(huì)讓汽車做決定，犧牲你自己嗎？

可見，這是一個(gè)倫理道德問題，沒有標(biāo)準(zhǔn)答案，人工智能再強(qiáng)大，也無法計(jì)算這樣的問題。

其次，許多情況，無論用什么模型，用多么強(qiáng)的算力，也都算不出來。

在數(shù)學(xué)上，還有一個(gè)經(jīng)典命題，1900 年，數(shù)學(xué)家希爾伯特就提出過一個(gè)疑問：對(duì)于某一類數(shù)學(xué)問題，有沒有一個(gè)方法，通過有限步，就能判斷它有沒有解？根據(jù)希爾伯給出的結(jié)論，很多數(shù)學(xué)問題，就算有算法，但有沒有解是不知道的。

實(shí)際上，自動(dòng)駕駛就屬于這類問題，到底有沒有解，我們不知道。

今天，所有專家都在說，只要數(shù)據(jù)夠多，自動(dòng)駕駛大模型早晚能成熟，實(shí)際上，對(duì)自動(dòng)駕駛系統(tǒng)來說，大部分情況下，能用 2% 的數(shù)據(jù)就能訓(xùn)練一個(gè)能解決路面 80% 的情況的自動(dòng)駕駛系統(tǒng)，但是剩下那 20% 的情況，你就是再用再多的數(shù)據(jù)也未必能解決。

比如馬斯克的純視覺 FSDV12，在想象中，純視覺方案有現(xiàn)成的 AI 算法可以模仿，但實(shí)際量產(chǎn)過程中有無數(shù)的細(xì)節(jié)需要完善，想象中，只要在邏輯上做到完美的算法就行了，但實(shí)際上算法需要大規(guī)模的數(shù)據(jù)喂養(yǎng)。

要知道，馬斯克對(duì)特斯拉 FSD 傾斜了無數(shù)資源，比如，在 FSD 的開發(fā)過程中，特斯拉積累了超過 90 億英里使用里程，這是全球最大的自動(dòng)駕駛數(shù)據(jù)來源；為了利用這些數(shù)據(jù)，特斯拉不斷擴(kuò)充其超算集群，到處挖頂級(jí) AI 工程師，自研算法、芯片和大算力 GPU。

但即便如此，你也未必能喂得出來，要知道，馬斯克曾公開表示，他低估了純視覺方案的難度，他感到非常抱歉。

自動(dòng)駕駛大模型，千萬別入戲太深

為什么會(huì)這樣？比方說，美國 50 個(gè)州都有各自的交通法規(guī)，各地的氣候條件和路況都不一樣，這還不算美國和中國更不一樣。這意味著什么呢？這意味著在一個(gè)地區(qū)訓(xùn)練出來的自動(dòng)駕駛方案，換一個(gè)地方就完全沒用了。所以任何自動(dòng)駕駛大模型其局限性都很大，不能通用，你必須在每一個(gè)地區(qū)都采集大量的數(shù)據(jù)才行。

進(jìn)一步說，即便算力增加也無法解決自動(dòng)駕駛大模型的普適性問題，計(jì)算能力增加，原來可以計(jì)算的問題會(huì)算得更快，甚至瞬間解決，但是不可算的還是不可算。

我們打個(gè)比方，你如果有一臺(tái)制冷機(jī)，可以將溫度降低。如果你有一個(gè)超大功率的制冷機(jī)，溫度降低得會(huì)快得多。但是，用再多、再大的制冷機(jī)也不可能將溫度降到絕對(duì)零度以下，因?yàn)槟鞘俏锢韺W(xué)的一條邊界。

總結(jié)而言，由于數(shù)學(xué)的邊界無法被突破，所以今天任何的自動(dòng)駕駛方案，大家可千萬別入戲太深。

本文來自微信公眾號(hào)：汽車通訊社（ID：automobile-news），作者：朱愈嘉

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

自動(dòng)駕駛大模型，千萬別入戲太深

大視覺模型會(huì)帶來顛覆性革命嗎？

為什么我勸你別太高估大模型了

相關(guān)文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

自動(dòng)駕駛大模型，千萬別入戲太深

大視覺模型會(huì)帶來顛覆性革命嗎？

為什么我勸你別太高估大模型了

相關(guān)文章

自動(dòng)駕駛大模型，千萬別入戲太深

大視覺模型會(huì)帶來顛覆性革命嗎？