首頁 / 資訊中心 / 交通百科/人工智能自動駕駛汽車深度強化學(xué)習(xí)的人工輔助訓(xùn)練

人工智能自動駕駛汽車深度強化學(xué)習(xí)的人工輔助訓(xùn)練

發(fā)布時間:2018-08-07 分類:交通百科

在控制論自動駕駛汽車研究所,我們正在利用人體訓(xùn)練來幫助進行自動駕駛汽車人工智能的駕駛訓(xùn)練,有各種各樣的方法來教自動駕駛汽車的人工智能有關(guān)駕駛?cè)蝿?wù)的知識。

首先,人工智能開發(fā)人員可以嘗試直接編程的人工智能關(guān)于如何駕駛汽車

這包括識別各種驅(qū)動算法,并編寫實現(xiàn)這些算法的編程代碼。不幸的是,工作量非常大,可能需要很長的時間來做,而且代碼涵蓋駕駛的所有方面和無數(shù)的駕駛情況的可能性是有問題的。因此,這種形式的“教學(xué)”通常是為人工智能的核心在駕駛?cè)蝿?wù),然后使用其他技術(shù)來加強它。

第二,通過直接教授來學(xué)習(xí)

在這種情況下,人工智能幾乎就像一塊白板,被開發(fā)用來觀察人類的行為,然后嘗試模仿這些動作。這可能很方便,但它也常常缺少駕駛?cè)蝿?wù)的上下文。換句話說,人類駕駛員可能會告訴人工智能如何轉(zhuǎn)動輪子或如何快速啟動,但是人工智能不知道這些動作應(yīng)該發(fā)生在什么環(huán)境中。

第三,讓人工智能嘗試駕駛汽車,然后有某種形式的自校正反饋,人工智能使用相應(yīng)的調(diào)整,這是流行的使用汽車駕駛模擬

你設(shè)計的人工智能,使它能夠駕駛模擬汽車,你設(shè)定模擬的汽車不應(yīng)該離開模擬的道路。人工智能試圖駕駛模擬汽車,當(dāng)它離開模擬道路時,它將自己指向碼頭。它的目標(biāo)是努力得分,而不是失去分數(shù)。因此,它逐漸聯(lián)合起來,不再駛離公路。它是根據(jù)一組約束或限制,以及某種獎懲制度,通過自我修正來做到這一點的。

人工智能

這種方法在現(xiàn)實世界中并不是很有效,因為你不希望一輛真正的汽車不斷地離開路面或撞到墻壁上,所以這是通過模擬來實現(xiàn)的。一個模擬的好處是你可以讓它運行幾百次,數(shù)千次,甚至數(shù)百萬次。為了讓人工智能捕捉到該做什么,模擬車可以不停地運行,可以根據(jù)需要提供盡可能多的模擬實例。

機器學(xué)習(xí)是來這里玩的,一個人工神經(jīng)網(wǎng)絡(luò)可以被輸入數(shù)百、數(shù)千或幾十萬張汽車背面的圖片,并逐漸設(shè)計出汽車從后面看上去是什么樣子的圖案。這有助于自動駕駛汽車的攝像頭,因為當(dāng)汽車行駛時拍攝到圖像時,神經(jīng)網(wǎng)絡(luò)可以很容易地識別出什么是自動駕駛汽車前面的一輛汽車,什么可能不是一輛汽車。從某種意義上說,這種形式的機器學(xué)習(xí)需要進行大量的觀察(查看汽車后部的圖片),然后找出能夠在這些圖片中找到關(guān)鍵方面的模式。

另一種學(xué)習(xí)駕駛?cè)蝿?wù)的方法是讓人工智能試著駕駛汽車,然后對人工智能系統(tǒng)進行人工解說

一名人類“乘客”向人工智能提供反饋,然后人工智能根據(jù)提供的反饋進行調(diào)整。一些人稱這種反饋為“批評”,人工智能被設(shè)置為深度強化型學(xué)習(xí)者。這被認為是“深刻的”,因為批評是作為更高級學(xué)習(xí)方面的一部分而發(fā)生的,它被認為是一種“強化”的形式,因為它建議人工智能要么多做點什么,要么少做點什么。它加強了正確的行為,并且可以說加強了對不當(dāng)行為的避免。

人工智能自動駕駛汽車也可以做到這一點

實時反饋(或批評)被傳達到人工智能深層強化學(xué)習(xí)系統(tǒng),以提高人工智能的駕駛技能。反饋需要及時完成,并在一定程度上與駕駛過程中的駕駛?cè)蝿?wù)的展開聯(lián)系在一起,反饋需要明確,重點放在駕駛?cè)蝿?wù)的性質(zhì)上。

在反饋過程中,衡量學(xué)習(xí)者的表現(xiàn)也是很重要的。您希望確保人工智能不會變得過于依賴反饋。這可能會成為培訓(xùn)的意外結(jié)果,即人工智能系統(tǒng)開始對人類訓(xùn)練師過度適應(yīng)。自動駕駛汽車的人工智能顯示了一個高維的狀態(tài)空間,這意味著當(dāng)你考慮到駕駛汽車所涉及的所有決策因素時,會涉及到許多維度。我們沒有使用大量的培訓(xùn)數(shù)據(jù)來嘗試和提供完整的指導(dǎo),而是通過使用人力培訓(xùn)師來加強培訓(xùn)。在進行了其他形式的訓(xùn)練后,他們在人工智能內(nèi)部自我調(diào)整的過程中提供了幫助。

對于人工智能系統(tǒng),這里有一些關(guān)于反饋提供的方面,這些方面對于人員培訓(xùn)的設(shè)計是值得注意的:

1、反饋太少

人類訓(xùn)練師必須判斷給人工智能自動駕駛汽車提供多少反饋。太少的反饋可能是不好的,因為人工智能沒有得到它所需要的,以提高駕駛?cè)蝿?wù)。

2、反饋太多

人類訓(xùn)練師在給出過多的反饋時必須小心謹慎。除了它在學(xué)習(xí)方面把人工智能弄得亂七八糟,還有另一個危險,那就是人工智能過度依賴于人的訓(xùn)練。

3、破壞性反饋

這些反饋可能會無意中干擾人工智能,如果人工智能正在確定一個行動計劃,而反饋發(fā)生了,人工智能可能無法完成該行動計劃,或者從駕駛?cè)蝿?wù)所需的元素上分散注意力。

4、無關(guān)反饋

為了控制無關(guān)的反饋,我們限制了一組反饋語句,這些反饋語句由人類訓(xùn)練師提供。不可否認的是,這并不是真實世界的方式,因為一個人訓(xùn)練另一個人可能像他們想要的那樣無關(guān)緊要,但即使是人類學(xué)習(xí)者,他們也可能很難弄清楚什么反饋是針對任務(wù)的,哪些反饋對任務(wù)沒有影響,我們通過有一個嚴格的反饋可能性列表來防止這種情況的發(fā)生。

5、不一致反饋

不一致反饋甚至沖突反饋的潛在可能是人工智能系統(tǒng)的一個難點。假設(shè)人類訓(xùn)練師說加速時,采取一個曲線,但后來的人說,放慢時,采取相同的曲線。人工智能如何看待這種看似不一致或相互矛盾的反饋呢?我們有人工智能系統(tǒng)向人類訓(xùn)練師表明,所提供的反饋似乎不一致,因此至少提醒人類訓(xùn)練師注意該方面(如果人類訓(xùn)練師確實沒有必要不一致的話,那么人類訓(xùn)練師就可以進行調(diào)整)。

6、適當(dāng)?shù)摹⒇暙I的、及時的反饋

其目的是讓人類培訓(xùn)師能夠向人工智能系統(tǒng)提供適當(dāng)、貢獻和及時的反饋。要做到這一點,需要有精通這方面培訓(xùn)并認真嘗試進行培訓(xùn)的人力培訓(xùn)師。

為自動駕駛汽車的人工智能提供人員培訓(xùn)是快速提高自動駕駛?cè)蝿?wù)人工智能能力的一種手段。它并沒有取代教人工智能開車的其他方法,相反,它被用來加強其他技術(shù)。為這個目的設(shè)計人工智能是一個額外的挑戰(zhàn),而不是通常人工智能會做的事情。它包括使戰(zhàn)術(shù)和戰(zhàn)略人工智能驅(qū)動元素準(zhǔn)備好接受反饋,并能夠根據(jù)提供的反饋進行調(diào)整。

盡管我們都在試圖走向人工智能自動駕駛汽車,這是真正的自動駕駛汽車,通常被稱為第5級,這是自動駕駛汽車的最高水平,指的是一種自動駕駛汽車,能以人類能夠駕駛的任何方式駕駛汽車,想象一下,如果我們不僅通過使用人類訓(xùn)練器來教授人工智能,而且假設(shè)有一天我們有人工智能自動駕駛汽車,教人類駕駛。