首頁 / 資訊中心 / 交通百科/訓(xùn)練人工智能妥協(xié)

訓(xùn)練人工智能妥協(xié)

發(fā)布時(shí)間:2018-09-29 分類:交通百科

想象一下,你正坐在一輛自動(dòng)駕駛汽車?yán)?,這輛車即將左轉(zhuǎn)駛?cè)胗娑鴣淼能嚵髦小F囍械囊粋€(gè)小系統(tǒng)將負(fù)責(zé)使車輛轉(zhuǎn)彎,一個(gè)系統(tǒng)可能會(huì)加速或踩剎車,其他系統(tǒng)將裝有探測障礙物的傳感器,而另一個(gè)系統(tǒng)可能正在與路上的其他車輛進(jìn)行通信。每個(gè)系統(tǒng)都有自己的目標(biāo),開始或停止,轉(zhuǎn)向或直行,認(rèn)識到潛在的問題,等等。但他們也必須共同努力實(shí)現(xiàn)一個(gè)共同的目標(biāo):在不造成交通事故的情況下轉(zhuǎn)向交通。

人工智能

如果我們有一個(gè)認(rèn)可機(jī)構(gòu)的體系,我們?nèi)绾螢閭€(gè)別的認(rèn)可機(jī)構(gòu)構(gòu)建獎(jiǎng)勵(lì),從而使組合的系統(tǒng)表現(xiàn)良好?

從本質(zhì)上說,人工智能系統(tǒng)中的人工智能就像上面的汽車?yán)?,需要學(xué)習(xí)如何滿足自己的目標(biāo),以及如何妥協(xié),以便其行動(dòng)將有助于滿足群體目標(biāo)。最重要的是,認(rèn)可機(jī)構(gòu)的制度需要考慮社會(huì)的喜好。與左轉(zhuǎn)相比,行車中的乘客或人行橫道上的行人的安全更為重要。

訓(xùn)練一個(gè)行為良好的人工智能

因?yàn)橄穹泵Φ慕值肋@樣的環(huán)境是如此復(fù)雜,工程師不能僅僅通過編程讓人工智能以某種方式行事來實(shí)現(xiàn)它的目標(biāo),人工智能系統(tǒng)需要在獎(jiǎng)勵(lì)制度的基礎(chǔ)上學(xué)習(xí)正確的行為。每個(gè)人工智能都有一個(gè)獎(jiǎng)勵(lì),因?yàn)樗男袆?dòng)和其他人工智能的行動(dòng)。隨著世界的不斷變化,回報(bào)也必須不斷變化,認(rèn)可機(jī)構(gòu)不僅需要跟上自身目標(biāo)的變化,還需要跟上整個(gè)系統(tǒng)不斷變化的目標(biāo)。

以獎(jiǎng)勵(lì)為基礎(chǔ)的學(xué)習(xí)系統(tǒng)的想法是大多數(shù)人都能想到的,任何一個(gè)養(yǎng)狗的人都經(jīng)歷過,當(dāng)他們的寵物意識到自己會(huì)得到款待時(shí),他們的寵物更有可能表演一種詭計(jì),對人工智能的獎(jiǎng)勵(lì)也是類似的。

在設(shè)計(jì)人工智能時(shí)經(jīng)常使用的一種技術(shù)是強(qiáng)化學(xué)習(xí),在強(qiáng)化學(xué)習(xí)中,當(dāng)人工智能系統(tǒng)采取某種行動(dòng)時(shí),它會(huì)收到正反饋或負(fù)反饋。然后,它試圖優(yōu)化自己的行動(dòng),以獲得更多的積極回報(bào)。然而,獎(jiǎng)勵(lì)不能僅僅被編程到人工智能中,人工智能必須與其環(huán)境互動(dòng),以了解哪些行動(dòng)將被認(rèn)為是好的、壞的或中立的。同樣,這種想法類似于一只狗學(xué)習(xí)技巧可以贏得它的待遇或贊揚(yáng),但行為不端可能導(dǎo)致懲罰。

培訓(xùn)認(rèn)可機(jī)構(gòu)系統(tǒng)

博弈論幫助研究人員了解什么類型的獎(jiǎng)勵(lì)會(huì)引起其他自私自利的參與者之間的合作,或者在這種情況下,會(huì)出現(xiàn)理性的人工智能系統(tǒng)。一旦一個(gè)ai人工智能計(jì)算出如何最大化它自己的獎(jiǎng)勵(lì),什么會(huì)誘使它按照另一個(gè)AI行事?為了回答這個(gè)問題,可以求助于一種叫做機(jī)制設(shè)計(jì)的經(jīng)濟(jì)學(xué)理論。

機(jī)制設(shè)計(jì)理論是一種諾貝爾理論,它使研究人員能夠確定一個(gè)由多個(gè)部分組成的系統(tǒng)如何實(shí)現(xiàn)一個(gè)總體目標(biāo)。這是一種逆博弈理論。如何設(shè)計(jì)互動(dòng)規(guī)則,例如分配獎(jiǎng)勵(lì)的方式,使個(gè)別機(jī)構(gòu)的行為有利于全系統(tǒng)和全社會(huì)的偏好?除其他外,機(jī)制設(shè)計(jì)理論已經(jīng)應(yīng)用于拍賣、電子商務(wù)、法規(guī)、環(huán)境政策以及人工智能等領(lǐng)域的問題。

人工智能系統(tǒng)的工作與機(jī)制設(shè)計(jì)理論的不同之處在于,后者需要某種機(jī)制或管理人員來監(jiān)督整個(gè)系統(tǒng)。在自動(dòng)化汽車或無人駕駛飛機(jī)的情況下,內(nèi)部機(jī)構(gòu)必須共同努力,以實(shí)現(xiàn)集團(tuán)目標(biāo),而沒有一個(gè)機(jī)制作出最終決定。隨著環(huán)境的變化,外部獎(jiǎng)勵(lì)也會(huì)發(fā)生變化。而當(dāng)系統(tǒng)內(nèi)的人工智能意識到他們想要做出某種改變來最大化他們的回報(bào)時(shí),他們將不得不彼此溝通,改變整個(gè)自治系統(tǒng)的目標(biāo)。