首頁 / 資訊中心 / 交通百科/AI人工智能的認(rèn)知偏差與價(jià)值取向

AI人工智能的認(rèn)知偏差與價(jià)值取向

發(fā)布時(shí)間:2018-10-11 分類:交通百科

人工智能安全的核心在于價(jià)值調(diào)整問題:我們?nèi)绾谓?a href="http://listwiththehawk.com/" target="_blank">人工智能系統(tǒng)按照人類的目標(biāo)和價(jià)值行事?

許多研究人員利用逆向強(qiáng)化學(xué)習(xí)等技術(shù),與人工智能系統(tǒng)互動,向他們傳授人類價(jià)值觀。理論上,通過逆向強(qiáng)化學(xué)習(xí),人工智能系統(tǒng)可以了解人類的價(jià)值,以及如何通過觀察人類行為和接收人類反饋來最好地幫助他們。

人工智能

但是,人類的行為并不總是反映人類的價(jià)值,而且人類的反饋往往是有偏見的。當(dāng)我們放松的時(shí)候,我們會享受健康的食物,但是當(dāng)我們壓力很大的時(shí)候,我們需要油膩的食物來提供能量,我們不僅沒有按照我們的價(jià)值觀生活,而且我們的許多價(jià)值觀相互矛盾。例如,我們需要8小時(shí)的睡眠,但我們會有規(guī)律地減少睡眠,因?yàn)槲覀円残枰ぷ?、照顧孩子和保持健康的人際關(guān)系。

人工智能系統(tǒng)也許可以通過觀察人類學(xué)到很多東西,但由于我們的不一致,一些研究人員擔(dān)心,用逆向強(qiáng)化學(xué)習(xí)訓(xùn)練的系統(tǒng)將從根本上無法區(qū)分與價(jià)值一致的行為和不一致的行為。當(dāng)人工智能系統(tǒng)變得更強(qiáng)大時(shí),從觀察人類推斷出錯(cuò)誤的價(jià)值觀或目標(biāo)可能導(dǎo)致這些系統(tǒng)采取有害行為,這可能變得特別危險(xiǎn)。

區(qū)分偏見和價(jià)值觀

人工智能研究員探討了逆向強(qiáng)化學(xué)習(xí)在向人工智能系統(tǒng)教授人類價(jià)值觀方面的局限性,特別揭示了認(rèn)知偏差是如何使人工智能難以通過交互學(xué)習(xí)來了解人類偏好的。我們希望一個(gè)代理人追求一些目標(biāo),這一套目標(biāo)與人類的目標(biāo)一致。接下來的問題是,如果代理人只是觀察人類,并試圖通過他們的行為來實(shí)現(xiàn)他們的目標(biāo),那么問題也將出現(xiàn),會產(chǎn)生多大的偏見呢?

在某些情況下,認(rèn)可機(jī)構(gòu)將能夠理解常見偏見的模式,一個(gè)常見模式的例子就是時(shí)間不一致。時(shí)間不一致是指人們的價(jià)值觀和目標(biāo)會隨著你問他們的時(shí)間而改變,換句話說,在你希望你未來的自己做什么和你未來自己喜歡做的事情之間存在著矛盾。

時(shí)間不一致的例子比比皆是,首先,如果你在睡前問他們,大多數(shù)人重視早起和鍛煉。但是到了早上,當(dāng)外面又冷又黑的時(shí)候,他們常常看重床單的舒適感和放松的好處。從早起到戒酒、健康飲食和省錢,人們往往對未來的自己期望更高,但這可能不是他們未來的自己愿意做的事。

有了系統(tǒng)的,可預(yù)測的模式,如時(shí)間不一致,逆向強(qiáng)化學(xué)習(xí)可以取得進(jìn)展與人工智能系統(tǒng)。但我們的偏見往往不那么明顯,一般來說,解讀哪些行為與某人的價(jià)值觀一致,以及哪些行為源于偏見是困難的,甚至是不可能的。

假設(shè)你答應(yīng)打掃房子,但你在最后一刻得到了與朋友聚會的邀請,你會放棄打掃房子而去參加朋友的聚會,這是一種偏見?這會對一個(gè)只使用逆向強(qiáng)化學(xué)習(xí)來訓(xùn)練AI人工智能造成很大的困擾,它如何決定什么是偏見和值?

學(xué)習(xí)正確的價(jià)值觀

盡管存在這個(gè)難題,理解人類的價(jià)值和偏好對于人工智能系統(tǒng)是至關(guān)重要的,而開發(fā)人員在培訓(xùn)他們的機(jī)器學(xué)習(xí)這些偏好方面有著非常實(shí)際的興趣。

如今,一些流行的網(wǎng)站已經(jīng)開始使用人工智能來學(xué)習(xí)人類的喜好。例如,通過youtube和Amazon,機(jī)器學(xué)習(xí)算法可以觀察你的行為,并預(yù)測你下一步想要什么。但是,盡管這些建議往往是有用的,但它們卻產(chǎn)生了意想不到的后果。

在觀看特朗普集會的視頻以了解他的選民吸引力之后,我們有可能在“自動播放”隊(duì)列中看到白人民族主義宣傳和否認(rèn)大屠殺的視頻。這點(diǎn)可以讓我們意識到,YouTube的算法經(jīng)過優(yōu)化以保持用戶的參與度,可以預(yù)見的是,隨著用戶觀看更多的視頻,它會提供更多的極端內(nèi)容,這導(dǎo)致該網(wǎng)站為“偉大激進(jìn)主義者”。

YouTube算法中的這種價(jià)值偏差預(yù)示著與更先進(jìn)的人工智能系統(tǒng)交互學(xué)習(xí)的危險(xiǎn),不是優(yōu)化先進(jìn)的人工智能系統(tǒng)來迎合我們的短期欲望和我們對極端的吸引力,設(shè)計(jì)師必須能夠優(yōu)化它們來理解我們更深層的價(jià)值和提高我們的生活。

我們將希望人工智能系統(tǒng)能夠比人類更好地通過我們的決定進(jìn)行推理,理解我們做出有偏見的決定時(shí)的情況,并“幫助我們更好地追求我們的長期偏好”。然而,這將意味著,人工智能建議的事情似乎是不好的,人類乍一看。

你可以想象一下,一個(gè)人工智能系統(tǒng)會對商業(yè)計(jì)劃進(jìn)行一次精彩絕倫的、違反直覺的修改,而人類卻發(fā)現(xiàn)這是荒謬的。為了幫助人們在這些場景中理解人工智能,科學(xué)家研究了人工智能系統(tǒng)如何以人類可以理解的方式進(jìn)行推理,并最終改進(jìn)了人類的推理。

有一種概念叫做因素認(rèn)知,就是把復(fù)雜的任務(wù)分解成小的、可以理解的步驟的想法,雖然目前還不清楚認(rèn)知是如何取得成功的,但有時(shí)候人類可以把他們的推理分解成小的步驟,通常我們依賴于直覺,而直覺則是更難分解的。