首頁 / 資訊中心 / 交通百科/人工智能:什么是強(qiáng)化學(xué)習(xí)?

人工智能:什么是強(qiáng)化學(xué)習(xí)?

發(fā)布時間:2018-10-12 分類:交通百科

強(qiáng)化學(xué)習(xí)是AI人工智能中討論、跟蹤和考慮最多的話題之一,因為它有可能改變大多數(shù)業(yè)務(wù)。在本文中,我想提供一個簡單的指南,解釋強(qiáng)化學(xué)習(xí),并給出一些如何使用強(qiáng)化學(xué)習(xí)的實際示例。

人工智能

什么是人工智能系統(tǒng)的強(qiáng)化學(xué)習(xí)?

強(qiáng)化學(xué)習(xí)的核心是一個概念,即最優(yōu)的行為或行動被積極的獎勵所加強(qiáng)。

就像蹣跚學(xué)步的孩子學(xué)習(xí)如何走路一樣,他們根據(jù)自己所經(jīng)歷的結(jié)果來調(diào)整自己的行為,比如,如果之前的廣義步子讓他們跌倒,那么他們就會采取較小的步驟,而機(jī)器和軟件代理則會使用強(qiáng)化學(xué)習(xí)算法,根據(jù)環(huán)境的反饋來確定理想的行為。它是機(jī)器學(xué)習(xí)的一種形式,因此是人工智能的一個分支。

根據(jù)問題的復(fù)雜性,強(qiáng)化學(xué)習(xí)算法可以隨著時間的推移不斷適應(yīng)環(huán)境,以便在長期內(nèi)最大限度地獲得回報。所以,和蹣跚學(xué)步的孩子一樣,一個在強(qiáng)化學(xué)習(xí)中學(xué)習(xí)走路的機(jī)器人會嘗試不同的方法來達(dá)到目標(biāo),得到反饋,知道這些方法有多成功,然后調(diào)整,直到達(dá)到走路的目標(biāo)為止。向前邁出一大步,機(jī)器人就會跌倒,所以它會調(diào)整步子,使其變小,以確定這是否是保持直立的秘訣。它繼續(xù)通過不同的變化學(xué)習(xí),并最終能夠走路。在這個例子中,獎勵是保持直立,而懲罰是下降的?;趯C(jī)器人動作的反饋,使機(jī)器人的最優(yōu)動作得到加強(qiáng)。

強(qiáng)化學(xué)習(xí)需要大量的數(shù)據(jù),這就是為什么這項技術(shù)的第一次應(yīng)用是在模擬數(shù)據(jù)很容易獲得的領(lǐng)域,如游戲和機(jī)器人。

強(qiáng)化學(xué)習(xí)的8個實例

盡管我們還處于強(qiáng)化學(xué)習(xí)的早期階段,但有幾個應(yīng)用程序和產(chǎn)品已經(jīng)開始依賴于該技術(shù)。公司開始實施強(qiáng)化學(xué)習(xí)的問題,順序決策是必要的,以及強(qiáng)化學(xué)習(xí)可以支持人類專家或自動化的決策過程。以下是幾個例子:

1、機(jī)器人學(xué)

強(qiáng)化學(xué)習(xí)為機(jī)器人技術(shù)提供了一個“框架和一套工具”,用于難以進(jìn)行工程操作的行為。由于強(qiáng)化學(xué)習(xí)可以在沒有監(jiān)督的情況下進(jìn)行,這可以幫助機(jī)器人成倍增長。

2、工業(yè)自動化

得益于DeepMind的強(qiáng)化學(xué)習(xí)能力,谷歌能夠大幅降低其數(shù)據(jù)中心的能源消耗。最近被微軟收購的盆景,提供了一種強(qiáng)化學(xué)習(xí)解決方案,使能源、暖通空調(diào)、制造、汽車和供應(yīng)鏈等領(lǐng)域的自動化和“構(gòu)建智能進(jìn)入復(fù)雜和動態(tài)系統(tǒng)”。

3、加強(qiáng)預(yù)測維護(hù)

機(jī)器學(xué)習(xí)已經(jīng)在制造業(yè)中使用了一段時間,但強(qiáng)化學(xué)習(xí)將使預(yù)測維護(hù)比現(xiàn)在更好。

4、游戲玩法

事實上,強(qiáng)化學(xué)習(xí)的第一個聲名狼藉的應(yīng)用是AlphaGo,一種機(jī)器學(xué)習(xí)算法,在圍棋游戲中戰(zhàn)勝了世界上最優(yōu)秀的人類玩家之一。目前,強(qiáng)化學(xué)習(xí)已被廣泛應(yīng)用于各種比賽中。

5、醫(yī)藥學(xué)

強(qiáng)化學(xué)習(xí)非常適合找出健康狀況和藥物治療的最佳治療方法。它也被用于臨床試驗以及醫(yī)療保健中的其他應(yīng)用。

6、對話系統(tǒng)

由于公司收到了大量以客戶查詢、合同、聊天機(jī)器人等形式出現(xiàn)的抽象文本,采用強(qiáng)化學(xué)習(xí)的文本摘要解決方案非常令人垂涎。這些工具固有的特點是,隨著時間的推移,它們會變得更好。

7、個性化

無論是你消費(fèi)的媒體,是針對你的廣告,還是你應(yīng)該在網(wǎng)上商城上購買的商品,在幕后都有強(qiáng)化學(xué)習(xí)算法在發(fā)揮作用,以創(chuàng)造出色的客戶體驗。

8、自動車輛

大多數(shù)自動駕駛汽車、卡車、無人駕駛飛機(jī)和船只的中心都有增援算法。英國公司W(wǎng)ayve設(shè)計了一款自動駕駛汽車,在強(qiáng)化學(xué)習(xí)的幫助下,它能在20分鐘內(nèi)學(xué)會駕駛。

由于需要重要的數(shù)據(jù)集才能使強(qiáng)化學(xué)習(xí)發(fā)揮作用,更多的公司將能夠利用強(qiáng)化學(xué)習(xí)的能力來獲取更多的數(shù)據(jù)。而且,隨著強(qiáng)化學(xué)習(xí)的價值不斷增長,公司將繼續(xù)投資于資源,以找出在其運(yùn)營、服務(wù)和產(chǎn)品中實現(xiàn)該技術(shù)的最佳方式。