清華大學(xué)教授宋士吉:新一代人工智能發(fā)展戰(zhàn)略下機(jī)器學(xué)習(xí)理論與方法
所屬頻道:新聞中心
感謝工業(yè)互聯(lián)網(wǎng)協(xié)會(huì)的邀請(qǐng),我的題目有點(diǎn)偏理論,但是問題是面向智能制造的。我匯報(bào)五個(gè)方面的內(nèi)容第一是人工智能的背景,我給大家看看人工智能的近期目標(biāo)和遠(yuǎn)期目標(biāo)。遠(yuǎn)期目標(biāo),就是揭示人工智能的根本機(jī)理,用智能機(jī)器去模擬,去仿真人類的智能。這涉及到很多科學(xué)領(lǐng)域,包括腦科學(xué)、認(rèn)知科學(xué)、計(jì)算機(jī)、系統(tǒng)科學(xué)和控制論。
近期的目標(biāo)就是怎么能夠讓機(jī)器更多地響應(yīng)它的智能,有沒有可能超過人的智能,這是智能制造,下面是一些智能制造的復(fù)雜制造過程的圖。這是智能制造的十個(gè)領(lǐng)域,特別是新一代人工智能,包括相關(guān)的領(lǐng)域,航空航天的,也包括生物制造,都在里面,船舶、電力、材料。右邊是從1989年到2015年國際上在新一代人工智能領(lǐng)域的發(fā)展的初步框架。
新一代人工智能的國家戰(zhàn)略,美國人工智能已上升為國家戰(zhàn)略。從2013年提出來的,推動(dòng)創(chuàng)人工智能的創(chuàng)新研究計(jì)劃。到2014年的1月,2015年,一直到CSIS發(fā)布國防2045,DARPA支撐美國第三次的抵消戰(zhàn)略,最后白宮成立人工智能委員會(huì)。特朗普提出了人工智能的發(fā)展倡議書,提出了幾個(gè)方面,現(xiàn)在我們國家在人工智能的領(lǐng)域發(fā)展得比較快,也引起了美國的關(guān)注。
這是中國新一代人工智能發(fā)展的路線圖,國務(wù)院關(guān)于積極推進(jìn)互聯(lián)網(wǎng)+的行動(dòng)計(jì)劃指導(dǎo)意見,一直到國民經(jīng)濟(jì)和社會(huì)發(fā)展第十三個(gè)五年規(guī)劃綱要,到互聯(lián)網(wǎng)+人工智能的實(shí)施方案。人工智能2.0和1.0有一些實(shí)質(zhì)性的區(qū)別,這里包括哪些方面?一個(gè)是從信息的新環(huán)境,還有新目標(biāo),包括可升級(jí)的新技術(shù),從這幾個(gè)方面來描述中國的人工智能2.0。
新目標(biāo)包括智慧城市、智能經(jīng)濟(jì)、智能醫(yī)療、智能家具、智能駕駛等,可升級(jí)的技術(shù)有大數(shù)據(jù)智能、跨媒體智能、自主智能、人機(jī)混合智能、群體智能。這是人工智能2.0的五個(gè)方向,這也是科技部頒布的,去年發(fā)布的新一代人工智能的發(fā)展規(guī)劃,基本上就是圍繞著五個(gè)方面進(jìn)行布局和部署。
可以說人工智能的發(fā)展引起了世界各個(gè)發(fā)揚(yáng)光大和發(fā)展中國家的關(guān)注,不惜花重金來發(fā)展新一代的人工智能。現(xiàn)在各國都意識(shí)到,人工智能是開啟未來智能世界的鑰匙。未來科技的發(fā)展戰(zhàn)略制高點(diǎn),誰可以掌握人工智能,誰就會(huì)成為未來核心技術(shù)的掌握者。
智能制造是智能技術(shù),特別是新一代人工智能技術(shù),在制造全生命周期的應(yīng)用當(dāng)中涉及的理論方法、技術(shù)和應(yīng)用。智能制造的另一種說法,從制造的整個(gè)過程,從設(shè)計(jì)、加工、管理、銷售,一直到報(bào)廢處理的全過程。這里面要達(dá)到制造業(yè)智能增長(zhǎng),包容性增長(zhǎng)、可持續(xù)性增長(zhǎng)的目標(biāo)。
智能制造技術(shù),涉及到的各種理論和方法。從技術(shù)角度來看包括幾個(gè)環(huán)節(jié),包括智能設(shè)計(jì)、加工、操作、控制、工藝規(guī)劃、調(diào)度管理、物流、裝配,還有檢測(cè)、診斷。
人工智能的基礎(chǔ)是大數(shù)據(jù),涉及到人工智能的應(yīng)用領(lǐng)域包括移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、車聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影像、安全監(jiān)控、金融、電信等各個(gè)領(lǐng)域,包括數(shù)據(jù)的采集、存儲(chǔ)、推理、分析,一直到應(yīng)用各個(gè)方面這就是關(guān)于機(jī)器學(xué)習(xí)的最簡(jiǎn)單的框架,我們說,從機(jī)器學(xué)習(xí)的角度來講,我們就只有數(shù)據(jù),從數(shù)據(jù)里面,我們希望通過訓(xùn)練能辨識(shí)出一個(gè)模型,這個(gè)模型怎么辨識(shí),是動(dòng)態(tài)的還是靜態(tài)的?
從數(shù)據(jù)到模型的過程,用到的就是算法。有了模型以后,進(jìn)一步的還得到了更多的數(shù)據(jù),所以這個(gè)數(shù)據(jù)和模型之間是一個(gè)交互的,這是一個(gè)簡(jiǎn)單的優(yōu)化過程,就是二次優(yōu)化。從機(jī)器學(xué)習(xí)的角度來說,機(jī)器學(xué)習(xí)包括三類,一類就是監(jiān)督式,還有一類是無監(jiān)督的,最后一個(gè)是半監(jiān)督的。
什么是監(jiān)督式的?從數(shù)學(xué)的角度來看,系統(tǒng)有輸入、有輸出,有X,有Y,你來辨識(shí)非線性過程。什么是無監(jiān)督?系統(tǒng)里面只有自帶的X,沒有Y,還有一類是半監(jiān)督的,就是既包括輸入也包括輸出,怎么用這三個(gè)學(xué)習(xí)辦法進(jìn)行模式識(shí)別,并且進(jìn)行系統(tǒng)辨識(shí)和應(yīng)用?這一塊講了機(jī)器學(xué)習(xí)方法在風(fēng)機(jī)發(fā)電里面的應(yīng)用,我們課題組提出來了密集連接的神經(jīng)深度網(wǎng)絡(luò)。
風(fēng)力發(fā)電里面怎么用深度學(xué)習(xí),運(yùn)行維護(hù)費(fèi)用占得很高,大概有10%到15%。在海上風(fēng)力很大的時(shí)候這個(gè)比例高達(dá)20%。所以我們?nèi)绾谓档瓦\(yùn)行和維護(hù)成本就成為了關(guān)鍵,研究風(fēng)力發(fā)電診斷的意義在哪?因?yàn)樗某杀竞芨撸恳淮尉S修都需要花大量的成本,搞智能故障診斷和健康管理有非常大的意義。不僅是在風(fēng)電領(lǐng)域,當(dāng)然在高鐵、飛機(jī)上,都可以用,方法是通用的。
我們的目的就是降低維護(hù)成本,提高風(fēng)力發(fā)電機(jī)組的安全性和可靠性。這是我們做的魯棒SVM,輸入數(shù)據(jù)帶噪聲,輸出數(shù)據(jù)也帶噪聲,這個(gè)時(shí)候如何建立一個(gè)魯棒SVM模型,它有更好的魯棒性和抗意外性,SVM的敏感性要更好。檢查一個(gè)風(fēng)電機(jī)組有沒有故障的核心,就是看分工的曲線,輸入和輸出看有多大的風(fēng)。如果說分工的曲線是正常的,說明你的風(fēng)機(jī)沒有問題,如果出了問題肯定是風(fēng)機(jī)有故障了,再用機(jī)器學(xué)習(xí)的方法進(jìn)行故障定位,原因的分析也可以找到。
理論上是這樣的模型,我們建立一個(gè)魯棒SVM,就是右邊加了一個(gè)robust,過去是沒有的,這樣的模型怎么解?我們變成機(jī)會(huì)約束。再把機(jī)會(huì)約束一轉(zhuǎn)成二階錐規(guī)劃,這個(gè)結(jié)果是2012年的文章。這是一個(gè)擬合的效果,用我們的方法擬合的,還用魯棒SVM擬合的效果。基于半監(jiān)督學(xué)習(xí)的故障診斷,剛才說了,監(jiān)督學(xué)習(xí)只有X跟Y,有輸入有輸出,半監(jiān)督的,有些數(shù)據(jù)是有X和Y的,還有一些樣本只是還有自變量,沒有輸出。這個(gè)問題也非常有用,半監(jiān)督學(xué)習(xí)能夠通過對(duì)數(shù)據(jù)的分布特征找它分布特征的規(guī)律,可以利用有標(biāo)簽的樣本和無標(biāo)簽的樣本信息獲得單一的有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的算法就是說它可以對(duì)數(shù)據(jù)的分布特征進(jìn)行研究,然后來提高我監(jiān)督學(xué)習(xí)算法的效果。
我們提出了什么?我們做機(jī)器學(xué)習(xí)的時(shí)候都要做這個(gè),就是聚類假設(shè),屬于同一個(gè)聚類的樣本,屬于同一類別的概率更大。進(jìn)一步演化以后,就是低密度分離假設(shè),最后是高分離概率假設(shè)。我們建立了一個(gè)模型,這個(gè)叫做regression,這個(gè)概率最大,概率是原理分類面,最后我們把這個(gè)模型分析出來,然后給出解。最后轉(zhuǎn)化成一個(gè)二階錐規(guī)劃,我們還是用交替優(yōu)化的方法,就是兩個(gè)變量,我固定一個(gè)另外一個(gè)。下面是另外一個(gè)應(yīng)用,半監(jiān)督學(xué)習(xí)方法的應(yīng)用。
最后我介紹一點(diǎn)強(qiáng)化學(xué)習(xí),強(qiáng)化學(xué)習(xí)可以追溯到19世紀(jì)巴甫洛夫的條件反射,到20世紀(jì)80年代由Barto等人發(fā)展成理論,廣泛應(yīng)用于人工智能、機(jī)器學(xué)習(xí)和自動(dòng)控制領(lǐng)域,基本思想就是從與環(huán)境的不斷交互試錯(cuò)中學(xué)習(xí)來校正系統(tǒng)的行為。我們要給一個(gè)行為,并且得到了一個(gè)周期里面的收益,這就是馬爾科夫決策過程。
那么在國外,這樣的模型可以說用的是非常廣,在美國MIT,最好的研究組也在研究這個(gè)案例。包括阿爾法狗,其實(shí)都是這樣的模型這是我們優(yōu)化的目標(biāo),使得我的期望最大,就跟開車一樣,你開車控制的是剎車和油門,你的狀態(tài)是車的速度和車的位置,你踩了油門以后車到了另外一個(gè)位置,然后你再判斷你走得對(duì)不對(duì)。在另一段里重新做決策,這一類問題就是序貫決策問題。如果從這個(gè)狀態(tài)到下一個(gè)狀態(tài)的轉(zhuǎn)移概率也可以求出來的話直接就可以求解了,但是我們的問題是沒有轉(zhuǎn)移概率,所以就提出來了強(qiáng)化學(xué)習(xí)的概念。就是在每一個(gè)周期的時(shí)候,有一個(gè)狀態(tài),我就對(duì)應(yīng)一個(gè)行為。
這個(gè)E就是數(shù)學(xué)期望,一般是大于0小于1,這包括兩個(gè)部分,一個(gè)叫做動(dòng)作函數(shù),一個(gè)叫做價(jià)值函數(shù),對(duì)應(yīng)的右邊就是兩個(gè)網(wǎng)絡(luò),一個(gè)叫做評(píng)價(jià)網(wǎng)絡(luò),還有一個(gè)叫做策略網(wǎng)絡(luò),我們先求里面的過程,這個(gè)叫做評(píng)價(jià)網(wǎng)絡(luò),后面的這個(gè)網(wǎng)絡(luò)就是策略網(wǎng)絡(luò)。通過這兩個(gè)網(wǎng)絡(luò)的交互迭代,最后找出解。
下面我講一下海洋的應(yīng)用,這是深海機(jī)器人,就是我做的一個(gè)自然基金的一個(gè)儀器項(xiàng)目,控制水下機(jī)器人,把它用上去了。現(xiàn)在的控制方法還沒有人這么做,他們都是傳統(tǒng)的控制。這個(gè)機(jī)器人剛剛造出來,這個(gè)機(jī)器人今年要做海試,就是海底噴火山。深海的意義,海洋現(xiàn)象是20世紀(jì)海洋科學(xué)界的重大發(fā)現(xiàn)之一,主要的挑戰(zhàn)在這里。這個(gè)噴口是干什么就是地球里面有一些地質(zhì)構(gòu)造的斷裂帶里面有破損的,包括金銀銅鐵,現(xiàn)在還有一個(gè)極端的生物環(huán)境,我們的目標(biāo)就是找到這個(gè)噴口,找到海底噴火的地方,就得靠水下機(jī)器人去找。
過去水下機(jī)器人不帶智能,只是船來控制,通過控制船,自己也能動(dòng)。我們做的機(jī)器人就是加上了智能,有兩個(gè)意義,第一怎么做路徑規(guī)劃,第二怎么實(shí)時(shí)控制我的機(jī)器人,一步一步逼向我的目標(biāo)。只有兩個(gè)科學(xué)問題,就是如何找噴口,第二是如何控制機(jī)器人。這是AUV,找噴口,這就是MDP建模,我們可以連接為部分可觀測(cè)的MDP,里數(shù)據(jù),有觀測(cè)數(shù)據(jù),嚴(yán)格地講有些信息是隱藏的。
我們通過POMDP的模型,這里的問題是已知機(jī)器人當(dāng)前的位置和狀態(tài),當(dāng)前的位置、速度,包括檢測(cè)到的噴口信息、濃度,包括化學(xué)傳感器的信息。怎么根據(jù)我現(xiàn)在的狀態(tài)來更好地找到下一步的路,這就是優(yōu)化問題。最后我找到了最終的噴口,這就是MDP,你根本不知道轉(zhuǎn)移概率,但是其他的狀態(tài)我都可以通過傳感器感受到,就是在已知狀態(tài)不知道概率的時(shí)候,這個(gè)模型是最管用的。
這是設(shè)計(jì)的網(wǎng)絡(luò),一個(gè)叫做策略網(wǎng)絡(luò),一個(gè)叫評(píng)價(jià)網(wǎng)絡(luò)。這就是牛頓法,在第七個(gè)周期里面的收益,這是T+1周期往后的收益,W是權(quán)重,原來是分線函數(shù),現(xiàn)在是線性函數(shù),這是迭代的補(bǔ)償。另外是逼近網(wǎng)絡(luò)的更新步驟,它的原理就在這里,這里有一個(gè)網(wǎng)絡(luò),綜合在一起又是一個(gè)網(wǎng)絡(luò),我最終找的就是最終策略。
這是仿真的結(jié)果,基于強(qiáng)化學(xué)習(xí)的仿真結(jié)果,有的時(shí)候我們把歷史數(shù)據(jù)用上,效果會(huì)更好,更能快速地找到優(yōu)點(diǎn)。還有一個(gè)例子是控制水下機(jī)械,它可以控制機(jī)器人,而且這樣的控制方法不需要基于機(jī)理模型,將來也可以把這個(gè)方法和基于機(jī)理模型的方法結(jié)合在一起,效果比基于強(qiáng)化學(xué)習(xí)的會(huì)更好,這是一個(gè)優(yōu)化問題。這里有三種控制模式,一個(gè)是深度控制、曲線控制還有海床控制。深度控制就是固定深度,這個(gè)屬于避障控制,那就是海底的造型很特別,要始終跟海底保持距離。第二就是海床追蹤,海床的變化比較平穩(wěn),沒有明顯的趨勢(shì)變化,但是跟海底的距離幾乎是恒定的。這是我們常用的幾種AUV,采取的傳統(tǒng)控制辦法,PID、模型預(yù)測(cè)控制,嚴(yán)格依賴于精準(zhǔn)的模型,AUV控制當(dāng)中很難滿足,模型涉及到海水,那個(gè)東西一個(gè)地方走一遍,所以精準(zhǔn)的模型是有問題的。那么我們提出了這樣的方法,大家看我們?cè)趺磥磉x狀態(tài),速度、位置,什么是動(dòng)作,比如說發(fā)動(dòng)機(jī)的轉(zhuǎn)速,對(duì)于三種類型的控制問題,關(guān)鍵信息是什么,狀態(tài)是什么,獎(jiǎng)勵(lì)是什么,我們都做了研究,大家都可以找到論文。剩下的兩個(gè)網(wǎng)絡(luò)一個(gè)是評(píng)價(jià)網(wǎng)絡(luò),另外一個(gè)是策略網(wǎng)絡(luò),這個(gè)評(píng)價(jià)網(wǎng)絡(luò)就是已知X和K,必須假定策略是已知的,實(shí)際上你是沒有策略的,所謂的策略網(wǎng)絡(luò)就是一個(gè)狀態(tài)對(duì)應(yīng)著一個(gè)行為,我找最好的策略,使得這個(gè)東西最好。一個(gè)是評(píng)價(jià)網(wǎng)絡(luò)的權(quán)重更新算法,還有一個(gè)是策略網(wǎng)絡(luò)權(quán)重的更新算法,有了這兩個(gè)算法我們就可以做仿真計(jì)算,當(dāng)然還有一些其他的分析,理論分析就不講了,特別是關(guān)于解的穩(wěn)定性、敏感性的分析,也有理論上的推導(dǎo)。這是我們的方法,跟其他的方法,比如說在超調(diào)量和時(shí)間反映因素上,我們好于傳統(tǒng)的LKI,線性二次積分,比另外一個(gè)是NMPC,比它的時(shí)間要好。這是我們算法跟其他算法的對(duì)比分析。
隨著大數(shù)據(jù)時(shí)代的到來,基于大數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)的方法成為近年來的研究熱點(diǎn),包括建模問題,優(yōu)化問題,各種智能方法,挖掘內(nèi)在的規(guī)律,實(shí)現(xiàn)各系統(tǒng)的智能的充分發(fā)揮。另外就是說人工智能已經(jīng)上升到了國家戰(zhàn)略高度,數(shù)據(jù)是關(guān)系到國家安全的重要資源,大數(shù)據(jù)和人工智能的結(jié)合,將對(duì)國家的經(jīng)濟(jì)、社會(huì)、文化產(chǎn)生深遠(yuǎn)的影響地也會(huì)改變?nèi)祟惿a(chǎn)生活方式,謝謝。
(審核編輯: 智匯小新)
分享