中文字幕视频在线免费_日韩在线精品_日韩视频免费看_中文字幕在线三区_午夜免费视频_日韩在线大片

為什么說“無監督學習”才是深度學習的未來?

來源:網絡

點擊:1114

A+ A-

所屬頻道:新聞中心

關鍵詞: 深度學習,無監督學習,未來


         我們已經在之前的一篇文章中探討了神經網絡和深度學習技術,現在是時候討論深度學習的另一個主要組成部分了:數據,即圖像,視頻,電子郵件,駕駛模式,短語,物體等等。

        令人驚訝的是,盡管我們的世界幾乎被數據所淹沒,但很大一部分是未經標注未被整理過的,這意味著這些數據對于大多數目前的監督式學習來說是不可用的。

        而深度學習尤其依賴于大量良好的、結構化的、有標簽的數據。在我們“神經網絡非數理化指南”的第二部分中,我們將研究為什么高質量的、標記過的數據如此重要,它來自哪里,如何使用,以及近期會有什么樣的解決方案可以提供給我們制造的那些渴望學習的機器。

        監督學習:讓我握住你的手

        在關于神經網絡的文章中,我們曾解釋了如何通過精心制作的“香腸印刷機”(sausage

    press)將數據輸入給機器,這些印刷機能夠快速進行剖析、分析甚至自我精煉。

        這一過程被認為是監督式學習,因為大量的數據被輸入到機器中,這些數據被事先煞費苦心地貼上了標簽。例如,要訓練一個神經網絡來識別蘋果或橙子的圖片,就需要給這些圖片貼上標簽。機器可以通過識別所有被標記為蘋果或橙色的圖片來理解數據,這些圖片有共同之處,因此機器最終可以利用這些已識別的圖片來更準確地預測新圖像中所出現的內容。他們看到的標記數據越多,看到的數據集越大,就能更好地增進他們預測的準確性。

        這種方法在教機器學習視覺數據時很有用,還可以教機器如何識別從照片、視頻到圖形和書寫在內的東西。一個明顯的優勢是,在許多應用程序中,機器在圖像識別上做得甚至比人類還好。


        比如,Facebook的深度學習軟件能夠將一張陌生人的兩張照片進行匹配,其準確性與人類相當(實際上97%的情況下要好于人類),而谷歌在今年早些時候推出了一種可以從醫學影像中探測腫瘤的神經網絡,它的準確性甚至高于醫師。

        無監督學習:不需要監護人指導就得出結論

        如你所預期,與監督式學習相對應的是無監督學習。這是指你松開系在機器上的皮帶,讓它潛入數據中,自主地進行發現和體驗,尋找模式和聯系,并得出結論,而不需要監護人的指導。這項技術長期以來一直被一部分人工智能科學家們所批評,但在2012年,谷歌展示了一個深度學習網絡,能夠從一大堆沒有標記過的圖片中破譯貓、人臉和其他物體。這項技術令人印象深刻,并帶來了一些極為有趣和有用的結果,但是,到目前為止,在任何方面無人監督學習都達不到監督學習的準確性和有效性。

        無處不在的數據

        這兩種方式的差異使我們進入了對一個更大、令人困惑的話題的探討。把這些機器比作人類嬰兒很有用。我們知道,只要讓我們的孩子放松,沒有指導他也會學習,但他學到的不一定是我們想要他學的東西,學習的方式也無法預測。

        但是,既然我們也通過教育來教孩子,那么我們就需要通過客觀上無窮多的話題使孩子暴露于大量物體和概念之中,我們需要教給孩子方向,動物和植物,重力和其他物理屬性,閱讀和語言,食物類型和元素等。事實上是所有存在的事物。隨著時間推移,所有這些幾乎都可以通過展示和講述活動以及回答年輕人無窮多得問題而被解釋。這些問題都是由任何好奇的年輕人提出的。

        這是一項浩大的工程,但所有父母和普通孩子身邊的人每天都在做著這樣的事情。神經網絡有同樣的需求,但它的關注點通常更狹窄,我們也不太會與它進行社交,所以標簽需要更加精確。

        目前,人工智能研究人員和科學家可以采取很多方法來獲取數據,以訓練他們的機器。第一種方法是走出去,自己收集大量的標簽數據。谷歌、亞馬遜、百度、蘋果、微軟和Facebook等公司的情況都是如此,有意思的事,這些企業都擁有令人驚嘆的海量數據——其中大部分都是由客戶免費提供的。如果想把所有這些數據都列出來,那就太愚蠢了;但應該考慮一下上傳到這些公司數據庫云存儲上的數十億條標記過的圖片。

        然后想想所有的文檔,通過語音、文本、照片和光學字符識別進行的搜索查詢,位置數據和地圖,評級、贊和分享,購物信息,快遞地址,電話號碼和聯系方式,地址簿和社交網絡。擁有這些資源的公司——以及任何規模龐大的公司——往往在機器學習中擁有獨特的優勢,因為它們擁有豐富的特定類型的數據

        數據帶來的困難

        如果你碰巧沒有擁有一家擁有海量數據的財富100強公司,那么你就應該知道如何與他人分享。獲取大量多樣化數據是人工智能研究的一個關鍵部分。幸運的是,現在已經有大量免費和公開的標簽數據集,涵蓋了各種各樣不同的類別。根據你所想,你可以找到顯示從人類面部表情和手語到公眾人物臉型和膚色的各種數據集。

        你還可以找到數以百萬計的關于人群、森林和寵物的圖片,這包括所有寵物的照片;你也可以通過篩選大量的用戶和顧客評論來獲得相關信息。此外,還有一些數據集,包括垃圾郵件、多種語言的推文、博客帖子和法律案例報告。


        新的數據類型來自于世界上越來越多、無處不在的傳感器,比如醫療傳感器、運動傳感器、智能設備的陀螺儀、熱傳感器等等。還有就是人們給他們吃的食物、葡萄酒標簽和諷刺性標語等拍的照片。

        問題在哪里呢?

        盡管數據是如此之多,但事實證明許多數據都不是那么有用。要么是它們太小了,要么是不太好,要么是只有部分被貼上標簽,或者標簽貼的不合適,總之他們就是無法滿足你的需求。例如,如果你希望教會一臺機器識別圖像中的星巴克標志,你可能只能找到一個用來訓練的圖片數據庫,該數據庫可能被打上了“飲料”、“飲品”、“咖啡”、“容器”或人名“喬”,沒有正確的標簽,它們就沒有用處。

        一般的律師事務所或老牌公司在其數據庫中可能會有數百萬份合同或其他文書,但這些數據無法被使用,因為它們可能是被簡單地以未打過標簽的PDF格式保存的。在獲得最優數據方面的另一個挑戰是確保所使用的訓練數據集數量夠大,并且是多樣化的。

        另外,在訓練一個復雜的模型,如深度神經網絡時,使用小數據集可能會導致所謂的過度擬合,這是機器學習中一個常見的問題。實際上,過度擬合是由于大量可學習參數與訓練樣本有關聯導致的,這樣的參數充當了“神經元”,我們在之前通過反向傳播對其進行了全面的調整。結果可以是一個能夠記住這些訓練數據的模型,而不是從數據中學習一般概念的模型。

        回想一下我們的蘋果-桔子網絡。因為作為訓練數據的蘋果圖像很少,而神經網絡卻很龐大,我們很可能會讓網絡在特定細節上進行仔細的研究——紅色、棕莖,圓形,這些細節需要在訓練數據之間被準確地區別化。這些微小的細節可能會很好地描述訓練蘋果的圖片,但當測試中機器被要求識別一個新的蘋果時,這些細節可能就被證明是無關緊要,甚至是不正確的,因為在測試的時候,可能會有一個新的、機器之前未見過的蘋果。

        另一個重要的原則就是數據的多樣性,從統計學上來說,你所積累的數據越獨特,你的數據就越有可能更加多樣化。

        在“蘋果-桔子”的例子中,我們希望機器能有合理的概括能力,這樣它就能識別所有蘋果和桔子的圖像,不管這些蘋果桔子是否出現在訓練集中。

        畢竟,并不是所有的蘋果都是紅色的,如果我們只在紅色蘋果的圖片上訓練我們的網絡,很有可能在測試時它是無法識別出綠色蘋果的。因此,如果在培訓中使用的數據類型是不全面的,無法囊括測試中所有的可能性,那么就會出現這樣的問題。在很多人工智能領域,以偏概全的問題已經開始出現。神經網絡和用來訓練它們的數據集反映了其制造者人群中的偏見。再一次,如果只用紅蘋果來訓練我們的蘋果-橘子網絡,我們可能會讓機器具有偏見,認為蘋果只能是紅色的。

        如果類推到其他應用之中,比如面部識別,那么不全面數據帶來的影響就會變得非常明顯,就像老話說的那樣:“進來的是垃圾,出去的還是垃圾”

        制造一個可以獨立思考的捕鼠器

        缺少人力去標記數據是一個問題,這很昂貴。或者如果世界上的所有公司都忽然統一開放他們的數據資源,并心甘情愿地將其提供給全球的科學家,這樣一來缺乏好的訓練數據一事就不復存在了。

    與其朝著獲得盡可能多的數據這一目標努力,深度學習的未來可能會是朝著無監督學習技術這一方向發展。

        如果我們想一想我們是如何教給嬰幼兒關于世界的知識時,這樣的做法就是有道理的;畢竟,盡管我們確實教會了孩子很多東西,但作為人類所做的最重要的學習,是經驗,這是無人監督的。

        


    (審核編輯: 林靜)

    聲明:除特別說明之外,新聞內容及圖片均來自網絡及各大主流媒體。版權歸原作者所有。如認為內容侵權,請聯系我們刪除。

    主站蜘蛛池模板: 午夜爱爱毛片xxxx视频免费看 | 日本三级中文在线电影 | 中文字幕不卡 | 99久久精品一区二区成人 | 国产精品一区二区三区免费视频 | 中文字幕一区二区三区四区 | 最新中文字幕在线 | 免费观看一级视频 | 久久亚洲精品裙底抄底 | a成人| 亚洲精品三级 | 精品国产乱码久久久久久久软件 | 亚洲免费视频在线 | 91欧美激情一区二区三区成人 | 无码一区二区三区视频 | 精品久久久久久久久久久久久久久久久久 | av影片在线 | 亚洲91av| 亚洲久草 | av一区二区在线观看 | 亚洲精品永久视频 | 国产欧美久久久久久 | av免费观看网站 | 日本免费在线一区 | 日本天堂在线 | 日本中文字幕一区 | 九九九久久国产免费 | 精品国产乱码久久久久久久软件 | 免费一区二区三区 | 国产精品美女久久久久久免费 | 不卡久久| 国产成人久久精品麻豆二区 | 国产免费爽爽视频在线观看 | 欧美一区二区在线播放 | 精品99视频 | 羞羞的视频在线 | 福利黄色 | 午夜精品一区二区三区在线观看 | 亚洲在看 | 久免费视频 | 免费在线观看一区二区 |