如何解決神經(jīng)機(jī)器翻譯三大關(guān)鍵性問題?清華團(tuán)隊(duì)發(fā)表NMT最新技術(shù)綜述
所屬頻道:新聞中心
如今,計(jì)算機(jī)技術(shù)滲透人們生活的方方面面,而要說對我們工作學(xué)習(xí)幫助極大的,機(jī)器翻譯(machine translation)必須榜上有名。
近年來隨著計(jì)算機(jī)技術(shù)的不斷提高、AI 系統(tǒng)的日益精進(jìn),機(jī)器翻譯一直為人們所質(zhì)疑的質(zhì)量問題,也有了非常顯著的改善。其中,神經(jīng)機(jī)器翻譯(neural machine translation)技術(shù)所作的貢獻(xiàn)與創(chuàng)新也是一大研究熱點(diǎn)。
近日,清華大學(xué)計(jì)算機(jī)系與智能產(chǎn)業(yè)研究院的機(jī)器翻譯研究團(tuán)隊(duì)發(fā)表了一篇關(guān)于神經(jīng)機(jī)器翻譯技術(shù)的最新綜述論文,文章 對神經(jīng)機(jī)器翻譯方法進(jìn)行回顧,并重點(diǎn)介紹與體系結(jié)構(gòu)、解碼和數(shù)據(jù)增強(qiáng)有關(guān)的方法,總結(jié)了對研究人員有用的資源和工具。最后,還討論了該領(lǐng)域未來可能的研究方向。 清華大學(xué)計(jì)算機(jī)系教授、歐洲科學(xué)院外籍院士 孫茂松 與清華智能產(chǎn)業(yè)研究院副院長、國家杰青 劉洋 是該論文的兩位教師作者。
神經(jīng)機(jī)器翻譯技術(shù)的發(fā)展
在 70 年的發(fā)展歷程里,機(jī)器翻譯經(jīng)歷了從興起到高峰,從低迷到打開新研究思路的種種變化。
早在 1949 年,美國科學(xué)家 Warren Weaver 就首次提出 “使用計(jì)算機(jī)進(jìn)行翻譯” 的思想,他也被公認(rèn)為是機(jī)器翻譯的先驅(qū)者之一。1952 年,以色列著名哲學(xué)家、語言學(xué)家和數(shù)學(xué)家 Yehoshua Bar-Hillel 組織召開了第一次機(jī)器翻譯大會(huì)。
此后,由于機(jī)器翻譯質(zhì)量難以達(dá)到要求,其發(fā)展在長達(dá) 30 年間始終緩慢,直到 1990 年之后,大量的雙語、多語語料庫給機(jī)器翻譯注入新鮮血液,統(tǒng)計(jì)機(jī)器翻譯(SMT)應(yīng)運(yùn)而生。這期間 IBM 研究人員也發(fā)表論文,詳細(xì)論述了基于詞典和轉(zhuǎn)換規(guī)則的機(jī)器翻譯方法和基于平行語料庫的實(shí)例機(jī)器翻譯方法。
近些年,基于深度學(xué)習(xí)的神經(jīng)機(jī)器翻譯技術(shù)(neural machine translation,簡稱 NMT)發(fā)展迅猛。深度學(xué)習(xí)由圖靈獎(jiǎng)得主 Geoffrey Hinton 等人在 2006 年提出,是一種深層的非線性數(shù)據(jù)處理技術(shù),與傳統(tǒng)的淺層次線性處理相比,它在處理模型分析和分類問題上更準(zhǔn)確,性能更高。
NMT 與以前的機(jī)器翻譯方法完全不同,一方面,NMT 在 SMT 中采用連續(xù)表示而不是離散符號表示;另一方面,NMT 使用單個(gè)大型神經(jīng)網(wǎng)絡(luò)對整個(gè)翻譯過程進(jìn)行建模,從而無需進(jìn)行過多的特征工程。而且,NMT 的訓(xùn)練是端到端的(end-to-end),不像 SMT 中需要單獨(dú)調(diào)整組件。除了簡單之外,NMT 可適應(yīng)多種語言之間的翻譯,實(shí)現(xiàn)最先進(jìn)的性能。
如何解決三大關(guān)鍵性問題?
綜述中,論文作者首先闡釋了 NMT 系統(tǒng)的三個(gè)關(guān)鍵性問題:
建模(modeling),即如何設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)來對條件分布建模?
推理(inference),即給定源輸入,如何從 NMT 模型生成翻譯句子?
學(xué)習(xí)(learning),即如何有效地從數(shù)據(jù)中學(xué)習(xí) NMT 所需的參數(shù)?
關(guān)于建模,NMT 通常采用編碼器 - 解碼器框架,由嵌入層 embedding,分類層 classifier,編碼器網(wǎng)絡(luò) encoder 和解碼器網(wǎng)絡(luò) decoder 組成。
因此,構(gòu)建強(qiáng)大的編碼器和解碼器對 NMT 性能來說至關(guān)重要,其方法大致可分為三類:基于遞歸神經(jīng)網(wǎng)絡(luò)(RNN),基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)和基于自注意力網(wǎng)絡(luò)(SAN)的方法。文章不僅詳細(xì)闡釋了三種方法的機(jī)制,還對比了其優(yōu)點(diǎn)與缺陷,并提出相應(yīng)的解決辦法。例如 RNN 容易出現(xiàn)梯度消失 / 爆炸問題,CNN 接收領(lǐng)域有限較難擴(kuò)張,SAN 則容易忽略序列中單詞的順序。
關(guān)于推理,NMT 通常使用本地搜索算法(例如貪婪搜索或集束搜索)來找到最佳翻譯結(jié)果。此外,NMT 通常使用最大對數(shù)似然(MLE)作為訓(xùn)練目標(biāo)函數(shù),這是一種估算概率分布參數(shù)的常用方法。
除了 NMT 的計(jì)算機(jī)原理與構(gòu)建機(jī)制,文中還綜述了不同的 NMT 研究方法與應(yīng)用,例如有關(guān)使用單語言數(shù)據(jù)和無監(jiān)督 NMT 的研究,以及有關(guān)提升 NMT 可解釋性和魯棒性的研究。
未來可能的研究方向
盡管 NMT 取得了巨大的成功,但仍有許多問題有待探索,因此,文章列出了 NMT 的一些重要且具有挑戰(zhàn)性的問題。
第一,加深對 NMT 的了解。盡管如今已經(jīng)有很多嘗試,試圖分析和解釋 NMT,但顯然,NMT 領(lǐng)域還有許多未 “解鎖” 之處。未來,要想窺破 NMT 技術(shù)的瓶頸和弱點(diǎn),弄清 NMT 究竟如何產(chǎn)生其翻譯結(jié)果顯得格外重要。
第二,設(shè)計(jì)更好的 NMT 模型。目前常見的是 Transformer 體系結(jié)構(gòu),設(shè)計(jì)一種比它更加優(yōu)越、能夠平衡翻譯性能和計(jì)算復(fù)雜性的新體系結(jié)構(gòu),對于 NMT 研究和生產(chǎn)意義重大。
第三,充分利用單語言數(shù)據(jù)。盡管如今單語言數(shù)據(jù)取得了顯著進(jìn)步,但 NMT 在利用豐富的單語言數(shù)據(jù)方面,仍有巨大的上升空間。
第四,對先前的知識進(jìn)行整合。除了自然語言,將人類其他知識納入 NMT 也是一個(gè)重要的問題。如何實(shí)現(xiàn)離散表示和連續(xù)表示之間的互相轉(zhuǎn)換一直是 NMT 面臨的問題,仍需進(jìn)一步探討。
(審核編輯: monkey)
分享