新聞詳情
神經機器翻譯研究產出于2018年上半年興起發表時間:2019-01-12 00:00 隨著年度神經機器翻譯(NMT)成為主流,2017年將被銘記。然而,這并不意味著它是一個“已解決的問題”。當然,遠非如此,因為任何能夠使用先進的在線機器翻譯門戶網站精通兩種語言的人都可以證明這一點。 然而,有數百甚至數千名研究人員在研究這個問題。在2018年中期,NMT研究與去年同期相比增長了115%。2017年1月至6月,Slator在康奈爾大學的自動化在線研究分發系統Arxiv.org上發現了91篇與NMT相關的研究論文(標題或摘要中的關鍵詞“神經機器翻譯”)。在今年同一時期,這一數字飆升至196。 正如我們之前提醒過的,有一些誤報和實例,其中NMT被提及作為一個活躍的研究領域或用于實驗來測試與更大領域相關的假設,例如自然語言處理甚至機器學習和一般的深度學習。 還有重新提交的問題,其中先前發布的研究論文的靠前版更新了新信息或更正。雖然這些論文本身并不是與眾不同的,但仍然會在該領域開展研究活動。 輕微減速在2018年春天瘋狂的春天,由一些世界上較大的科技公司發表了數十篇論文后,2018年7月的提交活動與前幾個月相比有所放緩。 7月份僅提交了26篇研究論文,其中只有9篇與NMT直接相關,并且不是之前提交的更新版本。 越來越多的研究論文提到NMT作為先進的神經網絡技術的基準。 這對NMT研究人員來說是個好兆頭,但這也意味著在搜索Arxiv數據庫時會出現越來越多的誤報。此外,隨著研究人員更新他們的論文,以前出版物的重新提交,更新版本的數量也在增加。 不斷發展的研究方向隨著時間的推移,自NMT成為主流以來,一般研究課題已經發生變化。2017年11月1日至2018年2月14日期間對Arxiv的研究主要集中在幾個主要議題上,即提高輸出質量和解決培訓數據限制(例如低資源語言)。 看看哪些公司參與了2018年2月15日到2018年4月底之間的哪些論文,看起來主要參與者正在采取完全獨立的研究方向并研究他們自己的研究課題。 例如,Facebook AI Research(FAIR)團隊正忙于解決資源匱乏的語言問題,這是Facebook的實際挑戰,2017年達到了20億用戶標記,每天需要翻譯45億次。 與此同時,亞馬遜正在尋求更好的運營效率,這是有道理的,因為他們的產品面向云平臺的企業用戶以及LSP,他們可以從改進的NMT流程和速度中受益。 亞馬遜研究的一篇論文是“約束解碼”,這種方法允許NMT一致地翻譯特定的單詞或術語。問題是,對于NMT引擎需要記住的每個單詞以便轉換特定方式,整個系統會慢一點。 另一方面,谷歌似乎專注于提高NMT產量,盡管這個搜索巨頭像往常一樣關注著幾乎所有的餡餅。Google Brain研究人員與微軟就低資源語言,機器閱讀和問答以及無監督學習共同撰寫了出版物。 谷歌甚至提出了改進的模型,這些模型基本上是現有NMT引擎的混合體。據谷歌稱,這些混合動力車的表現優于先進的,包括他們自己的谷歌翻譯變壓器模型。 仍在崛起,已經影響到行業NMT仍在興起,研究由學術界牽頭并由企業方面幫助,正在以健康的步伐前進。實際上,2018年上半年顯示了研究界的活躍程度,2018年5月將4月份視為NMT 繁忙的月份。 NMT的競爭也蔓延到開源。Systran全球首席技術官Jean Sellenart在2018年倫敦SlatorCon期間評論說,“過去兩年中,每個月都有大約兩個新的NMT開源項目。” 游戲中肯定會出現一種雪球效應。該技術提供了這樣的廣度和深度,即使是競爭公司有時也會共同研究相同的研究。“世界上沒有公司可以復制250篇論文,只是為了檢查它們是對還是錯,”Senellart說。“這是今天開源必不可少的原因之一。” 越來越多熟悉的名字在2018年5月,6月和7月,更熟悉的名字進入Arxiv研究論文。谷歌,微軟和亞馬遜等常見的播放器當然也存在,以及Systran,Ubiqus和SDL等語言行業名稱。 中國在電子商務巨頭阿里巴巴和互聯網公司騰訊都發表論文方面都很有代表性 - 甚至搜狗也發表了一篇論文,盡管并不是專門針對NMT。 近,在2018年7月,騰訊直接投入生產,采用實驗方法檢測NMT翻譯中的問題,而不依賴于參考翻譯。該BLEU(雙語評估替補)的度量采用了類似于參考譯文得分MT輸出,但一直熬到下火近不足夠供NMT。 “我們的實驗結果表明,我們的新方法可以在真實世界的數據集上實現高效率,”騰訊的抽象閱讀。“我們在WeChat的開發和生產環境中部署所提算法的成功經驗,微信是一個擁有超過10億月活躍用戶的信使應用程序,有助于消除我們NMT模型的眾多缺陷,監控實際翻譯任務的有效性,并收集內部測試案例,產生高度的行業影響。“ 通過研究提高準確性和充分性,提高運營效率和文件層面背景,加快了NMT產出的競爭。低資源語言也成為許多研究人員和日本團隊(更突出的是NICT和NAIST)以及中國加快步伐的優先事項。 在商業世界中,整個供應鏈中正在迅速感受到更高質量的機器翻譯的影響,并且已經影響了單位價格預期。有關神經機器翻譯當前新技術的專家分析和見解,請購買Slator的神經機器翻譯2018報告。 |