MIT CSAIL使用無監(jiān)督學習進行語言翻譯
機器學習為比以往更快,更準確的語言翻譯鋪平了道路,但它不是巴貝爾魚。來自谷歌,亞馬遜,微軟和其他公司的尖端系統(tǒng)需要人工智能(AI)模型來攝取數(shù)百萬手工翻譯的文檔,用于查找目標語言中匹配的單詞和短語。但對于缺乏大型語料庫的數(shù)千種方言而言,這不是一種可行的方法。
這就是為什么麻省理工學院計算機科學與人工智能實驗室(MIT CASAIL)的研究人員采用了不同的方法。在本周將在自然語言處理經驗方法會議上發(fā)表的一篇論文中,他們描述了一個無監(jiān)督的模型 - 即從未經明確標記或分類的測試數(shù)據(jù)中學習的模型 - 可以在兩種語言的文本,兩者之間沒有直接的翻譯數(shù)據(jù)。
它跟隨Facebook進軍無人監(jiān)督的機器學習翻譯。8月,F(xiàn)acebook AI Research(FAIR) - 與該公司的應用機器學習部門合作 - 設計了一個模型,該模型使用逐字翻譯,語言模型和反向翻譯的組合,以超越語言配對系統(tǒng)。
“[我們的]模型將兩種語言中的單詞視為一組向量,并通過基本保留關系將[這些向量]從一組映射到另一組,”CSAIL研究員和該論文的共同作者Tommi Jaakkola告訴麻省理工學院新聞。“這種方法可以幫助翻譯低資源語言或方言,只要它們有足夠的單語內容?!?/p>
該方法的核心是所謂的Gromov-Wasserstein距離,這是一種統(tǒng)計度量,記錄一個計算空間中點之間的距離,并將它們與另一個計算空間中類似的距離點進行匹配。在這里,它適用于嵌入 - 被稱為向量的單詞的數(shù)學表示 - 具有相似意義的單詞聚集在一起。最后,該模型能夠將嵌入中的向量與相對距離最密切相關,這些符號可能是直接翻譯。
研究人員的系統(tǒng) - 在FASTTEXT上訓練和測試,F(xiàn)ASTTEXT是110種語言對的公開詞匯嵌入的數(shù)據(jù)集 - 指定了一種語言的單詞嵌入中類似的距離向量與第二語言中的類似聚類相對應的概率。它量化了具有數(shù)值的語言之間的相似性,在兩次嵌入中計算向量之間的距離。
向量越近,得分越接近零。法語和西班牙語等浪漫語言傾向于1,而中文與其他主要語言配對時則介于6到9之間。

研究人員承認,對齊詞嵌入并不是一種全新的方法,但系統(tǒng)對關系距離的使用使得它比以前的實現(xiàn)更有效,需要一小部分計算能力,很少或沒有調整。
“該模型不知道[一年中有幾個月]”,例如,CSAIL博士生和該論文的第一作者David Alvarez-Melis說?!八恢烙幸唤M12個點與另一種語言中的12個點對齊,但它們與其他單詞不同,所以它們可能很好地結合在一起。通過找到每個單詞的這些對應關系,它然后同時對齊整個空間?!?/p>
這不是機器翻譯領域最近唯一的創(chuàng)新。10月,百度開發(fā)了一個能夠同時翻譯兩種語言的AI系統(tǒng)。6月份,谷歌 在谷歌翻譯iOS和Android上提供了59種語言的離線神經機器翻譯。