微胖少妇激情888AV,精品大屁股,无码中文婷婷超碰 ,最新免费成人性爱视频

好育寶

好育寶

MITCSAIL使用無監(jiān)督學習進行語言翻譯

admin 57 169

MIT CSAIL使用無監(jiān)督學習進行語言翻譯

機器學習為比以往更快,更準確的語言翻譯鋪平了道路,但它不是巴貝爾魚。來自谷歌,亞馬遜,微軟和其他公司的尖端系統(tǒng)需要人工智能(AI)模型來攝取數(shù)百萬手工翻譯的文檔,用于查找目標語言中匹配的單詞和短語。但對于缺乏大型語料庫的數(shù)千種方言而言,這不是一種可行的方法。

這就是為什么麻省理工學院計算機科學與人工智能實驗室(MIT CASAIL)的研究人員采用了不同的方法。在本周將在自然語言處理經驗方法會議上發(fā)表的一篇論文中,他們描述了一個無監(jiān)督的模型 - 即從未經明確標記或分類的測試數(shù)據(jù)中學習的模型 - 可以在兩種語言的文本,兩者之間沒有直接的翻譯數(shù)據(jù)。

它跟隨Facebook進軍無人監(jiān)督的機器學習翻譯。8月,F(xiàn)acebook AI Research(FAIR) - 與該公司的應用機器學習部門合作 - 設計了一個模型,該模型使用逐字翻譯,語言模型和反向翻譯的組合,以超越語言配對系統(tǒng)。

“[我們的]模型將兩種語言中的單詞視為一組向量,并通過基本保留關系將[這些向量]從一組映射到另一組,”CSAIL研究員和該論文的共同作者Tommi Jaakkola告訴麻省理工學院新聞。“這種方法可以幫助翻譯低資源語言或方言,只要它們有足夠的單語內容?!?/p>

該方法的核心是所謂的Gromov-Wasserstein距離,這是一種統(tǒng)計度量,記錄一個計算空間中點之間的距離,并將它們與另一個計算空間中類似的距離點進行匹配。在這里,它適用于嵌入 - 被稱為向量的單詞的數(shù)學表示 - 具有相似意義的單詞聚集在一起。最后,該模型能夠將嵌入中的向量與相對距離最密切相關,這些符號可能是直接翻譯。

研究人員的系統(tǒng) - 在FASTTEXT上訓練和測試,F(xiàn)ASTTEXT是110種語言對的公開詞匯嵌入的數(shù)據(jù)集 - 指定了一種語言的單詞嵌入中類似的距離向量與第二語言中的類似聚類相對應的概率。它量化了具有數(shù)值的語言之間的相似性,在兩次嵌入中計算向量之間的距離。

向量越近,得分越接近零。法語和西班牙語等浪漫語言傾向于1,而中文與其他主要語言配對時則介于6到9之間。

MITCSAIL使用無監(jiān)督學習進行語言翻譯

研究人員承認,對齊詞嵌入并不是一種全新的方法,但系統(tǒng)對關系距離的使用使得它比以前的實現(xiàn)更有效,需要一小部分計算能力,很少或沒有調整。

“該模型不知道[一年中有幾個月]”,例如,CSAIL博士生和該論文的第一作者David Alvarez-Melis說?!八恢烙幸唤M12個點與另一種語言中的12個點對齊,但它們與其他單詞不同,所以它們可能很好地結合在一起。通過找到每個單詞的這些對應關系,它然后同時對齊整個空間?!?/p>

這不是機器翻譯領域最近唯一的創(chuàng)新。10月,百度開發(fā)了一個能夠同時翻譯兩種語言的AI系統(tǒng)。6月份,谷歌 在谷歌翻譯iOS和Android上提供了59種語言的離線神經機器翻譯。

狠狠躁夜夜躁人人爽视频| 亚洲人成网777777国产精品| 无码一区二区三区亚洲人妻| 日韩一区 欧美一区| 国产另类AV| 97精品国产手机| 狠狠色一区二区三区| 九九日本频道| 欧美 亚洲 日韩 国产| 狂野欧美性猛XXXX乱大交| 人人妻人人爽人人做夜欢视频| 在线av| www婷婷av久久久影片| 久久久久亚洲av成人网人人小说| 精品久久久国产| 色视频在线欧美日韩在线观看| 婷婷第四色| 国产欧美日韩亚洲一区二区三区| 777影视| 殴美精品99| 国产精品人妻一码二码| 777片理伦片在线观看| 日韩一级免费在线不卡| 成人无码区免费AⅤ在线播放| 另类 欧美 日韩 国产 在线| 香蕉av久久一区二区三区| 中文无码在线| 亚洲精品乱码久久久久久自慰| 先锋影音资源站| 欧美成人精品第一区二区三区| 波多野结衣无码专区| 91国产w| ,香蕉欧美视频| 永仁县| 日本中文字幕不卡在线视频| 激情老熟女视频| 亚洲国产日韩欧美一区二区| 精品人妻一区二区无码免费无码专| 啪啪啪av| 欧美一区二区髙清| 欧美成人一区二区三区|