讓機(jī)器翻譯為我們工作 - 第3部分


2019-01-01 11:42:07

機(jī)器翻譯



在我們采訪STP的機(jī)器翻譯大師Mattia Ruaro的前兩部分中,我們討論了不同類型的機(jī)器翻譯(MT),技術(shù)改變的方式,以及它如何在翻譯行業(yè)中應(yīng)用和應(yīng)該使用。

在最后一部分中,Mattia分享了他對翻譯人員如何使用MT作為工具的看法 - 以及STP如何實(shí)現(xiàn)它。

您提到編輯機(jī)器翻譯輸出是翻譯人員的一項技能。它與翻譯有何不同?

我說機(jī)器翻譯后編輯與現(xiàn)在的翻譯并沒有什么不同。當(dāng)然,它與在文字處理器中從頭開始翻譯文本完全不同,但我認(rèn)為有時人們會忘記翻譯人員經(jīng)常使用翻譯記憶庫(TM)。所以即使沒有MT,它們也不一定有空白。

與MT合作與翻譯記憶相比如何?

它有點(diǎn)相似; 實(shí)質(zhì)上,您在兩種情況下都在編輯匹配。在TM匹配的情況下,工具將建議在之前已翻譯并存儲在附加到項目的翻譯記憶文件中的類似句子的翻譯。

例如,譯者可能有95%的匹配,其中只有標(biāo)點(diǎn)符號與他們正在查看的句子的標(biāo)點(diǎn)符號不同 - 或者可能只有一個詞是不同的。翻譯已經(jīng)習(xí)慣于編輯TM比賽; MT匹配通常不太準(zhǔn)確,但它是一個起點(diǎn)。

后期編輯過程與翻譯過程有何不同?翻譯在開始之前需要知道什么?

最大的問題,特別是對于沒有經(jīng)驗的編輯來說,要記住MT輸出是機(jī)器的工作,而不是人的工作。您無法信任機(jī)器,就像您可以信任來自前一個翻譯器的翻譯記憶庫匹配一樣。

這似乎是一個相當(dāng)直接的區(qū)別 - 線索在名稱中。但許多人努力做出這種區(qū)分。

另一件事是培訓(xùn)量,因為很少有培訓(xùn)和資源可用。這就是我們?yōu)樽杂陕殬I(yè)者錄制網(wǎng)絡(luò)研討會的原因,我們所有的內(nèi)部翻譯也都接受了培訓(xùn)。我們不能給人們MT輸出,并期望他們只是處理它。

機(jī)器翻譯后編輯(MTPE)并不像人們想象的那樣直觀:培訓(xùn),經(jīng)驗和知識是必要的。嘗試?yán)斫鈾C(jī)器產(chǎn)生輸出的原因真的很有幫助 - 但這需要了解技術(shù)。

從我的角度來看,從翻譯人員獲得非常具體的反饋非常有幫助,因為培訓(xùn)引擎需要精確。

您可以而且應(yīng)該能夠影響發(fā)動機(jī)質(zhì)量 - 您可以訓(xùn)練發(fā)動機(jī)以及翻譯器。如果你“把自己放在機(jī)器的鞋子里”,事情就會開始發(fā)生。

STP已通過MTPE的ISO 18587標(biāo)準(zhǔn)認(rèn)證。為什么是這樣?

它顯示了我們作為一家公司學(xué)習(xí),理解和使用這種技術(shù)所付出的努力。這不僅僅是技術(shù)團(tuán)隊的情況 - 我們的制作團(tuán)隊也投入了大量的工作。

堅持這個標(biāo)準(zhǔn)是我們在考慮每個人的最大利益時所做的事情; 我們正努力為這個行業(yè)做出積極的貢獻(xiàn)。

該標(biāo)準(zhǔn)基本上是一套指導(dǎo)原則 - 我將其描述為最佳實(shí)踐的集合?;旧?,他們提高了行業(yè)中每個人的標(biāo)準(zhǔn)。關(guān)注這些標(biāo)準(zhǔn)的公司可以促進(jìn)這些標(biāo)準(zhǔn),并對抗MT技術(shù)的濫用。

你認(rèn)為行業(yè)中有很多故意濫用MT嗎?

當(dāng)然有些。例如,有些公司試圖將原始MT輸出作為翻譯傳遞出去,并將其作為常規(guī)修訂項目發(fā)送給供應(yīng)商。但這些機(jī)構(gòu)知道他們在做什么 - 而且修改者可以在一英里外發(fā)現(xiàn)這種事情。

有些公司缺乏他們正在使用的MT信息 - 或者他們期望他們的供應(yīng)商使用。他們根本不知道MT輸出有多好,因為他們沒有內(nèi)部人員精通相關(guān)語言來檢查和提供反饋。STP只為我們可以在內(nèi)部檢查的語言生成輸出。這樣我們就知道它究竟是什么樣的質(zhì)量。

你會說MTPE比沒有MT的翻譯快嗎?

有很多關(guān)于MT提高生產(chǎn)率的討論,但大多數(shù)關(guān)于這方面的研究都是在很少有人沒有嚴(yán)格的期限的情況下完成的。這些情況并沒有真正反映出翻譯在商業(yè)世界中的運(yùn)作方式。這些研究通常也會做出錯誤的假設(shè)。

在STP,我們可以在內(nèi)部測試MT作為工具的有效性。我們有很多關(guān)于我們翻譯人員的信息,他們已經(jīng)在截止日期和壓力下工作,這使他們成為理想的考試科目。

你如何準(zhǔn)確地測量這樣的東西?

我們有基于編輯距離的數(shù)據(jù) - 最終編輯輸出與原始未編輯MT輸出的不同之處。一般來說,似乎人們使用MT比沒有人更有效率,盡管這并不一定意味著質(zhì)量很好。

STP如何衡量這一點(diǎn)?

讓機(jī)器翻譯為我們工作 - 第3部分

基本上,我們正在努力追蹤生產(chǎn)力的提高。我們這樣做是通過記錄與MTPE任務(wù)相比沒有使用MT的項目的時間。這不是一個完美的指標(biāo),但我們需要MT上的一些硬數(shù)據(jù)以及它實(shí)際上有多大用處。

MT的差異是否反映在費(fèi)率上?

對我們來說,它真的不那么簡單。在效率方面,我們希望確保我們知道我們實(shí)際獲得了什么。

我看到很多無意義的數(shù)字被拋出。例如,據(jù)稱MTPE比翻譯效率高50%。即使有節(jié)省時間的方面,用這些術(shù)語來說也是不現(xiàn)實(shí)的。

生產(chǎn)力的提高也需要進(jìn)行背景化。通常還有其他方面可以減慢工作速度,例如需要閱讀和實(shí)施的特殊指令。

在STP,我們希望考慮到人們投入項目的總體努力。并且,在一天結(jié)束時,您仍然需要完成工作 - 引擎只提供建議。

根據(jù)我們翻譯人員提供的反饋,即所謂的“高模糊”,意味著TM工具被CAT工具排名為75%或更高,幾乎總是比MT匹配更有幫助。因此,當(dāng)我們的翻譯人員使用MT時,他們只會將其用于沒有“高模糊”的句子。到目前為止,這對我們來說是一種有用的方法。

STP可能與眾不同的一點(diǎn)是,我們有超過70名內(nèi)部翻譯人員可以幫助我們開發(fā)我們的方法。

擁有龐大的內(nèi)部翻譯團(tuán)隊如何提供幫助?

他們都是經(jīng)過培訓(xùn)后編輯MT輸出的專業(yè)人士,他們很樂意幫助我們進(jìn)一步開發(fā)引擎。我可以理解一家規(guī)模較小的公司如何更難找到這一點(diǎn)。

在STP,我們每天都會使用少量語言,因此我們擔(dān)心的引擎比其他公司少。

如果人們對某些事情不滿意,我們可以嘗試改進(jìn)它 - 或者如果沒有幫助就放棄它。我們可以回到繪圖板。

您如何在實(shí)踐中與內(nèi)部團(tuán)隊合作?

我們每個目標(biāo)語言都有一個人,他們是我們MT開發(fā)的首選人。到目前為止,我們已經(jīng)為所有斯堪的納維亞語言和英語提供了這個。當(dāng)我需要反饋時,我與這些MT“超級用戶”或MT專家合作。

對于對流程和技術(shù)真正感興趣的翻譯人員來說,這很容易實(shí)現(xiàn)。沒有我們的翻譯團(tuán)隊,這項技術(shù)對我們來說真的不值得 - 他們的努力在這個過程的所有階段都至關(guān)重要。