后期編輯不是您可以實(shí)施的唯一手動(dòng)干預(yù)。鎮(zhèn)上還有一個(gè)孩子:預(yù)編輯。
什么是預(yù)編輯?預(yù)編輯過程在通過MT之前修改技術(shù)文檔:改進(jìn)源以提高原始輸出的質(zhì)量。好的前期編輯會(huì)減少甚至消除后期編輯的工作量。
與后期編輯一樣,resource在理想情況下是一個(gè)專門的編輯器,可以從MT引擎的角度分析文本塊并預(yù)測(cè)潛在的輸出錯(cuò)誤。預(yù)編輯將通過減少句子長度、避免復(fù)雜或模糊的句法結(jié)構(gòu)、確保術(shù)語一致性和使用冠詞來編輯以促進(jìn)機(jī)器翻譯。
編輯器應(yīng)該運(yùn)行自動(dòng)修訂工具,例如根據(jù)特定于項(xiàng)目的詞匯拼寫檢查源文本,以及部署高級(jí)語法檢查工具。此外,他/她可以標(biāo)記源文檔中不需要翻譯的元素。
這些預(yù)編輯技術(shù)對(duì)于人工翻譯項(xiàng)目也很有價(jià)值。許多開發(fā)大量單語和多語言材料的組織在其本地化最佳實(shí)踐中包含了類似的流程。從一開始就以這種方式寫作,對(duì)整體質(zhì)量和生產(chǎn)率產(chǎn)生了許多積極的下游影響。多語言雜志在這里描述了這些寫作方法。
多少預(yù)編輯就夠了?就像機(jī)器翻譯中的一切:取決于源質(zhì)量和所需的輸出質(zhì)量。
像后期編輯一樣,您需要測(cè)量源和目標(biāo)之間的變化,以便將預(yù)編輯電平校準(zhǔn)到您需要的輸出質(zhì)量。盡管它們已經(jīng)以這樣或那樣的形式存在了60多年,但用于測(cè)量文本變化的工具仍在我們的行業(yè)中積極發(fā)展。
通?;贚evenshtein著名的“編輯距離”算法,最先進(jìn)的工具使用巧妙的算法來衡量實(shí)際的編輯工作量。要實(shí)現(xiàn)目標(biāo)質(zhì)量的一定百分比的變化需要付出多少努力,這項(xiàng)工作的成本是多少?衡量這些變化有助于進(jìn)一步計(jì)算ROI。
同時(shí),為了獲得基本的測(cè)量值,您可以使用編輯器對(duì)源文本進(jìn)行燈光測(cè)試并完成預(yù)編輯,通過MT運(yùn)行每個(gè)編輯級(jí)別的結(jié)果,并讓專業(yè)的語言專家檢查這些輸出以確定質(zhì)量差異。也可以使用自動(dòng)評(píng)分——比如BLEU,GTM,Meteor,TER等。-測(cè)量機(jī)器翻譯輸出的相似性。
只有在衡量之后,你才能做出何時(shí)允許預(yù)編輯的商業(yè)決定。
何時(shí)考慮預(yù)編輯會(huì)有一個(gè)轉(zhuǎn)折點(diǎn)。你最好把錢花在前期剪輯而不是后期剪輯上,反之亦然。問題是“什么時(shí)候?”
當(dāng)技術(shù)或用戶文檔要翻譯成三種以上的語言時(shí),通常會(huì)實(shí)現(xiàn)預(yù)編輯ROI。所以翻譯成幾十種語言的時(shí)候,前期編輯過程的投資回報(bào)肯定是值得考慮的。為什么不在MT之前用一個(gè)資源,而在之后用幾十個(gè)?
然而,預(yù)編輯并不總是正確的方法,也不總是必要的:如果您的源質(zhì)量已經(jīng)很好(由人工審查和自動(dòng)檢查確定),并且您的MT引擎可以通過領(lǐng)域詞典和翻譯來微調(diào)其內(nèi)存,那么簡(jiǎn)單的后期編輯過程可能就是確保有意義的翻譯所需要的全部。
那里有工具嗎?編劇不可能記住所有這些規(guī)則,沒有辦法,沒有辦法。一些源代碼質(zhì)量改進(jìn)技術(shù)可能會(huì)有所幫助。
傳統(tǒng)的TM技術(shù)可以促進(jìn)源創(chuàng)建。源內(nèi)容庫可以為作者提供有用的反饋。例如,它可以識(shí)別多個(gè)作者正在生成非常相似的內(nèi)容,并識(shí)別差異,以便隨著時(shí)間的推移,作者和產(chǎn)品之間的寫作風(fēng)格可以保持一致。
通用預(yù)編輯插件或自動(dòng)預(yù)編輯規(guī)則可以幫助作者在MT之前重新編寫源文本。
簡(jiǎn)化的技術(shù)英語或受控語言工具為本地化的寫作規(guī)則提供了一些自動(dòng)形式化,包括短句、主動(dòng)發(fā)音和標(biāo)準(zhǔn)詞序。(然而,作者可能會(huì)使用工具來簡(jiǎn)化或控制他們的工作——請(qǐng)看我的博客“為什么作者討厭受控語言?!?
特定于程序或客戶的定制工具可以識(shí)別拼寫、語法和首選術(shù)語。這些基本上是語法檢查器檢查堅(jiān)果:為特定程序定制的規(guī)則??梢詫⑦@種方法視為自定義的自動(dòng)樣式指南。
準(zhǔn)備預(yù)編輯前期編輯工作有許多優(yōu)點(diǎn),如:
提高生產(chǎn)力。在源內(nèi)容不是很好的情況下,徹底的一次性預(yù)編輯會(huì)提高M(jìn)T輸出的質(zhì)量,節(jié)省各目標(biāo)語言的后期編輯時(shí)間。目標(biāo)越多,節(jié)省的時(shí)間就越多。
質(zhì)量改進(jìn)和更好的客戶體驗(yàn)。簡(jiǎn)單來說,更好的內(nèi)容對(duì)用戶更有效。如果你有更好的源代碼和更清晰的翻譯,支持成本就會(huì)下降。
削減開支。好的源代碼內(nèi)容,強(qiáng)大的MT引擎,好的過往內(nèi)容,一個(gè)五種目標(biāo)語言50萬字的翻譯程序,可以輕松節(jié)省20%。顯然,這超過了典型MT+全PE工作節(jié)省的成本,后者可以降低10%左右的成本。
如何開始雖然前期編輯可能不會(huì)完全消除后期編輯的需要,但值得一試。首先評(píng)估你的源內(nèi)容的MT效果。如果很差,做一些涉及不同程度的預(yù)編輯的測(cè)試。相對(duì)于潛在的增量,這是一項(xiàng)非常省力的投資。無論如何,如果你在考慮MT計(jì)劃,你會(huì)測(cè)試源和翻譯的內(nèi)容。

從那里,您可以導(dǎo)航特定語言集的特定項(xiàng)目的預(yù)編輯過程。您可以將這項(xiàng)工作與相同規(guī)模和語言集的過去項(xiàng)目的成本進(jìn)行比較。
你曾經(jīng)改進(jìn)過源文件作為提高機(jī)器翻譯輸出的策略嗎?你如何優(yōu)先獲得最大價(jià)值?