隨著NMT(神經機器翻譯)正在成為新標準,量化新技術的質量收益越來越成為一項挑戰。在最近提交給arXiv.org的一篇論文中,ADAPT數字內容技術中心副主任Andy Way教授解釋了機器翻譯(MT)的質量預期。Way并沒有進行大量的技術研究,而是討論了MT的質量評估,以及這是NMT作為主要的行業變革者繼續發展時要解決的重要問題。
“公司經常忽略技術中心實際上具有破壞性:它不僅影響技術培訓的員工,還影響項目經理,銷售和營銷人員,培訓團隊,財務人員,當然還有后期編輯和質量評審員,“Way在他的論文中說。“如果要在充分了解預期投資回報的情況下做出正確的決定,所有這些都應該事先采納,但在實踐中很少。”
“公司經常忽視技術MT實際上具有破壞性” - ADAPT數字內容技術中心副主任Andy Way教授對于NMT,其中一個主要問題是雙語評估低級研究(BLEU),這是大多數研究中使用的長期自動評估指標。
BLEU的限制
BLEU由于流行而成為事實上的自動評估系統:在MT研究中顯示獲益的最簡單方法是使用先前使用的相同評分。然而,對于NMT而言,相對于前代MT的改進 - 更不用說設計上的差異(即NMT通常運行在字符級編碼器 - 解碼器系統上) - 使BLEU更不適合量化輸出質量。除了BLEU將MT輸出與單個參考人類翻譯進行比較的問題之外,Way更具體地通過樣本參考翻譯和樣本MT輸出來說明BLEU的局限性。
參考翻譯是:"The President frequently makes his vacation in Crawford Texas.“
MT輸出是:
1、George Bush often takes a holiday in Crawford Texas
2、holiday often Bush a takes George in Crawford Texas
3、George rhododendron often takes a holiday in Crawford Texas
注意1和2和3得到相同的BLEU分數,這是由于BLEU計算分數的固有限制。
他提出解決MT產量的最佳方法是考慮兩個因素:
1、適合翻譯的目的
2、內容的易腐性。
用他自己的話說:“如何使用翻譯,以及我們需要多長時間查閱翻譯?”
對NMT質量度量的需求
Way繼續在他的論文中解釋說,“基于n-gram的度量標準如BLEU不足以真正證明NMT對[基于短語,統計和混合] MT的好處”。
他解釋說,現有關于NMT與前代技術相比的收獲的研究表明,各個領域都有顯著的改進,但總體而言,BLEU總分的增加只能達到2 BLEU點左右。另外,在人機交互方面,Way說MT和翻譯記憶(TM)模糊匹配已經是人類翻譯工具中常見的工具,因此它“迫使MT開發人員開始用他們的MT系統輸出翻譯伴隨著對翻譯人員有意義的質量評估。“在這方面,“雖然BLEU成績無疑對MT開發者有用,但輸出BLEU成績(例如)0.435的目標句對翻譯來說毫無意義。”
此外,這影響定價和支付。Way在他的論文中寫道:“根據TM系統為每個輸入字符串所建議的模糊匹配級別,翻譯者習慣于支付不同的費率。在NMT驅動的行業中尋找量化質量的方法Way指出,由于許多NMT引擎都是角色級別的系統,因此在角色級別運行的ChrF(由MajaPopovi?在2015年提出)等評估指標更為合適。“Slator作為我們NMT 2018年報告的主題專家接觸了柏林DFKI - 語言技術實驗室的研究員Popovi? 。當被問及BLEU時,她說:“BLEU達到了任何翻譯的極限,不僅NMT。”
Popovi?對基于角色的評分進行了信任投票,例如BEER,chrF和character等,因為他們有潛力進行MT評估。“她還告訴Slator她期待將語言信息納入NMT系統,“因為我相信語言知識很重要。”該領域的其他專家提供了他們對NMT質量評估的展望,包括Yannis Evangelou,語言質量保證公司LexiQA的創始人兼首席執行官,他說明了NMT分為三個階段的過程:翻譯前,機器翻譯和后期編輯。
Slator報告中的其他受訪者,如Systran首席技術官Jean Sellenart,SDL機器學習解決方案副總裁Mihail Vlad,甚至紐約大學的NMT研究先驅Kyunghyun Cho也同意Way在他的論文中關于MT輸出質量的衡量標準正在使用的場景的上下文。
弗拉德舉了一些例子:
1、翻譯員的質量可以通過提高翻譯效率來衡量。
2、多語言電子發現的質量是通過識別正確文件的準確性來度量的。
3、多語言文本分析的質量通過分析師識別相關信息的有效性來衡量。
4、多語言聊天的質量由最終用戶的反饋評價來衡量。
Booking.com的研究員Pavel Levin認為,在不久的將來,NMT質量保證的標準化可能與需求一樣分散:“我們將看到從業者推出他們自己的與他們問題更相關的指標(例如指標與處理特定命名實體相關,來自定制QA系統的分數,可能基于機器學習等),并將其中幾個組合使用。“Way在他的論文中寫道:“如果NMT確實成為最新的最新技術,現場預計,人們可以預見,更加精確地對這種范式進行調整的更多新的評估指標將會更快出現,而不是更晚。