小说阅读网,有声小说打包下载,yy玄幻小说排行榜完本

　　隨著NMT(神經機器翻譯)正在成為新標準，量化新技術的質量收益越來越成為一項挑戰。在最近提交給arXiv.org的一篇論文中，ADAPT數字內容技術中心副主任Andy Way教授解釋了機器翻譯(MT)的質量預期。Way并沒有進行大量的技術研究，而是討論了MT的質量評估，以及這是NMT作為主要的行業變革者繼續發展時要解決的重要問題。

　　“公司經常忽略技術中心實際上具有破壞性：它不僅影響技術培訓的員工，還影響項目經理，銷售和營銷人員，培訓團隊，財務人員，當然還有后期編輯和質量評審員，“Way在他的論文中說。“如果要在充分了解預期投資回報的情況下做出正確的決定，所有這些都應該事先采納，但在實踐中很少。”

　　“公司經常忽視技術MT實際上具有破壞性” - ADAPT數字內容技術中心副主任Andy Way教授對于NMT，其中一個主要問題是雙語評估低級研究(BLEU)，這是大多數研究中使用的長期自動評估指標。

　　BLEU的限制

　　BLEU由于流行而成為事實上的自動評估系統：在MT研究中顯示獲益的最簡單方法是使用先前使用的相同評分。然而，對于NMT而言，相對于前代MT的改進 - 更不用說設計上的差異(即NMT通常運行在字符級編碼器 - 解碼器系統上) - 使BLEU更不適合量化輸出質量。除了BLEU將MT輸出與單個參考人類翻譯進行比較的問題之外，Way更具體地通過樣本參考翻譯和樣本MT輸出來說明BLEU的局限性。

　　參考翻譯是："The President frequently makes his vacation in Crawford Texas.“

　　MT輸出是：

　　1、George Bush often takes a holiday in Crawford Texas

　　2、holiday often Bush a takes George in Crawford Texas

　　3、George rhododendron often takes a holiday in Crawford Texas

　　注意1和2和3得到相同的BLEU分數，這是由于BLEU計算分數的固有限制。

　　他提出解決MT產量的最佳方法是考慮兩個因素：

　　1、適合翻譯的目的

　　2、內容的易腐性。

　　用他自己的話說：“如何使用翻譯，以及我們需要多長時間查閱翻譯?”

　　對NMT質量度量的需求

　　Way繼續在他的論文中解釋說，“基于n-gram的度量標準如BLEU不足以真正證明NMT對[基于短語，統計和混合] MT的好處”。

　　他解釋說，現有關于NMT與前代技術相比的收獲的研究表明，各個領域都有顯著的改進，但總體而言，BLEU總分的增加只能達到2 BLEU點左右。另外，在人機交互方面，Way說MT和翻譯記憶(TM)模糊匹配已經是人類翻譯工具中常見的工具，因此它“迫使MT開發人員開始用他們的MT系統輸出翻譯伴隨著對翻譯人員有意義的質量評估。“在這方面，“雖然BLEU成績無疑對MT開發者有用，但輸出BLEU成績(例如)0.435的目標句對翻譯來說毫無意義。”

　　此外，這影響定價和支付。Way在他的論文中寫道：“根據TM系統為每個輸入字符串所建議的模糊匹配級別，翻譯者習慣于支付不同的費率。在NMT驅動的行業中尋找量化質量的方法Way指出，由于許多NMT引擎都是角色級別的系統，因此在角色級別運行的ChrF(由MajaPopovi?在2015年提出)等評估指標更為合適。“Slator作為我們NMT 2018年報告的主題專家接觸了柏林DFKI - 語言技術實驗室的研究員Popovi? 。當被問及BLEU時，她說：“BLEU達到了任何翻譯的極限，不僅NMT。”

　　Popovi?對基于角色的評分進行了信任投票，例如BEER，chrF和character等，因為他們有潛力進行MT評估。“她還告訴Slator她期待將語言信息納入NMT系統，“因為我相信語言知識很重要。”該領域的其他專家提供了他們對NMT質量評估的展望，包括Yannis Evangelou，語言質量保證公司LexiQA的創始人兼首席執行官，他說明了NMT分為三個階段的過程：翻譯前，機器翻譯和后期編輯。

　　Slator報告中的其他受訪者，如Systran首席技術官Jean Sellenart，SDL機器學習解決方案副總裁Mihail Vlad，甚至紐約大學的NMT研究先驅Kyunghyun Cho也同意Way在他的論文中關于MT輸出質量的衡量標準正在使用的場景的上下文。

　　弗拉德舉了一些例子：

　　1、翻譯員的質量可以通過提高翻譯效率來衡量。

　　2、多語言電子發現的質量是通過識別正確文件的準確性來度量的。

　　3、多語言文本分析的質量通過分析師識別相關信息的有效性來衡量。

　　4、多語言聊天的質量由最終用戶的反饋評價來衡量。

　　Booking.com的研究員Pavel Levin認為，在不久的將來，NMT質量保證的標準化可能與需求一樣分散：“我們將看到從業者推出他們自己的與他們問題更相關的指標(例如指標與處理特定命名實體相關，來自定制QA系統的分數，可能基于機器學習等)，并將其中幾個組合使用。“Way在他的論文中寫道：“如果NMT確實成為最新的最新技術，現場預計，人們可以預見，更加精確地對這種范式進行調整的更多新的評估指標將會更快出現，而不是更晚。