2014年4月27日 星期日

統計式機器翻譯的成年禮

雙語語料庫──20年前IBM播種,20年後Google收穫。

撰文/張俊盛

2013年10月17日早上,我來到美國西雅圖市參加「雙語語料庫20年工作坊」。這次研討會旨在回顧20年前掀起機器翻譯革命的雙語語料庫研究,並前瞻未來研究走向。美國南加州大學的奈特(Kevin Knight)以「試嚐機器翻譯模型的味道」為題開場演講,幽默地介紹統計式機器模型的況味,也以Google翻譯的結果為例,暗示20年來機器翻譯模型還是未盡順口美味。
英國愛丁堡大學的昆恩(Philipp Keohn)則回顧機器翻譯的進展,並指出未來研究方向──發展提示式、互動式輔助翻譯系統,讓譯者來主導翻譯,而機器翻譯退居輔助的角色。
會議的高潮是請來20年前IBM機器翻譯研究團隊的兩位要角莫瑟(Bob Mercer)和布朗(Peter Brown)同台,主講〈是的,福瑞得,一切按部就班進行中〉,細述當年統計式機器翻譯的緣起與軼事。兩人在機器翻譯研究成就最高峰時,突然離開IBM,加入文藝復興科技避險基金公司,以統計模型選股管理基金,掀起財務管理革命。今天,莫瑟與布朗就像《李伯大夢》中沉睡20年的樵夫,受到熱烈歡迎,回訪久違的「機器翻譯」之村。
兩人風趣地回顧往事,一致推崇當年的主管庫克(John Cocke)和福瑞得.傑利內克(Fred Jelinek)力行走動式管理,穿梭在IBM各研究小組,讓各領域的想法混搭,引發典範革命。
IBM機器翻譯系統的成功關鍵,是採用了加拿大高達數千萬字的英法對照立法議事錄。庫克在一趟飛行旅程中和鄰座的加拿大旅客交談,得知有這麼一套資料,當場就認為應盡快拿來研發語言工程技術。
IBM先以這份資料研發語音辨識與拼字改錯。但莫瑟和布朗卻趁傑利內克渡假時,未經報備就擱下語音辨識研究,用還未上市、問題重重的RISC桌上型電腦研發起機器翻譯。每當傑利內克來電詢問進度,兩人就應付說:「是的,福瑞得,一切按部就班進行中。」(即演講題目)兩人由語音研究借來常態分佈、期望值等基本統計原理,主導設計出IBM的機器翻譯系統模型,可自動推論出大量雙語文件中跨語言隱藏的句子、詞彙對應。
內容引用來源:http://sa.ylib.com/MagCont.aspx?Unit=columns&id=2335
出處:科學人雜誌

沒有留言:

張貼留言

最新公告

學員作品

分校相簿