GoogleのWikipedia翻訳活動、1600万語超の英文記事をアラビア語やヒンディー語へ - ニュース:ITpro
http://itpro.nikkeibp.co.jp/article/NEWS/20100716/350381/ 米Googleの製品マネージャーMichael Galvez氏は、同社公式ブログへの投稿で
米国時間2010年7月14日、これまで取り組んできたオンライン百科事典「Wikipedia」の
翻訳活動で、1600万語以上の英文記事を使用者の比較的少ない言語に翻訳できたと
発表した。
Googleは、Wikipediaに蓄積された情報を少数派の言語でも伝えることが重要と考え、
2008年からボランティアの協力を得て翻訳を行ってきた。インドと中東、アフリカの
協力者などと共同で作業し、英文1600万語以上を次の言語に翻訳した。アラビア語
(使用地域は中東から北アフリカ)、グジャラート語(インドのグジャラート州周辺)、
ヒンディー語(インド全域)、カンナダ語(インドのカルナタカ州周辺)、スワヒリ語
(アフリカ東部から中部)、タミル語(インド南部からスリランカ北部)、テルグ語
(インド南東部)。
この活動を始めたころ、Wikipediaの英文記事は250万本(13億語)あったのに対し、
ヒンディー語の記事は2万1000本(340万語)にすぎなかった。Googleは「Google Trends」
で読者の多い記事を探し、翻訳支援ツール「Translator Toolkit」による機械翻訳と
手作業を併用した。その結果、最初の3カ月で英文記事100本(60万語)以上を
ヒンディー語に翻訳できた。他の言語の記事も同様にして翻訳している。
Googleによると、同様にTranslator Toolkitを使ってWikipediaの記事を自発的に
翻訳するインターネットユーザーが多数おり、これまでに1億語以上がさまざまな
言語に翻訳されたという。同社は、翻訳対象言語の記事数がまだ不十分なため、
今後も作業を続ける必要があるとしている。