Web掲示板に外国語翻訳機能を付けたいと思うのですが、freeのものは無いし、
web上の翻訳サービスを勝手に取り込むのもマズイだろうということで、
自分で作ってみようか、と思っているのですが、難しいですかね。
プログラムも専門家ではないし、外国語も英語しか知りませんが、
PERL scriptでopen sourceな日英英日翻訳softを試しに作ってみようかと
考えています。
プログラミングの話は取りあえず置くとして、機械翻訳のメカニズムとしては、
入力文章を検索して外国語の単語に置換して行く、という形になります。
例えば、「私は学生です」なら、「私」を「I」、「学生」を「student」に置換する。
でも、こうして単語単位で逐一翻訳しても、語順や文法が違う言語への翻訳では
滅茶苦茶になってしまう。やはり、翻訳する元の文章をまず文節単位なり
に分解・整理して、何らかの定まった文型に沿って翻訳する必要があると思うのです。
そうすると文法の知識なんかも必要になるわけですが、この基本的なメカニズムを
どう作ると最も効率的なのでしょうかね?
computer scienceの論文とかで機械翻訳に関するものがあるかな。まぁあっても
難しくて私に理解できるかどうか分かりませんが、英語も一応読めますので、
もしonlineで読めるものがあったら、教えてもらえると幸いです。
/ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
Λ_Λ | 「〜教えて」と単発の質問で新たにスレッドを立てるのは、
( ´∀`)< 2chではどこの板でも嫌がられるし、外国語板では禁止されてるよ。
( ΛΛ つ >―――――――――――――――――――――――――――
( ゚Д゚) < 以下のスレッドに書き込むのをお勧めする。
/つつ | 外国語(英語除く)板の住人は暇な時、ここをチェックしているぞ。
\___________________________
★☆外国語(英語除く)板の雑談&質問スレッド☆★
http://academy2.2ch.net/test/read.cgi/gogaku/1036960485/l50 / ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
Λ_Λ | もしかしたら似たようなトピックのスレッドが既にあるかも知れないよ。
( ・∀・) < 41以下のスレッドも検索してみよう。 (検索の方法は板のトップ参照)
( つ \__________________________
>>2 >「〜教えて」と単発の質問で新たにスレッドを立てるのは、
翻訳ソフトの翻訳メカニズムの作り方に関する話なんで、
「単発」で答えがすぐ出る問題でもないと思うんですけど。
5 :
名無しさん@3周年:03/04/23 08:28
独日・日独翻訳ソフトに挑戦している人のスレがあったような。
>>1 >外国語も英語しか知りませんが、
>PERL scriptでopen sourceな日英英日翻訳softを試しに作ってみようかと
>考えています。
英語しか知らないリアル厨房かよ。
まず英語のソフトを完成させてから出直して来い。
>>8 >英語しか知らないリアル厨房かよ。
>まず英語のソフトを完成させてから出直して来い。
日本語から外国語に翻訳する基本メカニズムは、どの言語も基本的に同じでしょう。
韓国語のように日本語と語順が同じ言語への翻訳の場合は、文法を気にせず逐語変換
だけでも結構意味が通じる文章ができますが、そうでない場合、逐語変換する前に
まず元の日本語を規則的に分解・整理する必要がある。それから置換して、翻訳先の
言語の文法で再構成する。下ごしらえの分解・整理はどの言語でも共通です。
また、逆に英語から日本語に翻訳する場合でも、例えばドイツ語等で同様のことを
やった経験のある人のアドバイスは重宝します。
志しは認めるけど、スレの方向性があくまで
君が英日翻訳ソフトをつくる上での疑問に、答えてもらうスレ
だったら、あまり建設的な意見はでないかもね。
例え他言語にも通じる内容だとしても。
>日本語を外国語に分解する前に、どう分解するのが最も効率的なのか。
「外国語に翻訳する前に、」ですね
>>14 これは面白いですね。参考になります。日本語や中国語のような
分かち書きしない文章の場合、まず翻訳する文章の最初の単語の
最初の文字で翻訳語データベースを検索して、見つかった最長の
単語でもって置換する、という作業を先頭から順々にやっていく
わけですか。
日本語は、
主語にくる名詞がなるべく”生物・生命体”であるようにしないと、翻訳独特の堅苦しさが抜けない。
というわけで、名詞の生物・非生物を、プログラム内部で分けて処理して欲しい。
やっぱ元が分かち書きじゃないと、辛いな。
もうおしまい?
もうおしまい?
日本語→外国語の話なの?
拠って立つ理論が最初から破綻してるんで
何やっても無理
日本語磨いて外国語マスターして翻訳せい
>拠って立つ理論が最初から破綻してるんで
その理論の話をしてるんですが。
それでは本当の事を言います。
私の正体はパナウェーブ研究所で電磁波の研究をしている研究者です。
怪しい者ではありません。
∩_∩ ;;''"´"'''::;:,,,
( ◎∀◎)¬=ー,|━;; ,,;;;;´"'' '
/ __つ_几O'~ ̄ ´''::;;;;::'''"´
_) .,彡、 ゙i 喰らえ!スカラー波!
vy),,vWy(___ノ....(___) wvy)、vWy)w.wvy
↑
>>1 ideas
┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
┃
┃ パナウェーブの実態
┃  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
┃ ● 強烈に電磁波を発している自動車の車内に居る
┃ ● 強烈に電磁波を発しているケータイを使っている
┃
┃ ○ バックはおそらく統一教会。政府の一部、北朝鮮も絡んでいる
┃ ○ 狙いはおそらく発電所施設、軍事施設。
┃ ○ 東南海大地震などに合わせ、どさくさに紛れて都市機能を麻痺させる
┃
┃
┃ ○ GLA(信者は関口宏)から分裂。系列出版社は統一教会の隣ビル。
┗━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
ああっ、もうダメッ!
ぁあ…スカラー波出るっ、スカラー波出ますうっ!!
パっ、パナっ、パナウェーーーブーーーーーッッッ!!!
いやああああっっっ!!スカラー波見ないで、お願いぃぃぃっっっ!!!
白い布!木綿100%ーーーーーーっっっ…テントっ!
左巻きコイルぅううううーーーーーーーーっっっっっっ!!!!
岐阜県んんーーーーっっっ!!!さっ、山中っ、誰も来ないィィィッッ!!!
無許可っっ!!無許可っっ、不法占拠っっ!!!
おおっ!取材拒否っ!!このカメラっ、誰のっ、誰の許可をっっ!!!
勝手に撮らないでぇっ、ああっ、もうダメッ!!ストーカー追跡ーーーーっっっ!!!
自然破壊っ!津波!第10惑星地球に接近んんんんんっっっっっ!!!!
いやぁぁっ!わたし、こんなにいっぱいスカラー波出してるゥゥッ!
システム作りで一番タチが悪いのは、口ばっかりで設計も実装もできないヤシだよ。
実際に動くものがあれば評価もできるし「あいつは口だけ」と言われることもない。
とりあえず考えていることを形にしてみたら?
33 :
名無しさん@3周年:03/04/30 23:03
私は現役の翻訳者なんですが、翻訳者がどういう風に翻訳をしているか、私が知っている範囲で教えます。
1.逐語訳
これは
>>1さんがおっしゃっているように、「I」を「私」に、「student」を「学生」に置き換えるものです。
おそらく、ほとんどの翻訳機械がこういう仕組みでしょう。
2.意訳
これはかなり高等な翻訳術です。逐語訳は、いうならば、高校生の英文和訳です。辞書で意味を調べてそれを当てはめます。ところが、この意訳は辞書を機械的に当てはめる訳ではありません。極めて人間的かつ手仕事的です。
どういうことかというと、まず英語を読んで、頭にイメージを作り上げます。そしてそのイメージを日本語に焼き付けます。
・逐語訳は図示するとこうです。単語ごとに置き換えるわけです。
英単語→日本語
英単語→日本語
英単語→日本語
・意訳はこうです。一度まとまったイメージにしてから、個別の日本語をひねり出します。
英単語 日本語
英単語→(イメージ)→日本語
英単語 日本語
意訳の翻訳ソフトができれば、おそらく大発明でしょう。それは極めて難しいと思います。しかし完成すれば、かなり「人間的」な訳文を生成できるはずです。
>>1 じゃあ逆にどう可能なのか述べてくれ。
他人がやってるから可能?。
なら他人に期待するよ。
とりあえず今までの君の書き込みからは、とても本気で翻訳ソフト
をつくるという姿勢は見えない。
もちっと叩き台をつくってこいよ。それまでageるな。
>>33で「大発明」とか書いちゃったけど、いわゆる「中間言語」で翻訳する機械はこれに似た構造を持っているのかもしれませんね。
例えば、英語→中間言語→日本語、フランス語、ロシア語など。
でも、結局こういう方式も、言語の変換時には逐語訳をしているのかな?
逐語訳を一切使わない翻訳ソフトができたらすごい。
>>33 ネタ?
逐語訳・意訳の説明から始めないといけないヤシに翻訳ソフトの開発なんてムリだし
そもそも33は高校生でも知ってることでしょ。
意訳はやっぱ日本語と英語の間におそろしいほど汎用性の高い
架空の言語を挟むのがいいんじゃないの?。
>>1は当然言語学もやってるよね?。
そう、漏れも中間言語を挟めば逐語訳を2回続けることで、
意訳ができると思うが、ただそれは日本語よりも英語よりも広い言語
をつくることなんだよな…。
>>32 >システム作りで一番タチが悪いのは、口ばっかりで設計も実装もできないヤシ
機械翻訳自体に興味があるから、その基本メカニズムや作成の際に参考になる
情報など知ってる人がいましたら、お教え頂けると幸いです、ということです。
機械翻訳が面白そうだから、それが一体どんな物なのか考えてみよう、という
スレなんで、機械翻訳自体に全く関心が無いなら見るだけ時間の無駄でしょう。
ソフトの完成品だけに興味のある人に勝手に期待をかけられて「口ばっかり」
だの「タチが悪い」だのと罵られても困ります。
無論、最終的には翻訳掲示板に使えるものができたら良いな、とは考えていますし、
外部のfreeの翻訳エンジンを利用した翻訳掲示板自体ならば、既に上述URLで
稼働しています(私が作成したものです)。
>>38 逐語訳を2回続けてしまうと、訳文がぼやけてしまう。
その「ぼやけ」が意訳的に見えることがあるけど、意味が違ってきてしまうという怖さがあるよ。
例えばプリンターかなんかの説明文に、
「This machine provides printing to you.」
という文があったとする。
翻訳者だったら意訳で「本機では印刷ができます」とするところだけど、
逐語訳をすると「この機械はあなたに印刷を提供します」となってしまう。
これが中間言語だったら例えば「machine→(give; printing)→you」みたいになる。(この辺適当)
これをもう一度逐語訳すると、「この機械はあなたに印刷物を手渡します」となり得る。
逐語訳を2度繰り返す「中間言語方式」は、意訳的になる場合があるけど、誤訳の可能性も高まってしまう。
やはり本物の意訳というのは、原文からイメージを介して一気に生成しなければならなくて、間に言語が挟まるとどうしても一語一語の辞書的な意味に捕らわれて逐語訳になる。
素人考えなんだけど、UMLを使って「原文→UML→日本語」というのはダメだろうか?
UMLを見ていると言語を挟まないイメージで逐語訳ができそうな気がするんだけど・・・。
>>33 >逐語訳。おそらく、ほとんどの翻訳機械がこういう仕組みでしょう。
確かに、翻訳のメカニズム自体は単純なもので、後は辞書データを鍛えることに
専念するのが多いようですね。
>意訳の翻訳ソフトができれば、おそらく大発明でしょう。
そうなると、翻訳自体のルールだけのプログラムじゃなくて、人工知能みたいな
ものが必要になってくるのかも知れません。
つうか論理的な思考ができないヤシがそういうこと言うからダメなんだよ。
結局クレクレ君じゃん
つうかさ、一番の問題はアルゴリズムだから、PC板いけよ。
>>40 それは君の中間言語が間違っているだけ。
はなはだしい想像力の欠如。
>>43 中間言語の正誤はどうでもよくて、要するに2度逐語訳を繰り返すと、意味が違ってしまう可能性があるということです。
>いわゆる「中間言語」で翻訳する機械はこれに似た構造を持っているのかもしれませんね。
マイナーな言語間の機械翻訳では、英語を中間言語にする場合が多いようですね。
どこかにエスペラントを使うものもありました。ただ翻訳の精度は落ちるようなので、
翻訳専門の中間言語が必要なのかも知れません。
Linguaphile:
http://linguaphile.sourceforge.net/
>>40 う〜ん、ちょっと今はわからんな〜。
その中間言語はそもそもソフト内だけにあればいいわけだから
日本語・外国語のように文字の羅列ではなく、なにかしらの形でっ
てイメージなんだけど…。チョット保留。
>>45 そのサイトでフランス語→英語を試してみましたが、辞書がまだまだのようですね。
know, can のような単純な英語も訳せてませんでした。
ユーザが協力して辞書を豊富にしていくのかな?
>>47 辞書データはまだどれも小さいようです。
最大のスペイン語で168kb程度。
韓国語は曜日を含め数十個しかありません。
単語数自体はフリーの辞書データを何かの
商用翻訳ソフトを使って一括翻訳して
ぶち込むこともできるかも知れません。
>>39 うーん、見事に誤読されてますね。しかも肝心なところはスルーされてるし。
「タチが悪い」云々は一般論であってあなたのことじゃないですよ。
「実際に動くもの」は当然あなたが今作ろうとしている翻訳エンジンのことです。
あなたの言う
> 外部のfreeの翻訳エンジンを利用した翻訳掲示板
は問題外。
一番言いたかったことは、翻訳エンジン作りに関してあなたが今考えていることを
ひとまず形にしてみてはどうかという部分だったのですが、いかがですか?
漏れもプログラマのはしくれですが、システム作りにおいては実際にやってみないと
分からないことの方がずっと多いものです。また、具体的なアイデアというものは
具体的な試行錯誤からしか生まれないと思います。恐らくこの板には翻訳エンジンを
手掛けた人などいないでしょうから期待するだけ無駄だと思いますよ。
板違いもいいところですが、ついでなので思いついたことを書きます。
・機械翻訳や自然言語処理と題された書籍が和書・洋書ともに多数出版されていると
思います。恐らく素人がすぐに思いつくようなことはすべて書かれているハズなので
何冊か読んでみるとずっと考えが具体的になると思います。
・情報科学の分野で常識となっている多数の技術が必要になると思います。これらを
知っているのとそうでないのとでは設計や実装に大きな違いが出てくると思います。
知識処理の技術:意味ネットワーク、フレーム、述語論理、エキスパートシステムなど
人工知能の技術:探索、推論、バックトラッキングなど
コンパイラ関連の技術:字句解析、構文解析、正規表現、書き換え規則など
・原語と訳語の対応を示すもっとも基本的な辞書の他に、複数の訳語の候補の中から
文脈に合った訳語を選択するための辞書、語と語の共起関係を調べるための辞書などが
必要になると思います。また、原語の文法を翻訳語の文法に書き換えるための基本的な
ルールの他に、自然な翻訳文になるように書き換えるための多数の例外的なルールが
必要だと思います。これらの辞書やルールの作成はプログラムの作成以上に手間暇が
かかると思います。
・それなりの翻訳結果が得られるようになる頃には、恐らくプログラムのサイズは
数万行になっていると思います (どのプログラミング言語を使うかに関係なく)。
それだけの規模のプログラムを途中で破綻しないように設計し実装するのはプロでも
大変な仕事だと思います。どういう規模なのか実感できないようだと実現は難しいかも
知れません。
51 :
名無しさん@3周年:03/05/01 03:43
>>33 意訳とはいっても、原文の言語構造とその文化的背景を完全に把握した上でのことですよね?
>>1 プログラマ板へ行って、翻訳アルゴリズムの本を紹介してもらいなさい。
webでタダで見れるような情報だけでは、ぜんぜん勉強にならないよ。
Universal Networking Languageというのは面白そうですね。
http://www.unl.ias.unu.edu/unlsys/introduction.html http://slashdot.org/articles/99/10/13/0915241.shtml A Universal Networking Language for the Internet?
Anonymous Coward writes: "The United Nations University is developing a
Universal Networking Language for the Internet, which is designed to
allow effective communication between people writing in their native
languages, with automatic conversion through an intermediate Meta-language
(perhaps a precursor to Star Trek's Universal Translator.) They will be
holding a symposium on the technology on 18 November in Brussels, Belgium,
where they will publicly announce their achievement. They claim that the
initial stage of UNL will support 16 languages: Arabic, Chinese, English,
French, Russian, Spanish, German, Hindi, Italian, Indonesian, Japanese,
Latvian, Mongol, Portuguese, Swahili and Thai." An interesting idea, but
this is one of those "the devil is in the details" things. It'll be
interesting to see how/if this can work.
単なる既存の文章の「翻訳」ではなく、「コミュニケーション」という事では、
まず元の文章を自分が書く時点でUNLなりに翻訳されやすい形で書いておけば、
異例的な翻訳の難しい表現などの問題も回避されるわけです(無論、意訳を
要する例外的な表現も翻訳できるに超した事はありませんが)。掲示板などでの
機械翻訳の利用も同様でしょう。
英語やエスペラントのような言語を皆が憶え直すより、この方が世界言語
としては実用的な理念かも知れません。
>>55の書き込みで、
>>1の関心事が必ずしも機械翻訳の作成ではないと思った。
何をしたいのか基本的なことがズレてるような気がする。
ゆえに
>>54の私の書き込みは取り消します。
1で私が最初に書いた文章が不味かったのかも知れませんが、このスレは基本的に
機械翻訳というトピック一般に関する話ということで行きたいと思うのですが。
Winnyみたいに私自身が機械翻訳ソフトをこのスレで本格的に開発し完成させる、
というのではなく。無論、それが可能なら全く結構な話ですが、私個人の
用途(翻訳掲示板)としては他にフリーで使える機械翻訳エンジンがあるなら
それで十分だし、他の有能な方が他所でフリーの翻訳ソフトを作成中なら
その辞書を鍛えるなり何でもして開発を助け貢献するだけでも構いません。
上述のlinguaphileに日本語モジュールを追加するというのでも良いでしょう。
また、機械翻訳というもの自体にも興味があるので、自分自身で作成するしない
出来るできないに関わらず、本を読んで勉強するのは吝かではなりません。
ははは・・・勝手な思い込みで先走ってしまったようですね。失礼しました。
>>1 やはり、このスレッドは速やかに削除依頼を出すべきだと思います。
この板にいるひとのほとどんは機械翻訳のアルゴリズムや手法には関心がないでしょう。
このスレがこのまま進んでも
>>1に独り言と、それに他人がチャチャを入れるか、罵倒が入るだけでしょうね。
私は、板違いで立てた人間の独り言が嫌いだし、
他のひとの多くも同様の感想を持つはずです。
訂正:ほとどん→ほとんど
64 :
名無しさん@3周年:03/05/02 03:39
ニューロに変わる学習機能が確立されればそのうちC3POが出来上がるから
安心。
65 :
名無しさん@3周年:03/05/02 03:42
てか結構理論は出来上がってきてるし。
66 :
名無しさん@3周年:03/05/02 03:43
それと、なんか上のほうで色々でてるみたいだけど、
辞書式じゃダメですよ。
もうおしまい?
もうおしまい?
もうおしまい
━―━―━―━―━―━―━―━―━[JR山崎駅(^^)]━―━―━―━―━―━―━―━―━―
∧_∧
ピュ.ー ( ^^ ) <これからも僕を応援して下さいね(^^)。
=〔~∪ ̄ ̄〕
= ◎――◎ 山崎渉
72 :
名無しさん@3周年:03/06/12 19:52
☆ チン マチクタビレタ〜
マチクタビレタ〜
☆ チン 〃 ∧_∧ / ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
ヽ ___\(\・∀・) <
>>1 翻訳ソフトまだ〜?
\_/⊂ ⊂_ ) \_____________
/ ̄ ̄ ̄ ̄ ̄ ̄ /|
| ̄ ̄ ̄ ̄ ̄ ̄ ̄| |
| 愛媛みかん |/
__∧_∧_
|( ^^ )| <寝るぽ(^^)
|\⌒⌒⌒\
\ |⌒⌒⌒~| 山崎渉
~ ̄ ̄ ̄ ̄
74 :
名無しさん@3周年:03/07/28 15:52
f
(^^)
77 :
名無しさん@3周年:03/10/21 03:10
もうおしまい?
あぼーん
79 :
名無しさん@3周年:04/05/28 22:30
おしまい。
80 :
名無しさん@3周年:04/08/02 18:09
81 :
名無しさん@3周年:04/08/30 16:59
日本語を入力すると英語に変換されるソフトとかってあるんですかね?
82 :
名無しさん@3周年:04/08/30 17:07
外国語(英語除く)@2ch掲示板
sage
sage
85 :
あぼーん:2005/04/18(月) 17:59:48
あぼーん
sage
sage