1 :
◆kNLPS0eo :
02/01/26 04:51
2get
3 :
デフォルトの名無しさん :02/01/26 05:27
いいスレになるといいね
深夜は叩きがいないね。
深夜は叩きがい・ないね。 深夜は叩きが・いないね。 どっち?
6 :
◆kNLPS0eo :02/01/26 06:27
自然言語処理技術を使ったアプリケーションは、 大きく分けて 3つあると思います。 1. 自然言語データそのものを扱うもの (情報検索や機械翻訳、文書整理など) 2. ナビゲーションとして自然言語を使うもの (対話的データベース検索、チケット予約など) 3. 1.と2. の混合 (検索エンジンで日本語で質問を入力できる等)
7 :
◆kNLPS0eo :02/01/26 06:30
たとえば 1. の例としては「2ちゃんねるについて批判的な」webページを 捜す、などの非常に柔軟な条件が指定できる検索エンジンなどが あります。現在の情報検索では、このような検索には Query Expansion という 技術を用いるのが主流です (まだ実用段階ではありませんし、これでは 不十分だと考える人も多いですが)。 たとえば「2ちゃんねるについて批判的」という条件をもつ文書は 「2ちゃんねる + 引きこもり + 非常識 + クズ」などのキーワードが 使われているであろうと推測できるので、自動的にこれらのキーワードを 追加して検索すればよい、というような技術です。 また、ある文書の集合を与えると、似たような帰結を述べている 文章を全部まとめてくれる、というソフトウエアもあれば便利でしょう。 あと盛んに研究されているのは、要約ですかね。 たとえばメーリングリストの議論を追って、ダイジェストを まとめてくれるソフトウエアなども研究されています。 いずれも実用までにはまだ長い道のりがありますが、特定の分野だけに 限れば「それなりに使えるかもしれない」レベルのものはできそうです。
8 :
◆kNLPS0eo :02/01/26 06:44
2. の例は「本来は人工言語のコマンドラインでもいいが、 初心者が使いやすくするために自然言語を受けつける」というものですね。 簡単な例としては IBM ViaVoice についてくるボイスコマンドがありますが、 これは単語をただ受けつけているだけで、文章を理解することはできません。 現在の「声で制御できる」大部分の電子機器は、まだこの段階です。 たとえば SQL はもともと自然言語に近い形で検索ができるように 設計されたものですが、まだ完全ではありません。日本語では使えないし 文脈をくみとることもできません。もし自然言語での要求を受けつける データベースができたとしたら (実験段階ではすでにいくつか作られていますが)、 理想的にはたとえば次のような対話が望まれます: ユーザ「エコノミーを取りたいんだけど、来月頭にロスへ、安いやつ」 システム「ユナイテッド航空で 6万8千円の席があります」 ユーザ「もっと安いのない?」 システム「4万2千円というのがありますが、2月初頭では 3日と6日しか空いていません」 ユーザ「もしかして関空発とかじゃないよね?」 システム「羽田発です」 … また、ロボットなどに自然言語によって指令する、という 応用も考えられます。ただしロボットは制御の問題があるため、 多彩な動きができて、なおかついいかげんな指令でも壊れないような 高性能かつ堅牢なロボットをつくるのはまだ難しいでしょう。
9 :
◆kNLPS0eo :02/01/26 06:52
いずれにせよ、現在の技術では「いかにして構造をもった
文章を理解するか」という最初の段階から、まだまだ苦労が多いです。
たとえば
>>1 にあげた Juman や ChaSen などは、
新聞記事に対してはチューニングされているので
ある程度まともな結果を出しますが、2ちゃんねるの文章を解析させても
間違いだらけでしょう。形態素解析ひとつとってみても、
これですから、その先の構文解析となるとさらに大変なのが想像できます。
また、原理的には可能だが、実際に実用的なソフトウエアを
つくるとなると複雑すぎ、あるいは必要なデータが多すぎて
金がかかりすぎるというものもあります。
(たとえば莫大な予算を投入して何百人もの人を雇い、
完全な日本語の連想辞書のようなものを作れば、さきほどの
Query Expansion のような技術はかなりうまくいくかもしれませんが、
そんな資金はふつうありません)。
10 :
◆kNLPS0eo :02/01/26 07:03
また、文章の意味をどのようにとらえるかに対しては、 現在のところアプリケーションごとにその場しのぎのやり方で 解決している状況です。たとえばデータベース検索の ソフトウエアなら、人間の言語をまずいったん SQL に 変換するような仕組みをつくり、それを実行するわけですね。 これだと当然 SQL で表現できないような日本語 (たとえば 「もっと安いやつ」という文。これは前の状態を参照する 変数のようなものがないとたぶん表現できないでしょう) は 受けつけないことになります。けれどもこれを一般的にしようと しすぎると、ぜんぜんデータ構造が定まんなくてワケわかんない ことになります (自然言語の意味を一般的に表現できるような 形式的な枠組みはまだないし、あってもそんなものを プログラミングするのは大変でしょう)。 もうひとつ。人間の多様な語彙を理解するためには、ソフトウエア側が なんらかの「辞書」のようなものを持っている必要があります。 この形式に関しても議論百出ですから、現在はアプリケーションごとに こしらえているのでしょう。こういったものはとにかく作るのに手間がかかり、 人件費もかかるので、いまでは人様がデータ入力をしなくても コンピュータが web なんかから勝手に「学習」するようにしよう、 というアプローチがさかんに研究されています。けれども、 どれもノイズが多くてあまり使えません。また最近は 学習データの著作権問題をクリアーするのが非常に難しくなっています。
11 :
◆kNLPS0eo :02/01/26 07:06
>>1 なんで自然言語処理に興味を持つようになった?
13 :
◆kNLPS0eo :02/01/26 07:18
さて、まず形態素解析・構文解析の段階で問題になるのは、
日本語をふくむ自然言語のパーザは決定的ではないことです。
だから yacc などの、いわゆる人工言語用のパーザをそのまま
使って日本語を解析することは、不可能とはいいませんがその表現は
非常に限られたものになります。
一般的な文脈自由言語の解析は、たしか文の長さ n の 3乗だかに
比例していたと思いますが、正解がたくさん出力されすぎて、
これをいかに減らすかがとても重要です。たとえば
>>4-5 が
いい例を出してくれましたが、このように単純な規則を使っただけでは
ふるいきれないたくさんの正解候補が出てしまうわけですね
(通常、新聞記事レベルだと何億通りもある)。
そしてこのような場合、
>>4 の文章をどのように解釈すべきかというと、
それはもう言語の知識ではなくて、一般常識や 2ちゃんねるでこれまで
厨房を観察してきた個人的データを使って推論するしかないわけです。
結局、自然言語処理でいちばん厄介なのが、このように
いろんな知識をあらかじめソフトウエアに入れておかないと
文章の解析すらできない、という問題です。いろいろ確率的な
手法を用いてこれを解決しよう、という試みもありますが、
まだ決め手となるものはありません。そういう意味でも、
アプリケーションが扱える分野をあらかじめ厳密に狭めておくことは
重要ですね。
とりあえずイントロ的なことを書いてみました。 寝ます。
sage
自然言語処理のプログラムをすると、 すっごく日本語の勉強になるよ(^−^)
19 :
デフォルトの名無しさん :02/01/27 01:02
口語を解析できるような文法ってどっかにないの?
う言語があれば、ほかは何も要りません。
21 :
デフォルトの名無しさん :02/01/27 16:25
自分も自然言語処理やってるので期待上げ (日曜は頭が働かない…)
英語 : 1パス系 日本語 : 複数 ( 累乗? ) パス系
23 :
デフォルトの名無しさん :02/01/30 19:39
24 :
◆kNLPS0eo :02/01/31 09:36
> 誰かKNP
>
http://www-nagao.kuee.kyoto-u.ac.jp/nl-resource/knp.html > のソースを解説してくれ。わけわからん。
ぼくもわかりません。あれって結構まだバグがあるような気がする。
ときどき Segmentation Fault で落ちるし。
ああいうものを全部 C で書かれるときついですね。
STL を使えばかなりましになると思うんですが。
> 一般化NR法がよさそうな気がするが。
一般化 LR 法のことですか?
どうでしょうね。個人的には、日本語なら KNP の
ようなやり方のほうがいいんじゃないかと思います。
文脈自由文法でやるなら、ぼくはチャート法がいちばん
(実装が)楽で好きですが、LR のほうがロバストネスな解析に
対応しやすいかもしれないとは思います。LR パーザは数がすくないし。
25 :
デフォルトの名無しさん :02/02/07 02:13
やはりこのスレは落ちやすいな。残念 興味があるから盛り上がってほしい。 自分はほとんど門外漢だから適当なことを書くけど… 自然言語処理で構文解析ができたとしても、それだけでは「単語の意味」と いうものに対して無力だと思うのですよ。 例えば、「写真をとった」「ビデオをとった」というときの「とる」と、 「しょうゆをとった」「本をとった」の「とる」は判然と違うけれど、この区別ができない。
そこで考えたのだけど、 自然言語には、 名詞(主格、目的格、…)->動詞、 副詞->動詞、 程度副詞->副詞|形容詞、 形容詞->名詞、 名詞->名詞 のような修飾関係があるけれど、文法解析を行って、意味上の紛れのないもの については、この修飾関係を記録していく。つまり、「カメラマンが写真を撮影した」と いう文を解析した後、「写真」(目的格)->「撮影する」、「カメラマンが」->「撮影する」 という修飾関係が成り立ったというデータを記録しておく。
そうすると、それぞれの関係においてどの単語とどの単語が組み合わされたかの 表が得られるので、このデータを統計的に処理して、数次元程度の 位置情報として持っておく。 距離が近ければ、その関係に不自然さがないということ。 それで、意味が複数ある単語(同音異義語含む)の場合は、それぞれの 単語に、「組み合わされ方が近いと思われる」単語(複数可)を登録しておく。 例えば「写真をとった」の「とる」には「撮影する」「撮る」など、 「しょうゆをとった」の「とる」には「つかむ」「取る」などを登録して、 それらの単語の位置によって、それぞれの単語の位置を暫定的に 定めておく、というような。 あー、なんか考えまとまらない。めちゃくちゃなこと言ってるかも。
主人「ええか? ええのんか?」 めいどろぼっと「はい。ご主人様のご随意に...あっ...」 なんてことが漏れの生きているうちに実現するといいな。 ...ってクソレスだけじゃなんなので... "写真|映画"⇔"撮る" とか "(生き物)"⇔"飼う" のような使い分けの共起辞書をつくる手もあるけど、 「ボクが『うちでも動物を飼おうよ』と言ったので、パパはハムスターを‘かい’ました」 なんていう文の‘かい’が‘買い’だろうと判定するのは骨が折れるよね。
29 :
デフォルトの名無しさん :02/02/07 05:53
このまま沈下かと思ったら上がってた。
> 例えば、「写真をとった」「ビデオをとった」というときの「とる」と、
> 「しょうゆをとった」「本をとった」の「とる」は判然と違うけれど、この区別ができない。
語義の曖昧性解消というやつですね。
すこし前まではよく研究されていましたが、最近あまり聞かないような。
よくあるやり方としては、
>>28 がいうように共起辞書を用いて
ウインドウの前後数単語をみて構文解析せずに判断するというのがあります。
格まで解析するなら、よくしらないんだけど IPAL 動詞辞書が有名かな。
http://www.ipa.go.jp/STC/NIHONGO/IPAL/ipal.html
30 :
デフォルトの名無しさん :02/02/07 06:03
>>29 そういうものなら文脈(前後の語彙の関係)から推測できそうだけど、
>>4-5 のような例は意味を一意に決めることができないような
気がするけどどう?素人考えだけどさ。
やっぱちゃんとした本読まないとだめだなw。
31 :
デフォルトの名無しさん :02/02/07 06:12
> やっぱちゃんとした本読まないとだめだなw。
そもそも
>>4-5 のような状況をまじめに理解しようとすると、
「相手の考えを読む」という作業が必要になり、これはもはや
自然言語処理の範囲を超えている。
たぶん「ちゃんとした本」を読んでもそのへんのことは
ほとんど書いてなくて、ただ単に「こういう問題はむずかしい」と
書かれてあるだけだと思います。
ひじょうに限られたドメインであればそこそこ手はあるかもしれないけど、
一般的にはアプローチすら見当もつかない段階でしょう。
物を移す。 紙に写す。 鏡に映す。 そもそも同じ音なのはよくにた動作だからなのでしょう。
>>4 のような例はもともと人間でも完全な理解は無理。
「深夜は2chへの書き込みが少ない」とか「深夜は煽りを入れる奴が寝ている」
といった高度な知識ベースがあって初めて解析できる。
それは自然言語処理とは直接関係ないね。
>>33 関係ないとは言い切れないのでは?
「自然言語処理」とは字面だけを見て形態素解析することではないでしょう。
>>34 「直接」関係ないってことね。
俺のまわりだと自然言語処理とそうした知識処理とは違うもんだから。
>>33 で書いた「深夜は〜」っていう情報(知識)は自然言語処理の結果じゃ
ないでしょ?
そこまで含めて自然言語処理と括るのには違和感あるんだけど?
36 :
デフォルトの名無しさん :02/02/07 20:28
commonsenseも必要。心理学も。 数学的では自然言語は解析できない。 談話処理は音声認識(イントネーション)も絡んでくる。 「きれいな私の姉さん」 きれいな 私の姉さん(姉さんがきれい) きれいな私の 姉さん(私がきれい)
>>35 意味論も含めるとそういうコンテキスト情報も処理することになる。
とはいっても構文論にも語用論や意味論が関係せざるを得ないが…
38 :
デフォルトの名無しさん :02/02/08 07:11
>>32 そういうのってたぶん言語学で研究されてると思う。
「とる」の例でもそうだけど、無理矢理 disambiguation しようとするから
無理が生じるのであって、意味としては何か共通の認知的枠組みが
あると思うんですよ。
個人的にはそういった枠組みを形式的に扱うという試みに
すごく興味がある。認知言語学ってどうなんだろう?
NLP の分野では、Schank の Conceptual Dependency とか昔有名だったけど、
いまもってそういう研究をやっている人はどれくらいいるのかね。
39 :
デフォルトの名無しさん :02/02/08 07:18
>>34 > 「自然言語処理」とは字面だけを見て形態素解析することではないでしょう。
理想的にはそうですが、実際には今はほとんど「字面だけ」しか
みていないような気がします。。
いや、それがいいといってるわけじゃありませんけど。
>>32 それは違う。そもそも大和言葉には漢字なんて存在しなかった。
全て「ウツス」という概念だった訳。
そこに漢語が入って来て、より概念が細分化されたの。
そういう意味で日本語はかつて曖昧だった。
日本語用のフリーのシソーラスってないのかなあ。 英語にはWordNetがありますが。
43 :
デフォルトの名無しさん :02/02/09 16:26
>>42 「分類語彙表」ってタダではないけど、3〜4千円で手に入る...はず。
検索してみたら品切ればっかりのようだ。
FDで頒布がフツーだった時代に作って、それきり増産してないのかもね。
44 :
デフォルトの名無しさん :02/02/10 06:39
EDRもシソーラス作ってなかったっけ。 あれもタダじゃなかったけど。
45 :
デフォルトの名無しさん :02/02/10 06:42
前に超整理法読んだときに、 日本語のまともなシソーラスがないとか 書いてあったけど、今はどうなの? 英語には確かに役にたつのが沢山あるけど。
46 :
デフォルトの名無しさん :02/02/10 06:52
そうか! 英語のシソーラスを和訳して使えばいいんだ!
やっぱ実際にネタというか、 叩き台的システムがないと盛り上がらんですね。
48 :
デフォルトの名無しさん :02/02/18 07:47
日本語の文章解析するのに、一度英訳してから、解析させてる研究者も いるしなぁ(あ、心理でだけど)age
49 :
デフォルトの名無しさん :02/02/19 23:59
本気で開発してる人いる? 学生可。
開発? 文字列置換プログラムならうちの会社で作ってるよ。
51 :
デフォルトの名無しさん :02/03/02 16:36
なんでこの話題はいまいち盛り上がらないのだろうか。 ところで、語彙の意味マップ作成に、SOMと多変量解析があるけど、どっちが いいと思う? 2次元で、人間にわかりやすいように視覚化するという目的ならSOMなんだろうけど、 自分の考えてる目的は、単語間の組み合わせのコストを決めること。 多変量解析で10次元ぐらいまで取っても、累積寄与率はせいぜい30何%ぐらいまで しか行かないらしい。論文の受け売りだが。その論文では、累積寄与率が7-80%以上 でないと、データを正しく縮約できないとか書いてあったけど… ただ、2次元以上のSOMってのはあまり聞かない。あくまで視覚化が目的で、 その位置情報に基づいてなにかを判断するのにはあまり向いていないのか? 詳しい人教えて。
× 2次元以上 ○ 2次元より上
53 :
デフォルトの名無しさん :02/03/02 16:41
いまいち盛り上がらないのは、実質的で 目新しいトピックスがなにもない業界だからだと思われ
56 :
デフォルトの名無しさん :02/03/03 18:24
日本語の不自由な上司の日本語の構文解析をしたいのですが どうすればいいでしょうか。
>>56 その上司から得られる出力由来のタグ付きコーパスを自動生成するロジックを
開発できればノーベル賞も夢ではありません。
何はともあれ、頻出単語の切り出しからはじめてみては?
そのためには、切り出し用ロジックのたたき台にするコーパスを作成して。
(↑無限ループ)
……そんな無茶なモンが完成したとして。
応用編で「スレに適切じゃない発言」を自動的に sage る bbs.cgi なんてのも
実現可能!?
「自分好みじゃない発言」を透明あぼーんする 2ch ブラウザとかもね。
結局、自然言語処理ってそーゆーもんだと思ってる私は間違ってますか?
59 :
煽りの自然言語処理 :02/03/05 10:41
>>58 まずはあなた自身の自然言語処理能力を、
厨房レベルから引き上げることをお勧めします。
>>59 そーですね……肝に銘じておきます... m(__)m
ところで、ここにいる皆さんは、どういう経緯で「自然言語処理」に興味を
もたれたんですか?
私の場合、人工無能チャットの精度向上というのが主目的だったんですが(爆
>>60 昔から語学とコンピュータが好きだった。
珍しい組み合わせなのだろうか。
いつか、人間と同等に近い性能を持った翻訳プログラムが作りたい。
「ゲーデル・エッシャー・バッハ」を読んだせい。
63 :
煽りの自然言語処理 :02/03/06 07:27
言語にとって美とは何か、を読んだせい
人間ドラマだなぁ……。 飯の種にしてる人も多そうだ。 さて、そろそろ決算期ということで。 「予算取りのための『成果物』なんか作っといて(笑)」とか 抜かすウチの所長みたいなヒト、他でもいるのでしょうか? ウチだけ特殊だと祈りたい今日この頃。 という訳で、いい加減なモノ作ってるんですが(爆 ソース忘れたんですが、圧縮技術の研究中に(たぶんハフマン木あたり)、 「そのファイルが何語で書かれているか」がテキトーなサンプルと マッチングさせるだけで、比較的高精度に判別できるという話が あったじゃないですか。 アレのバリエーションで、その人が言いたいことが文章のどの辺に書かれているか、 という情報から誰が書いたッぽいか判別するのを作りかけていますが、 こういうアプローチって既出でしょうか? ※ビジネス文書だと「結論が先」というパターンが多すぎてうまくいきません。 改良の必要あり。 昔何かで読んだ気もするし……。
66 :
デフォルトの名無しさん :02/03/06 23:15
>>65 TDT (Topic Detection and Tracking) あたりが近いのではないかと。
もっともこれは作者ではなく、話題の判別ですが。
音声認識では、話者認識は非常に重要な問題ですね。
>>66 ありがとうございます。
・…●
話者認識といえば、FFT 通して、ある話者の声によく出てくる周波数帯から
ちょっとシフトしたところで声の特徴をつかむ、みたい研究やってるヤツも
いた気がする。同じ建家の中に(謎
現行の電話程度の音質でも使えるモノを目指しているんだそーな。
>>61 シリーズモノの邦訳版で、全8巻が8巻とも訳者がバラバラで、ある巻では
一人称が「わし」だったのが突然「俺」に変わってて萎えた過去アリ。
そういうのがなくなるだけでも、ちょっとハッピーかも?
ヒトと同レベルの翻訳が民生用まで降りてきたら……。
一昔前だったら、「ペリー・ローダンシリーズを毎週読みたい」とか
言ってたんだろうけど、最近慢性的にアレなので……。
歳、喰ったみたいです。(←なぜかショック)
脱線御免 「エコの翻訳論」って本に、 ウンベルト・エーコのバラの名前を各国語に訳した訳者の言葉が載ってる。 その中でもハンガリー語への訳者の言葉が揮ってる(笑 「イタリア語から、英語、ドイツ語、フランス語といったような "普通の言語"へ 翻訳することは、その論理がまさしくハンガリー語のそれのように絶望的な までにひどく異なる言語へ翻訳する人の仕事に比べれば、実につまらぬことなのだ。」
Time flies like an arrow.
70 :
デフォルトの名無しさん :02/03/10 23:17
>>69 自然言語処理の難しいところだね。
文法だけでは処理できない。
蓋然性のようなものを導入しないとね。
>>69 複数求められる解の中で、どこまでが正解で、どこからが間違いなのか。
数値的に厳密な境界が設定できないところがこの手の分野の面白いところ
ですねぇ。
苦しいところでもあるんですが。(←言うまでもない)
やりたいことはいろいろあるけれども、マシンパワーとの兼ね合いで、職人
芸的な「さじ加減(謎)」がシステムの完成度を左右してしまう辺り、
楽しいやら情けないやら、……。
例の慣用句にしても、「この部分は慣用表現である」と認識させるだけでも
まだまだ満足にはいかないし。
ある程度は出来ますが、辞書にない言葉をどっかからアドリブで学習してきて
サクッと解決するなんて、「インスピレーション」を実装できたら、なんて。
自然言語処理を「I/F に利用するための道具」と規定すると、相手がどういう
意味でその言葉を使っているのか、という解析が必要になって、言葉の意味を
追いかけるのに精一杯な現状では遠い夢……はふぅ……。
※どこからどこまでって、得られる解(らしきもの)に順位を付けるのも
おぼつかないのが現状ですが。
そもそも人間の言語処理がなぜ速いかというと、 「適当に聞き流している」か、あるいは 「相手の言わんとしていることが最初から想像ついてる」からであって、 言葉だけをいじって何かしようとしてもできることは限られてると思うよ。
>>73 うちの両親の場合を思いだした。
父「おい!」
母「はい」
たったこれだけで母はそのときそのときの父のリクエストに正確に応える。
あるときは新聞、あるときは手拭き、そしてまたあるときは醤油…。
あなた、と呼べ〜ばぁ〜♪
>>74 母は強いね。赤ん坊が何で泣いてるかも分かるしね。
76 :
デフォルトの名無しさん :02/03/18 04:37
>>74 発話行為 (speech act) の認識というやつですね。
相手の発話行為を認識するということは、その行動プランを
推測しているということでもあり、これは
古典的人工知能の研究テーマにもなっている。
♪あなぁ〜た ♪なぁ〜んだいっ ♪あ〜と〜はいえ〜ない〜 ふたりは若〜い〜
>>74 のようなのって「自然言語処理」なのかな?
俺の認識だと、自然言語処理というのは日本語とか英語とかの「自然言語」を
「処理」に適した中間言語に翻訳する作業。
例えば
>>74 のような例は日本語だけを完全に読み書きすることができても
処理(対応)することができない。
こうした例は、「自然言語処理」が完全にできてからの話だと思うんだけど。
適切な言葉を知らんのだが、例えば「知識情報処理」とか、そういう違う
分野の話だと考えてる。
歌うな! と言いたい。
言語学のイロハぐらいは知ってからじゃないと手も足も出ないな
>>79 でも、人間は知識情報処理があることを前堤に自然言語処理をしてるんだろ?
だからこそ、それが原因で話が通じないなんてことも起こるわけで。
人間にもできるかどうかわからない「完全な自然言語処理」とやらが、
機械にできるかどうかは怪しい。
解析的な手法では、所詮プログラム通りにしか動かないわけだからな。
ここの人は理論を組み立てたいのか、 処理系を作りたいのかはっきりしないな。
>>83 夢を語りたいんですよ(謎
ではなく。
理論的な精度向上も目指しつつ、実用的な(速度で動作しそこそこの結果を
出す)処理系も作りたいというところでは?
てゆうか理論らしい理論ってほとんどないからなあ。
>>85 業界全体で手探り状態。それが楽しいともいえ……るぞ、ムリすれば(死
いわゆる「実験室レベルで動くモノ(理論を検証するためのやっつけの
処理系)」は目の前にありますが、社会学やら心理学、あと事実上手つかずの
悪夢の素「一般常識」などで補正してやらないと、結局単なる自己満足で
終わるぞ、とウチの主幹がうめいておりました。
訂正:手探り状態というか、どっち向いて歩けばいいのかも判ってないし。
ところで、ウチの主幹の最終目標は、「俳句のコンテキストを実用的な速度で
解析できる」モノを創ることらしいんですが、ねぇ。
87 :
デフォルトの名無しさん :02/03/24 03:14
正規表現の本は必読ですか?
>>88 イレギュラーエクスプレッションが必要です。
>>88 正規表現が使える言語を1つ以上使えるようにしておくと、
なんか思いついたときにささっとコード書いて、そのままデータ突っ込んで
動きを見られるので、その点ではよいかも知れません。
出力されたデータを分析するときにも使えますし。
ともあれ、大量のデータを使ってなにかをするときには、
使えた方がラクですね。
その作業が手間かかってしょうがないタイプのもののときは特に(謎
茶筅でも使ってみたらどうよ?
字間違えた・・・茶釜ですな・・・
93 :
デフォルトの名無しさん :02/04/11 19:41
レスごとの単語の共起関係を調べると、面白い図ができあがるかもしれない。 おにぎりとワッショイは相性が良い…とかw ってのはどうでも良くて、たとえば製品のスレとかだと、その製品や企業に対する企業イメージを 図の形で抽出できたりとか。 問題は2ちゃん語は乱れすぎてて茶筅とかで分解できそーにないことだw
94 :
デフォルトの名無しさん :02/04/11 21:26
茶筅はもう限界っぽい
95 :
デフォルトの名無しさん :02/04/11 21:37
質問!LANG LABてもう古い? 東京工大の奴だけど もうないか?
age
97 :
デフォルトの名無しさん :02/04/26 23:20
knpのオプションなどを詳しく説明してほすぃい。 bnst?
うちは knp -tab。
99 :
デフォルトの名無しさん :02/05/02 23:49
>>18 ビーフジャーキー(・∀・)イイ!
たっぷり60g!
100 :
デフォルトの名無しさん :02/05/15 11:19
KNPあげ やっぱり見た目にいいのは-treeでしょ。
101 :
デフォルトの名無しさん :02/05/15 17:05
自然言語の世界でちゃんと言葉の意味を忠実に とりだすことのできる理論ってあるんですか? ちなみに私のところは確率論でやっております。
っていうか、日付めちゃくちゃとんでるじゃん。 こんな沸いてないスレあげるなよ。
103 :
デフォルトの名無しさん :02/05/15 18:05
今から参加するか・・・ 最近の自然言語解析をするプログラムは 入力の一部をデータとして蓄積していると思いますが、 どのようなデータを蓄積するのでしょうか?
104 :
ヽ(´ー`) ◆Upk7HurI :02/05/15 18:40
自然言語処理って 形態素解析→構文解析→意味解析→文脈解析 を基本としてそこから 機械翻訳、対話モデルetcなどに応用する物だと思ってるが… 現在のところ形態素、構文解析はそこそこまでいってるけど意味解析〜はまだだめっぽく 俺もまだ勉強初めてあまりたってないから詳しくは知らんので間違ってたらスマソ ところで、なんで自然言語処理関係のソフトってUNIX系の奴が多いんだろ LISPとかでつくられてるから?
105 :
デフォルトの名無しさん :02/05/15 18:41
>>104 prologもつかわれてるぞ。
述語論理の考え方をつかっているからな。
106 :
ヽ(´ー`) ◆Upk7HurI :02/05/15 19:02
>105 なるほど、サンクス 卒論で意味解析を格フレーム使って表すプログラムを引継ぎでやったが(LISP)、茶筅で形態素解析した文を ほとんどそのまま処理してたから複文とかに対応してない罠w KNPで構文解析したのを使ったら少しはマシになったがKNP自体使いこなせてない罠(;´Д`) ブラウザからの入力で処理できるようにするため現在移植を検討中 何を目的にするんだか自分でもわからん…
日本語だと、あんまり構文解析っていうほど独立したフェーズは ないんじゃないかい。ほとんどが格フレームとのマッチング処理に なるかと。それでも、助詞の代替、態による助詞シフトあたりが面倒か。 難しいのは、むしろ、複文・重文の係りの解析。
> 日本語だと、あんまり構文解析っていうほど独立したフェーズは > ないんじゃないかい。ほとんどが格フレームとのマッチング処理に そんなこたーない。 > なるかと。それでも、助詞の代替、態による助詞シフトあたりが面倒か。 > 難しいのは、むしろ、複文・重文の係りの解析。 依存解析も構文解析の範疇に入ると思うが。
109 :
デフォルトの名無しさん :02/05/27 19:39
110 :
デフォルトの名無しさん :02/06/03 18:27
KNPって分類語彙表とEDR辞書がないと動かないの?
>>104 研究室での開発は盛んだけど商品としては未熟だから。
>>111 その「研究室での開発」が、なぜWindows + Visual C++などではなくて
Unixプラットホームなのか?という質問だと思うが
なんででしょうね。
ちなみに研究室=Unixは必ずしも真ではありません
画像関連の分野ではWindowsも沢山使われていますね。
X Window Systemがヘタレだからかな
114 :
デフォルトの名無しさん :02/06/26 16:31
突然せすが、ChaSenは音声認識の補正に役立つと思う人?? 無理じゃない?ひらがな入力だときちんと解析できないし・・・
115 :
デフォルトの名無しさん :02/06/26 22:53
XML
116 :
デフォルトの名無しさん :02/06/27 02:48
114の文章を解析できませんぬ
>>116 話の流れを中断して申し訳ございませんが、形態素解析システム「茶筅」を
用いて音声認識の精度を上げることが出来ると思われる方は、こちらに
いらっしゃいますでしょうか?
単なる「音の解析」ではカバーしきれない肉声特有の発音の揺らぎを、
より意味のある文章として通用するよう補正することで、音声認識の実質的な
精度を上げることが出来ると思うのですが、「音声→母音・子音の組み合わせ
→かな(?)」の一連の処理の結果得られる「読み仮名」の羅列を茶筅に
与えて適切なフィードバックを得ることが出来るかどうか判らないのです。
茶筅に与えるデータは幾通りも存在し、またその中に正解が必ず存在するとは
限らないという条件の中で、このアプローチは果たして有効といえるので
しょうか。コストに見合う性能改善が見られるのでしょうか。
他に考えられる問題点なども合わせて、こちらにいらっしゃる皆様と意見
交換を……とか、解読している夢を見た……疲れているらしい……。
でも、個人的にはこういうネタ好き(謎
皆さん、どう思われますか?
http://www.justsystem.co.jp/voice/atok14/vtot.html 民生用ではこのあたりが限界だと思いますが、これが劇的に改善される
ようなら……夢ですねぇ。
http://ai2you.com/ocr/product/koko8s1.asp ところで、OCRとかでも同様のアプローチを取っているようですが、こちらは
もともと「漢字かな交じり文」が対象になっているわけでして、事情が
異なる、と。
118 :
デフォルトの名無しさん :02/06/29 01:21
> 話の流れを中断して申し訳ございませんが、形態素解析システム「茶筅」を > 用いて音声認識の精度を上げることが出来ると思われる方は、こちらに > いらっしゃいますでしょうか? ここにいるかどうか知りませんが、 それに似た試みはもうずっと前からみんなやってますよ。 音声認識は専門外だからよく知らないが論文も山ほど出てるはず。 形態素レベルなんかじゃなく、もっと「グローバルな」制約を入れる ということもやってる人がいるが、たいした成果は出ていない模様。 さんざ計算して、1パーセントやそこら精度が上がったって面白くもない。 > 「音声→母音・子音の組み合わせ→かな(?)」の一連の処理の結果得られる こんなことやってる音声認識システムは今どき存在しないと思いますが。 latticeからいきなり単語を出すでしょ?
……反論の余地もございません。 今回のケースでは、形態素解析に突っ込むデータを用意する部分と、 解析結果を料理する部分こそが肝といえるのですが……というか。 「形態素解析にかけられるデータをしっかり用意できてしまったら、 その後わざわざ形態素解析にかける意味が消失する」という矛盾があったり。 こんなまだるっこしいことをやるなら、まだ「音程のぶれ幅」やら 「抑揚の上下」の解析に気合いを入れる方が面白そうな気もしないでもなく。 ※PCレベルの市販ソフトでも、エンロール機能が搭載されて久しい……。 カクテルパーティ現象の実装(?)とか、「今までの話題の流れ」を 考慮するなどできるお利口さんな処理系ができてはじめて「劇的な改善」を 実感するんだろうなぁ……普通のヒトは……。 ――訂正。 それではじめてスタートラインだ。きっと。
つうか、電波っぽくて意味がわからないです。
なんか独白っぽいんだよな。 他人に何かを伝えようとする文章ではない。
122 :
デフォルトの名無しさん :02/07/01 19:53
>>106 > 卒論で意味解析を格フレーム使って表すプログラムを引継ぎでやったが
「格フレーム」とは,1960年代のフィルモアの理論ですか?
自然言語処理では,それ以降の理論言語学の研究成果は取り入れては
いないのでしょうか?
スレ伸びないね… 板違いなのか自然言語処理がマイナーなのかw
124 :
デフォルトの名無しさん :02/07/16 03:23
age
>>123 前提とする知識が多すぎて頓挫するのだろう。
形態素解析できたからって、そこから先へ繋げないといけないし。
文法木が複数出来あがったとしても、どれが真に正しいかは意味解析
しないといけないし、意味解析はまた別の分野。
ゴールをはっきりと定めないと、終わりが無い。
126 :
デフォルトの名無しさん :02/07/24 19:45
agege
うーん。対象をある特定の言語とするか。あるいは任意の言語にするか、 によっても 相当変わってくるですよね。 あとは 文法を意識せずに既存媒体から吸い上げる方向にするか、 トップダウンに ある言語学の成果を適用する形にするか。 もしくは 何でもやを目指さず、システムに解釈しやすい 簡易言語を想定して作る、ってのも ありですよね。 #音声認識はここかな。 要は、単語ひとつとっても、知識体系としてスカスカで、 つまりその概念が出てくる頻度が とっても少ないけど、 基本的な概念。っていうのがあるわけです。 つまりその単語の意味が分からんと文の意味がさっぱり、 っていう。 そういうのを ぜーんぶ網羅しなければいけない時点で かなり萎えてしまうものです。
文化系は使えねーからなぁ。
129 :
デフォルトの名無しさん :02/08/18 04:02
ある程度までいかないと、 応用が効きにくい分野だな。
130 :
逝って良しの1 :02/08/18 04:13
「文系」は文化系の略じゃなく人文系の略じゃ
>狭義には、社会科学に対し、文化科学の意。歴史、文芸、言語などに限定される。じんもんかがく。
133 :
名無しさん@お腹いっぱい。 :02/09/15 23:56
134 :
nobodyさん :02/09/17 14:11
<age>
言語学板の意味論のスレッドは門外漢にとっては難しいね。
自分は自動要約の研究を行っておりますが,非常に評価が難しいです. 唯一の正解要約なんてないっつーの.このような悩みを持っておられる 方はいますか?
評価の方法は自然言語処理にとってもっとも深刻な悩みのひとつです。 評価するのにめちゃくちゃコストがかかったりして、 そのくせまともな評価方法なんてあるわけないし、 といいつつ、なんとかして定量評価しないと学問として進歩しないし。
関連で(ある意味)最も普及しているインスタント要約技術。
ttp://www.searchdesk.com/view/vptc323.htm 形容詞が多く係る名詞・動詞を重み付けするとか。
話の流れが変わる場面で良く出る言葉の前後を考慮してみたり。
いろいろやってはみたモノの、冗談半分で作った「漢字とカタカナ以外の
文字を薄めの色にして流し読みする」ツールの方が使えてしまった過去あり。
これの応用で、重要っぽい単語だけゆっくり目に読み上げる音声ブラウザ、
というのも作りかけたけど、諸事情でなかったことになっています。
# どこの人間か、ばれるかも?
139 :
◆99fK0tjR.Y :02/10/04 21:58
定期あげ
140 :
デフォルトの名無しさん :02/10/04 23:04
形態素解析って 辞書がダメだと ダメなの?
HSP 最高!
日本語はへf何ができるの亜
↑たった今、言語障害の方が紛れ込みました。 意味をとってレスしてあげましょう。
話は変わるけど、WWLの翻訳ってうまくいきそうなんですか?
146 :
デフォルトの名無しさん :02/11/02 18:55
鯰
C 以外は糞
自然言語処理よりも自然言語のセオリーの方が楽しくなってしまう罠。 言語学って面白いのね。ってまだ入門書読んでる程度だけど。
>>149 杓子定規の決まりなんて初めから無い、得体の知れないものに法則を見つけていく
という遊び、ですから。(←いいすぎ)
ちょっと昔にブームになった「複雑系」と(略
151 :
デフォルトの名無しさん :02/11/26 13:50
152 :
デフォルトの名無しさん :02/11/27 07:38
>>151 >>1 あとは本。
それか、それっぽいのをやっている会社に無理矢理入り込むか。
……いえ、私がそうだとは言ってませんよ?
154 :
デフォルトの名無しさん :02/11/27 20:30
どこの会社でやってんの?
ジャストシステムのconcept baseとか? ああいったもの作ってるところに入るのがいいだろうね。
156 :
デフォルトの名無しさん :02/11/28 03:02
157 :
デフォルトの名無しさん :02/11/28 15:04
>>122 一応、LFGとか実装してる人はいるみたいだけど、
理論言語学の理論って実はあんまり役にたたないというのが
ここ10年くらいの自然言語処理の流れかな。
(そろそろ変わってくるかもしれんけど。)
言語屋が「人間が解析するに値する特殊な(おもしろい)言語現象」
を好むのに対して、計算機屋が「機械で解析できる&機械で
解析する必要のある『大量の平凡な言語現象』」を対象にしてるから、
あまりかみあわない。
まえにNHKスペシャルでGoogleなんかといっしょに、 語用論データベースみたいなの作ってる企業紹介してたけど どうなったんだろう?ITバブルといっしょにどっかに飛んじゃったかな?w
viaVoiceとか音声認識ソフトって使ってる人いる? ちゃんと実用になってるのかな。 あれって形態素片への分解とか関係あるよね。
保守
携帯から記念カキコ(>.<)ナノ
>>157 裁判上不利になるから、大きいところではもう無理だろうな。
だから2ちゃんでいい、という帰結もまたおかしいけれども。
これからは、IPが裁判で提出されるのが常識になりつつ、
それ以外の局面でどうIPが守られているか、とか
どれだけシステム上の信頼性があるか、とかが掲示板の人気に影響しそう。
167 :
デフォルトの名無しさん :03/01/09 16:19
======2==C==H======================================================
2ちゃんねるのお勧めな話題と
ネットでの面白い出来事を配送したいと思ってます。。。
===============================読者数: 138720人 発行日:2003/1/9
年末年始ボケがそろそろ収まり始めた今日このごろのひろゆきです。
そんなわけで、年末に予告したIP記録ですが実験を開始しています。
「2ちゃんねる20030107」
こんな感じで各掲示板の最下部に日付が入ってるんですが、
20030107以降になってるところはログ記録実験中ですー。
んじゃ!
────────────────────────Age2ch─
■この書き込みは、Age2chを使って配信されています。
────────────────────────────
Keep your thread alive !
http://pc3.2ch.net/test/read.cgi/software/1041952901/l50 ────────────────────────────
2003年1月9日より 計2731票 匿名性に絡む問題なので反対 27% 763 票 サイトのためになるから賛成 54% 1489 票 利用しないから関係ない 8% 242 票 2ちゃんねるってなに? 4% 122 票 アクセスログってなに? 4% 115 票 みんないい香具師がおおいのか?
>内容証明が届いて、すぐに削除したら、賠償はしなくていい気が。 それはそのとおりでしょうねぇ。 ・内容証明が届いて、名誉毀損の書き込みがあることを知りえた ・その日から起算してン日間書き込みを消さなかった ・その間のン日間は名誉が毀損されたことによって被害が発生した ということを「裁判所が認めれば」負けちゃうんじゃないかなぁ、、 >んだったら、IP取ってない板で、自分で自分を中傷して、 >すぐに裁判すれば賠償金が取れるってことになっちゃう、、 そのとおりじゃないすかねぇ、、 掲示板の持ち主がけんすうさんだという前提でいうと、 その中傷発言が自作自演かどうか、けんすうさんにも判断できないん だったら、けんすうさんが責任を負わないといけないという判決ですよね。 しかし個人の中傷発言だったら最初から消せばいいのでは。。
>内容証明が届いて、すぐに削除したら、賠償はしなくていい気が。 それはそのとおりでしょうねぇ。 ・内容証明が届いて、名誉毀損の書き込みがあることを知りえた ・その日から起算してン日間書き込みを消さなかった ・その間のン日間は名誉が毀損されたことによって被害が発生した ということを「裁判所が認めれば」負けちゃうんじゃないかなぁ、、 >んだったら、IP取ってない板で、自分で自分を中傷して、 >すぐに裁判すれば賠償金が取れるってことになっちゃう、、 そのとおりじゃないすかねぇ、、 掲示板の持ち主がけんすうさんだという前提でいうと、 その中傷発言が自作自演かどうか、けんすうさんにも判断できないん だったら、けんすうさんが責任を負わないといけないという判決ですよね。 しかし個人の中傷発言だったら最初から消せばいいのでは。。
え、だからどの時点の話?>けんすう ISP責任法施行後は削除依頼以後7日間の猶予で消せばOKだから 裁判までにならないと思うんだけど
ますます管理が難しくなるな。でかくなればなる程。
その具体的な理由として社長は、こう話す。
「2ちゃんねるはボランティアの削除人が書き込みをチェックして、
好ましくない書き込みを一所懸命削除している、
ということになっているが、あれはウソ。
削除人には給料が支払われ、その給料の原資となっているのが、
まずいことを書き込まれた企業が削除要求とともに渡す裏金。
これはまさに、総会屋の構図そのものだ。
これまで裁判になっているのは金額で折り合えなかったり、
裏金を出さない強い態度の企業とだけだ」
http://memo2ch.tripod.co.jp/article.html
鯖に負担をかけてみるテスト。  ̄ ̄∨ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ∩15∩ (´ ・ー・ `)
殺人予告でもせん限りIP取られてどうなるもんでもねぇだろ。
あけおめなのです。フフフ
>今は匿名掲示板の悪い面ばかり目立っているが あなたの意見には大体賛成なのさ。大体ね。 俺は↑が今の問題なんだと思うけど。2ちゃんもシャレにならない位 巨大化してきてるわけだし、ただの掲示板ではなくなりつつあるわけだし IP抜かれながら、法に触れない程度の書き込みをして遊ぶ、 それでいいんじゃねいの?
>>650 ま、チャンスといえばチャンスだからな。大変なんでしょう。
421 名前:三毛 ◆MowPntKTsQ 投稿日:03/01/10 00:18 ID:McoZGeeY
普通、ノートンが反応するような代物をむざむざ開く莫迦はいないだろ。
では、君のお薦めのソフト教えてよ。
あ、それと、そんなもの貼った意図も併せてね。
423 名前:g056137.ppp.asahi-net.or.jp 投稿日:03/01/10 00:20 ID:6BZCtvnU
これ
http://pc.2ch.net/test/read.cgi/sec/1036482812/ 意図。
風に吹かれて、かな。
今ちょっと色々試してる。
具体的に 今後はどんな 書き込みをしてるとまずいんでしょうか?
さっき、名誉毀損についてググりました。 それによると、事実を指摘するだけでも、名誉毀損になるとありました。 解説によれば、誰でも少しくらいの嘘で名誉を維持してるから、 例え事実であっても、名誉を下げるような事はまずい、っと言うような ニュアンス。 もちろん、本当に犯罪行為なら別でしょうけど、事実でも言っては ならないことがある、ということなんですね、納得。 確かに、本当に馬鹿でも、馬鹿とは言われたくないですね。
======2==C==H======================================================
2ちゃんねるのお勧めな話題と
ネットでの面白い出来事を配送したいと思ってます。。。
===============================読者数: 139038人 発行日:2003/1/10
なにやら、連日メルマガだしてるひろゆきです。
そんなわけで、ログ記録実験ですが、いちいちサーバ指定するのが面倒なので、
全部のサーバに入れてみました。
重くなって落ちたりしてもご愛嬌ってことで。。。
んじゃ!
────────────────────────Age2ch─
■この書き込みは、Age2chを使って配信されています。
────────────────────────────
Keep your thread alive !
http://pc3.2ch.net/test/read.cgi/software/1041952901/l50 ────────────────────────────
似非リーさん、縦読みですよ。 あんたやっぱりかわいいな。 しかし、正直「まだ取ってなかったのか」ってのが俺の感想。 いいんでねーの?どうせ運営にしか接続元なんてわからねえんだから。 その運営側がキモイわけだが。
実名も顔写真も載せているのでNGです。 先日やっとウザいストーカーを抹殺したばかりなのでこれ以上近寄る人が 増えるのはイヤです。
IP取られても表示されなきゃとりあえず漏れは気楽なんだよな。。。 掲示板で管理人がIP公開する危険性と、匿名掲示板で実は管理人がIP取ってる危険性は 同じようなもんだし。 そっか。スレ保持人にも匿名性をもたせるのかな。 で、スレ本体がキー並に流通して持続可能性を持ち始める、と。 そこまで逝けばカナーリアングラな代物の完成ですね。 っていうか、怖いな。
407 名前:ひろゆき ◆3SHRUNYAXA 投稿日:03/01/10 20:32 ID:jWxHxvti >各板のTOPに一定期間、お知らせみたいに貼ってたら? テストの結果次第でこのまま運用が続いたら書くかもです。 415 名前:ひろゆき ◆3SHRUNYAXA 投稿日:03/01/10 20:33 ID:jWxHxvti 羽田タートルは、仮処分の裁判を3回やってます。 つきあいきれません。 414 名前:心得をよく読みましょう 投稿日:03/01/10 20:33 ID:zU0biOqb 荒らしの追い込みはやらないですか? 以前、マァブがひろゆきにOK貰ったら追い込みたいといっていたけど 420 名前:ひろゆき ◆3SHRUNYAXA 投稿日:03/01/10 20:34 ID:jWxHxvti 追いこみ、めんどくさいんだよねー。
いまだにネットの匿名性を信じてる馬鹿が多すぎ、、、、。 ハッカーでも警察につかまんのに、普通にネットにつないで IPをネット上にばらまいてる奴なんて、本気でそいつの 住所や名前を調べようと思えばすぐばれます。
当然含まれるかと思われ。
凄ぇ………OSはNT系ですよね………?
あなたがわたしにくれたものー 便所に似ている掲示板
ペン字講座
2002年2ちゃんねるアニメランキング1位のアニメに・・・・ モナーが出演決定!!!!!!!!!!!!!!!!!!!!! <<放送時間>> 1/12 大阪 テレビ大阪 (日)9:30〜10:00 東京 テレビ東京 (日)9:30〜10:00 名古屋 テレビ愛知 (日)9:30〜10:00 福岡 TVQ九州放送 (日)9:30〜10:00 札幌 テレビ北海道 (日)9:30〜10:00 岡山・高松 テレビせとうち (日)9:30〜10:00
コピペ荒らし一覧わろた
そう!ひろとしは偉い!!
IP取得開始前の過去ログが晒されたら、またその時点で侵害行為発生じゃん。 で、書き込み者が特定できないから云々・・となると思うが・・・。
嘘はついていないんだろうけど…。(;^ ^
(^^)
4nd・・(ププッ
(^^)
202 :
デフォルトの名無しさん :03/01/17 20:31
ここは自然言語処理のスレッド… だよな?
俺今大学4年で今年ずーっと人工知能の開発ってテーマで一人 頑張って研究してました。所属した研究室が自律分散システムの場所だったんで 最初なんかエージェント作ってとか言われたけど、無理言ってこのテーマに。 って当然完成しませんでしたけど。開発はWindows2000とVB6.0を使ってやりました。 データベース(これはAccess形式のファイル使いました)に単語をとにかくぶち込みます。 それで何か解析したい文章を与えるんです。 与えられた文章はデータベースにある単語全てを使って総当りに検索していきます。 この時点でダメプログラムと思うんですけど、良い方法が思いつかなかった。 なんでかって言うと未知の単語(or文)も抽出したかったから。 見つかった単語があると、単語の次にある語を次は修飾関係がどうなってるか これまた検索(これは総当りでも大した量じゃないから速い)。 その結果を主語、動詞、等にわけて簡単な解析を終わり・・・って時点で終わってもた。 難しい文章でなければ構文解析はなんとかなりそうなんだが、コンピュータから の返答文を作るのが全然アイデアが思いつかなかった。 人間で性格っぽいのを作るべきなのかなってのは分かってきたが、いざソースを 書くとするとどこから手をつければいいのか全く分からず・・・。 あと音声入出力はViaVoice使えば良さそうだったけど試せなかった。
204 :
デフォルトの名無しさん :03/01/18 09:19
自律分散システムってもしかしてM研? ま、それはいいんだけど、既存の形態素解析・構文解析の方法を すこしは知っといて損はなかったと思う。未知語に関してはいっぱい研究されてる。 基本的なアイデアはどれも大したことないが。 カタカナ語とかは「読みとばし」でもたいていうまくいく。 でも実際には構文が解析できれば終わりってわけじゃないんだ。 意味表現としては、古典的な手法だと一階述語論理もどきのものを生成させる。 んで、コンピュータからの返答も述語論理を使うわけだ。 つまりエージェントとのインターフェイスはすべて述語論理でやって、 自然言語はそれの翻訳、という解釈にするわけよ。 そうすると返答文の生成なんかもわりとすんなり設計できる。 いくつかの層に分けて表層を生成し、それを自然に見えるよう 最適化すればよい。適度に省略させたり、代名詞を使わせたり。 しかし自然に見せるには結構難しいんだな、これが。 そのへんも研究はかなりされてるはずだが鳴かずとばすだね。 ちなみに人間の性格っぽいというのが何を示しているかは不明。 人間っぽさを出すためには文脈解析とかまた別の戦略が必要になる。 音声が入ると、構文解析はずっと大変になるだろう。 人間は流暢に喋らないからね。喋ってる途中で文を変えたりするし。
自然言語処理についてのおすすめの本とかありますか?
>>66 TDTについて詳しく知りたいんですが、どういった物なんでしょう?
もうすこしレスしときますが、この手法は日本語でもかなり使えます。 安直な方法なら perl で 100行ぐらいで実装可能です。
(^^)
英語苦手だが がんばってみるか…
211は簡単な形態素解析をやってるかもしれないね。 試しに色んな文章入力してみたけど、複数の単語を扱える人工無能っぽい。
俺には100行で実装なんて無理ぽ
どこの会社でやってんの?
>>211 ひまつぶしにいいな。冴子センセよりもセンスいいぞ。
入力:チワフルに会いたい
答え:ごめんなさい。デートはできませんが、
「さやかのさわやか相談室」へメールを送って頂ければ、
さやかが親身にお答えします。
>>205 わすも、入門書教えて欲しい。
っていうか、「最低これくらい読んでねぇと話かみあわないじゃん」の本。
Windowsで言うと「ファーストステップガイド」だな。
連続カキコ&遅レスすまぬ。
>>141 >辞書がダメなら
>ダメだろ。
形態素解析に限らず、辞書作成にかかる人手を軽減するための研究はどこかでやってる?
今時ならWeb上の掲示板の巡回とか、ViaVoiceにNHKのニュースを聞かせるとかするだけで
結構なネタは集められると思うが、人手をかけるにはカネと時間がかかりすぎるよな?
googleだって、ヒットしなかった検索ワードをじゃんじゃん溜め込んでるんJARO?
ガイシュツだったらスマヌ。
220 :
デフォルトの名無しさん :03/02/08 05:39
>>218 James Allen の "Natural Language Understanding" をおすすめします。
自然言語のほとんどの研究はこれと Manning, Schuetze の
"Foundation of Statistical NLP" でカヴァーできる。たいていの研究者・学生は
これで学習。日本語のは探すだけ無駄。FSNLP はいま読んでますが、いいですよ。
あとは最近はやりの SVM 関連をおさえておけば完璧ってとこじゃないかな。
>>219 > 形態素解析に限らず、辞書作成にかかる人手を軽減するための研究はどこかでやってる?
そんなのどこでもやってるよ。辞書の自動構築にしろ、シソーラスの自動構築にしろ
すでに何百と論文が出てるし、おまけに毎年増加中。LRECなんかほとんどそればっかりなんじゃないの。
もう単一の言語での研究はほぼ飽和状態になってて、いまは多言語に対応した
辞書やシソーラスにテーマが移りつつある。あと、スラブ諸国のマイナー言語をどうするかとか。
> 今時ならWeb上の掲示板の巡回とか、ViaVoiceにNHKのニュースを聞かせるとかするだけで
> 結構なネタは集められると思うが、人手をかけるにはカネと時間がかかりすぎるよな?
これはね、みんなやりたくて仕方ないの。
だけど権利関係がとにかくうるさいんだよ。そうやって作った辞書があっても
公開できない。学術研究目的でもダメ。
NHK はニュース関係の音声をがっちりガードしてて他に使わせないことで有名。
新聞関係もかなり固い (朝日とかね)。かといって、2ちゃんねるみたいなところを
巡回しても大量のゴミが集まるばかり。
いまの自然言語処理でネックなのは、技術よりそういうしがらみ関係で
十分なリソースが使えないこと。だから、権利フリーのテキストとかあると
みんなすぐ飛びつく。でも、数が圧倒的に少ないうえに品質ばらばら。
Google は…あれはたぶんいつか訴えられるんじゃないの? とオレは思っているが
あのぐらい大企業になればいい弁護士がいるんだろう。結局はカネだよ。
222 :
デフォルトの名無しさん :03/02/08 10:18
>>221 題名を省略して書いてました。スマソ。Amazon での検索結果は以下のとおり。
これで $70 はお買得だと思う(used なら $50 ぐらいで買える)。
Foundations of Statistical Natural Language Processing
by Christopher D. Manning, Hinrich Schutze
List Price: $70.00
Product Details
* Hardcover: 620 pages ; Dimensions (in inches): 1.80 x 9.31 x 8.15
* Publisher: MIT Press; ; 1st edition (June 18, 1999)
* ISBN: 0262133601
* Average Customer Review: 4.7 out of 5 stars Based on 9 reviews. Write a review.
* Amazon.com Sales Rank: 32,938
> その割に漏れみたいな素人が辞書を手に入れられないのは、
カネがあれば素人でも買えますぜ。
もっともアカデミック利用でウン十万円という代物ですぜ (商利用だとさらに1ケタ増)。
http://www.ldc.upenn.edu/ や
http://www.iijnet.or.jp/edr/ みれ。
権利がからんでて表に出せないのもあれば、単にケチなだけのところもある。
ところでフリーの IPAL や ICOT 辞書 や WordNet はとーぜん知ってるんだよね?
たしか Juman は ICOT、Chasen は IPAL を使ってるんだっけか。
あと、まともな辞書ができないのはメーカーや大学が自分達のをカコって表に出さない、
という理由もあります。それほど辞書は重要だということです。
>>222 (・・・Manning, Schutze て姓名でなくて共著かよ・・・)
たすかったなりよ。usedは.comだな。
>ところでフリーの IPAL や ICOT 辞書 や WordNet はとーぜん知ってるんだよね?
不治痛のbreakfastに付属くらいしかしらぬ。どっかで毎日新聞を元にしたやつの値段みてあきらめた。
ので、素直にthnx。
しかしIPALの
http://www.ipa.go.jp/STC/NIHONGO/IPAL/nyuushuhou.html は配布してるフリだけで確か死んでたぞナ。前に調べたときがっくりきた。
ツテがあったら、言っといてちょんまげ。
まぁ処理系実装にまで手が出せんねぇ。メカブが熟成されるまで待つとしよう。ガンガレ、めかぶ!
224 :
デフォルトの名無しさん :03/02/08 21:58
去年のCOLINGでチュートリアルを担当していた、D. Jurafsky も自然言語処理の本を出しています。 Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition (Prentice Hall Series in Artificial Intelligence) Dan Jurafsky (著), James H. Martin (著), Andrew Kehler (著), Keith Vander Linden (著), Nigel Ward (著) U.K. 定価: £35.99 価格:¥7,066 ------------------------------------------------------------------------ この本を買った人はこんな本も買っています *Foundations of Statistical Natural Language Processing Christopher D. Manning (著), Hinrich Schutze (著) *Natural Language Understanding James Allen (著) *Spoken Language Processing: A Guide to Theory, Algorithm, and System Development Xuedong Huang (著), その他 *Statistical Language Learning (Language, Speech and Communication Series) Eugene Charniak (著) *Statistical Methods for Speech Recognition (Language, Speech, and Communication) Frederick Jelinek (著)
225 :
デフォルトの名無しさん :03/02/08 22:42
>>224 書籍紹介まいどおおきに
せっかくやけど、そんなにたくさん買えまへん。えらすんまへん。
226 :
デフォルトの名無しさん :03/02/11 17:47
227 :
デフォルトの名無しさん :03/02/12 09:23
>>220 > NHK はニュース関係の音声をがっちりガードしてて他に使わせないことで有名。
> 新聞関係もかなり固い (朝日とかね)。かといって、2ちゃんねるみたいなところを
>>221 > ちゅうことだな。NHKの件はコイズミのジュンちゃんにメール出しとくよ。
官邸からは型にはまった返事が来たゾ。たぶん自動返信ダナ。
NHKからの回答はまだだ。もうちょっとマテクレ。
新聞関係は
http://www.pressnet.or.jp/info/kenk19971100b.htm ↑にもあるように、著作権法にすがってるな。ミッキーマウスと同類だな。プッ。
報道機関が官権にすがるとはな!
228 :
デフォルトの名無しさん :03/02/12 13:10
ただ著作権といってもどのへんまでが侵害になるのかは 実はあいまいで、よくわからない。 辞書を作るとかだと、もとの記事の内容がわからなければ 著作権侵害ではないという見方もある。よくわからん。
あえて日本語の本を挙げときます.そんなに悪くないと思いますけど.
長尾 真(編)「自然言語処理」岩波ソフトウェア科学
私は
>>220 さんが挙げていた本は読んだことありませんけれども.
また SVM (Support Vector Machine?) は自然言語処理でそれほどまで中心的な
話題なんでしょうか.
> また SVM (Support Vector Machine?) は自然言語処理でそれほどまで中心的な いいえ。ただ一部で流行ってるというだけです。 いま学会に論文だすとウケるという程度。
>>229 素直に、すぐそこthnx。でも、注文する前に逝ってクレー。
ちなみに、
岩波講座ソフトウェア科学 (15)長尾 真 (編さん)
ISBN: 4000103555
これのこと?
>> 232 > でも、注文する前に逝ってクレー。 スレを見つけたばかりだったので,許してクレー. 本はそれです.「講座」が抜けてた. >> 230 なるほど.ありがとです. パターン認識の基礎的な研究がされると,それを利用した研究があちこちでされるのですね.
YPSを語るスレはここですか?
ipal動詞辞書のDIVって意味素性は、なんの略なんでしょか?
>>226 やっと届いたにょ。これから詠む。
ぱらぱら眺めた感じだと、プログラミング言語のコンパイラ関係の本に似た感じの印象を受けた。
当然と言えば当然か。
オントロジーとかセマンティックネットワークとかやってる人いる?
DAML+OILって何がいいの?
オントロジーって誰が結局作るの? あれを自動生成するような方法なんてあるの?
242 :
デフォルトの名無しさん :03/03/16 17:41
こさかな先生がいつの間にか復活していた、age
243 :
デフォルトの名無しさん :03/03/16 17:46
>>241 分野ごとにクラスタリングされたコーパスから自動生成できないかな?
要は、概念間の関係を抽出できればいい、のかな?
245 :
デフォルトの名無しさん :03/04/03 20:05
隠れマルコフモデルってどうなの?
南瓜の話って出てきませんね。
(^^)
248 :
デフォルトの名無しさん :03/04/18 16:40
形態素に切り分けるのにすら 意味論が入ってきちゃってる自然言語ってどうやって 切り分けるの?
統計を使う。
∧_∧ ( ^^ )< ぬるぽ(^^)
∧_∧ ( ^^ )< ぬるぽ(^^)
ある程度の自然言語処理をサーバができれば山崎渉も阻止できるんだろうけどねぇ。
いや、自然AA処理もできるようにならんと、AAが全部蹴られかねない。
ム板ではAA蹴りもアリでいいんじゃ?ってのはいいとして。 その辺は画像処理とパターン認識の方向だよね。 あ、台詞なんかついてるのはあれか。
256 :
デフォルトの名無しさん :03/04/22 03:11
別分野の研究者なのですが、 自然言語処理の世界でのおおまかな動向を把握したいと思っています。 見ておくべき雑誌等あれば教えていただけないでしょうか? 国内の研究会報告は NL, NLC, SLP くらいをざざっと見ています。
国内はどこもたいしたことないです。
せいぜい、日本語のように単語区切りのない言語の処理が、やや得意かな、というレベル。 ま、それでも十分なんだろうけれどね。
もちろん洋雑誌で構いませんので教えていただけないでしょうか。
260 :
デフォルトの名無しさん :03/04/23 00:02
雑誌ならComputational Linguistics. といっても、雑誌よりはProceedingsのほうがいいのでは? ACLとかCOLINGとか。
どうもありがとうございます。 幸い Computational Linguistics も ACl, COLING の proceedings も 近くにあるようなので良かったです。
262 :
デフォルトの名無しさん :03/04/27 12:38
> ACLとかCOLINGとか。 ACLは、7月に札幌で大会があるね。
自然言語処理するロボットってあるの?
264 :
デフォルトの名無しさん :03/05/15 22:17
[PDF]ソフトウエアロボットの行動を制御する ... ファイルタイプ: PDF/Adobe Acrobat - HTMLバージョン ... 行きすぎ」 * 本研究であつかう言語現象 ? 省略 (elipsis)「 (馬は ... 進行中の ゴールに関する情報を保持する ? ユーザの発話をうけて作成・修正する * 本システムで使用する意味表現 ? 格フレーム構造 [Fillmore, 75] [Ringland, 88 ... tanaka-www.cs.titech.ac.jp/~euske/ study/thesis00/shuron000208.pdf - 関連ページ
>>264 ありがとう.でもソフトウェアエージェントの制御か...
実ロボットで言語を理解する(ふりをする)ものは無いものかな.
tanaka-www.cs.titech.ac.jp/pub/kairai/index-j.html
>「傀儡 (かいらい)」とは、自然言語によって仮想空間上のソフトウエア
> ロボットを制御するシステムです。
∧_∧ ピュ.ー ( ^^ ) <これからも僕を応援して下さいね(^^)。 =〔~∪ ̄ ̄〕 = ◎――◎ 山崎渉
保守
モキュ
269 :
デフォルトの名無しさん :03/06/30 23:04
ドイツ語だと ich habe du hast er hat wir haben ihr habt sie haben こういう格変化を語根辞書と変化表だけから 認識して形態素解析するのはどうします?
>>265 大阪大の白井良明先生のところで実ロボット使ってやってるみたいだよ。
後は早稲田の小林研とか。
このスレを読んでる人にとって勉強になるような2chの板とかスレッドはありますか?
学問・文系の言語学板
273 :
デフォルトの名無しさん :03/07/11 23:32
札幌で開催されているACL2003に行った。 この分野の学会では、相変わらずMacユーザー が多い。Nancy IdeのPowerBook G4 17 inch を使っていた。参加者に渡されるバッグも PowerBook G4 17 inchがちょうど入るサイズ。
__∧_∧_ |( ^^ )| <寝るぽ(^^) |\⌒⌒⌒\ \ |⌒⌒⌒~| 山崎渉 ~ ̄ ̄ ̄ ̄
保守
どうして自然言語処理に関する研究に携わってる人は 自然言語処理に対して悲観的なのですか? 理由は大体分かるけどさ
279 :
デフォルトの名無しさん :03/07/17 15:07
悲観的?んなこたぁない。
>>278 おれは悲観的じゃないよ。
ただ、言語って知識であり、人格なのよね。
これを取り除くとプログラミング言語と変わらないのだと僕は思う。
日常というプロトコルを実装するだけの言語でしかなくなる。
そういうわけで俺は旅に出た。
はじめに言葉があった 言葉は神とともにあった 言葉は神であった 神のコンテクストを分析してください
(^^)
(⌒V⌒) │ ^ ^ │<これからも僕を応援して下さいね(^^)。 ⊂| |つ (_)(_) 山崎パン
age
age
286 :
デフォルトの名無しさん :03/10/28 02:48
JUMANの由来ってなんだろう ちゃせんならわかるんだけど。
287 :
デフォルトの名無しさん :03/12/02 17:57
「フィラー」はどういう綴りですか?
あー,んー? えーっと,多分"filler"じゃないかなー. あーどうだろう・・んー.
>>288 filler のようですね。
サンクスコ
290 :
デフォルトの名無しさん :03/12/16 01:41
292 :
デフォルトの名無しさん :04/01/11 00:32
もうすぐ研究室に所属して、研究を始める予定の者です。 指導教官とは話をしていないのですが 自分は 2ちゃんねるから流行語を発見するアルゴリズム の研究をしたいと考えています。 ウマーとか、乙カレー みたいな一般にはないような言葉で、 なおかつ、流行っている言葉を 抽出できたらいいかと考えています。 なにかアドバイス等ありましたらお願いします。
それだけならすぐ出来ちゃうのであまり面白くないような。 何をするか決めるのが研究の半分のようなものなので、せいぜい悩んでください。
294 :
デフォルトの名無しさん :04/01/11 13:02
>>293 簡単に出来ないだろ。
まず、2chのデータを形態素解析する事が難しい。
抽出だけじゃなくて、意味が推定できた方が面白いような
>>292 むしろ流行語の発生から拡散の経緯を発見するアルゴリズムを作ったら。
297 :
デフォルトの名無しさん :04/01/11 17:44
まずは抽出ができないと 意味も拡散もわからない。
日本語は形態素片にするだけで一苦労する。 LISPで言うとS式をreadで読みこむ段階。
>>4-5 の様に、文脈で切り出し方も変わる。
ここでいつ始められるとも限らない意味解析まで
決定を保留する必要が出てくる。
保留が無意味なら統計で適当にぶった切るしかない。
苦労の割に報われない仕事だ。
全角カタカナ・平仮名、漢字、アルファベット、数字、半角カタカナ、句点・読点、
記号、URL で分けるだけでも
>>292 みたいな事出来ないかな。
あとは 2ch 自体の分析で。
-- レスの解析
記号が連続する場合は AA
文字数が多い場合は長文コピペか縦読み
>>1 が入るレスは罵倒系か、乙か
-- スレの解析
スレ内リンクが多い場合は議論系のスレ
一行レスが多い場合はネタ系のスレ
-- 対象の拡大
同じ単語がスレ内の複数のレスで反復されていたり、半角かな文字の部分は何らか
のキーワードである確率が高い。それを板内、カテゴリ内、2ch 全体、2ch 以外
(Google とか、Yahoo! 掲示板とか)でも頻度統計を出して、、、みたいな。
まぁ自然言語処理の範疇なのかは分からないけど。Google 等の検索エンジンの
検索結果を使うってのは面白いかも。真面目な Google Whack みたいな。
301 :
デフォルトの名無しさん :04/01/12 15:37
質問です。 英語文書をmecabなどで特定単語の出現頻度などを しらべ、文書の特徴を計測する事を行いたいのですが、 英語特有のtoとかtheなどの文書の特徴を表現するのに あまり関係ない単語をフィルタすることを行うツール ってないでしょうか? mecabやchasenにデフォルトでついてます?
単語切り出しを形態素解析に頼るしか知らない294のいるスレはここですか? 頭古すぎ。
>>301 ??自分でフィルタすればいいんじゃないの?
304 :
デフォルトの名無しさん :04/01/12 17:05
>>302 単語切り出し(word segmentの抽出)の事を形態素解析と呼ぶんだよ。
まあ、言いたい事はわかるけど
具体的に説明できるようになってから偉そうな事は言おうねw
305 :
デフォルトの名無しさん :04/01/12 17:06
クソレスフィルター欲しいな
日本語の場合、ベイジアンフィルタ作るにしても形態素解析にかけてから
じゃないと、あんまり効果は見込めないんじゃないか?
>>304 >>302 の言いたいことは、
「単語切り出しを、
(単語辞書を使って解析する、一般的な意味での)形態素解析に
頼ることしか知らない…」ってことでOKかな?
で、具体的に2chの新語を取り出す方法としてはどんなのが
考えられる?
シソーラスにないものを拾えば。
辞書に載ってないものは解析しづらいよ・・・ 構文解析まで踏み込まないと。
310 :
デフォルトの名無しさん :04/01/12 20:32
ちなみに単語辞書を使わない形態素解析はない 結局は2chをリソースにして、辞書を生成して 一般的な辞書との差分が2ch語であると断定し その中でもっとも使用頻度の高い物を探してくるという 方法が普通でありかつ、もっとも有功なんだと思うけど。 という事で、2chをリソースにした辞書生成法を研究しなさい。
>>309 でも辞書に載っているものは新語ではないような・・・
313 :
デフォルトの名無しさん :04/05/05 00:12
今大学B4で研究テーマを自然言語処理、知識情報処理にしようかとおもってるんだが、 言語資源(辞書やらコーパスやら)の著作権や値段が敷居高い気がして萎える。 Webから大量の文書舐めてエージェントに概念形成とか言語獲得みたいなことをさせたい。 著作権ってこの場合どうなの?別に辞書やらコーパスを構築しようってわけじゃないので。 Webから収集できないようならテーマ変えようかな・・・。
構文解析とかの話ばかりみたいだけど、事例ベースの話とかはスレ違いなの? よく知らんのだけど、翻訳とか人工無能とかはルールベースよりも事例ベースが 使われているって聞くんだけど
漏れもそのへん知りたい。
age
318 :
デフォルトの名無しさん :04/05/15 21:49
質問があります。 JUMANをサーバーモードで起動して クライアントを自分で作成したいのですが プロトコルはどうなっていますか? ご存じの方教えてください。
このスレの人は生成 vs 認知言語学ってのどう見てるの? 工学的な視点で見ればどっちも絵に書いた餅なのは一緒っぽそうだけど。
320 :
デフォルトの名無しさん :04/05/27 13:53
hage
321 :
デフォルトの名無しさん :04/06/02 13:32
茶せんで解析をしようとしたら 「エラーが発生しました75」 とか言う変なエラーが出ます どうすればいいですか?
323 :
デフォルトの名無しさん :04/06/17 15:33
SDR-4Xが人間と会話してるの見てビビった
>>322 この本を買った人はこんな本も買っていますにワラタ
325 :
デフォルトの名無しさん :04/06/19 01:39
┌┐ │↓ │入力 │↓ │解析 │↓ │新規保存 or 既知補完 ││ └┘ こんなアプリ作って、ネットで適当に採取したテキストを大量にドロップしてやったら、 ある程度かしこい辞書ができないかな。
>>325 そのアイディアは新しいアイディアなの?
超ありきたりな仕組みに見えるぞ
良くあるのは『ネットで適当に』ではなくて、『新聞データ』から
入力する方法だね。
人口無脳でそういうの無かったっけ?
┌┐ │↓ │テキスト入力 │↓ │パターン解析 │↓ │対応パターンで返答 │↓ │記憶 ││ └┘ これで会話は成り立たないかな 入力パターン例 : 『名詞』+ 'の' +『動詞』+'ですか' ↓ 出力テキスト例 : 『動詞』+'です' どういうパターンのときどういうパターンで、どういう品詞のときどういう品詞が当てはまるか統計をとって、 もっとも適した品詞を当てはめれば会話っぽくなりそう
無い知恵絞ってもしょうがない。
クリアクリア名詞-サ変接続 をを助詞-格助詞-一般 押し押す動詞-自立五段・サ行連用形 てて助詞-接続助詞 からから助詞-格助詞-一般 文文名詞-一般 をを助詞-格助詞-一般 入力入力名詞-サ変接続 しする動詞-自立サ変・スル連用形 てて助詞-接続助詞 くださいくださる動詞-非自立五段・ラ行特殊命令i 。。記号-句点
>>9 > また、原理的には可能だが、実際に実用的なソフトウエアを
> つくるとなると複雑すぎ、あるいは必要なデータが多すぎて
> 金がかかりすぎるというものもあります。
> (たとえば莫大な予算を投入して何百人もの人を雇い、
> 完全な日本語の連想辞書のようなものを作れば、さきほどの
> Query Expansion のような技術はかなりうまくいくかもしれませんが、
> そんな資金はふつうありません)。
長尾先生の調査によれば、日本語の構文パターンは
少数のパターンの組合せでほとんど解決できてしまうので、
形態素解析さえちゃんとできていて、対象とするジャンルが絞れていれば、
個人レベルでもけっこう実用的なシステムが組めそうに思う。
問題はむしろ形態素解析の精度が低すぎて、
統語レベルの処理(構文解析)までたどりつかないことではなかろうか。
>>10 > 自然言語の意味を一般的に表現できるような
> 形式的な枠組みはまだないし、あってもそんなものを
> プログラミングするのは大変でしょう
「自然言語の意味」を認知の構造と考えれば確かにそうなんだが、
言語表現という形式的な構造にまで抽象化されているのだから、
単に「言語的な意味」を取り上げて形式的な操作の対象とするだけで、
データベース理論だとか様相論理だとか
プロダクション・システムだとかいったありものの道具の組合せで、
そこそこ実用的なシステムが組める程度の意味表現は
できそうに思う。
もちろん人間の認知の枠組みとは乖離があるから
「コンピュータと話すとイライラする」というユーザは出てくるだろうけれど、
人間にもそれほど違和感なく共有できる程度の
「単純化された認知の枠組み」ではあるだろうし、
そういうものだと思えば腹も立つまいと思う。
>>10 > いまでは人様がデータ入力をしなくても
> コンピュータが web なんかから勝手に「学習」するようにしよう、
> というアプローチがさかんに研究されています。けれども、
> どれもノイズが多くてあまり使えません。
ノイズが多い原因は、不規則かつ出現頻度が高い表現を網羅した、
核になる辞書の品質が低いせい。
基本辞書のチューニングを十分に行なえば、ノイズは減る。
と、希望をもってみるわけだな。 ノイズの原因が辞書のユラギじゃないから、辞書のチューニングでは無理なんだけどね。
>> 337 重箱読みとか湯桶読みとかはおおむね歴史的なものなので、 少なくともコーパスで拾いきれなかった新語に関しちゃ「造語」が多い。 数が多い漢語系の造語に関していえば、 ほぼ機械的に品詞と読みは取れるので、 今のところ満足しているが。
339 :
山田の中の一本足の名無し :04/07/21 12:58
どんな語が欲しいか限定しないと議論する意味がないと思うが。
用言はそんなに数が多くないし、 和語(やまとことば)系の名詞は基礎語彙寄りの語が多いので それほどの数があるわけでなし、 やっぱり厄介なのはカタカナ語ですか。 原綴りを推定するロジックは欲しいですな。
341 :
デフォルトの名無しさん :04/07/27 14:55
だいたい辞書って何語ぐらい必要なんだ?
342 :
デフォルトの名無しさん :04/07/27 15:05
分かった。とりあえず山本さんには伝えとく(そういう問題じゃないかも知れんが。文字サイズを固定で指定してあるのが問題なんだよな)。 自然言語処理の分野に関わる人間というと、やっぱり視覚障害者とかに配慮せんと立場上もいかんし。
だれか単純で完全に文法規則が把握できる人造言語つくってくれ
エスペラントは違うの? 全然知らないんだけどさ。
>>346 エスペラントは駄目だろなぁ。 コンピュータで処理するには記号つきのアルファベットを使わねば成らんし、
いろいろとへんてこりんな手あかも付きまくってる。
外国語板でエスペラント検索して適当に眺めるとこりゃだめだってわかるぞ(w
348 :
私の名前は名無しです :04/09/03 09:55
ありものの自然言語、 それも死語化・共通語・学術語・宗教語したやつの文法を制限して、 サブセット版を作るってのはどうだ? 佛典語のパーリ語に佛教後のサンスクリット語、 中世ヨーロッパの学問上の共通語だったラテン語、 教会語の古典ギリシャ語、 ユダヤ教徒の共通語であるイディッシュ語、 ほとんど人工言語に近いインドネシア語、 アラブの共通語フスハ、 日本の漢文と、これくらいあれば一つくらいモノになりそうな気はするが。
>>348 系統とか似てる言語であれば意外とアリな気はするね。
印欧語メタランゲージとかってどっか真面目に研究してたんじゃなかったっけかな?
というか幻の印欧語のオリジンを構成してみたいなんて妄想がかった挑戦だったと思った。
世界言語学なんたらって本が恐らく図書館の語学書のコーナーにあると思うのだが(辞書の三省堂あたりが出してるやつ)
そこにあらかたの言語の系統のようなものが書いてある。
英語とフランス語の距離は何年とかそういうのを突き詰めて行く雰囲気だね。
大雑把に見るとパーリ、サンスクリットとラテン語、ギリシア語を引っ付けるのはいいかもしれん、
でもそこに系統が違うアラビア語だの日本語をくっつけようとすると最後は分け判らん所に落ちる気はするなぁ(w
同じ印欧語でも進化の過程で特徴が恐ろしく違ってたりするしなぁ。
350 :
私の名前は名無しです :04/09/06 10:08
> 印欧語メタランゲージとかってどっか真面目に研究してたんじゃなかったっけかな? 筋からいうと関係ない話だが、NATOが全軍共通の英語モドキ言語を作ってはず。 江戸時代に参勤交代で江戸に出てきた薩摩武士と津軽藩士が出遭ったときに揉め事が起きて、 どっちも訛がきつくて会話が成立せず一触即発というときに、 能楽の心得のある侍が謡曲を擬して相手に呼びかけたら、 相手方にも心得のある人間がいてコミュニケーションが成立して丸く収まった、とかいう話をどっか(能楽関係の本)で読んだことがある。 つーことはいわゆる擬古文調(江戸時代の文芸で使われた、平安時代の文体を擬した文語文)や候文(手紙の文体)なんつーのは メタランゲージとして機能しとったということか。 思うに、軍隊とか政府とかいった機能集団をコントロールするとかいった明確な目標がないと、 メタランゲージは成立しにくい(つーか言語としての形態を維持しにくい)気がする。
NATO軍内の新英語だとどちらかというとピジン・クレオールになるのかな?とか思って見たり。 能楽方面の話って例えば18〜19世紀位にイタリア軍とフランス軍が言葉が通じねぇで一触即発の所にラテン語を習った香具師 同士でとかってのに置き換えが出来そうだね。 でも何にせよ共通言語とかは難しそうだよな。そもそも自然言語の構造自体が揺らいでるわけだし。
>>351 > でも何にせよ共通言語とかは難しそうだよな。そもそも自然言語の構造自体が揺らいでるわけだし。
そこでエスペラントですよ!
すべての言語の元になった韓国語で全て解決。
それにしても、世界の自然言語処理研究のために共通の人造言語があると便利だよね
>>352 で、エスペラントは
>>347 も書いてる通りコンピュータで扱うには厳しい仕様の上に、これも既に揺らぎが生じている。
ので使えない。
もちろん
>>353 のようなのはネタ以上の何者にも成らない。
とすると結局の所
>>355 の言う英語でいいんじゃないか?という気はする。とはいえ、今流通している英語や、米語という
物ではなくて英語を元に非英語圏で話されるピジン・クレオールと言った文法の簡略化されたやつね。あくまでも人工の共通
語という事では。
でも自然言語処理のためのメタ言語なり翻訳用中間言語を想定すると英単語に品詞とか格とか時勢のメタタグを付けたような物が一番現実的だろな。
個人的にはラテン語(古典黄金期の一応固まった文法の物)あたりでやらかしてしまうというのも面白いとは思うけど(w
実際時勢とか格による語の変化があるわけだからそれなりに翻訳の中間言語として使えるんじゃないか?という気はする。
358 :
デフォルトの名無しさん :04/09/06 19:46
単語間の意味的な距離を視覚化すると何次元になりますか? 初心者でスイマセン。
latino sine flexione
>>357 記号つきのアルファベット?
単にcoding systemの問題じゃねーの?
っていうか、距離なんていうスカラー値に次元なんて・・・
>>358 SVM on NLP的な論文でも読んでみたら?
あとLSA/LSIなんかも参考になると思われ。
(´-`).。oO(LSI・・・) Σ( ゚д゚).。oO(大規模集積回路っ!)
>>364 LSI = Latent Semantic Indexing
366 :
デフォルトの名無しさん :04/09/07 06:58
>>362 そういわれると思ったんですけど、うまい表現が出来ませんでした。
これでも意味通じるかなーって。
367 :
デフォルトの名無しさん :04/09/07 06:59
>>366 それじゃやりたいことがわかんねーよ。
ある単語を基準に近いもの順に並べるだけなら1次元だ。
位置関係なら、いくらでも軸がとれる。
多次元尺度構成法でもどうぞ。
369 :
デフォルトの名無しさん :04/09/07 09:15
>>368 わかってください・・・
わかってくれないと困るんです・・・
370 :
私の名前は名無しです :04/09/07 09:32
>>357 > 個人的にはラテン語(古典黄金期の一応固まった文法の物)あたりで
> やらかしてしまうというのも面白いとは思うけど(w
ラテン語のいいところ。
1)名詞の性がない。
2)発音が簡単。
3)省略がやり放題。語順も自在。
英語のツラいところは(2)と(3)。
日本人には発音も面倒なら、
ghotiと書いてフィッシュと読む
(enoughのgh、womenのo、nationのti)
つーくらい綴りと音の対応が厄介。
(3)の代償として格変化を覚えるのが面倒、
つーのは確かにあるが。
371 :
私の名前は名無しです :04/09/07 09:40
失礼。 ×1)名詞の性がない。 ○1)名詞の性は幹母音でほぼ一意に決まる。 この点では英語とエスペラントに一票。
373 :
私の名前は名無しです :04/09/07 11:55
>>358 > 単語間の意味的な距離を視覚化すると何次元になりますか?
「数値化」じゃなくて「視覚化」っつーことだから、
なんか「見てパッと分かる」ことを期待するんだろうと思う。
この場合、四次元以上のものを「視覚化」した状態は想像つかんし、
ちょっと理解もできないように思う。
三次元だとホログラムかステレオグラムか、
でなきゃ動画にでもするんだろうが、
あんまり分かりやすくはないだろう。
定跡としちゃあ
>>368 の多次元尺度構成法で二次元表示じゃないか?
別に空間そのものは何次元だろうが張れる。 デバイスの都合上視覚化するには必然的に二次元に射影するだけで。
375 :
私の名前は名無しです :04/09/07 13:36
> 別に空間そのものは何次元だろうが張れる。 > デバイスの都合上視覚化するには必然的に二次元に射影するだけで。 確かにデータっつーレベルだと、「サンプル数−1」次元だけの自由度はあるわけだし、 一般的な表示デバイスってえとほぼ必然的に二次元になっちゃうわけだが、 実験心理学のデータを多次元尺度構成法にかけたりなんかする場合でいうと、 三次元以上の空間にマッピングされたものを眺めても、 そこに「意味」っつーか、解釈というものが見出しにくいわけですよ。 これはたぶん把握する側の能力っつーのも影響してて、 データが三次元以上の空間に分布していたりすると、 そこに意味があっても、概念として直感的に把握できないんだト。 仮に仮想空間に三次元の模型かなんか作って、 その中を実際に歩き回れるとかいった仕掛を作ったとしても、 おそらくは全体像を把握することが難しいんじゃないかト。 だから、平面的な「地図」という形にブレークダウンして提示してくれト。 それが親切っちゅーもんだト。そういうこと。
そこでクラスター分析ですよ。
談話において、発話の種類をいくつかに分類し、例えば過去何発話かが A,B,B,A,D,Eであり(A〜は発話の種類、例えば同意とか質問とか)、 次の発話がZであった時、各発話の種類が発話Zの生起にどの程度影響したか、 AはZの生起に大きく影響した。Bの影響は小さいのでBがいっぱいあってもZは生起しにくい。 とか、そういうのを調べたいのですが、どうすればいいのでしょうか? 単にA,B→ZとかA,A→Zとかならn-gramを使って生起確立を調べるのだと思うのですが、 A→ZやA,A,A→Zが混在(左辺の要素数の上限はあらかじめ決める)、 A,B→ZとB,A→Zは区別しない という条件があるので、n-gramは使えないと思うのです。 どなたかアドバイス頂けるとありがたいです。よろしくお願いします。
379 :
私の名前は名無しです :04/09/08 09:53
>>378 それってむしろ交流分析とかの問題じゃないか?
エリック・バーン著/南博訳
『人生ゲーム入門―人間関係の心理学』(河出書房新社)
とかでも読んでから、もう一回検討してみたら。
>>378 すでにn-gramが得られているのなら、あとはそれを足し合わせたりするだけでできないか?
381 :
デフォルトの名無しさん :04/09/08 12:53
もう疲れました・・・・ もしかすると、自然言語処理とはミジンコに言葉を理解させるようなものかもしれない・・・
>>381 > もしかすると、自然言語処理とはミジンコに言葉を理解させるようなものかもしれない・・・
実際そんなもんだろ。
いや、自然言語処理とはミジンコに言葉を理解した「ふりをさせる」ことだ と思う。
>>379 交流分析という単語は聞いたことが無いです…。
読んでみます。
>>380 例えば左辺の要素数の上限が3で、左辺にAを含む場合が
A→Z、A,A→Z、A,A,A→Zのみで、それぞれの場合のZの生起確率がp1、p2、p3
の時なら、AのZの生起に対する影響力は pa = p1 + p2/2 + p3/3 となると思うのですが、
これにA,B→Z p4という場合を加えると、p4てのはBの影響も含んだ確率なわけですから
そこからAの影響力のみを抽出するにはどうやったら良いかがわからないのです。
Aの影響力とBの影響力が等しいとは限らないので、2で割るわけにもいきませんし…。
あれ?でも生起確率を要素で割って、p2/2とかp3/3とかやっていいのかしら?
pa = p1 + p2 + p3 が正しい?
>>384 P(A, x - > Z) = P(A, A -> Z) + P(A, B -> Z) + P(A, C -> Z) + ....
P(x, A -> Z) = P(A, A -> Z) + P(B, A -> Z) + P(C, A -> Z) + ...
P = P(A, x -> Z) + P(x, A -> Z) - P(A, A)
じゃダメなん?
>>384 すまん、Zの生起確率ということなら、
P(A, *, Z) = P(A, A, Z) + P(A, B, Z) + P(A, C, Z) + ....
P(*, A, Z) = P(A, A, Z) + P(B, A, Z) + P(C, A, Z) + ...
Pa = ( P(A, *, Z) + P(*, A, Z) - P(A, A, Z) ) / 適当な母数
じゃだめなのか?
387 :
無名子(=379) :04/09/09 13:47
待て待て、そもそもこれって談話の一部だろ? そうすると話者をi・jとして、 AiZjとかAjBiZjとかBjAiZjとかいった発話があるわけだ。 するってぇと、AZとABZって、 前者は相手の発話がAなんであり、 後者は自分の発話Aによって相手がBと応答したわけだから、 そもそも意味合いが異なってこないか? 相手が自分と全く同じ応答特性を持ってたとしても、 AZとABZの生起確率を同列に論じるのは変だろう。 もちろんAZとBAZなら、 相手のA以前の自分の発話が影響してるわけだから、 不自然じゃないんだが。
>>386 ええと、それでいい
のか…な…?(;´д`)
>>387 談話なのでn人が順不同、i,j,i,jとは限らずi,i,j,k,k,j,iとか発話して良いという条件に
なるというかそういう条件を最終的には取り扱いたいので…。
話を簡単にするために二者が交互に発話する対話をまず取り上げるというのなら良いのですが。
ので、そういう観点から二者が交互に発話する対話という風に制限したとして、
左辺のA,B〜をiさんの発話、それによってjさんのZという発話が生起すると考えて、
つまりAi→Xj→Bi→ZjやAi→Xj→Ai→Zjから
A,B→Z、A,A→Z、A→Z、B→Zという場合が考えられる(上限2とした場合)
と持って行けば不自然では無いでしょうか?
また、そこから左辺の各要素、例えばAのZの生起に対する影響度を表すには、
>>386 のようにすればオッケーなのでしょうか?
>>388 するってぇとマルコフ過程とかいった話になるのかな。
信頼性工学でFTA(故障木の解析)っつー手法があって、
それが使えるかも知れん。
つまり、「Zが発話された」っつー事象が一つ前の事象から生起されたと考え、
次にその一つ前の事象が生起された原因を、さらに前の事象に求めるという。
だから、
P*(Z)=P(Z)+P*(A→Z)+P*(B→Z)+P*(C→Z)+…
みたいな仮定を置いて、
P*(A)、P*(B)、P*(C)…
を求めるという。
「生起行列」とでもいうのかな?
計量経済学(厳密にいうと、マトリクス経済学)とかで使うやつ。
排他的な事象A〜Zに空事象をプラスして、それを埋めりゃいい。
保守
ほしゅ
ほし
単語をカテゴリーごとに分けてある辞書を探してるんですが 例えば、警官でサーチすれば人物、どらやきでサーチすれば食べ物、車でサーチすれば乗り物。 といった感じの、極簡単なカテゴリーでわけられてるものでいいのですが。
EDR?
>>393 分類語彙表というのもあるけど、利用条件が厳しくてのう。
wordnetの日本語版をどこかが作ってなかったかな?
EDRの概念体系辞書で 人間、飲食物などの上位概念から下位概念を洗いざらいピックアップして 別ファイルにまとめて、入力単語と照らし合わせるようにしてみました。 ピックアップ作業は人間などの大きな概念だと7時間くらいかかってしまって、 現在もプログラムを走らせています…。 EDRや分類語彙表などは大学の研究室単位でつかっているので知ってはいました。 もうすこし簡単にカテゴリーがわけられてるものはないかなぁと思ったのですが。 分類語彙表もみましたが、単語数が明らかに少ないような感じでした。 バージョンが古いせいもありますが。
>>397 分類語彙表は新しいバージョンが出てるよ。
それ構文解析して自動的に収集できないの?
構文解析するためにそういう情報がいるんだ 構文解析の原理よく知らないけど 構文解析が主目的じゃないんでしょ? 結局手入力したデータ使うんだったら、最初から構文解析いらないね つまり構文解析って統計でなんとかなるものかと思ってた でないと新語、造語、文法崩しには一生対応できない 自然言語処理ってのは力技のことですか?
>>401 計算機よりまずお前が日本語を理解しろ。
計算機の話はその後だ。
>>399 共起関係などを使えば、大まかな分類語彙は作れると思う。CSLかどっかが研究してたかな? 勘違いかも。
404 :
M.B. :04/11/19 22:27:24
支援age
405 :
デフォルトの名無しさん :04/11/22 13:58:12
404 :M.B. :04/11/19 22:27:24 支援age
がんばれ
たたき台無いの?
408 :
デフォルトの名無しさん :04/12/22 11:32:31
ICOT辞書のsrc/dictdataにある辞書ファイルの品詞分類ってどこかでわかりませんか? doc以下に在るtexファイルでは3桁の数字になっていたんですけど、 辞書ファイルでは4桁になっていて良くわかりませんでした。
409 :
デフォルトの名無しさん :05/01/10 04:17:00
相変わらず人いねー. 悲しい.
賑わうスレは厨房だらけという罠。
厨房もスレの賑わい
TinySVMのPerlモジュールをインストールしようと思ってmakeしたら ↓のようなエラーがでてしまいますた。 #make c++ -c -I/usr/local/include -D_REENTRANT -D_GNU_SOURCE -DTHREADS_HAVE_PIDS -DDEBIAN -fno-strict-aliasing -I/usr/local/include -D_LARGEFILE_SOURCE -D_FILE_OFFSET_BITS=64 -O2 -DVERSION=\"\" -DXS_VERSION=\"\" -fPIC "-I/usr/lib/perl/5.8/CORE" TinySVM_wrap.c TinySVM_wrap.c: In function `void _swig_create_magic(SV*, const char*, int (*)(SV*, MAGIC*), int (*)(SV*, MAGIC*))': TinySVM_wrap.c:335: error: invalid conversion from `int (*)(SV*, MAGIC*)' to `int (*)(PerlInterpreter*, SV*, MAGIC*)' TinySVM_wrap.c:336: error: invalid conversion from `int (*)(SV*, MAGIC*)' to `int (*)(PerlInterpreter*, SV*, MAGIC*)' TinySVM_wrap.c: In function `void boot_TinySVM(PerlInterpreter*, CV*)': TinySVM_wrap.c:1504: error: declaration of C function `void boot_TinySVM(PerlInterpreter*, CV*)' conflicts with TinySVM_wrap.c:369: error: previous declaration `void boot_TinySVM(CV*)' here perlのバージョンは5.8でつ。 別のマシンでperl5.0だとすんなりできたのに、なぜだ・・・_| ̄|○ 原因わかる人解説キボーン。
>>412 なんかのヘッダファイルがないような気がする。
"-I/usr/lib/perl/5.8/CORE"なので、 /usr/lib/perl/5.8/COREにあるヘッダと 成功したやつの同等の場所(/usr/lib/perl/5.0/COREかなあ) を比べてみればよいかも。
レスthx。 もうちょっとがんばってみまつ。
416 :
デフォルトの名無しさん :05/01/25 23:00:23
五年後に ・チャットに入ると人工無能と対話 ・日記を書いてるのはプログラム っていうサイト作りたいなぁ 漏れがやるのはメンテのみ、みたいな どうせ自鯖だから辞書GB単位にしてうずらなんか目じゃないってくらいのを…
yomiusaなんかはblogも書いているね
juman4.0をFreeBSD5系でコンパイルできてるやつ居る
GENIAコーパスってクソだな。
422 :
デフォルトの名無しさん :05/02/01 21:47:16
>>421 >GENIAコーパス
批判は小学生でもできる。それよりも優れたコーパスをどう
作るかが大切。
わざわざageて書き込むほどのことじゃあるまい。関係者?
424 :
デフォルトの名無しさん :05/03/03 22:31:06
保守age
426 :
デフォルトの名無しさん :2005/04/28(木) 14:56:26
文字成分表方式による自然言語検索について分からない事があるので教えてください。 1)文字成分表から文書ID(各文字の有無を0と1で記録したビット列)を作っておく。 2)検索文字全てについて文字成分表で何ビット目の文字かを調べる。 3)文書IDから2)で調べたビット位置のビットを切り出して1と比較する。 ここで3)はシーケンシャルに行うわけではないと思うんですが どんなインデックス方法があるんでしょうか?
427 :
426 :2005/04/28(木) 15:50:03
つけたし。 格納されている文書IDを使ってtreeを作ると、部分検索が出来なくなるような気がします。
428 :
426 :2005/04/28(木) 18:15:31
この分野の知識があまり無いので初歩的な質問かもしれませんが、
http://www.atmarkit.co.jp/icd/root/64/5784264.html ここに「インデックスファイルからその単語が含まれている文書を探せばよい。」とありますが、
その為のインデックスの構造とは例えばどのようなものなのですか?
各単語に、その単語が出現する文書のプライマリキーを所属させる形にして、
(こうすると一つの単語に複数の文書が属す場合が出てくる)
複数の検索単語が入力された場合はそれぞれの単語に属す全ての文書キーを求めて、
すべての集合で重なる部分のみを求める、等で実現するのでしょうか?
この方法はやや粗い気がしますが、集合の重なる部分を高速に求める方法があるのでしょうか?
429 :
デフォルトの名無しさん :2005/04/30(土) 17:35:19
質問なのですが、自然言語処理ではプログラミング言語は何を使うのがベストですか? 個人的にRubyを使いたいのですが、Rubyでやってる方いますか?
430 :
デフォルトの名無しさん :2005/04/30(土) 17:41:45
431 :
429 :2005/04/30(土) 18:05:13
>>430 そうですか。ほっとしました。Perlでやらなくて済むんですね…
自然言語処理の研究ではどんな場面・用途でプログラミングするのかまだよくわからないんですが、
PerlやRubyのようなインタプリタのほうがいいんですか?
>>431 > PerlやRubyのようなインタプリタのほうがいいんですか?
べつにそんなことはない。
433 :
429 :2005/04/30(土) 18:34:33
>>432 > べつにそんなことはない。
うーん。その場その場で必要性は変わるとか、どれ使うかは好みの問題とか、
そういうことなのでしょうか?
研究室の全員が習得しておくべきプログラミング言語というのはありますか?
うちの研究室今年できたばかりで、新任の教授もプログラムについては
ポカーンて状態に近いので、どうかご教授ください…
なんでそれでそんな研究室ができるんだよ……。 やることもはっきりしてないなら、まずは本を買って輪講しろ。
435 :
429 :2005/04/30(土) 20:10:53
>>434 そうですね。
手を動かす前に知らなきゃならないことがありますね。
今は右も左もわからないんで、そうします。
ご意見感謝します。
436 :
デフォルトの名無しさん :2005/05/01(日) 03:48:05
>>433 それは先生からの「自分で考えろ」という教えなんだよ。
438 :
デフォルトの名無しさん :2005/05/06(金) 15:48:16
4年生になり、そろそろ研究テーマを決めなければならない時期の者です。 自然言語処理を主とした研究室に配属になりました。 情報検索や情報抽出に興味があり、まず知識を深めるために入門書を読みました。 しかし、担当の教授にも言われたのですが、それではなかなかテーマが決まりません。(基礎を学んだだけでは何がやれるのか、まではさすがに分からない) 研究テーマを決めるとき、みなさんはどのようにしたのでしょうか? 自分は、興味あることを調べる→誰か研究していないか調べる→すでに研究されている→orz というパターンが多いです。というか、初心者が考える事なんて大抵もう誰かやってる・・・ こんな私に何かアドバイスをお願いします・・
すでに研究されている→orz が間違い。 まだ未解決の問題は沢山ある。 卒論に間に合うくらいの手頃な問題になるかは知らんけど。 でなきゃ今頃はgoogleが全知全能でなんでも教えてくれるハズ。
440 :
デフォルトの名無しさん :2005/05/11(水) 19:43:05
言語情報処理はテーマとしてかなり枯れてる感じがするんですけど。 まだまだホットな領域はありますか?
>>440 > まだまだホットな領域はありますか?
自然言語処理でホットじゃない領域があるか?
いまお仕事(≠研究)的にホットなのは、 やっぱGoogle応用サービスじゃないかな。 自然言語処理応用でしかないけどw
>>442 Googleは自然言語処理的にはあまり大したことしてない。
むしろHypermedia方向でがんばってる。
445 :
デフォルトの名無しさん :2005/05/12(木) 03:28:29
>>443 Hypermediaとは、随分古い用語を使う方ですね。
Googleの事業内容と、Hypermediaとやらが
どのように絡むのか、説明きぼん
446 :
デフォルトの名無しさん :2005/05/12(木) 03:33:13
>>445 google mapとか典型的なハイパーメディアだと思うけど。
>>447 だから、googleの検索結果一覧でテキストの一部が表示されるが、それは一種の要約文とも言える。
しかし、現在のは単なる部分的切りだしであって、必要な情報を要約して分かりやすく表示できればもっといいでしょ?
研究の余地はまだまだある。
>>449 > だから、googleの検索結果一覧でテキストの一部が表示されるが、それは一種の要約文とも言える。
あれはマッチしたキーワードの周辺を切り出してるだけで、「要約」とは全然違うじゃん。
・「Aという分野で研究テーマはないか?」 といいなりふり構わない質問をして、 ・「まぁまぁ(笑。Bという分野も面白いよ。Aの応用分野も関連するし」 と受け流すと、 ・「Bの本流はAではない」 ・「BはAとは違う」 という議論をえんえん続ける、 それが2ちゃんクオリティー
>>451 ググルと要約に関する話はAとBという2つの分野の関連性の話ではなく、
Bという特定のウェブサイトがAという技術を用いているかどうかという話だろ。
この区別がつかないのなら、学術に関する話はしないほうがいい。
つうかさぁ、本当に学術やってる人なら、 資料のポインタとか示しておしまいだろ。 こんな所で、つまんないネタに執着して 素人じみた議論を延々やるセンスが、そもそも論外。
>>453 > 資料のポインタとか示しておしまいだろ。
それ以前の問題じゃん(クスクス
おこちゃまうざー。 バカみてぇ
学部生ガンバ!!!
amazon.com で使われている SIP。 amazon.co.jpにはないので、面白いと思った。
こんにちは。さっきからウザがられてる超エリート中学生です。 一線の研究者である皆様、俺様にいろいろ教えてください。お願いします。 これからは、質問には正確に答えてくださいね。
>>458 正確な答えを期待するなら、正確な質問をしなくちゃ。
>>443-444 を読むと、
444はあたかもグーグルが自動要約でがんばってるかのような発言をしているのだが
実際のところ要約らしきことはしていないということでFA?
461 :
443 :2005/05/12(木) 17:50:43
462 :
デフォルトの名無しさん :2005/05/12(木) 17:58:57
ここは素人の集まりのようですね。 来て損しました。
↑は間違い。アフォの相手すると調子が狂っていけねぇな
>>444 =
>>447 は、Googleがまだ提供していない「文書要約」に取り組んではどうか、
と提案してるんだけだろ。
大元の質問
>>438 の「研究テーマをどうやって決めるか?」には、
まだちゃんとした回答がついていない・・・
>>463 >
>>444 =
>>447 は、Googleがまだ提供していない「文書要約」に取り組んではどうか、
> と提案してるんだけだろ。
だとしたら
>>449 の
> だから、googleの検索結果一覧でテキストの一部が表示されるが、それは一種の要約文とも言える。
が謎になるぞ。
つーかさ、正直に認めりゃいいじゃん、
「ググルの検索結果は自動要約だと思ってました」
って。
465 :
デフォルトの名無しさん :2005/05/12(木) 18:45:36
>>464 >>447 googleの検索結果一覧でテキストの一部が表示されるが、それは一種の要約文とも言える
というあたりが思い込み臭いな。
どーでもいい話だ。
これが2ちゃんクオリティか。
誰か、>438に答えてやれ
466 :
デフォルトの名無しさん :2005/05/12(木) 18:46:29
>>464 > が謎になるぞ。
googleの検索結果一覧は一種の要約文です。これは正しい。
誰か、>438の元質問(研究テーマをどうやって決めるか)に答えてやれ
>>466 > googleの検索結果一覧は一種の要約文です。これは正しい。
だとすると、
>>463 >
>>444 =
>>447 は、Googleがまだ提供していない「文書要約」に取り組んではどうか、
> と提案してるんだけだろ。
は事実誤認ということになるなあ(藁
>>438 とりあえず、citeseerでもACM Digital Libraryでもいいから
NLP関係の論文を20本ぐらいダウソして読んでみな。
その中から面白いと思った論文を5本ぐらい選んで、
その5本に関連して自分に何が出来るか考えてみ。
470 :
デフォルトの名無しさん :2005/05/12(木) 19:01:00
>>449 は
>>443 自然言語処理的にはあまり大したことしてない
に対する具体的な意見で、たしかに、
>>463 > Googleがまだ提供していない
の部分はおかしいが、「Googleがまだ提供していない高度な」に置き換えればつじつまが合う。
ところで、より良い方向で物を考えないと知的生産は難しいよ。
>>470 > ところで、より良い方向で物を考えないと知的生産は難しいよ。
それよりもまず自分の間違いを素直に認めることをしないと
知的生産は難しいよ。
>>473 間違えたのが俺ではないということだ。
ところで、無意味な言い合いは止めよう。これが2ちゃんねるクオリティてやつか?
>>466 > googleの検索結果一覧は一種の要約文です。これは正しい。
正しくないよ。要約であるからには論旨を表現する必要があるが、
ググルのは単に検索キーの出現箇所の周辺を切り出してるだけ。
以下に「要約」の国語辞典による定義を示すが、
一般に自然言語処理においてもおよそこれに準じた用いられかたをする。
岩波国語辞典
ようやく【要約】
〔名・ス他〕 論旨などを、まとめて短く言い現わすこと。また、そう言い表したもの。
サルでも日本語しゃべれるんだな
>>476 そうか、君が日本語をしゃべれるサルか。ふーん。
サル降臨中 (霊長類研)
>>475 機械が行うことについて人間的な言葉の深い意味付けの議論に意味があるのだろうか?
単語にマッチした部分の必要な部分箇所を抜き出すことは、知的ではないが広義的に要約と言っても良いのでは無いか。
じゃぁテクストのすべての文が要約になるのか? しかも、googleは文の切れ端だろ。しかもさらに あなたの検索語は、枝葉末節にマッチしてるかも 知れないだろ。いい加減にgoogleの検索結果が要 約だなんていう妄想を捨てろ。
482 :
デフォルトの名無しさん :2005/05/12(木) 23:54:24
久しぶりにスレがもりあがってるじゃんと思ったら (´・c_,・`)
>>482 急にスレが延びたら絶対にくだらないことなんだから。
>>479 > 機械が行うことについて人間的な言葉の深い意味付けの議論に意味があるのだろうか?
はあ?人間がやることの代行だから「自動」要約なわけだが?
> 単語にマッチした部分の必要な部分箇所を抜き出すことは、知的ではないが広義的に要約と言っても良いのでは無いか。
普通はそういうのは「抜粋」というのであって、「要約」ではない。
馬鹿も休み休みに言うべきだと思う。
〜(論破された俺様定義)は、広義には…と言ってもいいのではないか、って よく見るけど、何かマニュアルでもあるんかね。
>>479 > 単語にマッチした部分の必要な部分箇所を抜き出すことは、知的ではないが広義的に要約と言っても良いのでは無いか。
絶対によくないよ。部分箇所を抜き出したものは要約ではない。
要約というのは、要約文の著作権が要約者に帰属することからもわかるように、
要約する人が自分の言葉で書くものだ。
抜粋、要約、批評、それぐらいの言葉の区別はちゃんとつけろ。
それぞれ全く別のものだ。
(たまに批評と評して実はただの要約というのもあるけどな)
487 :
デフォルトの名無しさん :2005/05/13(金) 15:21:47
>>438 「文章中に含まれる単語を多変量解析して、
文章が扱っている概念体系を自動抽出」
つうネタが、個人的にはおもろいと思う。
488 :
デフォルトの名無しさん :2005/05/13(金) 19:57:53
大量のオンライン・ニュースや文献をクラスタ分析して自動分類する、というのはよくあるけど、 単一の文書中でやるのは難しいんじゃないかなぁ。
489 :
デフォルトの名無しさん :2005/05/13(金) 22:13:52
>>488 Google Newsはこれをやっているんだろうね。 複数のソースからのニュースを1つのニュースとして
まとめるってことしているからね。
490 :
デフォルトの名無しさん :2005/05/13(金) 22:31:35
491 :
デフォルトの名無しさん :2005/05/30(月) 21:20:52
大体いまどき、CMUCL移植までして動かすアプリって何なんだろ? 当時は 制約ベースのGUIツールキットとか、音楽関係で動かしたいアプリがあったと思うけど
494 :
438 :2005/06/02(木) 01:54:11
>>438 の者です。
電子図書館を眺め、タイトルが「お、面白そうだ」と思ったものを適当にいくつか読んでみました。
正直知識がないので、読んでもなかなか理解できない点が多かったのですが、未知語の推定(これは色々な手法が提案されているようですね)に多少興味を引かれました。かなり難しそうですけど・・・
他には、少し変わったものとして文章のレベル判断。
手紙や電子メールや話し言葉、その対象、場面などを考慮して、その文章が適しているのかどうか?という判定や校正、その他に利用できる・・・といった感じでしょうか。
初めのうちは情報検索をやろうかと思っていたのですが、なかなか良いテーマが思い浮かばず、要約なら多少出来ることもあるかなぁと思ってる次第です。
>>494 あまり難しすぎる所に迷い込まず、まずは入口のところで肩ならしのつもりで
簡単なテーマをしっかりやるのがよいと思う。
卒論で求められるのは研究の内容そのものよりも、研究のやり方と論文の構成。
ただプログラム開発しました、アルゴリズムつくりました、じゃなくて、
ちゃんと仮説を立てて、実験で実証して、評価する、という流れがちゃんと
できていて、それが論文の体裁を成している卒論にちゃんと書けていることが大切。
自分の事言われてるみたいだ。 論文はそうやって書くのか・・・(メモメモ
>ちゃんと仮説を立てて、 卒論生が仮説立てて破綻しないわけ無いだろ?ふつー
498 :
デフォルトの名無しさん :2005/06/19(日) 19:55:53
自然言語処理「NP」→「DET」って可能? 検索してみると「NP」→「N」、「DET」って のがあるが、「DET」だけは不可能か? また、他に「DET」だけ出す文法ってある??
>>498 まずは、何語の話なのか、そこから始めようか…
500 :
デフォルトの名無しさん :2005/06/25(土) 17:28:16
500!
>>499 多分自然言語だと思う。。。
・・・今日ようやく学習したばかり(藁
http://bach.istc.kobe-u.ac.jp/prolog/intro/lang.html > s は文, np は名詞句, vp は動詞句, pp は前置詞句, n は名詞, v は動詞, adj は形容詞, det は冠詞, prep は前置詞を表します.
>
> 文 → 名詞句 動詞句
> 文 → 動詞句
> 名詞句 → 名詞
> 名詞句 → 形容詞 名詞
> 名詞句 → 冠詞 名詞
> 動詞句 → 動詞
> 動詞句 → 動詞 名詞句
> 動詞句 → 動詞 前置詞句
> 動詞句 → 動詞 名詞句 前置詞句
> 前置詞句 → 前置詞 名詞句
NP → DET N
(名詞句 → 冠詞 名詞)
なら判るけど、
冠詞だけで名詞句になる用法ってあったっけ?
口語なら、
"The Who" is great hard-rock band.
Nothing to say, I like the (who).
みたく名詞を省略しちまう例を見た事があるような気が
いや、この場合のtheは、itの言い換えもしくは言い間違いか。
itじゃなくてthem
別に英語に限らないけど、冠詞がある自然言語なのは確かだねえ(藁 つかリンク先読んでミソ
なんでそこまで妄想できるのか謎。 つか単刀直入に言ってバカ?学生時分に居たな、そーゆー開き直りして顰蹙買うバカ
498読んで英語の話だと断定できるのは498本人以外には考えられないね。 だってドイツ語だとしても何の矛盾もないから。
じゃ英語以外でも名詞句=冠詞となる用法があるかどうか語れ
510 :
デフォルトの名無しさん :2005/07/15(金) 11:51:56
>>509 はあ?いつ冠詞の話になった?
ちなみにノルウェー語ではdetは代名詞だ。
そもそも英文法としてもDETは冠詞じゃないし(藁藁藁
お花畑の住人は気楽でいいな。 こっちはコンサル辞めて(?)新しい仕事開始したつもりだったんだが、 結局やる事は、今まで手がけた他のサイエンス分野と一緒と気付いて、鬱入ってる。 つか、観測データから内部パラメータ推定とかやる限り、処理が同じなのは当たり前か
512 :
Mb :2005/07/17(日) 22:57:41
>>511 > お花畑の住人は気楽でいいな。
OCR の候補選択やら、固有名詞(人名・地名・企業名)の
辞書順整列やら、全件検索による辞書引きやら、
業務系システムでも実用レベルの自然言語処理が
要求される場面はけっこうあるぞ。
愚痴は実用システムの二三本も書いてから吐いたほうが
カッコよさそうに思うが?
>>512 えぇーとね、俺これまでソフト以外にコアな領域をもつサイエンス〜エンジニアを三つほどやってきたんだけど、
どこ行っても結局、多変量解析でパラメータ推定の仕事なんだわ。
今回、ようやく新しい仕事に取り組めると思ったら、また同じ話が出てきた。。。
そーゆー陳腐な話はそれしか出来ないのに任せて、俺はもっと新しいことがやりたいと最近悩んでいる。
やっぱ当分の目標は、Palmでベンチャ成功して脳科学の研究所始めた彼かな。
まあ、俺は脳科学には当分戻らないつもりだけど。
↑訂正。脳科学周辺の話加えたら、4つのサイエンス〜エンジニアリング分野だ
へー、すげんだな。 陰ながら応援してるよ。
516 :
Mb :2005/07/18(月) 15:01:29
>>513 > どこ行っても結局、多変量解析でパラメータ推定の仕事なんだわ。
なんつっても、適当に仮説を立てると大概それらしい結果が出るからな。
補助金貰うにはお手軽なアプローチなので、安易に適用する奴が多い。
> やっぱ当面の目標は、Palmでベンチャ成功して脳科学の研究所始めた彼かな。
特に名を秘す某苫※地クン(仮名)の言語理論はほとんど思いつきの域を
出とらんぞ。彼はルネ・トムの『ことばのカタストロフィー』あたりを
読んでから出直したほうがいいと思う。
お。詳しそうな人が出てキタ────(・∀・)────!!!! 一昨年某所で彼の事が話題に上りまして、ちょっと情緒不安定という話聞きました。 実際のところ、どーなの?いや怖いもの見たさ「だけ」で興味本位の話題ですが。
ありゃりゃ、もしかして俺何度もゴチになってる方ですか?>>Mb様 形態と構造―カタストロフの理論 ルネ トム (著), E.C. ジーマン (著), Ren´e Thom (原著), E.C. Zeeman (原著), 宇敷 重広 (翻訳), 佐和 隆光 (翻訳) 単行本: 280 p ; サイズ(cm): 19 x 13 出版社: みすず書房 ; ISBN: 4622016249 ; 新装版 版 (1995/10) レビュー 内容(「MARC」データベースより) ルネ・トムのカタストロフ理論は数学だけでなく経済学や生物学の分野から注目をうけた。この理論の本質を明確に提示し、新しい「自然哲学」の構築という壮大な可能性を展望する。新装版。 目次 第1章 カタストロフの構造 第2章 質的現象の解析学 第3章 カタストロフと社会 第4章 数量的な世界観を超えて 第5章 形態形成の力学理論 第6章 カタストロフ理論 第7章 カタストロフ理論の認識論的規範 同じテーマの本を探す ブラウズ(ジャンル) ジャンル別 > 科学・テクノロジー > 科学・テクノロジー 全般 テーマ別に本を検索する 位相幾何学[トポロジー] 位相数学 数学 超関数論.一般関数論
519 :
Mb :2005/07/18(月) 19:49:17
>>518 > ありゃりゃ、もしかして俺何度もゴチになってる方ですか?
いや、たぶん別人だと思う。知ってたらこっち↓を挙げるはずだ。
『カタストロフィの理論―その本質と全貌』
野口 広(著)
単行本: 292 p ; サイズ(cm): 19 x 13
出版社: 講談社 ; ISBN: 406118293 ; 初版第八刷 (1982/08)
目次
はじめに
1.カタストロフィーの戦略
2.次元の呪い
3.トポロジー
4.七つのカタストロフィー
5.おもちゃから国防まで
6.生命のデザイン
7.カタストロフィーの思考
あとがき
付録―ことばのカタストロフィー
はぁ。そーですか。今度探してみます。 ところで上記で出てきた「ことばのカタストロフィ」のリファレンス、お教えいただけませんでしょうか? 本日簡単に調べた範囲では、リファレンスは見つからず、 今年2、3月に言語情報処理ポータル掲示板で話題が出たのが確認できただけでした。
>>519 もしかしてMb様は、とても高名な数学者様でわ??!
なぜにこのスレにご降臨されるのか??!
今後もよろしくお願い致します。
522 :
Mb :2005/07/19(火) 08:09:11
>>522 > 今年2、3月に言語情報処理ポータル掲示板で
> 話題が出たのが確認できただけでした。
あ、あのサイトに出没してるのはうちの関係者(うちの蔵書に
ある)。図書館と古本屋で探して見つからなければ国会図書館。
なんならメールを寄越せば必要な部分だけスキャンして画像で
送ったげる。
523 :
Mb :2005/07/19(火) 08:14:49
>>521 > もしかしてMb様は、とても高名な数学者様でわ??!
自然言語処理や数式処理のような人工知能関係の分野には
「高名な数学者様」はいないと思う。応用数学(特に数理工学)は
いわゆる「数学」とは別分野(「数理“工学”」という別名が
あるくらいだし)だし。雰囲気的には物理学にむしろ近いんじゃ
ないだろうかないだろうかないだろうか。
「数学の女神は清純である。だから子を産まない」
―アルバート・アインシュタイン
「物理学と数学の関係は、セックスとマスターベーションの関係に
等しい」
―リチャード・ファインマン
524 :
Mb :2005/07/19(火) 08:22:56
「チーム2ちゃんねる」の皆様に配慮して言っておくと、 (あとはポール・エルデーシュ大先生に配慮して言っておくと) 有限組合せ数学はいちおう(暗号化技術なんかと同じく) 「純粋数学」分野に入れられると思うけど、実際の組合せを 求める計算の部分は工学に近いし、「数学の有用性」としては 例外的なものだと思います。
525 :
デフォルトの名無しさん :2005/07/21(木) 06:04:44
問題文生成システムを作りたいんだけど。。 熟語辞書から語彙を拾ってきて、その語彙を含む問題文をコーパスから生成するシステムなんだけど、rubyでどうやって作ればいいのかなぁ。 実際の(rubyが良いかな)プログラム例がないとちょっと手がつかない。。
>>525 コーパスから「生成」? ひょっとして釣り?
KNP Ver.2.0b6のインストールをしようと思って Makefileを書き換え、make allしたのですが、エラーを吐いてコンパイルできません。 エラーはregexp.cのl.294,l368で「pointers are not permitted as case values」ということなのですが、 他の方もこのエラーって出てますか?
528 :
Mb :2005/07/23(土) 21:45:42
>>527 自然言語処理のポータルの掲示板行って訊いたほうがたぶん早いぞ。
>Mb こんなところで油売ってないでJavaの方の再開を…
Senの人?
なんだか秋風が吹いてきた。立秋という奴か まあややこしい状況もあと?ヶ月でクリアになるだろう、仕事的にも個人的にも
あ゛ぁ゛ーもう飽きた。 やっぱ若い子は若い子なりの、思い込みと割り切りでしか仕事できないのね。 その思い込みが、bestではないまでもbetterな結果をもたらす事もあるのだろう。 しかし。それに馬鹿丁寧に付き合えるほど、俺のキャパシティって広かったっけ? つか、外のコミュニティと交流しないと、もう窒息しそうだぜ。
533 :
デフォルトの名無しさん :2005/08/18(木) 02:36:36
534 :
532 :2005/08/21(日) 01:35:03
実を言うと俺のキャパ自体はかなり広いのだが(ワラ、 思い込みが強い人間と付き合うのは苦手、つか時間が無駄になるのがツライ。
誰かの言うことについて思い込みが強いように見えるのは、 実は自分が思い込みが強くて根拠や発展性を狭めていたから、 ということもよくあるよね。
まぁ正直言うと、思い込み強くて説明下手糞な人の話を必死に聞いてあげた挙句に、 じゃ分担入れ替えしてこちらの説をリファレンス込みで紹介しはじめると、 途端に退屈そうな顔したり、はたまた「おまいは思い込みが強い」とか言い出すのは、 対応困る。 ・・・こっちはこれだけお付き合いしているのだがら、 人の話もちゃんと聞くのがマナーだろ? 20代だと、そのあたりのマナーを勘違いしてるのが多いんだよな。 あと、おまえは○×をやりたいと言っていたから、それをやらせてあげるんだ、 とか大声で主張するヤシ。。。嫌われてるだろお前
537 :
デフォルトの名無しさん :2005/08/21(日) 10:50:12
あとアライアンス相手やクライアントさん、はたまた権利関係やってる事務所の人の質問には、 ちゃんと誠実に答えた方がいい。 ちゃんとした回答をせず、自分がしゃべりたい事を一方的にまくし立てるのは、 回答能力がないという印象を相手に与え、先行きが暗い。 もし、現段階では回答しようがないこと、回答したくないこと、を聞かれ、回答をはぐらかしたいのであれば、 いきなり不適切なしゃべりを始めるのではなく、相手の質問を聞き返し、自分が回答しやすい質問へ誘導する というのも良いだろう。相手だって良く知らない分野について専門家に話を伺っているわけだがら、 相手なりに理解しやすいポイントを探しているはずだしね。 Q&Aでは「知らない人 vs 知っている人」というヒエラルキーを守ろうとして知ったかぶりをするのではなく、 お互いは自分が知らない事を知っているのだ、というスタンスで、「共通理解(共感)」のポイントを探すのが、 いいだろうね。 よく「人間は感情とコミュニケーションの動物だ」なんていわれるが、 俺は現時点では、その本質は「共感」にあると思う。 オブジェクト指向〜EAの観点で言うと「View(観点)」の理解かな。 チーターが草食動物を捕まえるには、やみくもに追いかければいいってわけじゃなくて、 草食動物の行動や持久力をリサーチする必要がある。リサーチの最も手っ取り早い方法は、 相手の立場に立って考える事。そして、同情しすぎず、食える時にガブっと食う事(ワラ
× リサーチの最も手っ取り早い方法は、 相手の立場に立って考える事。 ○ リサーチの最も手っ取り早い方法は、 リサーチ対象の立場に立って考える事。
539 :
535 :2005/08/21(日) 11:12:06
>>536 > 嫌われてるだろお前
ほら、やっぱ思い込みが激しいのは君なんだよ。
俺はどっちかっつーと、思い込みが激しい人の相手をする時に535に書いた
ことを自分に言い聞かせてできるだけ柔軟に聞こうとしているのだがな。
君は、君が嫌っている思い込みの激しい(と君が思っている)奴が
535みたいなことを言っているとでも思ったんだろ?
540 :
デフォルトの名無しさん :2005/08/21(日) 12:14:47
必死だな(プゲラ バカは返事しなくていいから
541 :
デフォルトの名無しさん :2005/08/21(日) 12:19:14
コミュニケーションに飢えてるバカが、バカであることがばれないように必死になる様は笑える。
人間として一番貧しいのは、意味のある話題には目もくれず、
下らない話題に必死に食い下がる
>>539 のような行為だ。
って頭悪くなきゃ、それくらいわかるよな?
542 :
デフォルトの名無しさん :2005/08/21(日) 12:23:17
>>539 を読んで、
「テレビドラマの俳優って、たかが演技、現実ではないのに何であんな必死なんだろうな(プゲラ」
とか言ってた、ウチのボケじいちゃんを思い出した。
すげー火病だゲラ
544 :
デフォルトの名無しさん :2005/08/21(日) 22:55:20
「アンジョンファン」と「アン・ジョンファン」が非常に近い単語であることを計算するにはどうすればよいですか?
edit distance
外来語の表記の揺れをルール化し、 目的に応じて距離を定義する。 中黒(・)の有無を距離として数値化したいのは、どんな場合だろうね?
547 :
デフォルトの名無しさん :2005/08/30(火) 14:03:49
ガキの暴走に呆れますた。 やっぱガキの相手は疲れるな。
話が合わない時、相手の発言が理不尽だと思える時には、 相手だけではなく自分も理不尽な考え方をしているものです。
549 :
デフォルトの名無しさん :2005/08/31(水) 12:51:03
550 :
デフォルトの名無しさん :2005/08/31(水) 13:01:39
>>544 >>546 英単語のミススペリングを発見して正しい単語に修正するアルゴリズム。
詳しくは忘れたけれども、それを使うことが出来るんじゃないのかな。
いや、俺は
>>544 なんだけど。
>>550 edit distance。編集距離。
>>544 は、韓国語固有名詞のカタカナ表記の問題を提起しているのに、
それに対してアルファベット表記の外国語のミススペル修正アルゴリズムを答えるあたり、
なかなか興味深いね。
こんなマーフィーの法則を思い出した。
世の中の大抵の学者は、その素晴らしい能力を、一般人が期待するような形では発揮できない。
つまり、経済学者はほとんどいつも金儲けが下手だし、
物理学者は時空間を議論するばかりで全然タイムマシーンを作ってくれないし、
そして言語学者はいつも意味不明の事を口走っている
編集距離
2つの文字列が与えられたとき、片方の文字列からもう片方の文字列にするために必要な「削除・挿入・置換の回数」をその距離とする手法。
主にタイプミスや誤字の検出に使われる。
P.Sellers, The theory and computation of evolutionary distance: pattern recognition, Journal of Algorithms, 6:132-137(1980)
http://www.jaist.ac.jp/~watatani/distance.ppt
554 :
545 :2005/09/03(土) 13:40:53
>>552 >
>>544 は、韓国語固有名詞のカタカナ表記の問題を提起しているのに、
> それに対してアルファベット表記の外国語のミススペル修正アルゴリズムを答えるあたり、
> なかなか興味深いね。
いつからedit distanceはroman alphabet専用になってしまったんだろう(苦笑
用語だけ書いて解説もせずに煽りとはめでてぇな。 自然言語処理業界で、そーゆー重箱の隅を突っついて喜ぶ人間は、 ごくごく例外的である事を切に希望する。 なーんちて。京大学長始め精鋭揃いの業界で、そんな自己満レスつけてるのは よっぽど下っ端なんだろうな。カワウソw
edit distanceという用語を出してもらえば、あとは自分でググるなりすればいいのに、 自然言語処理業界で、そーゆー親切を仇で返して重箱の隅を突っついて喜ぶ人間は、 ごくごく例外的である事を切に希望する。
深夜に鸚鵡返しとは、また例の掲示板常駐のアフォか。相手して損した
>>557 どこがどう鸚鵡返しなんだか・・・
反論に窮して、妄想を根拠にした人格攻撃に逃げますか。
ほんと情けない馬鹿だな。
あいかわらずネチっこいなぁ。 >親切を仇で返して重箱の隅を突っついて喜ぶ 被害妄想汁ダラダラ垂れてるし(ぷげら じゃさ、オマエが業界人だと主張するなら、 それをテストする意味で別の問題を出してあげよう。 「親切」と「仇」と「重箱」と「隅」の違い/類似性を計算するにはどうしたらいいだろう? 考えられる方法を全て列挙せよ
いや、これじゃ答えが違っちゃうな。訂正訂正 「親切」と「仇」と「重箱」と「隅」の距離や関係を計算するにはどうしたらいいだろう? 単語の意味的な側面を考慮して、考えられる方法を全て列挙せよ
561 :
デフォルトの名無しさん :2005/09/05(月) 08:37:40
おまえら、俺が質問したアンジョンファンネタで キモイ叩きあいやめなさいよなに?自然言語ギョーカイ?気持ち悪いですねー。
>>560 コーパス言語学様のお力を借りますかね。共起確率を計算してどうこう。
563 :
562 :2005/09/05(月) 19:29:56
あ、俺このスレへの書き込みは初めてね。 入門テストみたいな感じで出題してたのを読んでなかった。ごめん。
共起という言葉ですべて片付けるとは、 例のアレ並みに発想とボキャブラリと説明努力が貧困な人だなぁ。 どう思います?Mbさん
頭出せコノヤロ
またコミュニケーションに飢えてる餓鬼か。 こどもjはおねんねの時間だよ。さっさといね
568 :
デフォルトの名無しさん :2005/09/07(水) 20:11:05
Mecab>JUMAN≒Chasenて感じ?
あれ? MeCab = Chasen Next Generation (without learning)って主張してる人が居たけど?
相変わらず相変わらずだな。 ハッタリきついのって、どうして相手が自分と同レベルだと思い込むんだろうね。 ミーティングで噛み合った議論の一つもできないのが虚勢を張っても、痛々しいだけなんだよ。
571 :
デフォルトの名無しさん :2005/09/13(火) 08:11:20
そんなの、一回話してみりゃ、すぐに判る事だろ。コミュニケーションに問題抱えているとか、他人の話を聴かないとか、そんなレベルの事柄は。 問題は、同じ分野の人達とちゃんと関係を築けているか、そして一貫した言動を通じてビジョンを実現した実績があるかどうかだ。 いい歳してそこらへんがいい加減なのは、どうせ姿勢を正すのは無理、きっと一生そのままだから、妙な期待などしないほうがいい。
572 :
Mb :2005/09/20(火) 00:12:44
>>565 遅ればせながら出したぞ(w
>>564 共起確率っていうのは、本来形態素解析と知識ベースが揃った上で
有効に働くものであって、単独で持ってきても、形態素解析単独の
解析精度の(とりあえずの)向上を考えたときには実用的には有効かも
知れないが、上位の処理まで考えた場合、意味はない。
あるいは、とりあえずの結果は出たりするから研究費集めには効果的
かも知れないが、そういう安直な研究ばっかりやってると脳が腐るから、
禁じ手にしたほうが社会のためという気はする。
えぇーとぉ、 長尾先生の例の分厚い本(ISBN 4-00-010355-5)の 5章(p201, p204-224)、6章(p232-243)、7章(p267-227) あたりのネタ振りを期待してましたが・・・。 ちょっと専門分野が違う方のようだ
574 :
Mb :2005/09/21(水) 08:45:05
> ちょっと専門分野が違う方のようだ 自然言語処理っていうより形態素解析なんだよ、専門は。 「記述文法の精度が低い→形態素解析の精度が低い」っていう 現状を放ったらかしておいて、共起確率とかに逃げるのは もうやめようぜ、というのが漏れの主張。他に頼れる情報が ない場合、共起確率で順位付けをするのが有効、というのは 認めてもいいですけどね。 長尾先生の例の分厚い本は漏れも持ってるんだが……引っ越しの ときにしまいこんじゃって出てこない。探してみる。
575 :
デフォルトの名無しさん :2005/09/21(水) 09:08:30
Mb様のご専門は形態素解析ですか。
お仕事は音声認識処理関係でしょうか?
>>573 で失礼な言い方をしてしまった点を、
お詫びいたします。
実は
>>573 は、
>>559-560 の解答例なのですが、
もしかして他の解がいろいろ出てこないかと期待していたもので、
あんな書き方になってしまいました。
576 :
追伸 :2005/09/21(水) 09:24:54
>>574 Mb様のお話、非常に興味があります。
特に、「記述文法の精度の低さ」の件。
辻井先生の解説によれば、言語研究には
(1)コーパス言語学: データから帰納的にルールを導く
(2)理論言語学: 文法という系を中心に演繹的な研究を行う
(3)計算言語学: 計算機の膨大な記憶/処理能力を使う
があるそうです。((3)は、多くの場合(1)、稀に(2)の応用だと思います)
Mb様がおっしゃる「記述文法の精度の低さ」の件は、
上記(1)〜(3)のどの範疇で問題解決すべきだとお考えでしょうか?
ご教授頂けますと幸いです。
577 :
Mb :2005/09/21(水) 17:20:11
> Mb様がおっしゃる「記述文法の精度の低さ」の件は、 > 上記(1)〜(3)のどの範疇で問題解決すべきだとお考えでしょうか? いや、すでに「データから帰納的にルールを導く」というアプローチで 問題解決されちゃってるのだ。 つまり、あるプログラムが存在して、そこに日本語の文章を食わせたとき、 1)係り受けとかの関係がこんがらがってる場合は除いても、“文法的に” 正しい文のように見える。 2)通らなかった文は、確かに(入力ミスやワープロの誤変換などで) “文法的に間違っている”ように見える。 という結果が得られているのである。 てなワケで、「赤・青・白・黒が、日本語における四原色である」 (名詞にも形容詞にもなる)とか、「言う」(云う・謂う)や 「行く」(往く・逝く)も本質は不規則活用動詞であるとかいった 記述文法上非常にマニアックな(かな漢字変換システムや 機械翻訳システムでも開発していなければまったく意識しないで あろうはずの)もろもろのことが、そのプログラムによって確認されて いるのである。 で、各地の方言だとか口語的に崩れた形だとかは、不規則であるように 見えて、じつは上代語・文語などと同じ文法的な性質を持っており、 人間は(言い間違いを除いて)「間違った言葉遣い」をすることが 本能的に不可能で、むしろ「過剰に文法的な物言い」をする結果、 言葉のゆらぎが発生するため、言語表現のバリエーションがいくら 広がったとしても、記述文法からはみ出すことは経験上ありえない、 というのが結論なのである。
578 :
デフォルトの名無しさん :2005/09/21(水) 23:10:18
Mb様がおっしゃる「記述文法の精度の低さを共起確率以外の方法で克服した形態素解析ブログラム」は、 Chasen,Mecab,Jumanと同様に、実用レベルで一般に供給されているのでしょうか? あるいは研究レベルで実証が済んだものでしょうか? 私はどうも不勉強らしく、それらしいプログラムの存在を確認できませんでした。 誠にお手数ではありますが、リファレンスならびに使用されている学習アルゴリズムを御教え頂けないでしょうか? よろしくお願い致します。
579 :
デフォルトの名無しさん :2005/09/22(木) 08:01:18
Mecabでできるんだよ、って言ってるじゃん
580 :
デフォルトの名無しさん :2005/09/22(木) 08:13:35
またデタラメか。
581 :
デフォルトの名無しさん :2005/09/22(木) 21:22:38
勉強不足だね
たしかに。 この分野をやっている人の中には(稀に?)、 私が知っている自然言語処理とは大きく異なる用語遣いや概念体系を持っている方がいて、 その様な方と会話すと著しいコミュニケーション困難性を感じる。 例えばMb氏が上で「形態素解析の精度」と「共起辞書」と「係り受け」を同列に論じているが、 彼の言う「形態素解析」は一体どこからどこまでの処理を指し、 そして「共起辞書」とはどんなレベルの要素間の共起確率を指すのだろう?
ちなみに私の知っている形態素解析とは、 入力文を形態素に分け品詞を付ける処理を指し、 処理に必要な外部データとして ・単語辞書(読み,活用,品詞情報付き) ・連接可能性辞書(連接可能な二つの単語,品詞,活用形等を与える辞書) ・人手によるコスト表 または ・確率的モデルに基づいたコーパス学習データ(品詞付け用,コスト調整用,等) を使います。 また私の認識では、構文解析の主要処理として係り受け解析があり、そこで初めて共起辞書を使います。
なお上記はあくまで説明のための処理フェーズ区分であり、 実装上必ずしも排他的に順次実行すべきとは限らず、 むしろ速度や精度の向上のために、複数のフェーズをマージして処理する事もあるでしょう。 たとえばMb氏が、形態素解析の話題に、いきなり係り受けの話を持ち出したのも、 実は連接可能辞書だけでは複雑な係り受けを含む文を正しく形態素解析できない、 と言う話かもしれません。(要確認) 同様に係り受け解析の精度向上のために、格フレーム解析を同時に行う、単一化文法類似の試みもあります。
585 :
携帯書き子 :2005/09/23(金) 00:24:46
↑(1997 KO大の方の試み) ってMbさん、ここまで面倒な解説が必要になるような、舌足らずな御発言は勘弁願えませんか? 話の枠組みや前提条件、用語定義を明確にしながら話さないと、 読んでる人に意図を伝えるのは難しいんじゃないかなぁ
586 :
デフォルトの名無しさん :2005/09/23(金) 00:36:36
携帯からなんで、乱筆乱文はゆるしてね☆チュッ
この分野で「言語」という概念は一般的にどう定義されてるのでしょうか? 言語と言語でないものを区別する基準は何でしょう?
588 :
デフォルトの名無しさん :2005/09/23(金) 09:56:30
ところで、形態素解析と係り受け解析を同列に語るのは 一体どこの流派なのだろう? もしかして一部研究者の間では 形態素解析処理に構文解析や意味解析の結果をフィードバックして形態素解析の精度を高める という手法が暗黙の了解事項になっているのだろうか? というような仮定を置かないと、Mb氏の話は解釈しにくい。 #嗚呼、自然言語処理研究分野には、なんて不思議なコミュニケーション断絶が存在するのだろう? #学生時代に振られた、量子力学の確率論的描像にまつわるトリックの検証よりも対応が難しい
589 :
デフォルトの名無しさん :2005/09/23(金) 10:26:46
結局自然言語処理は、情報処理の中でも最も人文寄りな分野の一つだからな。 研究対象の描像の不確定性(ブレ)は、 その分野の研究者の見解の相違の分散(ズレ具合)と その分野のまともな研究者の存在確率の不確定性(神のみぞ知る) の積に比例するという、 例の不確定性原理が働いている。。。
その不確定性原理、 「神はサイコロを振らない」と言ってた例のベロ出し老人なら、 一体どういう表現をするだろうね?!
言語屋のくせにずいぶんでたらめな比喩を使うんだな。
592 :
デフォルトの名無しさん :2005/09/23(金) 11:03:48
また頭悪いのが一行レスか
やっぱ不確定性ジョークは、数学的イメージをちゃんと持ってる奴にしか通じないみたいだな。 自然言語処理で確率扱っている人達にも、まるきり通じてなかったりして(ワラ
自然科学への劣等感をこんなところで吐露するなってこった。 それともただの似非科学オカルト本大好き野郎か?
>>595 高校で物理やりましたってんだろw
せいぜい本当に似非科学扱いされないように頑張んな。
597 :
デフォルトの名無しさん :2005/09/23(金) 18:00:42
Mb説明しろよ
598 :
デフォルトの名無しさん :2005/09/23(金) 20:03:21
599 :
デフォルトの名無しさん :2005/09/23(金) 20:06:29
Aransk?
601 :
デフォルトの名無しさん :2005/09/24(土) 00:36:22
てへ、例の会社辞めて、帰り道にギター買っちった。 夢は秋葉AIST前でシュレディンガー音頭&隠れマルコフ・サンバの弾き語り。 ・・・いつかきっと・・・
日記はチラシの裏へ
603 :
デフォルトの名無しさん :2005/09/24(土) 03:02:39
だからさぁ、 キミは何でまるきり空気読めてない癖に 陳腐な書き込みしてくるの? だいたいキミは仕事で自然言語処理したこともない素人だろ?なんで素人がスレを仕切ろうとするんだ? オマエの態度はちゃんちゃらおかしいぞ。 博之、この馬鹿なんとかしろ。コミュニケーションの邪魔だぞここの馬鹿
604 :
デフォルトの名無しさん :2005/09/24(土) 08:31:58
言語工学研、ジャストシス、アンテナハウ
自然言語処理てperlで十分やん
607 :
デフォルトの名無しさん :2005/09/24(土) 13:20:31
>>606 >自然言語処理てperlで十分やん
研究者個人が使用するツールとしては、JavaやC
よりもperlで開発した方速いような気がする。
テラバイトのテキスト処理をする場合には、perlでは
遅いかもしれないが。
え、perlでナニ書くの?
609 :
デフォルトの名無しさん :2005/09/25(日) 08:50:54
Mb様、御回答をお待ちしております。 よろしくお願いします。
610 :
609 :2005/09/25(日) 09:07:37
追伸
Mb様にはまず
>>588 あたりをちゃんと説明してほしいです。
>>606-608 は言語処理をなにか他の分野と勘違いしている(根拠:テラバイトのデータ、perlで処理、等)、おかしな人の書き込みですので
スルーで良いでしょう。
>>610 辻井先生によれば...
>>576 >辻井先生の解説によれば、言語研究には
>(1)コーパス言語学: データから帰納的にルールを導く
>(2)理論言語学: 文法という系を中心に演繹的な研究を行う
>(3)計算言語学: 計算機の膨大な記憶/処理能力を使う
「計算機の膨大な記憶」と「コーパス言語学」は、「テラバイトのデータ、
perlで処理」と無関係ではない?
テラバイト・オーダーのテキスト・データをperlで解析(?!)というと、DNAの相同性解析などのbio infomatic分野のネタ、 テラバイト・オーダーのテキスト・コーパスというと、インターネット検索などの情報検索アルゴリズム分野等のネタ。 後者ではマイナーな所や研究開発領域で自然言語解析技術を応用している所もあるが 本質的に規模&速度命の世界だからなぁ。Perlで処理なんてチョー受けるよ(ワラ そんなにperl好きなら、bio infomaticか、北大病院のメンテでもやったらぁ?
613 :
追伸 :2005/09/25(日) 14:13:16
もし万が一(笑)、上に俺が書いたのをオマエが引用した、辻井センセの解説の出所がわかるようなら(笑)、 同じ著者の新しい本を読んでみたらどうよ? こないだ某所で著者お会いしたら、もう言語モデルはおやめになって、今は検索技術に集中されているそうだ。
この辻井っていのは、新しい本を書いてるのか? amazonで調べても、1999年のしか見つからんが。 1999年の東大出版の2冊は読んだが、中身はたい したことない。
615 :
デフォルトの名無しさん :2005/09/25(日) 22:16:18
ていうかcで言語処理部分をゴリゴリ書く奴はマゾか?
>>613 >もし万が一(笑)、上に俺が書いたのをオマエが引用した、辻井センセの解説の出所がわかるようなら(笑)、
1999年の東大出版の2冊のどちらかで、読んだ記憶がある。
2冊とも、たいしたことないので、ゴミ箱に捨てたが。
>同じ著者の新しい本を読んでみたらどうよ?
新しい本は、お前の脳内出版会から出ているのか?
辻井も、お前のような馬鹿ばかりが弟子だと思うと、
多少、哀れに感じる。
617 :
デフォルトの名無しさん :2005/09/26(月) 00:05:22
馬鹿スルー
Speech and Language Processing: An Introduction to Natural
Language Processing, Computational Linguistics and Speech
Recognition (Hardcover)
by Daniel Jurafsky, James H. Martin
著者のDaniel Jurafskyは、スタンフォード大学で言語学科とcomputer science
学部のテニュア準教授。2002年にマッカーサー賞(別名"genius awards")を受賞
している。(北米大学のランキングにノーベル賞とともにマッカーサー賞
の受賞者の数が使用される。)
ttp://64.233.167.104/search?q=cache:pw61sQUsMg4J:www.infoslurp.com/information/MacArthur_fellowship+Daniel+Jurafsky 日本には、Jurafskyのように自然言語処理と言語学の両方が
分かる研究者はいない。日本の「自然言語処理」屋は、言語学が
ほとんど分かっていない。
>こないだ某所で著者お会いしたら、もう言語モデルはおやめになって、今は検索技術
>に集中されているそうだ。
そうは言っても、東大にはGoogleの研究所がない。Googleの研究所があるのは
UCバークリー。UCバークリーは、Jurafsky(学部は言語学科、院はcomputer science )
とラリー・ウォール(院が言語学科)の母校。Jurafskyは、perlを使っているよ。
>>613 >もし万が一(笑)、上に俺が書いたのをオマエが引用した、辻井センセの解説の出所がわかるようなら(笑)、
捨てたと思っていたが、学生用に1冊残っていた。北研二『確率的言語モデル』
(1999年,東大出版会)のp.205にこのオッサンの文章が載っている。
>同じ著者の新しい本を読んでみたらどうよ?
学生用に1冊買うから、早く「新しい本」にタイトル/出版社を教えてくれ。
ペラペラよく喋るがやっぱバカはバカ。 ・外国人で初めてマンチェスター大の計算言語学センター長を務めた人物を知らないのは、ハッタリが厚かましいオマエだけだ(ぷげら ・その人物が、情報検索アルゴリズムの本書いたと思い込んでるのもオマエだけだ(ぶげらっちょ オマエは人に議論ふっかける権利などないバカだから、もうレスしなくていいよ(マジ
>>623 >その人物が、情報検索アルゴリズムの本書いたと思い込んでるのもオマエだけだ(ぶげらっちょ
『情報検索と言語処理』(1999年、東大出版会)でも、編者として名前が載ってゾ!
>同じ著者の新しい本を読んでみたらどうよ?
じらさないで、早く教えてくれ。
>>623 大筋同意。
掲示板に変な書き込みするのが居るという噂は学生から聞いていたが、
実際に、辻井先生の名前を知らず、東大出版会のつづりも満足に書けないのを見て、呆れ返った。
この人物はきっと、あちこちで荒唐無稽な主張をして皆に叩かれるのが唯一の社会生活であるような
悲惨な暮らしを送っているのだろう。
あるいは、万が一この人物が自然言語処理研究者を詐称して、官公庁や大学関係者、民間人を欺き続けているとしたら。
賢明な皆さんは、そんな手合への対処方法をもうご存じの事だろう
>>625 >東大出版会のつづりも満足に書けないのを見て、呆れ返った。
脳内出版会の「脳内」というのは、2チャンネ用語で、発言者の
(狂った?)頭の中でしか存在しないものを揶揄して使用する
表現です。偉い先生は、知らないのかな?
辻井先生の「新しい本」
>>613 がamzonの検索でも探せない
ため、発言者の「脳内」だけに存在する書籍かと思い、皮肉り
ました。
↑リアル異常者は放置の方向で。 あと、自称Mb氏はさっさと釈明をするように。
628 :
Mb :2005/09/27(火) 09:18:13
>> 597 > Mb説明しろよ 済まぬ。サーバが規制喰らってて書き込みが不能だったのだ。 > たとえばMb氏が、形態素解析の話題に、いきなり係り受けの話を > 持ち出したのも、 実は連接可能辞書だけでは複雑な係り受けを > 含む文を正しく形態素解析できない、 と言う話かもしれません。 > (要確認) 日本語は「連体修飾節の後の体言が頻繁に省略される」こと、 「格の指定が語順によらず格助詞による」こと、 「述語の連体形の後にくる格の推定は、格の一意性によるしかない」 ことなど、いろいろややこしい問題があるので、係り受け関係が 複雑になってくると、連接可能辞書“だけ”で形態素解析を 押し通すのにはちょいと無理があるのだ。 てなワケで、曖昧性の排除には「非交差則の利用」とか「動詞ごとの 要求する格のリスト」「出現頻度情報」などの情報が必要になってくる。 まあ、「入れない」がハイレナイかイレナイか、「出入り」がデイリか デハイリか、なんていうのはどーにもなんないワケだが。
629 :
Mb :2005/09/27(火) 09:29:37
> ところで、形態素解析と係り受け解析を同列に語るのは > 一体どこの流派なのだろう? Prolog 使ってる一派、かな。「ホーン節とユニフィケーションと バックトラック」以外に制御の方法が実質的にないので、形態素 解析も構文解析も基本的に同じ手法で解決するしかないから。 漏れは、形態素解析に使われている既存の手法(たとえば 接続テーブル法)があまりに泥臭いので、構文解析で一般的な手法と されているチャート法で構文解析システムを実現し、形態素解析と 構文解析の垣根を取っぱらった……つもりだったが、「格の一意性」 や「明示的に格が示されない体言の格の推定」をどう盛り込むかで、 けっきょく詰まっているのだ。
630 :
Mb :2005/09/27(火) 09:46:48
>>578 > 「記述文法の精度の低さを共起確率以外の方法で克服した形態素解析
> プログラム」は、(中略)実用レベルで一般に供給されているので
> しょうか?
製品としてはrStone-JE という辞書引きソフトに使われていたし、
C で書いた奴はアスキーの出版技術部(日本語TEXを開発していたところ)で
編集用のツールとして使われていた。「紅玉(Ruby)」という名前で
文法(スクリプト形式)・辞書(バイナリではなく原テキスト)・
プログラム(C のソース)を含めてフリーで配っていたこともある。
現在は Java に移植して動いていて、フリー&オープンソースで配布も
していたが、Java を覚えたての頃に書いたプログラムだったので
ダサダサであり、このままだと収拾がつかなくなりそうなので現在改定中。
631 :
Mb :2005/09/27(火) 10:05:33
追伸) 自然言語処理システムを開発・導入する前に、動詞の活用を 処理する簡単なプログラムを書き、文語動詞・現代語の動詞の活用が それぞれ正しく処理されることを確認しつつ、自分用の動詞辞書 (せいぜい二百語あればいい)を作成し、辞書管理のコツを掴むこと。 末尾音が母音(i,e)→一段活用・二段活用、末尾が子音→四段活用 という規則が文語にはあったが、現代語だと「いわゆる五段ワ行」が 「末尾音が母音(a,o,u)なのに活用は五段」というワケわからんことに なっているので、ここんところをしっかり頭に入れておかないと、 用言辞書の管理で破綻する。文語の要素は方言や敬語などの形で、 かなり現代語に入っているので、ここをちゃんとやっとかんと 解析精度が上がらん。
632 :
デフォルトの名無しさん :2005/09/27(火) 12:15:58
Mb氏はさらに詳しく説明を続けるように。
633 :
デフォルトの名無しさん :2005/09/27(火) 12:38:38
言語から完璧な規則を人間が手動で作るなんて無理なのでは?
634 :
デフォルトの名無しさん :2005/09/27(火) 12:51:40
635 :
Mb :2005/09/27(火) 15:20:32
【用言辞書作成時の注意】 旧四段活用ハ行音末尾動詞のうち、現在五段活用ワ行音とされている a音末尾動詞は、「笑う」「買う」「歌う」のような「語幹が漢字表記の 動詞」と「からかう」のような「ひらがな表記の動詞」を分けて管理 したほうがいい。でないと「笑(わら)った/笑(わろ)うた」 「買(か)った/買(こ)うた」「歌(うた)った/歌(うと)うた」 のようなウ音便の処理が厄介。 同じことが「早い」「赤い」「高い」のようなa音末尾の形容詞にも 言える。
636 :
Mb :2005/09/27(火) 23:30:05
637 :
デフォルトの名無しさん :2005/09/28(水) 10:20:07
日本語正規表現が分かりません。例えば、以下のjukugo.txtから --------------------------------- 言葉 ことば 葉脈 ヨウミャク 言語 ゲンゴ 脈絡 ミャクラク 語学 ゴガク --------------------------------- 各行において、[言]という語を含んだ熟語のみを抽出して、一行ごとtmp.txtに書き込みというやり方なのですが。。例えば、 moji = "言" pattern = Regexp(str) というやり方ではできませんでした。オプションをつければ良いらしいということは本に書いてあったのですが、できません。。
>>624 『情報検索と言語処理』(1999年、東大出版会)でも、 * 編 者 * として名前が載ってゾ!
>>623 > > その人物が、情報検索アルゴリズムの本 * 書 い た * と思い込んでるのもオマエだけ
>>624 じらさないで、早く教えてくれ。
>>623 > > * 同 じ 著 者 * の新しい本
> > 情 報 検 索 ア ル ゴ リ ズ ム
Mb様、御説明をどうもありがとうございました。 相変わらずおかしなのが礼儀知らずな合いの手を入れてますが、 どうぞお気を悪くなさらずまたこのスレにおいで下さいませ。 新しいJava版プログラムの開発、期待しております。私はこの研究開発分野ではまだ若輩者に過ぎませんが、もし御力になれる事がありましたらご連絡下さいませ
>>613 >もし万が一(笑)、上に俺が書いたのをオマエが引用した、辻井センセの解説の出所がわかるようなら(笑)、
>同じ著者の新しい本を読んでみたらどうよ?
613は、「情報検索アルゴリズム」の本とは、言っていない。
>>622 >学生用に1冊買うから、早く「新しい本」にタイトル/出版社を教えてくれ。
622は、「情報検索アルゴリズム」の本とは、言っていない。
単に、辻井先生の「新しい本」(分野は問わない)を読んでみたいの。(荒れないでね)
642 :
デフォルトの名無しさん :2005/09/28(水) 14:08:05
もうおじいちゃんだから新しい発想は産まれなさそう。。。 40代の研究者でおもしろい人の本がいいな
あり得ない無知さ加減と思い込みを指摘すると 今度は開き直りか。 つくづくおめでてぇなぁ。 だから最初から、 辻井先生が解説を書いた本 (この時点で辻井先生の著作ではない事が明確になっている) の著作者の新しい本 と言っているだろう? 貴方の御専門がナニか存じないが、とりあえず 1.日本語の読解力を付ける事 2.見苦しい言い訳を重ねて周囲の失笑を買わないようにする事 をお勧めする。 あまりオイタが過ぎるようだと、そのうち数学者高山センセの日記ネタにされちまうかも
>>643 >辻井先生が解説を書いた本
>(この時点で辻井先生の著作ではない事が明確になっている)
どの時点だか、発言番号と該当箇所を教えてくれ。
(荒れないでね。)
>もし万が一(笑)、上に俺が書いたのをオマエが引用した、辻井センセの解説の出所がわかるようなら(笑)、 >同じ著者の新しい本を読んでみたらどうよ? なるほど、「同じ著者」が「辻井センセ」を指し示すのではないのね? 自然言語処理で、上の文の「同じ著者」の解釈を行う場合、「俺」、「オマエ」、 「辻井センセ」の3つを候補にして、最終的に「辻井センセ」を選択する ように作り込むはずだが、その標準的な手法が使えない訳ね? 「出所」には、その「出所」の著者がいるから、それの著者も候補に入れて、 最適な解釈を行う、ということか? 機械処理では難しいかな?
馬鹿スルー さてと。 そろそろ駒場大数理科学研究科論博(自称)が書いたと称する学位論文が手元に届く頃合か。 実物よりも論文の中の人のほうが賢かったらどうしよう?(極めてありがち)
647 :
デフォルトの名無しさん :2005/09/28(水) 15:10:34
論博論文の中に複数の人が居ることもありがち
論博で不正をする人など居るわけないでしょ。 アレは、来日した目下の国家元首を叙勲するのと一緒で、 うるさくて聞き分けのないおっきなお友達を黙らせるために、教授会が投げ与える臣下の印みたいなもんだ、 どうみても無理のある論博の多くは。
>>645 長尾先生が10年近く前に出された分厚い本の7.1章、7.2章あたりの話題だな。
でも結局、一般常識や、対象領域に関する前提知識、はたまた正常な推論機能が欠落していると、
人間でも正しい照応をとれない。というサンプルが
>>645 なわけだ。
あり得ない照応に固執して、正しい答えを見逃すとは、
とんだ天然無能だな。
話が判ったら、もう二度と大人の会話に口出しするのは止めて、
さっさと巣にカエレ(藁
650 :
デフォルトの名無しさん :2005/09/28(水) 16:13:51
いやむしろ、
いくら文章生成能力があっても、
対象領域に関する知識ベースや専門用語辞書が空っぽなまま横柄な口を利き続ける人工無能は、
まともな学習データにも教師信号にもありつけず
しょうがないから教師無し自己組織化で妄想ワールドを作り上げる
というサンプルだろ
>>645 は。
どれが誰だか分からんからコテハンつけろ。
安心しる。 おまい以外誰もそんな事気にして無いから、必要ねぇよ(ケラケラケラ
人口無能が混ざっているみたいだけど 2chでチューリングテスト禁止。
天然無能の書き込みはスルーで
655 :
デフォルトの名無しさん :2005/09/28(水) 20:15:31
656 :
デフォルトの名無しさん :2005/09/28(水) 21:45:38
ウルセェなぁー(笑 物理屋や数学屋、あと計算機屋ってぇのは伝統的に、 対象を正確かつ直感的に語るためには、自然言語の慣習を破る事も辞さないもんなんだよ。 嘘だと思うなら「御冗談でしょう?ファインマンさん」シリーズの原書を調べてみろ。
出た「俺の根拠はお前が調べろ」
659 :
デフォルトの名無しさん :2005/09/28(水) 22:39:26
馬鹿スルー
>>656 おぃおぃ、異常者にエサを与えるな。
そいつ学歴と知能指数と専門知識に異常なコンプレックスを燃やす、
2ちゃんでも有名な嫌われ者の精薄なんだよ。
とにかく一切構わず相手にすんな。
なんつーか、口調が物凄く頭悪そう。 人とコミュニケーション取る気ないのかね。
なるほど。 公的機関から助成金受けながら「できませんでした」で逃げて会社を畳み、 懲りずにまた別のネタで金集めして他人に迷惑掛けまくる(予定の)香具師は、 2ちゃんでの言動も香ばしい事よのう。
間違ってるのを言い訳し続けるのはありがちでかっこ悪いけど、 正しい事実を態度悪く書くだけで同レベルになってしまう不思議。 あんまり人目を気にしないのかな?
それは誰の事だろう? 漏れは放送文化事業団の助成金など貰った事ないし。
665 :
Mb :2005/09/28(水) 23:22:27
>>640 > 新しいJava版プログラムの開発、期待しております。私はこの研究開発
> 分野ではまだ若輩者に過ぎませんが、もし御力になれる事がありましたら
> ご連絡下さいませ
この分野(記述文法)では、七十・八十で現役の先生方がぞろぞろおられる
ので、漏れも「おしめも取れてない」とか「尻が青い」とか言われていい
年代だ。「若輩者」とかいって遠慮してると「腰が引けてる」とかいって
どつかれるので、漏れを見習ってでかい面をするように。
ついでながら連絡しようとしたらハネられたので、本気でその気がある
なら連絡するように。
666 :
デフォルトの名無しさん :2005/09/28(水) 23:26:52
あと、情報量0でぐちぐち議論をかき回してる構ってチャンも、完全スルーな。 オマエと話してもナニも得る所が無いんだよ。平日昼間っから2ちゃんに入り浸りのゴミクズ風情が。
667 :
Mb :2005/09/28(水) 23:34:51
> 平日昼間っから2ちゃんに入り浸りのゴミクズ風情が。 スマソm(_ _)m。それ言われると漏れもゴミクズだ。 記述文法の世界というのは日本国内に研究者が二十人いるかいないかという 程度にむちゃくちゃ狭いので、2ちゃんで愚痴るくらいしかストレスの 捌け口がないのだ。 自然言語処理スレに真面目に顔出しているような輩はおおむね「知人の知人」 程度の仲であり、どーせクズは全く眼中にないので放っといてやれ。 メアド晒しても喧嘩売ってくる度胸もない連中だし。
>>662 >公的機関から助成金受けながら「できませんでした」で逃げて会社を畳み、
>懲りずにまた別のネタで金集めして他人に迷惑掛けまくる(予定の)香具師は、
巨額な研究費を使ったのに、研究成果が得られなかった元ICOTの研究者
を批判しているのでしょうか?
669 :
Mb :2005/09/29(木) 00:00:56
> 巨額な研究費を使ったのに、研究成果が得られなかった元ICOTの > 研究者を批判しているのでしょうか? Tuned by 『青春時代』 1)期限以内の 十年で 答えを出すと 言うけれど 知能の果たした 役割を 何で測れば いいのだろう *第五世代が 夢なんて 世間は勝手に 言うけれど 第五世代の 真ん中は 何も解らぬ 事ばかり 2)論理はすでに 美しい 時代を過ぎて しまったか 私は堅気(かたぎ)の 職を捨て AI(あい)に苦しむ 人となる *(繰り返し)
670 :
デフォルトの名無しさん :2005/09/29(木) 00:15:11
自然言語処理の分野の人って言うのは、なんか変な人多くないですか? このスレも自然に荒れてるし。
671 :
Mb :2005/09/29(木) 00:29:19
> 自然言語処理の分野の人って言うのは、なんか変な人多くないですか? そもそも自然言語処理のベースになる「文法」っつーのは、言語の 使用者にとって“自明”であって、考察の対象にならないのが普通なんだよ。 機械翻訳や文語文法の専門家を除けば、文法というものは、本来意識され ないものなんだ。 まして、我々の日常語である現代口語日本語の記述文法なんてものに 興味を持つ人間というのは、「変な人」以外ではありえないんだ。 自然言語処理の分野で実質的な成果を上げた人の九割は、 「言語」というものを客体として捉えることに長けた、 高機能広汎性発達障害だと漏れは断言する。
672 :
デフォルトの名無しさん :2005/09/29(木) 06:49:43
変な人であることに執着し続けているさまが「私は他の人とは違うのよ!」的な主張が見え隠れしてキモイ 自然言語だけが特別なんじゃない 研究者はみなそんなもんだ
視野が限定的過ぎて、他人と真っ当に会話できないのは研究者もオタクも一緒だな
いや、とりあえず一緒に仕事する研究者なり開発者なり営業と話が通じればおっけなわけで。 #それすら通じないのが居るという事実は伏せておく方向で。
675 :
デフォルトの名無しさん :2005/09/29(木) 10:51:25
で。 メールを送ったわけだがw
676 :
デフォルトの名無しさん :2005/09/29(木) 20:15:36
678 :
デフォルトの名無しさん :2005/09/30(金) 20:11:42
ちらしの裏だな
680 :
デフォルトの名無しさん :2005/09/30(金) 20:16:32
高山ってオッサン、もう9年も論文出てないし有名じゃないのに どうしてここで引用されるのか 本人か?w
へぇ〜。やっぱ就業もせず2ちゃんに張り付いている馬鹿は風評を信じるんだねw 俺の聞いた話では、9年前にComputer Scientistは止めてMathematicianになったから、 一部の馬鹿が勘違いして騒ぎ立てているだけだと聞くけど。 またこの馬鹿は一分で即レスしてくるのかな(うひょひょ
> どうしてここで引用されるのか その理由は、彼は構成的論理プログラミングの経験があり、 なおかつ確率的言語モデルに一言持っている有名人だからですw
無名だよ
>>683 やめなって。
こういうタイプは自分の価値観が世界標準だと思ってるんだから。
685 :
デフォルトの名無しさん :2005/10/01(土) 10:33:04
自然言語処理スレッドでせっかく確率言語モデルの話題振ってるのに、 徹底して低レベルなレスつけてる馬鹿が居るな。 そーゆー人生送っていておまえおもしろいのか?
高山先生って、「駆け出し数学者ドイツに行く」って本を書いた人でしょ。 海外留学に関心がある人の間では、そこそこ有名人なんじゃないかな
687 :
デフォルトの名無しさん :2005/10/01(土) 13:25:28
ベイシステクノロジーのライブラリを使ったことある人いる? 精度はどれくらいかな?
それにしても、最近では極めて精度の高い機械翻 訳がリアルタイムでできる所まで 技術が進歩しているようである。私が機械翻訳をかじった頃から思えば夢のようなこと である。法則の存在し得ない所で何年も頑張り、数理科学的に見ればアドホックで 強引なやり方で問題をねじ伏せるというのは、工学者の偉いところである。こういう 世界に入っていけるかどうかが、数学出身の計算機科学者が「ひと皮むける」かどうか の試金石のひとつではないかと思う。この「ひと皮むける」ことを、「数学を忘れて堕落 する」と言い替えて良いものかどうか、私は知らない。
自己の研究で、EDRを利用されている方は いらっしゃいますか? どのような用途で 利用されていますか?
現在のEDR辞書の配布元は、旧通総研(今の名前忘れた)と聞いているが、 入手には一体幾ら掛かるのだろう? つか、今は実費程度と考えていいのかな?(詳しい方よろしく。) あと、EDRを使った人の話はあまり聞いた事がないし(ニヤニヤ)、 長尾先生の本にも問題が多少あるような事が書かれているし(キッパリ)、 漏れはあまり食指が動かんな。 (本気で普及努力しているように見えない・・・何かマズイ事でもあるのか(笑、)
691 :
デフォルトの名無しさん :2005/10/01(土) 22:55:30
結局あーゆーのは、奈良先端とか京大東大とか自然言語処理プログラムをオプソで公開してる所にきちんと売り込めていないと、 技術的にも信頼性の点でも、一般の開発者には普及しずらいと思う。 ところでアレの開発には幾ら掛かって、費用は誰が出していて、一体誰が儲けたのでしょうね?そして、本流の研究者/開発者はアレをどんな目で見ているのでしょうね? ・・・そこらへんのキナ臭さ、胡散臭さは、ICOTよりもシグマプロジェクトや再雇用促進事業団に近いような印象がないでも・・・あっナニをする、やめろー、俺は仮定の話を
>>691 >ところでアレの開発には幾ら掛かって、
もしかすると、米国のWordNetよりも多くの予算がつぎ込まれて
いるかもしれない。米WNは、オープンソースで、欧州諸言語版の
一部は、有料のようだ。
日本語を対象としたWordNetっていうのは、無いのかな? 多言語
のオントロジーが利用できるので、便利だと思うが。
元関係者だが、一部は国が援助してる
EDRには、150億円以上の予算が使われた、と聞いたこと (読んだこと?)がある。
695 :
デフォルトの名無しさん :2005/10/01(土) 23:20:19
研究者へのばら撒きは歓迎だね
696 :
デフォルトの名無しさん :2005/10/02(日) 00:11:46
>>691 なるほど。
つまり、アレのお役所側関係者にしてみれば、
・アレが、研究や実用とは乖離した無駄な投資として
会計検査院に指摘されるような事はない、
非常に実用に密着した、実用ニーズのある代物だ
と証明する必要に迫られていて、
そのためには
・アレを使った実用例を示す
か、あるいは
・アレを実用で使おうと努力したアリバイを残す
必要に迫られているわけね。(妄想100%)
だからアレとアレがあれしてこれしてあーなっているのか。納豆食ぅー。(妄想120%全壊)
>>688 高山先生エッセイのコピペ乙。
前提条件抜きですべての場合に通用する万能な数学モデルというのが、
言語に関してホントに存在すると思っているとしたら、高山せんせは随分ナイーブな方だ。
言語のように、音と文字という二種類の表現を持ち、
人間の思考活動や社会文化活動の時間的変遷の上に成り立っている体系では、
それらバックグラウンドの影響を丁寧にときほぐして、法則の有効範囲を限定しないと、
そもそも法則など成り立たない、という事を「アドホック」と貶めているだけに見える。
>>698 いや、高山センセは、自分はそーゆー仕事に向いていないが、
そーゆーアドホックに見える作業を続ける言語情報処理研究者に一定の尊敬の念を示しているのだろう。
>>696 果たしてそんなに簡単な話なのか。
憶測で人を悪く言うのは簡単だ。
だが、必ず道が開けると信じてEDR辞書を作り、
そしてその努力が決して無駄ではなかった、
自分達は決して無駄な作業をして怠けていたわけではないと、
あがき続ける姿にこそ、真の工学者の姿があるのではないだろうか。
ネタにマジレス乙
701 :
デフォルトの名無しさん :2005/10/02(日) 00:42:30
702 :
デフォルトの名無しさん :2005/10/02(日) 07:03:19
元データがEDR辞書っつうのが泣けるな。 もっとも、これ相当のデータを○人月 (○は限りなく1に近い)で作れ!!!とか言い出して、 「三省堂の『日本語動詞の結合価』買えばぁ?」と返したら切れまくったアフォに比べりゃ、 随分まともに見えるけど
705 :
Mb :2005/10/02(日) 07:52:38
EDRの発表はたしか青山の東京ガスかなんかのホールで行なわれて、 「この金額じゃ個人や零細の研究者にゃ手は出んな」と思って ガックリ来た記憶がある。 会場に『新漢英辞典』の著者で日本一輪車協会の会長、春遍雀来 (はるぺんじゃっく)さんが来てたのが印象的だった。
そーゆー公的投資が行われた資料の購入には、助成金を活用するのが一番だと思う。(還流経済っぽくてナンセンスだけど)
707 :
デフォルトの名無しさん :2005/10/02(日) 10:59:20
>>698 >前提条件抜きですべての場合に通用する万能な数学モデル
確率モデルを生成する方法はすべての場合に通用するけど、
その確率モデルの精度が実用レベルかどうか、現状よりも優れたモデルをどのようにして作るか、
というのは今後も課題だろうね
バイオインフォマティクスあたりのパターン認識の連中が
超巨大なデータを効率的にモデル化しようとする試みが
自然言語処理にも還元されると面白いかなーと
大学院で統計物理やったオイラの見解。 そもそも素過程(統計対象となる個々の事象)に関してある程度厳密なモデルが成立しないと、 正しい確率モデルってのは成立しないんじゃないかと思う。 統計物理の場合で言えば、それまで統計的現象として観察されていた熱物理や材料工学を、 粒子間相互作用の統計的描像として再構築し、あるいは統計から素過程を推測する筋道を確立した事が、重要だった。 もちろんまだ統計物理でうまく扱えていない対象もあるが。(例えば超伝導) ひるがえって自然言語の確率モデルはどうだろう。 ・隠れマルコフモデル: 日本語のような膠着語かつ依存文法の言語であっても、 形態素の並びには一定の法則性(品詞/活用形/例外的な形態素)が見られる筈だ。 ・格フレームモデル: 係り受け解析では、名詞の格を決める格助詞や、名詞、動詞の概念的関係が重要 なので、それを辞書データとして半自動もしくは人手で作成する。 ・接続詞と文間関係: (略) etc, etc. 最初の一個を除いて、とても確率的モデルとは言えないような代物だ。 むしろ、統計的手法を駆使して、統計的に言語文法を再構築する試み、と言い切ってしまった方が良いのではないか。 バイオインフォマティックスのパターン認識だとか超巨大データだとか言い出してるのは、 相変わらず頓珍漢だからスルー。
713 :
デフォルトの名無しさん :2005/10/02(日) 16:16:52
得意そうにgoogleの検索結果をひけらかす前に、 まず長尾先生の分厚い本を購入する事をオススめする。 よくいるんだよなぁ、 形式文法(辻井先生の分類の(2))と、 自然言語解析(同(1))の区別も付かないのに シャシャリ出てくるスカポンタンが
>>713 なんだバイオ/医学文献のテキストマイニングの話題か。
その分野なら随分前から話題に上っているな。
人ゲノム解析関連分野の報告が毎月膨大な分量にのぼっちまって最早、
人間技では研究の最先端状況が把握出来なくなっているという(笑。
たしか国内メーカ系SIerでNLP撤退とかいってたアソコや、財閥系SIerでこの分野の基本特許出願したアソコも、bio業界向けNLPをやってたと思う。
テラバイト単位とかPerlでとかいうのは素人妄想だと思うが(爆笑
716 :
Mb :2005/10/02(日) 19:14:59
>>710 > 新漢英字典って初めて聞きました。
> どんな目的で使われるものなのでしょうか
「在日外国人が日本の漢字の意味を知るため」です。
ハルペン・ジャックさんはクロード・チアリさんや
ツルネン・マルテイさんやピーター・フランクルさんと
同じく、ぶっちゃけそこいらの日本人より日本人な
(つーか国籍が日本だから、まんま日本人なんですが)ヒトです。
>>715 >なんだバイオ/医学文献のテキストマイニングの話題か。
「生成語彙」(1995)で有名なPustejovskyは、LREC2002での
特別講演で「バイオ/医学文献のテキストマイニング」の話を
していたね。「生成語彙」が「テキストマイニング」とどう関係
しているのかが、俺にはよく理解できなかったが。
日本語でGenerative Lexiconの枠組みの研究を進めているグループは
ありますか?
うわ、ようやく新しいお勉強ネタが出てきたな。
なんか似たことをやってる気がするんだけど、どこに質的な違いがあるのかよくわからんw
Pustejovskyの本、八重洲ブックセンターにあるかな。
いやその前に、「院生/実務者にも判る生成語彙」みたいな日本語の解説書見つけなきゃな。
>>717 漏れはハッタリとか不得意で、正直ベースで対応しますが、なにとぞよろしく。
最近の座右の銘は「爽やか系逝け面」だったりするw
>>718 >うわ、ようやく新しいお勉強ネタが出てきたな。
最近だとこれ:
http://www.issco.unige.ch/gl2005.html 日本人が一人、Program Committeeに入っている。
Hitoshi Isahara (National Institute of Information and Communications Technology, Kyoto)
この研究機関が、日本でのGLの中心か?
NII指して「この研究機関」はないでしょ、「この研究機関」わ。 やっぱり・・・
やっぱ図書館から八重洲に走るのは取りやめ・・・た方がよさそうな気配が
>>721 NIIは 〜 of Informatics
そもそもNIIの所在地は千代田区一ツ橋。
>>721 >NII指して「この研究機関」はないでしょ、「この研究機関」わ。
このページの下にあるSponsorsでは、NIIとは表記せずに、NICTとなっていた
http://www.issco.unige.ch/gl2005.html >National Institute of Information and Communication technology (NICT), Japan
>>721 >NIIは 〜 of Informatics
NIIとNICTとは別の研究機関ではないか?
(InformaticsとInformationもちがう。所在地も違う。)
Googleの検索結果 0件:NICT +”National Institute of informatics and Communication technology” 143件:NICT +”National Institute of information and Communication technology” AmazonとGoogleのデータを利用している人工無能ElizaのQA機能は、 NICTの"I"は"information"の頭文字だと判断した。
馬鹿スルー。 頭おかしいのが平日昼間っから google検索結果を必死で書き込んでくる展開はもうたくさん。 上の方でEDRの移管先説明したばっかだというのに この馬鹿は何をトンチンカンな事くどくどと言い続けてるんだ
NICTをNIIと混同する方もバカだが それを指摘したレスをそうと読み取れない奴もすげーバカ。
728 :
デフォルトの名無しさん :2005/10/03(月) 18:55:30
馬鹿スルー。 スレ汚すな浮浪者
浮浪者って2chできるの?
馬鹿スルー。 NICT=情報通信研究機構=旧郵政省通信技術総合研究所 NII=旧文部省国立情報学研究所 前者は衛星関係やってた時に、センサを分担したり、研究者の移動があった先だから、 多少は知ってる。 後者は、職場の上司が一緒に仕事してた研究者が移籍した先だから、やっぱ多少知っている。 所詮知ってるだけで、直接一緒に仕事した事はないがw
馬鹿スルーばっか繰り返す馬鹿スルーw
734 :
:2005/10/03(月) 23:46:54
735 :
デフォルトの名無しさん :2005/10/03(月) 23:59:12
>>717 私が欲していたキーワードを挙げて頂きまして、誠にどうもありがとうございます。
本日早速、Pustejovsky, "Generative Lexicon", MIT Prs. 1995 を注文し、
日本語解説文書として郡司隆男 他, 「岩波講座 言語の科学(4) 意味」, 岩波書店 1994 を購入致しました。
(くろしお出版の本は、本日は見送りました。言語学の本を探すのに三つのフロアーを探すのが面倒でだったもので)
岩波講座の本は、第四章をNAISTの松本先生が執筆しており、4.3(b)節に生成語彙の解説が載っていたので即買いでした。
で、自分なりの生成語彙の解釈は・・・。恥ずかしいからもうちょっと寝かせてから語る事にします(ポッ、顔真っ赤。
やっぱ八重洲ブックセンターはいいなぁ。お姉さん親切だし、近所には同類おねえたんがイパーイうろちょろしてるし。
業務連絡:チビッ子チームの彼、この本に目を通しておいた方がイイよ。お兄さんは言語の科学シリーズをコンプリートする予定だ
736 :
735 :2005/10/04(火) 00:01:39
誤植訂正。 1. 「意味」の発行年度は2004。 2. このスレ的に漏れはお姉たんでした。スマンコ
ルネ・トムの「ことばのカタストロフィ」教えてくれたMb氏といい、
Pustejovskyの「生成語彙」教えてくれた
>>717 氏といい、
このスレはすごくいい人が多いですね。
・・・まさか2ちゃんがこれほど役立つとは思ってもみませんでした。
諸先輩の皆様、どうかこの私を調教すると思って、
イロイロ教えてください。お願い☆チュ
にこーり、うずうず。きゃはははは
上の方で、平日昼間っから検索エンジンの結果を必死で書き込んでた匿名の彼、 昨晩は静かだと思ってたら、影であたしのメアドに迷惑メールを14通も送ってた(こわ まあ全部、某社のベイズ・フィルターが却下してくれたけどね(ていのー 熱烈ラブコールありがとぅね。でもあたしはサルと付き合うつもりないの。残念ね(きゃはははは
742 :
Mb :2005/10/04(火) 21:58:29
> ……まさか2ちゃんがこれほど役立つとは思ってもみませんでした。 つーか「公開型の BBS」が、だろうな。 雑音を除いてみれば、メディアとしての独自性・有効性はかなり高いと (草の根BBS出身の漏れとしては)前々から思っているのだよ。 もはや絶版になって久しいと思うが、どっかの古本屋で アーサー・C・クラーク先生とピーター・ハイアムズ監督の 『オデッセイ・ファイル』(書籍だ)を見つけたら手に取ってみてくれ。 “電子掲示板”も“電子メール”も一般的でなかった時代に、 コンピュータというメディアに我々がどんな希望を抱いていたか、 解ってもらえると思うから。
うん。 漏れも某大手BBS運用元で サイボウズと同時期にライバル商品企画したり、 はたまたhotmailと同時期にAjax風Webメール開発してた当時から、 BBSってスゴイと思ってた。 つか、冷戦&終末観&反戦ピースの時代に インターネット企画した人って凄いと思う。 優しい心は、きっといつか、人を動かすんだね
EDR辞書め、税金垂れ流しで使っときながら、個人じゃ買えない 値段で売るとは何事だ!即刻フリーにしろ! って誰も言わないのはなぜ?ここ関係者多いの?
> アーサー・C・クラーク先生とピーター・ハイアムズ監督の > 『オデッセイ・ファイル』(書籍だ)を見つけたら手に取ってみてくれ。 > “電子掲示板”も“電子メール”も一般的でなかった時代に、 > コンピュータというメディアに我々がどんな希望を抱いていたか、 > 解ってもらえると思うから。 アーサー・C・クラークは初期のパソ通のユーザだったようですね。 機会があったら探して読んでみます。 工学社「ハッカーズ」に出てくる「コミュニティ・メモリ」もなかなか良いお話です。 「コミュニティ・メモリ」とは、1970年代初頭にサンフランシスコのレコード店に設置された、 おそらく世界最初のフリーBBS(掲示板)です。
746 :
デフォルトの名無しさん :2005/10/07(金) 20:04:52
Generative Lexicon キタ―
747 :
デフォルトの名無しさん :2005/10/08(土) 11:53:45
読みやすそう?
748 :
デフォルトの名無しさん :2005/10/08(土) 14:39:30
>>717 どうもこのスレは人が少ないようなんで、
そちらのスレに移ることにします。
あっ、、、という間に脳科学関連の話題に突入かぁ。ヤレヤレ
749 :
デフォルトの名無しさん :2005/10/08(土) 18:40:58
> 位相幾何を使うっていうのはどうやって使うっていうことなのかな > ルネ・トムとかって言うなら、たとえばマルコフ連鎖を力学系として見て > そのカオス的振舞いが、とかそんな感じなのかなあ とりあえず、ルネ・トムの「ことばのカタストロフィー」は、 言語モデル面では「格フレーム」もしくは「概念依存 (Conceptual Dependency)」に相当するアイデア を提供していると理解しました。 もっとも、時空間プロセスのカタストロフィー理論的性質が、人間の時空間認識に大きな影響を与え、 最終的に「動詞と、動詞に付属する名詞の型」を類型化する、という説は飛躍があるような気がしました。 複雑系の話は興味深いのだけど、本当に言語理論と関係あるのかなぁ? > シソーラスの話とからめてくるなら、単語と単語の間の距離みたいのを算出する > (近い概念は距離が小さくて遠い概念は距離が大きい)とかってのを見たことが > あるけど、それは距離位相を入れてることになるけどそうじゃなくて一般の位相を > たとえば一つの型に属する単語全体が開集合、とかってして定義すれば > 位相数学が展開できるような気はしないでもない この件、現在悩まされている&これから悩まされる予定の人が居るような気が・・・。 工学的な見通しをよくするために、閉世界仮説に対応して閉集合の話になってるような気が・・・。 あと、型理論抜きで、展開できる話なのかなぁ?って直感的に思ってしまいます。 位相幾何に疎い私には、なんの事やらよくわかりませんが。 もし可能なら、もうちょっと詳しい説明を頂けると幸いです。
>>749 誤爆でっせ。
あえて横レスするなら、
「型理論」と「位相幾何」という異なるアプローチを取ってはいるが、
扱っている対象はほとんど同じで、表現が違うだけなのではないか?
というきがする
相変わらずオマエのネタは 検索結果ばっかだなぁ(苦笑 普通人が休みの日に他人の書き込みに一々粘着してて、愉しいのかい? このストーカー野郎
五十歩百歩にしか見えん
相変わらず必死な人だなぁ。
>>751 >生成文法
Chomskyの現在の理論を自然言語処理に応用している研究者は
いますか? HPSGなどは、日本語にも応用されているし、LFG
はドイツ語、英語、日本語の自然言語処理に応用されている。
これ以外の言語理論が使われている例はありますか?
756 :
751 :2005/10/11(火) 14:15:52
漏れ自身はその辺フォローしてないので直接生成スレで聞いてみて。
長尾先生の『自然言語処理』(1996年、岩波)に出てくる理論言語学者 は、生成文法のチョムスキー。HPSG, LFGはp.169で紹介されているが、 それそれの言語理論を提唱した言語学者の名前が出てこない。
生成スレはあんまり読みたくないなあ。けど興味あるから、結果返ってきたら ここにも教えてね。 ボクの感じだと、LCS が結構使えそうってことになってる気がする。OT はコ ンピュータに載せることも考えた割には実用が遠そう。MP はえーと生成スレ の結果待ちってことで。生成意味論の生き残りの Seuren が吠えてるのは徒花 なんだろうな。
760 :
752 :2005/10/12(水) 00:28:31
>>755 外国語の構文解析の話題ですか。
確かに興味深い話題ではありますね。
興味深い話題ではありますが・・・
上の
>>712 ,
>>751 と同様、
>>1 を丸きり無視されるのは、
無作法な振る舞いと感じます。
自然言語解析の現状として、
言語毎に使用する手法に乖離がある事を踏まえると、
別スレで議論を行っていただくのが筋と考えます。
反論も別スレでよろ
761 :
752 :2005/10/12(水) 00:32:34
762 :
デフォルトの名無しさん :2005/10/12(水) 00:36:31
>>755-759 なんだ、確率的言語モデルもタイプ理論もわからないから、
スレ違いのネタをグーグルから拾ってきて議論妨害かよ
このキチガイは。
本当に痛い奴だな
>>762 複数の人を一人と思って煽る痛い芸風はもうあきた。
>>759 LCS は日本語の辞書もできてきたし、係り受けで実用に
つなげられそうなプロトタイプはいろいろと。
>>715 おお、それと似た状況、酸化物高温超伝導フィーバーで見た事がある。
当時はインターネットもろくに普及していなくて、
「研究室にインターネット入れてもいいけど、本当に研究の役に立つんかよ。
せめてBullettIn(最新成果の要約)ぐらいネットで入手できんのか」
って実験系のセンセがこぼしてた。
当時すでに素論分野では研究活用されてたけどね。
766 :
デフォルトの名無しさん :2005/10/12(水) 12:15:16
>>758 ,
>>769 語彙概念構造(LCS)とはなかなか興味深い話題ですね。
より詳しい解説を是非お願い致します。
ちょっとググった範囲では(笑、LCSとは
・構文解析→意味解析で必要となる、
単語間の関係 (統語規則、意味規則) を網羅的に体系化したもの
・LCSの一種として、GL (Generative Lexicon)、FramNet 等がある
といった感じでよろしいでしょうか(笑
もし研究分野の本流でこれが実用化に近いとおっしゃるなら、
これを傍流でほそぼそやってるあそこの村は、もう長いことないな
ごめん、今日疲れはててて、どこまでマジでどこまでボケか考える気力 ないから、つっこんであげられない。とりあえず日本語で読める入門なら、 語彙構成構造(LCS)なら影山太郎先生、生成語彙論なら小野尚之先生で さがしてみて。それから元にもどってみると分かりやすいと思うんで。
769 :
デフォルトの名無しさん :2005/10/13(木) 08:36:01
相変わらずコアの説明は避けて通り、 amazon情報とgoogle情報だけ というあたりにどうしようもない素人臭さを感じた
770 :
デフォルトの名無しさん :2005/10/13(木) 08:37:37
771 :
業務連絡 :2005/10/13(木) 09:37:26
チビっ子チームの彼、
>>768 に目を通しておいた方がイイよ。これがお兄さんにできる精一杯の誠意って奴なんだ
772 :
デフォルトの名無しさん :2005/10/13(木) 20:17:59
Result of JUMAN Input: チビっ子チームの彼、768に目を通しておいた方がイイよ。 チビ チビ チビ 未定義語 カタカナ - - NIL っ子 っこ っ子 接尾辞 名詞性名詞接尾辞 - - NIL チーム ちーむ チーム 名詞 普通名詞 - - "代表表記:チーム" の の の 助詞 接続助詞 - - NIL 彼 かれ 彼 名詞 普通名詞 - - "漢字読み:訓 代表表記:彼" 、 、 、 特殊 読点 - - NIL 768 768 768 未定義語 その他 - - NIL に に に 助詞 格助詞 - - NIL 目 め 目 名詞 普通名詞 - - "漢字読み:訓 代表表記:目" を を を 助詞 格助詞 - - NIL 通して とおして 通す 動詞 - 子音動詞サ行 タ系連用テ形 "付属動詞候補(基本) 代表表記:通す" おいた おいた おく 接尾辞 動詞性接尾辞 子音動詞カ行 タ形 NIL 方 ほう 方 名詞 副詞的名詞 - - NIL が が が 助詞 格助詞 - - NIL イイ イイ イイ 未定義語 その他 - - NIL よ よ よ 助詞 終助詞 - - NIL 。 。 。 特殊 句点 - - NIL
773 :
デフォルトの名無しさん :2005/10/13(木) 20:18:46
Result of JUMAN Input: これがお兄さんにできる精一杯の誠意って奴なんだ これ これ これ 指示詞 名詞形態指示詞 - - NIL が が が 助詞 格助詞 - - NIL お お お 接頭辞 名詞接頭辞 - - "代表表記:御" 兄さん にいさん 兄さん 名詞 普通名詞 - - "代表表記:兄さん" に に に 助詞 格助詞 - - NIL できる できる できる 動詞 - 母音動詞 基本形 "代表表記:出来る" 精一杯 せいいっぱい 精一杯 副詞 - - - "代表表記:精一杯" の の の 助詞 接続助詞 - - NIL 誠意 せいい 誠意 名詞 普通名詞 - - "代表表記:誠意" って って って 助詞 副助詞 - - NIL 奴 やつ 奴 名詞 普通名詞 - - "代表表記:奴" な な だ 判定詞 - 判定詞 ダ列基本連体形 NIL んだ んだ んだ 助動詞 - ナ形容詞 基本形 NIL \ \ \ 特殊 空白 - - NIL
774 :
デフォルトの名無しさん :2005/10/13(木) 20:22:12
wincha チビチビ未知語 っ子っ子名詞-接尾-一般 チームチーム名詞-一般 のの助詞-連体化 彼彼名詞-代名詞-一般 、、記号-読点 768768未知語 にに助詞-格助詞-一般 目目名詞-一般 をを助詞-格助詞-一般 通し通す動詞-自立 てて助詞-接続助詞 おいおく動詞-非自立 たた助動詞 方方名詞-非自立-一般 がが助詞-格助詞-一般 イイイイ未知語 よよ助詞-終助詞 。。記号-句点 EOS
775 :
デフォルトの名無しさん :2005/10/13(木) 20:22:49
wincha これこれ名詞-代名詞-一般 がが助詞-格助詞-一般 おお接頭詞-名詞接続 兄さん兄さん名詞-一般 にに助詞-格助詞-一般 できるできる動詞-自立 精一杯精一杯名詞-副詞可能 のの助詞-連体化 誠意誠意名詞-一般 ってって助詞-格助詞-連語 奴奴名詞-代名詞-一般 なんなる動詞-自立 だだ助動詞 EOS
776 :
デフォルトの名無しさん :2005/10/13(木) 21:05:37
で、さぁ(ワラ 新入社員の彼ら、保険の手続きまだ終わってないみたいだけど。 本当にあんな所に人生かけちゃって大丈夫なの?
メーカの棒流子飼社からの遺跡だから、大差ないでしょ。 二、三年後、元の下位社なくなってるかもしれないし(禿ワラ
>>767-768 誰でもgoogleやamazonで拾える情報はもうイイからさぁ、
そろそろLCSの講釈始めて頂けませんか?
ってgoogleとamazonしか情報源の無いひとに言っても無駄か
自然言語処理の分野の研究は、論文等をWebで公開するのが 普通。Googleで拾えない情報は少ない。
>>778 教えて君のくせにえらく態度でかいな。w
781 :
デフォルトの名無しさん :2005/10/13(木) 22:32:40
はぁ?態度でかい? てめぇが話題振ってくるから、しょうがなし付き合ってやってるんだろうがクズ
783 :
デフォルトの名無しさん :2005/10/13(木) 22:54:25
>>767 > 今日疲れはててて、どこまでマジでどこまでボケか考える気力
> ないから、つっこんであげられない。
なんだ。もしかして
ボケが入っている
とでも思い込んでるのか。
とんだド素人だな。
大体
>>766 書いた当人だって突っ込みどころが判ってるのに、
> 今日疲れはててて
はぁ?もしかして普段は自然言語解析なんて全然やってなくて、
突っ込みどころがわかってないんじゃねぇの(ぷげら
ちなみに、突っ込みどころはすでにこの板の別スレに書いた。
>>781 別につきあってくれなくていいんだよ、このハゲ!
なんだ、やっぱり口先野郎だったんかい。
北研二『確率的言語モデル』(東京大学出版会、1999年) 「言語モデル」となっているが、形態素解析、構文解析の中心で、 構文から意味構造へのマッピングの説明がない。語義の曖昧性 解消(WSD)に関しては、短い説明だけ(pp.198-199) 意味構造へのマッピングは、どうなっているのだ?! 30年前の 「格フレーム」から進歩していないのか?
その先生、もう言語モデルから引いてるから。
788 :
デフォルトの名無しさん :2005/10/14(金) 12:46:47
>>786 あなたはどうせ毛嫌いしているのでしょうが、
単一化文法から派生した手法、たとえばHPSGでは、
「素性構造」という形で意味構造へのマッピングしてると思うけど。
あれは見なかった事にして、ひたすら確率的言語モデルにすがるのですか?
789 :
デフォルトの名無しさん :2005/10/14(金) 12:49:36
あと、曖昧性解消、格フレームつう古い話題wや、、概念辞書に関しては、 上の方で話題になっている「生成語彙(Generative Lexicon)」周辺の動きが興味深いですよ。 井の中に居た時は気付かなかったけど、 結局あなたが言っている事柄の数歩先の研究が進んでいるってこと。
790 :
デフォルトの名無しさん :2005/10/14(金) 12:53:13
>>767 > 語彙構成構造
これ、英語でなんて書くの?
なかなか興味深い単語だな
>>788 >単一化文法から派生した手法、たとえばHPSGでは、
この研究だと、ICOTの時代から、郡司 隆男さんが有名だが、
あれから20年たって、現在、日本語のHPSGを実装したシステム
は稼働しているのでしょうか?
>>791 はぁ?なんでそんな古い話題にばかり固執するの?
妙なハッタリ飛ばして人に迷惑かける前に、
過去の研究動向をちゃんと自分で調べたほうがいいんじゃない?
そんなこと匿名掲示板で聞く前に。
なんか一人息巻いてるヤシがいるよな。 別に専門家限定スレでもあるまいに。
↑↑↑
>>792 >そんなこと匿名掲示板で聞く前に
匿名掲示板でないと、気軽に馬鹿な質問はできない。
日本語の自然言語処理関連の署名入り掲示板では、
活発に議論がされているか? このスレのレスを見ると
自然言語処理の人間は興奮しやすいようなので、
署名入り掲示板でも荒れそうだ...
797 :
デフォルトの名無しさん :2005/10/14(金) 18:44:06
90年代に大学で自然言語研究していた研究者崩れが 昔の知識で語っているスレはここですか?
おまえこのスレに何しに来てんの?
Result of JUMAN Input: おまえこのスレに何しに来てんの? おまえ おまえ おまえ 名詞 普通名詞 - - "代表表記:御前" この この この 指示詞 連体詞形態指示詞 - - NIL スレ スレ スレ 未定義語 カタカナ - - NIL に に に 助詞 格助詞 - - NIL 何 なに 何 感動詞 - - - "代表表記:何" しに しに しぬ 動詞 - 子音動詞ナ行 基本連用形 "代表表記:死ぬ" 来 らい 来 接頭辞 名詞接頭辞 - - NIL てん てん てん 名詞 普通名詞 - - "漢字読み:音 代表表記:典" の の の 助詞 格助詞 - - NIL ? ? ? 特殊 記号 - - NIL \ \ \ 特殊 空白 - - NIL しに、の解析に失敗
>>786 君は自称数学屋(?)という立場にあぐらをかいて、いつまでも30年前の理論に拘泥するんじゃなくて、
もっと最近の他所の研究動向に目を向けた方がいいと思うよ。
例えば岩波「言葉の科学(4)意味」イントロに、意味論研究の系譜が載っており、これがなかなか興味深い。
立場はいろいろあれど、これ読んだ人なら、君がいつもやっているような荒唐無稽な主張には耳を貸さないんじゃないかな。
>>797 その話、さっぱり裏が取れないんで、
もっと詳しく(w
>>800 >例えば岩波「言葉の科学(4)意味」
著者には、郡司 隆男さん名前が出ており、
>>792 に
「なんでそんな古い話題にばかり固執するの?」と
絡まれそうなので、読んでいいものか...
「岩波講座 言語の科学〈4〉意味」
著者:郡司 隆男 (著), 白井 賢一郎 (著), 松本 裕治 (著), 阿部 泰明 (著), 坂原 茂 (著)
他の著者も、理論言語学者が多そうなので、実装出来ないような
言語学者の<お遊び>理論が多いと、読みたくはないが、興味は
あるので、もう少し情報をいただけますでしょうか?
まずは自己紹介するのがマナーかと。
名前はエライザ。perlによるパターンマッチングで、 レスに自動返答する。情報検索はamazonとgoogle を利用して、もっともらしいURLをコピペするので 人間と勘違いされることがある。
805 :
Mb :2005/10/14(金) 23:06:54
>>802 ぶっちゃけ白井賢一郎先生は実システムの開発(つまりは自然言語処理)には
なんら寄与しておらんように思う。
「可能世界仮説」とか言われても、インプリメントのしようがない……
806 :
デフォルトの名無しさん :2005/10/15(土) 00:37:47
>>802 名前: デフォルトの名無しさん [sage] 投稿日: 2005/10/14(金) 20:09:55
>
>>800 > >例えば岩波「言葉の科学(4)意味」
> 著者には、郡司 隆男さん名前が出ており、
>>792 に
> 「なんでそんな古い話題にばかり固執するの?」と
> 絡まれそうなので、読んでいいものか...
>
> 「岩波講座 言語の科学〈4〉意味」
> 著者:郡司 隆男 (著), 白井 賢一郎 (著), 松本 裕治 (著), 阿部 泰明 (著), 坂原 茂 (著)
>
> 他の著者も、理論言語学者が多そうなので、実装出来ないような
>>802 を見て、こいつ自然言語解析の仕事してないし、
それどころか2ちゃん煽り師としても三流の下だと確信した
808 :
デフォルトの名無しさん :2005/10/15(土) 06:36:01
郡司 隆男は理論言語学者 白井はよく分からない 工学的な視点をもっている人とそうじゃない人がこのスレには混在しているような気がする
809 :
Mb :2005/10/15(土) 08:59:14
>>808 まあ、「とにかく動くプログラムを組む」という点で「工学的な視点」が
必要であるという意見は置いておくにせよ、ソフトウェアは必要悪
(事務処理経費の軽減)と不必要善(エンタテイメント)から
なる部分があって、前者の立場からすると「工学的な視点」は重要だが、
後者の立場からすると、「どれだけ面白い(or馬鹿馬鹿しい)プログラムを
書いたか」も重要な気がする。
後者の観点だと、認知心理学・哲学・数学基礎論なんかの分野の人が
けっこう面白い仕事をしていたりする。
このスレのトップ
>>1 には、「形態素解析」、「依存構造解析」、
Namazuまでのリンクはあるが、意味構造解析が欠けている。
日本語では、実用レベルの意味構造解析プログラムが公開されて
いないのか?!
811 :
デフォルトの名無しさん :2005/10/15(土) 10:28:47
>>809 Mbさん、キター!!!!
Mbさん、
>>808 ,
>>810 は、
以前送ってもらったルネ・トムの話に強い関心と利害関係を持っている人だと思いますよ。
いろいろ詳しいお話をされたら、面白いんじゃないかなぁ
812 :
デフォルトの名無しさん :2005/10/15(土) 10:32:10
>>805 > 「可能世界仮説」とか言われても、インプリメントのしようがない……
言語解析〜意味解析で「可能世界仮説」といったら、
形態素のラティス構造 (とりえる分かち書き候補のネットワーク)と同様に、
とりうる意味解釈の候補、ってなるんではないですか?
813 :
Mb :2005/10/15(土) 16:24:23
>>812 ……ごめん。正確には『「“可能世界”解釈」仮説』だな。
「四角い玉子と女郎の誠 あれば晦日(みそか)に月が出る」
みたいなもんで、ある言明(“命題”よりも意味的には広い)が
正しいかどうかは、「その言明が正しい場合の可能世界」と
「その言明が正しくない場合の可能世界」の存在可能性
(フィジビリティっつーのかな)において判断されるべきものである、
とか言ってると、手間がかかりすぎて実効的な推論ができんのだ。
困ったことに、太陽暦である現在は、晦日に月が出る……
フレーゲ論理とかクリプケ・フレームの話かな。 プログラム意味論や数理論理学でちょこっと紹介された・・・ 上記分野とか、アスペクト指向プログラミング(AOP/AOSD)の「アスペクト」って、言語解析〜AI分野ではよく援用される概念のようですね。 自然言語理解における「可能世界解釈仮説」ですが、 談話解析とか文間解析で、他の文に前提条件とか制約が書いてあったら確定、 無かったら解釈の仕方が何通りもある、ということでよろしいのではないですか。 それ以上を求めるなら、一般常識とか専門知識に関する知識ベースを用意する、と。(と言葉で言うのは簡単ですが・・・(わ
フレーゲ論理とかクリプケ・フレームの話かな。 プログラム意味論や数理論理学でちょこっと紹介された・・・ 上記分野とか、アスペクト指向プログラミング(AOP/AOSD)の「アスペクト」って、言語解析〜AI分野ではよく援用される概念のようですね。 自然言語理解における「可能世界解釈仮説」ですが、 談話解析とか文間解析で、他の文に前提条件とか制約が書いてあったら確定、 無かったら解釈の仕方が何通りもある、ということでよろしいのではないですか。 それ以上を求めるなら、一般常識とか専門知識に関する知識ベースを用意する、と。(と言葉で言うのは簡単ですが・・・(わ
つまり、現在デフォの太陽暦と仮定してよいのか、 あるいは太陰暦や他のこよみを仮定すべき文脈なのか、 ヒントを探す必要がある・・・ 時代考証や地理的考証なら範囲が限定されてるし、どうせ人間(非専門家)もよく間違えるし・・・
>>815 >それ以上を求めるなら、一般常識とか専門知識に関する
>知識ベースを用意する、と。(と言葉で言うのは簡単ですが・・・
「知識ベース」は、ドメインを限定しても、難しいよ
うな気がする。1960年代後半の格文法は、日本語の
自然言語処理で利用されてきた。EDR, WordNetなど
のオントロジー辞書も、とにもかくにも、利用できる
レベルである。次のステージでは、どんな意味分析
が可能なのか。
>>799 を入力すると、簡単な意味構造を出力するような
システムが、とりあえず欲しい。科研費などで研究している
グループはないのか。
818 :
デフォルトの名無しさん :2005/10/15(土) 20:10:39
長尾先生の10年前の本に解説が載っているくらいだから、 研究ベースではそれ以上前に扱われている、と理解すべき話だろ。いま手元にリファレンス一覧がないけど。 前京大総長やってた長尾先生が、 キミみたく裏付けのない妄想を書き連ねるとは理解しがたいし、 もしキミがそういう電波を発信したいなら、自分でホームページ立ててそこでやったら?
820 :
デフォルトの名無しさん :2005/10/15(土) 22:10:01
ちんたらちんたら、未だにアレができていない、これはどうなっているのか、 と自分でナニも確認せずに質問を繰り返し、 解答なり反論があると、それを受けずにまた次の質問を繰り出す・・・テラ頭弱杉
821 :
デフォルトの名無しさん :2005/10/15(土) 22:11:05
>>820 2ちゃんの煽り業務従事者にはそーゆーのが多いけど、
リアルでそれやったら一発で「おはなしにならないひと」のブラックリスト入りだよなw
822 :
Mb :2005/10/16(日) 09:09:17
> 2ちゃんの煽り業務従事者にはそーゆーのが多いけど、 そもそもが自己愛性人格障害の典型的症状に近いので、 プライドは高いために自分の無能さに目を向けることができずに、 他者を批判することでフラストレーションを解消しようとしている だけと思われ。 まとまった業績のひとつも上げれば頭も冷えるのだが、 焦りがあるので長期的な取組みができず、目先の目新しそうなもの (で、ちょっとよさげなもの)につい飛びついてしまう。 そういう香具師は、トイ・プログラムでもいいから、自然言語処理 システムを一本インプリメントしてみて、プチ達成感でも味わうのが よろしいかと。
>>822 あいたたた。Mbせんせい・・・俺も当てはまるなそれ。
824 :
832 :2005/10/16(日) 09:56:42
見苦しい言い訳をしてみる > まとまった業績のひとつも上げれば頭も冷えるのだが、 > 焦りがあるので長期的な取組みができず、目先の目新しそうなもの > (で、ちょっとよさげなもの)につい飛びついてしまう。 自分としては一つか二つのテーマに専念しているのだけど、 所詮漏れは応用分野にしか顔を出せないんで、 いろいろな分野で、そのテーマの応用を探しては顔を出しています。 ここ1〜2年が勝負なので、可能性が低そうなら即ヤメで、 なりふり構わず食い散らかしているのが現状ですね。 他人には、気まぐれで分野変えてるようにしか見えないかもしれないけど。
>>802 とにかく、イントロ部分だけでもいいから読んどけ。
顔から火がでること請け合いだw
826 :
デフォルトの名無しさん :2005/10/16(日) 11:58:52
LCSとOWLって関連しそうですが,すでにあったりして。。
なんでDescription Logicの話がここで出てくるの? 思いつき?
828 :
デフォルトの名無しさん :2005/10/16(日) 12:06:16
思いつきで言ってみました。なんか関連しそうかなと。
はいはいわろすわろす
830 :
デフォルトの名無しさん :2005/10/16(日) 15:22:21
>>826 >LCSとOWLって関連
WordNetがOWLに利用できるのであれば、EDRでも同じことが
できるはず。LCSもOWLに関係深い。
どれも、自然言語の「情報検索」に応用できる。
833 :
デフォルトの名無しさん :2005/10/16(日) 22:37:11
ふつーの神経持ってる人間なら、 まずLCSとDescription Logicをそれぞれ説明したうえで、慎重に両者の関係を論じるべき場面と理解するわけだが。 普段から無根拠な自信でハッタリ飛ばしまくる人物は、 匿名掲示板上でも振る舞いが醜いな。2ちゃんで有名な粘着廃人といい勝負だ。 関係ある/ない ってさぁ、 丁半博打じゃねぇーんだから。 いい加減にしろ自己愛野郎
834 :
デフォルトの名無しさん :2005/10/16(日) 22:47:07
哀しいよな、
>>831 みたいな天然が、
計画性0の天然ボケで世間だましちまう現状。
>>833 >まずLCSとDescription Logicをそれぞれ説明したうえで
>>827 (↑↑↑↑この馬鹿も「説明」していないが...)
>>834 >計画性0の天然ボケで世間だましちまう現状。
あっ、これは当たっている。ハッタリで、これまでに個人研究費を
外部(文科省他)から3000万以上獲得してきた。(研究代表者が
偉いと簡単にもらえる共同研究費は除く)
自然言語処理を含むIT関連の研究費はパイが大きいから、長尾先生
の<教科書>などから適当なフレーズをコピー&ペーストして、自
己の専門に繋がるように、申請書を書くと、簡単に通ってしまう。
837 :
デフォルトの名無しさん :2005/10/16(日) 23:30:28
なんだ3000か。 みみっちい詐欺師だな
838 :
デフォルトの名無しさん :2005/10/16(日) 23:44:05
なんだ。
だから
>>836 は補助金からも大学関係からも干されて、
今度は一般投資家や証券会社を相手に法律すれすれの詐欺的行為を画策してるのか。
大学関係者や研究者から、疫病神のように忌み嫌われていて、
研究開発は進みますか?
(って、どん詰まり状態だから、
のこのこ匿名掲示板まで出てきて 電波飛ばしているのだろうけど)
上の方で「自己愛性人格障害」を指摘してた人、 あなたの見立ては大正解だわ。 こちらの印象ではかなり早い時期に心のアンパイヤが「アウトォォォーッ!!!」って判定下していたけど、 匿名掲示板の匿名性にあぐらかいて、ここまで醜態晒してくるとは想像もしなかった。 チビッ子チームのみんな、ご愁傷様。もうそこ業界で信用されないと思うよ。
>>796 が署名つき掲示板(?)に出て行ったら、
この分野の関係者は皆ドン引きになって、さぞかし迷惑なんだろうな。
カワイソスギ
841 :
デフォルトの名無しさん :2005/10/17(月) 12:12:51
843 :
デフォルトの名無しさん :2005/10/19(水) 23:28:45
>>836 (が装っている人物)の正体は、判る人には判るとして。
某板の「残像に口紅を」に意味不明のコピペを張り続けている人物は、一体誰なんだろう・・・
・・・なんて、2ちゃんのリアル暗黒面を穿り返してみたりして(うきゃ
461 名前: (´∀`) [sage] 投稿日: 2005/10/12(水) 02:00:41
ふむふむ
>ボクの感じだと、LCS が結構使えそうってことになってる気がする
この気持ちはよく分かるにゃ
ただし純理論としてLCSが正しい装置かどうかは別問題だろにゃ
ちょうど、自然言語処理にとっては句構造規則やXバー理論のほうが
bare phrase structureより使い勝手がよいが、MPでは前二者は誤り
ってことになっとるのと同じようににゃ
543 名前: 532 投稿日: 2005/10/21(金) 00:39:38
訂正
語彙概念構造 (LCS: Lexical Conceptual Structures)や、生成語彙 (GL: Generative Lexicon)
が非常に興味深いと伺います。
最近読んだ本のNAIST松本先生の章でも、上記がクローズアップされています。
LCSおよびGLに関して、 もし多少なりともご存知の方がおられましたら 、それらの
研究動向および今後の見通しについて、
お教え頂けないでしょうか?
お願いいたします。
547 名前: (´∀`) [sage] 投稿日: 2005/10/21(金) 02:52:05
まーたヘンなのが紛れ込んできたにゃ
>>544 しゃんや、この勘違い野郎に一言いってやってくれにゃ
俺がLCSに否定的なのはこのスレの住人なら誰でも知ってることにゃろ
だから「今後の見通し」は、俺的には nothing, zero, にゃ
よーするに目指す方向、やりたいことが全然違うのにゃ
>>461 見れ
ちなみにLCS厨の巣窟↓
http://www.kwansei-engdept.gr.jp/FACULTY/KLP.html 545はまじめに勉強したいのならここ逝くよーに、にゃ
552 名前: 名無し象は鼻がウナギだ! 投稿日: 2005/10/21(金) 12:22:28
LCSと聞くとLeague Champion Shipと思えてしまう今日この頃。
LCSって記述の道具としては便利ですが、それを基に何かを考えようと
いう気にはなれないですね。なんか、現象を別の言葉で言い換えましたって
感じになるだけのような気がします、にゃ。
565 名前: 名無し象は鼻がウナギだ! [sage] 投稿日: 2005/10/22(土) 23:37:42
俺はLCSを嫌っているから、LCSについて説明する義務はない、
という開き直りにワラタ
566 名前: 名無し象は鼻がウナギだ! [sage] 投稿日: 2005/10/22(土) 23:58:15
説明はしないけど、とりあえずLCS叩くのね(ワラ
・・・本当にそんな姿勢で学問やってて大丈夫なのか?
568 名前: 名無し象は鼻がウナギだ! 投稿日: 2005/10/23(日) 00:38:02
>>565-566 自分が相手したい理論をなんで弁護しなきゃいけないのかと、小一時間
いちおー、顔文字氏の性格からいって、自分らがちゃんと議論したら反論
するにゃろ。
てか、
>・・・本当にそんな姿勢で学問やってて大丈夫なのか?
とかなんとかと人を匿名で罵ることでしか、自意識を保つ手段がないのかね?
577 名前: (´∀`) [sage] 投稿日: 2005/10/23(日) 02:45:58
なんにゃこりゃw
563以降初めて書き込むわけにゃが
>まー、ヴァカが見ればなんでもジサクジエンってこったにゃ
>>565 つーか、LCSみたいな基本的な事項は自分でいくらでも調べられるからにゃ
ほんとに勉強したいんにゃらその程度の努力は惜しむべきでないにゃ
あと、何か勘違いしてるよーにゃが、訊けば何でも教えてもらえる、俺に
教える「義務」がある、という妄想はどっからわいて出るんかにゃー
とゆーよーに、気が向けばヴァカにも丁寧にレスしてやるのが俺にゃw
で、LCSについて議論したいんにゃら相手させてもらうから最低限の知識のある人は
どーぞ、にゃ
その際、生成意味論の語彙分解と述語繰り上げについて、それからMPでD構造が
撤廃された事情とそれがlexicon-syntaxのインタフェイスに及ぼす理論的影響に
ついて、自分なりにあらかじめ整理しとくよーににゃ
578 名前: (´∀`) [sage] 投稿日: 2005/10/23(日) 02:56:49
をっとついでにH&KのLRSもにゃ
579 名前: (´∀`) [sage] 投稿日: 2005/10/23(日) 03:14:46
をっと俺と違って
>>572 しゃんはヴァカの相手しないよーににゃ
>>563 について意見あったら聞かせてくれにゃ
590 名前: 名無し象は鼻がウナギだ! [sage] 投稿日: 2005/10/24(月) 02:45:51
そして話題転換して肝心の質問には答えない、と。
毎度毎度の展開だな。
591 名前: (´∀`) [sage] 投稿日: 2005/10/24(月) 04:17:04
肝心の質問、とは笑わせるにゃー
お前のようなウスラヴァカにわざわざレスつけてやる値打ちがあるのか
どーか見てやるから、心して質問どーぞ、にゃ
をっと577で言っておいた基礎的お勉強は済ましたんだろにゃ、あー?
592 名前: (´∀`) [sage] 投稿日: 2005/10/24(月) 04:25:17
勘違い野郎が増えてきたのでこの際言っておくにゃが、俺にはお前ら荒らし厨の
糞レベルの質問にいちいち答える「義務」はないにゃ
ほんとに勉強しようという人にはこれまでどおりマジメに答えさせてもらうけどにゃ
それにしてもにゃ、
>>565-566 、
>>569-570 のウスラヴァカぶりは何度読んでも笑えるにゃー
言語板始まって以来のヴァカっぷり曝しとるにゃが、おそらく言語学や生成はおろか
学問とはなんの関係もないカスどもがどっかから誘導されてきたんでないかにゃ
で、ローカルルールというわけではないけどもにゃ、あまりに低級な輩を追っ払う意味でも
ちゃんとした質問なり論戦なりをしようという人は支障ない限りで自分の専門や関心を
まず述べて欲しいにゃ
593 名前: (´∀`) [sage] 投稿日: 2005/10/24(月) 04:45:21
しっかし肝心なこと何一つ言えん奴が「肝心の質問」には爆笑にゃ
(しばらく笑いがとまらん、いやマジで、助けてくれにゃー)
848 :
デフォルトの名無しさん :2005/10/25(火) 08:23:56
594 名前: 名無し象は鼻がウナギだ! 投稿日: 2005/10/24(月) 08:06:25
生成文法総合スレ
ってタイトルやめて、
顔文字とその一味の生成文法研究会
って名前にすればいいのにね。
見苦しい振る舞いをする「自称国立大教員」だな
595 名前: 名無し象は鼻がウナギだ! [sage] 投稿日: 2005/10/24(月) 08:09:03
おまいなかなかいいこというな かんしんするよ
596 名前: 名無し象は鼻がウナギだ! [sage] 投稿日: 2005/10/24(月) 08:17:02
>>594 >>591-593 の連投を見るに、
「怒りを抑制する訓練」ができていないから、
多分教員なんかじゃなくて、
単なる「自称研究者」くらいの所だと思うよ。
597 名前: 名無し象は鼻がウナギだ! [sage] 投稿日: 2005/10/24(月) 08:17:12
>>594 >「自称国立大教員」
残念ながら自称ではない。
それと、もう国立大学なんてモノはない。
598 名前: 名無し象は鼻がウナギだ! [sage] 投稿日: 2005/10/24(月) 08:18:26
>>596 >「怒りを抑制する訓練」
w
599 名前: 名無し象は鼻がウナギだ! [sage] 投稿日: 2005/10/24(月) 08:19:30
>>594 顔文字先生のMP研究会
|\___/| | .| | Θ Θ | / ̄ ̄ ̄ ̄ ̄ ̄ ̄ | .| < パペットマペット ∈AA∋ ∧∧ \_______ (゚‥゚ ) ( ゚Д゚) ∪∪|___⊃ ⊃ /|__.| |__|\ | | | | \_| | ノ ノ \_| \_ノ| | | |
850 :
デフォルトの名無しさん :2005/10/28(金) 15:47:50
某スレで認知科学系のレスつけてるハードロックマニアって、 もしかして苫※地さんじゃねぇ? ラウンドハウスという出版社が出しているファッション雑誌「SENSE」に、 超能力を数式で表現しようとしているハードロック系オヤジが載ってた。 ・・・たしかにこれは情緒不安定だな。 もう少しまともなら、ほりえもん位にはなれるだろうに(無責任な推測
851 :
はげ :2005/10/28(金) 15:52:29
はげぱげこんなのやーだ髪の毛きえさっていくはげぱげはげぱげはげはー
852 :
デフォルトの名無しさん :2005/11/01(火) 08:02:43
>>810 > 意味構造解析が欠けている
719 名前: お兄ちゃん [sage] 投稿日: 2005/11/01(火) 06:46:30
朝っぱらから2ちゃんやるのも気がめいるがこれも仕事だからやる。w
>>718 氏
とりあえず次↓のところをアクセスしてみてちょーだい。
お口に合うかどうか分からないけど、、、。
http://hotwired.goo.ne.jp/news/20050907303.html ADIOSというのはちょっと前に日本で開発されたMLASを
さらにソフィストケイトしたものだと思う。
ただ、このADIOSは思想的というか
発想的というか開発のバクボーンとなるのが非常にジャッケンドフ流で面白い。
何はともあれ、情報系の人にはこれからどんどんがんばってもらいたいと思う。
けど、最近の学生さん、人工知能とかいうと
すぐに映像関係に走ってしまって自然言語処理やる人少ないですよね。
言語ってやっぱ地味だからかな、、、。
わし的には人工知能の最後の最大にしてチョー分厚い壁、
それが自然言語だと思うのだが、、、。
ま、言うまでもなく
チューリングテストというか中国人の部屋をパスできるかという問題なのだが。
853 :
デフォルトの名無しさん :2005/11/01(火) 08:04:19
http://hotwired.goo.ne.jp/news/20050907303.html 言語を分析し、自律的に文法規則を推論するアルゴリズム
高森郁哉/Infostand
2005年9月2日 1:00pm JT
米コーネル大学とイスラエルのテルアビブ大学は8月30日(米国時間)、各国の言語のテキストをスキャンして、
自律的に文法規則を推論するアルゴリズムを開発したと発表した。人間が事前に情報を与える必要はなく、
割り出した文法規則を使ってコンピューターが意味のある文章を組み立てられるという。
『構造の自動抽出』(ADIOS)と名付けたアルゴリズムで、言語の習得にかかわるプロセスに基づいているという。
このプロセスは、パターン抽出の統計的な手法と、構造の普遍化の二つ。具体的には、複数の文章を繰り返し対照し、
重複する部分を探すことにより、パターンを発見するという。現在特許出願中。
ADIOSは、自然言語に限らず、複雑な規則を持つ生のデータの解析に応用可能。採譜された音楽や、
たんぱく質の配列などからも規則を推論可能という。研究チームは実際に、ADIOSでたんぱく質を分析して、
アミノ酸の配列パターンを抽出できたとしている。
日本語版関連記事
・非構造化データ分析、ビジネスの世界でも大活躍
・動物の「言語」体系を解析――人工知能とファジー理論を応用
・米アマゾン、「その本に特徴的な表現」を統計的に抽出
・読解と推論ができる人工知能
・「歌う鳥」の脳、人間の言語能力を解明する手がかりに
854 :
デフォルトの名無しさん :2005/11/01(火) 08:10:10
855 :
デフォルトの名無しさん :2005/11/01(火) 08:18:45
>>853 それは結構興味がある。
俺はどんなエラーログを解析してわかりやすぐ表示してくれる方法を模索してるんだが
856 :
デフォルトの名無しさん :2005/11/01(火) 10:22:58
どうして「どんなエラーログを解析してわかりやすぐ表示してくれる方法」なのは何故?
858 :
デフォルトの名無しさん :2005/11/03(木) 16:14:41
aa
一行レスのハッタリ君乙
>>859 つか、生成文法をモデルにインプルメントする必要なんてさらさらないだろ。
>>861 十中八九、確率モデルでのインプリだろうな。
863 :
デフォルトの名無しさん :2006/01/08(日) 18:56:33
ベイズさんすごいよね
普通に可能ってか今実験中
文章から意味のある単語を拾い出すってのを作ってみたわけだが 見る限りうまくいってる、まだサンプルが足りないけどね
同時に単語同士の関連性もとってるから、後で作文したり
形態素解析の分離予測に利用したりできると思ってる
まあそこまでやってしまったのが
>>853 なわけね
辞書データベース使って分析した気になってる研究者たちを馬鹿にしてたけど
中にはまともな人もいたんだね
867 :
ひげひげ :2006/01/25(水) 04:59:25
>>866 汎用的データ圧縮のために
確率的言語モデルやってる方かな。
意味解析するのに辞書は不可欠でしょ。
突っ走って実用的計算量でなんらかの処理する研究も重要だけど、
貴方の価値観が全ての分野に通用するわけではない、
ということを踏まえた言動も大切かと。
859の奴ってどうしようもないな 生成言ってみたかっただけなんだろうな 生成の何がわかってるつもりなんだろう
>>867 以前にこのスレで自然言語処理に辞書使うなんて馬鹿なことあるかって言ったんだよな
そしたらそんなものは不可能だと証明されてるだとか、基本もわかってない場かはどっか
いけだとかさんざん言われたな
意味解析に辞書は不可欠だとは思ってない そもそも辞書をベースにした連想機構だって単語同士の結合性で判断するからな イメージやら匂いといった情報は辞書ベースのほうがさらに不可能だろう 自動解析型にすれば、文法にそってない話言葉や、造語のたぐいまで意味を説明できる 挿絵をベースにしたイメージングも将来可能になるだろう 計算量を問題にするのはすべてを一つの枠にいれようとするからだな 辞書ベースの辞書は別プロセスで作らせればいいだけの話だしね 文法を固定した形態素解析が自然言語処理という名前にふさわしい存在ではないと思うぞ
871 :
デフォルトの名無しさん :2006/02/05(日) 00:18:21
>>867 知らんわそんな話。
具体的にレス番出せ。
>>868 ああ、やっぱアナタか。
アナタの話は自己矛盾と思い込みと幼稚さがゴタマゼで、
私個人としては敬遠したい気分です。
「意味解析に辞書が不可欠だとは思わない」
あたりは、解釈によってはまともなんだけど、
その直後に「動的辞書作成プロセス」の話を始めた点が、自己矛盾。
こっちは、動的に作ろうと、静的に作ろうと、
人間の論理で辞書項目を作ろうと、
統計データで意味ネットワークを作ろうと、
それを辞書と呼ぶ。
アナタは、人間が静的に作ったもの以外は辞書と呼ばない。
ただそれだけの違い。
「文法を固定した形態素解析」云々は、
狂人のつぶやきにしか見えない。
873 :
八百七拾壱 :2006/02/05(日) 00:22:43
追加 > 計算量を問題にするのはすべてを一つの枠にいれようとするからだな これも狂人のつぶやき、というより計算量の基本が判っていない幼稚な発言。 さぁガキは散った散った
>>871 > 統計データで意味ネットワークを作ろうと、
> それを辞書と呼ぶ。
あんまりオレオレ定義してると誰にも相手にされなくなるよ。
意味解析用の辞書ってあるの?知らないが 意味解析はせいぜい単語レベルでやってるものしかないと思うけど そんなもん辞書すらもいらないね それは辞書じゃなくて統計的手法の統計データだと思うがね 本格的に意味解析しようと思ったら形態素解析に使ってるような辞書じゃ なにもできないよ 「辞書じゃなにもできないよ」がすでに解析できないねw そりゃ手で加えりゃいいけど、毎日のように造語が生まれてるし用法も変わってるのに 手作業で出来ると思ってるなら甘いね
今の形態素解析はアルゴリズム自体が手作業で入力したシ辞書が前提になってるから 進歩して辞書を自動生成できるようになったらそのまま応用できるようなもんじゃないしね 辞書の構造自体が特殊なものになる もちろんそれ専用のアルゴリズムも開発しなければいけないだろうがそんなに大変な作業にはならないと思う ようするに、自動解析システムの基盤ができたら形態素解析はゴミ箱行きってことです
877 :
デフォルトの名無しさん :2006/02/05(日) 04:27:48
>>877 ここは2ちゃんだから、ロクでもない奴ほど口数だけは多いんだ。
子供の悪戯だと思って、勘弁してやれよw
879 :
デフォルトの名無しさん :2006/02/05(日) 08:10:19
畑違いの俺様が知ってる、唯一この分野にかするキーワード シソーラス
>>871 > 統計データで意味ネットワークを作ろうと、
> それを辞書と呼ぶ。
あんまりオレオレ定義してると誰にも相手にされなくなるよ。
現状の意味解析がいかに不完全かは翻訳ソフトの翻訳結果のおかしさ見ればわかるなw
882 :
デフォルトの名無しさん :2006/02/07(火) 18:56:15
いきなり質問なんですが、ipadicの品詞IDと語の対応ってどこかに表がありますか? ipadicの辞書ファイル見ても書いてないし、Web探しても見つかりません。。。
883 :
デフォルトの名無しさん :2006/02/10(金) 00:42:04
ipadicて製品に組み込んで売れないよね?
884 :
デフォルトの名無しさん :2006/02/10(金) 08:35:09
自然言語研究の成果ってどの程度なの? どうせ2chの馴れ合いの検出すら出来ないんでしょ?
>>884 AAAIのjournalやproceedingsでも読めば?
出来ない出来ない出来るわけがない
ここに毎日粘着してる彼の件だが。 このスレで彼が誰かに相手にしてもらえる と期待している彼の心理状態が理解できない。 彼にできることはせいぜい、 スレッドの文章から目に付く専門用語をサンプリングし、 それを本来の意味を理解できているとは到底思えない デタラメな妄想で塗り固めて、駄文を書くだけ。それだけ。 それっぽっちの事しかできない妄想人間が、 よりにもよって言語を扱うスレに粘着するという 2ちゃんねるならではの悲喜劇。 まったく、笑える掲示板だよな、2ちゃんて。
認められた研究分野に属してる人ってのは心のゆとりっていうかな 素人の意見にも耳を傾けて、それはこういう理由だから違うとか、そうかもしれない なんて対話があるんだよな 普段から認められてない研究分野はたいした成果もだせないわ、普段専門家にすら 否定されまくってるもんで素人がこようもんならファビョりまくるんだよな 言われることがわかるだけに余計はらがたつやら、ある主の信仰のような状態になってて 本気で妄信してるから理論的思考がもはや存在してないんだよな ま、それが成果が出せない最大の原因なんだけど、そういうやつはいくらがんばったって無理だね 本当に現状を把握してて、将来につながる研究を残すような人材はまあいるから大丈夫だ けどね、ファビョってるやつは足を引っ張ってるだけだってことに早く気付けばいいのにねw
889 :
デフォルトの名無しさん :2006/02/12(日) 11:57:34
おまえってなんのために生きているの? おまえの意見なんて誰も読まないから あきらめろ
>>888 言葉の使い方が間違っている。採点結果は5点。
892 :
デフォルトの名無しさん :2006/02/12(日) 22:59:18
なんだ、また仮研人管理人が暴れたのか。
893 :
デフォルトの名無しさん :2006/02/18(土) 07:39:31
mixiのAI系コミュ二ティに 頭がおかしい人が多数の書き込みをしている件
mixi自体がゴミ
895 :
FYI :2006/03/13(月) 00:46:23
だからカテゴリー文法ベースで論理をやろうと言ったのに。 Prologと区別できないとは情けない。
TextSS のWindowsXP(Professional)64bit化おながいします もしくは64bitにネイティブ対応したテキスト置換ソフトありますか? そういや64bitにネイティブ対応している2chブラウザてありましたっけ?
ハァ・・ ハァ・・ チョムスキー・・ ハァ・・ ハァ・・
このスレ何か書き込むと、すぐ知的障害者が寄って来るんだな
900 :
デフォルトの名無しさん :2006/04/10(月) 12:58:57
フリー(オープン)ソースで、*BSDで動いて、 性能の良い。自然英文形態素解析ソフトの お勧めを教えて下さい。
901 :
デフォルトの名無しさん :2006/04/10(月) 14:26:02
形態素解析って言っても、欲しいのは、品詞情報だからね。 だれか教えて。
英文w スペースで区切って辞書引けw
904 :
デフォルトの名無しさん :2006/04/11(火) 22:47:34
>>903 ども、HP見るとlinuxにしか、対応してないようなんですが、
性能はどんなもんでしょ?
性能(品詞の正解率が高い)がそこそこなら、
もし、素直にコンパイル通らなくても、頑張ろうとおもうのですが。
905 :
デフォルトの名無しさん :2006/05/02(火) 20:02:54
僕なんか自作してるから。勝ち組。
906 :
デフォルトの名無しさん :2006/05/02(火) 20:12:38
よかったね
907 :
デフォルトの名無しさん :2006/05/06(土) 00:36:46
>>903 >古典的
・・・バカが「古典的」という単語を使うのを見ると、虫唾が走るわい
俺も俺も
馬鹿はすぐ相手と同じ事を言い返す
馬鹿はすぐ相手と同じ事を言い返す
>>907 >バカが「古典的」という単語を使うのを見ると、虫唾が走るわい
2通りの意味解釈が可能。
(1) バカが「古典的」という単語を使うのを見ると、私(
>>907 )は虫唾が走る
(「虫唾が走る」の主語は私)
(2) バカが、903のような発言者が「古典的」という単語を使うのを見ると、虫唾が走る
(「虫唾が走る」の主語はバカ)
日本語、スペイン語、イタリア語などは、英語やドイツ語に比べて、主語の省略が
頻繁におこる。省略された主語の意味解釈は、自然言語処理ではどのように扱われて
いるのだろうか? 公開されているツールはありますか? スペイン語、イタリア語
など多言語にも応用できる手法はありますか?
それ思いっきり純粋に ML 周りの話題じゃん。 どう見ても NLP のスレでするべき質問じゃない気がするなぁ。 もちろん大いに関連してるし、自分も無視できない話題だけれど、 あくまで ML は NLP を行う上で用いられる手段の1つに過ぎないし、 ML な人の側から見てもあくまで NLP って応用の1つでしかないでしょうに。 とはいえ、2chで ML な話題やってるスレってあったっけ? 無いのなら多分このスレが一番近いとは思うけれど。
[゚д゚] デフラグガカンリョウシマシタ /[_]ヽ | | 112LLLLLLLMMMMNNNPPPch、、、、。。。。ぁあああいいいいいいいいい いううううえかかががきききぎくくけけけこしししししじじすすそただちっっ っっっっつつててててててででででででででととどどどなななななななな ににににのののののののはははべままももももゃゃやょらららりりるるる るるれれれれろをんんスススレレレ一上人側分分周問多大応思思手段 気無無用用番粋純自行見見視話話話質近連過関題題題?
> search + structured output structured input (たとえば、文) -> structured output(たとえば、parse tree) の間を、局所操作(たとえば、記号を2つ纏めて非終端記号に持ち上げる)の列によってつなぐとすると、「現在までに組みあがっているparse treeをみて、次にどの操作を適用するか」 (ただし、最終的に組みあがる木のlossを小さくするように)を決定するMDPのような問題として捉えることができますね。 個人的にはこれまで、この捉え方だと根性モノになりそうだなあと思っていたのですが、この論文ではなんだかちゃんと理論的な裏づけが与えられるのですね…。 すばらしい。 --- ところで、論文のリンクをたどっていったところのブログで、著者が愚痴っているのが面白いですね。
>>912 >>バカが「古典的」という単語を使うのを見ると、虫唾が走るわい
>2通りの意味解釈が可能。
ではあるが、優勢な意味解釈は:
>(1) バカが「古典的」という単語を使うのを見ると、私(
>>907 )は虫唾が走る
> (「虫唾が走る」の主語は私)
である、ということをコンピュータに計算させ、かつ、
(3)「古典的」という言葉を使っている「私(
>>907 )」は、自分のことをバカとは
考えていない、
ということと
(4) 「私(
>>907 )」自身は、自分の発言(
>>907 )を読んでも、虫唾が走っていない
という人間の推論をコンピュータに計算させるためには、難しいな〜と感じた。
>>913 これ,フレームワークとして loss function が decompose できなくてもよい
って書いててイマイチピンと来ないのですけれど,どういうことですか?
loss function を任意に設計できる,ぐらいの理解で良いんですかね?
feature の方は decompose できなくてもよいっていうことの
意味も利点もよく分かるんですけれど.
>>912 >
>>907 >>バカが「古典的」という単語を使うのを見ると、虫唾が走るわい
>2通りの意味解釈が可能。
3つ目の解釈としては
(5) 私(
>>907 )のようなバカが
>>907 のように「古典的」という単語を使うのを
読者が見ると、その読者は虫唾が走る
>>917 (5)の解釈の場合には、私(
>>907 )は自分のことをバカだと思っている。しかし、
私(
>>907 )は、
>>907 を見ても、虫唾が走らない。
省略された主語の解釈の違いにより、そこから発生する推論も異なってくる。
日本語の不自由な方ですか?
というか「わい」がついてる時点で一人称制限入るから その(5)の解釈ってのはないと思うんだが・・・
>>921 >というか「わい」がついてる時点で一人称制限入るから
「わい」は方言だろ。EDRに載っているか?
923 :
デフォルトの名無しさん :2006/05/10(水) 22:16:51
馬鹿は下らないネタにばかり食い付くんだな
924 :
デフォルトの名無しさん :2006/05/10(水) 22:48:13
自然言語処理に関係あるかと思って
>>917 あたりから読んできたけど
ぜーんぜん関係なかったorz
日本語の学者に文章作成形式作ってもらって それをもとに解析、判断させるのを作った方がよさげ
>>914 MLが何の略か分かりません。(>_<)
NLPは自然言語プロ・・・なんちゃら?
NLP: Natural Language Processing ML は文脈からすると多分 Machine Learning の略かと
929 :
デフォルトの名無しさん :2006/05/31(水) 00:00:12
で。 意味解析に燃えてる彼、 自分が聞きたい質問並べるだけで、 自分の情報一切出さないのは何故w? \1,980のソフト作ってるようじゃ、 もう先は見えたな。カワイソw
930 :
デフォルトの名無しさん :2006/06/16(金) 00:21:17
精度はどれくらいなの?
日経で与太記事飛ばしながら その後サッパリでそのまま消えていった企業は 星の数ほどあるわけでw
WORDの重要文抽出みたいな方法じゃなくて、 本当に"自動要約"なんてやってる(できてる)ところってあります?
934 :
デフォルトの名無しさん :2006/06/23(金) 10:21:49
どうせなら、それをcut無しのprologで書いてほしいぞ。
>>933 \1,980持って、ビッグカメラ逝ってこい
上の方でも書いてある1980円のソフトって何のことです?
mecab0.91がビルドできねー。 WindowsXP+VC8+cygwinなんだけど、configureの configure:cannot guess build type; you must specify one って、何をどこに指定してやればいいんだ?
つか、mecabのクロスコンパイル環境は滅茶苦茶だな。 なんじゃこりゃ。
どうなってんの〜
941 :
デフォルトの名無しさん :2006/07/13(木) 17:40:28
ジャストシステムからgoogleに移った人とかいる?
>>930 貴方はそもそも、畑違いな分野の研究(言語処理ではなく言語学。例えば国文学とかw)
しか見ていない気配がする。
いい加減なお遊びソフトを大言壮語で高く売ろうとして失敗して、
結局\1,980で叩き売りし始めた人が言う言葉ではないな。
言語学と国文学じゃ全然違うと思うが・・・ まあ畑違いから見たらそのくらいの認識なんだろうな
黙れ糞文系が
945 :
デフォルトの名無しさん :2006/07/15(土) 18:08:46
>>942 >結局¥1,980で叩き売りし始めた人が言う言葉ではないな。
それでも、売れる点は、評価しようぜ。
売れない、誰も使わない、誰からも引用されない、IC*T,
**辞書など、もっと悲惨な研究がいくらでもあるから。
(皆さん、日本では立派な大学の大先生ですが...)
946 :
デフォルトの名無しさん :2006/07/17(月) 16:13:28
プギャー
947 :
デフォルトの名無しさん :2006/07/18(火) 11:08:37
suffix arrayが解説されているおススメ本てないかしらん?
オスメスがおるいらんないarray解説suffixされかし?
長尾先生とか?
尾長かと先生?
mecabを入れてみました。 mecabって、未知単語の学習も売りの一つっぽいけど、学習用ユーザ辞書の作り方がわからず挫折してます・・・。 どこかに、Quick Startマニュアルないですかね・・・。
952 :
デフォルトの名無しさん :2006/07/21(金) 08:52:53
googleの工藤タンに聞け
この時期にきて、未だに卒論テーマが決まりません。 438サンはもうテーマ決まりました? もし居たら参考までに今やってる研究について教えて頂きたいっす。
ATOKの形態素解析ってどうやってるのかな n-gram?
955 :
デフォルトの名無しさん :2006/10/23(月) 07:44:32
age
957 :
デフォルトの名無しさん :2006/10/28(土) 18:21:40
ズバリ要約ってどうよ?
数式処理はここでいいのでしょうか? c++からつかえる数式処理+数値計算ライブラリってないのでしょうか? 多項式が扱えればsin cosとかはいらないです
なぜ数値処理がここになりうるんだい?
958 の頭の中で、自然言語処理ってのがどういうものになってるのかを知りたい。
961 :
デフォルトの名無しさん :2006/11/03(金) 22:04:10
キチガイ警報発令!!!!
科研費の締め切り時期ですが、みなさんは申請されましたか? 採択してもらうには、どのような工夫が必要でしょうか? 審査員は、言語処理学会から出されるのでしょうか? 言語処理学会で論文、口頭発表などを行うと、有利ですか?
明らかにム板でやるべき話題じゃないなぁ 学術系の板行けば科研費云々のスレもあるし、 NLPのスレもあるからそこでやるべき
>>964 何日か努力しましたが、自分では見つけられませんでした。
もう少し、ヒントをいただけますでしょうか?
>>965 なんとなく、採択されそうにない奴だな。
967 :
964 :2006/11/26(日) 00:18:22
私の専門は、自然言語処理ではなく、いわゆる文学部の言語学なの ですが、出願者の多い自然言語処理の枠で申請した方が、採択され やすいという噂を聞いたので、質問しました。 過去に文科系言語の枠で採択はされたことはありますが、4年で200万 円程度です。この額だと、海外出張するための航空券は、エコノミー・クラス です。自然言語処理で科研費をとる人たちは、ビジネスが利用できる、という 噂の聞いています。
968 :
デフォルトの名無しさん :2006/11/27(月) 10:18:32
文系のアホ言語学はあっち池
糞文系は死滅すべき
死滅厨こそ唯一死滅すべき人物
すいません質問させてください。 ChaSenの辞書使って、かな漢字変換するにはどうやったらいいですか?
972 :
デフォルトの名無しさん :2007/01/30(火) 02:52:35
age
勉強しだしたばかりで申し訳ないのですが、アンケートを自由記入形式で書いてもらった場合に、 文章じゃなくて項目の羅列で構成された記入があった場合、どのように処理したらいいのか書いてある本/論文ってありますでしょうか? といいますか、こういう解析が自然言語処理に含まれているのか、別の言葉になるのかすらわかっていません。 例) --------------- Q.好きな食べ物とその理由を教えてください。 A. アイスクリーム ・つめたくて甘い ・やわらかい溶けかけが好き。カキ氷はかんべんだけど。 さくろんぼ ・色、紫のはみとめないけど。 ・缶詰のを生クリームつけると最高 --------------- 用途としては、評判分析に使いたいのです。 単純に、「アイスクリームは冷たくておいしい」「アイスクリームではやわらかい溶けかけがすき。カキ氷は簡便だけど」 といった風に分離できればいいのですが、原文の掛かり受け構造を単純に調べるだけでは アイスクリームと箇条書きを結び付けられないですよね。 どういう処理をかませればよいのかアイデアがない状態です。 ぜんぜん勉強不足ですが、 レイアウト構造の理解し、箇条書きの主語を補完する2つの要素が必要なんでしょうね。
反応無いですねぇ・・・ 皆さんアンケートとられたときにこういうデータってどう扱ってるんでしょうか。
ところで、ゼロ照応解析が可能なフリーウェアってあるの?
>>973 自然言語処理では有るけど、AIに近い。
意味論まで踏み込める技術は現在まだほとんど無いので。
つまり貴方が聞いてることは、100円で2億トンの質量を月に運びたいんですが
そう言った運送業者いますか?
と聞いてるような物なので、馬鹿にして笑うか、無視するかしか、対応のしようがない。
977 :
973 :2007/02/28(水) 00:30:43
> 100円で2億トンの質量を月に運びたいんですがそう言った運送業者いますか? それぐらい遠いこと言っていたんですね。いやはや知らないとは恐ろしいものです。 表構造から類語抽出の論文は見つけたのですが、それ以上に探しているのに近いものは見つけられませんでした。 これ以上は探すより、今の技術でできることできないことをちゃんと理解できるようになったほうがよさそうですね。 ありがとうございました。
ChaSenの引数にファイル名でなく直接文字列を与える方法知りませんか? スクリプトで文字列変数を与えてchasen.exeを直接呼び出したいのですが。
979 :
デフォルトの名無しさん :2007/03/04(日) 17:41:01
松本に聞けよ
つ COMMAND.COM
981 :
デフォルトの名無しさん :
2007/03/05(月) 09:22:54 980超えたので次スレどなたか立ててください おねがいします