そもそもSKKの逆をやってるのがkakasiじゃん。名前だってSKKの逆読みだし。
まあそれはさておき、一つの単語に対して複数の変換候補があり得るのだが
その取り扱いはどうするのだ?それ以前に単語の区切りも適切に行う必要も
あるのだが。
932 :
名無しさん@お腹いっぱい。:05/01/11 01:10:15
>>930 仮名 -> 仮名漢字のときは、多数の候補が出るので
Wnnの一括変換も、候補表示確定待ち状態になるだけ。
可能な変換例をすべて/可能性が高い方を出力するフィルタも面白かもね。
933 :
名無しさん@お腹いっぱい。:05/01/11 23:05:33
932で言ってるみたいなフィルタって,
もしかして,ない?
「自然言語理解 かな漢字変換」
でぐぐってみな。みんな、どんなに苦労しているか良く分かる。
「音声理解」
なんか付け加えてみてもいい。
「自然言語処理」になると、ちょっとニュアンスが変わって来る。
935 :
名無しさん@お腹いっぱい。:05/01/14 16:21:28
既出だったらすみません。
win server 2003
Active Perl 5.6.1
Kakasi 2.3.4
をインストールしたあとに、Namazuをインストールしようと
すると、Error.txtが立ち上がり
・perl.exeがみつからないか、古い
・AutoExec.batの読み込み・書き込みができなかった
・Registryのシステム環境変数のよみこみ・書き込みができなかった
のどれかの原因で環境の設定ができません。
との内容がでます。以前、Win2000で設定したときは、何事もなく
進んだのですが、同様のエラーにあわれたかたはいらっさいます
でしょうか?
乱文をお許し下さい。よろしくお願いいたします。
> Results:
> References:
>
> ...: [ 会計: 2 ]
これらの表示を消したいのですが、設定項目があれば、
教えてください。
937 :
名無しさん@お腹いっぱい。:05/01/29 14:17:14
>>936 namazu-2.0.14//src/output.cをいじれ。
939 :
名無しさん@お腹いっぱい。:05/01/30 04:27:23
namzuってLGPLにならないのかな?
939がこれからLGPLでnamzuを開発するそうです
>>935 path に c:\perl\bin\perl; を追加しとけ。
942 :
名無しさん@お腹いっぱい。:05/01/31 13:58:34
∈(・ω・)∋
943 :
名無しさん@お腹いっぱい。:05/01/31 14:44:55
∈(´∀`)∋
945 :
名無しさん@お腹いっぱい。:05/02/01 10:09:01
∈(・(ェ)・)∋
検索対象からtitle属性を除外したいのですが
何処を触ればいいでしょうか?
<hn>リンク</hn>
<ul>
<li><a href="
ttp://www.2ch.net/" title="2ちゃんねる">2ちゃんねる</a></li>
</ul>
というようなページを作成してNamazu検索すると
検索結果に リンク 2ちゃんねる 2ちゃんねる となるのを何とかしたいのですが・・・
947 :
名無しさん@お腹いっぱい。:05/02/06 15:38:06
最大でどれ位のファイルのインデックスを作成できるんだ?
5Gチョい強でエラーが出た。
>>949 使ってます。
最悪はカーネルパニックで落ちます。
5Gあたりが限界なのかな〜と思ってます。
確か20万ファイルぐらいはあったと記憶してます。
namazu ML 過去ログより要約
| ところで、Namazu のインデックスは 32 bit 符合付き整数の壁が
| あるので、
| >NMZ.i 721295588
|
| この約 687 Mb のファイルが 2Gb を越えると扱えなくなります。
| 同じようなファイルを対象にインデックスを作ると仮定して、単純
| に計算すると、Namazuが扱える最大規模のインデックスは
|
| ファイル数: 2,048 / 687 * 878,914 = 2,620,110 (約262万)
| 合計サイズ: 2,048 / 687 * 2,167,480,108 = 6,461,425,416 (約 6 Gb)
|
| となります。この規模のインデックスを作るには相当たくさんのメ
| モリ (2 Gbくらい?) を積んで $ON_MEMORY_MAX を 300 Mb くらい
| に設定しないと (インデックス作成が遅くて) やっていられないと
| 思います。
>>951 ありがとうございます。
jaistの過去ログをほぼ全てnamazuに食わしてと、個人サーバでは
限界に近いことをしていたので・・・
因みに「2ちゃんねる検索」ってどの様なエンジンなんでかね?
見た感じ非常に良く出来てます。
http://find.2ch.net/ namazuの検索結果ページをGoogleチックにしたくてエンジンに
手を入れようか迷って結局スタイルシートで逃げましたorz
> namazuの検索結果ページをGoogleチックにしたくてエンジンに
> 手を入れようか迷って結局スタイルシートで逃げましたorz
ヒットしたとこが直接表示できるようにしたいとかそういうこと?
954 :
名無しさん@お腹いっぱい。:05/03/03 23:40:18
...---...
955 :
名無しさん@お腹いっぱい。:05/03/04 23:16:34
pnamazuのReplaceがうまくいかないのです。
履歴には
> # 2001.11.28
> # ! replace で \1, \2, ... が使えるようにした
って書いて有るのですが…
実際には
Replace (.*)\.html \1.htm
って書いてます。これで本家namazuではうまく行ってます。
アドバイスお願いします。
956 :
名無しさん@お腹いっぱい。:05/03/04 23:59:04
純粋な野球ファンは5階でろくに応援もさせてもらえず、
接待で嫌々来ているろくに野球を知らない管理職が有待遇。
声を枯らして応援したい熱狂的なファンは5階で口をつぐんで、
メガホンなんて買ったこともないやつが2階で食い物をつついております。
こんなおかしなスタジアム、世界中どこを探してもナゴヤドームだけですよ。
Namazu関係者に名古屋人が多い件について
Knokが連れてきたの?
knok先生はNLUGで知り合ったsatoru大先生に引きずり込まれたわけだが。
960 :
名無しさん@お腹いっぱい。:05/03/09 13:12:24
Geta 面白そうだが
961 :
名無しさん@お腹いっぱい。:05/03/13 19:38:36
962 :
名無しさん@お腹いっぱい。:05/03/14 01:39:23
日本語 PDF ファイルからもテキスト抽出できるんだったっけ?
963 :
名無しさん@お腹いっぱい。:05/03/14 02:22:14
日本に留学したアメリカ人、帰国してから、日本は排他的で
他人種を排除する国だと息巻いてたんだそうだ。なぜかというと、
「2年もいたのに、その間いちどもホームパーティに呼ばれなかった」
からだってさ。
964 :
名無しさん@お腹いっぱい。:05/03/14 03:07:56
967 :
名無しさん@お腹いっぱい。:05/03/14 14:35:57
ファイル名に日本語(EUC)を含むファイル(pdfなど)の中身をnamazuさんで検索させてます。
当たり前ですが、検索はうまくいってます。
これを、Webサーバー経由で検索させると、検索はうまく行くんですが、ヒットしたファイル
(pdf)などを、クライアントにダウンロードさせようとすると、ファイル名が化けます。
EUCの日本語ファイル名がそのままURLになっているから、当然だろうなと。
で、ダウンロードしたファイル名が、ちゃんとした日本語にするためにはどうしたら良いので
しょう?
エロイ皆さん、ご教示ください。おながいします。
どこかのスレで見た質問だな。namazuというイロつけてみましたってところか。
namazu関係ないのでスレ違い。
969 :
名無しさん@お腹いっぱい。:05/03/14 15:52:18
適当なラッパ書けばいいじゃん。 対象ファイルのパスが
/foo/bar/日本語EUC.pdf だとして namazurcで
Replace /foo/bar
http://www.example.co.jp/cgi-bin/wrap? とかして wrapはquerystringsつかまえたら、それをsjis変換して
DLプログラムに渡して。DLプログラムは PATH_INFOでファイル名受け取るようにして
内部ではEUCにファイル名変換してターゲットファイルをOpenして
OctetStreamなmimeで出力すればよさげ。
971 :
名無しさん@お腹いっぱい。:2005/03/24(木) 00:06:30
kakasiって2chのスレ内容の分析には弱いのかなぁ…
検索語がうまくひっかからない
ChaSenにしたら分析エラーで止まるし…
複数行にわたったAAに強いわかち書きツールなんてw
973 :
名無しさん@お腹いっぱい。:2005/03/24(木) 00:30:37
でもAAほとんど記号じゃん
漢字仮名交じりにきちんと反応してくれればいいのに
974 :
名無しさん@お腹いっぱい。:2005/03/24(木) 06:54:18
Mecab はどうですか?
と、自分で試さずにカキコ。
975 :
名無しさん@お腹いっぱい。:2005/03/26(土) 18:09:44
Excelファイルをインデックス作成中にVisual Basicのエラーメッセージが
でるのって俺だけ? Namazu 2.0.14に付属のoleexcel.pl使ってるんだが、
どうも、VBAマクロ使っているファイルで吐いているっぽい。
回避策があるのなら、教えて。
WindowsXP Pro SP2
Namazu 2.0.14
Excel 2000
Active Perl 5.6.1
ここは Unix板ですよ?
977 :
名無しさん@お腹いっぱい。:2005/03/27(日) 23:36:19
つい最近使い始めたんですが、826の辞書ってもうアップされないんでしょうか・・・・
乗り遅れてたorz
978 :
名無しさん@お腹いっぱい。:皇紀2665/04/01(金) 15:51:35
>>970 じつは、そこに書いてるようなことをしますた。
ところがどっこい…ファイルをダウンロードしちゃいかん!といわれてしまつた。
WindowsのIEの場合、拡張子に.docとあるとWORDが起動して、ブラウザー内で
.docを表示できるようになります。
が、これって、どうもファイル名が半角英数文字の場合だけのようで、日本語を含
むファイル名だと、ダウンロードが始まります。
namazuを使ってウンヌンカンヌン以前の問題となったのでした。
疲れたぞな
そろそろ次スレのシーズンな訳ですが
980 :
名無しさん@お腹いっぱい。:
irane....