全文検索エンジンNamazu

このエントリーをはてなブックマークに追加
そもそもSKKの逆をやってるのがkakasiじゃん。名前だってSKKの逆読みだし。
まあそれはさておき、一つの単語に対して複数の変換候補があり得るのだが
その取り扱いはどうするのだ?それ以前に単語の区切りも適切に行う必要も
あるのだが。
932名無しさん@お腹いっぱい。:05/01/11 01:10:15
>>930
仮名 -> 仮名漢字のときは、多数の候補が出るので
Wnnの一括変換も、候補表示確定待ち状態になるだけ。

可能な変換例をすべて/可能性が高い方を出力するフィルタも面白かもね。

933名無しさん@お腹いっぱい。:05/01/11 23:05:33
932で言ってるみたいなフィルタって,
もしかして,ない?
「自然言語理解 かな漢字変換」
でぐぐってみな。みんな、どんなに苦労しているか良く分かる。
「音声理解」
なんか付け加えてみてもいい。
「自然言語処理」になると、ちょっとニュアンスが変わって来る。
935名無しさん@お腹いっぱい。:05/01/14 16:21:28
既出だったらすみません。
win server 2003
Active Perl 5.6.1
Kakasi 2.3.4
をインストールしたあとに、Namazuをインストールしようと
すると、Error.txtが立ち上がり
・perl.exeがみつからないか、古い
・AutoExec.batの読み込み・書き込みができなかった
・Registryのシステム環境変数のよみこみ・書き込みができなかった

のどれかの原因で環境の設定ができません。

との内容がでます。以前、Win2000で設定したときは、何事もなく
進んだのですが、同様のエラーにあわれたかたはいらっさいます
でしょうか?

乱文をお許し下さい。よろしくお願いいたします。
> Results:
> References:
>
> ...: [ 会計: 2 ]

これらの表示を消したいのですが、設定項目があれば、
教えてください。
937名無しさん@お腹いっぱい。:05/01/29 14:17:14
nmzmail - fast mail searching for mutt
http://www.ecademix.com/JohannesHofmann/
>>936
namazu-2.0.14//src/output.cをいじれ。
939名無しさん@お腹いっぱい。:05/01/30 04:27:23
namzuってLGPLにならないのかな?
939がこれからLGPLでnamzuを開発するそうです
>>935
path に c:\perl\bin\perl; を追加しとけ。
942名無しさん@お腹いっぱい。:05/01/31 13:58:34
∈(・ω・)∋
943名無しさん@お腹いっぱい。:05/01/31 14:44:55
∈(´∀`)∋
945名無しさん@お腹いっぱい。:05/02/01 10:09:01
∈(・(ェ)・)∋
検索対象からtitle属性を除外したいのですが
何処を触ればいいでしょうか?

<hn>リンク</hn>
<ul>
<li><a href="ttp://www.2ch.net/" title="2ちゃんねる">2ちゃんねる</a></li>
</ul>
というようなページを作成してNamazu検索すると
検索結果に リンク 2ちゃんねる 2ちゃんねる となるのを何とかしたいのですが・・・
947名無しさん@お腹いっぱい。:05/02/06 15:38:06
>>946
>182は?
最大でどれ位のファイルのインデックスを作成できるんだ?
5Gチョい強でエラーが出た。
>>948
--checkpointオプションは使ってる?
http://www.namazu.org/doc/tips.html#saving-memory
>>949
使ってます。

最悪はカーネルパニックで落ちます。

5Gあたりが限界なのかな〜と思ってます。
確か20万ファイルぐらいはあったと記憶してます。
namazu ML 過去ログより要約
| ところで、Namazu のインデックスは 32 bit 符合付き整数の壁が
| あるので、
| >NMZ.i 721295588
|
| この約 687 Mb のファイルが 2Gb を越えると扱えなくなります。
| 同じようなファイルを対象にインデックスを作ると仮定して、単純
| に計算すると、Namazuが扱える最大規模のインデックスは
|
| ファイル数: 2,048 / 687 * 878,914 = 2,620,110 (約262万)
| 合計サイズ: 2,048 / 687 * 2,167,480,108 = 6,461,425,416 (約 6 Gb)
|
| となります。この規模のインデックスを作るには相当たくさんのメ
| モリ (2 Gbくらい?) を積んで $ON_MEMORY_MAX を 300 Mb くらい
| に設定しないと (インデックス作成が遅くて) やっていられないと
| 思います。
>>951
ありがとうございます。
jaistの過去ログをほぼ全てnamazuに食わしてと、個人サーバでは
限界に近いことをしていたので・・・

因みに「2ちゃんねる検索」ってどの様なエンジンなんでかね?
見た感じ非常に良く出来てます。

http://find.2ch.net/

namazuの検索結果ページをGoogleチックにしたくてエンジンに
手を入れようか迷って結局スタイルシートで逃げましたorz
> namazuの検索結果ページをGoogleチックにしたくてエンジンに
> 手を入れようか迷って結局スタイルシートで逃げましたorz

ヒットしたとこが直接表示できるようにしたいとかそういうこと?
954名無しさん@お腹いっぱい。:05/03/03 23:40:18
...---...
955名無しさん@お腹いっぱい。:05/03/04 23:16:34
pnamazuのReplaceがうまくいかないのです。
履歴には
> # 2001.11.28
> # ! replace で \1, \2, ... が使えるようにした
って書いて有るのですが…

実際には
Replace (.*)\.html \1.htm
って書いてます。これで本家namazuではうまく行ってます。

アドバイスお願いします。
956名無しさん@お腹いっぱい。:05/03/04 23:59:04
純粋な野球ファンは5階でろくに応援もさせてもらえず、
接待で嫌々来ているろくに野球を知らない管理職が有待遇。
声を枯らして応援したい熱狂的なファンは5階で口をつぐんで、
メガホンなんて買ったこともないやつが2階で食い物をつついております。
こんなおかしなスタジアム、世界中どこを探してもナゴヤドームだけですよ。
Namazu関係者に名古屋人が多い件について
Knokが連れてきたの?
knok先生はNLUGで知り合ったsatoru大先生に引きずり込まれたわけだが。
960名無しさん@お腹いっぱい。:05/03/09 13:12:24
Geta 面白そうだが
961名無しさん@お腹いっぱい。:05/03/13 19:38:36
第2回検索エンジンアンケート実施中!

http://hp6.0zero.jp/anq/anq.php?uid=1696&dir=84
962名無しさん@お腹いっぱい。:05/03/14 01:39:23
日本語 PDF ファイルからもテキスト抽出できるんだったっけ?
963名無しさん@お腹いっぱい。:05/03/14 02:22:14
日本に留学したアメリカ人、帰国してから、日本は排他的で
他人種を排除する国だと息巻いてたんだそうだ。なぜかというと、

「2年もいたのに、その間いちどもホームパーティに呼ばれなかった」

からだってさ。
964名無しさん@お腹いっぱい。:05/03/14 03:07:56

自分用メモ

rast N-gram全文検索システム
http://www.netlab.jp/rast/
>>962
可能
967名無しさん@お腹いっぱい。:05/03/14 14:35:57
ファイル名に日本語(EUC)を含むファイル(pdfなど)の中身をnamazuさんで検索させてます。
当たり前ですが、検索はうまくいってます。
これを、Webサーバー経由で検索させると、検索はうまく行くんですが、ヒットしたファイル
(pdf)などを、クライアントにダウンロードさせようとすると、ファイル名が化けます。
EUCの日本語ファイル名がそのままURLになっているから、当然だろうなと。

で、ダウンロードしたファイル名が、ちゃんとした日本語にするためにはどうしたら良いので
しょう?
エロイ皆さん、ご教示ください。おながいします。
どこかのスレで見た質問だな。namazuというイロつけてみましたってところか。
namazu関係ないのでスレ違い。
969名無しさん@お腹いっぱい。:05/03/14 15:52:18
>>968
やぱり....
他を捜してみます
適当なラッパ書けばいいじゃん。 対象ファイルのパスが
/foo/bar/日本語EUC.pdf だとして namazurcで
Replace /foo/bar http://www.example.co.jp/cgi-bin/wrap?
とかして wrapはquerystringsつかまえたら、それをsjis変換して
DLプログラムに渡して。DLプログラムは PATH_INFOでファイル名受け取るようにして
内部ではEUCにファイル名変換してターゲットファイルをOpenして
OctetStreamなmimeで出力すればよさげ。
971名無しさん@お腹いっぱい。:2005/03/24(木) 00:06:30
kakasiって2chのスレ内容の分析には弱いのかなぁ…
検索語がうまくひっかからない
ChaSenにしたら分析エラーで止まるし…
972名無しさん@お腹いっぱい。:2005/03/24(木) 00:26:00
複数行にわたったAAに強いわかち書きツールなんてw
973名無しさん@お腹いっぱい。:2005/03/24(木) 00:30:37
でもAAほとんど記号じゃん
漢字仮名交じりにきちんと反応してくれればいいのに
974名無しさん@お腹いっぱい。:2005/03/24(木) 06:54:18
Mecab はどうですか?
と、自分で試さずにカキコ。
975名無しさん@お腹いっぱい。:2005/03/26(土) 18:09:44
Excelファイルをインデックス作成中にVisual Basicのエラーメッセージが
でるのって俺だけ? Namazu 2.0.14に付属のoleexcel.pl使ってるんだが、
どうも、VBAマクロ使っているファイルで吐いているっぽい。
回避策があるのなら、教えて。

WindowsXP Pro SP2
Namazu 2.0.14
Excel 2000
Active Perl 5.6.1
976名無しさん@お腹いっぱい。:2005/03/26(土) 19:11:13
ここは Unix板ですよ?
977名無しさん@お腹いっぱい。:2005/03/27(日) 23:36:19
つい最近使い始めたんですが、826の辞書ってもうアップされないんでしょうか・・・・
乗り遅れてたorz
978名無しさん@お腹いっぱい。:皇紀2665/04/01(金) 15:51:35
>>970
じつは、そこに書いてるようなことをしますた。
ところがどっこい…ファイルをダウンロードしちゃいかん!といわれてしまつた。
WindowsのIEの場合、拡張子に.docとあるとWORDが起動して、ブラウザー内で
.docを表示できるようになります。
が、これって、どうもファイル名が半角英数文字の場合だけのようで、日本語を含
むファイル名だと、ダウンロードが始まります。

namazuを使ってウンヌンカンヌン以前の問題となったのでした。
疲れたぞな
979名無しさん@お腹いっぱい。:UNIX時間(+0900)35/04/02(土) 10:54:49
そろそろ次スレのシーズンな訳ですが
980名無しさん@お腹いっぱい。
irane....