全文検索エンジンNamazu

このエントリーをはてなブックマークに追加
1名無しさん@お腹いっぱい。
全文検索エンジンNamazuについてアレコレ

http://www.namazu.org
2名無しさん@お腹いっぱい。:01/12/30 21:32
けっこうつかっている人いるんじゃないかと思うけど、
スレがなかったようなので立てました。

まずオレが聞きたいのは
namazuじゃなくてkakasiの辞書強化の方法なんだけど、
最低自分の.skk-jisyoぐらいは単語として
認識してほしいんだけど、どうしたらいいんでしょう。

自分でも調べてみるけど。
3名無しさん@お腹いっぱい。:01/12/30 21:40
検索画面のもっとかっこいいのはないんですか?
4名無しさん@お腹いっぱい。:01/12/30 21:48


複合語のようなもの

「強姦魔」は「強姦」でもちゃんとひっかかるはずなのかな?
なんだかうまくいってないような気がするんだけど。
>>4
KAKASI/ChaSen が認識した単位でしかひっかからないと思われ。
NMZ.w にどう記録されてるか調べてみるとどうよ?
「強姦魔」で記録されいたら「強姦」ではひっかからないような。
「強姦*」なら引っかかるかも。
6名無しさん@お腹いっぱい。:01/12/30 23:09
>>4
上記文章の分かち書き結果

% kakasi -w < 4
複合語 のようなもの
「 強姦魔 」 は 「 強姦 」 でもちゃんとひっかかるはずなのかな ?
なんだかうまくいってないような 気が するんだけど 。
強姦魔
強姦
7名無しさん@お腹いっぱい。:01/12/31 19:34
一番大規模なサイトってどこかなあ?
私の知ってる限りでは、みみずん氏の「2ちゃんねる検索」が一番大きい。
FAQ に載っているケースよりも、数十倍大きい。
http://www.namazu.org/FAQ.html#index-scale

170万ファイル、総容量30GB オーバー、プラットフォームは WinNT らしいけど。
http://64.71.134.227/computer/bbs/read.cgi?BBS=293&KEY=1000036249&LAST=100
8名無しさん@お腹いっぱい。:02/01/02 12:20
mknmz -A オプションはどこへ行った?
.htaccess でアクセス制限かけたディレクトリーをindexから除外するやつよ。
復活させてほしいな。
9名無しさん@お腹いっぱい。:02/01/02 12:27
<meta name="ROBOTS" content="NOINDEX,NOFOLLOW">
書いた*.html文書の中に<a href="#hoge"></a>書いてあるのが
引っかかるのも、ヤだねー。やっかくはじいたのに意味ないじゃん。
10名無しさん@お腹いっぱい。:02/01/02 12:35
KAKASIの辞書にATOK辞書を合併するのもよし。
まず、ATOK辞書のツールを利用して辞書をテキストファイルとして書き出します。
スタート → JUSTSYSTEM 一太郎Office → JUSTSYSTEMツール&ユーティリティー → ATOK14辞書ユーティリティ
一覧出力で、
出力ファイルを指定して、システム単語もチェックする。
そして実行します。しばらくすると、ファイルに書き出されます。

このファイルをエディタなどで、eucコードで保存します(例:atok14.txt)。
これを適当なディレクトリに(例:/tmp)に置きます。これをawkコマンドを使って
skkファイルに変換します。

# cd /tmp
# cat atok14.txt | awk '{print $1 " " $2}' > atok14.skk

この新しくできたatok14.skkをkakasiの
srcディレクトリにcopyし、kakasiのツールである、mkkanwaを利用して合併します。

# cd /tmp
# cp atok14.skk /usr/local/share/kakasi/
# mkkanwa /usr/local/share/kakasi/kanwadict atok14.skk

新しい辞書ができます。
112:02/01/02 18:20
>>10 さんきゅ。
12名無しさん@お腹いっぱい。:02/01/02 18:37
namazuの出力では、HTMLだと
<h1>や<h2>でかこんでいるところを出力するようですが、
これを抑えることはできないでしょうか?
<h2>あたりにはたいした情報がないHTMLファイルなもんで...
>>12
> <h2>あたりにはたいした情報がないHTMLファイル
ってのがそもそもおかしいんじゃないか?
とか言ってみる。
1412:02/01/02 20:59
>>13

うん、そういう意見はありそうだけど・・・
たとえば多くの人の日記なんかはH2に日付が
はいってるけど、検索するときはそれは重要じゃないじゃない?
15名無しさん@お腹いっぱい。:02/01/02 22:33
# mknmz --help
mknmz 2.0.10, Namazu のインデックス作成プログラム

使い方: mknmz [オプション] <対象>...

対象ファイル:
-a, --all すべてのファイルを対象とする
-t, --media-type=MTYPE 対象ファイルの文書形式を指定する
-h, --mailnews --media-type='message/rfc822' と同じ
--mhonarc --media-type='text/html; x-type=mhonarc' と同じ
-F, --target-list=FILE インデックス対象のファイルのリストを読み込む
--allow=PATTERN 対象とするファイル名の正規表現を指定する
--deny=PATTERN 拒絶するファイル名の正規表現を指定する
--exclude=PATTERN 除外するパス名の正規表現を指定する
-e, --robots 次の記述を含む HTMLファイルを除外する
<meta name="ROBOTS" content="NOINDEX">
-M, --meta HTMLの metaタグをフィールド指定検索に用いる
-r, --replace=CODE URIを置換するためのコードを指定する
--html-split HTMLファイルを <a name="..."> 単位で分割処理する
--mtime=NUM 変更日制限 find(1) の -mtime と同じ規則
例: -50 で 50 日以内、+50 で 50 日より古いものだけ

形態素解析:
-c, --use-chasen 日本語の単語のわかち書きに ChaSen を用いる
-k, --use-kakasi 日本語の単語のわかち書きに KAKASI を用いる
-m, --use-chasen-noun 名詞のみを抽出する
-L, --indexing-lang=LANG インデックス時に言語に特化した処理を行なう

文字列処理:
-E, --no-edge-symbol 単語の両端の記号は削除する
-G, --no-okurigana 送り仮名を削除する
-H, --no-hiragana 平仮名のみの単語は登録しない
-K, --no-symbol 記号をすべて削除する

要約:
-U, --no-encode-uri URIのencodeを行わない
-x, --no-heading-summary HTML のヘディングによる要約作成を行わない


インデックス作成:
--update=INDEX 更新するインデックスを指定する
-Y, --no-delete 削除された文書の検出を行わない
-Z, --no-update 文書の更新・削除を反映しない

その他:
-s, --checkpoint チェックポイント機構を作動させる
-C, --show-config 現在の設定を表示する
-f, --config=FILE 設定ファイルを指定する
-I, --include=FILE カスタマイズ用ファイルを読み込む
-O, --output-dir=DIR インデックスの出力先を指定する
-T, --template-dir=DIR NMZ.{head,foot,body}.* のディレクトリを指定する
-q, --quiet インデックス処理の最中にメッセージを表示しない
-v, --version ヴァージョンを表示する
-V, --verbose 口やかましいモード
--debug デバッグモード
--help このヘルプを表示する
-----------------------------------------------------
-Mじゃだめ?書き直すのめんどくさい?
<META NAME="keywords" CONTENT="きーわーど">
<META NAME="description" CONTENT="こめんと">
16名無しさん@お腹いっぱい。:02/01/02 23:57
>>3
自分でいじれ。カックイクなるYO!
17名無しさん@お腹いっぱい。:02/01/10 04:29
a
18名無しさん@お腹いっぱい。:02/01/13 13:49
>>7
みみずんの2ちゃんねる検索、
lastupdate: 2002-1-9
index files: 5073445 keywords: 249969957 って検索結果に表示されてたよ。
500万ファイル超えてるじゃん。すげえ。
19名無しさん@お腹いっぱい。:02/02/06 04:57
たまにはage
20名無しさん@お腹いっぱい。:02/02/06 05:25
PostgreSQLと組合わせられるみたいだけど、
ラージオブジェクト内はインデクス化出来ないの?
2220:02/02/06 20:07
>21
なるほど。
待てば実装されそうな気配かな。
取り敢えずは、一旦書き出すか……
23774:02/02/17 17:37
つーかChasenの辞書簡単に作れねーかな。
>>23
何がやりたいの?
自分のなまえを辞書登録したいとか?
25774:02/02/18 13:55
>>24
専門用語を登録したChasen辞書を自分localに欲しい
http://chasen.aist-nara.ac.jp/chasen/faq.html.ja#A-1
ipadic のコスト計算は沢山の文章を解析させて決めてるようだから、
ちゃんとした値を設定するのは一個人には無理っぽい。
27774:02/02/20 12:44
似てる単語に1ポイントプラスとかじゃダメ?
まあまずは試してみるのが良いのでは。
29名無しさん@お腹いっぱい。:02/02/20 22:49
イントラネット用サーバに検索機能を付けようと思って、
Turbo linux server 6.5 に 2.0.10 を
tar ball からコンパイルしてインストールした。

nmz/libnamazu.h の BUFSIZE = 1024, の値 1800 とかに変更して
./configure && make && make すると、検索実行時に セグメンテーションフォルト
で落ちる。 namazu.cgi も namazu コマンド両方とも同じ現象。
1024 だと問題なし。

2.0.7 でやってみたら、 BUFSIZE = 4096 でも問題なく動いた。
いまは時間がないので、とりあえず 2.0.7 で運用することにした。
あとでソースを追っかけてみる予定。原因わかったら パッチと一緒に ML に投げてみようと思ってます。

http://search.namazu.org/ml/namazu-devel-ja/msg02215.html とかが
関連してるのかなあ? でも、RC の話だから、きっとすでに修正されてるんだよね。
3029:02/02/20 22:50
> ./configure && make && make

./configure && make && make install
の間違いでした。
31名無しさん@お腹いっぱい。:02/02/22 16:53
このパッチで直ると思います。

RCS file: /storage/cvsroot/namazu/nmz/libnamazu.h,v
retrieving revision 1.46
diff -u -r1.46 libnamazu.h
--- nmz/libnamazu.h 2000/12/18 09:02:06 1.46
+++ nmz/libnamazu.h 2002/02/22 07:31:15
@@ -169,7 +169,7 @@
* NMZ.* files' names.
*/
struct nmz_names {
-#define MAXPATH 1024
+#define MAXPATH BUFSIZE
char i[MAXPATH];
char ii[MAXPATH];
char head[MAXPATH]; /* followed by a language code */
32名無しさん@お腹いっぱい。:02/02/22 21:12
>>18
実は約250万ファイルです。9月ごろにポカミスしてそのままでした。
たくさんのインデックスがあり最大のインデックスは17万ファイル程度です
3329:02/02/23 12:47
>>31
>>29の件、パッチを当てたら 2.0.10 での
セグメンテーションフォルトが発生しなくなりました。
とても素早い対応をしてくださってありがとうございました。
34名無しさん@お腹いっぱい。:02/03/08 00:20
NMZ.format.jaの#word を使うと キーワードとヒット数が出てしまうんですが
ヒット数を表示しないようにしてキーワードだけ表示することは出来るのでしょうか?
>>34
ごめん、言ってる意味がよくわかんない。
NMZ.format.ja なんてファイルないし、#word ってのもよくわからない。
36名無しさん@お腹いっぱい。:02/03/08 11:12
インデックスのファイルの中にあるんですが。。。
えー、自分とこにはないよ、と思ったらそれ pnamazu 用のファイルか。
それならそうと書いて欲しかった。

ざっとソースを見た感じでは改造しないと無理そう。
perl で書かれてるからそんなに難しくはないと思う。
38名無しさん@お腹いっぱい。:02/03/08 14:04
すみません 全部共通だと思ってました・・・
ありがとうございました じっくりソースいじってきます。
3938:02/03/09 11:38
こつこつソース読んでたら普段使ってない脳を使ったせいで筋肉痛になってきた
40名無しさん@お腹いっぱい。:02/03/11 02:06
Namazuで2chのdatファイルを見やすく整形しながら、
検索することはできますか?
41名無しさん@お腹いっぱい。:02/03/12 15:42
HP-UXへインストールしようとして、makeに失敗
gccを含むGNUコマンドを大量導入中・・
gccのコンパイルって大変・・
>>40
http://pc.2ch.net/test/read.cgi/linux/989179375/
ここに dat2html がある。
44名無しさん@お腹いっぱい。:02/03/14 09:13
pnamazuのラッパー
> sub print{
>加工
>print;
>}
>require "pnamazu.cgi";
について具体的な使い方などを解説しているサイトありませんか?
45名無しさん@お腹いっぱい。:02/03/30 11:17
すみませぬ。素朴な疑問なんですが、スコアって何ですか?
文書中で単語がマッチした数かと思って数えてみたんですが、
そうでもないみたい。
>>45
単語のマッチした数でだいたい近いけど、それに重みづけが加わったりする。
4745:02/03/30 14:40
重みって具体的にどういうことですか(汗)?
それはファイルの種類によって色々。
たとえば HTML だったら <title> とかに含まれる文字列は他に
比べてより重要な情報である可能性があるので、その単語はより重みを
つけている。
49名無しさん@お腹いっぱい。:02/04/18 10:59
kakasiについて教えて★いのだが、宜しくたのむ。

とある、地名が平仮名で書いてあるテキストファイルを、ローマ字に変換しなければならなくなり
最初grepでやろうかと思ったのだが、Gogleで検索していたらkakasiなるものをみつけ
RPMファイルでインストールしたのだが、

# locate kakasi

をたたき込むと

/usr/bin/kakasiもしっかりできておるので、

インストールは正常にできたと思うのだが
使い方が良く分からん?

# kakasi

とすると、コマンド待ちのようだ(シェルで# perlとか# php等と打ち込んだ時と同じような状態)
詳しい解説のしてあるurlでも良いので教えて欲しい。
ちなみにOSはRH7.2Jである。
man kakasi
51名無しさん@お腹いっぱい。:02/04/18 11:59
早速のレス、ありがたく承った。

# man kakasi

ごちゃごちゃと、色々書いてあるが大体理解できた。
拙者に、必要な機能だけとりあえず使ってみるとしようか。
52hoge:02/04/19 01:25
ひらがなの地名って kakasi で上手く解析できるんかな。
なんか誤動作しそうな予感。chasen も試してみたら?
53名無しさん@お腹いっぱい。 :02/04/20 23:06
NMZ.result.*.jaの${uri}が、展開された時に
http://www.huga.jp/~foo/?2002a#1204
という形になって欲しいのだけど
?2002a#1204
と出てきますが手書きでNMZ.result.*.jaを
書き換える以外に何か方法があるのでしょうか?
54sage:02/04/20 23:29
.namazurc で Replace /home/foo/public_html/ /~foo
かな?
55sage:02/04/20 23:30
ごめん http 付け忘れた。
56名無しさん@お腹いっぱい。:02/05/15 20:07
kakasiと組み合わせて使っている者ですが、mkkanwaによる
辞書作成時、漢字と英数字を組み合わせた単語、例えば
「少年A」とか「仲間1」といった単語の登録は可能なの
でしょうか?

もし可能であれば、どうやったらいいかも教えて下さい。
残念ながらできません。
5856:02/05/16 21:45
>>57
できないというのは、要するに「少年A」だったら、「A」の部分は
登録されず、「少年」という単語のみ登録されると理解してよろしい
のでしょうか?

またこの場合、検索時に「少年A」という単語を含むドキュメントのみ
ヒットさせるには、どうしたらよいのでしょうか?
59名無しさん@お腹いっぱい。:02/05/18 11:55
「少年」と「A」がそれぞれ記録される。
複数の単語の連続した組合せを探すにはフレーズ検索がつかえる。
{少年 A} という感じで。
A って stop word になっちゃうんじゃない?
Namazu には stop word 実装されてないので一文字の単語も
記録される。NMZ.w みるとわかると思うけど。

あと KAKASI について補則しておくと、もともとが漢字をひらがなとかに
変換するためのソフトだったので、漢字の連続した文字列に対してしか
辞書の照合を行なわないようになってるのが「少年A」みたいなものを
一まとめに扱えない理由。
62名無しさん@お腹いっぱい。:02/05/20 19:00
>>59
フレーズ検索を試してみましたが、どうも"少年A"ではなく、
"少年 A"で検索されてしまっているようなので、うまく
ヒットしません。
63名無しさん@お腹いっぱい。:02/05/23 06:43
レンタル鯖上でC言語版のnamazuを使いたいのですが、
ここにいらっしゃる方々、教えて下さい。

レンタル鯖に問い合わせたところ、
telnet不可。telnet.cgi不可。
但し、「自分のコンパイルしたnamazuを含めたC言語のCgiのUPは可能」
と言われました。
perl版のnamazuも使えるのですが、検索速度が遅いですし(インデックスファイルが60Mある)、
C言語版が使いたいです。

 UNIX(linux:RedHat)上に、いきなり実行形式のnamazuをUPして使用できるものなのでしょうか。
どこかに書かれているHPないでしょうか。
さらに、コンパイル済みのnamazuってあるのでしょうか?
64名無しさん@お腹いっぱい。:02/05/23 15:51
SKK とこっちのどちらに書くか迷ったけどこっちにしとこう。
ちらほら SKK辞書の誤登録が修正されてるみたいだけど、それを反映した
kakasi の辞書って配布されないのですか?
正しい漢字を kakasi で引いたのに読みが出てこなくて悲すぃんだけど。
6663:02/05/24 05:46
65さん
ありがとうございます。
RPM(Red Hat Package Manager)って言葉を今日知りました。

これって、root権限ないとできないですよね。
ローカルでrpmコマンド実行して、
サーバーにUPってわけにいかなですよね。

67名無しさん@お腹いっぱい。:02/05/24 07:09
私が依然調べたNAMAZUが設置してある鯖
 結局,私は、Xreaです (^^;
*価格は、まぁまぁかなの鯖
 http://www.lime-web.com/
 http://www.fsv.jp/
 http://www.akira.ne.jp/service2.htm
*かなり高めの鯖
 http://uspcu.ultra-speed.ne.jp/
 http://www.kikakuya.net/service/eEgg79/option.html
 http://www.oftech.co.jp/service4.html#db
 http://www.glory-net.com/hosting/functions_hp2.html
 http://www.zenbelg.co.jp/server_e.html (専用鯖)
*無料鯖
 http://www.xrea.com/jp/
>>66
cpio でバイナリ抜き出しちゃえば?
70名無しさん@お腹いっぱい。:02/05/27 01:15
こんなソフトを見つけました。
同じ全文検索システムとして、切磋琢磨していってほしいな。

全文検索システムSnatcher
http://www.arc.ritsumei.ac.jp/kachina/mikio/snatcher-ja.html

以下、tar ball 付属の spex-ja.html より転載。

Snatcherバージョン1.0は2002年1月に開発が始められた。
ChaSenで形態素解析を行い、その結果をGDBMにより管理する方法の有効性がこの時点で確かめられた。
作者の友人であるS氏が学生時代に製作していたNozomiという全文検索システムがこの原案となっている。
バージョン1の検索機能は、ファイル名を表示するだけという極めて単純なものであったが、
シェル等のアプリケーションで機能を補うことによって、
多機能で柔軟なシステムを構築することができた。
検索結果のスコアリングはこの時点で実装されていた。

バージョン2.0の開発は2002年2月から始められた。
より高速に検索でき、結果が見やすく、多様な形式の文書を扱え、インデックス作成も短時間に行え、
それでいてインデックスファイルが小さいことを目標とした。
GDBMのキーに名前空間を導入することによって、複雑なデータ構造を正規化して格納できるようになった。
文書からのテキスト抽出を行うプリプロセッサを分離したことによって、フィルタが存在する任意の形式の文書を扱えるようになった。
タイトルや要約の表示もできるようになった。その他、Namazuを模倣して多くの機能が追加された。
かなり実用的になってきたので、インターネット上で公開することにした。

バージョン3.0の開発は2002年3月から始められた。
検索速度の向上はもう限界に来ていると作者は感じ、スケーラビリティと汎用性を追求することにした。
インデックスファイルをキーのハッシュ値で分割する方法を採用し、テラバイト級の検索システムを実現することを目指した。
また、APIを整備し、作者以外の人間も効率的なアプリケーションを作成できるようにした。
バージョン3.2ではベクトル空間モデルによる類似文書検索を実装した。
71名無しさん@お腹いっぱい。:02/05/27 19:39
類似スレッド

WWW検索エンジンサイト
http://pc.2ch.net/test/read.cgi/esite/973436559/
72名無しさん@お腹いっぱい。:02/05/28 22:38
>>62
ちゃんと NMZ.p (フレーズ検索用ファイル)はできてますかね。あと
NMZ.w に「少年」「A」がそれぞれちゃんと記録されているかも
確認して欲しいです。

>>64
誰かががんばって SKKJISYO を kakasidict に反映させる作業をしない
限りは...
73名無しさん@お腹いっぱい。:02/05/31 03:49
>>70のstemmerは力業でスゴイが、porterのアルゴリズムを
使っていないことには理由があるのだろうか?
74名無しさん@お腹いっぱい:02/06/01 00:52
namazu.cgiで検索された単語を統計として調べ
それをKAKASIの辞書にフィードバックしたいんですがそういうツールありますか?
既に先人が作ってそうなんだけど。
75名無しさん@お腹いっぱい。:02/06/02 13:28
>>74
NMZ.slog にクエリが記録されていくから、
それを kakasi の辞書に反映させるようなスクリプトを書けばいいのかな。
キーワードの読みをどこから調達するかが問題になると思う。
>>64
knokさんの日記で読んだんだけど、あの辞書は
人手で作業してる部分が大きいの?
77名無しさん@お腹いっぱい。:02/06/02 15:08
> 73
いまのプロセッサのパワーなら、簡便法であるporterのアルゴリズム
を使う必要なんてほとんどないのでは?
辞書式でも速度は十分だし、精度もほぼ完璧。
>>77
しかし、柔軟性に欠けるのでは?
>>78
辞書を編集すれば、柔軟性もばっちり。
まあ >>70 のstemmerはハードコーディングだから再コンパイルが必要で
その限りではない気がするが、、、
79を読んで、クラッとしました。「仕様です!」のヴァリアントですか。
それならそれで、辞書の格納形態に柔軟性がないなということでしょう。
しかしま、porterのアルゴリズムで後処理して、未知語、新語をサルベージ
したら? という感じでしょうか
81名無しさん@お腹いっぱい。:02/06/04 00:43
Namazuって最近動きがないけど、開発面でダメ化したと見て良いの?
開発力のある奴、コミュニティから去っちゃった?
82名無しさん@お腹いっぱい。:02/06/05 19:59
porterのアルゴリズムって、そんなに性能よかったっけ?
nothing → noth
many → mani
、、、うーむ
83名無しさん@お腹いっぱい。:02/06/25 19:26
Kabayaki
http://www.timedia.co.jp/new/products/kabayaki

Namazuベースの全文検索エンジン「Kabayaki」リリース
http://www.zdnet.co.jp/news/0206/25/njbt_06.html

ブラウザインターフェイスの Search-S みたいなもんか。
よくできてるね。
84名無しさん@お腹いっぱい。:02/06/25 22:09
『Namazu』を美味しく調理した日本語検索環境『Kabayaki』
http://cnet.sphere.ne.jp/Enterprise/News/2002/Item/020625-4j.html
なまずの蒲焼きって食えるの?
なまずって食えるの?
食えねーと思うけどな。
食用 なまず で検索すると食えるみたいだよ。
アメリカで食ったけど、フライだった
高林って食えるの?
食えないおやじです。
おやじなの?
まだ20代に見えたけど。
94名無しさん@お腹いっぱい。:02/07/09 00:22
時折、インデックスが、破損して日本語で検索できなくなります。
インデックスを消去してリビルドすると、直るんですが、原因がわからず
困っております。Cronで1日1回、mknmzとゴミ掃除をさせてるのですが。

なにか、ご指南ございましたら、よろしくお願い致します。
namazuのドキュメント見てたら「できないこと」に
「一日に 100 万回の利用件数がある」というような大規模な構成の使い方。」
ってのがあったんですがどうしてできないことなんでしょう?
96名無しさん@お腹いっぱい。:02/07/09 01:18
>>95
開発チームが謙遜してるだけ。
あと、なんでもできる、とか勝手に思いこむ厨を
寄せ付けないようにするためだと思う。

みみずん検索とか、400GBをインデックスしたいとか、
大規模な用途でも導入例はある。
http://www.namazu.org/ml/namazu-users-ja/msg02117.html
プロジェクリーダが高林氏からknok氏に変わるってホント?
namazu-devel-jaをみても2.0.11の準備を4月に始めているのに
6月24日以降メールが流れていない...

みんなもうメンテナンスする気ないのかな?
99名無しさん@お腹いっぱい。:02/07/24 08:04
実用に耐える形態素辞書が用意できない形態素解析エンジンよりは
n-gram型検索エンジンのほうがまだ再現率が100%な分だけ利用価値がある。

Namazuでヒット数が多い形態素をrejectするのはバグと断言していいね。
100>96:02/07/24 08:08
jpドメインのHTML数は1999年に50GB程度だと思ったのだが2001年には
400GBまで膨れ上がったのね。ネオむぎ以降、新規流入組の手によって
増えに増えた2ch.netのゴミデータが全体の10%くらいを占めたり
するんじゃないだろうか。
出た、「ネオむぎ以降、新規流入組」
102名無しさん@お腹いっぱい。:02/07/24 08:16
検索エンジン関連のスレッドにカキコしているような人間が
ネオむぎ事件が発生するまで2ch.netの存在を発見できなかったなんて
噴飯物だなあ。
>>98
ここ数日何通かメールが流れていて、2.0.11 リリースに向けて
動いているようですが、何か?
>>103
数日っていうか昨日でしょ
>>104
> >>103
> 数日っていうか昨日でしょ

いや、数日。 -devel-jaではなくって、projectの方は
何日か前から流れてる。
101はネオむぎ以降組の夏厨だな
>>53
ログ読んだか?
108107:02/07/27 14:12
しまった、誤爆スマソ
109名無しさん@お腹いっぱい。:02/07/28 21:53
Namazu と合わせて w3m-namazu も入れてめっちゃ感動してるんですが、
WEBで見つけた namazu.el っていうのは、w3m-namazu に置き換わったと、
考えていいのでしょうか?
110名無しさん@Emacs:02/07/29 12:26
>>109
Emacsでnamazuがつかえる。
ちなみにEmacsでは mewやwlでもnamazuがつかえるよん。
namazu.el 1.13 を入れて正しく設定したつもりなのに、
>参考ヒット数: [ (インデックスは古いフォーマットであるべきです) ]
ってすぐ表示されてしまう。
w3m-namazu.el はちゃんと動いてるのになんでだろう。
Emacs21には対応してないのかな?
>>111
namazu-default-dir は?
>>112
ありがとございます。
それ設定したらサクッと動きました。
もうちょっとオプション変数の説明ぐらい
読むようにしたほうがいいですね(反省

それにしても恐ろしいまでに便利だ…
114名無しさん@お腹いっぱい。:02/08/10 11:17
namazu の出力フォーマットが崩れて namazu.el がおかしくなるのは既知ですか?
ファイル名が行頭から始まらないことがあります。

----こんな感じ
$ namazu sex
検索結果

参考ヒット数: [ sex: 8 ]

検索式にマッチする 8 個の文書が見つかりました。

1. SEX IN THE ZOO~~~ (スコア: 37)
著者: "ZEBRA SEX"
日付: Sat, 16 Mar 2002 19:34:54 -0500
zeb01 /home/hoge/Mail/lookup/1907 (8,005 bytes)

115あぼーん:あぼーん
あぼーん
116114:02/08/21 19:41
>>115
まじめに答えて下さい。

だれも namazu.el は使ってないのか?
みんなは wl や w3m.el で使っているのか?
>>116
Emacsは 21?
漏れも 試してみたけど、20.7ではおかしくならないみたいだね。
21.1ではEmacsが暴走したけど(藁

# でも21.1では wlで使ってるのでnamazu.elは使ってないから気がつかんかった。
118名無しさん@Emacs:02/08/25 16:41
Namazuの検索結果のページをCSSで見た目を変えたいのですが
namazu.cgiがバイナリファイルなので CSSファイルをリンク
させたり中にCSSを書いたり出来ません。

検索結果をカスタマイズしている人を見るのですが
どうあって編集しているのでしょうか?
119118:02/08/25 16:48
NMZ.foot.jaをいじったら出来ました〜。
mailutimeってどんな時にうれしいのでしょうか?
普通にmailのindexを作る時はDate:を見てくれますよね?
121名無しさん@お腹いっぱい。:02/08/27 15:34
age忘れ。
122名無しさん@お腹いっぱい。:02/08/27 15:55
>> 120

Date:フィールド用の検索インデックスは別に作られるが、
日付によるソートで用いるインデックスはファイルのタイムスタンプから
作成されているのでmailutimeは使っとけ
>>122
なるほど。今気付きました。ども。
124名無しさん@お腹いっぱい。:02/08/28 18:05
例えば
map.gif(駅周辺地図画像)
というファイルがあるとして、
これを
「地図」「駅」などのキーワードでヒットさせたいのですが
何かよい方法はありませんでせうか・・・

このさい同じことができればNAMAZUじゃなくても・・・

誰か知恵をお貸しください(;´Д`)
125名無しさん@お腹いっぱい。:02/08/28 18:07
[警告・危険]

2チャンネルでの書きこみは直ちにやめて下さい。
私はここに書き込んだために、アドレス帖の中身を覗き見られました。
これは嫌がらせではありません。

[警告・危険]
>>124
htmlからlink張って、そのhtmlがヒットするようにしとく。
127124:02/08/28 18:19
>>126
返答ありがとうございます。
現在それでやっているのですが、それ面倒だから(上記のような方法で)なんとかしてよと頼まれたのです。(;´Д`)

インデックスファイルの本体はバイナリなので触れないみたいだし・・・(;´Д`)
具体的にどういう状況なの?

とりあえずnamazuでは無理だと思う。
>>124
map.gif から「地図」「駅」などのキーワードを
どうやって引き出すおつもり?
130124:02/08/28 18:57
>>128
色々探しているのですが・・・やはりこれといったものが見つからないのですよね・・・


>>129
最初はインデックスファイルを編集してしまえばいいやぁとか気楽なことを考えていたのですが、
色々調べているうちにどうもインデックスファイル編集は無理ぽ、と気が付いたのです。

別にインデックスに読み込ませるファイルを作って、インデックス作成時にそれも参照・・・
等かなぁとか思っています。

というか、よい知恵が浮かばないのです。。。(;´Д`)
とりあえずくだ質に行け。
132名無しさん@お腹いっぱい。:02/08/28 20:41
>>130
JPEG や PNG の埋め込みコメントをインデックスするフィルタを書く、ってのはどう?
pdf のフィルタとかと同じ原理ね。
あ、gif か。gif ってコメントってあったっけ?
>>130

それぞれの画像に対応する情報を画像自体から取得するのは困難だから、
結局のところ 画像固有の情報は手でニュー力しなければならないわけだよね。
だったら 画像<->情報 の対応をdbmなんかで管理するちゅーのは?
ま、大人しくsql鯖を使えってことだね。
namazu 2.0.11 リリース
namazu 2.0.12 リリース
2.0.11は一日しかもたなかったな(藁
対処が早いのは良いことです。
libnmzつかってるひといます?
138名無しさん@お腹いっぱい。:02/09/05 13:21
namazuのversionをあげたら、indexも作りなおしたほうがいいの?
139名無しさん@お腹いっぱい。:02/09/05 13:57
>>138
2.x系ならその必要はありません。
1.x -> 2.xの場合は必要です。
>>139
ども。
文書の中に"愛をとりもどせ"という単語があります。
検索で、"愛をとりもどせ"を検索しましたが
対象の文書が引っかかりません。
[愛] [をとりもどせ] で探しているようです。
^^^^^^^^^^^^^^^^^^^
この分かれ方がおかしいと思うのですが、
うまく検索する方法はないのでしょうか?
>>141
がいしゅつ。
namazu.org のmailing list過去ログ検索で、
「プロ野球チームをつくろう」を検索してみろ。

だいたい、「愛をとりもどせ」って「単語」じゃないだろ。
>だいたい、「愛をとりもどせ」って「単語」じゃないだろ
アホでスマソ...
どうしようショボーン....
144142:02/09/12 02:12
>>143
この問題は、文章を区切って索引を作るタイプの検索エンジンではよくある事だ。
「フレーズ検索」「分かち書き」「形態素」という言葉を
namazu.org で検索して調べてごらん。

あと、文章を区切ってるのは、kakasi とか chasen というツールがやってる。
区切られ方に文句があるなら、これらのツールの動作の仕組みをしらべてごらん。仕組みがわかれば、141 の望むような動作をさせられる「かも」しれない。
> 文書の中に"愛をとりもどせ"という単語があります。
「YouはShock!」をどう解析するのかにも興味あり。
146141:02/09/12 16:57
namazuの検索時の単語のわけ方と、
index作成時のkakasiの単語のわけ方が
違うのが原因ということでしょうか??
とりあえず、namazu.cgiを改造して、
入力された検索ワードをkakasiで分かち書き
させてみようと思います。
mknmzにsambaのCAPデコーディングオプションつけてホシー
結局自前でつけてる
148名無しさん@お腹いっぱい。:02/09/17 09:21

RDB(MySQL)の中のテキストをIndex化して
Namazuで検索できるようにする方法を検討しています。

検索結果にテーブル、プライマリキーが含まれるように
なればと思っているのですが、なかなかよいアイデアが
思いつきません。

もし、このような使い方についてヒントとなる情報を
お持ちの方がいらっしゃいましたらご教授願えない
でしょうか?

当方が未熟なため基本的なことを見落としているかも
しれませんがよろしくお願い致します。
>148
漏れは、mknmz.plを改造して、プライマリキーを引数指定、
インデクス対象を標準入力から流し込めるようにして
対応してみた事があるけど。
150148:02/09/17 14:37
>149 さん
ありがとうございます。

なるほど・・・やはり何かしらのカスタマイズ
は必要になってくるのですね。今晩あたりから
その方向で挑戦してみようと思います。

貴重なアドバイス、ありがとうございました。
>145
ワロタ(w
152名無しさん:02/09/21 20:18

質問系スレの参照を辿って一つ一つのファイルに分割
mknmz して全文検索できるようにしてみました。
http://midsylphie.s19.xrea.com/cgi-bin/NamazuMusume/namazu.cgi
モ娘。関係なのは気にしないでください。

いくつかやりかたが分からないのですが、
1.検索結果のファイルの冒頭部分の表示サイズの変更のしかた。
2.検索結果の日付を該当レスの日付にしたい。
3.検索結果に個々のファイルでなくhtmlの参照(http://xxx../yyy.html#hoge)
 を出す方法。

おねがいします。
153名無しさん@お腹いっぱい。:02/09/22 00:58
>>152
1.スタイルシートを使うか、テンプレートを書き換える。
2.と 3.
--html-split HTMLファイルを <a name=\"...\"> 単位で分割処理する
を試してみたら?

こんな感じにしたいのかな?
Linux 板の Debian スレ検索
http://debian.dtdns.net/2ch-debian/index.cgi?query=ftp&whence=0&max=20&result=normal&sort=score

これをやるには、レス番号あたりに <a name=""> を
マークアップする必要があるんじゃないかな。
154名無しさん:02/09/22 02:40

>153
レスありがとうございます。
--html-split はそのまんまですね。私の目が節穴でした。

日付はファイルのタイムスタンプかインデックス生成の時間に
なるのでしょうか?Debianスレ検索の結果でも、日付はほとんど
同じです。日付、著者によるソートの機能はあまり意味がないですね。
検索結果のサマリにレスの投稿日が含まれているのでそれでよしと
しました。

検索結果のサマリ部分の表示サイズですが、文字の大きさのこと
ではなくて、バイト数?のことです。テンプレートの中にはそれら
しい設定は見当たらないのですが。。。
155153:02/09/22 03:00
>>154
あ、確かにタイムスタンプはレスのものじゃないね。

バイト数表記を変えるには、mkmmz を改造する必要があると思う。
perl がわかるなら挑戦してみてね。

というか、1.検索結果のファイルの冒頭部分の表示サイズの変更のしかた。
じゃどういう表記を望んでるのかがわからん。
具体的にどう表記されたらうれしいのか書いてごらん。
156名無しさん:02/09/22 03:54

説明が下手で手間をおかけして申し訳ないです。

バイト数といっても検索結果の末尾に表示される(1,234 bytes)
のことではなくて、summaryのサイズことです。
レスの本文が1-2行しか表示されないのはちょっとものたりない
気がするので5行くらい表示したいのです。

で、調べてみたらpl/conf.plの中の$MAX_FIELD_LENGTHを変えれば
いいようです。
>>152

>2.検索結果の日付を該当レスの日付にしたい。

フィルタ (NAMAZUDIR/filter/html.pl) に次のを加えて出来ないかな?
即行で書いたのでバグってるかもしれんが…
(--html-split 使っているのが前提)
・以下の + の行を追加

 html::escape_lt_gt($contref);
 $fields->{'title'} = html::get_title($contref, $weighted_str);
+html::get_date($contref, $fields);
 html::get_author($contref, $fields);

・以下の関数を追加
sub get_date ($$) {
my ($contref, $fields) = @_;

if ($$contref =~ m|</font> :([90][21098])/([01][0-9])/([0-3][0-9]) ([012][0-9]):([0-6][0-9]) ID:|) {
$fields->{'date'} = "$1/$2/$3 $4:$5";
}

}

# うーむ、([90][21098])/([01][0-9])/([0-3][0-9]) ([012][0-9]):([0-6][0-9]) って
# ([90][21098]/[01][0-9]/[0-3][0-9] [012][0-9]:[0-6][0-9]) で $fields->{date}=$1; でも ok かな?
158名無しさん@お腹いっぱい。:02/09/23 01:10
>>157
おお、グレイト。一つ指摘だけ。パッチなし。

メールアドレス欄に文字があるときにマッチしないのでは?
<dt>345 :<a href="mailto:sage"><b>270</b></a> :02/09/13 16:47 ID:kiwRHvV+<dd>
とか。
ID の有無への対応もちょっと大変?

うーん、read.cgi が出力した html を元にインデキシングするよりも、
dat から mknmz しやすい html を作って、
それを元にインデキシングする方がいいね。
mknmz 側の修正はどっちにしろ必要だと思うけど。

>157
なるほど。filter/html.pl に手を加えればいいのか。

>158
自分はhtml化された過去ログの対応するdatファイルが見つけられな
かったのでhtml2dat.plなるものを作ってました。

ところで、スレッドをまるまる--html-splitでmknmzし
た場合、
1.例えばこのスレの>>124のような疑問に対して検索した場合、>>124
 のレスは見つけられても、その答えを探すのに先を読まなければな
 らない。
2.1レス見るためにスレ全体をダウンロードしなければならない。
と思うのですが、このへんは不便ではないのでしょうか?

160157:02/09/23 02:03
>>158
メールアドレスは盲点ですた。
あと、少し検索した限りだと >>152 の対象には ID が無いログは無いみたいに見える。

dat から直接変換したほうが楽なのはわかりますが
最近は dat 直接読めないようですからねぇ。

if ($$contref =~ m|(?:</font>)|(?:</a>) :([90][21098])/([01][0-9])/([0-3][0-9]) ([012][0-9]):([0-6][0-9]) ID:|) {
$fields->{'date'} = "$1/$2/$3 $4:$5";
}
>>159
1. じゃあ、「このレスに対するレス」というリンクを
質問の末尾に追加するスクリプトを書く・・・。なんか面倒だな。

2.私はそれほど不便には感じないけどなあ。
でも、ノイズがあまりに多いスレだと不便さ爆発だろうね。

というか、娘。検索管理者氏が最初に作った、
スレの中の >> を追跡して分離するスクリプトと
--html-split を組み合わせればいいんじゃないのかな。
スレの中の >> を追跡して分離するスクリプト公開きぼーん。

>>160
そっか、直読みは制限されてたんだっけ。
read.cgi html -> dat -> Namazu 用 html ということになるのか。
162名無しさん@お腹いっぱい。:02/09/25 22:56
>>161
UAが Monazilla/1.00 (navi2ch/itteyoshi)
といかになってれば直読みできます。
164名無しさん@お腹いっぱい。:02/09/26 11:46

http://xxx.2ch.net/xxx/dat/1111111111.dat
にあるんじゃないの?
普通のブラウザ以外から直読みって意味?

ソース汚いし、ごちゃごちゃしててとっても公開できnです。
ってか、このくらいのアルゴリズムだったらスクリプト厨の
自分よりもっとエレガントに実装できる人がいそうな。。。
nkf2.0でましたね。
age
168名無しさん@お腹いっぱい。:02/10/18 05:48
あらかじめ /var/namazu/index に ~/html/ 以下のファイルの
インデックスがおいてあります。

その状態で
% mknmz --update=/var/namazu/index ~/text/

を実行すると

検索対象のファイルを調べています
インデックスすべきファイルはありません

と言われてしまいます。--updateオプションを使ってこういう風に
まったく違いディレクトリのインデックスを1つにまとめておくこと
はできないんですか?
169名無しさん@お腹いっぱい。:02/10/18 17:44
--update はその index を作成したときの cwd や mknmz の引数を引き継いで
更新する、っていうオプション。

168 の望む動作は多分
mknmz -O /var/namazu/index ~/html/ ~/text/
もしくは
mknmz -O /var/namazu/index -Y ~/text/
あたりだと思われ。
遅レススマソ。
なるほど。複数のディレクトリを1つのインデックスにまとめる方法
はやっぱりあったんですね。

'-Y'オプションだと本当に文章削除されてる場合とか困りますよね。
インデクッスは細かく分けて作ったほうがいい気がしてきたので、
とりあえず色々試してみます。
微妙に板&スレ違いかもしれませんけど、xreaでnamazuを使えるようにするには、
どうすればいいのですか?
他のサーバでも同じでしょうけど

・コンパイル作業はご自分のLinux環境で行ってからバイナリアップロードしてください。
・NAMAZUでのインデックス化で3分を越えるものは強制終了されます。

http://216.239.33.100/search?q=cache:jzP2pf8MVPMC:www.xrea.com/%3Faction%3Dspec+xrea%E3%81%A7namazu&hl=ja&ie=UTF-8

そこで、pnamazu
http://www.amays.com/~mizusawa/namazu_kaisetu/pnamazu.html

cgi 設置に関わる仕様などは、xrea のFAQ見るとか
173初期不良:02/11/11 21:29
11/5 リリースの wvWare0.7.4 を namazu2.0.12 で使おうとしたら
word 文書がすべて未対応の形式とな...
ほげってみたら wvVersion の返す文章の形式が変わっていたせいらしい。
msword.pl をこう変更して解決したけどいいのかな?
- if (/^Version: (word\d+),/i) {
+ if (/^Version: (word\d+)/i) {
ちなみに wvVersion で返される文章はこんな感じ
Version: word8 or higher, Encrypted: No

なんだかなぁ...
174初期不良:02/11/11 21:54
>>173
バグレポート出してきますた
echo 膠着 | kakasi -w
で文字化けする?
176名無しさん@お腹いっぱい。:02/12/12 06:53
>>175
化けてる
177名無しさん@お腹いっぱい。:02/12/20 17:39
wgetでディレクトリ指定のURLを収集すると
index.cgi,index.shtml,index.htmもindex.htmlになります。

これでインデックス作成するとリンク先index.htmlがないので
404になってしまいます。

これを防ぐために、検索結果のURLが
/ディレクトリで切れるようにしたいのですが
何か良い方法はないでしょうか?
178名無しさん@お腹いっぱい。:02/12/20 21:08
>>177
たぶん、検索結果のURLを/で切れるようにすれば
いいんじゃないかなあ。
179山崎渉:03/01/15 13:12
(^^)
180名無しさん@お腹いっぱい。:03/01/16 13:42
Namazuの検索結果のサマリーにGoogleみたいに検索した語句を含めて表示したいんですけど、
どのあたりをいじればいいんでしょうか?

それが無理でもせめてこの部分は無視する、みたいにするには。
ファイルの上の方は全部同じ文章があるんで、
サマリーがすべて一緒になってしまいます…
>>180
前者:namazu を全般的に改造して、
NMZ.i に単語のインデックスポイントでも格納するようにする。
後者:フィルタを書く
182名無しさん@お腹いっぱい。:03/01/16 18:57
>>180
サマリの内容はインデックス時に生成される。
検索式に応じた内容を表示するには、検索時に生成しなければならない。
やるとなると結構面倒。


特定部分をインデックスの対象から外すのは、以前やった事がある。
私の change-log メモからのコピペ。

* Namazu: 特定の文字列に囲まれた部分をインデックスの対象外にする
html.pl を改造して、特定の文字列に囲まれた部分をインデックスの対象外にする。
これにより、ヘッダ部分やロゴ部分を検索の対象から外すことや、
要約に表示したくない部分を削除することができる。

# Remove contents above <body>.
sub erase_above_body ($) {
my ($contref) = @_;

$$contref =~ s/^.*<body>//is;

# For ProSearch
my $EXCLUDE_TAG_START = '<!-- EXCLUDE_MKNMZ_INDEXING_START -->';
my $EXCLUDE_TAG_END = '<!-- EXCLUDE_MKNMZ_INDEXING_END -->';
$$contref =~ s/$EXCLUDE_TAG_START(.*?)$EXCLUDE_TAG_END//gs;
}
これだけ。http://www.y-min.or.jp/~nob/FreeBSD/namazu.html を参考にした。
183180:03/01/16 19:16
ありがとうございます!こんなに早くしかも丁寧はレスを頂けるとは思ってもいませんでした。
とりあえずお教えくださった方法で指定部分を弾こうと思ったのですが、
僕が共有のレンタルサーバー業者に送ってもらったファイルは

namazu/mknmzrc.txt- 設定ファイル (アップロード後に .mknmzrc へ変更)
namazu/indexlist.txt- 設定ファイル (アップロード後に .indexlist へ変更)
namazu/index- インデックスが作成されるディレクトリ
script/namazu.cgi- 検索用 CGI (バイナリ)
script/namazurc.txt- 設定ファイル (アップロード後に .namazurc へ変更)
option/template/NMZ.* - テンプレートファイル群

こんな感じで他を探しても肝心のhtml.plというのが見当たりませんでした。
php4_namazu-2.1.0.tar.gzというモジュールが使えるらしいのですが、これは今関係ないと思うので、
やはり共有のレンタルサーバーではそこら辺をいじる権限をあたえらえていないのだと思います。
どうもすいません、ありがとうございました。
184182:03/01/16 20:00
>>183
>こんな感じで他を探しても肝心のhtml.plというのが見当たりませんでした。

html.pl は Namazu 自身が持っている html ファイルのフィルタです。
html ファイルからインデックスする文字列を取得するときなどに呼び出されます。

うちの環境だと
/usr/local/share/namazu/filter/html.pl にあるけど、
レンタルサーバだと勝手にはいじれないだろうなあ。
2.0.9 から mknmzrc に FILTERDIR というのが導入されているので、
サーバ上のどこかにある filter 一式を適当なところに copy & modify して
そこを FILTERDIR に指定すればいいような。


186名無しさん@お腹いっぱい。:03/01/20 19:34
>185
レンタル鯖業者に送ってもらったmknmzrcはFILTERDIRが削られてました…
いちど問い合わせたいと思います。
187名無しさん@Emacs:03/01/21 21:05
>>180
まえにやったことがある方法だけど、
Search::Namazu使ってマッチした文書のパスを取り出して、
そのファイルをopenしてgrepして整形して出力した。
実際に開くファイルは少ないので、案外と実用になる。
188名無しさん@お腹いっぱい。:03/01/22 18:40
Search::Namazuってnamzuの機能が
全部使えるわけじゃないのね。。。。
189名無しさん@お腹いっぱい。:03/01/25 09:56
>>187
んでもgrepするとむちゃくちゃ遅くなりませんか?
190名無しさん@Emacs :03/01/25 11:45
むちゃくちゃ遅いと言うのが、どのくらいを指すのか分からないけど
おうちのではこんなかんじ。そんなに遅い?

http://219.167.106.8/test/index.cgi?query=%A5%DE%A5%B6%A1%BC%A5%DC%A1%BC%A5%C9
191あぼーん:あぼーん
あぼーん
192あぼーん:あぼーん
あぼーん
193名無しさん@お腹いっぱい。:03/01/25 15:04
>>190
どうでもいいが、ちゃんとURL Encodeぐらいしろや、犬厨。
194名無しさん@EMACS21:03/01/25 16:03
なんかtexのファイルが検索対象になってないようなのですが、どこを設定すれば良いのでしょうか。

mknmzrcのそれらしい部分には、

$ALLOW_FILE =".*\\.(?:$HTML_SUFFIX)|.*\\.txt" . # HTML, plain text
"|.*\\.gz|.*\\.Z|.*\\.bz2" . # Compressed files
"|.*\\.pdf|.*\\.ps" . # PDF, PostScript
"|.*\\.tex|.*\\.dvi" . # TeX, DVI
"|.*\\.rpm|.*\\.deb" . # RPM, DEB
"|.*\\.doc|.*\\.xls|.*\\.ppt" . # Word, Excel, PowerPoint
"|.*\\.j[sabf]w|.*\\.jtd" . # Ichitaro 4, 5, 6, 7, 8
"|\\d+|[-\\w]+\\.[1-9n]"; # Mail/News, man

としていますが

/home/hoge/100.tex Unsupported media type (application/x-tex) skipped.

となってskipされてしまします。
>>194
dvi.pl がないとだめ。ちゃんと入れてある?
mknmz -Cしたとき Supported Media Typeに
dviが出てこないとつかえないよ。
196194:03/01/25 16:20
>195
dvi.plあります。mknmz -Cではdviでできません。アレ?

とりあえず、mknmzに--allオプションを付けたら解決した様です。そのへん
ちょっと調べてみます。

197194:03/01/25 19:24
>196

原因は判りました。filerに必須のコマンドが不足してました。(.texはdetex)
198194:03/01/28 07:34
うーむ。FreeBSD4.7stableで、試しに、/以下のインデックスを作らせたら、
24時間経ってもまだ作業中だ(藁)
199194:03/01/28 22:53
>198

あまりに不憫なので途中で止めて/usrと/etcを対象にしたけど、/usr/obj消し
忘れてて12時間経っても/usr/obj/hoge.oはバイナリーなのでスキップします
を延々と出してた。再び止めてmake cleanして再度挑戦。今度は17万強のファ
イルを相手に今、一生懸命処理してる。
200194:03/01/29 08:16
続報(誰も聞いてないか(笑))

12時間で1万6千ファイルのインデックスを作成してました。
全部で5日間ぐらい掛るのかあ。
聞いてるよ。
エラーとか出ない?
なんか2になってから、たまにエラー吐くよーになったよ。
202194:03/01/29 22:02
>210

24時間経過、8万5千ファイルのインデックスを作成した時点で、特に致命的な
エラーは出てないです。
インデックスファイル何MBくらい行くだろうな。
204194:03/01/30 21:53
>202

36時間を前に、何事も無かったようにインデックスが更新されずに完了してい
た。エラーでも起きたか。残念。
205205:03/01/30 23:16
諸先輩方、ご教示いただければ。

Ver2.0.5では問題が無かったのですが・・・

Ver2.0.5から2.0.12に完全に入れ替え、
mknmz --template-dir=/home/hoge/public_html/namazu/template -O /home/hoge/public_html/namazu/index /home/hoge/public_html/target

とhogeで実行しました。
ターゲットにあるhtmlファイル群のインデックスが、
/home/hoge/public_html/namazu/index
に出来ていきました。ここまでは成功です。検索も可能です。
templateにはとりあえずデフォルトのディレクトリからNMZ*を全てコピーしました。

しかし、二度目から同じことをすると、ターゲットの更新の有無にかかわらず、
mknmz: 存在するインデックスは古い形式です。今は対応していません
と出て、インデックスの更新をしません。


namazu.org内を検索しても???な話ばかりで何も核心は載っていませんし、
googleしてみても「そうなってしまった」止まりで先に進みません。
これはいったい何がどうなっているのでしょうか。

なおインデックスを一度消して再実行すると何の問題もありません。
>>205
あのう。mknmzはただのperlスクリプトですので、ご自分で追って
みられるのがよろしいかと。
まず、mknmzの出力が、自分で読めないようなおそらくは不完全な
状態になっているということが問題であるということでよろしいですね。

> mknmz: 存在するインデックスは古い形式です。今は対応していません

これを出しているのはここでしょうか。
sub check_present_index () {
if (-f $var::NMZ{'i'} && ! -f "$var::NMZ{'result'}.normal")
{
util::cdie(_("Present index is old type. it's unsupported.\n"));
}
}

NMZ.iがあってNMZ.result.normalがないときに出るようですね。
どうしてNMZ.result.normalが出力されないままになってしまって
いるんでしょうね。
207206:03/01/31 05:43
normal を検索して適当に読み進むと、出力部分が見つかります。

# output NMZ.result.*
sub write_result_file () {
my $fname = "NMZ.result.normal";

my @files = glob "$TEMPLATEDIR/NMZ.result.*";

for my $file (@files) {
$file =~ m!(NMZ\.result\.[^/]*)$!;
my $target = "$var::OUTPUT_DIR/$1";
if (-f $target) { # already exist;
next;
} else {
my $buf = util::readfile($file);
my $fh_file = util::efopen(">$target");
print $fh_file $buf;
}
}
}

テンプレートのNMZ.result.*を順にコピーしているようです。
テンプレートに NMZ.result.normal* があるか確認してみてください。
もしかして古いテンプレートを使っていたりしないでしょうか。

インデックス出力時に有無を調べてメッセージくらいは出してもいい
ような気はしますね。
$fnameという変数はそれを意図したものかと思うのですが、使われてないですね。
208205:03/01/31 10:28
>>206
早速ありがとうございます。もちろんperl追ってみて、namazu.orgML内を検索して、
似たような事例が出てきたわけですが、何でだろ?でスレッドが止まっています。

>テンプレートのNMZ.result.*を順にコピーしているようです。
>テンプレートに NMZ.result.normal* があるか確認してみてください。
>もしかして古いテンプレートを使っていたりしないでしょうか。

205に書いたように完全入れ替えです。旧ver(2.0.5)に関するディレクトリ、
ファイル、全部消して再作成してからです(rm -rf 対象)。

よって、古いテンプレは存在しません。

>templateにはとりあえずデフォルトのディレクトリからNMZ*を全てコピーしました。
と書いたとおりですのでNMZ.result.normal*はきちんと新しいものが存在しております。

googleすると皆さん何でだろで止まっている様子で、こちらも何でだろ状態です。
209名無しさん@Emacs:03/01/31 10:44
一度目に
mknmz -O /home/hoge/public_html/namazu/index /home/hoge/public_html/target
cp -rf /home/hoge/public_html/namazu/template
して、二度目からは
#! /bin/sh
$INDEX=/home/hoge/public_html/namazu/index

cd $INDEX
mknmz -update ./
なんてscriptを実行するとどうなりますか?
210名無しさん@Emacs:03/01/31 10:44
あ、-updateじゃないですね、--updateでした。
211名無しさん@お腹いっぱい。:03/01/31 16:46
すんません、namazuってxmlを対象とした検索ってできますか?
212206:03/01/31 17:46
>>208
あまりお役に立てなくてすまそ。

NMZ.result.normal* がテンプレートに存在しているのに書き出さ
れていないということ? それなら手でテンプレートからコピーした
らどうなりますか?

それともmknmzはNMZ.result.normal*を出力しているのに「古い形
式」と言ってるということでしょうか。

ご自分でmknmzにprint文突っ込んでデバッグしたほうがはやいよう
な気がします。エラーを出しているのは本当に>>206の箇所なのか
とか、>>207の部分でglobした結果とか実際にコピーしたファイル
とかから。
213205:03/01/31 23:28
いろいろ課題をいただきまして。恐縮です。
>>209
>cp -rf /home/hoge/public_html/namazu/template
>して、
って・・コピー先がないのですが??? あと、
>>212
で言える事は、
1.NMZ.result.normal* はテンプレートにきちんと存在している(コピーした)
2.一度目だけ書き出される。それを使ったり手でデフォルトからコピーしたりいろいろやったがNG
3.mknmzはNMZ.result.normal*を出力しているのに「古い形式」と言っている
つまりエラーメッセージがワケワカなのです。これにつかまった人は数多いようです。

205でhogeで実行しました、と書きましたが、試しにrootでするとokでした。
どうもmknmzrcがまずいんでしょうか。通常ユーザーでの~/.mknmzrcって、
mknmzrcより後から読まれてそっちが有効になるという認識なんだけど。
間違い??
>>211
-a
215名無しさん@お腹いっぱい。:03/02/01 13:29
いや、そういうことではなくて、任意のelement {foo|bar|baz}をもとに
NMZ.field.{foo|bar|baz}などを生成してqueryを
((+foo:glibc & +bar:gtk) not +baz:linux) & HP-UX
とかやりたいんすが。
216名無しさん@お腹いっぱい。:03/02/01 13:58
>>215
html の meta 要素の content 属性を対象とした検索みたいなことをやりたいのか。
それやるには、入れ子になった要素を分解してインデックスする
機能を追加する必要があるのでは?
217名無しさん@お腹いっぱい。:03/02/14 01:51
kakasiの辞書,結果に適応されるものとされないものがある…なんでだろう.

とみの 富野
ちじょく 恥辱

この二つを辞書に登録してnamazuで検索してみると
恥辱は[恥辱]となるのに,富野が[富][野]になってしまいます.

なんでなんですかー,そんなのっておかしいですよカテ(ry
218名無しさん@お腹いっぱい。:03/02/14 10:02
>>217
インデックスを作り直していないとか。
219名無しさん@お腹いっぱい。:03/02/14 17:55
>>217
% kakasi -w < 217.txt
恥辱 は [ 恥辱 ] となるのに , 富野 が [ 富 ][ 野 ] になってしまいます .

ん?だいじょぶだけど。>>218の言うとおり,インデックスを
ちゃんと作りなおしたほうがいいんじゃないの?
220名無しさん@お腹いっぱい。:03/02/14 20:44
mknmz -O なんちゃら
で足していくと、それまではヒットするファイルがあっても、
あとから足したのがヒットしないってのはindex作り直ししかないのかな?

FAQ?
221あぼーん:あぼーん
あぼーん
222名無しさん@お腹いっぱい。:03/02/14 21:39
>>220
質問の内容がよくわからない。

「それまではヒットするファイルがあっても」は、
「あとから足したのがヒットしない」にどう関係あるの?
追加したファイルが検索対象にならないって事を言いたいのか?

-O ってこれだよね?
-O, --output-dir=DIR set DIR to output the index.

既存のインデックスがあるディレクトリと同じディレクトリを
--output-dir= で指定してる?
223名無しさん@お腹いっぱい。:03/02/14 21:59
ちゅーか、 mknmzしたあと、

[追加]
日付: Fri Feb 14 21:58:31 2003
追加された文書の数: 8
更新された文書の数: 9

ってなってる?NMZ.logは確かめてみた?
users-ja、フレームっぽくてちょっとヤだ.
Namazuってもう何年も開発してないよね?メンテナンスモード?
もちょとモジュール化,ライブラリ化が進むと使いやすいんだけどね.
いまのlibnamazuって、つかいにくくない?
226名無しさん@お腹いっぱい。:03/02/17 17:55
>>224
フレームなんてご大層なものでもないだろ。

自分の不躾を棚に上げておいて開き直るとは、たいしたプライドもあったもんだ。
挙げ句の果てにはMLで駄目なら2chならいいのかなどと、無様に開き直る有様。
激しく不快。
>>225
knok さんの日記を読んでごらん。
それって、2.1ブランチでの作業じゃないでしょ?knok氏の手元での作業だよね。
2.1の作業は始まってもいない。つうことは2.2はでる予定なんか全くないつぅこと。

namaz-ngのブランチ、最終変更から二年が経過して、もう忘れられてるちゅーはなし。
高林氏はmigemoとかquick-mlとか新しいソフトウエア作るほうが楽しくて,Namazu
はもうどうでもいいんじゃないの?だったら、とっととモデレートする人間を明示的に
プロジェクト内で決めないと,今後の作業が進まないよ。
高林氏はモう忘れて,knok氏とrug氏の二人でがんがん開発始めちゃえばいいと思う.
>>225
Namazu-devel-ja で次版について議論されたのが11か月前。
確かにちょっと間があいてるね。
http://search.namazu.org/ml/namazu-devel-ja/msg02430.html

でも、何回かセキュリティフィックスリリースがあったよね。
そのときの対応は迅速で素晴らしかった。

主要なメンバーはみんな多忙なようだし、
本家に取り込んで欲しい機能があるなら、
どんどん要望とパッチを送るべし。
230名無しさん@お腹いっぱい。:03/02/21 20:40
OpenOffice使ってMS-WordやPowerPointのファイルから
テキスト抽出するフィルタってあります?
OpenOfficeって
openoffile -infile foo.xls -outfile foo.txt -encode euc
とかいうかんじにつかえるの?使えるんだったら秒ぐらいで
フィルタが書けるよ。
>>230
OpenOffice 使わないとだめなの?
233名無しさん@お腹いっぱい。:03/03/08 21:59
namazuも「権限手放したくない病」のエジキになってますですか。
>>233
毎月律義に出てくるほど関心があるのなら、自分で手を出してみたらどうだ?
ここで騒いでも、どうにかなるとは思えんぞ。
UNIXで作ったキャッシュをWindowsから利用したいのですが、どうしたらいいですか?
??キャッシュって何?
namazu のindexならwindowsでそのまま使える。
なんか文字化けします。

search-s for Namazuで扱いたいんです。
>なんか文字化けします。
って言われてもねぇ。
新しいコミッターの人,すごく精力的だね。
でも、新機能追加のはずが、バグだしになってるのは気のせいでつか?
Namazu の開発に学ぶプログラミングの教訓
http://www.namazu.org/events/lc2000s/handout.html
これみて思ったんだけど、高林さんて子供の頃からのコンピューターヲタだったわけではなくて、
実質的に、Namazu でプログラミングを勉強していったような人なんですね。

こういう人が第一線でばりばり活躍しているのを見ると、自分もやる気が出てくる。
もちろん、アレだけのセンスがないと、一流にはなれないのでしょうけど。
高林たんつながりでここに書くけど、高林たんへのインタビュー、
http://www.ogis-ri.co.jp/otc/hiroba/others/OORing/interview20.html
はなかなか面白いから読んどくといいよ。
(´-`).。oO(氏はOOエンジニアなんだろうか?)
OOエンジニアの属性を持つのでは?
244名無しさん@お腹いっぱい。:03/03/31 00:27
「ごはん」を検索したときに「ゴハン」とか「ご飯」とか「御飯」もHITするようにしたいのですがどうすればいいでしょう?
>>244
「ごはん」 から 「ゴハン」とか「ご飯」とか「御飯」を
生成するラッパープログラムを作成し、
そこから Namazu を呼び出して検索するようにする。
246名無しさん@お腹いっぱい。:03/03/31 02:36
2chのスレをローカルに保存してnamazuで検索させてもらってるんですが、
html をスプリットして見るととても便利です。

しかし、カキコミの日付で並び替えなどをしたいのですが、なにかうまい方法ないですか?
247名無しさん@お腹いっぱい。:03/03/31 02:46
専用の文書フィルタをつくっちゃうとか?
>> 242
OO = Ouchaku Oriented ではないかと。
>>246
--sort=METHOD
で頑張るしかないかなぁ。
ローカルでもhttp経由させるならやりようが増えると思うけど。
インデキシングにコピー作業が入るが。
htmlsplit.plを改造してしまえ。
いったんsplitしたものをテンポラリファイルとして書き出して
それをインデクスしてるんだから, 書きだしファイルのタイムスタンプが
Date:と同じになればいいんだとおもう。
ひまになったら作るけど,すぐはむり。
251244:03/03/31 21:19
>>245
やっぱり自作しないと駄目かー。
KAKASIやnamazuにそういう機能あるかなとちょっと期待したんですが(´・ω・`)ショボーン
レスありがd
252246:03/04/01 04:03
レスどもです。

やはり日付の部分を一度変換して、それに対して処理する方法ですかね?

monazilla.org の資料室に

2ch日付文字列を日付に変換 (Delphi) (turbo type Dさん)
2ちゃんねるが出力する日付文字列を日付に変換するコード。ただしこれは閉鎖騒動以前の日付仕様。
http://members.jcom.home.ne.jp/monazilla/document/lib_DataTimeToFmt2ch.html

というのがあるんですが、何か関係ありませんかねぇ、もしかして全然関係無かったらスマソ
253あぼーん:あぼーん
あぼーん
254名無しさん@お腹いっぱい。:03/04/01 04:48
>>253
(゚д゚)スクリプト作ってるヒマがあったら自分でどうぞ。
>>252
つか相手はPerlだぞ?
mtime直すだけだろう。
256名無しさん@お腹いっぱい。:03/04/01 06:31
ところでソース公開されてる検索エンジンってnamazu以外にどんなのあるんでしょ?
>>256
英語だけなら結構あるんじゃない?
すなっちゃー
260名無しさん@お腹いっぱい。:03/04/02 04:55
Snatcher最強
261あぼーん:あぼーん
あぼーん
262名無しさん@お腹いっぱい。:03/04/02 21:21
htdigとかむこうのポピュラーな奴がマルチバイト文字対応しないかなー
>256
はやぶさ
http://www.8823.net/
264名無しさん@お腹いっぱい。:03/04/02 22:47
おまえらがこれは全文検索エンジンに欲しいっつー機能はなんですか?
>>264
実装してくれるんですか?
266名無しさん@お腹いっぱい。:03/04/02 23:07
>>264
ハイライト表示機能
cd ~/Maildir; mknmz --mailnews --exclude=NMZ --update=./ -a ~/Maildir/
みたいな使い方で(qmailで言う)Maildir形式のディレクトリの中身を
インデックス化しています。

fetchmail+procmailで取り込んだプロバイダのメールを~/Maildir/に置いているん
ですが、fetchした直後のメールの内容がインデックスに含まれていないみたいで、
fetch直後のメールが検索にひっかかってくれません。

具体的には下記のバッチを走らせています。

#!/bin/sh
cd ~/Maildir
fetchmail -as
new2cur.rb  ←Maildirの new/* を cur/*:2, にファイル名を変更して移動するスクリプト
mknmz --mailnews --exclude=NMZ --update=./ -a ~/Maildir/

すべての処理はエラー無しで終了しています。

もしかして、mknmzはタイムスタンプを見て、日付の新しすぎるファイルは更新しないとか?
それともオプションの与え方が間違っている?
268名無しさん@お腹いっぱい。:03/04/05 18:26
squid の chache をnamazuに検索させたいんですが,NMZ.wが化けたりしてて
旨くいきません.

環境としてはlinux + namazu 2.0.12 + squid 2.4
ってなとこです.

googleなんかでみてみると
mknmz-squid-0.9.0.tar.gz
の中のsquidcache.plなんかは更ML内で新されてたみたいですがリンク切れで
見あたらないのです.

うまく使えてる方情報いただけまつか.
>>246
>>152あたりからの話は参考になりませんか?
ところで、>>153のLinux板debianスレ過去ログ検索サイトですが、
本日パワーアップしました。
http://pc.2ch.net/test/read.cgi/linux/1045176646/742-743
270名無しさん@お腹いっぱい。:03/04/15 08:23
namazuって、一度インデックス作ってしまった後にファイルを追加したい時はどうするんですか?
また作り直しですか?
271名無しさん@お腹いっぱい。:03/04/15 10:18
最初にインデックス対象としたディレクトリ以下にファイルが増減したばあいは
cd namazu_index_dir ; mknmz --update
すればいいです。
それ以外の場所のインデクスを追加したい場合、たとえば
i)
/usr/local/share/namazu/doc/ja を最初にインデックスして
/usr/local/share/namazu/doc/en を追加したい場合は

1) index のあるディレクトリ以下にあらたに en なりなんなりのディレクトリを
掘って、そこで対象ディレクトリのインデクスを作成、検索時に複数のディレクトリを指定する
2) 新規にインデックスを作りなおす

となります。 インデクス対象ディレクトリが頻繁に変更される可能性がある場合は
-F, --target-list=FILE インデックス対象のファイルのリストを読み込む
オプションを使って、対象ディレクトリをファイルにしておくといいでしょう。

i)の例でいうと
foo.txtを作成、 /usr/local/share/namazu/doc/ja を書いておく
mknmz -F foo.txt してインデックスを作成
対象を追加したい場合はfoo.txtに /usr/local/share/namazu/doc/en
を追加
mknmsz --updateする


chasen などの話題もこのスレでやってもいいのでしょうか?
>>272
微妙にスレ違いな気もするが、Namazu を活用するための話題なら OK だと思う。
書き込み量があまりに多かったら専用スレ立てればいい。
274山崎渉:03/04/17 11:51
(^^)
275名無しさん@お腹いっぱい。:03/04/17 15:37
chasenといえば、おなじ松本研のひとがつくってるmecabはどうよ?
chasenの数倍高速と唄ってるけど,わかち書きに使えるように
ならないのかなぁ。
html化された2chのスレをindexingすると、Segmentation fault
する場合があります。コマンドラインは以下の通りですが、これは
htmlの方を書き換えてやる必要があるのでしょうか?あるいはサイズ
が大きすぎるのかな。kakasiの場合はうまくいきます。

mknmz --media-type='text/html' -c --indexing-lang=ja --verbose

バージョンは、mknmz 2.0.12 chasen 2.3.0 です。
>>272
> chasen などの話題もこのスレでやってもいいのでしょうか?
自然言語処理スレッド
http://pc2.2ch.net/test/read.cgi/tech/1011988273/
このスレが一番近いのかな?
278あぼーん:あぼーん
あぼーん
djb スレッドに対抗して、高林スレッドもほしくないか?
ほしいのは自分だけ?
>>279
基本的に過去の人だろ、高林は。
本人はもうNamazuなんかさわる気にならないんでしょ。
あの人は新しいもの作るのは好きだけど、保守するのは
嫌いみたいだし。
282名無しさん@お腹いっぱい。:03/04/23 14:26
インデックス作成時にHTMLのBODY内にあるヘッダ、フッタみたいなものを除去してインデックス化できませんか?
2chスレでいうところの、
■掲示板に戻る■ 全部 1- 101- 201- 301- 401- 501- 601- 701- 801- 901- 最新50
と書き込みフォームのような、意味のない情報は検索キーワードにひっかからないようにしたいのですが。
283名無しさん@お腹いっぱい。:03/04/23 14:33
意味のある情報と意味のない情報の区別は恣意的なものだから
それをインテリジェントに判別する方法ってないよね。

なので、一般解としては、html.plを改造して自分の用途にあったものを
つくるしかないんじゃない?
284名無しさん@お腹いっぱい。:03/04/23 19:49
同じことできないかと考えてた。
検索対象が同じような構成のHTMLだけ(2chのスレだけ)だっていうことなら
diffをとって内容だけ取り出せるかもしれない。
htmlの方でそういうタグを定義してほしい気もする。
286名無しさん@お腹いっぱい。:03/04/24 00:05
>>282->>285
html の特定部分をインデックス対象から外す方法を
>>182 に書いといたので参考にしてね。

287名無しさん@お腹いっぱい。:03/04/24 10:38
前はSJISのファイルをインデックス化しても検索結果のサマリはEUCで表示されてたのに
なぜかSJISのままで文字化けするようになってしまいました。
検索ワードも日本語を入れるとヒットしなくなってしまいました。
(asciiの検索ワードを入れると、検索結果のサマリの部分が文字化けした状態で表示される)

いろいろ弄ったんですが、何が原因なのかよく分かりません。
アドバイスお願いします。
288名無しさん@お腹いっぱい。:03/04/24 14:11
高林スレッド欲しい。あの人のサイト面白い。
289あぼーん:あぼーん
あぼーん
日記観察スレにでもどうぞ。
>>288
更新されてないじゃん。もう。
枯渇したんだよ、創造性の泉が。
tdiary に移行ですか?
やっぱ、専用スレがほしいなぁ、、、
namazu, migemo, QuickML, ttyrec,,,,
ヒマナジカン
創造性の泉が。
>>275
> chasenといえば、おなじ松本研のひとがつくってるmecabはどうよ?
> chasenの数倍高速と唄ってるけど,わかち書きに使えるように
> ならないのかなぁ。
http://cl.aist-nara.ac.jp/~taku-ku/software/mecab/
> わかち書きをする
> 以下のように -O オプションを使います.

mecab を使ってみたのだけど、ものすごく面白いね。
形態素解析器を触ってみたのが初めてだからかもしれないけど。

日本語サイトを wget でダウンロードして、いろいろパースして楽しんでる。
chasen も同じ機能ができるみみたい。

利用する側は楽しんで利用できるけど、開発者はかなり大変そう。
-Oオプションがあるのはしってる。そうじゃなくて
mknmzから ]
-c, --use-chasen 日本語の単語のわかち書きに ChaSen を用いる
-k, --use-kakasi 日本語の単語のわかち書きに KAKASI を用いる
-m, --use-mucab 日本語の単語のわかち書きに MeCabを用いる
として利用できるようにならないのかなぁ、ってこと。
とおもって cvs先端のnamazu取ってきてさわろうと思ったけど FreeBSD 5-RELだと
autogen.shに失敗するんだな。

2.0.12のtarball取ってきて作業してパッチを
このスレに投稿汁!
数年前にfreya vs namazuを試したら、わかち書き不要で辞書にない単語でも
うまくヒットする(n-gram?)し、ヒット数が数万件になっても打ち切ったりせず
しかもそこそこ高速動作する点でfreyaに軍配が上がり、以降自社サイトでは
freya一辺倒なのだが、最近のnamazuはどうですか?
298名無しさん@お腹いっぱい。:03/05/06 20:47
>>297
Namazu 以外は使ったことない。
>>297
freya って開発が思いっきりとまってません?
>>299
namazuも似たようなもんだよ〜
>>300
まあみんな忙しいからね。
>>301
つまり、開発を手がけられる人がいなくなったってことですか。
失礼なやつだな。自分もnamazuのお世話になってるくせに。
304297:03/05/07 20:52
>>298
大昔に止まってるが、検索エンジンそのものはバグも出尽くして十分枯れてる模様。
プログラム内でエンジンとインターフェースがくっきり分かれてて、
しかも、インターフェースが簡素なので改造が容易。
ウチでは、検索コマンドを改造してデーモン化/パラレル駆動してfreyaには純粋に
全文検索だけをやらせ、表示はperlのCGI+RDBMSで担当する形にして使っている。
>>303
へいへい、どうもすいませんでした。
namazuには超優秀な開発者が集まってよかったですね。
んなわけねー。
一つ質問させてください。
yahoo のニュースを取り込んで、検索しようとしています。

たとえば、このような記事のページがあった場合、erase_above_body は、
どのようにすれば、うまく記事部分だけを取り出せるのでしょうか?
http://headlines.yahoo.co.jp/hl?a=20030508-00000401-yom-bus_all

なんとなく以下のように書いてみましたが、うまく動きませんでした。

sub erase_above_body ($) {
my ($contref) = @_;

$$contref =~ s/^.*<body>//is;

# For ProSearch
my $EXCLUDE_TAG_START = '<font size=5><b>';
my $EXCLUDE_TAG_END = '<center>';
$$contref =~ s/$EXCLUDE_TAG_START(.*?)$EXCLUDE_TAG_END//gs;
}
308名無しさん@お腹いっぱい。:03/05/08 04:09
『NAMAZUシステムの構築と活用 改訂』
が出るってさ。
>>307
>>182 を参考にしたんだろうけど、
>>182 は「特定の文字列に囲まれた部分をすべて削除」するというコード。
君がやりたい事とは違うよね?

どうすればいいかは考えてごらん。
ヒントは以下の2つ。
・置換しなくてもいいんじゃないか?
・$EXCLUDE_TAG_START と $EXCLUDE_TAG_END は、
 一度しか出てこない文字列を指定する方が良い。意図しない動作を防げる。
310名無しさん@お腹いっぱい。:03/05/08 21:26
rubyで実装しなおしてよ
確かに nmanazu/xtemplate とか namazu/amrita とかおいしそうだな。
>>310
チミがやってくれ。まあ検索クライアントの方は
rbnamazu(これはPure Ruby)
http://www.namazu.org/ruby-namazu/
Search::Namazu(libnmzのRuby bindings)
http://www.tietew.jp/ruby/search-namazu
が既に存在するので、足りないのはインデクサだけだね。
313307:03/05/09 02:51
>>309
contref の中身を吐かせてみて、ボケてたのに気がつきました。
とりあえず、タイトルも拾って、必要な部分だけ検索できるようになりました。

ではでは。

sub get_title ($$) {
if ($$contref =~ s!<font size=5><b>([^<]+)</b></font>!!i) {

sub erase_above_body ($) {
my ($contref) = @_;

$$contref =~ s/^.*<body>//is;

$$contref =~ s/^.*<!-- SpaceID=[^>]*>//gs;
$$contref =~ s,</div><br>.*$,,gs;

314あぼーん:あぼーん
あぼーん
315名無しさん@お腹いっぱい。:03/05/22 16:34
sakumaうざいな。
高林さんソニーから離れちゃったの?
もともと研究員かなんかじゃなかったっけ? > 高林氏
籍は naist のままだったような。客員できてた増田さんが辞めたから
解消されたとか?
318名無しさん@お腹いっぱい。:03/05/25 19:29
ま た s a k u m a か
増田さん離れちゃったのか.
>>319
増井さんだろうが。
321317:03/05/25 19:55
>>320
しつれ。POBox とか権利関係どうなるんだろうね、ってスレ違いか。
産総研って電総研から変わって組織がでかくなりすぎたのであんまいいイメージなかっ
たんだけど、そうでもないのかな。
s a k u m a マ ジ u z e e
>>315
>>318
>>322

[namazu-devel-ja 02936]
> 最近 virus が流れてきていますが、この問題を解決するため一部の形式の
> 添付ファイルを禁止することにしました。

とりあえず、これで一件落着だろ。
324名無しさん@お腹いっぱい。:03/05/28 02:57
すんません。

あるディレクトリはいかにあるサブディレクトリに対して
くまなく末端のディレクトリに対しインデックスを作成するにはどうしたらいいでしょう

説明を見るとひたすら、ディレクトリを指定しているようなのですが・・・。
325名無しさん@お腹いっぱい。:03/05/28 09:14
>>324
サブディレクトリがあれば、それも自動的にインデックス対象になるはず。
実際に試してみたかい?
その「ひたすらディレクトリを指定してる説明」ってどこに書いてあった?
326あぼーん:あぼーん
あぼーん
mknmzでmecab/MeCab.pmが使えるようにしてみたんだけど,
コマンドラインオプションで -mがもう使われてて不便だ。
328あぼーん:あぼーん
あぼーん
329名無しさん@お腹いっぱい。:03/05/28 20:15
でもmodule_mecabでわかち書きしても、作者が言うほど速くはないなぁ。
環境
FreeBSD 5-CURRENT, Perl-5.006001, Namazu-2.0.12, NKF.pm

MeCab
Added Documents: 36
Total Keywords: 1,654
Wakati: module_mecab -Owakati
Time (sec): 7

Text::ChaSen
Added Documents: 36
Total Keywords: 1,907
Wakati: module_chasen -j -F '%m '
Time (sec): 7

Text::Kakasi
Added Documents: 36
Total Keywords: 2,138
Wakati: module_kakasi -ieuc -oeuc -w
Time (sec): 6


330あぼーん:あぼーん
あぼーん
331名無しさん@お腹いっぱい。:03/05/28 21:46
>>329
もう少し文書数を多くしてみては?
せめて一回の所要時間が 100秒くらいになるように。
そうしないと、有意な差は現れないんじゃないかなあ?
>>329
登録されるキーワードが
MeCab 1,654
Text::ChaSen 1,907
Text::Kakasi 2,138
とけっこう違うね。かかしはゴミが多いからいいとして
ChaSenより250も少ないのが気になる。
NMZ.wはどう?
333あぼーん:あぼーん
あぼーん
>>332 diff -c chasen/NMZ.w mecab/NMZ.w | grep "^\(+\|-\!\) " してみた。
電話番号,URL,_Message-id、メルアドなんかはmecabでは登録されないね。
一行AAは登録される。
335名無しさん@お腹いっぱい。:03/06/05 00:03
pnamazuでgrep機能を使っている人いますか?
grep=onにしても無視されちゃう・・・
336名無しさん@お腹いっぱい。:03/06/13 15:02
マジで困ってます。

日付順ソートが全くうまくいきません。というか本家の
http://search.namazu.org/
も検索結果の日付順ソートが全くうまくいっていません。
どうなってるんでしょ?

例えば、http://search.namazu.org/ に行って、
検索式に「namazu」と入れて、ソートを「日付(新しい順)」に。
対象に Namazu-users-ja だけ選んだとします。

一番上から順番に日付が:
Wed, 11 Jun 2003 16:08:30 +0900
Wed, 11 Jun 2003 18:19:56 +0900
Wed, 11 Jun 2003 18:40:18 +0900
Mon, 09 Jun 2003 13:23:36 +0900
Tue, 10 Jun 2003 01:00:00 +0900
Tue, 10 Jun 2003 07:49:37 +0900

こんな感じに出てきます。namazuって結果の日付ソート出来ないの??
337名無しさん@お腹いっぱい。:03/06/13 15:05
ちなみに2.0.10
本当だ…
すみません、sjis文章を食わせると正常なのですが、
eucだと文字化けする現象が起きています。
unixで使用していて、全部envをeucにしているので不思議でして…。
340名無しさん@お腹いっぱい。:03/06/15 13:51
>>336
mailutimeを使えって事らしいですね
mknmz --config mknmzrc -O index/ml ~/Mail/ml
ってかんじで cron に登録して
httpd からnamazu.cgi を使って検索するようにしているんですが、
index/ml がカラの時だけ(初回mknmz時)しかデータベースが更新されません。
追加登録ってできないのでしょうか?
初回が手動なら、cronに環境変数が渡ってないとか。
PATHとLANGちゃんとcron時に渡してる?
mecab のメーリングリストのアーかイブは外部に公開されていないのですか?
Mecabはtaku-kuが一人で作ったんだろ。
MLも何もないんじゃないの?
345名無しさん@お腹いっぱい。:03/06/17 03:37
メーリングリストをアーカイブして検索可能にしてる人達って
普通 mhonarc かました後、mknmzする前に mailutime かけてるの?

346名無しさん@お腹いっぱい。:03/06/17 06:35
>>344
http://cl.aist-nara.ac.jp/~taku-ku/software/mecab/
みれ。メーリングリストあるよ。
347あぼーん:あぼーん
あぼーん
>>345
おれはしてない。
本当だ。MLあるね。んでMecabはわかち書きツールとして
Namazuから使えるようになったの?
このスレでハクした人がいるみたいだけど、その後どうなのかな?
namazu本体にパッチ投げたりはしたのかなぁ?

安定していて、kakasi並みのスピードで、chasen並みの精度なら
使ってみたいので。

MeCabは、Windows版のプロジェクトファイルの中にtypoがある。
確か、Debugモードで-DDLL_hoge が-DLL_hogeになってた。
まだ放置されてるのかな?
>>350
報告しろよ!
こんなところでねちねちいわないで。
352名無しさん@お腹いっぱい。:03/06/18 01:36
やだ
Mitake Searchに逃げようかとおもっていまつ。
>>353
それって、マイタケって読むの?
355名無しさん@お腹いっぱい。:03/06/19 00:13
すみません、ちょっとお聞きしたいのですが
RedhatLinux7.2でnamazu-2.0.12を使用しているんですけど
mknmz に --checkpoint をつけて $ON_MEMORY_MAX を5MBで設定しても
1500ファイルあたりでメモリ(256MB)全部食われてハングアップしちゃんですがどうすればいいのでしょうか?
対象ファイルにはExcelファイルが多く、xlhtmlのバージョンは0.5です。
エラーなどは出ません。
356あぼーん:あぼーん
あぼーん
>>355
namazu-users-ja になげてみそ
mecab/module_mecab動いてるみたいなんすが、
Namazu-2.0.12へのpatchいる人いますか?
いるならここに張りますが。
イラネ。
Namazu本体にパチなげれ。話はそれから。
361名無しさん@お腹いっぱい。:03/06/21 04:24
>>358
いる。お願いします。
いまメッセージカタログ直してるので、もうちょっと待ってください。
363名無しさん@お腹いっぱい。:03/06/23 21:41
ここの住人は何を使って検索してますか?
ブラウザ? Emacs? Windows用の検索ソフト?
自作MacOS X用GUI。
ウpしる
mecab patchでしゅが、namazu commiter竹迫さんが作業されてるようなので
僕のは公開やめます。
367名無しさん@お腹いっぱい。:03/06/26 22:35
>>363
Meadow + namazu.el
>>363
NTEmacs + namazu.el
369名無しさん@お腹いっぱい。:03/06/27 00:15
>>368

まだNTEmacs使ってるの?XPEmacs使えよ。
MEmacs + namazu.el
(メンテされていない)namazu.el より w3m-namazu.el の方が良いと思
うが。

存在すら知りませんでした。w3m-namazu.el
でも、konquerorもhttpd動いてないローカルホストのCGI
動かせるので、もっぱらそっち
373名無しさん@お腹いっぱい。:03/06/27 00:47
Meadow + namazu.el + color-namazu.el
namazu.el ってスクロールで固まることがあるから w3m-namazu.el 使ってます。
素朴な疑問なんですが、
最近のChasenはdartsを使うようになってかなり動作が速くなったみたいだけれど、
それでもMecabを使おうとする理由って何ですか?

手元の文章を形態素解析させてみたら予想に反してChasenでやった方が
速かった記憶がある。
376 :03/06/28 11:39
>>375
私の場合、速くなったってことを知らなかった、
というだけだったりして・・・。

あと、茶筅には以下のようなイメージがある。
・ちょっと難しそう。
・8192バイト以上の行で落ちる
・ひらがなを扱ってくれない(?)

あくまで私見だし、現在のバージョンでは解決されてるものもあるはずだけど。
Mecabとchasenでインデクス作ってdiffすると結構ちがう。
Mewcabだと 顔文字、URL, Email-Addr, Mesage-idみたいなもの
はインデクスされない。あと、日本語はChasennのほうが長い文字列
でインデクスされてる。

>>376
茶筅はSoftware Configuration Managementがダメな気がする。
[chasen-users:00253]とか[chasen-users:00270]なんかを見てるとそう思わざる
を得ない。chasen-2.3.1修正パッチの変更点に

* iconv で文字コードを指定するための識別子を変更

というのがあるけど、パッチを見てみると小手先の修正にしかなっていない。
そもそもそんなのは実装依存だし、ポータビリティを真面目に考えるなら、
Bruno Haibleのlibcharsetみたいに対応表を用意するとかすべきなんじゃない
かな。というか、NAISTの人達はポータビリティにはあまり関心がないよね。
まぁ、基本的にお仕事用のツールだしな。
計算機が更新されて、動かなくなったとき
いじるという感じか?
ttp://www.tahoo.org/~taku/diary/2003-06.html#2003-06-28

荒れてるかなあ? 俺はそうは思わなかったけど。
それに>>378とは話が微妙にかみ合っていないような気もする。
自分は mecab のヘビーユーザーだけど、chasen がいいなぁ、という点をひとつ上げるとすれば、
chasen の方が辞書登録がはるかに簡単という点。

http://cl.aist-nara.ac.jp/~taku-ku/software/mecab/dic.html
作者さんは理由を説明してくれているけど、やっぱり追加登録が面倒なのでどうにかしてほしい。
382375:03/06/30 03:19
お答えいただきありがとうございます。
>>380
自分としてはNamazu+chasenとNamazu+mecabはどのように使い分けるかというような
ことをここで聞きたかったわけで、徒に場を荒らそうとしているつもりはないのですが。

>>378 >>379
Chasenはad-hocな実装なのでいろんなところで使うつもりならmecabのほうがよい
ということですね。

>>377
mknmz+mecabって完成したんですか?
mecab版mknmzを作った人が未知語を無視するように作ったということではないですよね?

>>376
平仮名が多い文章をnamazuで検索できるようにしたいときにkakasiではなくchasenが
使われていたので平仮名の分かち書きはできます。
8192Bytes以上の行でどうかは調べてないですね。スマソ。
>>376
8192byte以上の行については(FAQページより)

B-1. 長い文章を入力すると segmentation fault で落ちます

chasen-2.2.8 以前の仕様では一文のサイズの最大は改行文字を含め 8192 バイトとなっ
ています。

chasen-2.2.9 以降の仕様では、segmentation fault で落ちなくなりましたが、 8192
バイトに達した時点で、新しい文として解析されます。

とあるので、状況は改善されているようです。
――というか、私自身過去にこれで悩んでアップデートで解決した口ですが。
>>382
Mecab対応のmknmzはコミッターのかたが作業しているようです.
私の私家版は公開するのやめました.
mecab 0.76 がアナウンスされてますね。
http://cl.aist-nara.ac.jp/~taku-ku/software/mecab/
386あぼーん:あぼーん
あぼーん
387名無しさん@お腹いっぱい。:03/07/15 12:18
間違えて http://www.namaz.org にいってしまったらなんか怪しいサイトが・・
388名無しさん@お腹いっぱい。:03/07/15 13:11
それって間違い狙ってんのかね。
www.goo.co.jpもぜんぜん違うサイトなんYo
>>388
それは goo.ne.jp 以前からあるよ。
>>389
そやったか。goo.co.jpさんメンゴ。
山崎渉に張り合ってage
>>389
それは事実であるけれど、goo.ne.jpが出来てからカラオケ屋のサイトからエロサイトへと変わっていったね。
だから、goo.ne.jpが出来てからは間違いを狙ってたんちゃうんかと。
>>391
ほう
393名無しさん@お腹いっぱい。:03/07/18 03:16
namazu 使って検索したときに、結果ページに表示される以下の文言って
NMZ.head.jp みたいにカスタマイズできるの?

Results:
References:
 ・hoge: [ AAA: 1 ]
 ・hage: [ AAA: 0 ]
 ・unko: [ AAA: 0 ]
394あぼーん:あぼーん
あぼーん
395あぼーん:あぼーん
あぼーん
396あぼーん:あぼーん
あぼーん
NMZ.{head|body|foot|result}.jaではできないからソースいじれ
>397
まじっすか!?
Thanks!
namazu-perlを使って、表示にフィルタをかます。
400名無しさん@お腹いっぱい。:03/07/21 21:11
今だ!!400ゲットォォォォ!!
 ̄ ̄ ̄ ̄ ̄∨ ̄ ̄ ̄       (´´
     ∧∧   )      (´⌒(´
  ⊂(゜Д゜⊂⌒`つ≡≡≡(´⌒;;;≡≡≡
        ̄ ̄  (´⌒(´⌒;;
      ズザーーーーーッ
401名無しさん@お腹いっぱい。:03/07/22 02:16
namazuとmigemoの融合ってできないものかねえ。
なまずと打ってNamazuがマッチしたらうれしいと思うのに。
402asmer ◆4ldsKRAW6g :03/07/22 02:26
ただいま、デバッグ厨・・・
mmap(2)が、MAP_ANONYMOUSつけるとうまく動いてくれない
(環境:FreeBSD5.1R(98)、Linux2.4.20-8smp)
なんでだろう?(泣
そーいえば、今日(昨日)って、休日だったのか・・・
403asmer ◆4ldsKRAW6g :03/07/22 02:28
と思ったら、誤爆(汗
回線切って、吊ってきます(禿鬱
404あぼーん:あぼーん
あぼーん
405あぼーん:あぼーん
あぼーん
406hoge夫:03/07/22 04:09
>>401
辞書に依存するからけっこう統一的でなくて使いづらそう。
407名無しさん@お腹いっぱい。:03/07/22 23:37
>>406
さっそくケチがつきました。さすがUNIX板。
[なまず]で[namazu]をヒットさすだけなら namazu.pmとkakasi.pmを利用して
[なまず]を[namazu]にkakasiで変換して、and検索かけりゃいいんじゃねーの?
>>408
orの間違い?
>>407
>>406はそれなりにマトモだと思うが。
俺は、検索エンジン内部で処理するよりも、インタフェースで
ユーザに明示的にquery expansionする方がいいような気がするな。
kudo さんはスーパープログラマーでつか?
152のように--html-splitでファイル分割して全文検索するようにしたのですが、
titleに検索する文字があるとスレ全部を表示することになってしまします。

titleをthread〜などにリネームすればいいのでしょうが、
title部分を検索対象から外す方法はあるのでしょうか?
412あぼーん:あぼーん
あぼーん
413たく:03/08/06 23:47
以下のコマンドを入力するとエラーメッセージが出力されてしまいます。
mknmzのダウンロードがうまくいってないのかもしれないのですが、
どうしたらいいのかわかりません。
どうしたらうまくいくのか教えてください。お願いします。
C:\>mknmz --help

Can't locate File/MMagic.pm in @INC (@INC contains: .
C:/Perl/lib
C:/Perl/site/ib) at C:\usr\local\namazu\bin/mknmz line 34.
BEGIN failed--compilation aborted at C:\usr\local\namazu\bin/mknmz
line 34.
>>413
どうすればって、書いてあるとおりのエラーに
対処すればいいだけやん。

まずは、自分が書いた>>418の内容をWebブラウザ
で文字サイズ最大で見てみること。

それでもわからないならセンスないからヤメトキナ!
英語だからとか、そんな問題じゃないからな。

>>413
インストールはどういう手順でやった?
>>413
漏れと同じだ。。
同じ悩んでいた人がいるとは。。

漏れは、Perlが最初から入ってあったのでnamazuをNMZSETUP.BATでインストール
その後、kakasiをインストール
で、そこでエラーが出てしまった。

Build 600以降の ActivePerl を使用する場合、事前にインストーラを
install しておく必要があります。
<http://www.ActiveState.com/download/contrib/Microsoft/NT/InstMsi.exe>

というのを見逃していたので、その後に上のをインストール
それでも駄目だったので

Perlを最新v5.8.0で再インストール
その時にPPM3はなんだか分からなかったのでインストールせず

それでも駄目だった・・
つーか、俺はWinXpだからスレ違いだったw
キーワードを変えてぐぐってみたら
XPのほうはPPMのインストールがおかしいらしい

ttp://www.namazu.org/ml/namazu-win32-users-ja/msg00908.html

駄目だこりゃ
スレじゃなく板違いか
419416:03/08/10 06:20
>>413
あ、これ見ると413のもWindowsかw
>>416
Namazu for Win32にはまだActivePerl 5.8用のperl moduleは含まれて
いないから別途入手する必要がある。入手先は

http://www.namazu.org/ml/namazu-win32-users-ja/msg01528.html

に書いてある。
421416:03/08/10 15:29
>>420
ありがとう。
一応入手して試してみたけど
相変わらず
>Error: no suitable installtion target found for package …
エラー出て駄目だった・・
422名無しさん@お腹いっぱい。:03/08/12 23:46
UNIX環境で作成したindexを、Windowsから使用するときに問題になるのが、
/hoo/bar/hoge.txt
c:\hoo\bar\hoge.txt
の違いなのですが、これを何とかする方法はありませんか?
Serch-S for namazuで必ずhoo\bar\hoge.txtを読みに行って失敗します。
相対指定や、ドライブ名付加(インデックスのURIに文字を付加する)
というような機能はありませんか?
423あぼーん:あぼーん
あぼーん
424あぼーん:あぼーん
あぼーん
namazu-users-jpに同じ話がでてたよ
426名無しさん@お腹いっぱい。:03/08/17 19:00
>>425
そうですか。
調べてみます。
意外なところで使われているのね。
http://www.k-1gp.net/namazu.cgi
428411:03/08/28 12:21
html.plをいじってなんとかtitle(subject)を検索しないようできました。
お騒がせしました。
429名無しさん@お腹いっぱい。:03/08/29 22:00
mknmz --helpと入力すると
No Perl script found in inputとでます。
今まではちゃんと正常に表示されていました。
Perl、kakasi、namazu、の順でバージョンもあわせ
インストールしなおしたのですが、
やはり同じ表示が出ます。
今までは正常だったのですが急におかしくなりました。
どうしたら正常になりますか?
.mknmzrc の設定を見直す
431名無しさん@お腹いっぱい。:03/09/07 19:02
pnamazuを使えばgrep機能が使えるけど、grepの結果が全て出力されるので
非常に検索結果が見づらくなる・・・
googleみたいに綺麗な検索結果を出すようにするパッチって誰か作ってないかな?

それとwvHtmlを使えばたいていのword文章を変換できるけど、古いバージョンの
ものは変換できなかったり、途中でエラーになったりと不便。
漏れはwordからhtmlやtext形式で保存して、それをmknmzに食わせています。
スレの趣旨とずれているかもしれませんが
ここで質問させていただきます

PerlからChasenを利用したいと思い
Text::ChaSenを導入しましたが、

[user@localhost]# perl -MText::ChaSen
Can't load '/usr/lib/perl5/site_perl/5.6.1/ia64-linux/auto/Text/ChaSen/ChaSen.so' for module Text::ChaSen: /usr/local/li
b/libchasen.so.0: undefined symbol: cerr at /usr/lib/perl5/5.6.1/ia64-linux/DynaLoader.pm line 206.
at - line 0
Compilation failed in require.
BEGIN failed--compilation aborted.

このように表示されてしまいます
Redhat7.2
Perl5.6.1
chasen-2.3.3
Text-Chasen-1.03
を利用しています

Chasen単体では正常に動作するのですが、Perlからうまく動かせない理由がよくわかりません
解決策か、正常に動作する環境などを教えていただけないでしょうか?
ローカルでindex作成して、サーバーにアップロードしようと思い、index作成には成功したのですが、
それをアップロードして検索すると、検索自体は出来るんですが、C:\〜という、ローカルのパスが出てきてしまいます。
ローカルのものを何も手をつけずにアップロードしたので、当たり前かもしれませんが、
パスをサーバーのものに書き換えるときどこをいじったらいいかわからないです。
ご存知の方、よろしくお願いします。
>>433の件ですが、NMZ.field.uriの内容を変更する+再構築することによって解決しました。
なぜか.namazurcにReplaceを使う方法がうまくいかず、悩んでいましたが、当面は面倒くさくても前者の方法を利用します。

#後者の方法の解決方法をご存知の方は教えてくださるとうれしいです。
>>433
チェックするとすれば
・ .namazrc の置場所が正しいか
・ .namazrc のパーミッションが正しいか
・ Replace の書式が正しいか
くらいでしょうか。
pdf(pdf 1.5)の検索で、検索結果のtitleがおかしくなってしまいます。
pdf.plをみていたら pdfinfoの出力がおかしかったのでpdfinfo使わないようにして、
タイトルをpdfの最初の行から取るようにしたんですが、どうもうまくいかない。

よくみると、pdftotextを -rawで使っていたので、それを外したらうまくいったんですが
-rawでやってるのは なんか意味があるんですかね?
437 :03/10/08 20:34
言語の切り替えは、
LANGUAGE LC_ALL LC_MESSAGES LANG
の順に環境変数を参照して行っているようですが、
これらの変数って、一般的なロケール関係のライブラリでも使われているのでしょうか?

LC_* と LANG はよく見かけるのですが、
LANGUAGE 環境変数は namazu に関連したところでしかお目にかかったことがありません。
2.0リリース前夜になぜか開発者の皆さんが原理主義に
取り憑かれてしまったためそういう仕様になりました。

いまは皆さん現実主義になってますので、devel-jaで
声をあげると、近くに控えたマイナーリリース(2.2.x?)で
反映されるかもしれません。
439名無しさん@お腹いっぱい。:03/10/08 20:40
mknmzすると一時的に結構なディスクスペースを
食いますよね。インデックスを吐くディレクトリと、
この一時スペースを分けたいのですが、可能でしょうか?
改造してください。そうすればできます。
mknmzを読むのはつらいぞ。
442 :03/10/08 22:39
>>441
そうでもないよ。普通の perl スクリプトじゃん。
>>437
LANGUAGEは一部のLinuxでしか使ってるのを見たことが無いけれど、
ほかはcatgetsとかgettextとかが参照してると思うよ。

自分が裏をとってるのはcatgetsだけだけれど。
某CGIはLANGの設定を変化させることで表示する言語の切り替えを
するようにしているもので。
>>437
環境変数LANGUAGEはGNU gettext(及びGNU libc)の拡張。
glibc 2.2とgettext 0.10.36以降で微妙に仕様が変わっているが、
詳細は忘れた。(爆)

ちなみにNamazu 2.0.6以降では日本語処理(わかち書きとか)を
するかどうか判断するためにLC_MESSAGESではなくLC_CTYPEを見る
ようになっている。--indexing-langオプションも使えるけどね。
445環境変数 LANGUAGE:03/10/10 14:51
http://lists.debian.or.jp/debian-devel/200104/msg00065.html
namazu とは直接関係の無いところまで解説してくださってありがとうございます。
私は Debian GNU/Linux ユーザで、メーリングリストのアーカイブで上のような投稿を見つけました。

-------- 以下引用 ---------
LANGUAGE は、ロケールを決定するための非標準 (GNU 独自) の環境変数で、
複数の言語をコロン「:」でつないで指定し、第2希望の言語、第3希望の
言語、... を指定できるのが特徴です。
だから、2.x開発中にISO-2022-JPを用意しようと思ってgettextまわりでとらぶって、
その反省から妙な原理主義が開発者に蔓延してたんだよ。LANGUAGE
なんて使う必要なかったんだけどね。だから誰か大きな声あげれば
次のリリースできえるってば。
>>446
お前うざい。
>>446-447はコミッターのかたでつか?
争いはプロジェクト内でおながいしまつ。
どなたかWindows上でActivePerlとNamazu-win使わずに
Cygwin上でnamazuコンパイルして使ってる人いらっしゃいます?
UNIX 上と同じ方法でビルドできるよ。
普通に configure
>>450
ディレクトリパスの表記の違いの関係でうまく動かんとか聞いたのだが
んじゃ試してみる。さんくす
452名無しさん@お腹いっぱい。:03/10/14 23:16
ナマズがインストールされていない他のパソコンから検索しようとするとき
http://(ナマズがインストールされているパソコンのIPアドレス)/cgi-bin/namazu.cgi
にアクセスすると検索画面が表示されるのですが、
Searchボタンを押すと
http://127.0.0.1/cgi-bin/namazu.cgi?query=a&whence=0&max=20&result=normal&sort=score
につながり、ページを表示できませんとなります。
しかし自分で127.0.0.1をナマズがインストールされているパソコンのIPアドレスにすると正常に検索結果が表示されます。
Searchボタンを押したとき
http://127.0.0.1/cgi-bin/namazu.cgi?query=a&whence=0&max=20&result=normal&sort=score
ではなく
http://(ナマズがインストールされているパソコンのIPアドレス)/cgi-bin/namazu.cgi?query=a&whence=0&max=20&result=normal&sort=score
にするにはどのように設定したらよろしいでしょうか?
>>452
質問するときはNamazuのバージョンやインストール対象のOS、インストール方法くらいは書いたほうがいいと思うんだけれど。

んで、本題。
ソースを表示してformタグをよく見てみたら?
うちの(2.0.12/FreeBSD 4.8,portsにてインストール)を見てみた限りではそういう状況は置き得ないような気がするんだけれど。
あるいは、ブラウザの問題ではないかな。
WWW鯖の設定のほうがあやしいような気がする。
455名無しさん@お腹いっぱい。:03/10/23 22:11
複数インデックスを検索対象とするため
NMZ.head.ja 及び NMZ.headファイルを変更しました。
検索画面ではチェックボックスが表示され、
チェックも入れることができるのですが、
検索結果画面ではチェックが外れ、
複数インデックスが検索できません。
どのようにしたら複数インデックスを検索対象にすることができますか?
ちなみにOSはWindows2000です。
456455:03/10/24 21:27
ネットで検索したら以下のように載っていました。
しかし私はOSがwindowsのため、catコマンドが使えません。
どのようにしたらよいでしょうか?
> > <li><input type="checkbox" name="idxname" value="foo" checked>foo
> >
> > と記述して checked を有効にしても、ブラウザ上のチェックボックスが
> > チェックされません。
>
> これを実現するには、
>
> % cat NMZ.head.ja NMZ.body.ja NMZ.foot.ja > index.html
>
> などとして、静的にHTMLを生成して、
> この index.html の <form> ... </form> の中で、
> checked を有効にしてみて下さい。

>>456
catというのは引数に与えられたファイルを連結するコマンドです。
例では、その出力をリダイレクトしてindex.htmlというファイルを作っています。

何をすべきか分かりましたか?
はい、もう来ません。
459名無しさん@お腹いっぱい。:03/10/27 17:07
別サーバを検索する(例:2ちゃんねるのスレッド検索など)にはどうしたらよいのでしょうか?
wgetかなんかで取ってこい。ローカルにないファイルは無理。
nfsはドーなるんだ、とかいうのはナシ。
461名無しさん@お腹いっぱい。:03/10/27 21:34
wgetってなんですか?
あと、2ちゃんねるのスレッドを検索するには、どうすればよいのでしょうか?
wgetもわからないお前はスレ表示した状態でCtl+Fで充分。
>>459
2ちゃんねるに限って言えば、既にいくつか検索システムがあるので、
そちらを使った方が良いと思われ。
いや、煽りとかそういうのじゃなくて、マジで。
464名無しさん@お腹いっぱい。:03/10/27 22:18
>>463
自分で検索結果の画面を作りたいので・・・。
なんのために?
wgetも知らない、namazuのマニュアルもまともに読めないヤシが
そんな大それた事を考えちゃ駄目。まず自分の実力を知ってください。
あんまりあちこちに迷惑かけんなよ。
どうしてそういう自己満足のスレ立てちゃうかなぁ…
レン鯖で有名なアイツか?
すいません。ちょっとText::ChaSenの利用で分からないところがあるので質問させてください。

環境
 TurboLinux7 Server
 Perl 5.6.1

ソースファイル
 chasen-2.3.3.tar.gz
 Text-ChaSen-1.03.tar.gz

chasenの展開、および、インストール
 $tar zxvf chasen-2.3.3.tar.gz
 $cd chasen-2.3.3
 $./configure
 $make
 #make install

Text-ChaSenの展開、および、インストール
 $tar zxvf Text-ChaSen-1.03.tar.gz
 $cd Text-ChaSen-1.03
 $vi Makefile.PL
   'LIBS' => ['-L/usr/local/lib -lchasen']
 $perl Makefile.PL
 $make
 #make install

ここまでうまくいき、http://namazu.org/doc/tutorial.htmlにあるように perl -MText::ChaSen -e '' を入力して何も表示されなければOKなのですが、以下のようなエラーが出ました。

#perl -MText::ChaSen -e ''
Can't load '/usr/lib/perl5/site_perl/5.6.1/i386-linux-thread-multi/auto/Text/ChaSen/ChaSen.so' for module Text::ChaSen: /usr/local/lib/libchasen.so.0:undefined symbol: cerr at /usr/lib/perl5/5.6.1/i386-linux-thread-multi/DynaLoader.pm line 206.
at -e line 0 Compilation failed in require. BEGIN failed--compilation aborted.
http://www.daionet.gr.jp/~knok/chasen/ より引用。
 【ChaSen 2.3.x 以降より、ChaSen 側で C++ template libray darts を利用するようになり、この module を build する際に C++ libray のリンクが必要になりました。
  Makefile.PL の WriteMakefile に 'LD' => 'c++' 等を追加するか、LIBS に -lstdc++ 等を追加して下さい。】
とあったので、Makefile.PLの該当個所を以下のように直し再インストールしました。
 'LIBS' => ['-L/usr/local/lib -lchasen -lstdc++']
これでもだめだったので、以下のような2通りでも試してみました。
 1. 'LIBS' => ['-L/usr/local/lib -lchasen'],
   'LD' => 'c++'
 2. 'LIBS' => ['-L/usr/local/lib -lchasen -lstdc++'],
   'LD' => 'c++'
しかし、まだ、perl -MText::ChaSen -e '' で上記のようなエラーが出ます。
あと、chasen-2.3.3のREADMEにenv CC=gcc CFLAGS="-02 -Wall" ./configure
とあるったので、その方法でconfigureしてからインストール、Text-ChaSenの
インストールをしても同じエラーが出ました。
調べたところ、この3つのファイルはきちんと存在しています。
/usr/lib/perl5/site_perl/5.6.1/i386-linux-thread-multi/auto/Text/ChaSen/ChaSen.so
/usr/local/lib/libchasen.so.0
/usr/lib/perl5/5.6.1/i386-linux-thread-multi/DynaLoader.pm

また、http://www.daionet.gr.jp/~knok/chasen/ には「Text::ChaSen は ChaSen 2.0 専用です。」
と書かれているので、2.3.3では無理なのかなと思いましたが、
「ChaSen 2.3.x 以降より、ChaSen 側で C++ template libray darts を利用するようになり、・・・」
と2.3.xの説明があるので使えないことはないと思います。

どうしても分からないので、どなたか御教授お願いできますか?
>>10 を見て ATOK16の辞書を 合併したら mknmz がやたら早くなったよ、正直かんどうした。
>>470-471
以下を実行すると何ていわれる?
ldd /usr/local/lib/chasen.so
ldd /usr/lib/perl5/site_perl/5.6.1/i386-linux-thread-multi/auto/Text/ChaSen/ChaSen.so
474470-471:03/11/17 23:27
>>473
コマンドを実行してみました。
ldd /usr/local/lib/chasen.so
   ldd: /usr/local/li/chasen.so: No such file or directory
ldd /usr/lib/perl5/site_perl/5.6.1/i386-linux-thread-multi/auto/Text/ChaSen/ChaSen.so
   libchasen.so.0 => /usr/local/lib/libchasen.so.0 (0x40005000)
   libstdc++.so.5 => /usr/local/lib/libstdc++.so.5 (0x40106000)
   libm.so.6 => /lib/libm.so.6 (0x401d8000)
   libgcc_s.so.1 => /usr/local/lib/libgcc_s.so.1 (0x401fa000)
   libc.so.6 => /lib/libc.so.6 (0x40203000)
   libiconv.so.2 => /usr/lib/libiconv.so.2 (0x4032a000)
   /lib/ld-linux.so.2 => /lib/ld-linux.so.2 (0x80000000)

/usr/local/lib/chasen.so は typo でしょうか?
一応、ldd /usr/local/lib/libchasen.so も実行してみました。
ldd /usr/local/lib/libchasen.so
   libiconv.so.2 => /usr/lib/libiconv.so.2 (0x40118000)
   libc.so.6 => /lib/lic.so.6 (0x401a5000)
   /lib/ld-linux.so.2 => /lib/ld-linux.so.2 (0x80000000)
475470-471:03/11/17 23:28
lddコマンドについてよく分からなかったので調べてみました。
lddコマンド:
 あるプログラムがどのような共有ライブラリを利用するのかを調べるコマンド。
 システムが共有ライブラリを検索する場所は、/etc/ld.so.confに設定されている。
 (http://www.idg.co.jp/lw/weekly_2/030916/より抜粋

そこで、自分の/etc/ld.so.confを見てみました。
   /usr/X11R6/lib
   /usr/lib/gconv
   /usr/lib/qt/lib
   /usr/local/lib
   /usr/i386-linuxaout/lib
   /usr/lib/libc5-compat
   /usr/lib/Omni

/usr/lib/perl5/site_perl/5.6.1/i386-linux-thread-multi/auto/Text/ChaSen
がないから共有ライブラリが見つからないのかと思い、/etc/ld.so.confに追加して
perl -MText::ChaSen -e ''と実行してみました。しかし、結果は変わりませんでした。
パスを追加すればいいってものではないのかもしれません。もう少し自分でも調べてみます。
>>470
で出てるのは cerr というシンボルがみつからない、というエラーで、
cerr は C++ で使われる extern 変数。なので C++ のライブラリが何か
おかしなものをリンクしてるかとおもって ldd してもらったんだけど、
そうでもなさそうだ...

自分でインストールした chasen コマンド自体は動くよね? もし動くのなら
それも ldd してみて欲しい。
/usr/localにコンパイルに使ったであろうシステム標準のgccとは違うバージョンのgccが入っていて、そっちのlibstdc++をリンクしてるのが原因だろ。統一しろ。


>>474
> 一応、ldd /usr/local/lib/libchasen.so も実行してみました。
> ldd /usr/local/lib/libchasen.so
>    libiconv.so.2 => /usr/lib/libiconv.so.2 (0x40118000)
>    libc.so.6 => /lib/lic.so.6 (0x401a5000)
>    /lib/ld-linux.so.2 => /lib/ld-linux.so.2 (0x80000000)

libstdc++.soが出てこないのが、すんごく気になるなあ…
ldd /usr/local/bin/chasenなら出てくるけど。
479478:03/11/18 19:27
>>478
libtool 1.5でlibtoolize --force --copyして、aclocal(1.6.3)と
autoconf(2.57)を実行して、./configure;make;make installして、
できたlibchasen.soをlddしてみたら、ちゃんとlibstdc++.soが出て
きましたよ。1.4系のlibtoolがまずいということでよろしいのかな?
480名無しさん@お腹いっぱい。:03/11/20 00:25
>>472
漏れも迎合してATOK辞書統合やってみた。体感的に確かに
早くなった気がするけど、これの論理的な説明ってできる?
辞書が充実することで、分かち書きが早くなるってことですよね。
誰か前後でtimeとった結果をきぼーんぬ。
ATOK辞書を統合すると一語としてそのまま認識されるものが、
それ以前はいろいろ分割してしまっていたからじゃない?
483gambling:03/11/20 11:45
484gambling:03/11/20 11:47
485名無しさん@お腹いっぱい。:03/11/21 00:36
namazuのTarballをダウンロードしてきて、 ./configureまでは正常に終わったんですが
makeしたところで以下の文がmake中に出ました。
(make自体は普通に最後までいったようです)

/../lib -I.///nmz     -g -02 -Wall -pedantic -c usage.c
usage.c:関数  'show_usage'内:
usage.c:51:警告 文字列長 '1544'は、長さ '509'(ISO C89 コンパイラのサポート要件)より大きくなっています

上のようなのが出ても、makeが最後まで行って終了すれば大丈夫でしょうか?
TL10 Basic使ってます。
and検索ってどうやってやるんですか?

namazu xxxx yyyy
ってやっても「インデックスが開けませんでした」って出るだけなんですが・・・。
namazurcでindexの位置は指定してあって、実際一単語での検索

namazu xxxx

だと、ちゃんと検索できるんですが・・・。
namazu 'xxxx yyyy'
shell 引数の問題。
470です。

遅くなりましたが、問題解決しましたので結果を報告します。

症状:
chasenのperlモジュールインストール後の確認コマンド、
perl -MText::ChaSen -e ''でChaSen.soを読み込めないエラーが発生。

原因:
477氏のおっしゃる通り、2つの異なるバージョンのgccの共存
(何故477氏がgccの共存にお気づきになったのか疑問です。)

解決方法:
システム標準のgccの削除
/usr/bin/cc を /usr/local/bin/gccへのシムリンクとする

経緯:
冗長ですが、以下に示します。

>>476
自分でインストールしたchasenコマンドをlddしてみました。
$ldd /usr/local/bin/chasen
   libchasen.so.0 => /usr/local/lib/libchasen.so.0 (0x40017000)
   libiconv.so.2 => /usr/lib/libiconv.so.2 (0x4012e000)
   libstdc++-libc6.2-2.so.3 => /usr/lib/libstdc++-libc6.2-2.so.3 (0x401bb000)
   libm.so.6 => /lib/libm.so.6 (0x40207000)
   libc.so.6 => /lib/libc.so.6 (0x40229000)
   /lib/ld-linux.so.2 => /lib/ld-linux.so.2 (0x40000000)

>>477
確かに先日、gccをgcc-3.3.2にアップグレードしました。そのため、以下のコマンドにより
旧バージョン(gcc-2.95.3-8)のアンインストールをしました。
(参照:http://www.zoi.to/~zoi/widestudio/ml/200202-/msg00067.html
#rpm -qa | grep gcc
   gcc-2.95.3-8
   gcc-g++-2.95.3-8
   gcc-objc-2.95.3-8
#rpm -e gcc-g++-2.95.3-8
#rpm -e gcc-objc-2.95.3-8
#rpm -e gcc-2.95.3-8

そして、chasen-2.3.3から入れなおしました。
$cd chasen-2.3.3
$./configure
$make
#make install
$cd Text-ChaSen-1.03
$vi Makefile.PL
   'LIBS' => ['-L/usr/local/lib -lchasen -lstdc++'] と変更する
$perl Makefile.PL
$make
cc -c -D_REENTRANT -fno-strict-aliasing -I/usr/local/include -D_LARGEFILE_SOURC
E -D_FILE_OFFSET_BITS=64 -O2 -march=i586 -DVERSION=\"1.03\" -DXS_VERSION=\"1.0
3\" -fPIC -I/usr/lib/perl5/5.6.1/i386-linux-thread-multi/CORE ChaSen.c
make: cc: Command not found
make: *** [ChaSen.o] Error 127

とエラーが出たので、$export CC=gcc; makeを実行してみました。
しかし、同じエラーが出ました。

$make CC=/usr/local/bin/gcc とすると以下のようになりました。
/usr/local/bin/gcc -c -D_REENTRANT -fno-strict-aliasing -I/usr/local/include -D
_LARGEFILE_SOURCE -D_FILE_OFFSET_BITS=64 -O2 -march=i586 -DVERSION=\"1.03\" -D
XS_VERSION=\"1.03\" -fPIC -I/usr/lib/perl5/5.6.1/i386-linux-thread-multi/CORE C
haSen.c
Running Mkbootstrap for Text::ChaSen ()
chmod 644 ChaSen.bs
rm -f blib/arch/auto/Text/ChaSen/ChaSen.so
LD_RUN_PATH="/usr/local/lib" cc -shared -L/usr/local/lib ChaSen.o -o blib/arch
/auto/Text/ChaSen/ChaSen.so -L/usr/local/lib -lchasen -lstdc++
/bin/sh: cc: command not found
make: *** [blib/arch/auto/Text/ChaSen/ChaSen.so] Error 127
前回と異なり、初めは/usr/local/bin/gccでコンパイルしています。
また、ccでのエラー出力もmake、/bin/sh の部分が異なっています。
エラー個所を調べようとChaSen.o、blib/arch/auto/Text/ChaSen/ChaSen.soファイルの
内容を調べようとしました。しかし、共にバイナリファイルであったため、
ファイルの内容が見れず、どうしてエラーになっているかを特定することができませんでした。

gccのrpmパッケージをアンインストールしたときに、ccも一緒にアンインストールしてしまったのだと思い、
gccを最初からインストールし直しました。
$rm -rf gcc-3.3.2
$tar zxvf gcc-3.3.2.tar.gz
$cd gcc-3.3.2
$mkdir build
$cd build
$../configure
$make bootstrap
#make install

そしてもう一度、Text-ChaSen-1.03のインストールを試みました。
しかし、同じエラー(make: cc: Command not found)、(/bin/sh: cc: command not found)が出ました。

調べたところ、以下のサイトが見つかりました。
http://search.luky.org/obu/msg01464.html
「それでしたら gcc が cc でリンク張られて無いだけなので、ルート権限にて
 ln -s /usr/bin/gcc /usr/bin/ccで大丈夫と思います。」

従って、自分の環境に合わせ、ルート権限にてコマンドを実行後、
Text-ChaSen-1.03のインストールを試みたところ、成功しました。
#ln -s /usr/local/bin/gcc /usr/bin/cc
$make
#make install
最初、質問する切っ掛けとなったコマンド(perl -MText::ChaSen -e '')もエラーが出なくなりました。


>>478
libtool、libtoolize、aclocalについて気になったので調べました。
御教授いただいたコマンドを実行する前のldd実行結果です。
$ldd /usr/local/lib/libchasen.so
   libiconv.so.2 => /usr/lib/libiconv.so.2 (0x4010a000)
   libgcc_s.so.1 => not found
   libc.so.6 => /lib/libc.so.6 (0x40197000)
   /lib/ld-linux.so.2 => /lib/ld-linux.so.2 (0x80000000)

$ldd /usr/local/bin/chasen
   libchasen.so.0 => /usr/local/lib/libchasen.so.0 (0x40017000)
   libiconv.so.2 => /usr/lib/libiconv.so.2 (0x40120000)
   libstdc++.so.5 => /usr/local/lib/libstdc++.so.5 (0x401ad000)
   libm.so.6 => /lib/libm.so.6 (0x40269000)
   libgcc_s.so.1 => /usr/local/lib/libgcc_s.so.1 (0x4028b000)
   libc.so.6 => /lib/libc.so.6 (0x40294000)

$perl -MText::ChaSen -e ''は実行できるようになったものの、依然
ldd /usr/local/lib/libchasen.soでlibstdc++.soが出てきません。
また、libgcc_s.so.1は/usr/local/lib/に存在しているにもかかわらず、
not found になっています。

478氏の行っていることは、ライブラリを置き換えるMakefileの作成、
autoconfを拡張するためaclocalによりaclocal.m4ファイルを作成し、
autoconfによりconfigureファイルの作成した後
chasenをインストールしていると理解しました。

自分でも実行しようと思い、ソフトウェアのアップグレードを試みました。
libtool   1.3.5-3 → 1.5
automake   1.4-12 → 1.7.9
autoconf   2.13-6 → 2.57

・libtool
#rpm -e libtool-1.3.5-3
エラー: これらのパッケージを削除すると依存性を破壊します:
libltdl.so.0 は openldap-servers-2.0.27-2 に必要とされています

・automake
#rpm -e automake-1.4-12
エラー: これらのパッケージを削除すると依存性を破壊します:
automakeは gettext-0.10.38-3 に必要とされています

・autoconf
#rpm -e autoconf-2.13-6
autoconfのみアンインストールを行えました。
しかし、libtoolをアンインストールをするためにopenldapを削除して・・・
としてたらきりがないので、アップグレードをしないでコマンドを実行することにしました。
また、削除したautoconfについても、turbopkgを行いインストールし直しました。

$cd chasen-2.3.3
$libtoolize --force --copy
   You should update your `aclocal.m4' by running aclocal.
$aclocal
$libtoolize --force --copy
$autoconf
$./configure
$make
   cd . && /bin/sh ./config.status config.h
   Usage: ./config.status [--recheck] [--version] [--help]
   make: *** [stamp-h1] エラー 1

http://pc.2ch.net/test/read.cgi/linux/1022744633/121 に同じエラーが出ている方がいました。
しかし、http://pc.2ch.net/test/read.cgi/linux/1022744633/130
「automakeのupdateをしていた」とあります。
automakeのバージョンの問題かもしれないので、もうちょっと調べてみます。


以上です。何かお気づきの点ございましたらコメントよろしくお願いいたします。
495名無しさん@お腹いっぱい。:03/11/27 07:20
cygwinでコンパイルしたものを使用しています。
mknmzで大量のドキュメントのインデックスを作成するとCPU負荷が100%になってしまいます。
プロセス優先度を下げても他のプロセスの反応速度が鈍くなってしまうので、これをなんとか回避できないかと考えています。
インデックスの作成に時間がかかってもよいので、ある一定期間ごとにsleepをかけてCPUを他のプロセスに開放するような設定はできないでしょうか?
namazuの検索結果を、要約ではなく検索に指定された単語を全て含む文のみを
抜き出して表示するにはどうしたらいいんでしょうか?

要約も文字数を変えたりは出来るんですが、必要な文だけ抜き出して
その文を全て表示する事ができません。
497名無しさん@お腹いっぱい。:03/11/27 22:32
cygwinといえば、ChaSenがCygwin上でコンパイルできないことない?
というかできないんだけど、元々無理なの?
darts ライブラリを使うようになったバージョン以降は
Cygwin でのコンパイルに対応してない。
>>496
sary 使えばできると思う。改造してみ。
>>499
レスありがとうございます。



・・・_| ̄|○<デキナイポ
namazuの検索結果表示を改造するために NMZ.result.normal.jaをいじったんですが
どうしても

検索結果
参考ヒット数: [xxx:yyy]
検索式にマッチするn個の文章が見つかりました。

以上3行が消せません。
どのファイルをいじればいいんでしょうか?
沢山あってどれだか・・・
502名無しさん@お腹いっぱい。:03/11/28 11:13
>>501
知るかボケ
         ∧_∧          ∧_∧
         (    )         (    )  すみません、連れて帰ります
          )::::::::(           ):::::::(
        /::::::::::::;\        /::::::::::::; \
       // |:::::::::::: l |       //´|:::::::::::: l |
        | | /::::::::::::/| |      // /::::::::::::/| |
        U |::::::::::/ U      U  |::::::::::/ | |
         |::::||:::|  | |    | |  |::::||:::|  U
         |::::||::|   | ∧∧//  |::::||::|
          | / | |   ( ゚д゚ )/   | /.| |
         // | |   |>>502/   //  | |
        //  | |   | /| |   //   | |
       //   | |   // | |   //   | |
       U    U  U  U   U     U
>>501
ソース修正しる!
505名無しさん@お腹いっぱい。:03/11/28 19:26
>>504
Namazuのソースをいじるってことでしょうか?
そ。output.cのprint_hitnum() や print_result() をみること。

>>501
pnamazuだったら出来るって事を聞いた事あるかも・・・(うそかもしれない
または>>506のようにソースいじるとか
>>501
PHPのNamazuインタフェース組み込み。
またはPerlからNamazu呼び出し。
>>501
スタイルシートでdisplay:noneじゃだめ?
PHPの話が出たところで質問。
PHPのNamazuモジュールって検索文字列の分かち書きは
自分でしないとダメ?
そんなもんあるのね。
>>510
自分でしないと駄目。
kakasiモジュールをいれて組み込みkakasi関数を使うと楽。
つか,バージョンアップ,移行が激しくめんどくさい罠。
改行コードが「・(B」文字化けしてしまい困っています。
状況としてはnamazu-users-ja-MLに流れてた↓こちらと全く同じです。

http://www.namazu.org/ml/namazu-users-ja/msg03395.html

どなたか解決方法をご存じの方いませんか?
>>513
修正すればよろしい。
>>514
どこをどういう風に?
ちゅーかNKFを通した直後のファイルでもすでにそうなってるのか、
MHonArcした後そうなるのか、問題を切り分けよう。


>>516
どうもMHonArcを通した時点で化けるみたいです。
MHonArcの設定でしょうか。。。
Unicode(?xHHHH)形式に変換すると化けないこともわかりました。

いずれにしてもMHonArcの問題のようですので、
MHonArcスレに移動して聞いてみますね。
gcnmz にすごく時間がかかっているのですが
(2時間経過して271243/502165 みたいな)
これは最初からindex作りなおしがいいですかね?
それとももう気にしないで、gcnmzなんかしない
方向がよいのでしょうか?
gcnmzしたことないや。インデクスが不必要に大きくなるぐらいしか
不都合無いから。
そんな大量のgznmzしたことないけどコメントをば。

もれは日記をnamazuで検索できるようにして、
インデックス作成は毎日2回、gcnmzは月1度でしてるけれど
そんなに時間がかかったことはない。
日記のファイル数なんてたかが知れているし、
ほとんど変更なんてないけれど長くても1分くらいでgcnmzは終わるね。

変更点があまりに多いならgcnmzよりも作り直しがいいんでないかな。

>>519
namazuのインデックス作成は消されたファイルは不要であることを示すビットを
立てるに過ぎなかったと思うけれど、不要ビットがたったものが増えたら検索の効率は
下がるんでないかな。
不要ビットがたっているものは表示しないだけで検索はしてるだろうし。
うん。検索効率はちょっと下がるだろうね。でも俺の場合、
会社のウェブサーバで使ってるだけだから3万ファイルぐらいしかないし、
俺の環境だと実際の検索速度において有意な差はないと思うよン
>>521
変更が激しいサイトだと検索効率の低下を感じるかもしれないけれど、
会社のウェブサイトだったらファイルが増えることはあってもほとんど変更はしないだろうしねぇ。
それに、近年ではプロセッサやディスクの処理能力はかなり高いから差があったとしても
誤差として扱える程度になってしまうのかもしれないな。
そう考えるとgcnmzするか否かは普通のサイトではあまり意味がないということになるのかな。

たとえば、2chのニュース速報板のような変化が激しいものの検索サイトを作ってると
gcnmzするかしないかが効いてくるのかな?
>>522
2chみたいなファイル構造(URLは変わらないが、ファイルへの文字列追加がひんぱんにある)
だと、namazuは効率が悪いと思う。安直な思いつきだけど、前回のファイルdiffして差分のみ
インデクスに追加出来るといいのかも。前回分が丸々必要だから駄目か。
524518:03/12/07 20:14
いろいろ参考になりますた。結局5時間ぐらい
かかりますた。実はディレクトリが他にもあって今回
やったところはデータは少ない方なのでgcnmz
するなら作り直したほうが早いような感じです。.
gcnmzしようと思ったは毎日のインデックス更新処理とかが
gcnmzしたら少しは早くなるのかなぁと思ったりしたもので。
検索もなんだか最近遅いような気がするし...
マシンを新しくしたほうがいいかなぁ...
Namazuと組み合わせて使う為にChaSenをインストールしようとしています。
darts-0.2は
./configure; make; make install

chasen-2.3.3は
./configure
lib/Makefile中のLIBS = をLIBS = -liconvに書き加え
make; make install

ipadic-2.6.3は
./configure; make; make install

として、インストールが終わって、chasen ./test.txtと打ってみたら、
$ chasen ./test.txt
chasen: /usr/local/lib/chasen/dic/ipadic\chadic.da: No error
となります。何が悪いのかさっぱりです。
どなたか、CygwinでChaSenを使えている方、解決策を知っている方が
いらっしゃったら、アドバイスをもらえないでしょうか?
lib/chadic.h で _WIN32 が定義されているときに
#define PATH_DELIMITER '\\'
となってるから、これをとりあえず '/' にすればいいんじゃ?

ちゃんと直すなら
#if defined _WIN32

#if defined _WIN32 && ! defined __CYGWIN__
にするのがいいのかな。試してないけど。
527名無しさん@お腹いっぱい。:03/12/22 21:28
フィールド検索で
+size:100
と検索した場合に、100バイトのファイルだけではなく、10,003バイトのファイルでも
1100バイトのファイルでも引っかかってしまいます。
こういった数値のフィールドを扱う場合"100"のみを引っかけるようにするには
どうしたらよいのでしょうか?
528525:03/12/23 06:19
>>526
遅くなりましたが、レスありがとうございました。
'\\'を'/'に置きかえる方法でやってみましたが、変わらずでした。
かわらず、ってのはどういう意味だ...

> $ chasen ./test.txt
> chasen: /usr/local/lib/chasen/dic/ipadic\chadic.da: No error

あいかわらずこれがでるの? だったら修正する箇所が間違っていたか、
そっちが古いバイナリを動かしつづけているかのどっちかだと思われるが。
530525:03/12/24 12:41
>>529
すみません、「変わらず」ではありませんでした。
$ chasen ./test.txt
chasen: /usr/local/lib/chasen/dic/ipadic/chadic.da: No error
こうなります。
じゃあそのパスに chadic.da が存在するかどうかの問題かな。
532525:03/12/25 18:24
>>531
chadic.daは存在します。
レスをしかけたまま放置するのもアレなので、手元のマシンに cygwin 入れて
試してみた。

で、どうも configure がちゃんと mmap を判別しないのが問題っぽい。
configure したあと config.h を直接修正して、#define HAVE_MMAP 1
を追加した上で make すると動いたよ。
>>526 の修正は不要だった。cygwin は / も \ も両方扱えるようだ。

>>533
ちゃんと動作しました。
結局Cygwin環境にChaSenを入れる時の注意点は、

configure後に
1.lib/MakefileのLIBSに-liconvを手動追加
2.config.hに#define HAVE_MMAP 1を手動追加
と、した後makeすれば良い

Cygwinまで入れさせたりして色々とお手数をおかけしてしまいました。
ですが、非常に助かりました。ありがとうございました。
> configure後に
> 1.lib/MakefileのLIBSに-liconvを手動追加

configureに--with-libiconvオプションを渡瀬。

mmapについてはCygwinの方の問題っぽい気もしなくもないが…
536sage:03/12/28 14:21
これって遅くないですか?
対象ファイルは全部日本語htmlファイルで、Pen4(800)-3GHz HT-off、メモリ2GB
(PC400デュアルチャネル)、mknmz以外は殆ど何もしてない遊びマシンです。

[Base]
Date:        Sun Oct 19 21:18:29 2003
Added Documents:   45,030
Size (bytes):    863,785,891
Total Documents:   45,030
Added Keywords:   698,297
Total Keywords:   698,297
Wakati:       module_kakasi -ieuc -oeuc -w
Time (sec):     21,804
File/Sec:      2.07
System:       MSWin32
Perl:        5.006001
Namazu:       2.0.10
[Append]
Date:        Sun Dec 28 07:05:10 2003
Added Documents:   1,340
Updated Documents:  21,909
Size (bytes):    487,727,151
Total Documents:   46,370
Added Keywords:   20,556
Total Keywords:   718,853
Wakati:       module_kakasi -ieuc -oeuc -w
Time (sec):     15,400
File/Sec:      1.51
System:       MSWin32
Perl:        5.006001
Namazu:       2.0.10

なにが悪いんだろう?
>>537
おまえのオツム
          ∧_∧          ∧_∧
         (    )         (    )  すみません、連れて帰ります
          )::::::::(           ):::::::(
        /::::::::::::;\        /::::::::::::; \
       // |:::::::::::: l |       //´|:::::::::::: l |
        | | /::::::::::::/| |      // /::::::::::::/| |
        U |::::::::::/ U      U  |::::::::::/ | |
         |::::||:::|  | |    | |  |::::||:::|  U
         |::::||::|   | ∧∧//  |::::||::|
          | / | |   ( ゚д゚ )/    | /.| |
         // | |   |>>538   //  | |
        //  | |   | /| |   //   | |
       //   | |   // | |   //   | |
       U    U  U  U  U     U
ho
Mac OS X 10.3.2でビルドに失敗するんだけど。
できてる人いますか?
どんなエラー?
543541:04/01/14 22:57
環境は
Reading specs from /usr/libexec/gcc/darwin/ppc/3.3/specs
Thread model: posix
gcc version 3.3 20030304 (Apple Computer, Inc. build 1495)

[namazu-2.0.12]
でconfigureはエラーなし
makeすると
/usr/lib/libiconv.dylib(localcharset.o) definition of _locale_charset
make[2]: *** [namazu] Error 1
make[1]: *** [all-recursive] Error 1
make: *** [all-recursive-am] Error 2

とエラー終了
make中にwarningはけっこう出てます。
目立つのはregexとwakatiです。
iconv絡みでしょうか?


544名無しさん@お腹いっぱい。:04/01/16 10:01
phpのNamzuモジュールの配布先って今はどこになってるんでしょう?
>>544
cvs.php.net の pecl/namazu じゃない?
546名無しさん@お腹いっぱい。:04/01/16 16:59
ロボット型検索エンジンの作り方教えれ。
548名無しさん@お腹いっぱい。:04/01/17 00:13
Namazuを使って検索エンジンをWebデ公開してる香具師いる?
549名無しさん@お腹いっぱい。:04/01/17 12:34
もうNamazuを使ってるような香具師はいないのか・・・
php版namazuなんてあるのか。
>>546
wget -m とNamazuでできるだろ。
552名無しさん@お腹いっぱい。:04/01/22 03:31
日本語原理主義なんて知るか!
553名無しさん@お腹いっぱい。:04/02/02 10:59
>>552
???
555名無しさん@お腹いっぱい。:04/02/09 16:54
Namazuは何のDBを使っているのだろうか?
>>555
独自形式。BerkeleyDBとかは使っていない。
557名無しさん@お腹いっぱい。:04/02/09 22:59
>>556
それってすごくないですか?
(゚Д゚)ハァ? 
559名無しさん@お腹いっぱい。:04/02/10 11:32
>>558
消えろ。
>>557
某所では「すごそうに見えるけど実は簡単という手法ばかりを採用する」
と書かれているけど:) とりあえずこんな感じ。

NMZ.* ファイルの仕様
ttp://www.namazu.org/doc/nmz.html
B木あたりを使い出すと面倒だけど
2分木やハッシュだけならそれほど難しくない。ただ、やっぱり面倒。
それぞれ役目がある色々なファイルを組み合わせて作るのか。
563名無しさん@お腹いっぱい。:04/02/11 11:32
mknmzで、約6000のテキストファイル(合計1.5GB)のインデックス作成をしていたんですが、
約500ファイル目あたりで

mknmz: |/usr/bin/nkf -emXZ1 > /home/..../index/NMZ.nkf.tmp : メモリを確保できません

と出て終了してしまったんですが、物理メモリを増設する以外に
解決の方法は無いんでしょうか?
せっかくの3時間程度の作業がフイになってしまったんですが・・・
565名無しさん@お腹いっぱい。:04/02/11 14:23
mknmzを実行すると、こんなエラーが出たんですが
解決方法わかりますか?
いろいろやったんですが手詰まりです。

Can't locate NKF.pm in @INC (@INC contains: /usr/local/share/namazu/filter /usr/share/namazu/pl
. /usr/lib/perl5/5.8.0/i386-linux /usr/lib/perl5/5.8.0 /usr/lib/perl5/site_perl/5.8.0/i386-linux
/usr/lib/perl5/site_perl/5.8.0 /usr/lib/perl5/site_perl) at /usr/bin/mknmz line 875.

長いのでてきとうなところで改行しています。
NKF.pmをインストールすれば良い。
なんでエラーを読もうとしないかなぁ。
568名無しさん@お腹いっぱい。:04/02/11 20:01
GETA使ってる人いないの?
ZOURI使ってまふ
SETTAいいよ
571名無しさん@お腹いっぱい。:04/02/13 00:55
>>568-570
意味不明
http://geta.ex.nii.ac.jp/
GETA はこれ
ゲタセッタをいちいち書くのがマンドクサイ。
574名無しさん@お腹いっぱい。:04/02/13 13:36
現在namazuにインデックスされているファイルの総数及び総データ量を知りたいんですが、
どうすればいいんでしょうか?
最初にmknmzやったときに表示されますが、また一からmknmzやると
途方もない時間がかかるので・・・

一通りFAQや--helpは見たんですが、載って無かったです。
NMZ.log をみればいいのかな。
576名無しさん@お腹いっぱい。:04/02/13 23:41
snatcher は Estraierと名前を変えていたのか。
>>576
で、namazuと比べてどうよ?
Googleみたいに要約が出るのでよい。>>576
> snatcher は Estraierと名前を変えていたのか。
579名無しさん@お腹いっぱい。:04/02/17 11:22
Nutchはどうよ?
http://www.nutch.org/docs/jp/
微妙にスレ違いかもしれんな。

オープンソースの全文検索ソフト
http://pc.2ch.net/test/read.cgi/linux/1036088927/
>>580
そんなスレがありましたか。スマソ。
582名無しさん@お腹いっぱい。:04/03/05 21:47
Replace で、
Replace /home/httpd/html/ http://hoge.net/
ってやったら置換できますけど、
これの置換って、前方一致しかできないんでしょうか?
例えば。。。
Replace httpd apache
とかやったら、
/home/httpd/html/

/home/apache/html/
になるような。。。
どなたかご教授いただけないでしょうか?

単純に
Replace httpd apache
ってやっても置換されませんでした。
Namazu 2.0.12
です。
パスがわかってるなら
Replace /home/httpd/html /home/apache/html/
でいいじゃん。

任意の パスの特定の文字列を置き換えたいなら
Replace /(.*)/httpd/(.*) /\1/apache/\2/
だね。

namzurc.sampleに書いてあるよ。よく読みましょう。
584名無しさん@お腹いっぱい。:04/03/08 02:46
検索するときに半角カナ使うと文字化けするんですけど、
これってしょうがないんでしょうか・・?
??質問が意味不明。
586名無しさん@お腹いっぱい。:04/03/10 09:29
あげてみよう
587名無しさん@お腹いっぱい。:04/03/10 23:31
ようするに半角カナが検索できないってことだろう
588名無しさん@お腹いっぱい。:04/03/15 18:54
postscript,dvi,pdfは認識されているのですが、そのうちpdfしかインディクスがつくれません.
エラーの原因は調べたところ次のことが原因らしいです.
どう修正すればいいのかわかりません.助けてください.
windows(98,XP)だからかもしれません.

うまく動くpdf.plでは
41行目   $pdfconvpath = util::checkcmd('pdftotext');
↑この部分で$pdfpath には pdftotextのあるディレクトリ + pdftotext
が代入されているのに対して


うまく動かないdvi.plでは
37行目  $dvipath = util::checkcmd('dvi2tty');
↑この部分で$dvipath には dvi2ttyのあるディレクトリ
が代入されているようです.

しかも$pdfpathには文字列を連結させることができるのに対し
$dvipathには文字列を連結させることがうまくいっていないようです.
フィルタのメンテも大変だな。
590名無しさん@お腹いっぱい。:04/03/16 20:26
Namazuも完全に袋小路に入っているのか……
それどういう意味? >>590
592名無しさん@お腹いっぱい。:04/03/17 02:02
開発者の失せたオープンソースは悲惨
Namazuは、いままさに絶賛開発中じゃないすかね?
http://www.namazu.org/misc/ChangeLog.png
高林さんは抜けたけど、usuとopenglのモチベーションは高くないッすか?
このおふた方に期待大っすよ。

しかし、やっぱ、こまめにリリースしないと開発止まったようにみえるんだねぇ。
594名無しさん@お腹いっぱい。:04/03/17 12:15
> しかし、やっぱ、こまめにリリースしないと開発止まったようにみえるんだねぇ。

こまめに顔を出さないと忘れられるというのは、人類の曙から
周知の事実だと思うが。
>>593
Namazuに限らず全文検索エンジンのリリースサイクルは頻度低めだと思う。
頻度が高いのは新興のEstraierくらいなものじゃん。あと、mnoGoSearch
とXapianも定期的に新しいのが出てるけど。ASPseekやJakarta Luceneは
ちょっと落ち着いてきたし、Ht://Digに至ってはNamazu並かそれ以上に
インターバルが空いている。

まあ正直FreeWnnパターンにはまりかけていた印象は否めなかったけど、
この両氏のおかげでCanna程度には持ち直しそうだ。
596名無しさん@お腹いっぱい。:04/03/17 16:47
リファクタリングの要求が語られ始めているね。
597588:04/03/19 16:56
588ですが、同じようなエラーがでる、または修正したひといませんか。
Win32な話は MLに投げたほうがいいんじゃないの?
ここはUNIXな人しかいないからさ。

ということで4/1リリースっすね。
>>598
リリースはうれしいが、
久々にリリースする日が 4/1 だと、
なんだか嘘話に思われてしまう
よっかん。
29の日とかよりまし。
>>600
その肉の日になりそうな展開ですが(w
え?リリース担当のopenglが遊びにいっちゃうからその日はいないって話じゃ?
それとも、結局knokがリリースすんの?
603名無しさん@お腹いっぱい。:04/04/05 11:07
そういえばどうなったかな〜と思ってMLアカイヴを見てみると、
5日にRCが出て、8日までテスト期間となっているようです。

正式リリスはその後ですか。
インデックスの作成中下記のようなエラー表示でmknmzが中断されたのですが
これは設定ファイルの編集で解決できるような問題なのでしょうか?
なんどやっても同じファイル数(2757ファイル目)のところで中断されてしまいます。

/usr/local/var/namazu/index/NMZ.wakati.tmp: 十分な領域がありません
ディスクが足りてないとか。
OpenBSD対応を生き残って、良かった。
607名無しさん@お腹いっぱい。:04/04/13 15:50
えーと HTMLをmknmzでインデックス化しているんですが、
.
<title><ほげほげ></title>
.
といった全角のパックリコードが含まれると検索結果のタイトルが
URLになってしまいまつ。
plを追っかけてみたら記号を半角にする所がまずそうだと思い以下の
パッチを当てました。
codeconv.pl
-----------------------------
旧:my $nkf_opt = "-emXZ1";
 新:my $nkf_opt = "-emX";
-----------------------------
したら、うまく出てきましたが、副作用が心配です。
ベターな対処方法はないですか?できればそのまま全角で出したいです。
mknmzする前に、< を < などに変換しとくしかないのでしょうか?
0-9A-Za-zをすべて半角英数(ってなに?)に変換してindex してる前提で
namazuコマンドおよびnamazu.cgiは動作するから検索するとき困るよな。
titleの部分だけの問題なら、html.plあたりでやるほうがいいんだと思うよ。
未検証だけど、

% diff -c html.pl.org html.pl
*** html.pl.org Tue Apr 13 16:47:23 2004
--- html.pl Tue Apr 13 16:48:20 2004
***************
*** 167,172 ****
--- 167,174 ----

if ($$contref =~ s!<TITLE[^>]*>(.*?)</TITLE>!!is) {
$title = $1;
+ $title =~ s/^>//;
+ $title =~ s/<$//;
$title =~ s/\s+/ /g;
$title =~ s/^\s+//;
$title =~ s/\s+$//;

なかんじで、> <を取っちゃえばいいような気がする。
あ、ぎゃくか。
+ $title =~ s/^<//;
+ $title =~ s/>$//;
かな。
>>608
この手のnormalizeはNamazuに限らず転置インデックス型
検索エンジンの多くがみなやっていることだが。
612607:04/04/13 19:19
>>608-611
皆さんありがトン。
とりあえず nkfのZ1を取ることで全角記号の半角変換はしなくなったので
半角・全角は問題は同一視されるし、これで良いかなぁと思ってたりします。
もうちょっと悩んでみます。
Namazuのインデックス作りで四苦八苦しているのですが
単語レベルじゃなくてファイル名単位で検索できるようには
できないのですかね?
614名無しさん@お腹いっぱい。:04/04/13 21:07
>>613
ファイル名をファイル内に書いとけばどうよ?
2.0.3おめ。
1年半ぶりか。
すまぬ。2.0.13 だった。
開発者及びテスターのみな3、乙彼。
>>617
> 開発者及びテスターのみな3、乙彼。

開発者っていたの?
まー現在の開発者は実質openglとusuの二人だな。乙カレー。
620名無しさん@お腹いっぱい。:04/04/14 19:27
/.-Jで香ばしい展開になりそうな悪寒。
何かアフォが一匹涌いているようだな・・。
単なる釣り師の煽り餌に簡単に釣られるのが/.Jer
623名無しさん@お腹いっぱい。:04/04/14 23:49
FreeBSDの小人さん、portsを頼みます!!
以前インストールした時になんか改造した気がするが、
何処を弄ったか忘れたorz
とりあえずアップグレードするか...
625名無しさん@お腹いっぱい。:04/04/18 21:27

M-x w3m-namazu をして Query をいれると、その検索結果が *w3m* バッファに表示され
ますよね? しかし、そこに表示されているリンクを辿るたびに black だったバックグ
ラウンドが white になってしまいます。

誰かこの原因がわかる方いますか? それとも w3m のスレで質問するべきでしょうか?

NTEmacs 21.3 (Windows 2000pro)
>>625
Windows 板へ帰れ。

というのは冗談ですが、多分 Emacs スレか w3m スレの方が適当でしょう。
$FILE_SIZE_MAXや$TEXT_SIZE_MAXの意義が今ひとつよくわからないのですが、
サーバへの負荷を考慮するものなら
$FILE_SIZE_MAXに指定するサイズを超巨大サイズにしておいて$ON_MEMORY_MAXで制限すればよいかと思うのですが。

これは明らかにあるサイズ以上のファイルを無視する事がわかっている場合に使うとい事でしょうか?
検索対象となるファイルを調べる。
ファイルのサイズの上限 => $FILE_SIZE_MAX
ここで引っかかったら対象から除外
ファイルからテキスト抽出
テキストサイズの上限 => $TEXT_SIZE_MAX
ここで引っかかっても対象から除外
わかち書き、インデクスへの登録
インデクスに使う実メモリの上限 => $ON_MEMORY_MAX
ここで引っかかったら、いったんテンポラリに書き出して、
execしなおし

だとおもった。
629名無しさん@お腹いっぱい。:04/05/13 19:02
すんません。質問の仕方が悪かったです。

$FILE_SIZE_MAX や$TEXT_SIZE_MAX で制限をかけるメリットがよくわからないです。
INDEX作成時のサーバ過負荷を避ける為なら、
$ON_MEMORY_MAX を指定すればよいように思うのですが。

>>629
だから628に書いてある通りじゃないの?
631名無しさん@お腹いっぱい。:04/05/14 05:12
namazuと、わかち書き+Mysqlで、
ベンチマークとって比較した人いる?
思惑ではMysqlの方が。。。
おそいよな。
>>630
いや、なぜ
$FILE_SIZE_MAX で制限する必要があるのか解らないのです。

INDEX時の過負荷を避けるためですか?
633です。

>INDEX時の過負荷を避けるためですか?

INDEX作成時の過負荷を避けるためですか?
です。
うざいなー、コード読めよ。そうすればわかるからさ。

636名無しさん@お腹いっぱい。:04/05/15 01:41
sambaでおいてあるwordファイルやexcelファイルのインデックス作成を
試みていますがmknmzがファイル100個めくらいで止まります
変な書式を使っているファイルが多いせいなのかもしれませんが
エラーも出ないで停止するので対処法の見当がつきません
こういった現象を回避するような良い方法はないでしょうか?

ちなみにmknmzを動かしているコンピュータはメモリ190MBで
$FILE_SIZE_MAX 5MB
$TEXT_SIZE_MAX 3MB
で指定して-sオプションをつけてみたりなどしています
ちなみにmknmzを動かしているコンピュータはUNIX,Windowsどっち
638名無しさん@お腹いっぱい。:04/05/15 10:24
UNIXです
linux-2.6.5(Fedora)を使用しています
sambaで使っているcoding systemは?
止まったファイルをwvWare,xlHtmlに直接喰わせてみた?
デバッグオプションつけてmknmzして止まったところを貼れ。
641名無しさん@お腹いっぱい。:04/05/16 00:18
>639,640
試してみます
mknmzが遅いのは、どうにかなりそうな世界の話ですか?
天才募集とかじゃなくて、って意味。だったらがむばって
みます。
mknmz おそいっすか? うちだと普通のhtml何かのバヤイ、12 files/sec.
ぐらいで処理してますが。
644名無しさん@お腹いっぱい。:04/05/17 04:49
>>643

ソフトウェアのスピードというのは、いくらでも上を望むことが許される世界なり。
>>644
いくら望むことが許されていても、理論的限界を越えては
速くはできない... そういう場合は、望みだけに終る.
646名無しさん@お腹いっぱい。:04/05/17 07:24
>>645
理論的限界を越えていない場合には早くできる... そういう場合も、
あれこれ難癖をつけて潰そうとする人々がワラワラと湧いて出るのが
日本のフリーソフトウェア界隈。
ものによってはでかいファイルを perl の変数に読み込んで regex ベースでいろいろ
処理して、ってのを何度も繰り返してるからまあ遅い罠。
>>642
profilingをしてボトルネックから調べるとよい
ttp://www.namazu.org/ml/namazu-dev/msg00372.html
がむばってください。
そうそう、File::MMagic も重いね。あれもファイルメモリに読み込んで
がさごそする系だからなあ。
特定のファイルタイプしか処理しないなら -t でメディアタイプを指定
するのもいいかもね。
namazu.orgサーバが何者かに侵入されている模様
2004年5月27日

誠に残念な報告をしなければなりません。Web, FTP, メーリングリスト, CVS
を提供していた、karin.namazu.org が日本時間2004年5月23日午前2時頃に何
者かに侵入されていたことが発覚し、5月25日午前2時49分頃にマシンを停止し
ました。

運良く、現在リリースされている namazu-2.0.13-1.tar.gz についてはこの問
題の影響を受けていませんので、これをインストールされている方はそのまま
問題なく利用を継続していただけます。

現在我々プロジェクトメンバはサービスの再構築を行っています。完全復帰ま
で、いましばらくお待ちください。

今後も情報を http://www.namazu.org/ で提供する予定です。より詳しい情報
が必要な場合には、[email protected] 宛にメールを送ってください。
orz
orz
記念マキコ
655名無しさん@お腹いっぱい。:04/05/30 12:05
これ、mac用のツールなの。
perl と kakashi あたりがあれば、どんな環境であれ、それなりには使えるのよーん
mac 用とかwin用とか偏狭なこと言ってるばわいじゃないのよーん
いや 各OS専用のクライアントもあるうけえどねぇーん
第二報をお知らせします。

我々はVA Linux Systems Japanより提供いただいた新しいマシンを用いて、メー
リングリストサービスを再開しようとしています。再開するにあたり、我々は
メーリングリストに関する免責事項を明示することにしました。詳細は
http://www.namazu.org/disclaimer.html に掲載しています。

以前のメーリングリスト講読者情報は、新しいメーリングリストには引き継が
れません。この免責事項を確認し、同意した上で、以下のURLから改めて講読
を行なって下さい。

http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-users-ja (ユーザ向け)
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-devel-ja (開発者向け)
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-win32-users-ja (Windowsユーザ向け)

ウェブの再構築と古いメーリングリストアーカイブの提供には、まだ時間を必
要としています。もうしばらくお待ち下さい
658名無しさん@お腹いっぱい。:04/06/01 21:52
実験のまとめEXCELファイル群をインデックス対象にしたいのですが
EXCELファイル内の数字データの量が膨大でこれだけ対象から
外せないかと考えています。理想はたとえば
PC9801 ←インデックス対象
26.5521 ←インデックス対象外
としたいのですがなにか方法はないでしょうか
excel.plの filter_xlに
$$cont =~ s/\s\d+\.*\d+(?=\s)//g;
を加えたらどうかな
660名無しさん@お腹いっぱい。:04/06/17 13:01
Win32版namazuで質問があります。
namazuの検索結果を都合よく加工するため、自前のcgiからnamazu.exeを呼
び出しコンソール出力を取得して色々やってるんですが、HTTPのメソッドが
POSTの場合は問題なく動作するものの、GETになると正常に動作せず、
You should use "namazu.cgi" instead of "namazu" command." と言われ
てしまいます。(素直にnamazu.cgiを使えばよいことは重々承知)
で、メソッドの違いは環境変数だと思い1つずづ調べたら、QUERY_STRING
とSCRIPT_NAMEがあるとこのエラーが出るようです。
namazuを呼ぶ前にQUERY_STRINGをつぶしたり、namazu.exeの"QUERY_STRING"
部を書き換えてパッチすると正常に動作しました。
どちらもエレガントではなく何か良い回避方法をご存知の方がいらしたら
助言ください。よろいしくです。
Namazu.pmつかう。
namazu.cgiつかう。
どっちか。

wrapperからnamazu.cgi呼べば、環境変数いじる必要ないので
らくちん。 templete.jaをてきとうに加工しとけば、ほぼ好きなように
出力もいじれるし。
googleで検索してたらこのスレに辿り着きました。
>>152>>246のように
2chのスレを全文検索して、検索結果にレス単位で表示させたいのですが
--html-splitでインデックス化しても検索結果に該当箇所が表示されません。

例えばこのスレが過去ログだったとして、任意のキーワードで検索すると
--------------------------------------------------------------------------------------
2. 全文検索エンジンNamazu(スコア: 7)
著者: 不明
日付: Thu, 17 Jun 2004 12:30:44
全文検索エンジンNamazu(2ちゃんねる) FTP、CGI、SSI、telnetが自由に使える超高速レンタルサーバ。
工夫しだいで、楽しさ100倍。 超高速レンタルサーバ・binboserver.com www.binboserver.com ◆

--------------------------------------------------------------------------------------
こんな感じで表示されてしまいます。
しかし>>152以降の流れを見る限り--html-splitだけでも表示されるようだし何か根本的に間違っている??
<a name="">をレス番あたりに入れておけば確実に表示されるのは分かるのですが、
なにをどうやればいいのか分かりません。(すみません、超初心者です・・・)
どうか助言をお願いできませんでしょうか。


663662:04/06/21 09:21
>662
自己解決したので質問を取り消します。
<a name="">を入れるのはスクリプト組まないと出来ないと思っていたのですが
テキストエディタ→正規表現による置換でできることに気づいていませんでした。
もっとちゃんと勉強してからまた来ます。スレ汚しごめんなさい。
index.cgi?log=001みたいにlogの値が変われば内容も変わるスクリプトの全文検索をしたいのですが、どうすればいいでしょうか?
このcgiから出力される記事のみを検索したいんです。(つまりhtmlなどは検索したくない。)
教えて下さい。お願いします。
いろんなやり方があるけど
wget http://foo.example.com/cgi-bin/index.cgi?log={001..999}
して出来たhtmlだけインデックスするのが楽チン。
666名無しさん@お腹いっぱい。:04/06/27 17:23
>>665
その方法だと検索結果のリンク先がおかしくなるんじゃないの?
うお 上げてしまった スマン
ん?なんで?
wget http://foo.example.com/cgi-bin/index.cgi?log={001..999}
だったら ローカルのファイル名は index.cgi?log=001 から999
になるでしょ? mknmzして .namazurcで REPLACE指定するだけ。
>>668
なるほど。
wgetしたら.htmlで保存されると思いこんでた。thx
670名無しさん@お腹いっぱい。:04/06/28 15:32
webprog板のほうに誤爆してしまいました・・・

Perl版Namazuをレン鯖に置いてみましたが、
全角文字で検索すると検索語が”%a5%d0%a5%”みたいな感じで文字化けします。
画面全体が化けるのではなく検索文字列だけが化けています。
もう一回全角で検索すると文字化けが直ります。1回目だけ必ず文字化けします。
何が原因でしょうか?

いろいろ検索してみましたが、1回目だけ文字化けするというエラーはないようです。
すみませんがご教授お願いします。
--html-splitオプションをつけてインデックスを作り、
CGI版から検索をかけると、ヒットした文書のタイトルが、
NMZ.partial.(ここに数字).tmp
というものになってしまうのはなんででしょうか。
nameの値を出すなり、HTMLの<title>を出すなりしたいんですが。
672670:04/06/28 20:22
すみませぬ。とりあえず解決しました。
根本的な解決というか、原因の特定は出来ていませんがきちんと動くようになったので
質問は取り消します。
というか散々悩んだ挙句ここで質問すると必ず自己解決するのがなんとも・・・
スレ汚し失礼しました。

>>671
分かち書きにChasenを使っていませんか?もしそうなら心当たりがあります。
Kakasiだったら分からないですけど。
673671:04/06/28 23:27
>>672
いえ、kakasi使用です。

実は、先ほど解決しました。
アンカーリンクタグをしっかり閉じないと(これ→</a>)、
タイトル:アンカーリンク先という文書タイトルにならない模様_| ̄|○
こんなところではまるとは……
674名無しさん@お腹いっぱい。:04/07/05 03:39
Namazuのデザインで「え?!これがNamazu?」というような
オサレなサイトってありますか?
675初期不良:04/07/11 06:45
18MB の PDF をインデクシングさせようとしたら
may be protectioin と表示されて全然できないので pdf.pl をデバッグしてみました。
とりあえず変数に入っているファイル内容を書き出して pdftotext しているところを
元ファイルを pdftotext するようにして($cont にかかっている前処理がなくなっちゃうけど PDF だから関係なし?)、
それでも動かないので何かと思ったら undef $$cont したら
できるようになった。なんだか知らないけど $$cont に 18MB とか
入れようとしたら system 関数とか open 関数とかファイル関係の
操作ができなくなっている?

やっぱりストリームベースにしないときついところがあるんでつかね。
他のフィルタもでかいファイルになると同様の問題ありそうでつ。
676名無しさん@お腹いっぱい。:04/07/16 10:02
教えて厨ですいません。
namazuが使えるレンタルサーバーを教えてください。
インデックス更新を自動化できるところをキボンしてまつ
共有サーバでインデックスなんて作ってたら追い出されるよ。
専用サーバ借りたら。
678545:04/07/18 10:17
>>677
CPIは手動でインデックスを作るよ
OpenJaneのログをmknmzしようとしてもうまくいかない…
非ASCII文字が入ったディレクトリ名はダメなのか?
text/plainで1行目を見出しとして扱いたいのですが、
フィルタを弄らなくてもよい方法があれば教えてください。
681おねがいします。:04/07/25 22:16
http://www.delegate.org/freyasx/index-ja.html
> FreyaSX is a slightly extended version of Freya.
> Freya is a full-text retrieval engine created by Mr. Masanori Harada years ago.
> FreyaSX is under development by Y. Sato who is the author of DeleGate.
delegateの作者がFreyaを改造中、らしい。
683名無しさん@お腹いっぱい。:04/07/26 05:42
684681 :おねがいします。 :04/07/27 06:18
>>683
テキスト(txt,Doc)の場合は上位フォルダ、html.htmの場合は直接参照する
ようにしたいのですが具体的な置換コマンドを教えてください。
685名無しさん@お腹いっぱい。:04/07/29 08:29
多数ファイルの検索はNamazu、単一ファイルの検索はSufary
っていう理解であってますか。50MBくらいの文献データベース
をweb上で検索公開しようと思うのですが、SQLの使えないサーバ
なので、別の可能性を探ってます。
>>685
そのくらいの規模だったら、多分、grepベースで作った方が楽だし使い勝手もいいよ。
687685:04/07/31 10:24
>>686
ありがトン
てことは、Sufary的な方でしょうかね。
3万件以上あって、著者名とか題名とか出版元とかで
AND/OR検索したいので(インタフェースはperl、php
あたり)、インデックスはつけないと遅くなるし負荷も
相当になりまつから・・・
grep+index=Sufary, Saryってとこでしょうね。
最近2chスレの過去ログ検索サイトを作りました。
>>159あたりの
>1.例えばこのスレの>>124のような疑問に対して検索した場合、>>124
> のレスは見つけられても、その答えを探すのに先を読まなければな
> らない。
これが改善できたらなぁと思ってます。
レスに対するレスを追跡するスクリプトって公開されてないんでしょうか。
>>153にあるサイトのようにできたら本当に便利なんですが、、、
689名無しさん@お腹いっぱい。:04/08/14 01:43
今までnamazuを使っていて普通にインデックス作成出来ていたのですが
またインデックスを作り直そうとコマンドプロンプトで試したところエラーがでました。
環境変数を参照したところ書き換えられていたので
一度、アクティブパールとナマズをアンインストールしてnamazu関連の環境変数も消去し
インストールし直しました。
そしてコマンドプロンプトでnamazu --helpを実行するとヘルプが表示されますが
mknmz --helpを実行しようとすると「mknmzは内部コマンド〜認識されていません」と表示されます。
そしてインデックスを作成しようとしても同様に表示されます。
環境変数のMKNMZRCのパスもきちんと通っており、何が原因なのかわかりません。
どうすればよいのでしょうか?
WINXP、nmz2012、ActivePerl 5.6.1.630 、kakasi-2.3.4を使用しています。
690名無しさん@お腹いっぱい。:04/08/14 01:49
>>689
> set

ITAIJIDICTPATH=C:\kakasi\share\kakasi\itaijidict
KANWADICTPATH=C:\kakasi\share\kakasi\kanwadict
MKNMZRC=C:\namazu\etc\namazu\mknmzrc
NAMAZULOCALEDIR=C:\namazu\share\locale
NAMAZURC=C:\namazu\etc\namazu\namazurc
Path=C:\namazu\bin;C:\kakasi\bin;

ちゃんとあるかどうかチエツク
691689:04/08/14 02:33
>>690
PATHがC:\namazu\bin;C:\Perl\bin\;になっていました。
それ以外はちゃんとありました。
PathをC:\namazu\bin;C:\kakasi\bin;と直してリブートしても同じエラーが表示されます(´・ω・`)
スクリプトいじりすぎて実行中にハングアップした。
1.5G、256MBじゃ力不足なのか。
693692:04/08/14 03:05
誤爆すまんかった_| ̄|○
>>691
とりあえず
C:\namazu\bin\ に CD 移して、mknmz やってみれ。
Path の perl は消すんじゃなくて全部追加ですょ。
695689:04/08/15 00:59
いろいろやってみましたがだめぽでした(´・ω・`)ショボーン
しかたなく予備のノートパソコンに入れたところ、こっちは一発OK……_| ̄|○
やっぱりデスクトップの方はどこかおかしいみたいです。
696名無しさん@お腹いっぱい。:04/08/17 14:26
RedHat9にnamazu-2.0.13をソースからインストールしました。
xpdf(xpdf-japaneseも)とkakasiはRedHatのrpmを、ps2testはソースからいれました。
が、pdfのインデックスを作成する時に、
Unable to convert pdf file (maybe copying protection)
というエラーが出ます。
このエラーは、pdfから日本語を引っ張り出せないときにも出ることがあるエラーだ
と聞きました。
どのへんをチェックしたらヨカでしょう?

よろしくおながいします。
それはnamazuの問題じゃなくてpdftotextの問題じゃないかい?

とりあえず、エラーがでてる対象ファイルを直接
pdftotext -enc EUC-JP in.pdf out.txt
してみる。
698名無しさん@お腹いっぱい。:04/08/17 17:27
696でつ

>>697
Error: Couldn't find unicodeMap file for the 'EUC-JP' encoding
Error: Couldn't get text encoding
と出ますた

いちお、
/usr/share/xpdf/japanese/EUC-JP.unicodeMap
に存在しているんですが....
699名無しさん@お腹いっぱい。:04/08/17 17:44
696でつ。
できました。

/etc/xpdfrcにunicodeMap EUC-JPのくだりを追加したらできました。
namazuでもインデックスを作成できました。
RedHat9のxpdfはrpmで入れると、日本語のsupport packもインストールされるけど、
xpdfrcの記述は中途半端なんですね。

ありがとうございますた。
700名無しさん@お腹いっぱい。:04/08/22 03:24
>>180みたいなことは
pnamazuなら出来るようになっているらしい・・・
参考>http://www.namazu.org/ml/namazu-users-ja/msg03450.html
のですが、どうにもできません。

つか、${summary::size=0} にしたらサマリ消えるじゃんね。
実現できてる方います?
>>700
pNamazu使っているサイト100件くらい回ってきたけど
表示周りをいじっているサイトはちらほらあったが、
要約をマッチした文章前後で表示できているサイトは0だった

本当は実装できていないんじゃない?
ここはできてるが独自改造してるっぽい
http://kanpo.net/cgi-bin/namazu.cgi

動作がちょっと遅れてる感じだし、まんまgrepかけてるんだろうな
Namazu.pm使ってperl CGI書いたら簡単にできるじゃん?
一回に表示するレザルト20件ぐらいなら速度的にもgrepしても問題ないんじゃないかな。
だれか地域検索エンジンNumazu 作って


>>703
問題あるかどうかは
そのサイトの性質と規模と、鯖のスペックと運営方針に拠るだろうからなんとも言えんね。
705名無しさん@お腹いっぱい。:04/08/30 19:35
そういやこないだのgoogleのプログラミングコンテストは
地域検索ができるとかなんとかだったな。
http://internet.watch.impress.co.jp/www/article/2002/0603/google.htm
706名無しさん@お腹いっぱい。:04/08/30 20:36
Word文書や一太郎文書がインデックスに含まれないのですが、
どうしたらいいですか?
できるような話を聞いたことがあるんですが。
707名無しさん@お腹いっぱい。:04/08/30 20:40
>>706
> Word文書や一太郎文書がインデックスに含まれないのですが、
> どうしたらいいですか?

どこに不具合があるのか調べて、Word用フィルタや一太郎用フィルタを
をハックする。
ツカ必要なパッケージはインスコしてあるのか?
709名無しさん@お腹いっぱい。:04/08/31 14:06
namazuはインストールしました。
必要なパッケージというのはプラグインですか?
どこで手にはいるのですか?
>>709
mknmz -Cをここに貼れ。
711名無しさん@お腹いっぱい。:04/08/31 16:21
どぞ。

システム: freebsd
Namazu: 2.0.12
Perl: 5.006001
NKF: module_nkf
KAKASI: module_kakasi
茶筌: module_chasen
わかち書き: module_kakasi
メッセージの言語: ja_JP.eucJP
言語: ja_JP.eucJP
文字コード: euc
CONFDIR: /usr/local/etc/namazu
LIBDIR: /usr/local/share/namazu/pl
FILTERDIR: /usr/local/share/namazu/filter
TEMPLATEDIR: /usr/local/share/namazu/template
対応メディアタイプ:
application/x-bzip2
application/x-compress
application/x-gzip
application/x-rpm
message/news
message/rfc822
text/hnf
text/html
text/html; x-type=mhonarc
text/plain
text/plain; x-type=rfc
text/x-hdml
text/x-roff
712名無しさん@お腹いっぱい。:04/08/31 19:39
>>709
http://www.namazu.org/doc/manual.html#doc-filter
で必需品とされているものをインストール
wvwareではまりたくなければnamazuを 2.0.13にしたほうが良い
html形式のテキストを食べさせると、以下の通り著者が「不明」となります。

1. あqwせdrftgyふじこlp; (スコア: 18)
著者: 不明
日付: Wed, 01 Sep 2004 01:00:00

ここに名前を入れたいんですけど、やり方がさっぱり分かりません。
何かヒントをください。
714706:04/09/02 19:23
>>712
xpdf入れてみたらpdfが使えるようになりました。
他のも入れてみます。

ありがとうございました。
715713:04/09/03 00:03
namazu.org見てたら解決しちゃいますた。
>>688なんですが、どなたかご存知の方いらっしゃいませんか?
自分でスクリプト組めってことなんでしょうか・・・
estraierのスレってないですか?
718名無しさん@お腹いっぱい。:04/09/27 15:04:37
>>717
ないですね、est*のスレは。


719名無しさん:04/10/08 01:12:08
誰か cddb 用のフィルタとか作ってないですかね。
CDDB用のフィルタって?サーバにアクセスすんの?
>>721
いや、ローカルにある cddb ファイルを想定してます。
まぁそのまま text として mknmz でも、単に grep でも事足りるっちゃー足
りるんですけど、既にフィルタがあったりしないかなーと。
なるほどね。ちょっとローカルの.cddb見てみた。しかしこれが検索できても、
そっからdisk再生につながるわけでもないし、意味があるのかわからん。

んでも、簡単なのでフィルタかいてもいいけど、
EXTD=
EXTT[Num]=
PLAYORDER=
の3つがわからん。仕様をおしえてちょ。
>>723
はい、再生には継がんないですね。まぁとりあえずは namazu でスマートに検
索したいな、と。

EXTD: ディスクの拡張データ。空欄もしくは発売年が入ってることが多い。
EXTT[Num]: Num 番目のトラックの拡張データ。ほとんど空欄。偶に歌詞とか入ってるときも。
PLAYORDER: 空欄(のはず)。

いちお正式な仕様としては↓なかんじのようです。
http://www.freedb.org/modules.php?name=Sections&sop=viewarticle&artid=29

自分でも
ttp://www.namazu.org/~kenji/dekiru-namazu-filter.html.ja
は眺めてみたんですが、perl 不自由なもんでちょっと挫折しちまいました orz
 
 
 
 
 
∈《〜゚・_・゚〜》∋ナマズー




∈《〜´∀`〜》∋モナーマズー
726名無しさん@お腹いっぱい。:04/10/18 00:05:02
wgetで取得したときに問題になる%7Eを以下のようにして
回避を試みたんですが、うまく行きませんでした。
どうしたら良いのでしょうか?

.namazurc
Replace /%7E /~
Replace %7E ~

727724:04/10/20 12:35:18
その後 cddb -> html に変換して mknmz すりゃいいことに気付きました。
これなら mp3 とか playlist にリンク張っときゃ再生にも継がるし(゚д゚)ウマー
社内LAN上のファイルをNamazuで検索できるように検討中です。
とりあえず、インデックス作成(Word,Excel,一太郎,pdf)→コマンドライン上で検索
まではできたのですが、ファイルの本文だけしか検索対象になりません。

今まではWindowsのファイル検索で検索していたため、ファイル名にもいろいろ情報が入っているので
ファイル名も本文内容と同様に検索対象にしたいのです。
namazuやmknmzのオプションなど確認しましたが、できそうな方法が見あたりません。
どうしたらよいのか、ご教授お願いいたします。
NMZ.field.*とかつくれば?
Namazu利用者が使う検索ワードをランキングで表示させる事って出来ますか?
731名無しさん@お腹いっぱい。:04/10/23 18:54:41
∈《((((((〜゚;Д;゚〜))))))》∋ ガクガクブルブルガクガクブルブル
>>730
NMZ.slog を適当に加工すればいいんじゃない? 標準でその機能があるかどう
かは知らないけど。
>>731
地震おこすな、ヴォケナマズが
>>730
検索ワードランキング表示するcgiあったよ
ttp://homepage3.nifty.com/cinema1987/data/howto2.htm#log
735730:04/10/24 00:51:24
>>732 >>734
レスthxです。734さんの教えてくれたcgi試してみます。
736728:04/10/24 09:04:21
>>729
uriでフィールド検索すればいいんですね。
やっと気がつきました。
逝ってきます
ChaSenってもう入手不可能?
公式ページ無くなってるよね。
10日ぐらいはアクセスできたけど。

ttp://chasen.naist.jp/hiki/ChaSen/
つかnaist自体アクセスできないからメンテ中じゃないの?
>>740
ナル( ゚д゚)ホド
ミラーあんまりないよね。なんでだろ
ringにミラーされてるけど、あの数じゃ不満?
744名無しさん@お腹いっぱい。:04/10/26 01:27:44
Linux環境で一太郎ファイルを検索対象にされている方はいらっしゃいませんか?
一太郎ファイルのバージョンは出来るだけ対応範囲が広い方がいいのですが。

あきらめてWindowsでするしかないですかね?

>>744
既に臼田さんが作ったフィルタが取り込まれているだろ。
747名無しさん@お腹いっぱい。:04/10/26 08:09:27
>>745 さん
>>746 さん

doccatも必要ないのですね。
レスありがとうございます。
早速試してみますね

 
   ∧ ∧__    イラナイノ。。。?
  /(*゚−゚)/)/\ 
/| ̄∪∪ ̄|\/ 
  |      |/     
   ̄ ̄ ̄ ̄
749747:04/10/26 09:04:47
>>746さん 

番号間違えてすみません
urlまで教えていただいてありがとうございます。

mknmz にフィルタの設置場所を追加するにはどうすればいいのでしょうか。
自作のフィルタを /usr/local/share/namazu/filter に置いたのですが
mknmz -C すると

FILTERDIR: /usr/share/namazu/filter

となり対応メディアタイプにも出てきません。/usr/share/namazu/filter に
置けば認識してはくれるのですが自作のちょっとしたフィルタなので local
側に置きたいです。
環境は Debian woody で namazu はパッケージのを入れています。
$FILTERDIR = "/usr/local/share/namazu/filter";
752名無しさん@お腹いっぱい。:04/11/01 19:59:19
namazuって、開発コミュニティ健在なの?
>>751
サンクス。.mknmzrc でそう設定すりゃいいってことね。

ところで FILTERDIR に複数のディレクトリを指定することって出来る?
できん。
出来ると便利だし、改造も簡単そうに思えるけど、
ただでさえ、結構ぐちゃぐちゃしてるコードに
余計なものを追加するのはうれしくなさゲ。あきらめてくだされ。
>>754
やっぱり駄目なのか。出来てもよさそうだけどね。どーもでした。

結局ファイルは local に置いて /usr/share/namazu/filter からシムリンク
張ることにしました。
756名無しさん@お腹いっぱい。:04/11/09 07:53:50
世界規模ソースコード検索エンジン中間報告
http://namazu.org/~satoru/pub/mito2004i/

W哲が揃い踏みですな。
757ヽ( ・∀・)ノ イエーイ:04/11/09 23:37:03
凄いプロジェクトだ
12月号のUNIXUSERで見たんだけど
namazuを使った Samba findfile てのがあるのね
MIRACLE以外でも使えるのかな
>>756
Koders.com:(オープン)ソースコードの高速検索
http://japan.linux.com/opensource/04/11/10/0215245.shtml

なんちゅうか、まぁ、タイミングやね。
>>759
それはオープンソースじゃないでしょ?
ならばこのプロジェクトの意義はあまり減らないかな。
スライドを観た印象ではアマチュアプログラマ臭いところは相変わらずだけど。
アマチュアでも経験を積めばプロになれるよ。
今のプロも元々アマチュアだったんだから。
経験を糧に出来る人はね。彼の場合は自分が楽だからという理由だけで
cvs logをつけない人だから、比較的大きめのプロジェクトを率いたり、
他人のプロジェクトに参加したりというのには向いていないと思う。
また、Luceneのような再利用を前提とした緻密なプロダクトは作れない
だろうし、おそらく本人もそういうものを作りたいとは思っていない
だろう。
(´-`).。oO(そういうものかな・・・?)
est*のスレ立てようよ。結構使ってる人いるっしょ。
>>760
kodersがオープンソースにならないことを祈るしかないよね。
インタビューを読む限りは商売を考えているみたいだが、
オープンソースにも理解があるみたいだし。

koders.comで検索してみるにつけ、本当に便利なものだなと感服。
ほんと、タイミングだよね。 >>759
namazu なんですが、kakasi でも chasen でも日本語構文解析が
あまり賢くないというか、専門用語が沢山でてくるうちのサイトの場合
うまくキーワードで切り分けてくれないことが多い、と。それで辞書を
強化すればよいのかも知れないけど面倒だ、と。で、今はgoogle のサイト
検索のほうがまし、ということでそれで凌いでます。が、当たり前だけど
これだと公開webのほうしかindexも検索もされません罠。部内ネット
専用のwebの検索のためにはnamazuしかない、と。ここらへん皆さん
どうやって対処されてます?ちなみに、うちは物理、機械工学系です。
>>766
専門の辞書をコンバートして使うのが普通じゃないかな?馬場さんのところに
フリーな辞書の一覧があったはず。(あまりメンテされてないけど)

LuceneとかEstraierの場合はN-gramなanalyzerも使えたっけ。
タイミングっていっても、当たり前でしょ。
技術の発展や潜在的ニーズから、似たような時期に世界中で複数の人が
同じような発想をもち、そのなかでまた実装に動く人も複数いるわけです。
あとは時間の問題。

やれば面白そうだと思い付いたものがほっといたら3〜4年後にあちこちから出てきた、
という経験が誰しも沢山あるでしょ?
>>764
さんせい。うちからはたてられない。誰かたてて。
770名無しさん@お腹いっぱい。:04/11/11 18:51:33
est*は、もっと馴染みのある名前をつけていたらもっと使われていたはず。
est*はライブラリになっていて非ファイルのインデクシングに対応していれば
よかったんだけど。
est*は結局なんて読むんだ?
ええとわーる
たしかフランス語だけど死語だったんだっけ?
>>764
立てるのはいいと思うけど、UNIX板でいいのか?
Linux板とかソフトウェア板もあるけど。
>>775
Linux以外でも動くから、UNIX板でいいんじゃない?
Windows版はCygwin必須だから結局UNIXみたいなもんだし。
777775:04/11/12 10:09:42
>>776
了解。UNIX板に立てたよ。

全文検索エンジンEstraier
http://pc5.2ch.net/test/read.cgi/unix/1100221699/
>>777
乙です。
779名無しさん@お腹いっぱい。:04/11/13 08:02:35
namazuのコミュニティってどうなってるの?
木端微塵になってそれっきり?
FreeWnn化した。













orz
>>780
ごめん
どいうこと??
>>781
activityが極度に下がる現象を指す。
ちなみにFreeWnnはその行動の遅さからFreeWnn日という単位まで生まれた。
ネグポン、という単位もあったな。
解説plz
解脱plz
解説も何も見たまんまだと思うけど…

さすがにFreewnnと比較するのは酷だと思うが、最近の動向を見ると目立った
変更点は文書フィルタの追加とMeCabへの対応と非ファイルのインデクシング
対応への着手とインデックスのUTF-8化の着手くらいか。バグ修正は地道に
行われてはいるが、リファクタリングは進んでいない。開発者の関心はもはや
文書フィルタだけなのかなという気さえする。

FreeWnnについてはFreeWnnスレを参照のこと。こっちはずっとひどいことに
なってるw
http://pc5.2ch.net/test/read.cgi/unix/1084551838/
787786:04/11/14 11:00:49
まあ開発者の名誉のために言っておくと、優れた検索エンジンを作るのは
難しいことだし、自然言語処理が絡んでくると倍率ドン、さらに倍という
感じで難しくなるので、停滞するのも無理はないかなと。
オス。おいらダメSE。
ちょっと思いつきで提言してみるよ。
検索エンジン部分だけ設計して、DB部分はSQLで組んだらどうよ?
CORBAみたいなJavaとかPERLの為のインターフェースあるし。
大幅に開発コスト削減できるかも知れないよ。
>>788 遅くなるから却下
>>788
RDBMSベースの検索エンジンならmnoGoSearchとかいろいろあるけど。
つーか、MySQLや最近のPostgreSQLには全文検索機能ついてるやん。
トークナイザーをどうするかが問題だけど。
791名無しさん@お腹いっぱい。:04/11/14 18:49:21
>>787
開発者たちを侮辱するのはやめましょう。
難しいのは本当の話だが。
そもそも辞書がSKKベースである限りは
それほど手の込んだ自然言語処理は出来ないと思われ。
使ったことないんだけど Chasen は SKK 辞書は使ってないんだよね?
795名無しさん@お腹いっぱい。:04/11/14 23:53:38
>>790
まぁ、そうなんだけど、ファイル読み込みのサポートモジュールと
DB作成モジュールとnamazu流の呼び出しモジュールを実装すれば
良いんじゃないかなぁ。
DBとのやりとりのオーバーヘッドはあるかもしれないけどね。

あー。そうなると実装は全面改装か。
使えるのは出力ルーチンとファイルサポートモジュール部分と
構文解析くらいか。DB設計も基本的にやり直しだ。
>>794
SKK辞書を拝借してるのはKAKASIの話。ChaSenやMeCabはipadicを使う。
ただ、ライセンスがあやしいのでDebian方面ではcannadicから変換する
ツールを使っているみたいだけど。詳しいことは漏れはよく知らんので
knokさんにでも訊いてくれ。
ipadicにしても格支配等の情報は持っとらんからのお

世の中には税金で作った共起情報等満載の語彙目録も
ちゃんと存在しておるというのに、
有償かつライセンスきつくて使えんというのは嘆かわしい話だよもん
798名無しさん@お腹いっぱい。:04/11/18 10:55:09
>>796
ttp://chasen.org/~taku/diary/2004-11-17.html#2004-11-17-1
> ipadic は ICOT の条項があって OSD 準拠ではない!
> debian に入れられない! とさんざん叩かれてきましたが, なんとかなりそうです.

ヤター!
799名無しさん@お腹いっぱい。:04/11/30 00:21:06
微妙にスレ違いな気もするけど、gonzui出たよ。
http://namazu.org/~satoru/gonzui/
ctagsやcscopeの類とどう違うのと
微妙でなくスレ違いと思いつつ訊いてみる
>>800
http://koders.com/
のようなものかと。ctagsというよりはむしろlxrに近いかな。
803名無しさん@お腹いっぱい。:04/12/01 01:45:41
教えてください。2003年7月にソフトバンクから発売されたnamzu本
ですが、説明に利用されているnamazuのバージョンはなんでしょうか?
自宅近く・通勤路にある書店で探しても見当たらないので、教えてください。
804名無しさん@お腹いっぱい。:04/12/01 01:56:18
All About Namzu
>>803
2003年ぐらいなら今と同じ2.0.x系じゃないかな?
改訂前のしか持っていないのでよくわからんけど。
806名無しさん@お腹いっぱい。:04/12/01 22:05:29
803です。
さんくすです。>>805
ネットでオーダーしちゃお。
807名無しさん@お腹いっぱい。:04/12/02 21:11:57
namazuでも,別のツールでも良いのですが,
文字列間の近似度を単語の出現頻度より,計算するツールはないでしょうか?
文字列といっても,せいぜい10文字以内の単語より形成される文字列間の
近似度を測定します.研究用に使おうと思っているのですが,
いいのないかなあ,と考えています.
近似度測定アルゴリズムとしては,単語の頻度によるベクトル空間手法
を使っているツールを探しています.
スコアリングにTF/IDFは使わず,単にTFのみでよい,というか
そうでないと困ります.
よろしくお願いします.
808807:04/12/02 21:12:51
あと,UNIX板できくのも悪いのですが,WINDOWSで動くツールを求めています.
お願いします.
809807:04/12/02 21:17:09
NAMAZUでなぜいけないかと思ったかというと,
Namazuでは,文書集合のインデックスに対してキーワードを与え検索しないと
いけないです.今回は,文字列集合と文字列集合を,文字列にかんしてたすきがけ
で近似度を計算させたいというのがあります.
また,NAMAZUでは,結果がランキングされたものしか入らず近似度がでないという
のがあります.また,高度なスコアリングを行っているのですが,
今回の実験では,単純なtf(単語の頻度)情報のみによるスコアリング
である必要があると考えています.
よろしくお願いします.
810222:04/12/02 21:20:33
何回もいろんなもの検索していくと検索欄に検索した言葉がたまっていくんですが、それはどうやって消去すればいいんですか?
811807:04/12/02 21:33:40
namazuのホームページで再確認してみましたが,
SIMPLEという設定にする事で,TF法のみ(単語頻度)のみの
検索は出来るようですが,
やはり,
文字列間の近似度を出すオプションは無いようにみえました.
GETAというツールですと,近似度は出せるのですが,Windowsで
使えないですし.
やろうとしている事は,NamazuやGETAよりも難しくなく
むしろだいぶ簡単なんですが,自分で実装するのは,骨が
折れる気がします.
何かいいツールを教えてください.
よろしくお願いします.
estraier
>>811
Perl か何かで書けばそんなに難しくないと思う。
実行時間はやたらかかると思うが。
814807:04/12/03 15:16:19
>>812
estraierちょっと調べてみました.
確かに,スコア表示がされるみたいですね.
また,cygwin経由ですが,Windowsで動くっぽいです.
ちょっと不安なのが,スコアリングのアルゴリズムが
複雑っぽいことです.TF/IDFは切る事ができるみたいですが.
単純な単語頻度のみのマッチングを行いたいので,その部分が
不安です.
もっとかるーいソフトは無いかなあ?

>>813
単語に対し,インデックスを作って,ベクトル表現する
ところがどうやったらいいのか,プログラム経験の
薄い自分には自身がないです.対象として出て来る単語を
要素とする長いベクトルが出来そうですが.
ツールがあれば一番嬉しいのですが..
最終手段としてやり方を調べてみます.
815807:04/12/03 15:39:08
>>812
estraierちょっと調べてみました.
確かに,スコア表示がされるみたいですね.
また,cygwin経由ですが,Windowsで動くっぽいです.
ちょっと不安なのが,スコアリングのアルゴリズムが
複雑っぽいことです.TF/IDFは切る事ができるみたいですが.
単純な単語頻度のみのマッチングを行いたいので,その部分が
不安です.
もっとかるーいソフトは無いかなあ?

>>813
単語に対し,インデックスを作って,ベクトル表現する
ところがどうやったらいいのか,プログラム経験の
薄い自分には自身がないです.対象として出て来る単語を
要素とする長いベクトルが出来そうですが.
ツールがあれば一番嬉しいのですが..
最終手段としてやり方を調べてみます.
816名無しさん@お腹いっぱい。:04/12/04 10:16:48
age
>>815
Webで調べるより、自然言語処理の本を読んだ方がいいかも。
自然言語処理ってより情報検索だろ。
自然言語処理はわかち書きできるツール(茶筅とかmecabとか)の使い方さえ
知ればいい。
>>815
近似度の出し方は?
共通する単語の tf をかけたものの総和みたいな適当なやつであれば
1. chasen で単語に切り分ける
2. ハッシュを使って tf を出す
3. ハッシュを配列にする(tf を大きさとしたベクトル列)
4. 二重ループで計算
くらいで済む。
>>819
その方法だと、文章が長いほど得点が高くなりやすいね。
共通語の比率(共通語のTFの和をその文書の総語数で割る)の方がマシかも。
もっと精度を求めるなら、やはりベクトル演算がお薦め。
namazuって、eucやjis,UTF-8なんかのテキストファイルをまとめてindex作ってくれるんでしょうか?
Shift_JIS,EUC-JP,ISO-2022-JP は混在してても問題ない。ただしNKF依存。
UnicodeはSTABLEではだめ。CVS HEAD では 5.8 以上決め打ちでuse Encodeしてるんっだっけか。

便乗質問。
namazu.cgiには普通eucのHTMLを出させると思うけど、
これjis(iso-2022-jp)とかUTF-8とかで出させられる?

.namazurcにLANG ja_JP.ISO-2022-JPとか指定してみたさ。
大体はうごいてjisのHTML出力してくれるんだけどね。
「商品」とかを検索すると真っ白な空ページが出力されるんだけど。
ja_JP.EUCだと「商品」もちゃんと検索結果が出てくるから不思議。
>>822
nkfを新しくすればリリース版でutf-8テキストの処理もできるよ
http://www.namazu.org/FAQ.html#utf-8
>>823
gettextの問題(2.0リリース当時。今のは知らん)で、メッセージカタログに
用意されてるのはja_JP.S_JIS.poとja.po(EUC)だけ。
826名無しさん@お腹いっぱい。:04/12/06 14:53:44
かかしの辞書作りました。110万語くらいあります。
需要ありますか。自分では数多いと思うんですが。
>>823
ISO-2022-JPはダメ。XPG4DLが取り込まれたNetBSD 1.6以降にはISO-2022-JP
なlocaleがあるけど、内部でワイド文字列にしないときちんと取り扱えない
と思う。

UTF-8は日本語のテンプレートのencoding変換がUTF-8に未対応だったと思う。
moの方はlibintlがiconvによるencoding変換をサポートしていればOK。

>>825
というわけでちょっと違う。つか、ja_JP.SJIS.poはもう要らんだろ。
>>826
あるあるあるある
ライセンス的に後ろ暗いのはあれなのでそこらへんよろ
>>826
urlのアップ、どうかよろしくおながいします。
831名無しさん@お腹いっぱい。:04/12/07 15:00:00
kakasiが遅いのって、辞書検索部分がボトルネック?
kakasiに辞書検索以外の何があるのかと
833名無しさん@お腹いっぱい。:04/12/07 21:26:24
namazuforwindowsで.namazurcのreplaceの設定が上手く出来ず困っています
何か解決の糸口が頂けないものかと・・・・

環境 Windows2000サーバー、IIS、namazu、kakasi、namazu.cgi.exe

replaceの設定をしなければ、リンク対象が以下のようになります
/c|Inetpub/wwwroot/ディレクトリ/ファイル名

これを以下のように変更したくて
http://サーバー名/ディレクトリ名

こう設定すると
replace /c|Inetpub/wwwroot/ http://サーバー名/ディレクトリ名

結果は、以下のように余計な /| が付加されてしまいます
http://サーバー名/ディレクトリ名/|/ファイル名
834833:04/12/08 11:07:16
勝手に解決しますた
スレ汚しで申し訳ありません

replace/c\|/Inetpub/wwwroot http://サーバー名
debian sarge ppc で mknmzを実行すると
固まり困っています。

調べてみたところどうも漢字があると固まるようです。


テキストの中身が

 momo
 もも
 モモ
 桃

はNG。

 momo
 もも
 モモ

はOKになります。
sjisでもeucでも同様の結果です。

namazu2、namazu2-index-tools、libfile-mmagic
kakasi、kakasi-dic、 libtext-kakasi-perl
は何度も入れなおしたけど駄目のようです。
nkfは単体での動作は問題ありません。

このような症状の方いますでしょうか。
>>835

デバックモードの結果から抜粋

// 対象ファイル: /home/user/public_html/test.txt
// 検出されたタイプ: text/plain
// pre_codeconv
// load_document 実行後: /home/user/public_html/test.txt: 18, 18, 10, text/plain
1/1 - /home/user/public_html/test.txt [text/plain]
// Field: summary: momo もも モモ 桃
// Field: from: 不明
// Field: date: Fri, 10 Dec 2004 02:37:00
// Field: title: test.txt
// Field: size: 18
中略
// tmpnam: index/NMZ.field.summary.tmp
// tmpnam: index/NMZ.field.summary.i.tmp
// tmpnam: index/NMZ.field.size.tmp
// tmpnam: index/NMZ.field.size.i.tmp

   ここでとまります。

826 マーダー?(・∀・)っ/凵⌒☆ チソチソ
>>826
この作者さんでしょ。
http://palm.nishinari.or.jp/namazu.cgi
839826:04/12/11 12:21:49
http://up.haiiro.info/
575.zip
今、変換したばかりで動作確認してないですが。
テキストだと110万あるんですが辞書に変換すると少なくなってます。

>>838
関係ないです。
840826:04/12/11 12:59:13
ライセンスを確認してない(出所がわからない)ものを含んでいるのですが。
うpは止めた方がいいですかね?
ネットでダウンした単語リストや文書から抽出したものや、
自分で登録したものなど色々混じっているんですが。
一端、839は消します。
うおっ、うp短か杉 orz


EδRからごっそり、とかいうのだとマズイけど
特定のリソースに大きく依存してなければ、言い換えれば
不特定多数のリソースから広く抜き出したものと言えるのなら
そう書いた上で自分のライセンスにするのは問題ないと思うよ。

語彙集の編集には著作権が発生するけど語そのものには発生しないから。
842826:04/12/11 14:42:39
>>841
>特定のリソースに大きく依存してなければ

そうですか。それならば問題ないかと思うので再びぅp。でも24:00までには消します。
http://up.haiiro.info/
581.zip
パスワード訊かれまつ。教えてくだされおながいしまつ
あ、パスわかった
株ファイルってどやって解凍するんだっけ。
凍死家に訊け
「凍死家」に子一時間(00)
ググった方が早かったわ。
なるほど、舊假名に滅法強いんだな。
838の言う通りらすぃ。
849826:04/12/12 00:26:31
今頃ですが、動作確認したのですが上でアップした辞書は
作成に失敗しているようです。ちゃんと切り出せないです。
自分の環境はWindowsXPなのですが。
850826:04/12/12 00:35:29
もう一度、ぅp。今度はまともに動きました。
http://up.haiiro.info/
605.zip
パスはメールのとこ。
もう消えてるよ。
はやっ
IPADICライセンス*問題*の誤解
http://aniki.daionet.gr.jp/~knok/wiliki/wiliki.cgi?IPADIC%e3%83%a9%e3%82%a4%e3%82%bb%e3%83%b3%e3%82%b9*%e5%95%8f%e9%a1%8c*%e3%81%ae%e8%aa%a4%e8%a7%a3&l=jp

もっと早くこれを出していればよかったのに…
ライセンスには問題が云々って話は再三繰り返すのに、肝心の何が問題なのか
という点に関して言及するケースがきわめて少ないことが誤解を広める一番の
要因ではないかと思うのだが。
うpろだ混んでて落とせないうちに消えたー。
もっかいうpしてー。頼むー。
855826:04/12/14 06:00:37
>>854
動作確認済みですどうぞ。前より数増えてます。
www.fileup.org [fup3569.zip]
syobon.zive.net/upload/upload.html [syobon15220.zip]
どちらも同じです。
856826:04/12/14 06:12:03
文字コードをEUC、改行コードをUNIX用(改行=LF)に統一しないとうまく動かないんですね。
知らずにそれ以外の改行コード入ったまま辞書に変換してました。
855はちゃんと変換してあります。
ただ、ネットで見つけた単語リストを(加工して)次々に登録しているため
出所がよく分からないものが混じってますが。
>>856
お世話になっております。
Namazu2.0.13を使用しております。

現在の所
/HOGE/faq/内
/HOGE/faq/fuga1内
/HOGE/faq/fuga2内
/HOGE/faq/fuga3内のHTMLを検索しています。
しかしユーザーから
/HOGE/faq/にあるHTMLは検索対象外にして欲しいとの要望を受けております。
(/HOGE/faq/fuga1 fuga2 fuga3内のHTMLは検索して欲しいとの事)

どのようにするのが良いのでしょうか?

configファイルの
--------------------------------
# NOTE: Usually specified by --exclude=regex option.
#
# $EXCLUDE_PATH = undef;
--------------------------------
の部分が怪しいと思っているのですが
何か情報をお持ちな方はご教授いただけますとありがたいです。
859名無しさん@お腹いっぱい。:04/12/14 18:13:30
その3つのディレクトリごとにインデックス作ればいいじゃん。
860858:04/12/15 10:43:22
>859さん
RESありがとうございます。

えーっと上記の例では3つしか書いていませんが現在の所8個あり
ユーザーによると今後増える可能性があるとの事なので
ディレクトリごとにインデックス作成する方法ではなく
指定したディレクトリだけ検索対象外にする方法が良いと思っております。
861名無しさん@お腹いっぱい。:04/12/15 14:11:54
Namazu 2.0.14リリース

タブ(%09)から始まる検索文字列によるXSS脆弱性を修正。
http://www.namazu.org/security.html#xss-tab

2.0.13以前での回避策も示されているので速やかに対応すべし。
断る
回避策って何か間違ってない?
shのwrapper作る方を試してるけど、

$ export QUERY_STRING
$ export SCRIPT_NAME
$ QUERY_STRING="HELP"
$ SCRIPT_NAME="...."
$ namazu.cgi  # webにかいてあったsh wrapperのやつ。

とか対話的にテストしてみたけど、
Content-type: text/html

という2行しか出ないよ。(何か出てくるということは実行自体はできてる)
2.0.13使ってます。
864名無しさん@お腹いっぱい。:04/12/15 21:08:25
win32 の方、インストーラーじゃなくって
(せめて解凍出来るやつがいい)
前みたいにバッチファイルにしてほしいょ…
>>858
/HOGE/faq/fuga{1..9}/があったとして
fuga{1..3} 以外を除外したいなら
mknmz /HOGE/faq/ --exclude="fuga[4-9]"
でいいんじゃないの?
866名無しさん@お腹いっぱい。:04/12/15 23:53:17
ttp://slashdot.jp/article.pl?sid=04/12/15/1218217






        早        く        止        め        ろ        !







まだ枯れ切ってなかったのね
>>867
コードが泥縄だからまだボロボロ出てくるんじゃないか?
根本的に書き直すしかないと思われ。
869名無しさん@お腹いっぱい。:04/12/16 11:18:39
わかち書きで 東京都→東京+都 なのか 東+京都 なのか。
870名無しさん@お腹いっぱい。:04/12/16 11:29:17
今 Debian の kakasi で「東京都西京都」ってのをわかち書きしてみたら、
「東京都 西京 都」にわかれた。これって、「東京」や「京都」では
検索できないってこと?
871名無しさん@お腹いっぱい。:04/12/16 11:32:28
chasen だとこんな感じ
東京 トウキョウ 東京 名詞-固有名詞-地域-一般
都 ト 都 名詞-接尾-地域
西京 ニシギョウ 西京 名詞-固有名詞-地域-一般
都 ト 都 名詞-接尾-地域
872名無しさん@お腹いっぱい。:04/12/16 12:17:10
もう、1文字毎に分ければいいやん。
873名無しさん@お腹いっぱい。:04/12/16 12:21:59
やだ!
つか、「東京都西京都」なんて人間でもわかち書きできなくね?

870が文句言ってるということは
「ひがし・きょうと・にし・きょうと」のつもりだったのかなと推測するくらいで。
>>872
そこでN-gramですよ。
Namazu が この 先生 きのこる には ?
暴 力二 男
878名無しさん@お腹いっぱい。:04/12/16 12:55:47
じゃあ、kakasiとmecabとchasenで分けてミックスすりゃいいじゃん。

「可能な分け方すべて」を出すようにするとかさ。
ミックスするのは猿にでもできる。
各出力をどうスコアリングするかが腕の見せ所なわけで。
N-gramのNをどうするかも見せ所ですな。
みせどころっちゅーか、結局はパラメータ変えて実験しないと。
882863:04/12/16 17:31:55
XSSの回避のためにwrapper通したら動かなくなった原因がわかった。>>863
cgiのバイナリと一緒に.namazu.cgiも連れて行かないといけないのね。

俺みたいな厨も使ってんだからさ、そうならそうと一言書いておいてくれよ orz
883863:04/12/16 17:32:48
orz
.namazu.rcな。
orz
884863:04/12/16 17:40:57
ていうか、「namazu.cgi及び.namazurcを」って思いっきり書いてあるじゃんか!

逆切れした、ウワワーンもう使わねえヨ!のAA省略
首吊りAA省略
885858:04/12/16 18:18:13
>865 さん
えーっとそういう訳ではないです。分かりづらくてスイマセン。
ディレクトリ
/HOGE/faq/
/HOGE/faq/fuga1/
/HOGE/faq/fuga2/
/HOGE/faq/fuga3/
内にそれぞれHTMLファイルがあって
「/HOGE/faq/」内のHTMLだけ検索対象外にしたいのです、、、

どなたか情報をお持ちな方はご教授願えますようお願いいたします。

割り込み失礼いたしました。
N-gram の N は現実問題として 2,3 より大きくできるの?
Oracle Textは3より大きいNも使ってる模様。
>>885
ファイルの指定をnknmzにやらせるんじゃなくて
find(+必要なら簡単なフィルタ) でファイルのリスト作ってパイプでmknmzに流し込むとか…
(昔シンボリックリンクを辿ってくれなくてこうした記憶がある)。
ちょっと違うが、http://www.namazu.org/ml/namazu-users-ja/msg03306.html は参考にならんか?
あのぅ
>>855の辞書もう一度公開していただくわけには行かないでしょうか…
891821:04/12/19 00:50:13
>>822-825
>>827
情報thxです。
892名無しさん@お腹いっぱい。:04/12/25 21:23:28
マージ高速化できませんかね
perl2exeで実行ファイルにしてみたんですけど
少しは早くなった気はするんですが
劇的な変化はないです。
早くできないですか?
Cで書き直せば?
894名無しさん@お腹いっぱい。:04/12/26 02:38:20
>>893
おながいします
mecabを使ってみるとか。
マージ高速化とわかち書きツールにどういう関係が?
897名無しさん@お腹いっぱい。:04/12/27 12:18:13
>>893
> Cで書き直せば?

それでどうにかなるボトルネックだとも思えんが。
だから、なんでもCにすれば速くなるって思ってんじゃないの?
そもそもperl のボトルネックは起動時のオーバーヘッドが殆どだから
CGIなど、短時間で処理を終えたいものはCで書き直せば速くなることもあるけど
mknmzのように、長時間内部にでっかい配列作ってアレコレするタイプの処理だと
Cに書き直しても、起動が速くなるだけで、処理時間が目に見えて速くるわけがない
高速化にはアルゴリズムやインデクス構造の見直ししかないよね。
極端なこと言えば、namazuをゼロから書き直すしかないって話。

何年か前に高林さんがそんなことをやるなんて言ってたけど、本人自体
今はnamazu使ってないみたいだし、開発者でもなくなっちゃったし。

opengl/usuあたりが頑張って一から書きなおしたりはしないんだろうねぇ。。。
つ〜か、nmzmergeって、アドホックな実装じゃないのか?
ちゃんと書けばもっと早くなるだろう。
> そもそもperl のボトルネックは起動時のオーバーヘッドが殆どだから
Larryはすごいなあ。
>>898
たしかに100倍は速くならないが、2倍や5倍や10倍に速くなりはするんだけどな。
あとCだとbindingさえ書けばいろんな言語から利用できるという利点もあるな。
まあ今だと.NET CLIもあるけどな。
903名無しさん@お腹いっぱい。:04/12/27 14:06:02
>>902
べつにいまのままでもいろんな言語から利用できるが。
>>903
外部コマンド呼び出しじゃなくてライブラリの話だが。
905名無しさん@お腹いっぱい。:04/12/27 15:04:37
ソート済みのファイルを合併するだけなら
ほぼコピーに掛かる転送時間くらいしか掛からない気がするけどなぁ
906名無しさん@お腹いっぱい。:04/12/27 15:09:01
>>905
あいにく、この世はおまえの「気がする」に則ってないもんでな。
>>904
> 外部コマンド呼び出しじゃなくてライブラリの話だが。

うそだな。>>901は、外部コマンド呼び出しかライブラリかの話ではなく、
色々な言語から利用できるか出来ないかという話だ。
909名無しさん@お腹いっぱい。:04/12/28 00:27:37
頭に血が昇るとバカなミスをやらかすという実例。
910名無しさん@お腹いっぱい。:04/12/30 02:22:24
--replace="s#\/[^/]*\.pdf##;"
上位フォルダを表示させるためこういうのを考えたんですが
表示させるときには使えませんか?
表示のときにはリプレイスされないんですが。
911名無しさん@お腹いっぱい。:04/12/30 22:21:46
他サーバーのインデックスを使って検索できませんでしょうか?
むかし Distributed namazuってのがあったな、そういえば。
>>911
Windowsだったら、どっかの共有フォルダのインデックスをリモートで参照するんじゃん駄目?
Unixは知らん。
>>913 それでいいんなら NFSマウントして。。。
そういえばknokさんの日記にharvestの話が出ていたような気がするけど。

http://harvest.sourceforge.net/
>>910
表示させるときというのは、mknmzの--replaceオプションを
namazuコマンドでも使えないかということ?namazuには
--replaceはないけど、同等なことはできます。
namazurcの中にReplaceという指示をかけばいいの。

Replace (.*)/[^/]*$ \1
という一行をnamazurcに書いておくと、
表示結果(たとえば/usr/local/doc/x.pdf)にこの正規表現が適用されて、
/usr/local/docというディレクトリ名だけが出てくんのよ。

man namazuの-Rも参考にしてね。
917名無しさん@お腹いっぱい。:04/12/31 13:22:45
>>916
ありがd!!!
助かりました!
918名無しさん@お腹いっぱい。:05/01/05 16:38:20
お世話になっております。
複数のディレクトリを検索対象にしたいのですがその方法がわかりません。
どのように表記すればよろしいのでしょうか?

今現在は
「hoge.sh」--------------------------------

setenv LANG ja_JP.eucJP
/bin/rm -f /usr/share/namazu/index/NMZ.lock*
/usr/bin/mknmz --replace='s#/misc/ihome/ttrr/html/Design/faq/#http://www.fugafuga.co.jp/~ttrr/Design/faq/#' \
--output-dir=/usr/share/namazu/index/ \
--config=/etc/namazu/mknmzrc.fuga /misc/ihome/ttrr/html/Design/faq/

--------------------------------
というスクリプトをcronで深夜に動作させています。

追加で
/misc/ihome/mmtt/html/内も検索して欲しいと要望を受けたのですが
表記方法が分かりません。

どなたかご教授いただけますとありがたいです。
Namazuのバージョンは 2.0.13を利用しております。
>>918
まずは 2.0.14 にしましょう。
で、複数ディレクトリを指定したいならばそれぞれを列挙すればいいだけですっ
つーかドキュメントを読みましょう。
920918:05/01/06 12:10:17
>919さん
RESありがとうございます。
大変失礼で申し訳ないのですが
ドキュメントとはどちらに表記してありますのでしょうか?

お教えいただけますとありがたいです。
ドキュメントの在りかすら、わからないなら、使うなよ。
って切り捨てるだけじゃかわいそうなので
mknmz --help してみれ。
どうやって入れたのかわからないけど、

/usr/local/share/namazu/doc/ja/manual.html

とか無いの? >>920
923名無しさん@お腹いっぱい。:05/01/06 19:03:58
以前、「ドキュメント」の意味を知らなかったやつに
遭遇したことがある。
>>923
へぇ〜。
すごいね。

さらに全文検索エンジンが欲しいとか言い出したら「神」だよな。w
>>924
どこに書いてあるのか分からない(探せない)から全文検索したい、とか。
926918:05/01/07 10:07:48
mknmz --helpを見てみると
使い方: mknmz [オプション] <対象>...
のところで複数対象が表記出来るみたいだったので
検索対象を列挙すればよいだけだったのですね、、、

解決いたしました。
どうもありがとうございます。
927名無しさん@お腹いっぱい。:05/01/10 23:34:49
kakasiがやっているのと逆に,
カナだけからなる文書を漢字カナ混じり文に一括変換するプログラムって,
ご存知ないですか?

928名無しさん@お腹いっぱい。:05/01/10 23:39:34
>>927
Wnnの逆変換機能とか。
929名無しさん@お腹いっぱい。:05/01/10 23:40:46
>>928
> Wnnの逆変換機能とか。

ちがうちがう。一括変換機能だな(恥
930427:05/01/11 00:35:33
漢字カナ混じり文にしたくて「カナ漢字変換」っていうキーワードで
google検索とかにかけると,AtokとかWnnが引っかかってきてしまう.
kakasiみたいにフィルタ的に使えるプログラムが欲しいんですよね.
そもそもSKKの逆をやってるのがkakasiじゃん。名前だってSKKの逆読みだし。
まあそれはさておき、一つの単語に対して複数の変換候補があり得るのだが
その取り扱いはどうするのだ?それ以前に単語の区切りも適切に行う必要も
あるのだが。
932名無しさん@お腹いっぱい。:05/01/11 01:10:15
>>930
仮名 -> 仮名漢字のときは、多数の候補が出るので
Wnnの一括変換も、候補表示確定待ち状態になるだけ。

可能な変換例をすべて/可能性が高い方を出力するフィルタも面白かもね。

933名無しさん@お腹いっぱい。:05/01/11 23:05:33
932で言ってるみたいなフィルタって,
もしかして,ない?
「自然言語理解 かな漢字変換」
でぐぐってみな。みんな、どんなに苦労しているか良く分かる。
「音声理解」
なんか付け加えてみてもいい。
「自然言語処理」になると、ちょっとニュアンスが変わって来る。
935名無しさん@お腹いっぱい。:05/01/14 16:21:28
既出だったらすみません。
win server 2003
Active Perl 5.6.1
Kakasi 2.3.4
をインストールしたあとに、Namazuをインストールしようと
すると、Error.txtが立ち上がり
・perl.exeがみつからないか、古い
・AutoExec.batの読み込み・書き込みができなかった
・Registryのシステム環境変数のよみこみ・書き込みができなかった

のどれかの原因で環境の設定ができません。

との内容がでます。以前、Win2000で設定したときは、何事もなく
進んだのですが、同様のエラーにあわれたかたはいらっさいます
でしょうか?

乱文をお許し下さい。よろしくお願いいたします。
> Results:
> References:
>
> ...: [ 会計: 2 ]

これらの表示を消したいのですが、設定項目があれば、
教えてください。
937名無しさん@お腹いっぱい。:05/01/29 14:17:14
nmzmail - fast mail searching for mutt
http://www.ecademix.com/JohannesHofmann/
>>936
namazu-2.0.14//src/output.cをいじれ。
939名無しさん@お腹いっぱい。:05/01/30 04:27:23
namzuってLGPLにならないのかな?
939がこれからLGPLでnamzuを開発するそうです
>>935
path に c:\perl\bin\perl; を追加しとけ。
942名無しさん@お腹いっぱい。:05/01/31 13:58:34
∈(・ω・)∋
943名無しさん@お腹いっぱい。:05/01/31 14:44:55
∈(´∀`)∋
945名無しさん@お腹いっぱい。:05/02/01 10:09:01
∈(・(ェ)・)∋
検索対象からtitle属性を除外したいのですが
何処を触ればいいでしょうか?

<hn>リンク</hn>
<ul>
<li><a href="ttp://www.2ch.net/" title="2ちゃんねる">2ちゃんねる</a></li>
</ul>
というようなページを作成してNamazu検索すると
検索結果に リンク 2ちゃんねる 2ちゃんねる となるのを何とかしたいのですが・・・
947名無しさん@お腹いっぱい。:05/02/06 15:38:06
>>946
>182は?
最大でどれ位のファイルのインデックスを作成できるんだ?
5Gチョい強でエラーが出た。
>>948
--checkpointオプションは使ってる?
http://www.namazu.org/doc/tips.html#saving-memory
>>949
使ってます。

最悪はカーネルパニックで落ちます。

5Gあたりが限界なのかな〜と思ってます。
確か20万ファイルぐらいはあったと記憶してます。
namazu ML 過去ログより要約
| ところで、Namazu のインデックスは 32 bit 符合付き整数の壁が
| あるので、
| >NMZ.i 721295588
|
| この約 687 Mb のファイルが 2Gb を越えると扱えなくなります。
| 同じようなファイルを対象にインデックスを作ると仮定して、単純
| に計算すると、Namazuが扱える最大規模のインデックスは
|
| ファイル数: 2,048 / 687 * 878,914 = 2,620,110 (約262万)
| 合計サイズ: 2,048 / 687 * 2,167,480,108 = 6,461,425,416 (約 6 Gb)
|
| となります。この規模のインデックスを作るには相当たくさんのメ
| モリ (2 Gbくらい?) を積んで $ON_MEMORY_MAX を 300 Mb くらい
| に設定しないと (インデックス作成が遅くて) やっていられないと
| 思います。
>>951
ありがとうございます。
jaistの過去ログをほぼ全てnamazuに食わしてと、個人サーバでは
限界に近いことをしていたので・・・

因みに「2ちゃんねる検索」ってどの様なエンジンなんでかね?
見た感じ非常に良く出来てます。

http://find.2ch.net/

namazuの検索結果ページをGoogleチックにしたくてエンジンに
手を入れようか迷って結局スタイルシートで逃げましたorz
> namazuの検索結果ページをGoogleチックにしたくてエンジンに
> 手を入れようか迷って結局スタイルシートで逃げましたorz

ヒットしたとこが直接表示できるようにしたいとかそういうこと?
954名無しさん@お腹いっぱい。:05/03/03 23:40:18
...---...
955名無しさん@お腹いっぱい。:05/03/04 23:16:34
pnamazuのReplaceがうまくいかないのです。
履歴には
> # 2001.11.28
> # ! replace で \1, \2, ... が使えるようにした
って書いて有るのですが…

実際には
Replace (.*)\.html \1.htm
って書いてます。これで本家namazuではうまく行ってます。

アドバイスお願いします。
956名無しさん@お腹いっぱい。:05/03/04 23:59:04
純粋な野球ファンは5階でろくに応援もさせてもらえず、
接待で嫌々来ているろくに野球を知らない管理職が有待遇。
声を枯らして応援したい熱狂的なファンは5階で口をつぐんで、
メガホンなんて買ったこともないやつが2階で食い物をつついております。
こんなおかしなスタジアム、世界中どこを探してもナゴヤドームだけですよ。
Namazu関係者に名古屋人が多い件について
Knokが連れてきたの?
knok先生はNLUGで知り合ったsatoru大先生に引きずり込まれたわけだが。
960名無しさん@お腹いっぱい。:05/03/09 13:12:24
Geta 面白そうだが
961名無しさん@お腹いっぱい。:05/03/13 19:38:36
第2回検索エンジンアンケート実施中!

http://hp6.0zero.jp/anq/anq.php?uid=1696&dir=84
962名無しさん@お腹いっぱい。:05/03/14 01:39:23
日本語 PDF ファイルからもテキスト抽出できるんだったっけ?
963名無しさん@お腹いっぱい。:05/03/14 02:22:14
日本に留学したアメリカ人、帰国してから、日本は排他的で
他人種を排除する国だと息巻いてたんだそうだ。なぜかというと、

「2年もいたのに、その間いちどもホームパーティに呼ばれなかった」

からだってさ。
964名無しさん@お腹いっぱい。:05/03/14 03:07:56

自分用メモ

rast N-gram全文検索システム
http://www.netlab.jp/rast/
>>962
可能
967名無しさん@お腹いっぱい。:05/03/14 14:35:57
ファイル名に日本語(EUC)を含むファイル(pdfなど)の中身をnamazuさんで検索させてます。
当たり前ですが、検索はうまくいってます。
これを、Webサーバー経由で検索させると、検索はうまく行くんですが、ヒットしたファイル
(pdf)などを、クライアントにダウンロードさせようとすると、ファイル名が化けます。
EUCの日本語ファイル名がそのままURLになっているから、当然だろうなと。

で、ダウンロードしたファイル名が、ちゃんとした日本語にするためにはどうしたら良いので
しょう?
エロイ皆さん、ご教示ください。おながいします。
どこかのスレで見た質問だな。namazuというイロつけてみましたってところか。
namazu関係ないのでスレ違い。
969名無しさん@お腹いっぱい。:05/03/14 15:52:18
>>968
やぱり....
他を捜してみます
適当なラッパ書けばいいじゃん。 対象ファイルのパスが
/foo/bar/日本語EUC.pdf だとして namazurcで
Replace /foo/bar http://www.example.co.jp/cgi-bin/wrap?
とかして wrapはquerystringsつかまえたら、それをsjis変換して
DLプログラムに渡して。DLプログラムは PATH_INFOでファイル名受け取るようにして
内部ではEUCにファイル名変換してターゲットファイルをOpenして
OctetStreamなmimeで出力すればよさげ。
971名無しさん@お腹いっぱい。:2005/03/24(木) 00:06:30
kakasiって2chのスレ内容の分析には弱いのかなぁ…
検索語がうまくひっかからない
ChaSenにしたら分析エラーで止まるし…
972名無しさん@お腹いっぱい。:2005/03/24(木) 00:26:00
複数行にわたったAAに強いわかち書きツールなんてw
973名無しさん@お腹いっぱい。:2005/03/24(木) 00:30:37
でもAAほとんど記号じゃん
漢字仮名交じりにきちんと反応してくれればいいのに
974名無しさん@お腹いっぱい。:2005/03/24(木) 06:54:18
Mecab はどうですか?
と、自分で試さずにカキコ。
975名無しさん@お腹いっぱい。:2005/03/26(土) 18:09:44
Excelファイルをインデックス作成中にVisual Basicのエラーメッセージが
でるのって俺だけ? Namazu 2.0.14に付属のoleexcel.pl使ってるんだが、
どうも、VBAマクロ使っているファイルで吐いているっぽい。
回避策があるのなら、教えて。

WindowsXP Pro SP2
Namazu 2.0.14
Excel 2000
Active Perl 5.6.1
976名無しさん@お腹いっぱい。:2005/03/26(土) 19:11:13
ここは Unix板ですよ?
977名無しさん@お腹いっぱい。:2005/03/27(日) 23:36:19
つい最近使い始めたんですが、826の辞書ってもうアップされないんでしょうか・・・・
乗り遅れてたorz
978名無しさん@お腹いっぱい。:皇紀2665/04/01(金) 15:51:35
>>970
じつは、そこに書いてるようなことをしますた。
ところがどっこい…ファイルをダウンロードしちゃいかん!といわれてしまつた。
WindowsのIEの場合、拡張子に.docとあるとWORDが起動して、ブラウザー内で
.docを表示できるようになります。
が、これって、どうもファイル名が半角英数文字の場合だけのようで、日本語を含
むファイル名だと、ダウンロードが始まります。

namazuを使ってウンヌンカンヌン以前の問題となったのでした。
疲れたぞな
979名無しさん@お腹いっぱい。:UNIX時間(+0900)35/04/02(土) 10:54:49
そろそろ次スレのシーズンな訳ですが
980名無しさん@お腹いっぱい。
irane....