全文検索エンジンNamazu

1 ：名無しさん＠お腹いっぱい。：01/12/30 21:23

全文検索エンジンNamazuについてアレコレ

http://www.namazu.org

2 ：名無しさん＠お腹いっぱい。：01/12/30 21:32

けっこうつかっている人いるんじゃないかと思うけど、
スレがなかったようなので立てました。

まずオレが聞きたいのは
namazuじゃなくてkakasiの辞書強化の方法なんだけど、
最低自分の.skk-jisyoぐらいは単語として
認識してほしいんだけど、どうしたらいいんでしょう。

自分でも調べてみるけど。

3 ：名無しさん＠お腹いっぱい。：01/12/30 21:40

検索画面のもっとかっこいいのはないんですか？

4 ：名無しさん＠お腹いっぱい。：01/12/30 21:48

複合語のようなもの

「強姦魔」は「強姦」でもちゃんとひっかかるはずなのかな?
なんだかうまくいってないような気がするんだけど。

5 ：名無しさん＠お腹いっぱい。：01/12/30 22:59

>>4
KAKASI/ChaSen が認識した単位でしかひっかからないと思われ。
NMZ.w にどう記録されてるか調べてみるとどうよ?
「強姦魔」で記録されいたら「強姦」ではひっかからないような。
「強姦*」なら引っかかるかも。

6 ：名無しさん＠お腹いっぱい。：01/12/30 23:09

>>4
上記文章の分かち書き結果

% kakasi -w < 4
複合語のようなもの
「強姦魔」は「強姦」でもちゃんとひっかかるはずなのかな ?
なんだかうまくいってないような気がするんだけど。
強姦魔
強姦

7 ：名無しさん＠お腹いっぱい。：01/12/31 19:34

一番大規模なサイトってどこかなあ?
私の知ってる限りでは、みみずん氏の「2ちゃんねる検索」が一番大きい。
FAQ に載っているケースよりも、数十倍大きい。
http://www.namazu.org/FAQ.html#index-scale

170万ファイル、総容量30GB オーバー、プラットフォームは WinNT らしいけど。
http://64.71.134.227/computer/bbs/read.cgi?BBS=293&KEY=1000036249&LAST=100

8 ：名無しさん＠お腹いっぱい。：02/01/02 12:20

mknmz -A オプションはどこへ行った？
.htaccess でアクセス制限かけたディレクトリーをindexから除外するやつよ。
復活させてほしいな。

9 ：名無しさん＠お腹いっぱい。：02/01/02 12:27

10 ：名無しさん＠お腹いっぱい。：02/01/02 12:35

KAKASIの辞書にATOK辞書を合併するのもよし。
まず、ATOK辞書のツールを利用して辞書をテキストファイルとして書き出します。
スタート → JUSTSYSTEM 一太郎Office → JUSTSYSTEMﾂｰﾙ&ﾕｰﾃｨﾘﾃｨｰ → ATOK14辞書ﾕｰﾃｨﾘﾃｨ
一覧出力で、
出力ファイルを指定して、システム単語もチェックする。
そして実行します。しばらくすると、ファイルに書き出されます。

このファイルをエディタなどで、eucコードで保存します（例：atok14.txt)。
これを適当なディレクトリに(例：/tmp)に置きます。これをawkコマンドを使って
skkファイルに変換します。

# cd /tmp
# cat atok14.txt | awk '{print $1 " " $2}' > atok14.skk

この新しくできたatok14.skkをkakasiの
srcディレクトリにcopyし、kakasiのツールである、mkkanwaを利用して合併します。

# cd /tmp
# cp atok14.skk /usr/local/share/kakasi/
# mkkanwa /usr/local/share/kakasi/kanwadict atok14.skk

新しい辞書ができます。

11 ：2：02/01/02 18:20

>>10 さんきゅ。

12 ：名無しさん＠お腹いっぱい。：02/01/02 18:37

namazuの出力では、HTMLだと
<h1>や<h2>でかこんでいるところを出力するようですが、
これを抑えることはできないでしょうか?
<h2>あたりにはたいした情報がないHTMLファイルなもんで...

13 ：名無しさん＠お腹いっぱい。：02/01/02 20:28

>>12
> <h2>あたりにはたいした情報がないHTMLファイル
ってのがそもそもおかしいんじゃないか?
とか言ってみる。

14 ：12：02/01/02 20:59

>>13

うん、そういう意見はありそうだけど・・・
たとえば多くの人の日記なんかはH2に日付が
はいってるけど、検索するときはそれは重要じゃないじゃない?

15 ：名無しさん＠お腹いっぱい。：02/01/02 22:33

# mknmz --help
mknmz 2.0.10, Namazu のインデックス作成プログラム

使い方: mknmz [オプション] <対象>...

対象ファイル:
-a, --all すべてのファイルを対象とする
-t, --media-type=MTYPE 対象ファイルの文書形式を指定する
-h, --mailnews --media-type='message/rfc822' と同じ
--mhonarc --media-type='text/html; x-type=mhonarc' と同じ
-F, --target-list=FILE インデックス対象のファイルのリストを読み込む
--allow=PATTERN 対象とするファイル名の正規表現を指定する
--deny=PATTERN 拒絶するファイル名の正規表現を指定する
--exclude=PATTERN 除外するパス名の正規表現を指定する
-e, --robots 次の記述を含む HTMLファイルを除外する
<meta name="ROBOTS" content="NOINDEX">
-M, --meta HTMLの metaタグをフィールド指定検索に用いる
-r, --replace=CODE URIを置換するためのコードを指定する
--html-split HTMLファイルを <a name="..."> 単位で分割処理する
--mtime=NUM 変更日制限 find(1) の -mtime と同じ規則
例: -50 で 50 日以内、+50 で 50 日より古いものだけ

形態素解析:
-c, --use-chasen 日本語の単語のわかち書きに ChaSen を用いる
-k, --use-kakasi 日本語の単語のわかち書きに KAKASI を用いる
-m, --use-chasen-noun 名詞のみを抽出する
-L, --indexing-lang=LANG インデックス時に言語に特化した処理を行なう

文字列処理:
-E, --no-edge-symbol 単語の両端の記号は削除する
-G, --no-okurigana 送り仮名を削除する
-H, --no-hiragana 平仮名のみの単語は登録しない
-K, --no-symbol 記号をすべて削除する

要約:
-U, --no-encode-uri URIのencodeを行わない
-x, --no-heading-summary HTML のヘディングによる要約作成を行わない

インデックス作成:
--update=INDEX 更新するインデックスを指定する
-Y, --no-delete 削除された文書の検出を行わない
-Z, --no-update 文書の更新・削除を反映しない

その他:
-s, --checkpoint チェックポイント機構を作動させる
-C, --show-config 現在の設定を表示する
-f, --config=FILE 設定ファイルを指定する
-I, --include=FILE カスタマイズ用ファイルを読み込む
-O, --output-dir=DIR インデックスの出力先を指定する
-T, --template-dir=DIR NMZ.{head,foot,body}.* のディレクトリを指定する
-q, --quiet インデックス処理の最中にメッセージを表示しない
-v, --version ヴァージョンを表示する
-V, --verbose 口やかましいモード
--debug デバッグモード
--help このヘルプを表示する
-----------------------------------------------------
-Mじゃだめ？書き直すのめんどくさい？
<META NAME="keywords" CONTENT="きーわーど">
<META NAME="description" CONTENT="こめんと">

16 ：名無しさん＠お腹いっぱい。：02/01/02 23:57

>>3
自分でいじれ。カックイクなるYO!

17 ：名無しさん＠お腹いっぱい。：02/01/10 04:29

18 ：名無しさん＠お腹いっぱい。：02/01/13 13:49

>>7
みみずんの2ちゃんねる検索、
lastupdate: 2002-1-9
index files: 5073445 keywords: 249969957 って検索結果に表示されてたよ。
500万ファイル超えてるじゃん。すげえ。

19 ：名無しさん＠お腹いっぱい。：02/02/06 04:57

たまにはage

20 ：名無しさん＠お腹いっぱい。：02/02/06 05:25

PostgreSQLと組合わせられるみたいだけど、
ラージオブジェクト内はインデクス化出来ないの？

21 ：名無しさん＠お腹いっぱい。：02/02/06 12:24

http://www.namazu.org/ml/namazu-devel-ja/msg00427.html
not implemented yet.

22 ：20：02/02/06 20:07

>21
なるほど。
待てば実装されそうな気配かな。
取り敢えずは、一旦書き出すか……

23 ：774：02/02/17 17:37

つーかChasenの辞書簡単に作れねーかな。

24 ：名無しさん＠お腹いっぱい。：02/02/17 18:20

>>23
何がやりたいの?
自分のなまえを辞書登録したいとか?

25 ：774：02/02/18 13:55

>>24
専門用語を登録したChasen辞書を自分localに欲しい

26 ：名無しさん＠お腹いっぱい。：02/02/18 18:25

http://chasen.aist-nara.ac.jp/chasen/faq.html.ja#A-1
ipadic のコスト計算は沢山の文章を解析させて決めてるようだから、
ちゃんとした値を設定するのは一個人には無理っぽい。

27 ：774：02/02/20 12:44

似てる単語に1ポイントプラスとかじゃダメ?

28 ：名無しさん＠お腹いっぱい。：02/02/20 17:27

まあまずは試してみるのが良いのでは。

29 ：名無しさん＠お腹いっぱい。：02/02/20 22:49

イントラネット用サーバに検索機能を付けようと思って、
Turbo linux server 6.5 に 2.0.10 を
tar ball からコンパイルしてインストールした。

nmz/libnamazu.h の BUFSIZE = 1024, の値 1800 とかに変更して
./configure && make && make すると、検索実行時にセグメンテーションフォルト
で落ちる。 namazu.cgi も namazu コマンド両方とも同じ現象。
1024 だと問題なし。

2.0.7 でやってみたら、 BUFSIZE = 4096 でも問題なく動いた。
いまは時間がないので、とりあえず 2.0.7 で運用することにした。
あとでソースを追っかけてみる予定。原因わかったらパッチと一緒に ML に投げてみようと思ってます。

http://search.namazu.org/ml/namazu-devel-ja/msg02215.html とかが
関連してるのかなあ? でも、RC の話だから、きっとすでに修正されてるんだよね。

30 ：29：02/02/20 22:50

> ./configure && make && make

./configure && make && make install
の間違いでした。

31 ：名無しさん＠お腹いっぱい。：02/02/22 16:53

このパッチで直ると思います。

RCS file: /storage/cvsroot/namazu/nmz/libnamazu.h,v
retrieving revision 1.46
diff -u -r1.46 libnamazu.h
--- nmz/libnamazu.h 2000/12/18 09:02:06 1.46
+++ nmz/libnamazu.h 2002/02/22 07:31:15
@@ -169,7 +169,7 @@
* NMZ.* files' names.
*/
struct nmz_names {
-#define MAXPATH 1024
+#define MAXPATH BUFSIZE
char i[MAXPATH];
char ii[MAXPATH];
char head[MAXPATH]; /* followed by a language code */

32 ：名無しさん＠お腹いっぱい。：02/02/22 21:12

>>18
実は約250万ファイルです。9月ごろにポカミスしてそのままでした。
たくさんのインデックスがあり最大のインデックスは17万ファイル程度です

33 ：29：02/02/23 12:47

>>31
>>29の件、パッチを当てたら 2.0.10 での
セグメンテーションフォルトが発生しなくなりました。
とても素早い対応をしてくださってありがとうございました。

34 ：名無しさん＠お腹いっぱい。：02/03/08 00:20

NMZ.format.jaの#word を使うと　キーワードとヒット数が出てしまうんですが
ヒット数を表示しないようにしてキーワードだけ表示することは出来るのでしょうか？

35 ：名無しさん＠お腹いっぱい。：02/03/08 10:00

>>34
ごめん、言ってる意味がよくわかんない。
NMZ.format.ja なんてファイルないし、#word ってのもよくわからない。

36 ：名無しさん＠お腹いっぱい。：02/03/08 11:12

インデックスのファイルの中にあるんですが。。。

37 ：名無しさん＠お腹いっぱい。：02/03/08 13:40

えー、自分とこにはないよ、と思ったらそれ pnamazu 用のファイルか。
それならそうと書いて欲しかった。

ざっとソースを見た感じでは改造しないと無理そう。
perl で書かれてるからそんなに難しくはないと思う。

38 ：名無しさん＠お腹いっぱい。：02/03/08 14:04

すみません　全部共通だと思ってました・・・
ありがとうございました　じっくりソースいじってきます。

39 ：３８：02/03/09 11:38

こつこつソース読んでたら普段使ってない脳を使ったせいで筋肉痛になってきた

40 ：名無しさん＠お腹いっぱい。：02/03/11 02:06

Namazuで2chのdatファイルを見やすく整形しながら、
検索することはできますか？

41 ：名無しさん＠お腹いっぱい。：02/03/12 15:42

HP-UXへインストールしようとして、makeに失敗
gccを含むGNUコマンドを大量導入中・・

42 ：名無しさん＠お腹いっぱい。：02/03/12 17:49

gccのコンパイルって大変・・

43 ：名無しさん＠お腹いっぱい。：02/03/12 19:03

>>40
http://pc.2ch.net/test/read.cgi/linux/989179375/
ここに dat2html がある。

44 ：名無しさん＠お腹いっぱい。：02/03/14 09:13

pnamazuのラッパー
> sub print{
>加工
>print;
>}
>require "pnamazu.cgi";
について具体的な使い方などを解説しているサイトありませんか？

45 ：名無しさん＠お腹いっぱい。：02/03/30 11:17

すみませぬ。素朴な疑問なんですが、スコアって何ですか？
文書中で単語がマッチした数かと思って数えてみたんですが、
そうでもないみたい。

46 ：名無しさん＠お腹いっぱい。：02/03/30 14:18

>>45
単語のマッチした数でだいたい近いけど、それに重みづけが加わったりする。

47 ：45：02/03/30 14:40

重みって具体的にどういうことですか（汗）？

48 ：名無しさん＠お腹いっぱい。：02/03/30 16:52

それはファイルの種類によって色々。
たとえば HTML だったら <title> とかに含まれる文字列は他に
比べてより重要な情報である可能性があるので、その単語はより重みを
つけている。

49 ：名無しさん＠お腹いっぱい。：02/04/18 10:59

kakasiについて教えて★いのだが、宜しくたのむ。

とある、地名が平仮名で書いてあるテキストファイルを、ローマ字に変換しなければならなくなり
最初grepでやろうかと思ったのだが、Gogleで検索していたらkakasiなるものをみつけ
RPMファイルでインストールしたのだが、

# locate kakasi

をたたき込むと

/usr/bin/kakasiもしっかりできておるので、

インストールは正常にできたと思うのだが
使い方が良く分からん？

# kakasi

とすると、コマンド待ちのようだ(シェルで# perlとか# php等と打ち込んだ時と同じような状態)
詳しい解説のしてあるurlでも良いので教えて欲しい。
ちなみにOSはRH7.2Jである。

50 ：名無しさん＠Ｅｍａｃｓ：02/04/18 11:15

man kakasi

51 ：名無しさん＠お腹いっぱい。：02/04/18 11:59

早速のレス、ありがたく承った。

# man kakasi

ごちゃごちゃと、色々書いてあるが大体理解できた。
拙者に、必要な機能だけとりあえず使ってみるとしようか。

52 ：hoge：02/04/19 01:25

ひらがなの地名って kakasi で上手く解析できるんかな。
なんか誤動作しそうな予感。chasen も試してみたら？

53 ：名無しさん＠お腹いっぱい。：02/04/20 23:06

NMZ.result.*.jaの${uri}が、展開された時に
http://www.huga.jp/~foo/?2002a#1204
という形になって欲しいのだけど
?2002a#1204
と出てきますが手書きでNMZ.result.*.jaを
書き換える以外に何か方法があるのでしょうか？

54 ：sage：02/04/20 23:29

.namazurc で Replace /home/foo/public_html/ /~foo
かな？

55 ：sage：02/04/20 23:30

ごめん http 付け忘れた。

56 ：名無しさん＠お腹いっぱい。：02/05/15 20:07

kakasiと組み合わせて使っている者ですが、mkkanwaによる
辞書作成時、漢字と英数字を組み合わせた単語、例えば
「少年A」とか「仲間1」といった単語の登録は可能なの
でしょうか?

もし可能であれば、どうやったらいいかも教えて下さい。

57 ：名無しさん＠お腹いっぱい。：02/05/16 13:15

残念ながらできません。

58 ：56：02/05/16 21:45

>>57
できないというのは、要するに「少年A」だったら、「A」の部分は
登録されず、「少年」という単語のみ登録されると理解してよろしい
のでしょうか?

またこの場合、検索時に「少年A」という単語を含むドキュメントのみ
ヒットさせるには、どうしたらよいのでしょうか?

59 ：名無しさん＠お腹いっぱい。：02/05/18 11:55

「少年」と「A」がそれぞれ記録される。
複数の単語の連続した組合せを探すにはフレーズ検索がつかえる。
{少年 A} という感じで。

60 ：名無しさん＠お腹いっぱい。：02/05/18 13:23

A って stop word になっちゃうんじゃない?

61 ：名無しさん＠お腹いっぱい。：02/05/18 23:21

Namazu には stop word 実装されてないので一文字の単語も
記録される。NMZ.w みるとわかると思うけど。

あと KAKASI について補則しておくと、もともとが漢字をひらがなとかに
変換するためのソフトだったので、漢字の連続した文字列に対してしか
辞書の照合を行なわないようになってるのが「少年A」みたいなものを
一まとめに扱えない理由。

62 ：名無しさん＠お腹いっぱい。：02/05/20 19:00

>>59
フレーズ検索を試してみましたが、どうも"少年A"ではなく、
"少年 A"で検索されてしまっているようなので、うまく
ヒットしません。

63 ：名無しさん＠お腹いっぱい。：02/05/23 06:43

レンタル鯖上でC言語版のnamazuを使いたいのですが、
ここにいらっしゃる方々、教えて下さい。

レンタル鯖に問い合わせたところ、
telnet不可。telnet.cgi不可。
但し、「自分のコンパイルしたnamazuを含めたC言語のCgiのUPは可能」
と言われました。
perl版のnamazuも使えるのですが、検索速度が遅いですし（インデックスファイルが６０Mある）、
C言語版が使いたいです。

　UNIX（linux：RedHat）上に、いきなり実行形式のnamazuをUPして使用できるものなのでしょうか。
どこかに書かれているHPないでしょうか。
さらに、コンパイル済みのnamazuってあるのでしょうか？

64 ：名無しさん＠お腹いっぱい。：02/05/23 15:51

SKK とこっちのどちらに書くか迷ったけどこっちにしとこう。
ちらほら SKK辞書の誤登録が修正されてるみたいだけど、それを反映した
kakasi の辞書って配布されないのですか？
正しい漢字を kakasi で引いたのに読みが出てこなくて悲すぃんだけど。

65 ：名無しさん＠お腹いっぱい。：02/05/23 17:57

>>63
http://namazu.org/#rpm

66 ：６３：02/05/24 05:46

６５さん
ありがとうございます。
RPM(Red Hat Package Manager)って言葉を今日知りました。

これって、root権限ないとできないですよね。
ローカルでrpmコマンド実行して、
サーバーにUPってわけにいかなですよね。

67 ：名無しさん＠お腹いっぱい。：02/05/24 07:09

私が依然調べたNAMAZUが設置してある鯖
　結局,私は、Xreaです　（＾＾；
＊価格は、まぁまぁかなの鯖
　http://www.lime-web.com/
　http://www.fsv.jp/
　http://www.akira.ne.jp/service2.htm
＊かなり高めの鯖
　http://uspcu.ultra-speed.ne.jp/
　http://www.kikakuya.net/service/eEgg79/option.html
　http://www.oftech.co.jp/service4.html#db
　http://www.glory-net.com/hosting/functions_hp2.html
　http://www.zenbelg.co.jp/server_e.html　（専用鯖）
＊無料鯖
　http://www.xrea.com/jp/

68 ：名無しさん＠お腹いっぱい。：02/05/26 08:00

既出？
http://www.namazu.org/~rug/monamazu.jpg

69 ：名無しさん＠お腹いっぱい。：02/05/26 10:22

>>66
cpio でバイナリ抜き出しちゃえば?

70 ：名無しさん＠お腹いっぱい。：02/05/27 01:15

こんなソフトを見つけました。
同じ全文検索システムとして、切磋琢磨していってほしいな。

全文検索システムSnatcher
http://www.arc.ritsumei.ac.jp/kachina/mikio/snatcher-ja.html

以下、tar ball 付属の spex-ja.html より転載。

Snatcherバージョン1.0は２００２年１月に開発が始められた。
ChaSenで形態素解析を行い、その結果をGDBMにより管理する方法の有効性がこの時点で確かめられた。
作者の友人であるS氏が学生時代に製作していたNozomiという全文検索システムがこの原案となっている。
バージョン１の検索機能は、ファイル名を表示するだけという極めて単純なものであったが、
シェル等のアプリケーションで機能を補うことによって、
多機能で柔軟なシステムを構築することができた。
検索結果のスコアリングはこの時点で実装されていた。

バージョン2.0の開発は２００２年２月から始められた。
より高速に検索でき、結果が見やすく、多様な形式の文書を扱え、インデックス作成も短時間に行え、
それでいてインデックスファイルが小さいことを目標とした。
GDBMのキーに名前空間を導入することによって、複雑なデータ構造を正規化して格納できるようになった。
文書からのテキスト抽出を行うプリプロセッサを分離したことによって、フィルタが存在する任意の形式の文書を扱えるようになった。
タイトルや要約の表示もできるようになった。その他、Namazuを模倣して多くの機能が追加された。
かなり実用的になってきたので、インターネット上で公開することにした。

バージョン3.0の開発は２００２年３月から始められた。
検索速度の向上はもう限界に来ていると作者は感じ、スケーラビリティと汎用性を追求することにした。
インデックスファイルをキーのハッシュ値で分割する方法を採用し、テラバイト級の検索システムを実現することを目指した。
また、APIを整備し、作者以外の人間も効率的なアプリケーションを作成できるようにした。
バージョン3.2ではベクトル空間モデルによる類似文書検索を実装した。

71 ：名無しさん＠お腹いっぱい。：02/05/27 19:39

類似スレッド

WWW検索エンジンサイト
http://pc.2ch.net/test/read.cgi/esite/973436559/

72 ：名無しさん＠お腹いっぱい。：02/05/28 22:38

>>62
ちゃんと NMZ.p (フレーズ検索用ファイル)はできてますかね。あと
NMZ.w に「少年」「A」がそれぞれちゃんと記録されているかも
確認して欲しいです。

>>64
誰かががんばって SKKJISYO を kakasidict に反映させる作業をしない
限りは...

73 ：名無しさん＠お腹いっぱい。：02/05/31 03:49

>>70のstemmerは力業でスゴイが、porterのアルゴリズムを
使っていないことには理由があるのだろうか?

74 ：名無しさん＠お腹いっぱい：02/06/01 00:52

namazu.cgiで検索された単語を統計として調べ
それをKAKASIの辞書にフィードバックしたいんですがそういうツールありますか？
既に先人が作ってそうなんだけど。

75 ：名無しさん＠お腹いっぱい。：02/06/02 13:28

>>74
NMZ.slog にクエリが記録されていくから、
それを kakasi の辞書に反映させるようなスクリプトを書けばいいのかな。
キーワードの読みをどこから調達するかが問題になると思う。

76 ：名無しさん＠お腹いっぱい。：02/06/02 13:35

>>64
knokさんの日記で読んだんだけど、あの辞書は
人手で作業してる部分が大きいの?

77 ：名無しさん＠お腹いっぱい。：02/06/02 15:08

> 73
いまのプロセッサのパワーなら、簡便法であるporterのアルゴリズム
を使う必要なんてほとんどないのでは？
辞書式でも速度は十分だし、精度もほぼ完璧。

78 ：名無しさん＠お腹いっぱい。：02/06/02 22:00

>>77
しかし、柔軟性に欠けるのでは?

79 ：名無しさん＠お腹いっぱい。：02/06/02 23:34

>>78
辞書を編集すれば、柔軟性もばっちり。
まあ >>70 のstemmerはハードコーディングだから再コンパイルが必要で
その限りではない気がするが、、、

80 ：名無しさん＠お腹いっぱい。：02/06/03 16:00

79を読んで、クラッとしました。「仕様です!」のヴァリアントですか。
それならそれで、辞書の格納形態に柔軟性がないなということでしょう。
しかしま、porterのアルゴリズムで後処理して、未知語、新語をサルベージ
したら? という感じでしょうか

81 ：名無しさん＠お腹いっぱい。：02/06/04 00:43

Namazuって最近動きがないけど、開発面でダメ化したと見て良いの?
開発力のある奴、コミュニティから去っちゃった?

82 ：名無しさん＠お腹いっぱい。：02/06/05 19:59

porterのアルゴリズムって、そんなに性能よかったっけ？
nothing → noth
many → mani
、、、うーむ

83 ：名無しさん＠お腹いっぱい。：02/06/25 19:26

Kabayaki
http://www.timedia.co.jp/new/products/kabayaki

Namazuベースの全文検索エンジン「Kabayaki」リリース
http://www.zdnet.co.jp/news/0206/25/njbt_06.html

ブラウザインターフェイスの Search-S みたいなもんか。
よくできてるね。

84 ：名無しさん＠お腹いっぱい。：02/06/25 22:09

『Namazu』を美味しく調理した日本語検索環境『Kabayaki』
http://cnet.sphere.ne.jp/Enterprise/News/2002/Item/020625-4j.html

85 ：名無しさん＠お腹いっぱい。：02/06/27 18:28

なまずの蒲焼きって食えるの？

86 ：名無しさん＠お腹いっぱい。：02/06/27 22:10

なまずって食えるの？

87 ：名無しさん＠お腹いっぱい。：02/06/28 00:11

食えねーと思うけどな。

88 ：名無しさん＠Ｅｍａｃｓ：02/06/28 00:55

食用なまずで検索すると食えるみたいだよ。

89 ：名無しさん＠お腹いっぱい。：02/06/28 11:00

アメリカで食ったけど、フライだった

90 ：名無しさん＠お腹いっぱい。：02/06/28 12:04

高林って食えるの?

91 ：名無しさん＠お腹いっぱい。：02/06/28 19:28

食えないおやじです。

92 ：名無しさん＠お腹いっぱい。：02/06/28 19:51

おやじなの？

93 ：名無しさん＠お腹いっぱい。：02/06/28 22:58

まだ20代に見えたけど。

94 ：名無しさん＠お腹いっぱい。：02/07/09 00:22

時折、インデックスが、破損して日本語で検索できなくなります。
インデックスを消去してリビルドすると、直るんですが、原因がわからず
困っております。Cronで１日１回、mknmzとゴミ掃除をさせてるのですが。

なにか、ご指南ございましたら、よろしくお願い致します。

95 ：名無しさん＠お腹いっぱい：02/07/09 00:45

namazuのドキュメント見てたら「できないこと」に
「一日に 100 万回の利用件数がある」というような大規模な構成の使い方。」
ってのがあったんですがどうしてできないことなんでしょう？

96 ：名無しさん＠お腹いっぱい。：02/07/09 01:18

>>95
開発チームが謙遜してるだけ。
あと、なんでもできる、とか勝手に思いこむ厨を
寄せ付けないようにするためだと思う。

みみずん検索とか、400GBをインデックスしたいとか、
大規模な用途でも導入例はある。
http://www.namazu.org/ml/namazu-users-ja/msg02117.html

97 ：名無しさん＠お腹いっぱい。：02/07/21 13:36

プロジェクリーダが高林氏からknok氏に変わるってホント？

98 ：名無しさん＠お腹いっぱい。：02/07/23 21:11

namazu-devel-jaをみても2.0.11の準備を4月に始めているのに
6月24日以降メールが流れていない...

みんなもうメンテナンスする気ないのかな？

99 ：名無しさん＠お腹いっぱい。：02/07/24 08:04

実用に耐える形態素辞書が用意できない形態素解析エンジンよりは
n-gram型検索エンジンのほうがまだ再現率が100%な分だけ利用価値がある。

Namazuでヒット数が多い形態素をrejectするのはバグと断言していいね。

100 ：>96：02/07/24 08:08

jpドメインのHTML数は1999年に50GB程度だと思ったのだが2001年には
400GBまで膨れ上がったのね。ネオむぎ以降、新規流入組の手によって
増えに増えた2ch.netのゴミデータが全体の10%くらいを占めたり
するんじゃないだろうか。

101 ：名無しさん＠お腹いっぱい。：02/07/24 08:13

出た、「ネオむぎ以降、新規流入組」

102 ：名無しさん＠お腹いっぱい。：02/07/24 08:16

検索エンジン関連のスレッドにカキコしているような人間が
ネオむぎ事件が発生するまで2ch.netの存在を発見できなかったなんて
噴飯物だなあ。

103 ：名無しさん＠お腹いっぱい。：02/07/24 18:54

>>98
ここ数日何通かメールが流れていて、2.0.11 リリースに向けて
動いているようですが、何か?

104 ：名無しさん＠お腹いっぱい。：02/07/25 07:19

>>103
数日っていうか昨日でしょ

105 ：名無しさん＠お腹いっぱい。：02/07/26 22:41

>>104
> >>103
> 数日っていうか昨日でしょ

いや、数日。 -devel-jaではなくって、projectの方は
何日か前から流れてる。

106 ：名無しさん＠お腹いっぱい。：02/07/27 04:06

101はネオむぎ以降組の夏厨だな

107 ：名無しさん＠お腹いっぱい。：02/07/27 14:11

>>53
ログ読んだか?

108 ：107：02/07/27 14:12

しまった、誤爆ｽﾏｿ

109 ：名無しさん＠お腹いっぱい。：02/07/28 21:53

Namazu と合わせて w3m-namazu も入れてめっちゃ感動してるんですが、
WEBで見つけた namazu.el っていうのは、w3m-namazu に置き換わったと、
考えていいのでしょうか？

110 ：名無しさん＠Ｅｍａｃｓ：02/07/29 12:26

>>109
Emacsでnamazuがつかえる。
ちなみにEmacsでは mewやwlでもnamazuがつかえるよん。

111 ：名無しさん＠お腹いっぱい。：02/07/30 23:14

namazu.el 1.13 を入れて正しく設定したつもりなのに、
>参考ヒット数: [ (インデックスは古いフォーマットであるべきです) ]
ってすぐ表示されてしまう。
w3m-namazu.el はちゃんと動いてるのになんでだろう。
Emacs21には対応してないのかな？

112 ：名無しさん＠お腹いっぱい。：02/07/30 23:51

>>111
namazu-default-dir は？

113 ：名無しさん＠お腹いっぱい。：02/07/31 02:36

>>112
ありがとございます。
それ設定したらサクッと動きました。
もうちょっとオプション変数の説明ぐらい
読むようにしたほうがいいですね(反省

それにしても恐ろしいまでに便利だ…

114 ：名無しさん＠お腹いっぱい。：02/08/10 11:17

namazu の出力フォーマットが崩れて namazu.el がおかしくなるのは既知ですか？
ファイル名が行頭から始まらないことがあります。

----こんな感じ
$ namazu sex
検索結果

参考ヒット数: [ sex: 8 ]

検索式にマッチする 8 個の文書が見つかりました。

1. SEX IN THE ZOO~~~ (スコア: 37)
著者: "ZEBRA SEX"
日付: Sat, 16 Mar 2002 19:34:54 -0500
zeb01 /home/hoge/Mail/lookup/1907 (8,005 bytes)

115 ：あぼーん：あぼーん

あぼーん

116 ：114：02/08/21 19:41

>>115
まじめに答えて下さい。

だれも namazu.el は使ってないのか？
みんなは wl や w3m.el で使っているのか？

117 ：名無しさん＠Ｅｍａｃｓ２１：02/08/22 12:36

>>116
Emacsは 21?
漏れも試してみたけど、20.7ではおかしくならないみたいだね。
21.1ではEmacsが暴走したけど（藁

# でも21.1では wlで使ってるのでnamazu.elは使ってないから気がつかんかった。

118 ：名無しさん＠Ｅｍａｃｓ：02/08/25 16:41

Namazuの検索結果のページをCSSで見た目を変えたいのですが
namazu.cgiがバイナリファイルなので CSSファイルをリンク
させたり中にCSSを書いたり出来ません。

検索結果をカスタマイズしている人を見るのですが
どうあって編集しているのでしょうか？

119 ：118：02/08/25 16:48

NMZ.foot.jaをいじったら出来ました～。

120 ：名無しさん＠お腹いっぱい。：02/08/27 15:34

mailutimeってどんな時にうれしいのでしょうか？
普通にmailのindexを作る時はDate:を見てくれますよね？

121 ：名無しさん＠お腹いっぱい。：02/08/27 15:34

age忘れ。

122 ：名無しさん＠お腹いっぱい。：02/08/27 15:55

>> 120

Date:フィールド用の検索インデックスは別に作られるが、
日付によるソートで用いるインデックスはファイルのタイムスタンプから
作成されているのでmailutimeは使っとけ

123 ：名無しさん＠お腹いっぱい。：02/08/27 16:04

>>122
なるほど。今気付きました。ども。

124 ：名無しさん＠お腹いっぱい。：02/08/28 18:05

例えば
map.gif（駅周辺地図画像）
というファイルがあるとして、
これを
「地図」「駅」などのキーワードでヒットさせたいのですが
何かよい方法はありませんでせうか・・・

このさい同じことができればNAMAZUじゃなくても・・・

誰か知恵をお貸しください（；´Д｀）

125 ：名無しさん＠お腹いっぱい。：02/08/28 18:07

[警告・危険]

２チャンネルでの書きこみは直ちにやめて下さい。
私はここに書き込んだために、アドレス帖の中身を覗き見られました。
これは嫌がらせではありません。

[警告・危険]

126 ：名無しさん＠お腹いっぱい。：02/08/28 18:09

>>124
htmlからlink張って、そのhtmlがヒットするようにしとく。

127 ：124：02/08/28 18:19

>>126
返答ありがとうございます。
現在それでやっているのですが、それ面倒だから（上記のような方法で）なんとかしてよと頼まれたのです。（；´Д｀）

インデックスファイルの本体はバイナリなので触れないみたいだし・・・（；´Д｀）

128 ：名無しさん＠お腹いっぱい。：02/08/28 18:39

具体的にどういう状況なの？

とりあえずnamazuでは無理だと思う。

129 ：名無しさん＠お腹いっぱい。：02/08/28 18:53

>>124
map.gif から「地図」「駅」などのキーワードを
どうやって引き出すおつもり?

130 ：124：02/08/28 18:57

>>128
色々探しているのですが・・・やはりこれといったものが見つからないのですよね・・・

>>129
最初はインデックスファイルを編集してしまえばいいやぁとか気楽なことを考えていたのですが、
色々調べているうちにどうもインデックスファイル編集は無理ぽ、と気が付いたのです。

別にインデックスに読み込ませるファイルを作って、インデックス作成時にそれも参照・・・
等かなぁとか思っています。

というか、よい知恵が浮かばないのです。。。（；´Д｀）

131 ：名無しさん＠お腹いっぱい。：02/08/28 19:04

とりあえずくだ質に行け。

132 ：名無しさん＠お腹いっぱい。：02/08/28 20:41

>>130
JPEG や PNG の埋め込みコメントをインデックスするフィルタを書く、ってのはどう?
pdf のフィルタとかと同じ原理ね。
あ、gif か。gif ってコメントってあったっけ?

133 ：名無しさん＠Ｅｍａｃｓ２１：02/08/30 02:49

>>130

それぞれの画像に対応する情報を画像自体から取得するのは困難だから、
結局のところ画像固有の情報は手でニュー力しなければならないわけだよね。
だったら画像<->情報の対応をdbmなんかで管理するちゅーのは?
ま、大人しくsql鯖を使えってことだね。

134 ：名無しさん＠お腹いっぱい。：02/09/02 19:05

namazu 2.0.11 ﾘﾘｰｽ

135 ：名無しさん＠Ｅｍａｃｓ２１：02/09/03 19:15

namazu 2.0.12 リリース
2.0.11は一日しかもたなかったな（藁

136 ：名無しさん＠お腹いっぱい。：02/09/03 21:25

対処が早いのは良いことです。

137 ：名無しさん＠お腹いっぱい。：02/09/05 03:23

libnmzつかってるひといます？

138 ：名無しさん＠お腹いっぱい。：02/09/05 13:21

namazuのversionをあげたら、indexも作りなおしたほうがいいの？

139 ：名無しさん＠お腹いっぱい。：02/09/05 13:57

>>138
2.x系ならその必要はありません。
1.x -> 2.xの場合は必要です。

140 ：名無しさん＠お腹いっぱい。：02/09/05 14:05

>>139
ども。

141 ：名無しさん＠お腹いっぱい。：02/09/11 21:28

文書の中に"愛をとりもどせ"という単語があります。
検索で、"愛をとりもどせ"を検索しましたが
対象の文書が引っかかりません。
[愛] [をとりもどせ] で探しているようです。
^^^^^^^^^^^^^^^^^^^
この分かれ方がおかしいと思うのですが、
うまく検索する方法はないのでしょうか？

142 ：名無しさん＠お腹いっぱい。：02/09/11 23:28

>>141
がいしゅつ。
namazu.org のmailing list過去ログ検索で、
「プロ野球チームをつくろう」を検索してみろ。

だいたい、「愛をとりもどせ」って「単語」じゃないだろ。

143 ：名無しさん＠お腹いっぱい。：02/09/12 00:43

>だいたい、「愛をとりもどせ」って「単語」じゃないだろ
ｱﾎでｽﾏｿ...
どうしようｼｮﾎﾞｰﾝ....

144 ：142：02/09/12 02:12

>>143
この問題は、文章を区切って索引を作るタイプの検索エンジンではよくある事だ。
「フレーズ検索」「分かち書き」「形態素」という言葉を
namazu.org で検索して調べてごらん。

あと、文章を区切ってるのは、kakasi とか chasen というツールがやってる。
区切られ方に文句があるなら、これらのツールの動作の仕組みをしらべてごらん。仕組みがわかれば、141 の望むような動作をさせられる「かも」しれない。

145 ：名無しさん＠お腹いっぱい。：02/09/12 09:14

> 文書の中に"愛をとりもどせ"という単語があります。
「YouはShock!」をどう解析するのかにも興味あり。

146 ：141：02/09/12 16:57

namazuの検索時の単語のわけ方と、
index作成時のkakasiの単語のわけ方が
違うのが原因ということでしょうか??
とりあえず、namazu.cgiを改造して、
入力された検索ワードをkakasiで分かち書き
させてみようと思います。

147 ：名無しさん＠お腹いっぱい。：02/09/16 00:38

mknmzにsambaのCAPデコーディングオプションつけてホシー
結局自前でつけてる

148 ：名無しさん＠お腹いっぱい。：02/09/17 09:21

RDB(MySQL)の中のテキストをIndex化して
Namazuで検索できるようにする方法を検討しています。

検索結果にテーブル、プライマリキーが含まれるように
なればと思っているのですが、なかなかよいアイデアが
思いつきません。

もし、このような使い方についてヒントとなる情報を
お持ちの方がいらっしゃいましたらご教授願えない
でしょうか？

当方が未熟なため基本的なことを見落としているかも
しれませんがよろしくお願い致します。

149 ：名無しさん＠お腹いっぱい。：02/09/17 11:17

>148
漏れは、mknmz.plを改造して、プライマリキーを引数指定、
インデクス対象を標準入力から流し込めるようにして
対応してみた事があるけど。

150 ：148：02/09/17 14:37

>149 さん
ありがとうございます。

なるほど・・・やはり何かしらのカスタマイズ
は必要になってくるのですね。今晩あたりから
その方向で挑戦してみようと思います。

貴重なアドバイス、ありがとうございました。

151 ：名無しさん@XEｍａｃｓ：02/09/18 04:36

>145
ﾜﾛﾀ(w

152 ：名無しさん：02/09/21 20:18

質問系スレの参照を辿って一つ一つのファイルに分割
mknmz して全文検索できるようにしてみました。
http://midsylphie.s19.xrea.com/cgi-bin/NamazuMusume/namazu.cgi
モ娘。関係なのは気にしないでください。

いくつかやりかたが分からないのですが、
1.検索結果のファイルの冒頭部分の表示サイズの変更のしかた。
2.検索結果の日付を該当レスの日付にしたい。
3.検索結果に個々のファイルでなくhtmlの参照(http://xxx../yyy.html#hoge)
　を出す方法。

おねがいします。

153 ：名無しさん＠お腹いっぱい。：02/09/22 00:58

>>152
1.スタイルシートを使うか、テンプレートを書き換える。
2.と 3.
--html-split HTMLファイルを <a name=\"...\"> 単位で分割処理する
を試してみたら?

こんな感じにしたいのかな?
Linux 板の Debian スレ検索
http://debian.dtdns.net/2ch-debian/index.cgi?query=ftp&whence=0&max=20&result=normal&sort=score

これをやるには、レス番号あたりに <a name=""> を
マークアップする必要があるんじゃないかな。

154 ：名無しさん：02/09/22 02:40

>153
レスありがとうございます。
--html-split はそのまんまですね。私の目が節穴でした。

日付はファイルのタイムスタンプかインデックス生成の時間に
なるのでしょうか？Debianスレ検索の結果でも、日付はほとんど
同じです。日付、著者によるソートの機能はあまり意味がないですね。
検索結果のサマリにレスの投稿日が含まれているのでそれでよしと
しました。

検索結果のサマリ部分の表示サイズですが、文字の大きさのこと
ではなくて、バイト数？のことです。テンプレートの中にはそれら
しい設定は見当たらないのですが。。。

155 ：153：02/09/22 03:00

>>154
あ、確かにタイムスタンプはレスのものじゃないね。

バイト数表記を変えるには、mkmmz を改造する必要があると思う。
perl がわかるなら挑戦してみてね。

というか、1.検索結果のファイルの冒頭部分の表示サイズの変更のしかた。
じゃどういう表記を望んでるのかがわからん。
具体的にどう表記されたらうれしいのか書いてごらん。

156 ：名無しさん：02/09/22 03:54

説明が下手で手間をおかけして申し訳ないです。

バイト数といっても検索結果の末尾に表示される(1,234 bytes)
のことではなくて、summaryのサイズことです。
レスの本文が1-2行しか表示されないのはちょっとものたりない
気がするので5行くらい表示したいのです。

で、調べてみたらpl/conf.plの中の$MAX_FIELD_LENGTHを変えれば
いいようです。

157 ：名無しさん＠お腹いっぱい。：02/09/22 23:08

>>152

＞2.検索結果の日付を該当レスの日付にしたい。

フィルタ (NAMAZUDIR/filter/html.pl) に次のを加えて出来ないかな？
即行で書いたのでバグってるかもしれんが…
（--html-split 使っているのが前提）
・以下の + の行を追加

　html::escape_lt_gt($contref);
　$fields->{'title'} = html::get_title($contref, $weighted_str);
＋html::get_date($contref, $fields);
　html::get_author($contref, $fields);

・以下の関数を追加
sub get_date ($$) {
my ($contref, $fields) = @_;

if ($$contref =~ m|</font> ：([90][21098])/([01][0-9])/([0-3][0-9]) ([012][0-9]):([0-6][0-9]) ID:|) {
$fields->{'date'} = "$1/$2/$3 $4:$5";
}

}

# うーむ、([90][21098])/([01][0-9])/([0-3][0-9]) ([012][0-9]):([0-6][0-9]) って
# ([90][21098]/[01][0-9]/[0-3][0-9] [012][0-9]:[0-6][0-9]) で $fields->{date}=$1; でも ok かな？

158 ：名無しさん＠お腹いっぱい。：02/09/23 01:10

>>157
おお、グレイト。一つ指摘だけ。パッチなし。

メールアドレス欄に文字があるときにマッチしないのでは?
<dt>345 ：<a href="mailto:sage"><b>270</b></a> ：02/09/13 16:47 ID:kiwRHvV+<dd>
とか。
ID の有無への対応もちょっと大変?

うーん、read.cgi が出力した html を元にインデキシングするよりも、
dat から mknmz しやすい html を作って、
それを元にインデキシングする方がいいね。
mknmz 側の修正はどっちにしろ必要だと思うけど。

159 ：名無しさん＠お腹いっぱい。：02/09/23 01:52

>157
なるほど。filter/html.pl に手を加えればいいのか。

>158
自分はhtml化された過去ログの対応するdatファイルが見つけられな
かったのでhtml2dat.plなるものを作ってました。

ところで、スレッドをまるまる--html-splitでmknmzし
た場合、
1.例えばこのスレの>>124のような疑問に対して検索した場合、>>124
　のレスは見つけられても、その答えを探すのに先を読まなければな
　らない。
2.1レス見るためにスレ全体をダウンロードしなければならない。
と思うのですが、このへんは不便ではないのでしょうか？

160 ：157：02/09/23 02:03

>>158
メールアドレスは盲点ですた。
あと、少し検索した限りだと >>152 の対象には ID が無いログは無いみたいに見える。

dat から直接変換したほうが楽なのはわかりますが
最近は dat 直接読めないようですからねぇ。

if ($$contref =~ m|(?:</font>)|(?:</a>) ：([90][21098])/([01][0-9])/([0-3][0-9]) ([012][0-9]):([0-6][0-9]) ID:|) {
$fields->{'date'} = "$1/$2/$3 $4:$5";
}

161 ：名無しさん＠お腹いっぱい。：02/09/23 12:02

>>159
1. じゃあ、「このレスに対するレス」というリンクを
質問の末尾に追加するスクリプトを書く・・・。なんか面倒だな。

2.私はそれほど不便には感じないけどなあ。
でも、ノイズがあまりに多いスレだと不便さ爆発だろうね。

というか、娘。検索管理者氏が最初に作った、
スレの中の >> を追跡して分離するスクリプトと
--html-split を組み合わせればいいんじゃないのかな。
スレの中の >> を追跡して分離するスクリプト公開きぼーん。

>>160
そっか、直読みは制限されてたんだっけ。
read.cgi html -> dat -> Namazu 用 html ということになるのか。

162 ：名無しさん＠お腹いっぱい。：02/09/25 22:56

>>161
UAが Monazilla/1.00 (navi2ch/itteyoshi)
といかになってれば直読みできます。

163 ：名無しさん＠お腹いっぱい。：02/09/25 23:10

>>162
( ) の中は変えろよ。
http://members.jcom.home.ne.jp/monazilla/document/oyster_subjecttxt.html

164 ：名無しさん＠お腹いっぱい。：02/09/26 11:46

http://xxx.2ch.net/xxx/dat/1111111111.dat
にあるんじゃないの？
普通のブラウザ以外から直読みって意味？

165 ：名無しさん＠お腹いっぱい。：02/09/29 13:26

ソース汚いし、ごちゃごちゃしててとっても公開できnです。
ってか、このくらいのアルゴリズムだったらスクリプト厨の
自分よりもっとエレガントに実装できる人がいそうな。。。

166 ：名無しさん＠お腹いっぱい。：02/10/02 01:35

nkf2.0でましたね。

167 ：名無しさん＠お腹いっぱい。：02/10/07 16:56

age

168 ：名無しさん＠お腹いっぱい。：02/10/18 05:48

あらかじめ /var/namazu/index に ~/html/ 以下のファイルの
インデックスがおいてあります。

その状態で
% mknmz --update=/var/namazu/index ~/text/

を実行すると

検索対象のファイルを調べています
インデックスすべきファイルはありません

と言われてしまいます。--updateオプションを使ってこういう風に
まったく違いディレクトリのインデックスを1つにまとめておくこと
はできないんですか?

169 ：名無しさん＠お腹いっぱい。：02/10/18 17:44

--update はその index を作成したときの cwd や mknmz の引数を引き継いで
更新する、っていうオプション。

168 の望む動作は多分
mknmz -O /var/namazu/index ~/html/ ~/text/
もしくは
mknmz -O /var/namazu/index -Y ~/text/
あたりだと思われ。

170 ：名無しさん＠お腹いっぱい。：02/10/22 01:34

遅レススマソ。
なるほど。複数のディレクトリを1つのインデックスにまとめる方法
はやっぱりあったんですね。

'-Y'オプションだと本当に文章削除されてる場合とか困りますよね。
インデクッスは細かく分けて作ったほうがいい気がしてきたので、
とりあえず色々試してみます。

171 ：名無しさん＠お腹いっぱい。：02/11/06 09:09

微妙に板&スレ違いかもしれませんけど、xreaでnamazuを使えるようにするには、
どうすればいいのですか？

172 ：名無しさん＠お腹いっぱい。：02/11/06 22:13

他のサーバでも同じでしょうけど

・コンパイル作業はご自分のLinux環境で行ってからバイナリアップロードしてください。
・NAMAZUでのインデックス化で3分を越えるものは強制終了されます。

http://216.239.33.100/search?q=cache:jzP2pf8MVPMC:www.xrea.com/%3Faction%3Dspec+xrea%E3%81%A7namazu&hl=ja&ie=UTF-8

そこで、pnamazu
http://www.amays.com/~mizusawa/namazu_kaisetu/pnamazu.html

cgi 設置に関わる仕様などは、xrea のFAQ見るとか

173 ：初期不良：02/11/11 21:29

11/5 リリースの wvWare0.7.4 を namazu2.0.12 で使おうとしたら
word 文書がすべて未対応の形式とな...
ほげってみたら wvVersion の返す文章の形式が変わっていたせいらしい。
msword.pl をこう変更して解決したけどいいのかな？
- if (/^Version: (word\d+),/i) {
+ if (/^Version: (word\d+)/i) {
ちなみに wvVersion で返される文章はこんな感じ
Version: word8 or higher, Encrypted: No

なんだかなぁ...

174 ：初期不良：02/11/11 21:54

>>173
バグレポート出してきますた

175 ：名無しさん＠お腹いっぱい。：02/12/02 16:13

echo 膠着 | kakasi -w
で文字化けする？

176 ：名無しさん＠お腹いっぱい。：02/12/12 06:53

>>175
化けてる

177 ：名無しさん＠お腹いっぱい。：02/12/20 17:39

wgetでディレクトリ指定のURLを収集すると
index.cgi,index.shtml,index.htmもindex.htmlになります。

これでインデックス作成するとリンク先index.htmlがないので
404になってしまいます。

これを防ぐために、検索結果のＵＲＬが
/ディレクトリで切れるようにしたいのですが
何か良い方法はないでしょうか？

178 ：名無しさん＠お腹いっぱい。：02/12/20 21:08

>>177
たぶん、検索結果のURLを/で切れるようにすれば
いいんじゃないかなあ。

179 ：山崎渉：03/01/15 13:12

（＾＾）

180 ：名無しさん＠お腹いっぱい。：03/01/16 13:42

Namazuの検索結果のサマリーにGoogleみたいに検索した語句を含めて表示したいんですけど、
どのあたりをいじればいいんでしょうか？

それが無理でもせめてこの部分は無視する、みたいにするには。
ファイルの上の方は全部同じ文章があるんで、
サマリーがすべて一緒になってしまいます…

181 ：名無しさん＠お腹いっぱい。：03/01/16 18:47

>>180
前者：namazu を全般的に改造して、
NMZ.i に単語のインデックスポイントでも格納するようにする。
後者：フィルタを書く

182 ：名無しさん＠お腹いっぱい。：03/01/16 18:57

>>180
サマリの内容はインデックス時に生成される。
検索式に応じた内容を表示するには、検索時に生成しなければならない。
やるとなると結構面倒。

特定部分をインデックスの対象から外すのは、以前やった事がある。
私の change-log メモからのコピペ。

* Namazu: 特定の文字列に囲まれた部分をインデックスの対象外にする
html.pl を改造して、特定の文字列に囲まれた部分をインデックスの対象外にする。
これにより、ヘッダ部分やロゴ部分を検索の対象から外すことや、
要約に表示したくない部分を削除することができる。

# Remove contents above <body>.
sub erase_above_body ($) {
my ($contref) = @_;

$$contref =~ s/^.*<body>//is;

# For ProSearch
my $EXCLUDE_TAG_START = '';
my $EXCLUDE_TAG_END = '';
$$contref =~ s/$EXCLUDE_TAG_START(.*?)$EXCLUDE_TAG_END//gs;
}
これだけ。http://www.y-min.or.jp/~nob/FreeBSD/namazu.html を参考にした。

183 ：180：03/01/16 19:16

ありがとうございます！こんなに早くしかも丁寧はレスを頂けるとは思ってもいませんでした。
とりあえずお教えくださった方法で指定部分を弾こうと思ったのですが、
僕が共有のレンタルサーバー業者に送ってもらったファイルは

namazu/mknmzrc.txt- 設定ファイル (アップロード後に .mknmzrc へ変更)
namazu/indexlist.txt- 設定ファイル (アップロード後に .indexlist へ変更)
namazu/index- インデックスが作成されるディレクトリ
script/namazu.cgi- 検索用 CGI (バイナリ)
script/namazurc.txt- 設定ファイル (アップロード後に .namazurc へ変更)
option/template/NMZ.* - テンプレートファイル群

こんな感じで他を探しても肝心のhtml.plというのが見当たりませんでした。
php4_namazu-2.1.0.tar.gzというモジュールが使えるらしいのですが、これは今関係ないと思うので、
やはり共有のレンタルサーバーではそこら辺をいじる権限をあたえらえていないのだと思います。
どうもすいません、ありがとうございました。

184 ：182：03/01/16 20:00

>>183
>こんな感じで他を探しても肝心のhtml.plというのが見当たりませんでした。

html.pl は Namazu 自身が持っている html ファイルのフィルタです。
html ファイルからインデックスする文字列を取得するときなどに呼び出されます。

うちの環境だと
/usr/local/share/namazu/filter/html.pl にあるけど、
レンタルサーバだと勝手にはいじれないだろうなあ。

185 ：名無しさん＠お腹いっぱい。：03/01/20 16:49

2.0.9 から mknmzrc に FILTERDIR というのが導入されているので、
サーバ上のどこかにある filter 一式を適当なところに copy & modify して
そこを FILTERDIR に指定すればいいような。

186 ：名無しさん＠お腹いっぱい。：03/01/20 19:34

>185
レンタル鯖業者に送ってもらったmknmzrcはFILTERDIRが削られてました…
いちど問い合わせたいと思います。

187 ：名無しさん＠Ｅｍａｃｓ：03/01/21 21:05

>>180
まえにやったことがある方法だけど、
Search::Namazu使ってマッチした文書のパスを取り出して、
そのファイルをopenしてgrepして整形して出力した。
実際に開くファイルは少ないので、案外と実用になる。

188 ：名無しさん＠お腹いっぱい。：03/01/22 18:40

Search::Namazuってnamzuの機能が
全部使えるわけじゃないのね。。。。

189 ：名無しさん＠お腹いっぱい。：03/01/25 09:56

>>187
んでもgrepするとむちゃくちゃ遅くなりませんか？

190 ：名無しさん＠Ｅｍａｃｓ：03/01/25 11:45

むちゃくちゃ遅いと言うのが、どのくらいを指すのか分からないけど
おうちのではこんなかんじ。そんなに遅い？

http://219.167.106.8/test/index.cgi?query=%A5%DE%A5%B6%A1%BC%A5%DC%A1%BC%A5%C9

191 ：あぼーん：あぼーん

あぼーん

192 ：あぼーん：あぼーん

あぼーん

193 ：名無しさん＠お腹いっぱい。：03/01/25 15:04

>>190
どうでもいいが、ちゃんとURL Encodeぐらいしろや、犬厨。

194 ：名無しさん＠EMACS21：03/01/25 16:03

なんかtexのファイルが検索対象になってないようなのですが、どこを設定すれば良いのでしょうか。

mknmzrcのそれらしい部分には、

$ALLOW_FILE =".*\\.(?:$HTML_SUFFIX)|.*\\.txt" . # HTML, plain text
"|.*\\.gz|.*\\.Z|.*\\.bz2" . # Compressed files
"|.*\\.pdf|.*\\.ps" . # PDF, PostScript
"|.*\\.tex|.*\\.dvi" . # TeX, DVI
"|.*\\.rpm|.*\\.deb" . # RPM, DEB
"|.*\\.doc|.*\\.xls|.*\\.ppt" . # Word, Excel, PowerPoint
"|.*\\.j[sabf]w|.*\\.jtd" . # Ichitaro 4, 5, 6, 7, 8
"|\\d+|[-\\w]+\\.[1-9n]"; # Mail/News, man

としていますが

/home/hoge/100.tex Unsupported media type (application/x-tex) skipped.

となってskipされてしまします。

195 ：名無しさん＠お腹いっぱい。：03/01/25 16:12

>>194
dvi.pl がないとだめ。ちゃんと入れてある？
mknmz -Cしたとき Supported Media Typeに
dviが出てこないとつかえないよ。

196 ：194：03/01/25 16:20

>195
dvi.plあります。mknmz -Cではdviでできません。アレ?

とりあえず、mknmzに--allオプションを付けたら解決した様です。そのへん
ちょっと調べてみます。

197 ：194：03/01/25 19:24

>196

原因は判りました。filerに必須のコマンドが不足してました。(.texはdetex)

198 ：194：03/01/28 07:34

うーむ。FreeBSD4.7stableで、試しに、/以下のインデックスを作らせたら、
24時間経ってもまだ作業中だ（藁)

199 ：194：03/01/28 22:53

>198

あまりに不憫なので途中で止めて/usrと/etcを対象にしたけど、/usr/obj消し
忘れてて12時間経っても/usr/obj/hoge.oはバイナリーなのでスキップします
を延々と出してた。再び止めてmake cleanして再度挑戦。今度は17万強のファ
イルを相手に今、一生懸命処理してる。

200 ：194：03/01/29 08:16

続報(誰も聞いてないか（笑）)

12時間で1万6千ファイルのインデックスを作成してました。
全部で5日間ぐらい掛るのかあ。

201 ：名無しさん＠お腹いっぱい。：03/01/29 08:23

聞いてるよ。
エラーとか出ない？
なんか2になってから、たまにエラー吐くよーになったよ。

202 ：194：03/01/29 22:02

>210

24時間経過、8万5千ファイルのインデックスを作成した時点で、特に致命的な
エラーは出てないです。

203 ：名無しさん＠お腹いっぱい。：03/01/29 23:05

インデックスファイル何MBくらい行くだろうな。

204 ：194：03/01/30 21:53

>202

36時間を前に、何事も無かったようにインデックスが更新されずに完了してい
た。エラーでも起きたか。残念。

205 ：205：03/01/30 23:16

諸先輩方、ご教示いただければ。

Ver2.0.5では問題が無かったのですが・・・

Ver2.0.5から2.0.12に完全に入れ替え、
mknmz --template-dir=/home/hoge/public_html/namazu/template -O /home/hoge/public_html/namazu/index /home/hoge/public_html/target

とhogeで実行しました。
ターゲットにあるhtmlファイル群のインデックスが、
/home/hoge/public_html/namazu/index
に出来ていきました。ここまでは成功です。検索も可能です。
templateにはとりあえずデフォルトのディレクトリからNMZ*を全てコピーしました。

しかし、二度目から同じことをすると、ターゲットの更新の有無にかかわらず、
mknmz: 存在するインデックスは古い形式です。今は対応していません
と出て、インデックスの更新をしません。

namazu.org内を検索しても???な話ばかりで何も核心は載っていませんし、
googleしてみても「そうなってしまった」止まりで先に進みません。
これはいったい何がどうなっているのでしょうか。

なおインデックスを一度消して再実行すると何の問題もありません。

206 ：名無しさん＠お腹いっぱい。：03/01/31 05:37

>>205
あのう。mknmzはただのperlスクリプトですので、ご自分で追って
みられるのがよろしいかと。
まず、mknmzの出力が、自分で読めないようなおそらくは不完全な
状態になっているということが問題であるということでよろしいですね。

> mknmz: 存在するインデックスは古い形式です。今は対応していません

これを出しているのはここでしょうか。
sub check_present_index () {
if (-f $var::NMZ{'i'} && ! -f "$var::NMZ{'result'}.normal")
{
util::cdie(_("Present index is old type. it's unsupported.\n"));
}
}

NMZ.iがあってNMZ.result.normalがないときに出るようですね。
どうしてNMZ.result.normalが出力されないままになってしまって
いるんでしょうね。

207 ：206：03/01/31 05:43

normal を検索して適当に読み進むと、出力部分が見つかります。

# output NMZ.result.*
sub write_result_file () {
my $fname = "NMZ.result.normal";

my @files = glob "$TEMPLATEDIR/NMZ.result.*";

for my $file (@files) {
$file =~ m!(NMZ\.result\.[^/]*)$!;
my $target = "$var::OUTPUT_DIR/$1";
if (-f $target) { # already exist;
next;
} else {
my $buf = util::readfile($file);
my $fh_file = util::efopen(">$target");
print $fh_file $buf;
}
}
}

テンプレートのNMZ.result.*を順にコピーしているようです。
テンプレートに NMZ.result.normal* があるか確認してみてください。
もしかして古いテンプレートを使っていたりしないでしょうか。

インデックス出力時に有無を調べてメッセージくらいは出してもいい
ような気はしますね。
$fnameという変数はそれを意図したものかと思うのですが、使われてないですね。

208 ：205：03/01/31 10:28

>>206
早速ありがとうございます。もちろんperl追ってみて、namazu.orgML内を検索して、
似たような事例が出てきたわけですが、何でだろ？でスレッドが止まっています。

>テンプレートのNMZ.result.*を順にコピーしているようです。
>テンプレートに NMZ.result.normal* があるか確認してみてください。
>もしかして古いテンプレートを使っていたりしないでしょうか。

205に書いたように完全入れ替えです。旧ver(2.0.5)に関するディレクトリ、
ファイル、全部消して再作成してからです(rm -rf 対象)。

よって、古いテンプレは存在しません。

>templateにはとりあえずデフォルトのディレクトリからNMZ*を全てコピーしました。
と書いたとおりですのでNMZ.result.normal*はきちんと新しいものが存在しております。

googleすると皆さん何でだろで止まっている様子で、こちらも何でだろ状態です。

209 ：名無しさん＠Ｅｍａｃｓ：03/01/31 10:44

一度目に
mknmz -O /home/hoge/public_html/namazu/index /home/hoge/public_html/target
cp -rf /home/hoge/public_html/namazu/template
して、二度目からは
#! /bin/sh
$INDEX=/home/hoge/public_html/namazu/index

cd $INDEX
mknmz -update ./
なんてscriptを実行するとどうなりますか？

210 ：名無しさん＠Ｅｍａｃｓ：03/01/31 10:44

あ、-updateじゃないですね、--updateでした。

211 ：名無しさん＠お腹いっぱい。：03/01/31 16:46

すんません、namazuってxmlを対象とした検索ってできますか？

212 ：206：03/01/31 17:46

>>208
あまりお役に立てなくてすまそ。

NMZ.result.normal* がテンプレートに存在しているのに書き出さ
れていないということ? それなら手でテンプレートからコピーした
らどうなりますか?

それともmknmzはNMZ.result.normal*を出力しているのに「古い形
式」と言ってるということでしょうか。

ご自分でmknmzにprint文突っ込んでデバッグしたほうがはやいよう
な気がします。エラーを出しているのは本当に>>206の箇所なのか
とか、>>207の部分でglobした結果とか実際にコピーしたファイル
とかから。

213 ：205：03/01/31 23:28

いろいろ課題をいただきまして。恐縮です。
>>209
>cp -rf /home/hoge/public_html/namazu/template
>して、
って・・コピー先がないのですが???　あと、
>>212
で言える事は、
1.NMZ.result.normal* はテンプレートにきちんと存在している(コピーした)
2.一度目だけ書き出される。それを使ったり手でデフォルトからコピーしたりいろいろやったがNG
3.mknmzはNMZ.result.normal*を出力しているのに「古い形式」と言っている
つまりエラーメッセージがワケワカなのです。これにつかまった人は数多いようです。

205でhogeで実行しました、と書きましたが、試しにrootでするとokでした。
どうもmknmzrcがまずいんでしょうか。通常ユーザーでの~/.mknmzrcって、
mknmzrcより後から読まれてそっちが有効になるという認識なんだけど。
間違い??

214 ：名無しさん＠お腹いっぱい。：03/02/01 06:12

>>211
-a

215 ：名無しさん＠お腹いっぱい。：03/02/01 13:29

いや、そういうことではなくて、任意のelement {foo|bar|baz}をもとに
NMZ.field.{foo|bar|baz}などを生成してqueryを
((+foo:glibc & +bar:gtk) not +baz:linux) & HP-UX
とかやりたいんすが。

216 ：名無しさん＠お腹いっぱい。：03/02/01 13:58

>>215
html の meta 要素の content 属性を対象とした検索みたいなことをやりたいのか。
それやるには、入れ子になった要素を分解してインデックスする
機能を追加する必要があるのでは?

217 ：名無しさん＠お腹いっぱい。：03/02/14 01:51

kakasiの辞書，結果に適応されるものとされないものがある…なんでだろう．

とみの富野
ちじょく恥辱

この二つを辞書に登録してnamazuで検索してみると
恥辱は[恥辱]となるのに，富野が[富][野]になってしまいます．

なんでなんですかー，そんなのっておかしいですよカテ(ry

218 ：名無しさん＠お腹いっぱい。：03/02/14 10:02

>>217
インデックスを作り直していないとか。

219 ：名無しさん＠お腹いっぱい。：03/02/14 17:55

>>217
% kakasi -w < 217.txt
恥辱は [ 恥辱 ] となるのに，富野が [ 富 ][ 野 ] になってしまいます．

ん？だいじょぶだけど。>>218の言うとおり，インデックスを
ちゃんと作りなおしたほうがいいんじゃないの？

220 ：名無しさん＠お腹いっぱい。：03/02/14 20:44

mknmz -O なんちゃら
で足していくと、それまではヒットするファイルがあっても、
あとから足したのがヒットしないってのはindex作り直ししかないのかな？

ＦＡＱ？

221 ：あぼーん：あぼーん

あぼーん

222 ：名無しさん＠お腹いっぱい。：03/02/14 21:39

>>220
質問の内容がよくわからない。

「それまではヒットするファイルがあっても」は、
「あとから足したのがヒットしない」にどう関係あるの?
追加したファイルが検索対象にならないって事を言いたいのか?

-O ってこれだよね?
-O, --output-dir=DIR set DIR to output the index.

既存のインデックスがあるディレクトリと同じディレクトリを
--output-dir= で指定してる?

223 ：名無しさん＠お腹いっぱい。：03/02/14 21:59

ちゅーか、 mknmzしたあと、

[追加]
日付: Fri Feb 14 21:58:31 2003
追加された文書の数: 8
更新された文書の数: 9

ってなってる？NMZ.logは確かめてみた？

224 ：名無しさん＠お腹いっぱい。：03/02/17 14:58

users-ja、フレームっぽくてちょっとヤだ．

225 ：名無しさん＠お腹いっぱい。：03/02/17 15:50

Namazuってもう何年も開発してないよね？メンテナンスモード？
もちょとモジュール化，ライブラリ化が進むと使いやすいんだけどね．
いまのlibnamazuって、つかいにくくない？

226 ：名無しさん＠お腹いっぱい。：03/02/17 17:55

>>224
フレームなんてご大層なものでもないだろ。

自分の不躾を棚に上げておいて開き直るとは、たいしたプライドもあったもんだ。
挙げ句の果てにはMLで駄目なら2chならいいのかなどと、無様に開き直る有様。
激しく不快。

227 ：名無しさん＠お腹いっぱい。：03/02/17 20:33

>>225
knok さんの日記を読んでごらん。

228 ：名無しさん＠お腹いっぱい。：03/02/17 20:53

それって、2.1ブランチでの作業じゃないでしょ？knok氏の手元での作業だよね。
2.1の作業は始まってもいない。つうことは2.2はでる予定なんか全くないつぅこと。

namaz-ngのブランチ、最終変更から二年が経過して、もう忘れられてるちゅーはなし。
高林氏はmigemoとかquick-mlとか新しいソフトウエア作るほうが楽しくて，Namazu
はもうどうでもいいんじゃないの？だったら、とっととモデレートする人間を明示的に
プロジェクト内で決めないと，今後の作業が進まないよ。
高林氏はモう忘れて，knok氏とrug氏の二人でがんがん開発始めちゃえばいいと思う．

229 ：名無しさん＠お腹いっぱい。：03/02/18 20:25

>>225
Namazu-devel-ja で次版について議論されたのが11か月前。
確かにちょっと間があいてるね。
http://search.namazu.org/ml/namazu-devel-ja/msg02430.html

でも、何回かセキュリティフィックスリリースがあったよね。
そのときの対応は迅速で素晴らしかった。

主要なメンバーはみんな多忙なようだし、
本家に取り込んで欲しい機能があるなら、
どんどん要望とパッチを送るべし。

230 ：名無しさん＠お腹いっぱい。：03/02/21 20:40

OpenOffice使ってMS-WordやPowerPointのファイルから
テキスト抽出するフィルタってあります？

231 ：名無しさん＠Ｅｍａｃｓ：03/02/22 23:50

OpenOfficeって
openoffile -infile foo.xls -outfile foo.txt -encode euc
とかいうかんじにつかえるの？使えるんだったら秒ぐらいで
フィルタが書けるよ。

232 ：名無しさん＠お腹いっぱい。：03/02/24 17:14

>>230
OpenOffice 使わないとだめなの?

233 ：名無しさん＠お腹いっぱい。：03/03/08 21:59

namazuも「権限手放したくない病」のエジキになってますですか。

234 ：名無しさん＠お腹いっぱい。：03/03/08 23:30

>>233
毎月律義に出てくるほど関心があるのなら、自分で手を出してみたらどうだ?
ここで騒いでも、どうにかなるとは思えんぞ。

235 ：名無しさん＠お腹いっぱい。：03/03/18 02:05

UNIXで作ったキャッシュをWindowsから利用したいのですが、どうしたらいいですか？

236 ：名無しさん＠お腹いっぱい。：03/03/18 14:13

??キャッシュって何？
namazu のindexならwindowsでそのまま使える。

237 ：名無しさん＠お腹いっぱい。：03/03/19 01:44

なんか文字化けします。

search-s for Namazuで扱いたいんです。

238 ：名無しさん＠お腹いっぱい。：03/03/19 13:43

>なんか文字化けします。
って言われてもねぇ。

239 ：名無しさん＠お腹いっぱい。：03/03/22 03:27

新しいコミッターの人，すごく精力的だね。
でも、新機能追加のはずが、バグだしになってるのは気のせいでつか？

240 ：名無しさん＠お腹いっぱい。：03/03/25 19:44

Namazu の開発に学ぶプログラミングの教訓
http://www.namazu.org/events/lc2000s/handout.html
これみて思ったんだけど、高林さんて子供の頃からのコンピューターヲタだったわけではなくて、
実質的に、Namazu でプログラミングを勉強していったような人なんですね。

こういう人が第一線でばりばり活躍しているのを見ると、自分もやる気が出てくる。
もちろん、アレだけのセンスがないと、一流にはなれないのでしょうけど。

241 ：名無しさん＠お腹いっぱい。：03/03/29 22:56

高林たんつながりでここに書くけど、高林たんへのインタビュー、
http://www.ogis-ri.co.jp/otc/hiroba/others/OORing/interview20.html
はなかなか面白いから読んどくといいよ。

242 ：名無しさん＠お腹いっぱい。：03/03/30 10:20

(´-`).｡ｏＯ(氏はOOエンジニアなんだろうか？)

243 ：名無しさん＠お腹いっぱい。：03/03/30 22:37

OOエンジニアの属性を持つのでは?

244 ：名無しさん＠お腹いっぱい。：03/03/31 00:27

「ごはん」を検索したときに「ゴハン」とか「ご飯」とか「御飯」もHITするようにしたいのですがどうすればいいでしょう？

245 ：名無しさん＠お腹いっぱい。：03/03/31 00:31

>>244
「ごはん」から「ゴハン」とか「ご飯」とか「御飯」を
生成するラッパープログラムを作成し、
そこから Namazu を呼び出して検索するようにする。

246 ：名無しさん＠お腹いっぱい。：03/03/31 02:36

2chのスレをローカルに保存してnamazuで検索させてもらってるんですが、
html をスプリットして見るととても便利です。

しかし、カキコミの日付で並び替えなどをしたいのですが、なにかうまい方法ないですか？

247 ：名無しさん＠お腹いっぱい。：03/03/31 02:46

専用の文書フィルタをつくっちゃうとか？

248 ：名無しさん＠お腹いっぱい。：03/03/31 02:50

>> 242
OO = Ouchaku Oriented ではないかと。

249 ：名無しさん＠お腹いっぱい。：03/03/31 12:36

>>246
--sort=METHOD
で頑張るしかないかなぁ。
ローカルでもhttp経由させるならやりようが増えると思うけど。
インデキシングにコピー作業が入るが。

250 ：名無しさん＠お腹いっぱい。：03/03/31 14:01

htmlsplit.plを改造してしまえ。
いったんsplitしたものをテンポラリファイルとして書き出して
それをインデクスしてるんだから，書きだしファイルのタイムスタンプが
Date:と同じになればいいんだとおもう。
ひまになったら作るけど，すぐはむり。

251 ：244：03/03/31 21:19

>>245
やっぱり自作しないと駄目かー。
KAKASIやnamazuにそういう機能あるかなとちょっと期待したんですが(´･ω･`)ｼｮﾎﾞｰﾝ
レスありが㌧

252 ：246：03/04/01 04:03

レスどもです。

やはり日付の部分を一度変換して、それに対して処理する方法ですかね？

monazilla.org の資料室に

2ch日付文字列を日付に変換 (Delphi) (turbo type Dさん)
２ちゃんねるが出力する日付文字列を日付に変換するコード。ただしこれは閉鎖騒動以前の日付仕様。
http://members.jcom.home.ne.jp/monazilla/document/lib_DataTimeToFmt2ch.html

というのがあるんですが、何か関係ありませんかねぇ、もしかして全然関係無かったらスマソ

253 ：あぼーん：あぼーん

あぼーん

254 ：名無しさん＠お腹いっぱい。：03/04/01 04:48

>>253
（ﾟдﾟ）スクリプト作ってるヒマがあったら自分でどうぞ。

255 ：名無しさん＠お腹いっぱい。：03/04/01 05:48

>>252
つか相手はPerlだぞ？
mtime直すだけだろう。

256 ：名無しさん＠お腹いっぱい。：03/04/01 06:31

ところでソース公開されてる検索エンジンってnamazu以外にどんなのあるんでしょ？

257 ：名無しさん＠お腹いっぱい。：03/04/01 09:57

>>256

Freya
http://www.ingrid.org/ja/project/freya/

SGSE
http://www.sony.jp/Search/SGSE-DL.html

SSE
http://www.peanuts.gr.jp/Search/download-j.html

freeWAIS-sf 日本語版
URL忘れた

258 ：名無しさん＠お腹いっぱい。：03/04/01 10:09

>>256
英語だけなら結構あるんじゃない?

259 ：名無しさん＠お腹いっぱい。：03/04/01 22:09

すなっちゃー

260 ：名無しさん＠お腹いっぱい。：03/04/02 04:55

Snatcher最強

261 ：あぼーん：あぼーん

あぼーん

262 ：名無しさん＠お腹いっぱい。：03/04/02 21:21

htdigとかむこうのポピュラーな奴がマルチバイト文字対応しないかなー

263 ：名無しさん＠お腹いっぱい。：03/04/02 21:44

>256
はやぶさ
http://www.8823.net/

264 ：名無しさん＠お腹いっぱい。：03/04/02 22:47

おまえらがこれは全文検索エンジンに欲しいっつー機能はなんですか？

265 ：名無しさん＠お腹いっぱい。：03/04/02 22:51

>>264
実装してくれるんですか?

266 ：名無しさん＠お腹いっぱい。：03/04/02 23:07

>>264
ハイライト表示機能

267 ：名無しさん＠お腹いっぱい。：03/04/03 00:56

cd ~/Maildir; mknmz --mailnews --exclude=NMZ --update=./ -a ~/Maildir/
みたいな使い方で(qmailで言う)Maildir形式のディレクトリの中身を
インデックス化しています。

fetchmail+procmailで取り込んだプロバイダのメールを~/Maildir/に置いているん
ですが、fetchした直後のメールの内容がインデックスに含まれていないみたいで、
fetch直後のメールが検索にひっかかってくれません。

具体的には下記のバッチを走らせています。

#!/bin/sh
cd ~/Maildir
fetchmail -as
new2cur.rb　　←Maildirの new/* を cur/*:2, にファイル名を変更して移動するスクリプト
mknmz --mailnews --exclude=NMZ --update=./ -a ~/Maildir/

すべての処理はエラー無しで終了しています。

もしかして、mknmzはタイムスタンプを見て、日付の新しすぎるファイルは更新しないとか？
それともオプションの与え方が間違っている？

268 ：名無しさん＠お腹いっぱい。：03/04/05 18:26

squid の chache をnamazuに検索させたいんですが，NMZ.wが化けたりしてて
旨くいきません．

環境としてはlinux + namazu 2.0.12 + squid 2.4
ってなとこです．

googleなんかでみてみると
mknmz-squid-0.9.0.tar.gz
の中のsquidcache.plなんかは更ML内で新されてたみたいですがリンク切れで
見あたらないのです．

うまく使えてる方情報いただけまつか．

269 ：名無しさん＠お腹いっぱい。：03/04/13 22:39

>>246
>>152あたりからの話は参考になりませんか？
ところで、>>153のLinux板debianスレ過去ログ検索サイトですが、
本日パワーアップしました。
http://pc.2ch.net/test/read.cgi/linux/1045176646/742-743

270 ：名無しさん＠お腹いっぱい。：03/04/15 08:23

namazuって、一度インデックス作ってしまった後にファイルを追加したい時はどうするんですか？
また作り直しですか？

271 ：名無しさん＠お腹いっぱい。：03/04/15 10:18

最初にインデックス対象としたディレクトリ以下にファイルが増減したばあいは
cd namazu_index_dir ; mknmz --update
すればいいです。
それ以外の場所のインデクスを追加したい場合、たとえば
i)
/usr/local/share/namazu/doc/ja を最初にインデックスして
/usr/local/share/namazu/doc/en を追加したい場合は

1) index のあるディレクトリ以下にあらたに en なりなんなりのディレクトリを
掘って、そこで対象ディレクトリのインデクスを作成、検索時に複数のディレクトリを指定する
2) 新規にインデックスを作りなおす

となります。インデクス対象ディレクトリが頻繁に変更される可能性がある場合は
-F, --target-list=FILE インデックス対象のファイルのリストを読み込む
オプションを使って、対象ディレクトリをファイルにしておくといいでしょう。

i)の例でいうと
foo.txtを作成、 /usr/local/share/namazu/doc/ja を書いておく
mknmz -F foo.txt してインデックスを作成
対象を追加したい場合はfoo.txtに /usr/local/share/namazu/doc/en
を追加
mknmsz --updateする

272 ：名無しさん＠お腹いっぱい。：03/04/17 04:04

chasen などの話題もこのスレでやってもいいのでしょうか?

273 ：名無しさん＠お腹いっぱい。：03/04/17 08:49

>>272
微妙にスレ違いな気もするが、Namazu を活用するための話題なら OK だと思う。
書き込み量があまりに多かったら専用スレ立てればいい。

274 ：山崎渉：03/04/17 11:51

（＾＾）

275 ：名無しさん＠お腹いっぱい。：03/04/17 15:37

chasenといえば、おなじ松本研のひとがつくってるmecabはどうよ？
chasenの数倍高速と唄ってるけど，わかち書きに使えるように
ならないのかなぁ。

276 ：名無しさん＠お腹いっぱい。：03/04/17 17:13

html化された2chのスレをindexingすると、Segmentation fault
する場合があります。コマンドラインは以下の通りですが、これは
htmlの方を書き換えてやる必要があるのでしょうか？あるいはサイズ
が大きすぎるのかな。kakasiの場合はうまくいきます。

mknmz --media-type='text/html' -c --indexing-lang=ja --verbose

バージョンは、mknmz 2.0.12 chasen 2.3.0 です。

277 ：名無しさん＠お腹いっぱい。：03/04/17 19:46

>>272
> chasen などの話題もこのスレでやってもいいのでしょうか?
自然言語処理スレッド
http://pc2.2ch.net/test/read.cgi/tech/1011988273/
このスレが一番近いのかな？

278 ：あぼーん：あぼーん

あぼーん

279 ：名無しさん＠お腹いっぱい。：03/04/21 22:56

djb スレッドに対抗して、高林スレッドもほしくないか？
ほしいのは自分だけ？

280 ：名無しさん＠お腹いっぱい。：03/04/22 01:29

>>279
基本的に過去の人だろ、高林は。

281 ：名無しさん＠お腹いっぱい。：03/04/23 11:58

本人はもうNamazuなんかさわる気にならないんでしょ。
あの人は新しいもの作るのは好きだけど、保守するのは
嫌いみたいだし。

282 ：名無しさん＠お腹いっぱい。：03/04/23 14:26

インデックス作成時にHTMLのBODY内にあるヘッダ、フッタみたいなものを除去してインデックス化できませんか？
2chスレでいうところの、
■掲示板に戻る■ 全部 1- 101- 201- 301- 401- 501- 601- 701- 801- 901- 最新50
と書き込みフォームのような、意味のない情報は検索キーワードにひっかからないようにしたいのですが。

283 ：名無しさん＠お腹いっぱい。：03/04/23 14:33

意味のある情報と意味のない情報の区別は恣意的なものだから
それをインテリジェントに判別する方法ってないよね。

なので、一般解としては、html.plを改造して自分の用途にあったものを
つくるしかないんじゃない？

284 ：名無しさん＠お腹いっぱい。：03/04/23 19:49

同じことできないかと考えてた。
検索対象が同じような構成のHTMLだけ（2chのスレだけ）だっていうことなら
diffをとって内容だけ取り出せるかもしれない。

285 ：名無しさん＠お腹いっぱい。：03/04/23 23:00

htmlの方でそういうタグを定義してほしい気もする。

286 ：名無しさん＠お腹いっぱい。：03/04/24 00:05

>>282->>285
html の特定部分をインデックス対象から外す方法を
>>182 に書いといたので参考にしてね。

287 ：名無しさん＠お腹いっぱい。：03/04/24 10:38

前はSJISのファイルをインデックス化しても検索結果のサマリはEUCで表示されてたのに
なぜかSJISのままで文字化けするようになってしまいました。
検索ワードも日本語を入れるとヒットしなくなってしまいました。
（asciiの検索ワードを入れると、検索結果のサマリの部分が文字化けした状態で表示される）

いろいろ弄ったんですが、何が原因なのかよく分かりません。
アドバイスお願いします。

288 ：名無しさん＠お腹いっぱい。：03/04/24 14:11

高林スレッド欲しい。あの人のサイト面白い。

289 ：あぼーん：あぼーん

あぼーん

290 ：名無しさん＠お腹いっぱい。：03/04/24 15:14

日記観察スレにでもどうぞ。

291 ：名無しさん＠お腹いっぱい。：03/04/24 21:07

>>288
更新されてないじゃん。もう。
枯渇したんだよ、創造性の泉が。

292 ：名無しさん＠お腹いっぱい。：03/04/24 23:06

tdiary に移行ですか？
やっぱ、専用スレがほしいなぁ、、、
namazu, migemo, QuickML, ttyrec,,,,

293 ：名無しさん＠お腹いっぱい。：03/04/25 10:10

ﾋﾏﾅｼﾞｶﾝ
創造性の泉が。

294 ：名無しさん＠お腹いっぱい。：03/04/27 11:06

>>275
> chasenといえば、おなじ松本研のひとがつくってるmecabはどうよ？
> chasenの数倍高速と唄ってるけど，わかち書きに使えるように
> ならないのかなぁ。
http://cl.aist-nara.ac.jp/~taku-ku/software/mecab/
> わかち書きをする
> 以下のように -O オプションを使います.

mecab を使ってみたのだけど、ものすごく面白いね。
形態素解析器を触ってみたのが初めてだからかもしれないけど。

日本語サイトを wget でダウンロードして、いろいろパースして楽しんでる。
chasen も同じ機能ができるみみたい。

利用する側は楽しんで利用できるけど、開発者はかなり大変そう。

295 ：名無しさん＠お腹いっぱい。：03/04/27 12:31

-Oオプションがあるのはしってる。そうじゃなくて
mknmzから ]
-c, --use-chasen 日本語の単語のわかち書きに ChaSen を用いる
-k, --use-kakasi 日本語の単語のわかち書きに KAKASI を用いる
-m, --use-mucab 日本語の単語のわかち書きに MeCabを用いる
として利用できるようにならないのかなぁ、ってこと。
とおもって cvs先端のnamazu取ってきてさわろうと思ったけど FreeBSD 5-RELだと
autogen.shに失敗するんだな。

296 ：名無しさん＠お腹いっぱい。：03/04/27 21:24

2.0.12のtarball取ってきて作業してパッチを
このスレに投稿汁！

297 ：名無しさん＠お腹いっぱい。：03/05/06 19:54

数年前にfreya vs namazuを試したら、わかち書き不要で辞書にない単語でも
うまくヒットする(n-gram?)し、ヒット数が数万件になっても打ち切ったりせず
しかもそこそこ高速動作する点でfreyaに軍配が上がり、以降自社サイトでは
freya一辺倒なのだが、最近のnamazuはどうですか？

298 ：名無しさん＠お腹いっぱい。：03/05/06 20:47

>>297
Namazu 以外は使ったことない。

299 ：名無しさん＠お腹いっぱい。：03/05/06 21:00

>>297
freya って開発が思いっきりとまってません?

300 ：名無しさん＠お腹いっぱい。：03/05/06 22:20

>>299
namazuも似たようなもんだよ～

301 ：名無しさん＠お腹いっぱい。：03/05/07 12:18

>>300
まあみんな忙しいからね。

302 ：名無しさん＠お腹いっぱい。：03/05/07 14:20

>>301
つまり、開発を手がけられる人がいなくなったってことですか。

303 ：名無しさん＠お腹いっぱい。：03/05/07 15:45

失礼なやつだな。自分もnamazuのお世話になってるくせに。

304 ：297：03/05/07 20:52

>>298
大昔に止まってるが、検索エンジンそのものはバグも出尽くして十分枯れてる模様。
プログラム内でエンジンとインターフェースがくっきり分かれてて、
しかも、インターフェースが簡素なので改造が容易。
ウチでは、検索コマンドを改造してデーモン化/パラレル駆動してfreyaには純粋に
全文検索だけをやらせ、表示はperlのCGI+RDBMSで担当する形にして使っている。

305 ：名無しさん＠お腹いっぱい。：03/05/07 22:46

>>303
へいへい、どうもすいませんでした。
namazuには超優秀な開発者が集まってよかったですね。

306 ：名無しさん＠お腹いっぱい。：03/05/08 03:31

んなわけねー。

307 ：名無しさん＠お腹いっぱい。：03/05/08 04:01

一つ質問させてください。
yahoo のニュースを取り込んで、検索しようとしています。

たとえば、このような記事のページがあった場合、erase_above_body は、
どのようにすれば、うまく記事部分だけを取り出せるのでしょうか？
http://headlines.yahoo.co.jp/hl?a=20030508-00000401-yom-bus_all

なんとなく以下のように書いてみましたが、うまく動きませんでした。

sub erase_above_body ($) {
my ($contref) = @_;

$$contref =~ s/^.*<body>//is;

# For ProSearch
my $EXCLUDE_TAG_START = '<font size=5><b>';
my $EXCLUDE_TAG_END = '<center>';
$$contref =~ s/$EXCLUDE_TAG_START(.*?)$EXCLUDE_TAG_END//gs;
}

308 ：名無しさん＠お腹いっぱい。：03/05/08 04:09

『NAMAZUシステムの構築と活用改訂』
が出るってさ。

309 ：名無しさん＠お腹いっぱい。：03/05/08 08:27

>>307
>>182 を参考にしたんだろうけど、
>>182 は「特定の文字列に囲まれた部分をすべて削除」するというコード。
君がやりたい事とは違うよね?

どうすればいいかは考えてごらん。
ヒントは以下の2つ。
・置換しなくてもいいんじゃないか?
・$EXCLUDE_TAG_START と $EXCLUDE_TAG_END は、
　一度しか出てこない文字列を指定する方が良い。意図しない動作を防げる。

310 ：名無しさん＠お腹いっぱい。：03/05/08 21:26

rubyで実装しなおしてよ

311 ：名無しさん＠お腹いっぱい。：03/05/08 23:47

確かに nmanazu/xtemplate とか namazu/amrita とかおいしそうだな。

312 ：名無しさん＠お腹いっぱい。：03/05/09 01:09

>>310
チミがやってくれ。まあ検索クライアントの方は
rbnamazu(これはPure Ruby)
http://www.namazu.org/ruby-namazu/
Search::Namazu(libnmzのRuby bindings)
http://www.tietew.jp/ruby/search-namazu
が既に存在するので、足りないのはインデクサだけだね。

313 ：307：03/05/09 02:51

>>309
contref の中身を吐かせてみて、ボケてたのに気がつきました。
とりあえず、タイトルも拾って、必要な部分だけ検索できるようになりました。

ではでは。

sub get_title ($$) {
if ($$contref =~ s!<font size=5><b>([^<]+)</b></font>!!i) {

sub erase_above_body ($) {
my ($contref) = @_;

$$contref =~ s/^.*<body>//is;

$$contref =~ s/^.*<!-- SpaceID=[^>]*>//gs;
$$contref =~ s,</div><br>.*$,,gs;

314 ：あぼーん：あぼーん

あぼーん

315 ：名無しさん＠お腹いっぱい。：03/05/22 16:34

sakumaうざいな。

316 ：名無しさん＠お腹いっぱい。：03/05/24 02:08

高林さんソニーから離れちゃったの?

317 ：名無しさん＠お腹いっぱい。：03/05/24 17:39

もともと研究員かなんかじゃなかったっけ？ > 高林氏
籍は naist のままだったような。客員できてた増田さんが辞めたから
解消されたとか？

318 ：名無しさん＠お腹いっぱい。：03/05/25 19:29

また s a k u m a か

319 ：名無しさん＠お腹いっぱい。：03/05/25 19:36

増田さん離れちゃったのか.

320 ：名無しさん＠お腹いっぱい。：03/05/25 19:42

>>319
増井さんだろうが。

321 ：317：03/05/25 19:55

>>320
しつれ。POBox とか権利関係どうなるんだろうね、ってスレ違いか。
産総研って電総研から変わって組織がでかくなりすぎたのであんまいいイメージなかっ
たんだけど、そうでもないのかな。

322 ：名無しさん＠お腹いっぱい。：03/05/25 20:00

s a k u m a マジ u z e e

323 ：名無しさん＠お腹いっぱい。：03/05/26 18:19

>>315
>>318
>>322

[namazu-devel-ja 02936]
> 最近 virus が流れてきていますが、この問題を解決するため一部の形式の
> 添付ファイルを禁止することにしました。

とりあえず、これで一件落着だろ。

324 ：名無しさん＠お腹いっぱい。：03/05/28 02:57

すんません。

あるディレクトリはいかにあるサブディレクトリに対して
くまなく末端のディレクトリに対しインデックスを作成するにはどうしたらいいでしょう

説明を見るとひたすら、ディレクトリを指定しているようなのですが・・・。

325 ：名無しさん＠お腹いっぱい。：03/05/28 09:14

>>324
サブディレクトリがあれば、それも自動的にインデックス対象になるはず。
実際に試してみたかい?
その「ひたすらディレクトリを指定してる説明」ってどこに書いてあった?

326 ：あぼーん：あぼーん

あぼーん

327 ：名無しさん＠お腹いっぱい。：03/05/28 14:16

mknmzでmecab/MeCab.pmが使えるようにしてみたんだけど，
コマンドラインオプションで -mがもう使われてて不便だ。

328 ：あぼーん：あぼーん

あぼーん

329 ：名無しさん＠お腹いっぱい。：03/05/28 20:15

でもmodule_mecabでわかち書きしても、作者が言うほど速くはないなぁ。
環境
FreeBSD 5-CURRENT, Perl-5.006001, Namazu-2.0.12, NKF.pm

MeCab
Added Documents: 36
Total Keywords: 1,654
Wakati: module_mecab -Owakati
Time (sec): 7

Text::ChaSen
Added Documents: 36
Total Keywords: 1,907
Wakati: module_chasen -j -F '%m '
Time (sec): 7

Text::Kakasi
Added Documents: 36
Total Keywords: 2,138
Wakati: module_kakasi -ieuc -oeuc -w
Time (sec): 6

330 ：あぼーん：あぼーん

あぼーん

331 ：名無しさん＠お腹いっぱい。：03/05/28 21:46

>>329
もう少し文書数を多くしてみては?
せめて一回の所要時間が 100秒くらいになるように。
そうしないと、有意な差は現れないんじゃないかなあ?

332 ：名無しさん＠お腹いっぱい。：03/05/28 21:59

>>329
登録されるキーワードが
MeCab 1,654
Text::ChaSen 1,907
Text::Kakasi 2,138
とけっこう違うね。かかしはゴミが多いからいいとして
ChaSenより２５０も少ないのが気になる。
NMZ.wはどう？

333 ：あぼーん：あぼーん

あぼーん

334 ：名無しさん＠お腹いっぱい。：03/05/30 15:15

>>332 diff -c chasen/NMZ.w mecab/NMZ.w | grep "^$+\|-\!$ " してみた。
電話番号，URL,_Message-id、メルアドなんかはmecabでは登録されないね。
一行AAは登録される。

335 ：名無しさん＠お腹いっぱい。：03/06/05 00:03

pnamazuでgrep機能を使っている人いますか？
grep=onにしても無視されちゃう・・・

336 ：名無しさん＠お腹いっぱい。：03/06/13 15:02

マジで困ってます。

日付順ソートが全くうまくいきません。というか本家の
http://search.namazu.org/
も検索結果の日付順ソートが全くうまくいっていません。
どうなってるんでしょ？

例えば、http://search.namazu.org/ に行って、
検索式に「namazu」と入れて、ソートを「日付（新しい順）」に。
対象に Namazu-users-ja だけ選んだとします。

一番上から順番に日付が：
Wed, 11 Jun 2003 16:08:30 +0900
Wed, 11 Jun 2003 18:19:56 +0900
Wed, 11 Jun 2003 18:40:18 +0900
Mon, 09 Jun 2003 13:23:36 +0900
Tue, 10 Jun 2003 01:00:00 +0900
Tue, 10 Jun 2003 07:49:37 +0900

こんな感じに出てきます。namazuって結果の日付ソート出来ないの？？

337 ：名無しさん＠お腹いっぱい。：03/06/13 15:05

ちなみに2.0.10

338 ：名無しさん＠お腹いっぱい。：03/06/13 15:38

本当だ…

339 ：名無しさん＠お腹いっぱい。：03/06/13 17:54

すみません、sjis文章を食わせると正常なのですが、
eucだと文字化けする現象が起きています。
unixで使用していて、全部envをeucにしているので不思議でして…。

340 ：名無しさん＠お腹いっぱい。：03/06/15 13:51

>>336
mailutimeを使えって事らしいですね

341 ：名無しさん＠お腹いっぱい。：03/06/16 09:23

mknmz --config mknmzrc -O index/ml ~/Mail/ml
ってかんじで cron に登録して
httpd からnamazu.cgi を使って検索するようにしているんですが、
index/ml がカラの時だけ(初回mknmz時)しかデータベースが更新されません。
追加登録ってできないのでしょうか?

342 ：名無しさん＠お腹いっぱい。：03/06/16 10:16

初回が手動なら、cronに環境変数が渡ってないとか。
PATHとLANGちゃんとcron時に渡してる？

343 ：名無しさん＠お腹いっぱい。：03/06/16 22:08

mecab のメーリングリストのアーかイブは外部に公開されていないのですか?

344 ：名無しさん＠お腹いっぱい。：03/06/16 22:22

Mecabはtaku-kuが一人で作ったんだろ。
MLも何もないんじゃないの？

345 ：名無しさん＠お腹いっぱい。：03/06/17 03:37

メーリングリストをアーカイブして検索可能にしてる人達って
普通 mhonarc かました後、mknmzする前に mailutime かけてるの？

346 ：名無しさん＠お腹いっぱい。：03/06/17 06:35

>>344
http://cl.aist-nara.ac.jp/~taku-ku/software/mecab/
みれ。メーリングリストあるよ。

347 ：あぼーん：あぼーん

あぼーん

348 ：名無しさん＠お腹いっぱい。：03/06/17 11:13

>>345
おれはしてない。

349 ：名無しさん＠お腹いっぱい。：03/06/17 11:30

本当だ。MLあるね。んでMecabはわかち書きツールとして
Namazuから使えるようになったの？
このスレでハクした人がいるみたいだけど、その後どうなのかな？
namazu本体にパッチ投げたりはしたのかなぁ？

安定していて、kakasi並みのスピードで、chasen並みの精度なら
使ってみたいので。

350 ：名無しさん＠お腹いっぱい。：03/06/17 13:28

MeCabは、Windows版のプロジェクトファイルの中にtypoがある。
確か、Debugモードで-DDLL_hoge が-DLL_hogeになってた。
まだ放置されてるのかな？

351 ：名無しさん＠お腹いっぱい。：03/06/17 17:15

>>350
報告しろよ！
こんなところでねちねちいわないで。

352 ：名無しさん＠お腹いっぱい。：03/06/18 01:36

やだ

353 ：名無しさん＠お腹いっぱい。：03/06/18 10:56

Mitake Searchに逃げようかとおもっていまつ。

354 ：名無しさん＠お腹いっぱい。：03/06/18 22:37

>>353
それって、マイタケって読むの？

355 ：名無しさん＠お腹いっぱい。：03/06/19 00:13

すみません、ちょっとお聞きしたいのですが
RedhatLinux7.2でnamazu-2.0.12を使用しているんですけど
mknmz に --checkpoint をつけて $ON_MEMORY_MAX を5MBで設定しても
1500ファイルあたりでメモリ（256MB）全部食われてハングアップしちゃんですがどうすればいいのでしょうか？
対象ファイルにはExcelファイルが多く、xlhtmlのバージョンは0.5です。
エラーなどは出ません。

356 ：あぼーん：あぼーん

あぼーん

357 ：名無しさん＠お腹いっぱい。：03/06/19 00:48

>>355
namazu-users-ja になげてみそ

358 ：名無しさん＠お腹いっぱい。：03/06/20 12:48

mecab/module_mecab動いてるみたいなんすが、
Namazu-2.0.12へのpatchいる人いますか？
いるならここに張りますが。

359 ：名無しさん＠お腹いっぱい。：03/06/20 14:34

イラネ。

360 ：名無しさん＠お腹いっぱい。：03/06/20 18:11

Namazu本体にパチなげれ。話はそれから。

361 ：名無しさん＠お腹いっぱい。：03/06/21 04:24

>>358
いる。お願いします。

362 ：名無しさん＠お腹いっぱい。：03/06/21 22:14

いまメッセージカタログ直してるので、もうちょっと待ってください。

363 ：名無しさん＠お腹いっぱい。：03/06/23 21:41

ここの住人は何を使って検索してますか？
ブラウザ？ Emacs？ Windows用の検索ソフト？

364 ：名無しさん＠お腹いっぱい。：03/06/23 22:39

自作MacOS X用GUI。

365 ：名無しさん＠お腹いっぱい。：03/06/24 01:17

ウpしる

366 ：名無しさん＠お腹いっぱい。：03/06/25 10:09

mecab patchでしゅが、namazu commiter竹迫さんが作業されてるようなので
僕のは公開やめます。

367 ：名無しさん＠お腹いっぱい。：03/06/26 22:35

>>363
Meadow + namazu.el

368 ：名無しさん＠お腹いっぱい。：03/06/26 23:55

>>363
NTEmacs + namazu.el

369 ：名無しさん＠お腹いっぱい。：03/06/27 00:15

>>368

まだNTEmacs使ってるの？XPEmacs使えよ。

370 ：名無しさん＠お腹いっぱい。：03/06/27 00:20

MEmacs + namazu.el

371 ：名無しさん＠お腹いっぱい：03/06/27 00:26

(メンテされていない)namazu.el より w3m-namazu.el の方が良いと思
うが。

372 ：名無しさん＠お腹いっぱい。：03/06/27 00:42

存在すら知りませんでした。w3m-namazu.el
でも、konquerorもhttpd動いてないローカルホストのCGI
動かせるので、もっぱらそっち

373 ：名無しさん＠お腹いっぱい。：03/06/27 00:47

Meadow + namazu.el + color-namazu.el

374 ：名無しさん＠お腹いっぱい。：03/06/28 00:44

namazu.el ってスクロールで固まることがあるから w3m-namazu.el 使ってます。

375 ：名無しさん＠お腹いっぱい。：03/06/28 10:44

素朴な疑問なんですが、
最近のChasenはdartsを使うようになってかなり動作が速くなったみたいだけれど、
それでもMecabを使おうとする理由って何ですか?

手元の文章を形態素解析させてみたら予想に反してChasenでやった方が
速かった記憶がある。

376 ：：03/06/28 11:39

>>375
私の場合、速くなったってことを知らなかった、
というだけだったりして・・・。

あと、茶筅には以下のようなイメージがある。
・ちょっと難しそう。
・8192バイト以上の行で落ちる
・ひらがなを扱ってくれない(?)

あくまで私見だし、現在のバージョンでは解決されてるものもあるはずだけど。

377 ：名無しさん＠お腹いっぱい。：03/06/28 12:14

Mecabとchasenでインデクス作ってdiffすると結構ちがう。
Mewcabだと顔文字、URL, Email-Addr, Mesage-idみたいなもの
はインデクスされない。あと、日本語はChasennのほうが長い文字列
でインデクスされてる。

378 ：名無しさん＠お腹いっぱい。：03/06/28 20:40

>>376
茶筅はSoftware Configuration Managementがダメな気がする。
[chasen-users:00253]とか[chasen-users:00270]なんかを見てるとそう思わざる
を得ない。chasen-2.3.1修正パッチの変更点に

* iconv で文字コードを指定するための識別子を変更

というのがあるけど、パッチを見てみると小手先の修正にしかなっていない。
そもそもそんなのは実装依存だし、ポータビリティを真面目に考えるなら、
Bruno Haibleのlibcharsetみたいに対応表を用意するとかすべきなんじゃない
かな。というか、NAISTの人達はポータビリティにはあまり関心がないよね。

379 ：名無しさん＠お腹いっぱい。：03/06/29 02:04

まぁ、基本的にお仕事用のツールだしな。
計算機が更新されて、動かなくなったとき
いじるという感じか？

380 ：名無しさん＠お腹いっぱい。：03/06/29 14:48

ttp://www.tahoo.org/~taku/diary/2003-06.html#2003-06-28

荒れてるかなあ？俺はそうは思わなかったけど。
それに>>378とは話が微妙にかみ合っていないような気もする。

381 ：名無しさん＠お腹いっぱい。：03/06/29 15:33

自分は mecab のヘビーユーザーだけど、chasen がいいなぁ、という点をひとつ上げるとすれば、
chasen の方が辞書登録がはるかに簡単という点。

http://cl.aist-nara.ac.jp/~taku-ku/software/mecab/dic.html
作者さんは理由を説明してくれているけど、やっぱり追加登録が面倒なのでどうにかしてほしい。

382 ：375：03/06/30 03:19

お答えいただきありがとうございます。
>>380
自分としてはNamazu+chasenとNamazu+mecabはどのように使い分けるかというような
ことをここで聞きたかったわけで、徒に場を荒らそうとしているつもりはないのですが。

>>378 >>379
Chasenはad-hocな実装なのでいろんなところで使うつもりならmecabのほうがよい
ということですね。

>>377
mknmz+mecabって完成したんですか?
mecab版mknmzを作った人が未知語を無視するように作ったということではないですよね?

>>376
平仮名が多い文章をnamazuで検索できるようにしたいときにkakasiではなくchasenが
使われていたので平仮名の分かち書きはできます。
8192Bytes以上の行でどうかは調べてないですね。スマソ。

383 ：名無しさん＠お腹いっぱい。：03/06/30 19:02

>>376
8192byte以上の行については（FAQページより）

B-1. 長い文章を入力すると segmentation fault で落ちます

chasen-2.2.8 以前の仕様では一文のサイズの最大は改行文字を含め 8192 バイトとなっ
ています。

chasen-2.2.9 以降の仕様では、segmentation fault で落ちなくなりましたが、 8192
バイトに達した時点で、新しい文として解析されます。

とあるので、状況は改善されているようです。
――というか、私自身過去にこれで悩んでアップデートで解決した口ですが。

384 ：名無しさん＠お腹いっぱい。：03/06/30 23:34

>>382
Mecab対応のmknmzはコミッターのかたが作業しているようです．
私の私家版は公開するのやめました．

385 ：名無しさん＠お腹いっぱい。：03/07/05 01:59

mecab 0.76 がアナウンスされてますね。
http://cl.aist-nara.ac.jp/~taku-ku/software/mecab/

386 ：あぼーん：あぼーん

あぼーん

387 ：名無しさん＠お腹いっぱい。：03/07/15 12:18

間違えて http://www.namaz.org にいってしまったらなんか怪しいサイトが・・

388 ：名無しさん＠お腹いっぱい。：03/07/15 13:11

それって間違い狙ってんのかね。
www.goo.co.jpもぜんぜん違うサイトなんYo

389 ：名無しさん＠お腹いっぱい。：03/07/15 13:25

>>388
それは goo.ne.jp 以前からあるよ。

390 ：名無しさん＠お腹いっぱい。：03/07/15 13:51

>>389
そやったか。goo.co.jpさんメンゴ。
山崎渉に張り合ってage

391 ：名無しさん＠お腹いっぱい。：03/07/15 22:59

>>389
それは事実であるけれど、goo.ne.jpが出来てからカラオケ屋のサイトからエロサイトへと変わっていったね。
だから、goo.ne.jpが出来てからは間違いを狙ってたんちゃうんかと。

392 ：名無しさん＠お腹いっぱい。：03/07/16 04:19

>>391
ほう

393 ：名無しさん＠お腹いっぱい。：03/07/18 03:16

namazu 使って検索したときに、結果ページに表示される以下の文言って
NMZ.head.jp みたいにカスタマイズできるの?

Results:
References:
　・hoge: [ AAA: 1 ]
　・hage: [ AAA: 0 ]
　・unko: [ AAA: 0 ]

394 ：あぼーん：あぼーん

あぼーん

395 ：あぼーん：あぼーん

あぼーん

396 ：あぼーん：あぼーん

あぼーん

397 ：名無しさん＠お腹いっぱい。：03/07/18 05:18

NMZ.{head|body|foot|result}.jaではできないからソースいじれ

398 ：名無しさん＠お腹いっぱい。：03/07/18 07:03

>397
まじっすか!?
Thanks!

399 ：名無しさん＠お腹いっぱい。：03/07/19 11:13

namazu-perlを使って、表示にフィルタをかます。

400 ：名無しさん＠お腹いっぱい。：03/07/21 21:11

今だ！！400ゲットォォォォ！！
￣￣￣￣￣∨￣￣￣　　　　　　　(´´
　　　　 ∧∧　　　）　　　　　　(´⌒(´
　　⊂（゜Д゜⊂⌒｀つ≡≡≡(´⌒;;;≡≡≡
　　　　　　￣￣　 (´⌒(´⌒;;
　　　　　　ズザーーーーーッ

401 ：名無しさん＠お腹いっぱい。：03/07/22 02:16

namazuとmigemoの融合ってできないものかねえ。
なまずと打ってNamazuがマッチしたらうれしいと思うのに。

402 ：asmer ◆4ldsKRAW6g ：03/07/22 02:26

ただいま、デバッグ厨･･･
mmap(2)が、MAP_ANONYMOUSつけるとうまく動いてくれない
(環境：FreeBSD5.1R(98)、Linux2.4.20-8smp)
なんでだろう？（泣
そーいえば、今日(昨日)って、休日だったのか･･･

403 ：asmer ◆4ldsKRAW6g ：03/07/22 02:28

と思ったら、誤爆（汗
回線切って､吊ってきます（禿鬱

404 ：あぼーん：あぼーん

あぼーん

405 ：あぼーん：あぼーん

あぼーん

406 ：hoge夫：03/07/22 04:09

>>401
辞書に依存するからけっこう統一的でなくて使いづらそう。

407 ：名無しさん＠お腹いっぱい。：03/07/22 23:37

>>406
さっそくケチがつきました。さすがUNIX板。

408 ：名無しさん＠お腹いっぱい。：03/07/23 00:07

[なまず]で[namazu]をヒットさすだけなら namazu.pmとkakasi.pmを利用して
[なまず]を[namazu]にkakasiで変換して、and検索かけりゃいいんじゃねーの？

409 ：名無しさん＠お腹いっぱい。：03/07/25 00:20

>>408
orの間違い?
>>407
>>406はそれなりにマトモだと思うが。
俺は、検索エンジン内部で処理するよりも、インタフェースで
ユーザに明示的にquery expansionする方がいいような気がするな。

410 ：名無しさん＠お腹いっぱい。：03/07/31 05:11

kudo さんはスーパープログラマーでつか？

411 ：名無しさん＠お腹いっぱい。：03/08/01 01:08

152のように--html-splitでファイル分割して全文検索するようにしたのですが、
titleに検索する文字があるとスレ全部を表示することになってしまします。

titleをthread～などにリネームすればいいのでしょうが、
title部分を検索対象から外す方法はあるのでしょうか？

412 ：あぼーん：あぼーん

あぼーん

413 ：たく：03/08/06 23:47

以下のコマンドを入力するとエラーメッセージが出力されてしまいます。
mknmzのダウンロードがうまくいってないのかもしれないのですが、
どうしたらいいのかわかりません。
どうしたらうまくいくのか教えてください。お願いします。
C:\>mknmz --help

Can't locate File/MMagic.pm in @INC (@INC contains: .
C:/Perl/lib
C:/Perl/site/ib) at C:\usr\local\namazu\bin/mknmz line 34.
BEGIN failed--compilation aborted at C:\usr\local\namazu\bin/mknmz
line 34.

414 ：名無しさん＠お腹いっぱい。：03/08/06 23:57

>>413
どうすればって、書いてあるとおりのエラーに
対処すればいいだけやん。

まずは、自分が書いた>>418の内容をWebブラウザ
で文字サイズ最大で見てみること。

それでもわからないならセンスないからヤメトキナ！
英語だからとか、そんな問題じゃないからな。

415 ：名無しさん＠お腹いっぱい。：03/08/07 00:45

>>413
インストールはどういう手順でやった？

416 ：名無しさん＠お腹いっぱい。：03/08/10 06:06

>>413
漏れと同じだ。。
同じ悩んでいた人がいるとは。。

漏れは、Perlが最初から入ってあったのでnamazuをNMZSETUP.BATでインストール
その後、kakasiをインストール
で、そこでエラーが出てしまった。

Build 600以降の ActivePerl を使用する場合、事前にインストーラを
install しておく必要があります。
<http://www.ActiveState.com/download/contrib/Microsoft/NT/InstMsi.exe>

というのを見逃していたので、その後に上のをインストール
それでも駄目だったので

Perlを最新v5.8.0で再インストール
その時にPPM3はなんだか分からなかったのでインストールせず

それでも駄目だった・・

417 ：名無しさん＠お腹いっぱい。：03/08/10 06:19

つーか、俺はWinXpだからスレ違いだったｗ
キーワードを変えてぐぐってみたら
XPのほうはPPMのインストールがおかしいらしい

ttp://www.namazu.org/ml/namazu-win32-users-ja/msg00908.html

駄目だこりゃ

418 ：名無しさん＠お腹いっぱい。：03/08/10 06:19

スレじゃなく板違いか

419 ：416：03/08/10 06:20

>>413
あ、これ見ると413のもWindowsかｗ

420 ：名無しさん＠お腹いっぱい。：03/08/10 10:54

>>416
Namazu for Win32にはまだActivePerl 5.8用のperl moduleは含まれて
いないから別途入手する必要がある。入手先は

http://www.namazu.org/ml/namazu-win32-users-ja/msg01528.html

に書いてある。

421 ：416：03/08/10 15:29

>>420
ありがとう。
一応入手して試してみたけど
相変わらず
>Error: no suitable installtion target found for package …
エラー出て駄目だった・・

422 ：名無しさん＠お腹いっぱい。：03/08/12 23:46

UNIX環境で作成したindexを、Windowsから使用するときに問題になるのが、
/hoo/bar/hoge.txt
c:\hoo\bar\hoge.txt
の違いなのですが、これを何とかする方法はありませんか？
Serch-S for namazuで必ずhoo\bar\hoge.txtを読みに行って失敗します。
相対指定や、ドライブ名付加（インデックスのURIに文字を付加する）
というような機能はありませんか？

423 ：あぼーん：あぼーん

あぼーん

424 ：あぼーん：あぼーん

あぼーん

425 ：名無しさん＠お腹いっぱい。：03/08/16 05:39

namazu-users-jpに同じ話がでてたよ

426 ：名無しさん＠お腹いっぱい。：03/08/17 19:00

>>425
そうですか。
調べてみます。

427 ：名無しさん＠お腹いっぱい。：03/08/25 09:55

意外なところで使われているのね。
http://www.k-1gp.net/namazu.cgi

428 ：411：03/08/28 12:21

html.plをいじってなんとかtitle(subject)を検索しないようできました。
お騒がせしました。

429 ：名無しさん＠お腹いっぱい。：03/08/29 22:00

mknmz --helpと入力すると
No Perl script found in inputとでます。
今まではちゃんと正常に表示されていました。
Perl、kakasi、namazu、の順でバージョンもあわせ
インストールしなおしたのですが、
やはり同じ表示が出ます。
今までは正常だったのですが急におかしくなりました。
どうしたら正常になりますか？

430 ：名無しさん＠お腹いっぱい。：03/08/29 22:24

.mknmzrc の設定を見直す

431 ：名無しさん＠お腹いっぱい。：03/09/07 19:02

pnamazuを使えばgrep機能が使えるけど、grepの結果が全て出力されるので
非常に検索結果が見づらくなる・・・
googleみたいに綺麗な検索結果を出すようにするパッチって誰か作ってないかな？

それとwvHtmlを使えばたいていのword文章を変換できるけど、古いバージョンの
ものは変換できなかったり、途中でエラーになったりと不便。
漏れはwordからhtmlやtext形式で保存して、それをmknmzに食わせています。

432 ：名無しさん＠お腹いっぱい。：03/09/11 16:41

スレの趣旨とずれているかもしれませんが
ここで質問させていただきます

PerlからChasenを利用したいと思い
Text::ChaSenを導入しましたが、

[user@localhost]# perl -MText::ChaSen
Can't load '/usr/lib/perl5/site_perl/5.6.1/ia64-linux/auto/Text/ChaSen/ChaSen.so' for module Text::ChaSen: /usr/local/li
b/libchasen.so.0: undefined symbol: cerr at /usr/lib/perl5/5.6.1/ia64-linux/DynaLoader.pm line 206.
at - line 0
Compilation failed in require.
BEGIN failed--compilation aborted.

このように表示されてしまいます
Redhat7.2
Perl5.6.1
chasen-2.3.3
Text-Chasen-1.03
を利用しています

Chasen単体では正常に動作するのですが、Perlからうまく動かせない理由がよくわかりません
解決策か、正常に動作する環境などを教えていただけないでしょうか?

433 ：名無しさん＠お腹いっぱい。：03/09/24 03:59

ローカルでindex作成して、サーバーにアップロードしようと思い、index作成には成功したのですが、
それをアップロードして検索すると、検索自体は出来るんですが、C:\～という、ローカルのパスが出てきてしまいます。
ローカルのものを何も手をつけずにアップロードしたので、当たり前かもしれませんが、
パスをサーバーのものに書き換えるときどこをいじったらいいかわからないです。
ご存知の方、よろしくお願いします。

434 ：名無しさん＠お腹いっぱい。：03/09/24 04:56

>>433の件ですが、NMZ.field.uriの内容を変更する+再構築することによって解決しました。
なぜか.namazurcにReplaceを使う方法がうまくいかず、悩んでいましたが、当面は面倒くさくても前者の方法を利用します。

#後者の方法の解決方法をご存知の方は教えてくださるとうれしいです。

435 ：名無しさん＠お腹いっぱい。：03/09/24 07:11

>>433
チェックするとすれば
・ .namazrc の置場所が正しいか
・ .namazrc のパーミッションが正しいか
・ Replace の書式が正しいか
くらいでしょうか。

436 ：名無しさん＠お腹いっぱい。：03/09/30 21:49

pdf(pdf 1.5)の検索で、検索結果のtitleがおかしくなってしまいます。
pdf.plをみていたら pdfinfoの出力がおかしかったのでpdfinfo使わないようにして、
タイトルをpdfの最初の行から取るようにしたんですが、どうもうまくいかない。

よくみると、pdftotextを -rawで使っていたので、それを外したらうまくいったんですが
-rawでやってるのはなんか意味があるんですかね？

437 ：：03/10/08 20:34

言語の切り替えは、
LANGUAGE LC_ALL LC_MESSAGES LANG
の順に環境変数を参照して行っているようですが、
これらの変数って、一般的なロケール関係のライブラリでも使われているのでしょうか？

LC_* と LANG はよく見かけるのですが、
LANGUAGE 環境変数は namazu に関連したところでしかお目にかかったことがありません。

438 ：名無しさん＠お腹いっぱい。：03/10/08 20:37

2.0リリース前夜になぜか開発者の皆さんが原理主義に
取り憑かれてしまったためそういう仕様になりました。

いまは皆さん現実主義になってますので、devel-jaで
声をあげると、近くに控えたマイナーリリース(2.2.x?)で
反映されるかもしれません。

439 ：名無しさん＠お腹いっぱい。：03/10/08 20:40

mknmzすると一時的に結構なディスクスペースを
食いますよね。インデックスを吐くディレクトリと、
この一時スペースを分けたいのですが、可能でしょうか？

440 ：名無しさん＠お腹いっぱい。：03/10/08 20:50

改造してください。そうすればできます。

441 ：名無しさん＠お腹いっぱい。：03/10/08 22:32

mknmzを読むのはつらいぞ。

442 ：：03/10/08 22:39

>>441
そうでもないよ。普通の perl スクリプトじゃん。

443 ：名無しさん＠お腹いっぱい。：03/10/09 00:42

>>437
LANGUAGEは一部のLinuxでしか使ってるのを見たことが無いけれど、
ほかはcatgetsとかgettextとかが参照してると思うよ。

自分が裏をとってるのはcatgetsだけだけれど。
某CGIはLANGの設定を変化させることで表示する言語の切り替えを
するようにしているもので。

444 ：名無しさん＠お腹いっぱい。：03/10/10 13:51

>>437
環境変数LANGUAGEはGNU gettext（及びGNU libc）の拡張。
glibc 2.2とgettext 0.10.36以降で微妙に仕様が変わっているが、
詳細は忘れた。（爆）

ちなみにNamazu 2.0.6以降では日本語処理（わかち書きとか）を
するかどうか判断するためにLC_MESSAGESではなくLC_CTYPEを見る
ようになっている。--indexing-langオプションも使えるけどね。

445 ：環境変数 LANGUAGE：03/10/10 14:51

http://lists.debian.or.jp/debian-devel/200104/msg00065.html
namazu とは直接関係の無いところまで解説してくださってありがとうございます。
私は Debian GNU/Linux ユーザで、メーリングリストのアーカイブで上のような投稿を見つけました。

-------- 以下引用 ---------
LANGUAGE は、ロケールを決定するための非標準 (GNU 独自) の環境変数で、
複数の言語をコロン「:」でつないで指定し、第2希望の言語、第3希望の
言語、... を指定できるのが特徴です。

446 ：名無しさん＠お腹いっぱい。：03/10/10 15:31

だから、2.x開発中にISO-2022-JPを用意しようと思ってgettextまわりでとらぶって、
その反省から妙な原理主義が開発者に蔓延してたんだよ。LANGUAGE
なんて使う必要なかったんだけどね。だから誰か大きな声あげれば
次のリリースできえるってば。

447 ：名無しさん＠お腹いっぱい。：03/10/10 15:46

>>446
お前うざい。

448 ：名無しさん＠お腹いっぱい。：03/10/10 15:51

>>446-447はコミッターのかたでつか？
争いはプロジェクト内でおながいしまつ。

449 ：名無しさん＠お腹いっぱい。：03/10/14 02:37

どなたかWindows上でActivePerlとNamazu-win使わずに
Cygwin上でnamazuコンパイルして使ってる人いらっしゃいます？

450 ：名無しさん＠お腹いっぱい。：03/10/14 03:05

UNIX 上と同じ方法でビルドできるよ。
普通に configure

451 ：名無しさん＠お腹いっぱい。：03/10/14 15:35

>>450
ディレクトリパスの表記の違いの関係でうまく動かんとか聞いたのだが
んじゃ試してみる。さんくす

452 ：名無しさん＠お腹いっぱい。：03/10/14 23:16

ナマズがインストールされていない他のパソコンから検索しようとするとき
http://（ナマズがインストールされているパソコンのＩＰアドレス）/cgi-bin/namazu.cgi
にアクセスすると検索画面が表示されるのですが、
Searchボタンを押すと
http://127.0.0.1/cgi-bin/namazu.cgi?query=a&whence=0&max=20&result=normal&sort=score
につながり、ページを表示できませんとなります。
しかし自分で127.0.0.1をナマズがインストールされているパソコンのＩＰアドレスにすると正常に検索結果が表示されます。
Searchボタンを押したとき
http://127.0.0.1/cgi-bin/namazu.cgi?query=a&whence=0&max=20&result=normal&sort=score
ではなく
http://（ナマズがインストールされているパソコンのＩＰアドレス）/ｃgi-bin/namazu.cgi?query=a&whence=0&max=20&result=normal&sort=score
にするにはどのように設定したらよろしいでしょうか？

453 ：名無しさん＠お腹いっぱい。：03/10/15 00:27

>>452
質問するときはNamazuのバージョンやインストール対象のOS、インストール方法くらいは書いたほうがいいと思うんだけれど。

んで、本題。
ソースを表示してformタグをよく見てみたら?
うちの(2.0.12/FreeBSD 4.8,portsにてインストール)を見てみた限りではそういう状況は置き得ないような気がするんだけれど。
あるいは、ブラウザの問題ではないかな。

454 ：名無しさん＠お腹いっぱい。：03/10/15 00:33

WWW鯖の設定のほうがあやしいような気がする。

455 ：名無しさん＠お腹いっぱい。：03/10/23 22:11

複数インデックスを検索対象とするため
NMZ.head.ja　及び　NMZ.headファイルを変更しました。
検索画面ではチェックボックスが表示され、
チェックも入れることができるのですが、
検索結果画面ではチェックが外れ、
複数インデックスが検索できません。
どのようにしたら複数インデックスを検索対象にすることができますか？
ちなみにOSはWindows2000です。

456 ：455：03/10/24 21:27

ネットで検索したら以下のように載っていました。
しかし私はＯＳがwindowsのため、catコマンドが使えません。
どのようにしたらよいでしょうか？
> > <li><input type="checkbox" name="idxname" value="foo" checked>foo
> >
> > と記述して checked を有効にしても、ブラウザ上のチェックボックスが
> > チェックされません。
>
> これを実現するには、
>
> % cat NMZ.head.ja NMZ.body.ja NMZ.foot.ja > index.html
>
> などとして、静的にHTMLを生成して、
> この index.html の <form> ... </form> の中で、
> checked を有効にしてみて下さい。

457 ：名無しさん＠お腹いっぱい。：03/10/24 22:47

>>456
catというのは引数に与えられたファイルを連結するコマンドです。
例では、その出力をリダイレクトしてindex.htmlというファイルを作っています。

何をすべきか分かりましたか？

458 ：名無しさん＠お腹いっぱい。：03/10/25 07:36

はい、もう来ません。

459 ：名無しさん＠お腹いっぱい。：03/10/27 17:07

別サーバを検索する(例:2ちゃんねるのスレッド検索など)にはどうしたらよいのでしょうか?

460 ：名無しさん＠お腹いっぱい。：03/10/27 19:08

wgetかなんかで取ってこい。ローカルにないファイルは無理。
nfsはドーなるんだ、とかいうのはﾅｼ。

461 ：名無しさん＠お腹いっぱい。：03/10/27 21:34

wgetってなんですか?
あと、2ちゃんねるのスレッドを検索するには、どうすればよいのでしょうか?

462 ：名無しさん＠お腹いっぱい。：03/10/27 21:38

wgetもわからないお前はスレ表示した状態でCtl+Fで充分。

463 ：名無しさん＠お腹いっぱい。：03/10/27 21:50

>>459
２ちゃんねるに限って言えば、既にいくつか検索システムがあるので、
そちらを使った方が良いと思われ。
いや、煽りとかそういうのじゃなくて、マジで。

464 ：名無しさん＠お腹いっぱい。：03/10/27 22:18

>>463
自分で検索結果の画面を作りたいので･･･。

465 ：名無しさん＠お腹いっぱい。：03/10/27 22:20

なんのために？
wgetも知らない、namazuのマニュアルもまともに読めないﾔｼが
そんな大それた事を考えちゃ駄目。まず自分の実力を知ってください。

466 ：名無しさん＠お腹いっぱい。：03/10/27 22:39

あんまりあちこちに迷惑かけんなよ。

467 ：名無しさん＠お腹いっぱい。：03/10/27 23:12

（　ﾟдﾟ）???????????
http://pc.2ch.net/test/read.cgi/linux/1067259537/

468 ：名無しさん＠お腹いっぱい。：03/10/28 05:23

どうしてそういう自己満足のスレ立てちゃうかなぁ…

469 ：名無しさん＠お腹いっぱい。：03/10/28 05:29

レン鯖で有名なアイツか？

470 ：名無しさん＠お腹いっぱい。：03/11/16 22:58

すいません。ちょっとText::ChaSenの利用で分からないところがあるので質問させてください。

環境
　TurboLinux7 Server
　Perl 5.6.1

ソースファイル
　chasen-2.3.3.tar.gz
　Text-ChaSen-1.03.tar.gz

chasenの展開、および、インストール
　$tar zxvf chasen-2.3.3.tar.gz
　$cd chasen-2.3.3
　$./configure
　$make
　#make install

Text-ChaSenの展開、および、インストール
　$tar zxvf Text-ChaSen-1.03.tar.gz
　$cd Text-ChaSen-1.03
　$vi Makefile.PL
　　　'LIBS' => ['-L/usr/local/lib -lchasen']
　$perl Makefile.PL
　$make
　#make install

ここまでうまくいき、http://namazu.org/doc/tutorial.htmlにあるように perl -MText::ChaSen -e '' を入力して何も表示されなければOKなのですが、以下のようなエラーが出ました。

#perl -MText::ChaSen -e ''
Can't load '/usr/lib/perl5/site_perl/5.6.1/i386-linux-thread-multi/auto/Text/ChaSen/ChaSen.so' for module Text::ChaSen: /usr/local/lib/libchasen.so.0:undefined symbol: cerr at /usr/lib/perl5/5.6.1/i386-linux-thread-multi/DynaLoader.pm line 206.
at -e line 0 Compilation failed in require. BEGIN failed--compilation aborted.

471 ：名無しさん＠お腹いっぱい。：03/11/16 22:59

http://www.daionet.gr.jp/~knok/chasen/ より引用。
　【ChaSen 2.3.x 以降より、ChaSen 側で C++ template libray darts を利用するようになり、この module を build する際に C++ libray のリンクが必要になりました。
　　Makefile.PL の WriteMakefile に 'LD' => 'c++' 等を追加するか、LIBS に -lstdc++ 等を追加して下さい。】
とあったので、Makefile.PLの該当個所を以下のように直し再インストールしました。
　'LIBS' => ['-L/usr/local/lib -lchasen -lstdc++']
これでもだめだったので、以下のような２通りでも試してみました。
　1. 'LIBS' => ['-L/usr/local/lib -lchasen'],
　　　'LD' => 'c++'
　2. 'LIBS' => ['-L/usr/local/lib -lchasen -lstdc++'],
　　　'LD' => 'c++'
しかし、まだ、perl -MText::ChaSen -e '' で上記のようなエラーが出ます。
あと、chasen-2.3.3のREADMEにenv CC=gcc CFLAGS="-02 -Wall" ./configure
とあるったので、その方法でconfigureしてからインストール、Text-ChaSenの
インストールをしても同じエラーが出ました。
調べたところ、この３つのファイルはきちんと存在しています。
/usr/lib/perl5/site_perl/5.6.1/i386-linux-thread-multi/auto/Text/ChaSen/ChaSen.so
/usr/local/lib/libchasen.so.0
/usr/lib/perl5/5.6.1/i386-linux-thread-multi/DynaLoader.pm

また、http://www.daionet.gr.jp/~knok/chasen/ には「Text::ChaSen は ChaSen 2.0 専用です。」
と書かれているので、2.3.3では無理なのかなと思いましたが、
「ChaSen 2.3.x 以降より、ChaSen 側で C++ template libray darts を利用するようになり、・・・」
と2.3.xの説明があるので使えないことはないと思います。

どうしても分からないので、どなたか御教授お願いできますか？

472 ：名無しさん＠お腹いっぱい。：03/11/16 23:00

>>10 を見て ATOK16の辞書を合併したら mknmz がやたら早くなったよ、正直かんどうした。

473 ：名無しさん＠お腹いっぱい。：03/11/17 11:45

>>470-471
以下を実行すると何ていわれる?
ldd /usr/local/lib/chasen.so
ldd /usr/lib/perl5/site_perl/5.6.1/i386-linux-thread-multi/auto/Text/ChaSen/ChaSen.so

474 ：470-471：03/11/17 23:27

>>473
コマンドを実行してみました。
ldd /usr/local/lib/chasen.so
　　　ldd: /usr/local/li/chasen.so: No such file or directory
ldd /usr/lib/perl5/site_perl/5.6.1/i386-linux-thread-multi/auto/Text/ChaSen/ChaSen.so
　　　libchasen.so.0 => /usr/local/lib/libchasen.so.0 (0x40005000)
　　　libstdc++.so.5 => /usr/local/lib/libstdc++.so.5 (0x40106000)
　　　libm.so.6 => /lib/libm.so.6 (0x401d8000)
　　　libgcc_s.so.1 => /usr/local/lib/libgcc_s.so.1 (0x401fa000)
　　　libc.so.6 => /lib/libc.so.6 (0x40203000)
　　　libiconv.so.2 => /usr/lib/libiconv.so.2 (0x4032a000)
　　　/lib/ld-linux.so.2 => /lib/ld-linux.so.2 (0x80000000)

/usr/local/lib/chasen.so は typo でしょうか？
一応、ldd /usr/local/lib/libchasen.so も実行してみました。
ldd /usr/local/lib/libchasen.so
　　　libiconv.so.2 => /usr/lib/libiconv.so.2 (0x40118000)
　　　libc.so.6 => /lib/lic.so.6 (0x401a5000)
　　　/lib/ld-linux.so.2 => /lib/ld-linux.so.2 (0x80000000)

475 ：470-471：03/11/17 23:28

lddコマンドについてよく分からなかったので調べてみました。
lddコマンド：
　あるプログラムがどのような共有ライブラリを利用するのかを調べるコマンド。
　システムが共有ライブラリを検索する場所は、/etc/ld.so.confに設定されている。
　（http://www.idg.co.jp/lw/weekly_2/030916/より抜粋）

そこで、自分の/etc/ld.so.confを見てみました。
　　　/usr/X11R6/lib
　　　/usr/lib/gconv
　　　/usr/lib/qt/lib
　　　/usr/local/lib
　　　/usr/i386-linuxaout/lib
　　　/usr/lib/libc5-compat
　　　/usr/lib/Omni

/usr/lib/perl5/site_perl/5.6.1/i386-linux-thread-multi/auto/Text/ChaSen
がないから共有ライブラリが見つからないのかと思い、/etc/ld.so.confに追加して
perl -MText::ChaSen -e ''と実行してみました。しかし、結果は変わりませんでした。
パスを追加すればいいってものではないのかもしれません。もう少し自分でも調べてみます。

476 ：名無しさん＠お腹いっぱい。：03/11/18 10:30

>>470
で出てるのは cerr というシンボルがみつからない、というエラーで、
cerr は C++ で使われる extern 変数。なので C++ のライブラリが何か
おかしなものをリンクしてるかとおもって ldd してもらったんだけど、
そうでもなさそうだ...

自分でインストールした chasen コマンド自体は動くよね? もし動くのなら
それも ldd してみて欲しい。

477 ：名無しさん＠お腹いっぱい。：03/11/18 11:13

/usr/localにコンパイルに使ったであろうシステム標準のgccとは違うバージョンのgccが入っていて、そっちのlibstdc++をリンクしてるのが原因だろ。統一しろ。

478 ：名無しさん＠お腹いっぱい。：03/11/18 18:32

>>474
> 一応、ldd /usr/local/lib/libchasen.so も実行してみました。
> ldd /usr/local/lib/libchasen.so
> 　　　libiconv.so.2 => /usr/lib/libiconv.so.2 (0x40118000)
> 　　　libc.so.6 => /lib/lic.so.6 (0x401a5000)
> 　　　/lib/ld-linux.so.2 => /lib/ld-linux.so.2 (0x80000000)

libstdc++.soが出てこないのが、すんごく気になるなあ…
ldd /usr/local/bin/chasenなら出てくるけど。

479 ：478：03/11/18 19:27

>>478
libtool 1.5でlibtoolize --force --copyして、aclocal(1.6.3)と
autoconf(2.57)を実行して、./configure;make;make installして、
できたlibchasen.soをlddしてみたら、ちゃんとlibstdc++.soが出て
きましたよ。1.4系のlibtoolがまずいということでよろしいのかな？

480 ：名無しさん＠お腹いっぱい。：03/11/20 00:25

>>472
漏れも迎合してATOK辞書統合やってみた。体感的に確かに
早くなった気がするけど、これの論理的な説明ってできる？
辞書が充実することで、分かち書きが早くなるってことですよね。

481 ：名無しさん＠お腹いっぱい。：03/11/20 01:35

誰か前後でtimeとった結果をきぼーんぬ。

482 ：名無しさん＠お腹いっぱい。：03/11/20 07:49

ATOK辞書を統合すると一語としてそのまま認識されるものが、
それ以前はいろいろ分割してしまっていたからじゃない?

483 ：gambling：03/11/20 11:45

484 ：gambling：03/11/20 11:47

485 ：名無しさん＠お腹いっぱい。：03/11/21 00:36

namazuのTarballをダウンロードしてきて、　./configureまでは正常に終わったんですが
makeしたところで以下の文がmake中に出ました。
（make自体は普通に最後までいったようです）

/../lib -I.///nmz　　　　　-g -02 -Wall -pedantic -c usage.c
usage.c:関数　 'show_usage'内：
usage.c:51:警告　文字列長　'1544'は、長さ　'509'（ISO C89　コンパイラのサポート要件）より大きくなっています

上のようなのが出ても、makeが最後まで行って終了すれば大丈夫でしょうか？
TL10 Basic使ってます。

486 ：名無しさん＠お腹いっぱい。：03/11/21 03:36

and検索ってどうやってやるんですか？

namazu xxxx yyyy
ってやっても「インデックスが開けませんでした」って出るだけなんですが・・・。
namazurcでindexの位置は指定してあって、実際一単語での検索

namazu xxxx

だと、ちゃんと検索できるんですが・・・。

487 ：名無しさん＠お腹いっぱい。：03/11/21 10:09

namazu 'xxxx yyyy'
shell 引数の問題。

488 ：名無しさん＠お腹いっぱい。：03/11/22 22:48

470です。

遅くなりましたが、問題解決しましたので結果を報告します。

症状：
chasenのperlモジュールインストール後の確認コマンド、
perl -MText::ChaSen -e ''でChaSen.soを読み込めないエラーが発生。

原因：
477氏のおっしゃる通り、２つの異なるバージョンのgccの共存
（何故477氏がgccの共存にお気づきになったのか疑問です。）

解決方法：
システム標準のgccの削除
/usr/bin/cc を /usr/local/bin/gccへのシムリンクとする

経緯：
冗長ですが、以下に示します。

489 ：名無しさん＠お腹いっぱい。：03/11/22 22:49

>>476
自分でインストールしたchasenコマンドをlddしてみました。
$ldd /usr/local/bin/chasen
　　　libchasen.so.0 => /usr/local/lib/libchasen.so.0 (0x40017000)
　　　libiconv.so.2 => /usr/lib/libiconv.so.2 (0x4012e000)
　　　libstdc++-libc6.2-2.so.3 => /usr/lib/libstdc++-libc6.2-2.so.3 (0x401bb000)
　　　libm.so.6 => /lib/libm.so.6 (0x40207000)
　　　libc.so.6 => /lib/libc.so.6 (0x40229000)
　　　/lib/ld-linux.so.2 => /lib/ld-linux.so.2 (0x40000000)

>>477
確かに先日、gccをgcc-3.3.2にアップグレードしました。そのため、以下のコマンドにより
旧バージョン（gcc-2.95.3-8）のアンインストールをしました。
（参照：http://www.zoi.to/~zoi/widestudio/ml/200202-/msg00067.html）
#rpm -qa | grep gcc
　　　gcc-2.95.3-8
　　　gcc-g++-2.95.3-8
　　　gcc-objc-2.95.3-8
#rpm -e gcc-g++-2.95.3-8
#rpm -e gcc-objc-2.95.3-8
#rpm -e gcc-2.95.3-8

そして、chasen-2.3.3から入れなおしました。
$cd chasen-2.3.3
$./configure
$make
#make install

490 ：名無しさん＠お腹いっぱい。：03/11/22 22:52

$cd Text-ChaSen-1.03
$vi Makefile.PL
　　　'LIBS' => ['-L/usr/local/lib -lchasen -lstdc++'] と変更する
$perl Makefile.PL
$make
cc -c -D_REENTRANT -fno-strict-aliasing -I/usr/local/include -D_LARGEFILE_SOURC
E -D_FILE_OFFSET_BITS=64 -O2 -march=i586 -DVERSION=\"1.03\" -DXS_VERSION=\"1.0
3\" -fPIC -I/usr/lib/perl5/5.6.1/i386-linux-thread-multi/CORE ChaSen.c
make: cc: Command not found
make: *** [ChaSen.o] Error 127

とエラーが出たので、$export CC=gcc; makeを実行してみました。
しかし、同じエラーが出ました。

$make CC=/usr/local/bin/gcc とすると以下のようになりました。
/usr/local/bin/gcc -c -D_REENTRANT -fno-strict-aliasing -I/usr/local/include -D
_LARGEFILE_SOURCE -D_FILE_OFFSET_BITS=64 -O2 -march=i586 -DVERSION=\"1.03\" -D
XS_VERSION=\"1.03\" -fPIC -I/usr/lib/perl5/5.6.1/i386-linux-thread-multi/CORE C
haSen.c
Running Mkbootstrap for Text::ChaSen ()
chmod 644 ChaSen.bs
rm -f blib/arch/auto/Text/ChaSen/ChaSen.so
LD_RUN_PATH="/usr/local/lib" cc -shared -L/usr/local/lib ChaSen.o -o blib/arch
/auto/Text/ChaSen/ChaSen.so -L/usr/local/lib -lchasen -lstdc++
/bin/sh: cc: command not found
make: *** [blib/arch/auto/Text/ChaSen/ChaSen.so] Error 127

491 ：名無しさん＠お腹いっぱい。：03/11/22 22:53

前回と異なり、初めは/usr/local/bin/gccでコンパイルしています。
また、ccでのエラー出力もmake、/bin/sh の部分が異なっています。
エラー個所を調べようとChaSen.o、blib/arch/auto/Text/ChaSen/ChaSen.soファイルの
内容を調べようとしました。しかし、共にバイナリファイルであったため、
ファイルの内容が見れず、どうしてエラーになっているかを特定することができませんでした。

gccのrpmパッケージをアンインストールしたときに、ccも一緒にアンインストールしてしまったのだと思い、
gccを最初からインストールし直しました。
$rm -rf gcc-3.3.2
$tar zxvf gcc-3.3.2.tar.gz
$cd gcc-3.3.2
$mkdir build
$cd build
$../configure
$make bootstrap
#make install

そしてもう一度、Text-ChaSen-1.03のインストールを試みました。
しかし、同じエラー（make: cc: Command not found）、（/bin/sh: cc: command not found）が出ました。

調べたところ、以下のサイトが見つかりました。
http://search.luky.org/obu/msg01464.html
「それでしたら gcc が cc でリンク張られて無いだけなので、ルート権限にて
　ln -s /usr/bin/gcc /usr/bin/ccで大丈夫と思います。」

従って、自分の環境に合わせ、ルート権限にてコマンドを実行後、
Text-ChaSen-1.03のインストールを試みたところ、成功しました。
#ln -s /usr/local/bin/gcc /usr/bin/cc
$make
#make install

492 ：名無しさん＠お腹いっぱい。：03/11/22 22:54

最初、質問する切っ掛けとなったコマンド（perl -MText::ChaSen -e ''）もエラーが出なくなりました。

>>478
libtool、libtoolize、aclocalについて気になったので調べました。
御教授いただいたコマンドを実行する前のldd実行結果です。
$ldd /usr/local/lib/libchasen.so
　　　libiconv.so.2 => /usr/lib/libiconv.so.2 (0x4010a000)
　　　libgcc_s.so.1 => not found
　　　libc.so.6 => /lib/libc.so.6 (0x40197000)
　　　/lib/ld-linux.so.2 => /lib/ld-linux.so.2 (0x80000000)

$ldd /usr/local/bin/chasen
　　　libchasen.so.0 => /usr/local/lib/libchasen.so.0 (0x40017000)
　　　libiconv.so.2 => /usr/lib/libiconv.so.2 (0x40120000)
　　　libstdc++.so.5 => /usr/local/lib/libstdc++.so.5 (0x401ad000)
　　　libm.so.6 => /lib/libm.so.6 (0x40269000)
　　　libgcc_s.so.1 => /usr/local/lib/libgcc_s.so.1 (0x4028b000)
　　　libc.so.6 => /lib/libc.so.6 (0x40294000)

$perl -MText::ChaSen -e ''は実行できるようになったものの、依然
ldd /usr/local/lib/libchasen.soでlibstdc++.soが出てきません。
また、libgcc_s.so.1は/usr/local/lib/に存在しているにもかかわらず、
not found になっています。

493 ：名無しさん＠お腹いっぱい。：03/11/22 22:55

478氏の行っていることは、ライブラリを置き換えるMakefileの作成、
autoconfを拡張するためaclocalによりaclocal.m4ファイルを作成し、
autoconfによりconfigureファイルの作成した後
chasenをインストールしていると理解しました。

自分でも実行しようと思い、ソフトウェアのアップグレードを試みました。
libtool　　　1.3.5-3 → 1.5
automake　　　1.4-12 → 1.7.9
autoconf　　　2.13-6 → 2.57

・libtool
#rpm -e libtool-1.3.5-3
エラー: これらのパッケージを削除すると依存性を破壊します:
libltdl.so.0 は openldap-servers-2.0.27-2 に必要とされています

・automake
#rpm -e automake-1.4-12
エラー: これらのパッケージを削除すると依存性を破壊します:
automakeは gettext-0.10.38-3 に必要とされています

・autoconf
#rpm -e autoconf-2.13-6

494 ：名無しさん＠お腹いっぱい。：03/11/22 22:56

autoconfのみアンインストールを行えました。
しかし、libtoolをアンインストールをするためにopenldapを削除して・・・
としてたらきりがないので、アップグレードをしないでコマンドを実行することにしました。
また、削除したautoconfについても、turbopkgを行いインストールし直しました。

$cd chasen-2.3.3
$libtoolize --force --copy
　　　You should update your `aclocal.m4' by running aclocal.
$aclocal
$libtoolize --force --copy
$autoconf
$./configure
$make
　　　cd . && /bin/sh ./config.status config.h
　　　Usage: ./config.status [--recheck] [--version] [--help]
　　　make: *** [stamp-h1] エラー 1

http://pc.2ch.net/test/read.cgi/linux/1022744633/121 に同じエラーが出ている方がいました。
しかし、http://pc.2ch.net/test/read.cgi/linux/1022744633/130 に
「automakeのupdateをしていた」とあります。
automakeのバージョンの問題かもしれないので、もうちょっと調べてみます。

以上です。何かお気づきの点ございましたらコメントよろしくお願いいたします。

495 ：名無しさん＠お腹いっぱい。：03/11/27 07:20

cygwinでコンパイルしたものを使用しています。
mknmzで大量のドキュメントのインデックスを作成するとCPU負荷が100%になってしまいます。
プロセス優先度を下げても他のプロセスの反応速度が鈍くなってしまうので、これをなんとか回避できないかと考えています。
インデックスの作成に時間がかかってもよいので、ある一定期間ごとにsleepをかけてCPUを他のプロセスに開放するような設定はできないでしょうか？

496 ：名無しさん＠お腹いっぱい。：03/11/27 20:35

namazuの検索結果を、要約ではなく検索に指定された単語を全て含む文のみを
抜き出して表示するにはどうしたらいいんでしょうか？

要約も文字数を変えたりは出来るんですが、必要な文だけ抜き出して
その文を全て表示する事ができません。

497 ：名無しさん＠お腹いっぱい。：03/11/27 22:32

cygwinといえば、ChaSenがCygwin上でコンパイルできないことない？
というかできないんだけど、元々無理なの？

498 ：名無しさん＠お腹いっぱい。：03/11/27 23:17

darts ライブラリを使うようになったバージョン以降は
Cygwin でのコンパイルに対応してない。

499 ：名無しさん＠お腹いっぱい。：03/11/27 23:21

>>496
sary 使えばできると思う。改造してみ。

500 ：名無しさん＠お腹いっぱい。：03/11/27 23:59

>>499
レスありがとうございます。

・・・＿|￣|○＜ﾃﾞｷﾅｲﾎﾟ

501 ：名無しさん＠お腹いっぱい。：03/11/28 11:03

namazuの検索結果表示を改造するために　NMZ.result.normal.jaをいじったんですが
どうしても

検索結果
参考ヒット数：　[ｘｘｘ：yyy]
検索式にマッチするn個の文章が見つかりました。

以上3行が消せません。
どのファイルをいじればいいんでしょうか？
沢山あってどれだか・・・

502 ：名無しさん＠お腹いっぱい。：03/11/28 11:13

>>501
知るかボケ

503 ：名無しさん＠お腹いっぱい。：03/11/28 14:44

　　　　　　　　 ∧＿∧　　　　　　　　　 ∧＿∧
　　　　　　　　　（　　　　）　　　　　　　　（　　　）　すみません、連れて帰ります
　　　　　　　　　　）::::::::（　　　　　　　　　）:::::::（
　　　　　　　　／::::::::::::;＼　　　　　　／::::::::::::; ＼
　　　　　　　//　|:::::::::::: ｌ | 　　　　　//´|:::::::::::: ｌ |
　　　　　　 | |　/::::::::::::/| | 　　　　 //　/::::::::::::/| |
　　　　　　Ｕ　|::::::::::/　U 　　　　Ｕ　 |::::::::::/　| |
　　　　　　　　　|::::||:::|　　| |　　　　| |　 |::::||:::|　Ｕ
　　　　　　　　　|::::||::| 　　| ∧∧／/　　|::::||::|
　　　　　　　　 | / | | 　　( ﾟдﾟ )/　　　| /.| |
　　　　　　　　 //　| | 　　|>>502/　　　//　 | |
　　　　　　　 //　　| | 　　|　/| |　　　// 　 | |
　　　　　　 //　　　| | 　 //　| |　　 //　　| |
　　　　　　 U　　　 U　　Ｕ　　Ｕ　　 U 　　 U

504 ：名無しさん＠お腹いっぱい。：03/11/28 14:49

>>501
ソース修正しる!

505 ：名無しさん＠お腹いっぱい。：03/11/28 19:26

>>504
Namazuのソースをいじるってことでしょうか？

506 ：名無しさん＠お腹いっぱい。：03/11/28 19:35

そ。output.cのprint_hitnum() や print_result() をみること。

507 ：名無しさん＠お腹いっぱい。：03/11/29 11:36

>>501
pnamazuだったら出来るって事を聞いた事あるかも・・・（うそかもしれない
または>>506のようにソースいじるとか

508 ：名無しさん＠お腹いっぱい。：03/11/29 18:49

>>501
PHPのNamazuインタフェース組み込み。
またはPerlからNamazu呼び出し。

509 ：名無しさん＠お腹いっぱい。：03/11/29 22:20

>>501
スタイルシートでdisplay:noneじゃだめ？

510 ：名無しさん＠お腹いっぱい。：03/11/30 00:09

PHPの話が出たところで質問。
PHPのNamazuモジュールって検索文字列の分かち書きは
自分でしないとダメ？

511 ：名無しさん＠お腹いっぱい。：03/11/30 12:38

そんなもんあるのね。

512 ：名無しさん＠お腹いっぱい。：03/11/30 21:05

>>510
自分でしないと駄目。
kakasiモジュールをいれて組み込みkakasi関数を使うと楽。
つか，バージョンアップ，移行が激しくめんどくさい罠。

513 ：名無しさん＠お腹いっぱい。：03/12/02 18:14

改行コードが「・(B」文字化けしてしまい困っています。
状況としてはnamazu-users-ja-MLに流れてた↓こちらと全く同じです。

http://www.namazu.org/ml/namazu-users-ja/msg03395.html

どなたか解決方法をご存じの方いませんか？

514 ：名無しさん＠お腹いっぱい。：03/12/03 03:45

>>513
修正すればよろしい。

515 ：名無しさん＠お腹いっぱい。：03/12/03 12:21

>>514
どこをどういう風に？

516 ：名無しさん＠お腹いっぱい。：03/12/03 13:51

ちゅーかNKFを通した直後のファイルでもすでにそうなってるのか、
MHonArcした後そうなるのか、問題を切り分けよう。

517 ：名無しさん＠お腹いっぱい。：03/12/03 18:00

>>516
どうもMHonArcを通した時点で化けるみたいです。
MHonArcの設定でしょうか。。。
Unicode（？xHHHH）形式に変換すると化けないこともわかりました。

いずれにしてもMHonArcの問題のようですので、
MHonArcスレに移動して聞いてみますね。

518 ：名無しさん＠お腹いっぱい。：03/12/06 17:12

gcnmz にすごく時間がかかっているのですが
(２時間経過して271243/502165 みたいな)
これは最初からindex作りなおしがいいですかね?
それとももう気にしないで、gcnmzなんかしない
方向がよいのでしょうか?

519 ：名無しさん＠お腹いっぱい。：03/12/06 19:00

gcnmzしたことないや。インデクスが不必要に大きくなるぐらいしか
不都合無いから。

520 ：名無しさん＠お腹いっぱい。：03/12/07 00:45

そんな大量のgznmzしたことないけどコメントをば。

もれは日記をnamazuで検索できるようにして、
インデックス作成は毎日2回、gcnmzは月1度でしてるけれど
そんなに時間がかかったことはない。
日記のファイル数なんてたかが知れているし、
ほとんど変更なんてないけれど長くても1分くらいでgcnmzは終わるね。

変更点があまりに多いならgcnmzよりも作り直しがいいんでないかな。

>>519
namazuのインデックス作成は消されたファイルは不要であることを示すビットを
立てるに過ぎなかったと思うけれど、不要ビットがたったものが増えたら検索の効率は
下がるんでないかな。
不要ビットがたっているものは表示しないだけで検索はしてるだろうし。

521 ：名無しさん＠お腹いっぱい。：03/12/07 13:15

うん。検索効率はちょっと下がるだろうね。でも俺の場合、
会社のウェブサーバで使ってるだけだから３万ファイルぐらいしかないし、
俺の環境だと実際の検索速度において有意な差はないと思うよン

522 ：名無しさん＠お腹いっぱい。：03/12/07 15:13

>>521
変更が激しいサイトだと検索効率の低下を感じるかもしれないけれど、
会社のウェブサイトだったらファイルが増えることはあってもほとんど変更はしないだろうしねぇ。
それに、近年ではプロセッサやディスクの処理能力はかなり高いから差があったとしても
誤差として扱える程度になってしまうのかもしれないな。
そう考えるとgcnmzするか否かは普通のサイトではあまり意味がないということになるのかな。

たとえば、2chのニュース速報板のような変化が激しいものの検索サイトを作ってると
gcnmzするかしないかが効いてくるのかな?

523 ：名無しさん＠お腹いっぱい。：03/12/07 18:35

>>522
2chみたいなファイル構造(URLは変わらないが、ファイルへの文字列追加がひんぱんにある)
だと、namazuは効率が悪いと思う。安直な思いつきだけど、前回のファイルdiffして差分のみ
インデクスに追加出来るといいのかも。前回分が丸々必要だから駄目か。

524 ：518：03/12/07 20:14

いろいろ参考になりますた。結局５時間ぐらい
かかりますた。実はディレクトリが他にもあって今回
やったところはデータは少ない方なのでgcnmz
するなら作り直したほうが早いような感じです。.
gcnmzしようと思ったは毎日のインデックス更新処理とかが
gcnmzしたら少しは早くなるのかなぁと思ったりしたもので。
検索もなんだか最近遅いような気がするし...
マシンを新しくしたほうがいいかなぁ...

525 ：名無しさん＠お腹いっぱい。：03/12/20 05:22

Namazuと組み合わせて使う為にChaSenをインストールしようとしています。
darts-0.2は
./configure; make; make install

chasen-2.3.3は
./configure
lib/Makefile中のLIBS = をLIBS = -liconvに書き加え
make; make install

ipadic-2.6.3は
./configure; make; make install

として、インストールが終わって、chasen ./test.txtと打ってみたら、
$ chasen ./test.txt
chasen: /usr/local/lib/chasen/dic/ipadic\chadic.da: No error
となります。何が悪いのかさっぱりです。
どなたか、CygwinでChaSenを使えている方、解決策を知っている方が
いらっしゃったら、アドバイスをもらえないでしょうか？

526 ：名無しさん＠お腹いっぱい。：03/12/22 11:11

lib/chadic.h で _WIN32 が定義されているときに
#define PATH_DELIMITER '\\'
となってるから、これをとりあえず '/' にすればいいんじゃ?

ちゃんと直すなら
#if defined _WIN32
を
#if defined _WIN32 && ! defined __CYGWIN__
にするのがいいのかな。試してないけど。

527 ：名無しさん＠お腹いっぱい。：03/12/22 21:28

フィールド検索で
+size:100
と検索した場合に、100バイトのファイルだけではなく、10,003バイトのファイルでも
1100バイトのファイルでも引っかかってしまいます。
こういった数値のフィールドを扱う場合"100"のみを引っかけるようにするには
どうしたらよいのでしょうか?

528 ：525：03/12/23 06:19

>>526
遅くなりましたが、レスありがとうございました。
'\\'を'/'に置きかえる方法でやってみましたが、変わらずでした。

529 ：名無しさん＠お腹いっぱい。：03/12/24 09:58

かわらず、ってのはどういう意味だ...

> $ chasen ./test.txt
> chasen: /usr/local/lib/chasen/dic/ipadic\chadic.da: No error

あいかわらずこれがでるの? だったら修正する箇所が間違っていたか、
そっちが古いバイナリを動かしつづけているかのどっちかだと思われるが。

530 ：525：03/12/24 12:41

>>529
すみません、「変わらず」ではありませんでした。
$ chasen ./test.txt
chasen: /usr/local/lib/chasen/dic/ipadic/chadic.da: No error
こうなります。

531 ：名無しさん＠お腹いっぱい。：03/12/24 17:41

じゃあそのパスに chadic.da が存在するかどうかの問題かな。

532 ：525：03/12/25 18:24

>>531
chadic.daは存在します。

533 ：名無しさん＠お腹いっぱい。：03/12/26 11:24

レスをしかけたまま放置するのもアレなので、手元のマシンに cygwin 入れて
試してみた。

で、どうも configure がちゃんと mmap を判別しないのが問題っぽい。
configure したあと config.h を直接修正して、#define HAVE_MMAP 1
を追加した上で make すると動いたよ。
>>526 の修正は不要だった。cygwin は / も \ も両方扱えるようだ。

534 ：名無しさん＠お腹いっぱい。：03/12/26 20:44

>>533
ちゃんと動作しました。
結局Cygwin環境にChaSenを入れる時の注意点は、

configure後に
1．lib/MakefileのLIBSに-liconvを手動追加
2．config.hに#define HAVE_MMAP 1を手動追加
と、した後makeすれば良い

Cygwinまで入れさせたりして色々とお手数をおかけしてしまいました。
ですが、非常に助かりました。ありがとうございました。

535 ：名無しさん＠お腹いっぱい。：03/12/27 16:28

> configure後に
> 1．lib/MakefileのLIBSに-liconvを手動追加

configureに--with-libiconvオプションを渡瀬。

mmapについてはCygwinの方の問題っぽい気もしなくもないが…

536 ：sage：03/12/28 14:21

これって遅くないですか？
対象ファイルは全部日本語htmlファイルで、Pen4(800)-3GHz HT-off、メモリ2GB
(PC400デュアルチャネル)、mknmz以外は殆ど何もしてない遊びマシンです。

[Base]
Date:　　　　　　　　Sun Oct 19 21:18:29 2003
Added Documents:　　 45,030
Size (bytes):　　　　863,785,891
Total Documents:　　 45,030
Added Keywords:　　　698,297
Total Keywords:　　　698,297
Wakati:　　　　　　　module_kakasi -ieuc -oeuc -w
Time (sec):　　　　　21,804
File/Sec:　　　　　　2.07
System:　　　　　　　MSWin32
Perl:　　　　　　　　5.006001
Namazu:　　　　　　　2.0.10

537 ：しまったsage間違えた。：03/12/28 14:22

[Append]
Date:　　　　　　　　Sun Dec 28 07:05:10 2003
Added Documents:　　 1,340
Updated Documents:　 21,909
Size (bytes):　　　　487,727,151
Total Documents:　　 46,370
Added Keywords:　　　20,556
Total Keywords:　　　718,853
Wakati:　　　　　　　module_kakasi -ieuc -oeuc -w
Time (sec):　　　　　15,400
File/Sec:　　　　　　1.51
System:　　　　　　　MSWin32
Perl:　　　　　　　　5.006001
Namazu:　　　　　　　2.0.10

なにが悪いんだろう？

538 ：名無しさん＠お腹いっぱい。：03/12/28 15:59

>>537
おまえのオツム

539 ：名無しさん＠お腹いっぱい。：03/12/28 19:51

　　　　　　　　　 ∧＿∧ 　　　　　　　　 ∧＿∧
　　　　　　　　　（　　　　）　　　　　　　　（　　　）　すみません、連れて帰ります
　　　　　　　　　　）::::::::（　　　　　　　　　）:::::::（
　　　　　　　　／::::::::::::;＼　　　　　　／::::::::::::; ＼
　　　　　　　//　|:::::::::::: ｌ | 　　　　　//´|:::::::::::: ｌ |
　　　　　　 | |　/::::::::::::/| | 　　　　 //　/::::::::::::/| |
　　　　　　Ｕ　|::::::::::/　U 　　　　Ｕ　 |::::::::::/　| |
　　　　　　　　　|::::||:::|　　| |　　　　| |　 |::::||:::|　Ｕ
　　　　　　　　　|::::||::| 　　| ∧∧／/　　|::::||::|
　　　　　　　　 | / | | 　　( ﾟдﾟ )/　　　 | /.| |
　　　　　　　　 //　| | 　　|>>538　　　//　 | |
　　　　　　　 //　　| | 　　|　/| |　　　// 　 | |
　　　　　　 //　　　| | 　 //　| |　　 //　　| |
　　　　　　 U　　　 U　　Ｕ　　Ｕ　　U 　　 U

540 ：名無しさん＠お腹いっぱい。：04/01/11 17:54

541 ：名無しさん＠お腹いっぱい。：04/01/12 22:54

Mac OS X 10.3.2でビルドに失敗するんだけど。
できてる人いますか？

542 ：名無しさん＠お腹いっぱい。：04/01/13 00:53

どんなエラー？

543 ：541：04/01/14 22:57

環境は
Reading specs from /usr/libexec/gcc/darwin/ppc/3.3/specs
Thread model: posix
gcc version 3.3 20030304 (Apple Computer, Inc. build 1495)

[namazu-2.0.12]
でconfigureはエラーなし
makeすると
/usr/lib/libiconv.dylib(localcharset.o) definition of _locale_charset
make[2]: *** [namazu] Error 1
make[1]: *** [all-recursive] Error 1
make: *** [all-recursive-am] Error 2

とエラー終了
make中にwarningはけっこう出てます。
目立つのはregexとwakatiです。
iconv絡みでしょうか？

544 ：名無しさん＠お腹いっぱい。：04/01/16 10:01

phpのNamzuモジュールの配布先って今はどこになってるんでしょう?

545 ：名無しさん＠お腹いっぱい。：04/01/16 11:21

>>544
cvs.php.net の pecl/namazu じゃない？

546 ：名無しさん＠お腹いっぱい。：04/01/16 16:59

ロボット型検索エンジンの作り方教えれ。

547 ：名無しさん＠お腹いっぱい。：04/01/16 22:02

>>543
ttp://www.namazu.org/ml/namazu-users-en/msg00432.html
これはどう？

548 ：名無しさん＠お腹いっぱい。：04/01/17 00:13

Namazuを使って検索エンジンをWebデ公開してる香具師いる？

549 ：名無しさん＠お腹いっぱい。：04/01/17 12:34

もうNamazuを使ってるような香具師はいないのか・・・

550 ：名無しさん＠お腹いっぱい。：04/01/18 11:48

php版namazuなんてあるのか。

551 ：名無しさん＠お腹いっぱい。：04/01/18 20:46

>>546
wget -m とNamazuでできるだろ。

552 ：名無しさん＠お腹いっぱい。：04/01/22 03:31

日本語原理主義なんて知るか！

553 ：名無しさん＠お腹いっぱい。：04/02/02 10:59

>>552
???

554 ：名無しさん＠お腹いっぱい。：04/02/02 13:44

>>553
これのことでは？
ttp://www.namazu.org/ml/namazu-devel-ja/msg03581.html

555 ：名無しさん＠お腹いっぱい。：04/02/09 16:54

Namazuは何のDBを使っているのだろうか？

556 ：名無しさん＠お腹いっぱい。：04/02/09 18:43

>>555
独自形式。BerkeleyDBとかは使っていない。

557 ：名無しさん＠お腹いっぱい。：04/02/09 22:59

>>556
それってすごくないですか？

558 ：名無しさん＠お腹いっぱい。：04/02/10 02:39

(ﾟДﾟ)ﾊｧ?　

559 ：名無しさん＠お腹いっぱい。：04/02/10 11:32

>>558
消えろ。

560 ：名無しさん＠お腹いっぱい。：04/02/10 13:02

>>557
某所では「すごそうに見えるけど実は簡単という手法ばかりを採用する」
と書かれているけど:) とりあえずこんな感じ。

NMZ.* ファイルの仕様
ttp://www.namazu.org/doc/nmz.html

561 ：名無しさん＠お腹いっぱい。：04/02/10 13:37

B木あたりを使い出すと面倒だけど
２分木やハッシュだけならそれほど難しくない。ただ、やっぱり面倒。

562 ：名無しさん＠お腹いっぱい。：04/02/10 23:59

それぞれ役目がある色々なファイルを組み合わせて作るのか。

563 ：名無しさん＠お腹いっぱい。：04/02/11 11:32

mknmzで、約6000のテキストファイル（合計1.5GB）のインデックス作成をしていたんですが、
約500ファイル目あたりで

mknmz: |/usr/bin/nkf -emXZ1 > /home/..../index/NMZ.nkf.tmp : メモリを確保できません

と出て終了してしまったんですが、物理メモリを増設する以外に
解決の方法は無いんでしょうか？
せっかくの3時間程度の作業がフイになってしまったんですが・・・

564 ：名無しさん＠お腹いっぱい。：04/02/11 12:15

>>563
ttp://www.namazu.org/ml/namazu-users-ja/msg00656.html

565 ：名無しさん＠お腹いっぱい。：04/02/11 14:23

mknmzを実行すると、こんなエラーが出たんですが
解決方法わかりますか？
いろいろやったんですが手詰まりです。

Can't locate NKF.pm in @INC (@INC contains: /usr/local/share/namazu/filter /usr/share/namazu/pl
. /usr/lib/perl5/5.8.0/i386-linux /usr/lib/perl5/5.8.0 /usr/lib/perl5/site_perl/5.8.0/i386-linux
/usr/lib/perl5/site_perl/5.8.0 /usr/lib/perl5/site_perl) at /usr/bin/mknmz line 875.

長いのでてきとうなところで改行しています。

566 ：名無しさん＠お腹いっぱい。：04/02/11 14:43

NKF.pmをインストールすれば良い。

567 ：名無しさん＠お腹いっぱい。：04/02/11 15:29

なんでエラーを読もうとしないかなぁ。

568 ：名無しさん＠お腹いっぱい。：04/02/11 20:01

GETA使ってる人いないの?

569 ：名無しさん＠お腹いっぱい。：04/02/11 21:41

ZOURI使ってまふ

570 ：名無しさん＠お腹いっぱい。：04/02/11 22:54

SETTAいいよ

571 ：名無しさん＠お腹いっぱい。：04/02/13 00:55

>>568-570
意味不明

572 ：名無しさん＠お腹いっぱい。：04/02/13 08:44

http://geta.ex.nii.ac.jp/
GETA はこれ

573 ：名無しさん＠お腹いっぱい。：04/02/13 13:04

ゲタセッタをいちいち書くのがマンドクサイ。

574 ：名無しさん＠お腹いっぱい。：04/02/13 13:36

現在namazuにインデックスされているファイルの総数及び総データ量を知りたいんですが、
どうすればいいんでしょうか？
最初にmknmzやったときに表示されますが、また一からmknmzやると
途方もない時間がかかるので・・・

一通りFAQや--helpは見たんですが、載って無かったです。

575 ：名無しさん＠お腹いっぱい。：04/02/13 14:38

NMZ.log をみればいいのかな。

576 ：名無しさん＠お腹いっぱい。：04/02/13 23:41

snatcher は Estraierと名前を変えていたのか。

577 ：名無しさん＠お腹いっぱい。：04/02/16 21:57

>>576
で、namazuと比べてどうよ?

578 ：名無しさん＠お腹いっぱい。：04/02/17 02:29

Googleみたいに要約が出るのでよい。>>576
> snatcher は Estraierと名前を変えていたのか。

579 ：名無しさん＠お腹いっぱい。：04/02/17 11:22

Nutchはどうよ？
http://www.nutch.org/docs/jp/

580 ：名無しさん＠お腹いっぱい。：04/02/17 19:40

微妙にスレ違いかもしれんな。

オープンソースの全文検索ソフト
http://pc.2ch.net/test/read.cgi/linux/1036088927/

581 ：名無しさん＠お腹いっぱい。：04/02/18 11:38

>>580
そんなスレがありましたか。スマソ。

582 ：名無しさん＠お腹いっぱい。：04/03/05 21:47

Replace で、
Replace /home/httpd/html/ http://hoge.net/
ってやったら置換できますけど、
これの置換って、前方一致しかできないんでしょうか？
例えば。。。
Replace httpd apache
とかやったら、
/home/httpd/html/
が
/home/apache/html/
になるような。。。
どなたかご教授いただけないでしょうか？

単純に
Replace httpd apache
ってやっても置換されませんでした。
Namazu 2.0.12
です。

583 ：名無しさん＠お腹いっぱい。：04/03/05 23:06

パスがわかってるなら
Replace /home/httpd/html /home/apache/html/
でいいじゃん。

任意のパスの特定の文字列を置き換えたいなら
Replace /(.*)/httpd/(.*) /\1/apache/\2/
だね。

namzurc.sampleに書いてあるよ。よく読みましょう。

584 ：名無しさん＠お腹いっぱい。：04/03/08 02:46

検索するときに半角カナ使うと文字化けするんですけど、
これってしょうがないんでしょうか・・？

585 ：名無しさん＠お腹いっぱい。：04/03/08 03:41

??質問が意味不明。

586 ：名無しさん＠お腹いっぱい。：04/03/10 09:29

あげてみよう

587 ：名無しさん＠お腹いっぱい。：04/03/10 23:31

ようするに半角カナが検索できないってことだろう

588 ：名無しさん＠お腹いっぱい。：04/03/15 18:54

postscript,dvi,pdfは認識されているのですが、そのうちpdfしかインディクスがつくれません.
エラーの原因は調べたところ次のことが原因らしいです.
どう修正すればいいのかわかりません.助けてください.
windows(98,XP)だからかもしれません.

うまく動くpdf.plでは
41行目　 $pdfconvpath = util::checkcmd('pdftotext');
↑この部分で$pdfpath には pdftotextのあるディレクトリ + pdftotext
が代入されているのに対して

うまく動かないdvi.plでは
37行目　 $dvipath = util::checkcmd('dvi2tty');
↑この部分で$dvipath には dvi2ttyのあるディレクトリ
が代入されているようです.

しかも$pdfpathには文字列を連結させることができるのに対し
$dvipathには文字列を連結させることがうまくいっていないようです.

589 ：名無しさん＠お腹いっぱい。：04/03/16 16:14

フィルタのメンテも大変だな。

590 ：名無しさん＠お腹いっぱい。：04/03/16 20:26

Namazuも完全に袋小路に入っているのか……

591 ：名無しさん＠お腹いっぱい。：04/03/16 22:14

それどういう意味？ >>590

592 ：名無しさん＠お腹いっぱい。：04/03/17 02:02

開発者の失せたオープンソースは悲惨

593 ：名無しさん＠お腹いっぱい。：04/03/17 09:10

Namazuは、いままさに絶賛開発中じゃないすかね？
http://www.namazu.org/misc/ChangeLog.png
高林さんは抜けたけど、usuとopenglのモチベーションは高くないッすか？
このおふた方に期待大っすよ。

しかし、やっぱ、こまめにリリースしないと開発止まったようにみえるんだねぇ。

594 ：名無しさん＠お腹いっぱい。：04/03/17 12:15

> しかし、やっぱ、こまめにリリースしないと開発止まったようにみえるんだねぇ。

こまめに顔を出さないと忘れられるというのは、人類の曙から
周知の事実だと思うが。

595 ：名無しさん＠お腹いっぱい。：04/03/17 15:50

>>593
Namazuに限らず全文検索エンジンのリリースサイクルは頻度低めだと思う。
頻度が高いのは新興のEstraierくらいなものじゃん。あと、mnoGoSearch
とXapianも定期的に新しいのが出てるけど。ASPseekやJakarta Luceneは
ちょっと落ち着いてきたし、Ht://Digに至ってはNamazu並かそれ以上に
インターバルが空いている。

まあ正直FreeWnnパターンにはまりかけていた印象は否めなかったけど、
この両氏のおかげでCanna程度には持ち直しそうだ。

596 ：名無しさん＠お腹いっぱい。：04/03/17 16:47

リファクタリングの要求が語られ始めているね。

597 ：588：04/03/19 16:56

588ですが、同じようなエラーがでる、または修正したひといませんか。

598 ：名無しさん＠お腹いっぱい。：04/03/19 18:07

Win32な話は MLに投げたほうがいいんじゃないの？
ここはUNIXな人しかいないからさ。

ということで4/1リリースっすね。

599 ：名無しさん＠お腹いっぱい。：04/03/21 06:09

>>598
リリースはうれしいが、
久々にリリースする日が 4/1 だと、
なんだか嘘話に思われてしまう
よっかん。

600 ：名無しさん＠お腹いっぱい。：04/03/22 01:24

29の日とかよりまし。

601 ：名無しさん＠お腹いっぱい。：04/03/22 17:52

>>600
その肉の日になりそうな展開ですが(w

602 ：名無しさん＠お腹いっぱい。：04/03/23 15:18

え？リリース担当のopenglが遊びにいっちゃうからその日はいないって話じゃ？
それとも、結局knokがリリースすんの？

603 ：名無しさん＠お腹いっぱい。：04/04/05 11:07

そういえばどうなったかな～と思ってMLアカイヴを見てみると、
5日にRCが出て、8日までテスト期間となっているようです。

正式リリスはその後ですか。

604 ：名無しさん＠お腹いっぱい。：04/04/05 17:58

インデックスの作成中下記のようなエラー表示でmknmzが中断されたのですが
これは設定ファイルの編集で解決できるような問題なのでしょうか？
なんどやっても同じファイル数(2757ファイル目）のところで中断されてしまいます。

/usr/local/var/namazu/index/NMZ.wakati.tmp: 十分な領域がありません

605 ：名無しさん＠お腹いっぱい。：04/04/05 19:01

ディスクが足りてないとか。

606 ：名無しさん＠お腹いっぱい。：04/04/06 16:39

OpenBSD対応を生き残って、良かった。

607 ：名無しさん＠お腹いっぱい。：04/04/13 15:50

えーと HTMLをmknmzでインデックス化しているんですが、
.
<title>＜ほげほげ＞</title>
.
といった全角のパックリコードが含まれると検索結果のタイトルが
URLになってしまいまつ。
plを追っかけてみたら記号を半角にする所がまずそうだと思い以下の
パッチを当てました。
codeconv.pl
-----------------------------
旧:my $nkf_opt = "-emXZ1";
　新:my $nkf_opt = "-emX";
-----------------------------
したら、うまく出てきましたが、副作用が心配です。
ベターな対処方法はないですか？できればそのまま全角で出したいです。
mknmzする前に、＜を < などに変換しとくしかないのでしょうか？

608 ：名無しさん＠お腹いっぱい。：04/04/13 16:38

０-９Ａ-Ｚａ-ｚをすべて半角英数(ってなに？)に変換してindex してる前提で
namazuコマンドおよびnamazu.cgiは動作するから検索するとき困るよな。

609 ：名無しさん＠お腹いっぱい。：04/04/13 16:51

titleの部分だけの問題なら、html.plあたりでやるほうがいいんだと思うよ。
未検証だけど、

% diff -c html.pl.org html.pl
*** html.pl.org Tue Apr 13 16:47:23 2004
--- html.pl Tue Apr 13 16:48:20 2004
***************
*** 167,172 ****
--- 167,174 ----

if ($$contref =~ s!<TITLE[^>]*>(.*?)</TITLE>!!is) {
$title = $1;
+ $title =~ s/^>//;
+ $title =~ s/<$//;
$title =~ s/\s+/ /g;
$title =~ s/^\s+//;
$title =~ s/\s+$//;

なかんじで、> <を取っちゃえばいいような気がする。

610 ：名無しさん＠お腹いっぱい。：04/04/13 16:52

あ、ぎゃくか。
+ $title =~ s/^<//;
+ $title =~ s/>$//;
かな。

611 ：名無しさん＠お腹いっぱい。：04/04/13 17:08

>>608
この手のnormalizeはNamazuに限らず転置インデックス型
検索エンジンの多くがみなやっていることだが。

612 ：607：04/04/13 19:19

>>608-611
皆さんありがトン。
とりあえず nkfのZ1を取ることで全角記号の半角変換はしなくなったので
半角・全角は問題は同一視されるし、これで良いかなぁと思ってたりします。
もうちょっと悩んでみます。

613 ：名無しさん＠お腹いっぱい。：04/04/13 20:47

Namazuのインデックス作りで四苦八苦しているのですが
単語レベルじゃなくてファイル名単位で検索できるようには
できないのですかね？

614 ：名無しさん＠お腹いっぱい。：04/04/13 21:07

>>613
ファイル名をファイル内に書いとけばどうよ？

615 ：名無しさん＠お腹いっぱい。：04/04/14 09:35

2.0.3おめ。
１年半ぶりか。

616 ：名無しさん＠お腹いっぱい。：04/04/14 09:36

すまぬ。2.0.13 だった。

617 ：名無しさん＠お腹いっぱい。：04/04/14 13:00

開発者及びテスターのみな3、乙彼。

618 ：名無しさん＠お腹いっぱい。：04/04/14 13:02

>>617
> 開発者及びテスターのみな3、乙彼。

開発者っていたの?

619 ：名無しさん＠お腹いっぱい。：04/04/14 13:56

まー現在の開発者は実質openglとusuの二人だな。乙カレー。

620 ：名無しさん＠お腹いっぱい。：04/04/14 19:27

/.-Jで香ばしい展開になりそうな悪寒。

621 ：名無しさん＠お腹いっぱい。：04/04/14 21:46

何かアフォが一匹涌いているようだな・・。

622 ：名無しさん＠お腹いっぱい。：04/04/14 23:47

単なる釣り師の煽り餌に簡単に釣られるのが/.Jer

623 ：名無しさん＠お腹いっぱい。：04/04/14 23:49

FreeBSDの小人さん、portsを頼みます!!

624 ：名無しさん＠お腹いっぱい。：04/04/14 23:52

以前インストールした時になんか改造した気がするが、
何処を弄ったか忘れたorz
とりあえずアップグレードするか...

625 ：名無しさん＠お腹いっぱい。：04/04/18 21:27

M-x w3m-namazu をして Query をいれると、その検索結果が *w3m* バッファに表示され
ますよね？しかし、そこに表示されているリンクを辿るたびに black だったバックグ
ラウンドが white になってしまいます。

誰かこの原因がわかる方いますか？それとも w3m のスレで質問するべきでしょうか？

NTEmacs 21.3 (Windows 2000pro)

626 ：名無しさん＠お腹いっぱい。：04/05/03 07:44

>>625
Windows 板へ帰れ。

というのは冗談ですが、多分 Emacs スレか w3m スレの方が適当でしょう。

627 ：名無しさん＠お腹いっぱい。：04/05/12 21:39

$FILE_SIZE_MAXや$TEXT_SIZE_MAXの意義が今ひとつよくわからないのですが、
サーバへの負荷を考慮するものなら
$FILE_SIZE_MAXに指定するサイズを超巨大サイズにしておいて$ON_MEMORY_MAXで制限すればよいかと思うのですが。

これは明らかにあるサイズ以上のファイルを無視する事がわかっている場合に使うとい事でしょうか？

628 ：名無しさん＠お腹いっぱい。：04/05/13 00:37

検索対象となるファイルを調べる。
ファイルのサイズの上限＝＞ $FILE_SIZE_MAX
ここで引っかかったら対象から除外
ファイルからテキスト抽出
テキストサイズの上限＝＞ $TEXT_SIZE_MAX
ここで引っかかっても対象から除外
わかち書き、インデクスへの登録
インデクスに使う実メモリの上限＝＞ $ON_MEMORY_MAX
ここで引っかかったら、いったんテンポラリに書き出して、
execしなおし

だとおもった。

629 ：名無しさん＠お腹いっぱい。：04/05/13 19:02

すんません。質問の仕方が悪かったです。

$FILE_SIZE_MAX や$TEXT_SIZE_MAX で制限をかけるメリットがよくわからないです。
INDEX作成時のサーバ過負荷を避ける為なら、
$ON_MEMORY_MAX を指定すればよいように思うのですが。

630 ：名無しさん＠お腹いっぱい。：04/05/13 19:14

>>629
だから628に書いてある通りじゃないの？

631 ：名無しさん＠お腹いっぱい。：04/05/14 05:12

namazuと、わかち書き+Mysqlで、
ベンチマークとって比較した人いる？
思惑ではMysqlの方が。。。

632 ：名無しさん＠お腹いっぱい。：04/05/14 09:12

おそいよな。

633 ：名無しさん＠お腹いっぱい。：04/05/14 11:50

>>630
いや、なぜ
$FILE_SIZE_MAX で制限する必要があるのか解らないのです。

ＩＮＤＥＸ時の過負荷を避けるためですか？

634 ：名無しさん＠お腹いっぱい。：04/05/14 11:52

６３３です。

＞ＩＮＤＥＸ時の過負荷を避けるためですか？

ＩＮＤＥＸ作成時の過負荷を避けるためですか？
です。

635 ：名無しさん＠お腹いっぱい。：04/05/14 12:48

うざいなー、コード読めよ。そうすればわかるからさ。

636 ：名無しさん＠お腹いっぱい。：04/05/15 01:41

sambaでおいてあるwordファイルやexcelファイルのインデックス作成を
試みていますがmknmzがファイル100個めくらいで止まります
変な書式を使っているファイルが多いせいなのかもしれませんが
エラーも出ないで停止するので対処法の見当がつきません
こういった現象を回避するような良い方法はないでしょうか？

ちなみにmknmzを動かしているコンピュータはメモリ１９０MBで
＄FILE_SIZE_MAX　5MB
$TEXT_SIZE_MAX　3MB
で指定して-sオプションをつけてみたりなどしています

637 ：名無しさん＠お腹いっぱい。：04/05/15 09:41

ちなみにmknmzを動かしているコンピュータはUNIX,Windowsどっち

638 ：名無しさん＠お腹いっぱい。：04/05/15 10:24

UNIXです
linux-2.6.5(Fedora)を使用しています

639 ：名無しさん＠お腹いっぱい。：04/05/15 10:51

sambaで使っているcoding systemは?
止まったファイルをwvWare,xlHtmlに直接喰わせてみた?

640 ：名無しさん＠お腹いっぱい。：04/05/15 11:44

デバッグオプションつけてmknmzして止まったところを貼れ。

641 ：名無しさん＠お腹いっぱい。：04/05/16 00:18

>639,640
試してみます

642 ：名無しさん＠お腹いっぱい。：04/05/17 02:41

mknmzが遅いのは、どうにかなりそうな世界の話ですか？
天才募集とかじゃなくて、って意味。だったらがむばって
みます。

643 ：名無しさん＠お腹いっぱい。：04/05/17 03:02

mknmz おそいっすか？うちだと普通のhtml何かのバヤイ、12 files/sec.
ぐらいで処理してますが。

644 ：名無しさん＠お腹いっぱい。：04/05/17 04:49

>>643

ソフトウェアのスピードというのは、いくらでも上を望むことが許される世界なり。

645 ：名無しさん＠お腹いっぱい。：04/05/17 06:31

>>644
いくら望むことが許されていても、理論的限界を越えては
速くはできない... そういう場合は、望みだけに終る.

646 ：名無しさん＠お腹いっぱい。：04/05/17 07:24

>>645
理論的限界を越えていない場合には早くできる... そういう場合も、
あれこれ難癖をつけて潰そうとする人々がワラワラと湧いて出るのが
日本のフリーソフトウェア界隈。

647 ：名無しさん＠お腹いっぱい。：04/05/17 09:53

ものによってはでかいファイルを perl の変数に読み込んで regex ベースでいろいろ
処理して、ってのを何度も繰り返してるからまあ遅い罠。

648 ：名無しさん＠お腹いっぱい。：04/05/18 00:50

>>642
profilingをしてボトルネックから調べるとよい
ttp://www.namazu.org/ml/namazu-dev/msg00372.html
がむばってください。

649 ：名無しさん＠お腹いっぱい。：04/05/18 08:58

そうそう、File::MMagic も重いね。あれもファイルメモリに読み込んで
がさごそする系だからなあ。
特定のファイルタイプしか処理しないなら -t でメディアタイプを指定
するのもいいかもね。

650 ：名無しさん＠お腹いっぱい。：04/05/27 18:26

namazu.orgサーバが何者かに侵入されている模様

651 ：名無しさん＠お腹いっぱい。：04/05/27 18:44

2004年5月27日

誠に残念な報告をしなければなりません。Web, FTP, メーリングリスト, CVS
を提供していた、karin.namazu.org が日本時間2004年5月23日午前2時頃に何
者かに侵入されていたことが発覚し、5月25日午前2時49分頃にマシンを停止し
ました。

運良く、現在リリースされている namazu-2.0.13-1.tar.gz についてはこの問
題の影響を受けていませんので、これをインストールされている方はそのまま
問題なく利用を継続していただけます。

現在我々プロジェクトメンバはサービスの再構築を行っています。完全復帰ま
で、いましばらくお待ちください。

今後も情報を http://www.namazu.org/ で提供する予定です。より詳しい情報
が必要な場合には、[email protected] 宛にメールを送ってください。

652 ：名無しさん＠お腹いっぱい。：04/05/28 23:12

orz

653 ：名無しさん＠お腹いっぱい。：04/05/28 23:13

orz

654 ：名無しさん＠お腹いっぱい。：04/05/30 04:06

記念マキコ

655 ：名無しさん＠お腹いっぱい。：04/05/30 12:05

これ、mac用のツールなの。

656 ：名無しさん＠お腹いっぱい。：04/05/30 14:39

perl と kakashi あたりがあれば、どんな環境であれ、それなりには使えるのよーん
mac 用とかwin用とか偏狭なこと言ってるばわいじゃないのよーん
いや各ＯＳ専用のクライアントもあるうけえどねぇーん

657 ：名無しさん＠お腹いっぱい。：04/05/31 20:18

第二報をお知らせします。

我々はVA Linux Systems Japanより提供いただいた新しいマシンを用いて、メー
リングリストサービスを再開しようとしています。再開するにあたり、我々は
メーリングリストに関する免責事項を明示することにしました。詳細は
http://www.namazu.org/disclaimer.html に掲載しています。

以前のメーリングリスト講読者情報は、新しいメーリングリストには引き継が
れません。この免責事項を確認し、同意した上で、以下のURLから改めて講読
を行なって下さい。

http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-users-ja (ユーザ向け)
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-devel-ja (開発者向け)
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-win32-users-ja (Windowsユーザ向け)

ウェブの再構築と古いメーリングリストアーカイブの提供には、まだ時間を必
要としています。もうしばらくお待ち下さい

658 ：名無しさん＠お腹いっぱい。：04/06/01 21:52

実験のまとめEXCELファイル群をインデックス対象にしたいのですが
EXCELファイル内の数字データの量が膨大でこれだけ対象から
外せないかと考えています。理想はたとえば
PC9801 ←インデックス対象
26.5521　←インデックス対象外
としたいのですがなにか方法はないでしょうか

659 ：名無しさん＠お腹いっぱい。：04/06/01 22:42

excel.plの filter_xlに
$$cont =~ s/\s\d+\.*\d+(?=\s)//g;
を加えたらどうかな

660 ：名無しさん＠お腹いっぱい。：04/06/17 13:01

Win32版namazuで質問があります。
namazuの検索結果を都合よく加工するため、自前のcgiからnamazu.exeを呼
び出しコンソール出力を取得して色々やってるんですが、HTTPのメソッドが
POSTの場合は問題なく動作するものの、GETになると正常に動作せず、
You should use "namazu.cgi" instead of "namazu" command." と言われ
てしまいます。（素直にnamazu.cgiを使えばよいことは重々承知）
で、メソッドの違いは環境変数だと思い１つずづ調べたら、QUERY_STRING
とSCRIPT_NAMEがあるとこのエラーが出るようです。
namazuを呼ぶ前にQUERY_STRINGをつぶしたり、namazu.exeの"QUERY_STRING"
部を書き換えてパッチすると正常に動作しました。
どちらもエレガントではなく何か良い回避方法をご存知の方がいらしたら
助言ください。よろいしくです。

661 ：名無しさん＠お腹いっぱい。：04/06/17 13:55

Namazu.pmつかう。
namazu.cgiつかう。
どっちか。

wrapperからnamazu.cgi呼べば、環境変数いじる必要ないので
らくちん。 templete.jaをてきとうに加工しとけば、ほぼ好きなように
出力もいじれるし。

662 ：名無しさん＠お腹いっぱい。：04/06/19 06:35

googleで検索してたらこのスレに辿り着きました。
>>152や>>246のように
2chのスレを全文検索して、検索結果にレス単位で表示させたいのですが
--html-splitでインデックス化しても検索結果に該当箇所が表示されません。

例えばこのスレが過去ログだったとして、任意のキーワードで検索すると
--------------------------------------------------------------------------------------
2. 全文検索エンジンNamazu(スコア: 7)
著者: 不明
日付: Thu, 17 Jun 2004 12:30:44
全文検索エンジンNamazu(2ちゃんねる) FTP、CGI、SSI、telnetが自由に使える超高速レンタルサーバ。
工夫しだいで、楽しさ100倍。超高速レンタルサーバ・binboserver.com www.binboserver.com ◆

--------------------------------------------------------------------------------------
こんな感じで表示されてしまいます。
しかし>>152以降の流れを見る限り--html-splitだけでも表示されるようだし何か根本的に間違っている？？
<a name="">をレス番あたりに入れておけば確実に表示されるのは分かるのですが、
なにをどうやればいいのか分かりません。（すみません、超初心者です・・・）
どうか助言をお願いできませんでしょうか。

663 ：662：04/06/21 09:21

>662
自己解決したので質問を取り消します。
<a name="">を入れるのはスクリプト組まないと出来ないと思っていたのですが
テキストエディタ→正規表現による置換でできることに気づいていませんでした。
もっとちゃんと勉強してからまた来ます。スレ汚しごめんなさい。

664 ：名無しさん＠お腹いっぱい。：04/06/23 22:18

index.cgi?log=001みたいにlogの値が変われば内容も変わるスクリプトの全文検索をしたいのですが、どうすればいいでしょうか？
このcgiから出力される記事のみを検索したいんです。（つまりhtmlなどは検索したくない。）
教えて下さい。お願いします。

665 ：名無しさん＠お腹いっぱい。：04/06/24 09:28

いろんなやり方があるけど
wget http://foo.example.com/cgi-bin/index.cgi?log={001..999}
して出来たhtmlだけインデックスするのが楽チン。

666 ：名無しさん＠お腹いっぱい。：04/06/27 17:23

>>665
その方法だと検索結果のリンク先がおかしくなるんじゃないの？

667 ：名無しさん＠お腹いっぱい。：04/06/27 17:24

うお　上げてしまった　スマン

668 ：名無しさん＠お腹いっぱい。：04/06/27 20:16

ん？なんで？
wget http://foo.example.com/cgi-bin/index.cgi?log={001..999}
だったらローカルのファイル名は index.cgi?log=001 から999
になるでしょ？ mknmzして .namazurcで REPLACE指定するだけ。

669 ：名無しさん＠お腹いっぱい。：04/06/27 20:48

>>668
なるほど。
wgetしたら.htmlで保存されると思いこんでた。thx

670 ：名無しさん＠お腹いっぱい。：04/06/28 15:32

webprog板のほうに誤爆してしまいました・・・

Perl版Namazuをレン鯖に置いてみましたが、
全角文字で検索すると検索語が”%a5%d0%a5%”みたいな感じで文字化けします。
画面全体が化けるのではなく検索文字列だけが化けています。
もう一回全角で検索すると文字化けが直ります。1回目だけ必ず文字化けします。
何が原因でしょうか？

いろいろ検索してみましたが、1回目だけ文字化けするというエラーはないようです。
すみませんがご教授お願いします。

671 ：名無しさん＠お腹いっぱい。：04/06/28 16:48

--html-splitオプションをつけてインデックスを作り、
CGI版から検索をかけると、ヒットした文書のタイトルが、
NMZ.partial.（ここに数字）.tmp
というものになってしまうのはなんででしょうか。
nameの値を出すなり、HTMLの<title>を出すなりしたいんですが。

672 ：670：04/06/28 20:22

すみませぬ。とりあえず解決しました。
根本的な解決というか、原因の特定は出来ていませんがきちんと動くようになったので
質問は取り消します。
というか散々悩んだ挙句ここで質問すると必ず自己解決するのがなんとも・・・
スレ汚し失礼しました。

>>671
分かち書きにChasenを使っていませんか？もしそうなら心当たりがあります。
Kakasiだったら分からないですけど。

673 ：671：04/06/28 23:27

>>672
いえ、kakasi使用です。

実は、先ほど解決しました。
アンカーリンクタグをしっかり閉じないと（これ→</a>）、
タイトル：アンカーリンク先という文書タイトルにならない模様＿|￣|○
こんなところではまるとは……

674 ：名無しさん＠お腹いっぱい。：04/07/05 03:39

Namazuのデザインで「え？！これがNamazu？」というような
オサレなサイトってありますか？

675 ：初期不良：04/07/11 06:45

18MB の PDF をインデクシングさせようとしたら
may be protectioin と表示されて全然できないので pdf.pl をデバッグしてみました。
とりあえず変数に入っているファイル内容を書き出して pdftotext しているところを
元ファイルを pdftotext するようにして($cont にかかっている前処理がなくなっちゃうけど PDF だから関係なし？)、
それでも動かないので何かと思ったら undef $$cont したら
できるようになった。なんだか知らないけど $$cont に 18MB とか
入れようとしたら system 関数とか open 関数とかファイル関係の
操作ができなくなっている？

やっぱりストリームベースにしないときついところがあるんでつかね。
他のフィルタもでかいファイルになると同様の問題ありそうでつ。

676 ：名無しさん＠お腹いっぱい。：04/07/16 10:02

教えて厨ですいません。
namazuが使えるレンタルサーバーを教えてください。
インデックス更新を自動化できるところをｷﾎﾞﾝしてまつ

677 ：名無しさん＠お腹いっぱい。：04/07/17 10:38

共有サーバでインデックスなんて作ってたら追い出されるよ。
専用サーバ借りたら。

678 ：545：04/07/18 10:17

>>677
CPIは手動でインデックスを作るよ

679 ：名無しさん＠お腹いっぱい。：04/07/18 10:49

OpenJaneのログをmknmzしようとしてもうまくいかない…
非ASCII文字が入ったディレクトリ名はダメなのか？

680 ：名無しさん＠お腹いっぱい。：04/07/25 12:09

text/plainで1行目を見出しとして扱いたいのですが、
フィルタを弄らなくてもよい方法があれば教えてください。

681 ：おねがいします。：04/07/25 22:16

http://おらおらおら/おら悟空/goku.txt
http://おらおらおら/おらケンシロウ/kensan.txt
にヒットしたら
http://おらおらおら/おら悟空/
http://おらおらおら/おらケンシロウ/
にリンクさせたいんですけどどうしたら出来ますか？

682 ：名無しさん＠お腹いっぱい。：04/07/25 22:26

http://www.delegate.org/freyasx/index-ja.html
> FreyaSX is a slightly extended version of Freya.
> Freya is a full-text retrieval engine created by Mr. Masanori Harada years ago.
> FreyaSX is under development by Y. Sato who is the author of DeleGate.
delegateの作者がFreyaを改造中、らしい。

683 ：名無しさん＠お腹いっぱい。：04/07/26 05:42

http://www.google.co.jp/search?hl=ja&ie=UTF-8&q=%E3%83%9A%E3%83%BC%E3%82%B8%E3%82%92%E8%BB%A2%E9%80%81%E3%81%99%E3%82%8B%E3%81%AB%E3%81%AF&btnG=Google+%E6%A4%9C%E7%B4%A2&lr=lang_ja

684 ：681 ：おねがいします。：04/07/27 06:18

>>683
テキスト(txt,Doc)の場合は上位フォルダ、html.htmの場合は直接参照する
ようにしたいのですが具体的な置換コマンドを教えてください。

685 ：名無しさん＠お腹いっぱい。：04/07/29 08:29

多数ファイルの検索はNamazu、単一ファイルの検索はSufary
っていう理解であってますか。50MBくらいの文献データベース
をweb上で検索公開しようと思うのですが、SQLの使えないサーバ
なので、別の可能性を探ってます。

686 ：名無しさん＠お腹いっぱい。：04/07/31 02:49

>>685
そのくらいの規模だったら、多分、grepベースで作った方が楽だし使い勝手もいいよ。

687 ：685：04/07/31 10:24

>>686
ありがトン
てことは、Sufary的な方でしょうかね。
3万件以上あって、著者名とか題名とか出版元とかで
AND/OR検索したいので（インタフェースはperl、php
あたり）、インデックスはつけないと遅くなるし負荷も
相当になりまつから・・・
grep＋index＝Sufary, Saryってとこでしょうね。

688 ：名無しさん＠お腹いっぱい。：04/08/02 10:42

最近2chスレの過去ログ検索サイトを作りました。
>>159あたりの
>1.例えばこのスレの>>124のような疑問に対して検索した場合、>>124
>　のレスは見つけられても、その答えを探すのに先を読まなければな
>　らない。
これが改善できたらなぁと思ってます。
レスに対するレスを追跡するスクリプトって公開されてないんでしょうか。
>>153にあるサイトのようにできたら本当に便利なんですが、、、

689 ：名無しさん＠お腹いっぱい。：04/08/14 01:43

今までnamazuを使っていて普通にインデックス作成出来ていたのですが
またインデックスを作り直そうとコマンドプロンプトで試したところエラーがでました。
環境変数を参照したところ書き換えられていたので
一度、アクティブパールとナマズをアンインストールしてnamazu関連の環境変数も消去し
インストールし直しました。
そしてコマンドプロンプトでnamazu --helpを実行するとヘルプが表示されますが
mknmz --helpを実行しようとすると「mknmzは内部コマンド～認識されていません」と表示されます。
そしてインデックスを作成しようとしても同様に表示されます。
環境変数のMKNMZRCのパスもきちんと通っており、何が原因なのかわかりません。
どうすればよいのでしょうか？
WINXP、nmz2012、ActivePerl 5.6.1.630 、kakasi-2.3.4を使用しています。

690 ：名無しさん＠お腹いっぱい。：04/08/14 01:49

>>689
> set

ITAIJIDICTPATH=C:\kakasi\share\kakasi\itaijidict
KANWADICTPATH=C:\kakasi\share\kakasi\kanwadict
MKNMZRC=C:\namazu\etc\namazu\mknmzrc
NAMAZULOCALEDIR=C:\namazu\share\locale
NAMAZURC=C:\namazu\etc\namazu\namazurc
Path=C:\namazu\bin;C:\kakasi\bin;

ちゃんとあるかどうかチエツク

691 ：689：04/08/14 02:33

>>690
PATHがC:\namazu\bin;C:\Perl\bin\;になっていました。
それ以外はちゃんとありました。
PathをC:\namazu\bin;C:\kakasi\bin;と直してリブートしても同じエラーが表示されます(´･ω･`)

692 ：名無しさん＠お腹いっぱい。：04/08/14 03:05

スクリプトいじりすぎて実行中にハングアップした。
１．５Ｇ、２５６ＭＢじゃ力不足なのか。

693 ：692：04/08/14 03:05

誤爆すまんかった＿|￣|○

694 ：名無しさん＠お腹いっぱい。：04/08/14 14:41

>>691
とりあえず
C:\namazu\bin\ に CD 移して、mknmz やってみれ。
Path の perl は消すんじゃなくて全部追加ですょ。

695 ：689：04/08/15 00:59

いろいろやってみましたがだめぽでした(´･ω･`)ｼｮﾎﾞｰﾝ
しかたなく予備のノートパソコンに入れたところ、こっちは一発ＯＫ……＿|￣|○
やっぱりデスクトップの方はどこかおかしいみたいです。

696 ：名無しさん＠お腹いっぱい。：04/08/17 14:26

RedHat9にnamazu-2.0.13をソースからインストールしました。
xpdf(xpdf-japaneseも)とkakasiはRedHatのrpmを、ps2testはソースからいれました。
が、pdfのインデックスを作成する時に、
Unable to convert pdf file (maybe copying protection)
というエラーが出ます。
このエラーは、pdfから日本語を引っ張り出せないときにも出ることがあるエラーだ
と聞きました。
どのへんをチェックしたらヨカでしょう？

よろしくおながいします。

697 ：名無しさん＠お腹いっぱい。：04/08/17 14:52

それはnamazuの問題じゃなくてpdftotextの問題じゃないかい？

とりあえず、エラーがでてる対象ファイルを直接
pdftotext -enc EUC-JP in.pdf out.txt
してみる。

698 ：名無しさん＠お腹いっぱい。：04/08/17 17:27

696でつ

>>697
Error: Couldn't find unicodeMap file for the 'EUC-JP' encoding
Error: Couldn't get text encoding
と出ますた

いちお、
/usr/share/xpdf/japanese/EUC-JP.unicodeMap
に存在しているんですが....

699 ：名無しさん＠お腹いっぱい。：04/08/17 17:44

696でつ。
できました。

/etc/xpdfrcにunicodeMap EUC-JPのくだりを追加したらできました。
namazuでもインデックスを作成できました。
RedHat9のxpdfはrpmで入れると、日本語のsupport packもインストールされるけど、
xpdfrcの記述は中途半端なんですね。

ありがとうございますた。

700 ：名無しさん＠お腹いっぱい。：04/08/22 03:24

>>180みたいなことは
pnamazuなら出来るようになっているらしい・・・
参考＞http://www.namazu.org/ml/namazu-users-ja/msg03450.html
のですが、どうにもできません。

つか、${summary::size=0} にしたらサマリ消えるじゃんね。
実現できてる方います？

701 ：名無しさん＠お腹いっぱい。：04/08/22 19:03

>>700
pNamazu使っているサイト１００件くらい回ってきたけど
表示周りをいじっているサイトはちらほらあったが、
要約をマッチした文章前後で表示できているサイトは０だった

本当は実装できていないんじゃない？

702 ：名無しさん＠お腹いっぱい。：04/08/22 19:36

ここはできてるが独自改造してるっぽい
http://kanpo.net/cgi-bin/namazu.cgi

動作がちょっと遅れてる感じだし、まんまgrepかけてるんだろうな

703 ：名無しさん＠お腹いっぱい。：04/08/22 20:36

Namazu.pm使ってperl CGI書いたら簡単にできるじゃん？
一回に表示するレザルト20件ぐらいなら速度的にもgrepしても問題ないんじゃないかな。

704 ：名無しさん＠お腹いっぱい。：04/08/27 17:34

だれか地域検索エンジンNumazu 作って

>>703
問題あるかどうかは
そのサイトの性質と規模と、鯖のスペックと運営方針に拠るだろうからなんとも言えんね。

705 ：名無しさん＠お腹いっぱい。：04/08/30 19:35

そういやこないだのgoogleのプログラミングコンテストは
地域検索ができるとかなんとかだったな。
http://internet.watch.impress.co.jp/www/article/2002/0603/google.htm

706 ：名無しさん＠お腹いっぱい。：04/08/30 20:36

Word文書や一太郎文書がインデックスに含まれないのですが、
どうしたらいいですか？
できるような話を聞いたことがあるんですが。

707 ：名無しさん＠お腹いっぱい。：04/08/30 20:40

>>706
> Word文書や一太郎文書がインデックスに含まれないのですが、
> どうしたらいいですか？

どこに不具合があるのか調べて、Word用フィルタや一太郎用フィルタを
をハックする。

708 ：名無しさん＠お腹いっぱい。：04/08/30 21:12

ツカ必要なパッケージはインスコしてあるのか？

709 ：名無しさん＠お腹いっぱい。：04/08/31 14:06

namazuはインストールしました。
必要なパッケージというのはプラグインですか？
どこで手にはいるのですか？

710 ：名無しさん＠お腹いっぱい。：04/08/31 14:52

>>709
mknmz -Cをここに貼れ。

711 ：名無しさん＠お腹いっぱい。：04/08/31 16:21

どぞ。

システム: freebsd
Namazu: 2.0.12
Perl: 5.006001
NKF: module_nkf
KAKASI: module_kakasi
茶筌: module_chasen
わかち書き: module_kakasi
メッセージの言語: ja_JP.eucJP
言語: ja_JP.eucJP
文字コード: euc
CONFDIR: /usr/local/etc/namazu
LIBDIR: /usr/local/share/namazu/pl
FILTERDIR: /usr/local/share/namazu/filter
TEMPLATEDIR: /usr/local/share/namazu/template
対応メディアタイプ:
application/x-bzip2
application/x-compress
application/x-gzip
application/x-rpm
message/news
message/rfc822
text/hnf
text/html
text/html; x-type=mhonarc
text/plain
text/plain; x-type=rfc
text/x-hdml
text/x-roff

712 ：名無しさん＠お腹いっぱい。：04/08/31 19:39

>>709
http://www.namazu.org/doc/manual.html#doc-filter
で必需品とされているものをインストール
wvwareではまりたくなければnamazuを 2.0.13にしたほうが良い

713 ：名無しさん＠お腹いっぱい。：04/09/02 16:59

html形式のテキストを食べさせると、以下の通り著者が「不明」となります。

1. あｑｗせｄｒｆｔｇｙふじこｌｐ； (スコア: 18)
著者: 不明
日付: Wed, 01 Sep 2004 01:00:00

ここに名前を入れたいんですけど、やり方がさっぱり分かりません。
何かヒントをください。

714 ：706：04/09/02 19:23

>>712
xpdf入れてみたらpdfが使えるようになりました。
他のも入れてみます。

ありがとうございました。

715 ：713：04/09/03 00:03

namazu.org見てたら解決しちゃいますた。

716 ：名無しさん＠お腹いっぱい。：04/09/25 02:53:02

>>688なんですが、どなたかご存知の方いらっしゃいませんか？
自分でスクリプト組めってことなんでしょうか・・・

717 ：名無しさん＠お腹いっぱい。：04/09/27 12:45:14

estraierのスレってないですか？

718 ：名無しさん＠お腹いっぱい。：04/09/27 15:04:37

>>717
ないですね、est*のスレは。

719 ：名無しさん：04/10/08 01:12:08

サーチエンジン
http://umasql.netkeiba.com/db/horse.php?hid=2000101537

720 ：名無しさん＠お腹いっぱい。：04/10/17 12:33:51

誰か cddb 用のフィルタとか作ってないですかね。

721 ：名無しさん＠お腹いっぱい。：04/10/17 14:53:31

CDDB用のフィルタって？サーバにアクセスすんの？

722 ：名無しさん＠お腹いっぱい。：04/10/17 15:16:20

>>721
いや、ローカルにある cddb ファイルを想定してます。
まぁそのまま text として mknmz でも、単に grep でも事足りるっちゃー足
りるんですけど、既にフィルタがあったりしないかなーと。

723 ：名無しさん＠お腹いっぱい。：04/10/17 19:20:03

なるほどね。ちょっとローカルの.cddb見てみた。しかしこれが検索できても、
そっからdisk再生につながるわけでもないし、意味があるのかわからん。

んでも、簡単なのでフィルタかいてもいいけど、
EXTD=
EXTT[Num]=
PLAYORDER=
の３つがわからん。仕様をおしえてちょ。

724 ：名無しさん＠お腹いっぱい。：04/10/17 20:13:24

>>723
はい、再生には継がんないですね。まぁとりあえずは namazu でスマートに検
索したいな、と。

EXTD: ディスクの拡張データ。空欄もしくは発売年が入ってることが多い。
EXTT[Num]: Num 番目のトラックの拡張データ。ほとんど空欄。偶に歌詞とか入ってるときも。
PLAYORDER: 空欄(のはず)。

いちお正式な仕様としては↓なかんじのようです。
http://www.freedb.org/modules.php?name=Sections&sop=viewarticle&artid=29

自分でも
ttp://www.namazu.org/~kenji/dekiru-namazu-filter.html.ja
は眺めてみたんですが、perl 不自由なもんでちょっと挫折しちまいました orz

725 ：名無しさん＠お腹いっぱい。：04/10/17 21:00:54

　
　
　
　
　
∈《～ﾟ･_･ﾟ～》∋ﾅﾏｽﾞｰ

∈《～´∀｀～》∋ﾓﾅｰﾏｽﾞｰ

726 ：名無しさん＠お腹いっぱい。：04/10/18 00:05:02

wgetで取得したときに問題になる%7Eを以下のようにして
回避を試みたんですが、うまく行きませんでした。
どうしたら良いのでしょうか？

.namazurc
Replace /%7E /~
Replace %7E ~

727 ：724：04/10/20 12:35:18

その後 cddb -> html に変換して mknmz すりゃいいことに気付きました。
これなら mp3 とか playlist にリンク張っときゃ再生にも継がるし(ﾟдﾟ)ｳﾏｰ

728 ：名無しさん＠お腹いっぱい。：04/10/23 10:57:51

社内LAN上のファイルをNamazuで検索できるように検討中です。
とりあえず、インデックス作成(Word,Excel,一太郎,pdf）→コマンドライン上で検索
まではできたのですが、ファイルの本文だけしか検索対象になりません。

今まではWindowsのファイル検索で検索していたため、ファイル名にもいろいろ情報が入っているので
ファイル名も本文内容と同様に検索対象にしたいのです。
namazuやmknmzのオプションなど確認しましたが、できそうな方法が見あたりません。
どうしたらよいのか、ご教授お願いいたします。

729 ：名無しさん＠お腹いっぱい。：04/10/23 14:08:29

NMZ.field.*とかつくれば？

730 ：名無しさん＠お腹いっぱい。：04/10/23 16:15:20

Namazu利用者が使う検索ワードをランキングで表示させる事って出来ますか？

731 ：名無しさん＠お腹いっぱい。：04/10/23 18:54:41

∈《((((((～ﾟ;Д;ﾟ～))))))》∋ ｶﾞｸｶﾞｸﾌﾞﾙﾌﾞﾙｶﾞｸｶﾞｸﾌﾞﾙﾌﾞﾙ

732 ：名無しさん＠お腹いっぱい。：04/10/23 19:02:16

>>730
NMZ.slog を適当に加工すればいいんじゃない? 標準でその機能があるかどう
かは知らないけど。

733 ：名無しさん＠お腹いっぱい。：04/10/23 19:21:18

>>731
地震おこすな、ヴォケナマズが

734 ：名無しさん＠お腹いっぱい。：04/10/23 23:43:57

>>730
検索ワードランキング表示するcgiあったよ
ttp://homepage3.nifty.com/cinema1987/data/howto2.htm#log

735 ：730：04/10/24 00:51:24

>>732　>>734
レスthxです。734さんの教えてくれたcgi試してみます。

736 ：728：04/10/24 09:04:21

>>729
uriでフィールド検索すればいいんですね。
やっと気がつきました。
逝ってきます

737 ：名無しさん＠お腹いっぱい。：04/10/24 11:13:20

ChaSenってもう入手不可能？
公式ページ無くなってるよね。

738 ：名無しさん＠お腹いっぱい。：04/10/24 14:51:31

10日ぐらいはアクセスできたけど。

ttp://chasen.naist.jp/hiki/ChaSen/

739 ：名無しさん＠お腹いっぱい。：04/10/24 14:52:27

つかnaist自体アクセスできないからメンテ中じゃないの？

740 ：名無しさん＠お腹いっぱい。：04/10/24 16:15:24

http://lists.debian.or.jp/debian-users/200410/msg00160.html

741 ：名無しさん＠お腹いっぱい。：04/10/24 16:53:57

>>740
ﾅﾙ（　ﾟдﾟ）ﾎﾄﾞ

742 ：名無しさん＠お腹いっぱい。：04/10/25 10:27:28

ミラーあんまりないよね。なんでだろ

743 ：名無しさん＠お腹いっぱい。：04/10/25 11:02:24

ringにミラーされてるけど、あの数じゃ不満？

744 ：名無しさん＠お腹いっぱい。：04/10/26 01:27:44

Linux環境で一太郎ファイルを検索対象にされている方はいらっしゃいませんか？
一太郎ファイルのバージョンは出来るだけ対応範囲が広い方がいいのですが。

あきらめてWindowsでするしかないですかね？

745 ：名無しさん＠お腹いっぱい。：04/10/26 05:16:19

>>744
既に臼田さんが作ったフィルタが取り込まれているだろ。

746 ：名無しさん＠お腹いっぱい。：04/10/26 07:16:29

>>744
一太郎フィルタの設定
ttp://isaji.cheap.jp/wiki/pukiwiki.php?%C6%FC%B5%AD%2F2004-08-30

747 ：名無しさん＠お腹いっぱい。：04/10/26 08:09:27

>>745　さん
>>746　さん

doccatも必要ないのですね。
レスありがとうございます。
早速試してみますね

748 ：名無しさん＠お腹いっぱい。：04/10/26 08:42:31

　
　　　∧ ∧＿＿　　ｲﾗﾅｲﾉ｡｡｡?
　／(*ﾟ－ﾟ)/)／＼
／|￣∪∪￣|＼／　
　 |　　　　　 |／　　　　
　　￣￣￣￣

749 ：747：04/10/26 09:04:47

>>746さん　

番号間違えてすみません
urlまで教えていただいてありがとうございます。

750 ：名無しさん＠お腹いっぱい。：04/11/01 19:38:36

mknmz にフィルタの設置場所を追加するにはどうすればいいのでしょうか。
自作のフィルタを /usr/local/share/namazu/filter に置いたのですが
mknmz -C すると

FILTERDIR: /usr/share/namazu/filter

となり対応メディアタイプにも出てきません。/usr/share/namazu/filter に
置けば認識してはくれるのですが自作のちょっとしたフィルタなので local
側に置きたいです。
環境は Debian woody で namazu はパッケージのを入れています。

751 ：名無しさん＠お腹いっぱい。：04/11/01 19:49:59

$FILTERDIR = "/usr/local/share/namazu/filter";

752 ：名無しさん＠お腹いっぱい。：04/11/01 19:59:19

namazuって、開発コミュニティ健在なの?

753 ：名無しさん＠お腹いっぱい。：04/11/01 22:17:03

>>751
サンクス。.mknmzrc でそう設定すりゃいいってことね。

ところで FILTERDIR に複数のディレクトリを指定することって出来る?

754 ：名無しさん＠お腹いっぱい。：04/11/01 23:21:13

できん。
出来ると便利だし、改造も簡単そうに思えるけど、
ただでさえ、結構ぐちゃぐちゃしてるコードに
余計なものを追加するのはうれしくなさゲ。あきらめてくだされ。

755 ：名無しさん＠お腹いっぱい。：04/11/01 23:35:19

>>754
やっぱり駄目なのか。出来てもよさそうだけどね。どーもでした。

結局ファイルは local に置いて /usr/share/namazu/filter からシムリンク
張ることにしました。

756 ：名無しさん＠お腹いっぱい。：04/11/09 07:53:50

世界規模ソースコード検索エンジン中間報告
http://namazu.org/~satoru/pub/mito2004i/

Ｗ哲が揃い踏みですな。

757 ：ヽ( ･∀･)ﾉｲｴｰｲ：04/11/09 23:37:03

凄いプロジェクトだ

758 ：名無しさん＠お腹いっぱい。：04/11/09 23:37:36

12月号のUNIXUSERで見たんだけど
namazuを使った Samba findfile てのがあるのね
MIRACLE以外でも使えるのかな

759 ：名無しさん＠お腹いっぱい。：04/11/10 16:45:27

>>756
Koders.com：（オープン）ソースコードの高速検索
http://japan.linux.com/opensource/04/11/10/0215245.shtml

なんちゅうか、まぁ、タイミングやね。

760 ：名無しさん＠お腹いっぱい。：04/11/10 18:10:13

>>759
それはオープンソースじゃないでしょ？
ならばこのプロジェクトの意義はあまり減らないかな。
スライドを観た印象ではアマチュアプログラマ臭いところは相変わらずだけど。

761 ：名無しさん＠お腹いっぱい。：04/11/10 18:39:50

アマチュアでも経験を積めばプロになれるよ。
今のプロも元々アマチュアだったんだから。

762 ：名無しさん＠お腹いっぱい。：04/11/10 19:08:05

経験を糧に出来る人はね。彼の場合は自分が楽だからという理由だけで
cvs logをつけない人だから、比較的大きめのプロジェクトを率いたり、
他人のプロジェクトに参加したりというのには向いていないと思う。
また、Luceneのような再利用を前提とした緻密なプロダクトは作れない
だろうし、おそらく本人もそういうものを作りたいとは思っていない
だろう。

763 ：名無しさん＠お腹いっぱい。：04/11/10 21:19:21

（´-`）.｡oO(そういうものかな・・・？)

764 ：名無しさん＠お腹いっぱい。：04/11/10 21:55:13

est*のスレ立てようよ。結構使ってる人いるっしょ。

765 ：名無しさん＠お腹いっぱい。：04/11/10 22:32:17

>>760
kodersがオープンソースにならないことを祈るしかないよね。
インタビューを読む限りは商売を考えているみたいだが、
オープンソースにも理解があるみたいだし。

koders.comで検索してみるにつけ、本当に便利なものだなと感服。
ほんと、タイミングだよね。　>>759

766 ：名無しさん＠お腹いっぱい。：04/11/10 23:02:15

namazu なんですが、kakasi でも chasen でも日本語構文解析が
あまり賢くないというか、専門用語が沢山でてくるうちのサイトの場合
うまくキーワードで切り分けてくれないことが多い、と。それで辞書を
強化すればよいのかも知れないけど面倒だ、と。で、今はgoogle のサイト
検索のほうがまし、ということでそれで凌いでます。が、当たり前だけど
これだと公開webのほうしかindexも検索もされません罠。部内ネット
専用のwebの検索のためにはnamazuしかない、と。ここらへん皆さん
どうやって対処されてます？ちなみに、うちは物理、機械工学系です。

767 ：名無しさん＠お腹いっぱい。：04/11/11 00:22:53

>>766
専門の辞書をコンバートして使うのが普通じゃないかな？馬場さんのところに
フリーな辞書の一覧があったはず。(あまりメンテされてないけど)

LuceneとかEstraierの場合はN-gramなanalyzerも使えたっけ。

768 ：名無しさん＠お腹いっぱい。：04/11/11 04:50:28

タイミングっていっても、当たり前でしょ。
技術の発展や潜在的ニーズから、似たような時期に世界中で複数の人が
同じような発想をもち、そのなかでまた実装に動く人も複数いるわけです。
あとは時間の問題。

やれば面白そうだと思い付いたものがほっといたら3～4年後にあちこちから出てきた、
という経験が誰しも沢山あるでしょ?

769 ：名無しさん＠お腹いっぱい。：04/11/11 18:18:42

>>764
さんせい。うちからはたてられない。誰かたてて。

770 ：名無しさん＠お腹いっぱい。：04/11/11 18:51:33

est*は、もっと馴染みのある名前をつけていたらもっと使われていたはず。

771 ：名無しさん＠お腹いっぱい。：04/11/11 19:03:28

est*はライブラリになっていて非ファイルのインデクシングに対応していれば
よかったんだけど。

772 ：名無しさん＠お腹いっぱい。：04/11/11 21:34:11

est*は結局なんて読むんだ？

773 ：名無しさん＠お腹いっぱい。：04/11/11 23:18:57

ええとわーる

774 ：名無しさん＠お腹いっぱい。：04/11/12 09:30:45

たしかフランス語だけど死語だったんだっけ？

775 ：名無しさん＠お腹いっぱい。：04/11/12 09:33:15

>>764
立てるのはいいと思うけど、UNIX板でいいのか？
Linux板とかソフトウェア板もあるけど。

776 ：名無しさん＠お腹いっぱい。：04/11/12 09:57:51

>>775
Linux以外でも動くから、UNIX板でいいんじゃない？
Windows版はCygwin必須だから結局UNIXみたいなもんだし。

777 ：775：04/11/12 10:09:42

>>776
了解。UNIX板に立てたよ。

全文検索エンジンEstraier
http://pc5.2ch.net/test/read.cgi/unix/1100221699/

778 ：名無しさん＠お腹いっぱい。：04/11/12 12:56:22

>>777
乙です。

779 ：名無しさん＠お腹いっぱい。：04/11/13 08:02:35

namazuのコミュニティってどうなってるの?
木端微塵になってそれっきり?

780 ：名無しさん＠お腹いっぱい。：04/11/13 08:40:44

FreeWnn化した。

orz

781 ：名無しさん＠お腹いっぱい。：04/11/13 12:46:17

>>780
ごめん
どいうこと？？

782 ：名無しさん＠お腹いっぱい。：04/11/13 13:33:39

>>781
activityが極度に下がる現象を指す。
ちなみにFreeWnnはその行動の遅さからFreeWnn日という単位まで生まれた。

783 ：名無しさん＠お腹いっぱい。：04/11/13 23:54:59

ネグポン、という単位もあったな。

784 ：名無しさん＠お腹いっぱい。：04/11/14 08:11:17

解説plz

785 ：名無しさん＠お腹いっぱい。：04/11/14 09:11:51

解脱plz

786 ：名無しさん＠お腹いっぱい。：04/11/14 10:54:32

解説も何も見たまんまだと思うけど…

さすがにFreewnnと比較するのは酷だと思うが、最近の動向を見ると目立った
変更点は文書フィルタの追加とMeCabへの対応と非ファイルのインデクシング
対応への着手とインデックスのUTF-8化の着手くらいか。バグ修正は地道に
行われてはいるが、リファクタリングは進んでいない。開発者の関心はもはや
文書フィルタだけなのかなという気さえする。

FreeWnnについてはFreeWnnスレを参照のこと。こっちはずっとひどいことに
なってるｗ
http://pc5.2ch.net/test/read.cgi/unix/1084551838/

787 ：786：04/11/14 11:00:49

まあ開発者の名誉のために言っておくと、優れた検索エンジンを作るのは
難しいことだし、自然言語処理が絡んでくると倍率ドン、さらに倍という
感じで難しくなるので、停滞するのも無理はないかなと。

788 ：名無しさん＠お腹いっぱい。：04/11/14 16:31:02

オス。おいらダメSE。
ちょっと思いつきで提言してみるよ。
検索エンジン部分だけ設計して、DB部分はSQLで組んだらどうよ？
CORBAみたいなJavaとかPERLの為のインターフェースあるし。
大幅に開発コスト削減できるかも知れないよ。

789 ：名無しさん＠お腹いっぱい。：04/11/14 17:29:30

>>788 遅くなるから却下

790 ：名無しさん＠お腹いっぱい。：04/11/14 18:49:07

>>788
RDBMSベースの検索エンジンならmnoGoSearchとかいろいろあるけど。
つーか、MySQLや最近のPostgreSQLには全文検索機能ついてるやん。
トークナイザーをどうするかが問題だけど。

791 ：名無しさん＠お腹いっぱい。：04/11/14 18:49:21

>>787
開発者たちを侮辱するのはやめましょう。

792 ：名無しさん＠お腹いっぱい。：04/11/14 20:23:11

難しいのは本当の話だが。

793 ：名無しさん＠お腹いっぱい。：04/11/14 23:42:56

そもそも辞書がSKKベースである限りは
それほど手の込んだ自然言語処理は出来ないと思われ。

794 ：名無しさん＠お腹いっぱい。：04/11/14 23:45:42

使ったことないんだけど Chasen は SKK 辞書は使ってないんだよね?

795 ：名無しさん＠お腹いっぱい。：04/11/14 23:53:38

>>790
まぁ、そうなんだけど、ファイル読み込みのサポートモジュールと
DB作成モジュールとnamazu流の呼び出しモジュールを実装すれば
良いんじゃないかなぁ。
DBとのやりとりのオーバーヘッドはあるかもしれないけどね。

あー。そうなると実装は全面改装か。
使えるのは出力ルーチンとファイルサポートモジュール部分と
構文解析くらいか。DB設計も基本的にやり直しだ。

796 ：名無しさん＠お腹いっぱい。：04/11/15 08:40:23

>>794
SKK辞書を拝借してるのはKAKASIの話。ChaSenやMeCabはipadicを使う。
ただ、ライセンスがあやしいのでDebian方面ではcannadicから変換する
ツールを使っているみたいだけど。詳しいことは漏れはよく知らんので
knokさんにでも訊いてくれ。

797 ：名無しさん＠お腹いっぱい。：04/11/15 08:52:09

ipadicにしても格支配等の情報は持っとらんからのお

世の中には税金で作った共起情報等満載の語彙目録も
ちゃんと存在しておるというのに、
有償かつライセンスきつくて使えんというのは嘆かわしい話だよもん

798 ：名無しさん＠お腹いっぱい。：04/11/18 10:55:09

>>796
ttp://chasen.org/~taku/diary/2004-11-17.html#2004-11-17-1
> ipadic は ICOT の条項があって OSD 準拠ではない!
> debian に入れられない! とさんざん叩かれてきましたが, なんとかなりそうです.

ヤター！

799 ：名無しさん＠お腹いっぱい。：04/11/30 00:21:06

微妙にスレ違いな気もするけど、gonzui出たよ。
http://namazu.org/~satoru/gonzui/

800 ：名無しさん＠お腹いっぱい。：04/11/30 02:14:38

ctagsやcscopeの類とどう違うのと
微妙でなくスレ違いと思いつつ訊いてみる

801 ：名無しさん＠お腹いっぱい。：04/11/30 08:59:15

>>800
ここら辺で書いてるっぽいよ。
ttp://blog.japan.cnet.com/umeda/archives/001861.html
ttp://blog.japan.cnet.com/umeda/archives/001867.html
ttp://namazu.org/~satoru/pub/mito2004i/0027.html

802 ：名無しさん＠お腹いっぱい。：04/11/30 09:56:50

>>800
http://koders.com/
のようなものかと。ctagsというよりはむしろlxrに近いかな。

803 ：名無しさん＠お腹いっぱい。：04/12/01 01:45:41

教えてください。2003年7月にソフトバンクから発売されたnamzu本
ですが、説明に利用されているnamazuのバージョンはなんでしょうか？
自宅近く・通勤路にある書店で探しても見当たらないので、教えてください。

804 ：名無しさん＠お腹いっぱい。：04/12/01 01:56:18

All About Namzu

805 ：名無しさん＠お腹いっぱい。：04/12/01 09:01:39

>>803
2003年ぐらいなら今と同じ2.0.x系じゃないかな？
改訂前のしか持っていないのでよくわからんけど。

806 ：名無しさん＠お腹いっぱい。：04/12/01 22:05:29

803です。
さんくすです。>>805
ネットでオーダーしちゃお。

807 ：名無しさん＠お腹いっぱい。：04/12/02 21:11:57

namazuでも，別のツールでも良いのですが，
文字列間の近似度を単語の出現頻度より，計算するツールはないでしょうか？
文字列といっても，せいぜい10文字以内の単語より形成される文字列間の
近似度を測定します．研究用に使おうと思っているのですが，
いいのないかなあ，と考えています．
近似度測定アルゴリズムとしては，単語の頻度によるベクトル空間手法
を使っているツールを探しています．
スコアリングにTF/IDFは使わず，単にTFのみでよい，というか
そうでないと困ります．
よろしくお願いします．

808 ：８０７：04/12/02 21:12:51

あと，UNIX板できくのも悪いのですが，WINDOWSで動くツールを求めています．
お願いします．

809 ：８０７：04/12/02 21:17:09

NAMAZUでなぜいけないかと思ったかというと，
Namazuでは，文書集合のインデックスに対してキーワードを与え検索しないと
いけないです．今回は，文字列集合と文字列集合を，文字列にかんしてたすきがけ
で近似度を計算させたいというのがあります．
また，NAMAZUでは，結果がランキングされたものしか入らず近似度がでないという
のがあります．また，高度なスコアリングを行っているのですが，
今回の実験では，単純なtf(単語の頻度）情報のみによるスコアリング
である必要があると考えています．
よろしくお願いします．

810 ：222：04/12/02 21:20:33

何回もいろんなもの検索していくと検索欄に検索した言葉がたまっていくんですが、それはどうやって消去すればいいんですか？

811 ：807：04/12/02 21:33:40

namazuのホームページで再確認してみましたが，
SIMPLEという設定にする事で，TF法のみ(単語頻度)のみの
検索は出来るようですが，
やはり，
文字列間の近似度を出すオプションは無いようにみえました．
GETAというツールですと，近似度は出せるのですが，Windowsで
使えないですし．
やろうとしている事は，NamazuやGETAよりも難しくなく
むしろだいぶ簡単なんですが，自分で実装するのは，骨が
折れる気がします．
何かいいツールを教えてください．
よろしくお願いします．

812 ：名無しさん＠お腹いっぱい。：04/12/03 00:28:13

estraier

813 ：名無しさん＠お腹いっぱい。：04/12/03 05:18:11

>>811
Perl か何かで書けばそんなに難しくないと思う。
実行時間はやたらかかると思うが。

814 ：807：04/12/03 15:16:19

>>812
estraierちょっと調べてみました．
確かに，スコア表示がされるみたいですね．
また，cygwin経由ですが，Windowsで動くっぽいです．
ちょっと不安なのが，スコアリングのアルゴリズムが
複雑っぽいことです．TF/IDFは切る事ができるみたいですが．
単純な単語頻度のみのマッチングを行いたいので，その部分が
不安です．
もっとかるーいソフトは無いかなあ？

>>813
単語に対し，インデックスを作って，ベクトル表現する
ところがどうやったらいいのか，プログラム経験の
薄い自分には自身がないです．対象として出て来る単語を
要素とする長いベクトルが出来そうですが．
ツールがあれば一番嬉しいのですが．．
最終手段としてやり方を調べてみます．

815 ：807：04/12/03 15:39:08

816 ：名無しさん＠お腹いっぱい。：04/12/04 10:16:48

age

817 ：名無しさん＠お腹いっぱい。：04/12/04 16:03:28

>>815
Webで調べるより、自然言語処理の本を読んだ方がいいかも。

818 ：名無しさん＠お腹いっぱい。：04/12/04 20:41:09

自然言語処理ってより情報検索だろ。
自然言語処理はわかち書きできるツール(茶筅とかmecabとか)の使い方さえ
知ればいい。

819 ：名無しさん＠お腹いっぱい。：04/12/04 22:32:43

>>815
近似度の出し方は？
共通する単語の tf をかけたものの総和みたいな適当なやつであれば
1. chasen で単語に切り分ける
2. ハッシュを使って tf を出す
3. ハッシュを配列にする（tf を大きさとしたベクトル列)
4. 二重ループで計算
くらいで済む。

820 ：名無しさん＠お腹いっぱい。：04/12/05 02:24:28

>>819
その方法だと、文章が長いほど得点が高くなりやすいね。
共通語の比率（共通語のTFの和をその文書の総語数で割る）の方がマシかも。
もっと精度を求めるなら、やはりベクトル演算がお薦め。

821 ：名無しさん＠お腹いっぱい。：04/12/06 00:00:00

namazuって、eucやjis,UTF-8なんかのテキストファイルをまとめてindex作ってくれるんでしょうか？

822 ：名無しさん＠お腹いっぱい。：04/12/06 01:30:19

Shift_JIS,EUC-JP,ISO-2022-JP は混在してても問題ない。ただしNKF依存。
UnicodeはSTABLEではだめ。CVS HEAD では 5.8 以上決め打ちでuse Encodeしてるんっだっけか。

823 ：名無しさん＠お腹いっぱい。：04/12/06 01:40:50

便乗質問。
namazu.cgiには普通eucのHTMLを出させると思うけど、
これjis(iso-2022-jp)とかUTF-8とかで出させられる？

.namazurcにLANG ja_JP.ISO-2022-JPとか指定してみたさ。
大体はうごいてjisのHTML出力してくれるんだけどね。
「商品」とかを検索すると真っ白な空ページが出力されるんだけど。
ja_JP.EUCだと「商品」もちゃんと検索結果が出てくるから不思議。

824 ：名無しさん＠お腹いっぱい。：04/12/06 07:20:43

>>822
nkfを新しくすればリリース版でutf-8テキストの処理もできるよ
http://www.namazu.org/FAQ.html#utf-8

825 ：名無しさん＠お腹いっぱい。：04/12/06 10:26:31

>>823
gettextの問題(2.0リリース当時。今のは知らん）で、メッセージカタログに
用意されてるのはja_JP.S_JIS.poとja.po(EUC)だけ。

826 ：名無しさん＠お腹いっぱい。：04/12/06 14:53:44

かかしの辞書作りました。１１０万語くらいあります。
需要ありますか。自分では数多いと思うんですが。

827 ：名無しさん＠お腹いっぱい。：04/12/06 17:46:53

>>823
ISO-2022-JPはダメ。XPG4DLが取り込まれたNetBSD 1.6以降にはISO-2022-JP
なlocaleがあるけど、内部でワイド文字列にしないときちんと取り扱えない
と思う。

UTF-8は日本語のテンプレートのencoding変換がUTF-8に未対応だったと思う。
moの方はlibintlがiconvによるencoding変換をサポートしていればOK。

>>825
というわけでちょっと違う。つか、ja_JP.SJIS.poはもう要らんだろ。

828 ：名無しさん＠お腹いっぱい。：04/12/07 08:47:53

>>826
あるあるあるある

829 ：名無しさん＠お腹いっぱい。：04/12/07 09:05:00

ライセンス的に後ろ暗いのはあれなのでそこらへんよろ

830 ：名無しさん＠お腹いっぱい。：04/12/07 14:44:28

>>826
urlのアップ、どうかよろしくおながいします。

831 ：名無しさん＠お腹いっぱい。：04/12/07 15:00:00

kakasiが遅いのって、辞書検索部分がボトルネック?

832 ：名無しさん＠お腹いっぱい。：04/12/07 15:42:19

kakasiに辞書検索以外の何があるのかと

833 ：名無しさん＠お腹いっぱい。：04/12/07 21:26:24

namazuforwindowsで.namazurcのreplaceの設定が上手く出来ず困っています
何か解決の糸口が頂けないものかと・・・・

環境　Windows2000サーバー、IIS、namazu、kakasi、namazu.cgi.exe

replaceの設定をしなければ、リンク対象が以下のようになります
/c|Inetpub/wwwroot/ディレクトリ/ファイル名

これを以下のように変更したくて
http://サーバー名/ディレクトリ名

こう設定すると
replace　/c|Inetpub/wwwroot/　http://サーバー名/ディレクトリ名

結果は、以下のように余計な　/|　が付加されてしまいます
http://サーバー名/ディレクトリ名/|/ファイル名

834 ：833：04/12/08 11:07:16

勝手に解決しますた
スレ汚しで申し訳ありません

replace/c\|/Inetpub/wwwroot http://サーバー名

835 ：名無しさん＠お腹いっぱい。：04/12/10 03:16:46

debian sarge ppc で　mknmzを実行すると
固まり困っています。

調べてみたところどうも漢字があると固まるようです。

テキストの中身が

　momo
　もも
　モモ
　桃

はＮＧ。

　momo
　もも
　モモ

はOKになります。
sjisでもeucでも同様の結果です。

namazu2、namazu2-index-tools、libfile-mmagic
kakasi、kakasi-dic、 libtext-kakasi-perl
は何度も入れなおしたけど駄目のようです。
nkfは単体での動作は問題ありません。

このような症状の方いますでしょうか。

836 ：名無しさん＠お腹いっぱい。：04/12/10 03:21:23

>>835

デバックモードの結果から抜粋

// 対象ファイル: /home/user/public_html/test.txt
// 検出されたタイプ: text/plain
// pre_codeconv
// load_document 実行後: /home/user/public_html/test.txt: 18, 18, 10, text/plain
1/1 - /home/user/public_html/test.txt [text/plain]
// Field: summary: momo ももモモ桃
// Field: from: 不明
// Field: date: Fri, 10 Dec 2004 02:37:00
// Field: title: test.txt
// Field: size: 18
中略
// tmpnam: index/NMZ.field.summary.tmp
// tmpnam: index/NMZ.field.summary.i.tmp
// tmpnam: index/NMZ.field.size.tmp
// tmpnam: index/NMZ.field.size.i.tmp

　　　ここでとまります。

837 ：名無しさん＠お腹いっぱい。：04/12/10 12:06:31

826 ﾏｰﾀﾞｰ?（･∀･)っ/凵⌒☆ ﾁｿﾁｿ

838 ：名無しさん＠お腹いっぱい。：04/12/10 15:09:33

>>826
この作者さんでしょ。
http://palm.nishinari.or.jp/namazu.cgi

839 ：826：04/12/11 12:21:49

http://up.haiiro.info/
575.zip
今、変換したばかりで動作確認してないですが。
テキストだと１１０万あるんですが辞書に変換すると少なくなってます。

>>838
関係ないです。

840 ：826：04/12/11 12:59:13

ライセンスを確認してない（出所がわからない）ものを含んでいるのですが。
うpは止めた方がいいですかね?
ネットでダウンした単語リストや文書から抽出したものや、
自分で登録したものなど色々混じっているんですが。
一端、839は消します。

841 ：名無しさん＠お腹いっぱい。：04/12/11 14:17:11

うおっ、うp短か杉 orz

EδRからごっそり、とかいうのだとマズイけど
特定のリソースに大きく依存してなければ、言い換えれば
不特定多数のリソースから広く抜き出したものと言えるのなら
そう書いた上で自分のライセンスにするのは問題ないと思うよ。

語彙集の編集には著作権が発生するけど語そのものには発生しないから。

842 ：826：04/12/11 14:42:39

>>841
>特定のリソースに大きく依存してなければ

そうですか。それならば問題ないかと思うので再びぅp。でも24:00までには消します。
http://up.haiiro.info/
581.zip

843 ：名無しさん＠お腹いっぱい。：04/12/11 14:56:59

パスワード訊かれまつ。教えてくだされおながいしまつ

844 ：名無しさん＠お腹いっぱい。：04/12/11 14:57:41

あ、パスわかった

845 ：名無しさん＠お腹いっぱい。：04/12/11 17:40:01

株ファイルってどやって解凍するんだっけ。

846 ：名無しさん＠お腹いっぱい。：04/12/11 17:43:03

凍死家に訊け

847 ：名無しさん＠お腹いっぱい。：04/12/11 17:47:59

「凍死家」に子一時間（００）
ググった方が早かったわ。

848 ：名無しさん＠お腹いっぱい。：04/12/11 20:36:25

なるほど、舊假名に滅法強いんだな。
838の言う通りらすぃ。

849 ：826：04/12/12 00:26:31

今頃ですが、動作確認したのですが上でアップした辞書は
作成に失敗しているようです。ちゃんと切り出せないです。
自分の環境はWindowsXPなのですが。

850 ：826：04/12/12 00:35:29

もう一度、ぅp。今度はまともに動きました。
http://up.haiiro.info/
605.zip
パスはメールのとこ。

851 ：名無しさん＠お腹いっぱい。：04/12/12 09:10:14

もう消えてるよ。

852 ：名無しさん＠お腹いっぱい。：04/12/13 08:16:22

はやっ

853 ：名無しさん＠お腹いっぱい。：04/12/13 23:07:34

IPADICライセンス*問題*の誤解
http://aniki.daionet.gr.jp/~knok/wiliki/wiliki.cgi?IPADIC%e3%83%a9%e3%82%a4%e3%82%bb%e3%83%b3%e3%82%b9*%e5%95%8f%e9%a1%8c*%e3%81%ae%e8%aa%a4%e8%a7%a3&l=jp

もっと早くこれを出していればよかったのに…
ライセンスには問題が云々って話は再三繰り返すのに、肝心の何が問題なのか
という点に関して言及するケースがきわめて少ないことが誤解を広める一番の
要因ではないかと思うのだが。

854 ：名無しさん＠お腹いっぱい。：04/12/14 00:30:00

うpろだ混んでて落とせないうちに消えたー。
もっかいうpしてー。頼むー。

855 ：826：04/12/14 06:00:37

>>854
動作確認済みですどうぞ。前より数増えてます。
www.fileup.org [fup3569.zip]
syobon.zive.net/upload/upload.html [syobon15220.zip]
どちらも同じです。

856 ：826：04/12/14 06:12:03

文字コードをEUC、改行コードをUNIX用（改行=LF）に統一しないとうまく動かないんですね。
知らずにそれ以外の改行コード入ったまま辞書に変換してました。
855はちゃんと変換してあります。
ただ、ネットで見つけた単語リストを（加工して）次々に登録しているため
出所がよく分からないものが混じってますが。

857 ：名無しさん＠お腹いっぱい。：04/12/14 10:14:38

>>856
乙

858 ：名無しさん＠お腹いっぱい。：04/12/14 13:46:16

お世話になっております。
Namazu2.0.13を使用しております。

現在の所
/HOGE/faq/内
/HOGE/faq/fuga1内
/HOGE/faq/fuga2内
/HOGE/faq/fuga3内のHTMLを検索しています。
しかしユーザーから
/HOGE/faq/にあるHTMLは検索対象外にして欲しいとの要望を受けております。
（/HOGE/faq/fuga1　fuga2　fuga3内のHTMLは検索して欲しいとの事）

どのようにするのが良いのでしょうか？

configファイルの
--------------------------------
# NOTE: Usually specified by --exclude=regex option.
#
# $EXCLUDE_PATH = undef;
--------------------------------
の部分が怪しいと思っているのですが
何か情報をお持ちな方はご教授いただけますとありがたいです。

859 ：名無しさん＠お腹いっぱい。：04/12/14 18:13:30

その３つのディレクトリごとにインデックス作ればいいじゃん。

860 ：858：04/12/15 10:43:22

>859さん
RESありがとうございます。

えーっと上記の例では３つしか書いていませんが現在の所８個あり
ユーザーによると今後増える可能性があるとの事なので
ディレクトリごとにインデックス作成する方法ではなく
指定したディレクトリだけ検索対象外にする方法が良いと思っております。

861 ：名無しさん＠お腹いっぱい。：04/12/15 14:11:54

Namazu 2.0.14リリース

タブ(%09)から始まる検索文字列によるXSS脆弱性を修正。
http://www.namazu.org/security.html#xss-tab

2.0.13以前での回避策も示されているので速やかに対応すべし。

862 ：名無しさん＠お腹いっぱい。：04/12/15 14:47:29

断る

863 ：名無しさん＠お腹いっぱい。：04/12/15 15:13:57

回避策って何か間違ってない？
shのwrapper作る方を試してるけど、

$ export QUERY_STRING
$ export SCRIPT_NAME
$ QUERY_STRING="HELP"
$ SCRIPT_NAME="...."
$ namazu.cgi　　# webにかいてあったsh wrapperのやつ。

とか対話的にテストしてみたけど、
Content-type: text/html

という２行しか出ないよ。（何か出てくるということは実行自体はできてる）
2.0.13使ってます。

864 ：名無しさん＠お腹いっぱい。：04/12/15 21:08:25

win32 の方、インストーラーじゃなくって
（せめて解凍出来るやつがいい）
前みたいにバッチファイルにしてほしいょ…

865 ：名無しさん＠お腹いっぱい。：04/12/15 22:41:41

>>858
/HOGE/faq/fuga{1..9}/があったとして
fuga{1..3} 以外を除外したいなら
mknmz /HOGE/faq/ --exclude="fuga[4-9]"
でいいんじゃないの？

866 ：名無しさん＠お腹いっぱい。：04/12/15 23:53:17

ttp://slashdot.jp/article.pl?sid=04/12/15/1218217

　　　　　　　　早　　　　　　　　く　　　　　　　　止　　　　　　　　め　　　　　　　　ろ　　　　　　　　！

867 ：名無しさん＠お腹いっぱい。：04/12/16 00:27:01

まだ枯れ切ってなかったのね

868 ：名無しさん＠お腹いっぱい。：04/12/16 00:39:22

>>867
コードが泥縄だからまだボロボロ出てくるんじゃないか？
根本的に書き直すしかないと思われ。

869 ：名無しさん＠お腹いっぱい。：04/12/16 11:18:39

わかち書きで東京都→東京+都なのか東+京都なのか。

870 ：名無しさん＠お腹いっぱい。：04/12/16 11:29:17

今 Debian の kakasi で「東京都西京都」ってのをわかち書きしてみたら、
「東京都西京都」にわかれた。これって、「東京」や「京都」では
検索できないってこと？

871 ：名無しさん＠お腹いっぱい。：04/12/16 11:32:28

chasen だとこんな感じ
東京トウキョウ東京名詞-固有名詞-地域-一般
都ト都名詞-接尾-地域
西京ニシギョウ西京名詞-固有名詞-地域-一般
都ト都名詞-接尾-地域

872 ：名無しさん＠お腹いっぱい。：04/12/16 12:17:10

もう、1文字毎に分ければいいやん。

873 ：名無しさん＠お腹いっぱい。：04/12/16 12:21:59

やだ！

874 ：名無しさん＠お腹いっぱい。：04/12/16 12:35:32

つか、「東京都西京都」なんて人間でもわかち書きできなくね？

870が文句言ってるということは
「ひがし・きょうと・にし・きょうと」のつもりだったのかなと推測するくらいで。

875 ：名無しさん＠お腹いっぱい。：04/12/16 12:40:57

>>872
そこでN-gramですよ。

876 ：名無しさん＠お腹いっぱい。：04/12/16 12:43:36

Namazu　が　この　先生　きのこる　には　？

877 ：名無しさん＠お腹いっぱい。：04/12/16 12:49:34

暴　力二　男

878 ：名無しさん＠お腹いっぱい。：04/12/16 12:55:47

じゃあ、kakasiとmecabとchasenで分けてミックスすりゃいいじゃん。

「可能な分け方すべて」を出すようにするとかさ。

879 ：名無しさん＠お腹いっぱい。：04/12/16 13:18:20

ミックスするのは猿にでもできる。
各出力をどうスコアリングするかが腕の見せ所なわけで。

880 ：名無しさん＠お腹いっぱい。：04/12/16 14:35:12

N-gramのNをどうするかも見せ所ですな。

881 ：名無しさん＠お腹いっぱい。：04/12/16 15:42:32

みせどころっちゅーか、結局はパラメータ変えて実験しないと。

882 ：863：04/12/16 17:31:55

XSSの回避のためにwrapper通したら動かなくなった原因がわかった。>>863
cgiのバイナリと一緒に.namazu.cgiも連れて行かないといけないのね。

俺みたいな厨も使ってんだからさ、そうならそうと一言書いておいてくれよ orz

883 ：863：04/12/16 17:32:48

orz
.namazu.rcな。
orz

884 ：863：04/12/16 17:40:57

ていうか、「namazu.cgi及び.namazurcを」って思いっきり書いてあるじゃんか！

逆切れした、ウワワーンもう使わねえヨ！のAA省略
首吊りAA省略

885 ：858：04/12/16 18:18:13

＞865 さん
えーっとそういう訳ではないです。分かりづらくてスイマセン。
ディレクトリ
/HOGE/faq/
/HOGE/faq/fuga1/
/HOGE/faq/fuga2/
/HOGE/faq/fuga3/
内にそれぞれHTMLファイルがあって
「/HOGE/faq/」内のHTMLだけ検索対象外にしたいのです、、、

どなたか情報をお持ちな方はご教授願えますようお願いいたします。

割り込み失礼いたしました。

886 ：名無しさん＠お腹いっぱい。：04/12/16 19:56:16

N-gram の N は現実問題として 2,3 より大きくできるの？

887 ：名無しさん＠お腹いっぱい。：04/12/17 10:00:53

Oracle Textは3より大きいNも使ってる模様。

888 ：名無しさん＠お腹いっぱい。：04/12/17 19:38:54

>>885
ファイルの指定をnknmzにやらせるんじゃなくて
find(+必要なら簡単なフィルタ) でファイルのリスト作ってパイプでmknmzに流し込むとか…
(昔シンボリックリンクを辿ってくれなくてこうした記憶がある)。

889 ：名無しさん＠お腹いっぱい。：04/12/18 12:24:39

ちょっと違うが、http://www.namazu.org/ml/namazu-users-ja/msg03306.html は参考にならんか？

890 ：名無しさん＠お腹いっぱい。：04/12/18 15:55:06

あのぅ
>>855の辞書もう一度公開していただくわけには行かないでしょうか…

891 ：821：04/12/19 00:50:13

>>822-825
>>827
情報thxです。

892 ：名無しさん＠お腹いっぱい。：04/12/25 21:23:28

マージ高速化できませんかね
perl2exeで実行ファイルにしてみたんですけど
少しは早くなった気はするんですが
劇的な変化はないです。
早くできないですか？

893 ：名無しさん＠お腹いっぱい。：04/12/26 02:34:44

Cで書き直せば？

894 ：名無しさん＠お腹いっぱい。：04/12/26 02:38:20

>>893
おながいします

895 ：名無しさん＠お腹いっぱい。：04/12/27 11:47:44

mecabを使ってみるとか。

896 ：名無しさん＠お腹いっぱい。：04/12/27 11:51:18

マージ高速化とわかち書きツールにどういう関係が？

897 ：名無しさん＠お腹いっぱい。：04/12/27 12:18:13

>>893
> Cで書き直せば？

それでどうにかなるボトルネックだとも思えんが。

898 ：名無しさん＠お腹いっぱい。：04/12/27 12:25:15

だから、なんでもCにすれば速くなるって思ってんじゃないの？
そもそもperl のボトルネックは起動時のオーバーヘッドが殆どだから
CGIなど、短時間で処理を終えたいものはCで書き直せば速くなることもあるけど
mknmzのように、長時間内部にでっかい配列作ってアレコレするタイプの処理だと
Cに書き直しても、起動が速くなるだけで、処理時間が目に見えて速くるわけがない
高速化にはアルゴリズムやインデクス構造の見直ししかないよね。
極端なこと言えば、namazuをゼロから書き直すしかないって話。

何年か前に高林さんがそんなことをやるなんて言ってたけど、本人自体
今はnamazu使ってないみたいだし、開発者でもなくなっちゃったし。

opengl/usuあたりが頑張って一から書きなおしたりはしないんだろうねぇ。。。

899 ：名無しさん＠お腹いっぱい。：04/12/27 12:29:31

つ～か、nmzmergeって、アドホックな実装じゃないのか?
ちゃんと書けばもっと早くなるだろう。

900 ：名無しさん＠お腹いっぱい。：04/12/27 12:35:04

> そもそもperl のボトルネックは起動時のオーバーヘッドが殆どだから
Larryはすごいなあ。

901 ：名無しさん＠お腹いっぱい。：04/12/27 12:49:25

>>898
たしかに100倍は速くならないが、2倍や5倍や10倍に速くなりはするんだけどな。

902 ：名無しさん＠お腹いっぱい。：04/12/27 13:51:19

あとCだとbindingさえ書けばいろんな言語から利用できるという利点もあるな。
まあ今だと.NET CLIもあるけどな。

903 ：名無しさん＠お腹いっぱい。：04/12/27 14:06:02

>>902
べつにいまのままでもいろんな言語から利用できるが。

904 ：名無しさん＠お腹いっぱい。：04/12/27 14:56:44

>>903
外部コマンド呼び出しじゃなくてライブラリの話だが。

905 ：名無しさん＠お腹いっぱい。：04/12/27 15:04:37

ソート済みのファイルを合併するだけなら
ほぼコピーに掛かる転送時間くらいしか掛からない気がするけどなぁ

906 ：名無しさん＠お腹いっぱい。：04/12/27 15:09:01

>>905
あいにく、この世はおまえの「気がする」に則ってないもんでな。

907 ：名無しさん＠お腹いっぱい。：04/12/27 16:24:07

>>904
> 外部コマンド呼び出しじゃなくてライブラリの話だが。

うそだな。>>901は、外部コマンド呼び出しかライブラリかの話ではなく、
色々な言語から利用できるか出来ないかという話だ。

908 ：名無しさん＠お腹いっぱい。：04/12/28 00:23:02

>>907
>>901？

909 ：名無しさん＠お腹いっぱい。：04/12/28 00:27:37

頭に血が昇るとバカなミスをやらかすという実例。

910 ：名無しさん＠お腹いっぱい。：04/12/30 02:22:24

--replace="s#\/[^/]*\.pdf##;"
上位フォルダを表示させるためこういうのを考えたんですが
表示させるときには使えませんか？
表示のときにはリプレイスされないんですが。

911 ：名無しさん＠お腹いっぱい。：04/12/30 22:21:46

他サーバーのインデックスを使って検索できませんでしょうか？

912 ：名無しさん＠お腹いっぱい。：04/12/30 23:52:58

むかし Distributed namazuってのがあったな、そういえば。

913 ：名無しさん＠お腹いっぱい。：04/12/30 23:56:48

>>911
Windowsだったら、どっかの共有フォルダのインデックスをリモートで参照するんじゃん駄目？
Unixは知らん。

914 ：名無しさん＠お腹いっぱい。：04/12/30 23:57:28

>>913 それでいいんなら NFSマウントして。。。

915 ：名無しさん＠お腹いっぱい。：04/12/31 00:40:58

そういえばknokさんの日記にharvestの話が出ていたような気がするけど。

http://harvest.sourceforge.net/

916 ：名無しさん＠お腹いっぱい。：04/12/31 06:46:52

>>910
表示させるときというのは、mknmzの--replaceオプションを
namazuコマンドでも使えないかということ？namazuには
--replaceはないけど、同等なことはできます。
namazurcの中にReplaceという指示をかけばいいの。

Replace (.*)/[^/]*$ \1
という一行をnamazurcに書いておくと、
表示結果(たとえば/usr/local/doc/x.pdf)にこの正規表現が適用されて、
/usr/local/docというディレクトリ名だけが出てくんのよ。

man namazuの-Rも参考にしてね。

917 ：名無しさん＠お腹いっぱい。：04/12/31 13:22:45

>>916
ありが㌧！！！
助かりました！

918 ：名無しさん＠お腹いっぱい。：05/01/05 16:38:20

お世話になっております。
複数のディレクトリを検索対象にしたいのですがその方法がわかりません。
どのように表記すればよろしいのでしょうか？

今現在は
「hoge.sh」--------------------------------

setenv LANG ja_JP.eucJP
/bin/rm -f /usr/share/namazu/index/NMZ.lock*
/usr/bin/mknmz --replace='s#/misc/ihome/ttrr/html/Design/faq/#http://www.fugafuga.co.jp/~ttrr/Design/faq/#' \
--output-dir=/usr/share/namazu/index/ \
--config=/etc/namazu/mknmzrc.fuga /misc/ihome/ttrr/html/Design/faq/

--------------------------------
というスクリプトをcronで深夜に動作させています。

追加で
/misc/ihome/mmtt/html/内も検索して欲しいと要望を受けたのですが
表記方法が分かりません。

どなたかご教授いただけますとありがたいです。
Namazuのバージョンは 2.0.13を利用しております。

919 ：名無しさん＠お腹いっぱい。：05/01/06 00:34:06

>>918
まずは 2.0.14 にしましょう。
で、複数ディレクトリを指定したいならばそれぞれを列挙すればいいだけですっ
つーかドキュメントを読みましょう。

920 ：918：05/01/06 12:10:17

>919さん
RESありがとうございます。
大変失礼で申し訳ないのですが
ドキュメントとはどちらに表記してありますのでしょうか？

お教えいただけますとありがたいです。

921 ：名無しさん＠お腹いっぱい。：05/01/06 13:15:00

ドキュメントの在りかすら、わからないなら、使うなよ。
って切り捨てるだけじゃかわいそうなので
mknmz --help してみれ。

922 ：名無しさん＠お腹いっぱい。：05/01/06 18:47:05

どうやって入れたのかわからないけど、

/usr/local/share/namazu/doc/ja/manual.html

とか無いの？　>>920

923 ：名無しさん＠お腹いっぱい。：05/01/06 19:03:58

以前、「ドキュメント」の意味を知らなかったやつに
遭遇したことがある。

924 ：名無しさん＠お腹いっぱい。：05/01/06 21:55:06

>>923
へぇ～。
すごいね。

さらに全文検索エンジンが欲しいとか言い出したら「神」だよな。ｗ

925 ：名無しさん＠お腹いっぱい。：05/01/06 22:36:05

>>924
どこに書いてあるのか分からない(探せない)から全文検索したい、とか。

926 ：918：05/01/07 10:07:48

mknmz --helpを見てみると
使い方: mknmz [オプション] <対象>...
のところで複数対象が表記出来るみたいだったので
検索対象を列挙すればよいだけだったのですね、、、

解決いたしました。
どうもありがとうございます。

927 ：名無しさん＠お腹いっぱい。：05/01/10 23:34:49

kakasiがやっているのと逆に，
カナだけからなる文書を漢字カナ混じり文に一括変換するプログラムって，
ご存知ないですか？

928 ：名無しさん＠お腹いっぱい。：05/01/10 23:39:34

>>927
Wnnの逆変換機能とか。

929 ：名無しさん＠お腹いっぱい。：05/01/10 23:40:46

>>928
> Wnnの逆変換機能とか。

ちがうちがう。一括変換機能だな(恥

930 ：427：05/01/11 00:35:33

漢字カナ混じり文にしたくて「カナ漢字変換」っていうキーワードで
google検索とかにかけると，AtokとかWnnが引っかかってきてしまう．
kakasiみたいにフィルタ的に使えるプログラムが欲しいんですよね．

931 ：名無しさん＠お腹いっぱい。：05/01/11 00:51:35

そもそもSKKの逆をやってるのがkakasiじゃん。名前だってSKKの逆読みだし。
まあそれはさておき、一つの単語に対して複数の変換候補があり得るのだが
その取り扱いはどうするのだ？それ以前に単語の区切りも適切に行う必要も
あるのだが。

932 ：名無しさん＠お腹いっぱい。：05/01/11 01:10:15

>>930
仮名 -> 仮名漢字のときは、多数の候補が出るので
Wnnの一括変換も、候補表示確定待ち状態になるだけ。

可能な変換例をすべて/可能性が高い方を出力するフィルタも面白かもね。

933 ：名無しさん＠お腹いっぱい。：05/01/11 23:05:33

932で言ってるみたいなフィルタって，
もしかして，ない？

934 ：名無しさん＠お腹いっぱい。：05/01/12 00:11:30

「自然言語理解かな漢字変換」
でぐぐってみな。みんな、どんなに苦労しているか良く分かる。
「音声理解」
なんか付け加えてみてもいい。
「自然言語処理」になると、ちょっとニュアンスが変わって来る。

935 ：名無しさん＠お腹いっぱい。：05/01/14 16:21:28

既出だったらすみません。
win server 2003
Active Perl 5.6.1
Kakasi 2.3.4
をインストールしたあとに、Namazuをインストールしようと
すると、Error.txtが立ち上がり
・perl.exeがみつからないか、古い
・AutoExec.batの読み込み・書き込みができなかった
・Registryのシステム環境変数のよみこみ・書き込みができなかった

のどれかの原因で環境の設定ができません。

との内容がでます。以前、Win2000で設定したときは、何事もなく
進んだのですが、同様のエラーにあわれたかたはいらっさいます
でしょうか？

乱文をお許し下さい。よろしくお願いいたします。

936 ：名無しさん＠お腹いっぱい。：05/01/26 09:18:39

> Results:
> References:
>
> ...: [ 会計: 2 ]

これらの表示を消したいのですが、設定項目があれば、
教えてください。

937 ：名無しさん＠お腹いっぱい。：05/01/29 14:17:14

nmzmail - fast mail searching for mutt
http://www.ecademix.com/JohannesHofmann/

938 ：名無しさん＠お腹いっぱい。：05/01/29 15:12:42

>>936
namazu-2.0.14//src/output.cをいじれ。

939 ：名無しさん＠お腹いっぱい。：05/01/30 04:27:23

namzuってLGPLにならないのかな？

940 ：名無しさん＠お腹いっぱい。：05/01/30 04:58:33

939がこれからLGPLでnamzuを開発するそうです

941 ：名無しさん＠お腹いっぱい。：05/01/30 10:52:00

>>935
path に c:\perl\bin\perl; を追加しとけ。

942 ：名無しさん＠お腹いっぱい。：05/01/31 13:58:34

∈(・ω・)∋

943 ：名無しさん＠お腹いっぱい。：05/01/31 14:44:55

∈(´∀｀)∋

944 ：名無しさん＠お腹いっぱい。：05/02/01 01:30:53

鯰隈【なまずくま】
ttp://www2.ntj.jac.go.jp/dglib/edc_dic/dictionary/dic_na/dic_na_08.html

945 ：名無しさん＠お腹いっぱい。：05/02/01 10:09:01

∈(・(ｪ)・)∋

946 ：名無しさん＠お腹いっぱい。：05/02/04 11:43:20

検索対象からtitle属性を除外したいのですが
何処を触ればいいでしょうか？

<hn>リンク</hn>
<ul>
<li><a href="ttp://www.2ch.net/" title="２ちゃんねる">２ちゃんねる</a></li>
</ul>
というようなページを作成してNamazu検索すると
検索結果に　リンク２ちゃんねる２ちゃんねる　となるのを何とかしたいのですが・・・

947 ：名無しさん＠お腹いっぱい。：05/02/06 15:38:06

>>946
>182は？

948 ：名無しさん＠お腹いっぱい。：05/02/28 04:05:02

最大でどれ位のファイルのインデックスを作成できるんだ？
5Gチョい強でエラーが出た。

949 ：名無しさん＠お腹いっぱい。：05/02/28 07:27:50

>>948
--checkpointオプションは使ってる？
http://www.namazu.org/doc/tips.html#saving-memory

950 ：名無しさん＠お腹いっぱい。：05/02/28 08:55:33

>>949
使ってます。

最悪はカーネルパニックで落ちます。

5Gあたりが限界なのかな～と思ってます。
確か２０万ファイルぐらいはあったと記憶してます。

951 ：名無しさん＠お腹いっぱい。：05/02/28 10:35:53

952 ：名無しさん＠お腹いっぱい。：05/02/28 10:48:11

>>951
ありがとうございます。
jaistの過去ログをほぼ全てnamazuに食わしてと、個人サーバでは
限界に近いことをしていたので・・・

因みに「２ちゃんねる検索」ってどの様なエンジンなんでかね？
見た感じ非常に良く出来てます。

http://find.2ch.net/

namazuの検索結果ページをGoogleチックにしたくてエンジンに
手を入れようか迷って結局スタイルシートで逃げましたorz

953 ：名無しさん＠お腹いっぱい。：05/02/28 13:00:23

> namazuの検索結果ページをGoogleチックにしたくてエンジンに
> 手を入れようか迷って結局スタイルシートで逃げましたorz

ヒットしたとこが直接表示できるようにしたいとかそういうこと？

954 ：名無しさん＠お腹いっぱい。：05/03/03 23:40:18

...---...

955 ：名無しさん＠お腹いっぱい。：05/03/04 23:16:34

pnamazuのReplaceがうまくいかないのです。
履歴には
> # 2001.11.28
> # ! replace で \1, \2, ... が使えるようにした
って書いて有るのですが…

実際には
Replace (.*)\.html \1.htm
って書いてます。これで本家namazuではうまく行ってます。

アドバイスお願いします。

956 ：名無しさん＠お腹いっぱい。：05/03/04 23:59:04

純粋な野球ファンは５階でろくに応援もさせてもらえず、
接待で嫌々来ているろくに野球を知らない管理職が有待遇。
声を枯らして応援したい熱狂的なファンは５階で口をつぐんで、
メガホンなんて買ったこともないやつが２階で食い物をつついております。
こんなおかしなスタジアム、世界中どこを探してもナゴヤドームだけですよ。

957 ：名無しさん＠お腹いっぱい。：05/03/05 14:21:20

Namazu関係者に名古屋人が多い件について

958 ：名無しさん＠お腹いっぱい。：05/03/05 15:49:50

Knokが連れてきたの？

959 ：名無しさん＠お腹いっぱい。：05/03/05 23:59:40

knok先生はNLUGで知り合ったsatoru大先生に引きずり込まれたわけだが。

960 ：名無しさん＠お腹いっぱい。：05/03/09 13:12:24

Geta 面白そうだが

961 ：名無しさん＠お腹いっぱい。：05/03/13 19:38:36

第2回検索エンジンアンケート実施中！

http://hp6.0zero.jp/anq/anq.php?uid=1696&dir=84

962 ：名無しさん＠お腹いっぱい。：05/03/14 01:39:23

日本語 PDF ファイルからもテキスト抽出できるんだったっけ？

963 ：名無しさん＠お腹いっぱい。：05/03/14 02:22:14

日本に留学したアメリカ人、帰国してから、日本は排他的で
他人種を排除する国だと息巻いてたんだそうだ。なぜかというと、

「2年もいたのに、その間いちどもホームパーティに呼ばれなかった」

からだってさ。

964 ：名無しさん＠お腹いっぱい。：05/03/14 03:07:56

自分用メモ

rast N-gram全文検索システム
http://www.netlab.jp/rast/

965 ：名無しさん＠お腹いっぱい。：05/03/14 07:55:00

>>962
可能

966 ：名無しさん＠お腹いっぱい。：05/03/14 10:10:18

>>964
つ【http://pc5.2ch.net/test/read.cgi/linux/1036088927/】

967 ：名無しさん＠お腹いっぱい。：05/03/14 14:35:57

ファイル名に日本語(EUC)を含むファイル(pdfなど)の中身をnamazuさんで検索させてます。
当たり前ですが、検索はうまくいってます。
これを、Webサーバー経由で検索させると、検索はうまく行くんですが、ヒットしたファイル
(pdf)などを、クライアントにダウンロードさせようとすると、ファイル名が化けます。
EUCの日本語ファイル名がそのままURLになっているから、当然だろうなと。

で、ダウンロードしたファイル名が、ちゃんとした日本語にするためにはどうしたら良いので
しょう？
エロイ皆さん、ご教示ください。おながいします。

968 ：名無しさん＠お腹いっぱい。：05/03/14 15:20:52

どこかのスレで見た質問だな。namazuというイロつけてみましたってところか。
namazu関係ないのでスレ違い。

969 ：名無しさん＠お腹いっぱい。：05/03/14 15:52:18

>>968
やぱり....
他を捜してみます

970 ：名無しさん＠お腹いっぱい。：05/03/15 22:09:17

適当なﾗｯﾊﾟ書けばいいじゃん。対象ファイルのパスが
/foo/bar/日本語EUC.pdf だとして namazurcで
Replace /foo/bar http://www.example.co.jp/cgi-bin/wrap?
とかして wrapはquerystringsつかまえたら、それをsjis変換して
DLプログラムに渡して。DLプログラムは PATH_INFOでファイル名受け取るようにして
内部ではEUCにファイル名変換してターゲットファイルをOpenして
OctetStreamなmimeで出力すればよさげ。

971 ：名無しさん＠お腹いっぱい。：2005/03/24(木) 00:06:30

kakasiって2chのスレ内容の分析には弱いのかなぁ…
検索語がうまくひっかからない
ChaSenにしたら分析エラーで止まるし…

972 ：名無しさん＠お腹いっぱい。：2005/03/24(木) 00:26:00

複数行にわたったAAに強いわかち書きツールなんてw

973 ：名無しさん＠お腹いっぱい。：2005/03/24(木) 00:30:37

でもAAほとんど記号じゃん
漢字仮名交じりにきちんと反応してくれればいいのに

974 ：名無しさん＠お腹いっぱい。：2005/03/24(木) 06:54:18

Mecab はどうですか？
と、自分で試さずにカキコ。

975 ：名無しさん＠お腹いっぱい。：2005/03/26(土) 18:09:44

Excelファイルをインデックス作成中にVisual Basicのエラーメッセージが
でるのって俺だけ？ Namazu 2.0.14に付属のoleexcel.pl使ってるんだが、
どうも、VBAマクロ使っているファイルで吐いているっぽい。
回避策があるのなら、教えて。

WindowsXP Pro SP2
Namazu 2.0.14
Excel 2000
Active Perl 5.6.1

976 ：名無しさん＠お腹いっぱい。：2005/03/26(土) 19:11:13

ここは Unix板ですよ？

977 ：名無しさん＠お腹いっぱい。：2005/03/27(日) 23:36:19

つい最近使い始めたんですが、826の辞書ってもうアップされないんでしょうか････
乗り遅れてたorz

978 ：名無しさん＠お腹いっぱい。：皇紀2665/04/01(金) 15:51:35

>>970
じつは、そこに書いてるようなことをしますた。
ところがどっこい…ファイルをダウンロードしちゃいかん！といわれてしまつた。
WindowsのIEの場合、拡張子に.docとあるとWORDが起動して、ブラウザー内で
.docを表示できるようになります。
が、これって、どうもファイル名が半角英数文字の場合だけのようで、日本語を含
むファイル名だと、ダウンロードが始まります。

namazuを使ってウンヌンカンヌン以前の問題となったのでした。
疲れたぞな

979 ：名無しさん＠お腹いっぱい。：UNIX時間(+0900)35/04/02(土) 10:54:49

そろそろ次スレのシーズンな訳ですが

980 ：名無しさん＠お腹いっぱい。：UNIX時間(+0900)35/04/02(土) 11:03:52

irane....