全文検索エンジンEstraier

このエントリーをはてなブックマークに追加
1名無しさん@お腹いっぱい。
個人用途向けの全文検索エンジンEstraierに関する話題を扱う
スレッドです。

http://estraier.sourceforge.net/
2名無しさん@お腹いっぱい。:04/11/12 10:49:39
    ,,-‐''""''ー--е >1把握した
  .|""       . .||   >3(´・ω・`)知らんがな
 . ;;|  VIP連合 .||   >4おっぱい!おっぱい!
:: .;;|        ...||      >5ピザでも食ってろデブw
.:::::;:;|    ,ノ""""||   >6僕は、神山満月ちゃん!
.:::::;;:| ,/""" 人  ;n|| >7夢がひろがりんぐwwwwwww
  ""   (__)./ ) >8だから個人宛てって言ってんじゃよ
      (____./ /||  人  >9そんなことロスでは日常茶飯事だぜ(´・ω・`)y─┛~~~~
V・I・P>∩(・∀/ /   (__)  >10-1000それが、VIPクオリティ
     \   ( と) (__) >1001イヤッッホォォォオオォオウ!
      〈 〈 ヽ )\(´∀` )     n
      (_)(ノ,       \    ( E)
            | VIP  /ヽ ヽ_//
おいオマエら、MewからEstraierを使う方法を教えてください。

>>4
4様禁止
5様
4様
3様
Q様
1様乙

で Namazu と比べてどこがどうなの? 使ってる人教えてプリーズ。
道を歩いてたら発砲されたよ
Namazuにくらべて、検索語の周辺文を要約として出してくれるのがいい。UIはGoogleにソックリ。
性能や検索精度はいっしょぐらいかな。あと、関連検索がちょっと面白い。
>>10
Namazuは単語の出現位置をインデックスに記録しないからね。
ランキングはよくわからん。ちなみにNamazuにはPageRankハックが
あったけど、特許申請されているという理由(その後特許になっている)
で採用は見送られている。
12名無しさん@お腹いっぱい。:04/11/12 12:58:59
自分が使ってみた感じでは、精度はEstraierの方が上なような。
namazu スレの766です。Estraier試してみますた。namazuに
くらべて複合語検索にずいぶん強いすね、「拡散接合」とか
「絶縁限界」とか。indexingもだいぶ早いような希ガスます。
かなーり良さげなんで、しばらく使ってみることにします。
メタ検索機能って使ってる香具師いる?
>>12-13
ほほう、さすが評判になってるだけによさげっすね〜。
自分も乗り換えてみたいけど、gnus-namazu と Namazu の自作フィルタがある
からかなり気合いがいるなあ…(´・ω・`)
namazu用のフィルタってestに使えないのかな。
改造するとしたらどれくらい手間かかりますかねぇ。
インデックス作るのは相当遅い。
検索速度は同じぐらいかな。
まぁ単純には比較できないか。
namazuは自作フィルタで重み付けをやっているので
その部分を何とかできればなぁ。
みんな乗り換えたの?
そうか? インデクシングはestraierの方がずいぶん速い気がするんだが。
インデックスはEstraierはQDBMベースだからhashとB+Treeか。
一方、Namazuは二分木だっけ。
二分探索であって二分木ではないと思われる。
>>16
Namazuのフィルタ部分だけを使えるみたいだから
なんとかできるのでないかな。
http://www.namazu.org/pipermail/namazu-devel-ja/2004-September/000111.html
>>21
サンクスコ。なんかいけそうな予感。
ってゆーか、初めて知った。デモを使ってみたらスゲーいいじゃん。
Namazuから乗り換えよっと。
Estraier て読み方わからん。これ何語よ。
あと sourforge の ML アーカイブもなんか
文字コードおかしくね?
超昂天使だろ
>>24
> あと sourforge の ML アーカイブもなんか
> 文字コードおかしくね?

それは周知の事実。わざわざMailmanの改悪版を作っておきながら
直す気もないので、SF.netで日本語のMLを立てるべからず。
27名無しさん@お腹いっぱい。:04/11/13 06:46:50
>>24
> Estraier て読み方わからん。これ何語よ。

Q. : 「Estraier」はどう発音するのか。
A. : 「estraier」は昔のフランス語で「さまよう」もしくは「はぐれる」という意
味の言葉だそうだが、作者はそれをどう発音すべきか未だに知らない。
えとれあ、とかなんとかじゃねの。
これ見た初め、2バイトコードなんか全然知らない
フランス野郎がつくったソフトかと思たーぜぃ。
>>28
フランス野郎が作ったのはこっち。
http://www.gnu.org/software/mifluz/
えすとれーるでないのと言ってみるテスト。

e(離れて) + traire(引く) → estraire(v)     → extraire
                → estraier(adj) → etrange, etranger
31名無しさん@お腹いっぱい。:04/11/13 09:02:52
% estindex register test

としてみると

:
estindex: INFO: ./rfc3675.txt: registered: id=138 wnum=0
estindex: INFO: test: database closing: fsiz=755995 dnum=35 wnum=0 bnum=114667
estindex: INFO: test: writing meta information: fsiz=755995 dnum=35 wnum=0 bnum=114667
estindex: INFO: test: registration completed successfully

となるのは、これはどこか変なんだよな?
32名無しさん@お腹いっぱい。:04/11/13 09:54:11
はてなダイアリーには「えすとれいあー」と振り仮名があったな。
ちゃんと全文検索エンジンで。

漏れも時間できたらNamazuから乗り換えてみよう。
>>31
registration completed successfullyって言うてるやん。
>>31
wnum=0 ってなってるから、単語が抽出できてないんでないの?
ファイルが空か、パーミッションがないとか。
だったらsuccessfullyってのも変だが。
「エスレール」とかちゃう?
古仏語でsは脱落してもtは脱落しないのココロ
37名無しさん@お腹いっぱい。:04/11/14 12:45:55
1.2.25リリースage
文書分類機能がなかなか面白いね。
俺も乗り換えてみるか。
古仏語の発音は、時代によって変わるから難しいな
今のフランス語と違って、ほぼローマ字読みだったはずだけど
「エ(ス)トライエル」ぐらいか(ラ行は巻き舌音)
40名無しさん@お腹いっぱい。:04/11/14 16:49:29
"est*"でいいやん。
現代フランス語としての発音はどうなの?
仏語は母音衝突を嫌う。三重母音が存在したとは考えにくい。
語尾がerになった時には既にaiは単母音化していただろう。
>>41
aier は現代仏語としてはありえん綴りだが
無理に読めばエストレー(ル)かのお。
末尾のrを発音するかどうかはまちまちだろう。

が、仏人は当然学校で古仏語を習ってるので
よほどのdqnでない限りは古仏語読みを試みると思われ

32の英語読みが爽やかだ
口では「えすとなんとか」と呼んでいます。
現代仏語しかやったことないけど、エストレー(ル)は近いと思う。
めんどいからなまぜに改名しようぜ
そういやluceneの読み方も物議を醸してたな。
Namazu後継で「なまこ」
あー、estraierはvuidierと韻を踏むのか。
じゃあエストライエルかエストレイェルだな。
ここは検索対象としない(インデックス作成を除外)の指定
Namazuの EXCLUDE_PATHに相当するオプションってあるのでしょうか?

エストライアーとかエストレイルかな。
>>50 EXC_DIR オプションスイッチ、
今のところ無いように見える。
indexingさす dir を明示して
とりあえずしのげ、つうことでわ。
>>50 多分 -ipre オプションでできる。
5450:04/11/14 23:25:42
>>52,53
-ipreは、無視するファイル名を書くようですね?。このディレクトリー以下全部除外。ってのは無理?
やはり、一個一個ディレクトリー指定していくほか無いようですね。

いやほら 403で見れなくしてても、namazuもそうだけど、お構いなしに database作って
大漏洩になっちゃうから・・
55名無しさん@お腹いっぱい。:04/11/14 23:31:15
希望の仕様をまとめてお願いしてみろよ。
>>54
prefixのpreだと思われる。だから、前方一致でヒットすれば無視されるはず。
まだインスコもしてないから判んないんだけど Namazu の --target-list み
たいに find でファイルリスト作っといてそれを食わせるとかできないの?
>>57 それはできる。
5957:04/11/15 00:22:37
>>58
thx。それが出来ればどうとでもなるよね。find の方が融通が効くからいろい
ろ指定したいときは Namazu でも find 使ってるな、俺。
いっそのこと、デフォルトで標準入力からファイルのリストを取るようにすればいいのにね。
そうすりゃ変なミスはしなくなる。ついでに全部URLで指定することにして、
file:///home/hoge/public_html/abc.html
file:///home/hoge/public_html/def.html
とか
http://www.yahoo.com/foo.html
http://www.yahoo.com/bar.html
みたいに指定できれば、ローカルとリモートを区別しないで登録できてよくない?
断固として日本人が普通に読める名前への改名を要求する。
62名無しさん@お腹いっぱい。:04/11/15 16:40:59
df ってなんて読むんですか。
UNIXに関する言葉のひらがな読みスレッド
http://pc5.2ch.net/test/read.cgi/unix/1001358861/
>断固として日本人が普通に読める名前への改名を要求する。

儂の妄想:〜いろんな名称・呼び方で紛糾。最終的に「Nanashi」で定着〜
コート脱いだらハワイの Estraier 萌え
えすたん
67名無しさん@お腹いっぱい。:04/11/16 13:07:25
試しに入れてみたけど、estraierめちゃくちゃいいじゃん。
68名無しさん@お腹いっぱい。:04/11/16 14:23:45
estindex: QDBM does not feature iconv
と言い出して動かなくなってしまった。

6968:04/11/16 14:42:48
ふむ

以前、

>% estindex register test
>
>としてみると
>
>:
>estindex: INFO: ./rfc3675.txt: registered: id=138 wnum=0
>estindex: INFO: test: database closing: fsiz=755995 dnum=35 wnum=0 bnum=114667
>estindex: INFO: test: writing meta information: fsiz=755995 dnum=35 wnum=0 bnum=114667
>estindex: INFO: test: registration completed successfully
>
>となるのは、これはどこか変なんだよな?

とポストした者だが、その後1.2.15にバージョンアップしたところ

>estindex: QDBM does not feature iconv
>と言い出して動かなくなってしまった。

ということのようだ。同様の人はいませんか?
どこが壊れてるんだろう??
>>68
メッセージ通りだと思われ。

configure のオプションはどうしてる?
qdbm は estraier 付属のもの使ってる? 別途入れてる?

うちは FreeBSD の ports で入れたら同じこと言われたんで、
確認したら別途インスコされた qdbm に --enable-iconv が
入ってなかったんで直したよ。
じゃあ、改名しなくてもいいから作者は読み方を決めろ。
Senと書いてChihiroと読むように
Estraierと書いてSnatcherと読む。
73名無しさん@お腹いっぱい。:04/11/16 18:59:03
>>72
良いね、スナッチャー。響きも良いし、軽快に動くイメージとも相性よさげ。
「えすとれいや〜」はナンだか変形メカみたいなイメージが…。

ガシ、ガシ、シャキーン!ってカンジ<次世代検索メカ・エストレイヤー
7468:04/11/16 19:12:19
>>70
情報ありがとう。

est*もqdbmも消してest*から依存性で両方インストールしなおしたり
してもだめだから、libiconvまわりを疑っていた。

あれこれやってみて、

# portupgrade -f -m 'CONFIGURE_ARGS+=--enable-iconv CONFIGURE_ARGS+=--enable-zlib databases/qdbm

したらあっさり動いたなり。

要するに、FreeBSDのportsのestraierは、動く状態になっていないと
いうことで最終解答?
JavaScriptなしでアンカーにtarget指定できないもんでしょうか?
decanc: target="_blank"
みたいな。
>>75 ソースいじるしかないと思う。
SnatcherってEstraierの昔の名前だよね?
コナミっぽくてアレだけど。
OSXに入れてみた。+kakasi, +mecab ともに問題なく動いた。(最初、mecabの
辞書をUTF8にしてしまってはまったのは内緒だ。)序でに、 darwinportsの
Portfileも書いた。茶筅は昔、試したときにコンパイル出きんかったんで手を
つけてない。

これからは慧須都霊留とよんでください。
80名無しさん@お腹いっぱい。:04/11/17 12:33:15
>>78
乙カレー。

漏れもPBに入れてみるかのぉ。
OpenOfficeのファイルを検索対象にするにはどうすればいいですか?
>>81
unzipとperl5.8以上かlvあたりありゃ出来るんじゃない?
>>82
81じゃないけど、感動した。
gzipじゃないので、zcatができないのが辛いけど。
84名無しさん@お腹いっぱい。:04/11/20 15:23:52
> 要するに、FreeBSDのportsのestraierは、動く状態になっていないと
> いうことで最終解答?

どうもそうらしい。QDBMのportsの作りなおし希望!
windowsに入れてみたかったけれどよくわからなかったので、
Google DeskTop Searchにしてしまいました。
# UNIX系のツールは敷居が高くて難しいよ。
Google Desktop Search が Unixで動いても
よいんだがそうじゃないわけで。
87名無しさん@お腹いっぱい。:04/11/23 02:52:45
メールボックス(Sylpheed)の検索に使っているのですが、新しくメールが届いた
時に、新着の分だけインデックスに登録することってできますか?
今のところcronでやってるのですが、やっぱりすぐ反映された方が便利なわけで、、、
ポーリングすりゃいいじゃん。
89名無しさん@お腹いっぱい。:04/11/23 13:20:21
>>88はロートル

受信箱直下にある状態でインデックスしても、すぐ移動されてしまうので意味がない。
どうせなら、フォルダに振り分けたのをトリガーにしてestindexが発動してほしいな。
fetchmailで取りこむときにインデクサ動かせばいいんじゃなーい?
そんなんでインデクサ?
ライブラリベースでメーラーに組み込めるようになっていたらいいのになあ。
Matzさんが作ってるメールオーガナイザーはQDBMを直接使っているんだっけ。
メールオーガナイザーはなんで公開されないんだ?
>>94
GPLじゃないから
96名無しさん@お腹いっぱい。:04/11/30 21:22:27
estはGPLじゃなかったっけ?
というかGPL=何でも公開という誤った認識はさっさと捨てろ。
バイナリを頒布しない限りはソースの入手可能性を保証する義務は生じないぞ。
そうでないとプライバシーの権利を損ねることになるからだ。
一見さんお断りのお店みたいなもんだな。
馴染み客に紹介してもらえば出入りできるようになる。
ただ一見さんお断りの場合は紹介者の信用が担保となるので
でたらめな新しい客は入ってこないんだが、
GPLのバイナリ頒布は再配布にリスクが伴わないのが問題だな。

binary頒布しても、ハンドアセンブルして 16進ダンプを
打ち込んだと主張すれば source開示しなくていいですか?
Namazuじゃなくてこれを使う意味ってなにかあるの?
>>101
多分こっちの方がよくできている。
Namazuのアドバンテージはフィルタが豊富なことぐらいかな。
googleのPageRankみたいな機能は特許でいれられないの?
>>105
orz
貼るなら
ttp://patft.uspto.gov/netacgi/nph-Parser?patentnumber=6285999
にしとけばよかった。
>>101 つーかもはやNamazuを使う理由がないよな。
>>101
開発力が消えていない。
以前両方入れてみたけど、結局namazuを使ってるな...
多少の性能差よりも枯れ慣れノウハウ蓄積の方が
価値を持つ傾向のある世界だからね。
あの憶えにくい独自の命名に、作者のわがまま……っていうのは
言いすぎか……ええと、まわりを見ずにわが道を行きそうという
不安感を憶えるので、躊躇してしまうんだよな。
我が道を行った方がいいんじゃねえの?
他と同じだったら存在価値ないし。
>>111
Namazuのことかestraierのことかどっち?
作者が我が道を見失ったらお終いだろ
アイデンティティを失ったらおしまい。
周りが見えなくなったら地下に埋もれる。
116名無しさん@お腹いっぱい。:04/12/02 17:54:39
>>111
一時期のリリース速度がはんぱじゃなかったから、安定してない気はしてしまうよな。
最近は落ち着いてきたみたいだけど。
あと、仕様書にある
>Estraierのバージョンが上がる際には、古いバージョンで作成した転置インデッ
>クスの互換性は保証されない。
ってあたりも、つっ走り感を漂わせてるかも。
117名無しさん@お腹いっぱい。:04/12/02 18:14:19
作者の気まぐれでオタオタするのはもうごめんだしなあ。
作者がBAKAなんだっけ
作者って、問題がある人なの?
人はだれでも問題を抱えているものさ。
>>119
日本人は日本人をけなすのが大好き。それだけだろ。
>>111-121
工作員乙
mew-nmz で使えまつか?
>>123
使える。
ちなみに、BSDライセンスだから公開する気はない。
>>125
何の話?
>>126
mew-nmz ぱっち
>>119
バッドノウハウ等の頭の悪い文書を書いた人
嫉み、乙
>>125
くれよ。ケチすんなよ。
GPLでも自分だけで使ってるぶんには公開する必要ないよ。
同じ指摘が繰り返されてる罠
商品にするわけでもないだろうから、公開したって損はないだろうに。
存在しないものは公開できないよな。
135名無しさん@お腹いっぱい。:04/12/08 14:29:08
FreeBSDのportsの今日のアップデートで、
qdbmにiconvサポートが入り、
そしてest*のmecabサポートがFreeBSD5.*以上で
のみ指定可能なオプションに格下げ。
注意されたし。
136名無しさん@お腹いっぱい。:04/12/08 15:49:59
デフォルトの属性として title や author はあるのですが
オリジナルの属性の定義って出来ますか?
authorにCSVかなんか適当に突っ込んで、表示する時に切り分ければ?
138名無しさん@お腹いっぱい。:05/01/02 22:52:28
CygwinでないWin版は出ねーの?
>>138
誰かがパッチ書けばね。QDBMの方はNative Win32に対応してるべ。
140名無しさん@お腹いっぱい。:05/01/03 01:32:24
未踏採択キタ━━━━━━━━(゚∀゚)━━━━━━━━!!
ttp://www.ipa.go.jp/jinzai/esp/2004mito2/koubokekka.html

> 1 平林 幹雄 共同体的P2P全文検索システムの開発
141名無しさん@お腹いっぱい。:05/02/07 11:51:07
1.2.26リリースage
namazu に比べてはやっていない気がするけど、なんでだろう?
Namazuの方が何年も前に出ているし、当時は他に強力な競合ソフトがほとんど
なかったから。
144名無しさん@お腹いっぱい。:05/02/09 16:29:28
作者のblogによると、
時期バージョンはN-gram式になるらしい。
動詞っぽいからエストレエ(-er動詞のrは発音しない)だと思っていた。
146名無しさん@お腹いっぱい。:05/03/13 19:40:53
第2回検索エンジンアンケート実施中!

http://hp6.0zero.jp/anq/anq.php?uid=1696&dir=84
s/E// するとセントレアみたい。
148名無しさん@お腹いっぱい。:2005/03/29(火) 19:58:11 ID:
なんか変な風に煮詰まってないか? 作者氏。
149名無しさん@お腹いっぱい。:UNIX時間(+0900)35/04/02(土) 10:12:19
将来的にはどうか知らんけど、
とりあえずソフトはちゃんと
動くんだから良しとする。
Namazu にも頑張ってもらいたい。
選択肢が複数あるいうのは大切。
150名無しさん@お腹いっぱい。:2005/04/07(木) 13:46:13
151名無しさん@お腹いっぱい。:2005/04/07(木) 22:49:32
凄く良い!
namazuのindexをコンバートできないかな・・・
それと、googleみたいなページ切り替えにしたいな
  前へ 123・・・ 戻る
こんな感じで。。
152名無しさん@お腹いっぱい。:2005/04/08(金) 00:14:34
ライブラリだし、スクリプト言語のバインディングも提供されるようだから
そのへんは好きにできるだろう。

インデックスのコンバートはどうか知らないが、多分難しいとおもう。
namazuは出現位置の情報はもってないんじゃなかったっけ。あと隣接チェックとかも。
153名無しさん@お腹いっぱい。:2005/04/08(金) 00:17:17
欲を出すとgoogleキャッシュみたいにヒットしたキーワードを
反転させて表示するリンクも欲しい。
154名無しさん@お腹いっぱい。:2005/04/08(金) 03:34:30
namazuの様にINDEXをパラメータで変更出来ないのですか?

<input type="hidden" name="idxname" value="XXX">

マニュアル見た感じCGIではパラメータがないようです。
Serverはindexname(だったかな)パラメータ持ってました。
155名無しさん@お腹いっぱい。:2005/04/08(金) 08:43:39
>>154
estmerge.cgi 使えばイイんでない?
156名無しさん@お腹いっぱい。:2005/04/08(金) 08:54:20
>>155
名前がマージなんで結合してしまうので。。
serverを動かすしかないのか。

ソースに手を入れるか・・・
157名無しさん@お腹いっぱい。:2005/04/08(金) 14:20:16
>>155
メタ検索の対象となるestsearch.cgiをチェックボックスで
選択できるから、それは個々のestsearch.cgiが担っているインデックスを
選択しているのと同じことだろう、ってことでしょ?
158名無しさん@お腹いっぱい。:2005/04/08(金) 14:39:54
>>157
ありがとうございます。
マニュアルに書いてます??
相当読んだんですが気付かなかったです。

結論
 estmerge.cgi
を使う。
159157:2005/04/08(金) 15:43:07
あまり詳しくは書いてないみたいですね。
試しに動かしてみたら意外に便利だったという感じ。
160名無しさん@お腹いっぱい。:2005/04/08(金) 16:34:16
recipientやauthorで検索ってどうすればいいんだろう?
161名無しさん@お腹いっぱい。:2005/04/09(土) 05:29:41
どのエンジンも一長一短でやはりエンジンを一つ決めて自作するしかないな。
162名無しさん@お腹いっぱい。:2005/04/09(土) 06:04:38
エンジンは鯰よりも早くて良いな。

IF(単純なHTML)の自由度がないのが惜しい。
163名無しさん@お腹いっぱい。:2005/04/09(土) 16:35:42
>>160
estindex register -tattr recipient -tattr author ...
とかやればいんじゃね?
164名無しさん@お腹いっぱい。:2005/04/10(日) 19:20:31
subversionのレポジトリの中身を、ワーキングコピーに取り出さずに
うまいことsvn cat とかsvn lsとかだけ使ってestindexに食わせるこ
とはできるでしょうか。
165名無しさん@お腹いっぱい。:2005/04/10(日) 21:15:47
>>164
gonzui
166名無しさん@お腹いっぱい。:2005/04/13(水) 19:24:58
短い識別子でないとダメって今時珍しい人だな。
167名無しさん@お腹いっぱい。:2005/04/16(土) 14:28:33
Hyper estraier がリリースされたね。
さて、APIをながめてみるか。
168名無しさん@お腹いっぱい。:2005/04/16(土) 15:22:52
>>167
リンクはどこ?
169名無しさん@お腹いっぱい。:2005/04/16(土) 15:52:31
ttp://hyperestraier.sourceforge.net/

APIはヘッダファイルを見た限りでは取っつきやすそう。
170168:2005/04/16(土) 16:06:38
>>169 thx。
んで、estraierとhyper-eでのindexは全く別モノ?
共存さすのは無問題?
171名無しさん@お腹いっぱい。:2005/04/16(土) 17:48:55
インデックスは別物だろう。
共存は別にできるんでないの。
172名無しさん@お腹いっぱい。:2005/04/16(土) 19:05:10
デふぉだとindexは同じcasketつう名前の
フォルダの中にできるわけだが。
173名無しさん@お腹いっぱい。:2005/04/17(日) 18:53:45
デフォっつーか、インデックス名は引数で指定してるだけじゃん。
違う名前にすればOK。
174名無しさん@お腹いっぱい。:2005/04/17(日) 20:06:05
hyper-eいいね。対応フォーマットを増やしてくれるともっといい。
175名無しさん@お腹いっぱい。:2005/04/17(日) 20:23:18
フィルタは簡単に書けるんじゃない?

rastと違ってDB作成時に属性を決める必要がないみたいで便利そう。
176名無しさん@お腹いっぱい。:2005/04/17(日) 20:47:15
フィルタ増やすというよりLuceneみたいにいろんなアプリに組み込めると面白そう。
177名無しさん@お腹いっぱい。:2005/04/17(日) 21:28:31
>>176
libestraier.so は飾りじゃありませんよ。
APIドキュメントが早く欲しいところ。
178名無しさん@お腹いっぱい。:2005/04/17(日) 23:40:28
つ【doxygen,gtk-doc】
179名無しさん@お腹いっぱい。:2005/04/18(月) 00:07:36
え、引数の意味を自分で調べてその上でわざわざDoxygenタグを自分で書けと?


ドキュメントを待つか、ヘッダファイルだけでぶっつけ本番でやった方が
いいとおもうけど。
180名無しさん@お腹いっぱい。:2005/04/18(月) 00:15:56
ドキュメントはAPI freezeしてからでいいかも。
しかしautomakeもlibtoolも使ってないのか。
181名無しさん@お腹いっぱい。:2005/04/18(月) 03:56:06
そいつぁいいや
182名無しさん@お腹いっぱい。:2005/04/18(月) 06:23:55
autoconfすら使ってないzlibみたいなのもあるんだし、別にいいんじゃない?
183名無しさん@お腹いっぱい。:2005/04/18(月) 07:52:57
コンパイルするときは便利だと思うが自分で書こうとすると
嫌になる。

バッドノウハウのかたまりだもんな。>autoconf一味

184名無しさん@お腹いっぱい。:2005/04/18(月) 11:22:50
コンパイルするときも邪魔だと思うが、
バッドノウハウとかいう人はもっとウザい。
185名無しさん@お腹いっぱい。:2005/04/19(火) 10:08:12
APIドキュメントも出たね。rastより簡単そうかな。
186名無しさん@お腹いっぱい。:2005/04/19(火) 11:19:35
そう? rastよりもずいぶんと低レベルで複雑じゃない?とおもったら意図的にやってたのか、、バインディングを書いてもいいと思ってたけど、ノードAPIが出るまで待つか、、
187名無しさん@お腹いっぱい。:2005/04/19(火) 21:27:33
全文検索のようにスケールに敏感な機能の場合、ある程度低水準の方が使いやすいことない?
内部で勝手にMutex使われていると性能が出なかったりして、API自体をいじらないといけなくなる。
本家にパッチ送って反映待ちになるのも面倒いから、自分で好きにいじれる方が、、、
188名無しさん@お腹いっぱい。:2005/04/20(水) 15:06:10
rastとsennaの話題はここですか?
189名無しさん@お腹いっぱい。:2005/04/20(水) 17:02:10
190名無しさん@お腹いっぱい。:2005/04/20(水) 17:44:09
>>187
スケーラビリティの点から見るとたしかに日記に書いてあるような
サーバークライアント方式の導入は正しいように思えるね。
mnogosearch見たいな感じになるのかしらん。

やっぱノードAPI待ちかな。それともTigerが出たらSpotlightとSearchKitに
浮気しようかな。正直迷うな
191名無しさん@お腹いっぱい。:2005/04/20(水) 18:15:04
すげー、Windows版が出とる。
192名無しさん@お腹いっぱい。:2005/04/24(日) 02:24:32
>>190
サーバ方式にしてもスケーラビリティは上がらないんじゃない?
検索速度は上がるかもしれないけど、ネットワークの負荷を考えると微妙。
193名無しさん@お腹いっぱい。:2005/04/25(月) 04:38:56
ネットワーク遅延はデータベース検索においてそれほど大きな問題じゃない
と思うよ。そもそもデータベースのスケールによらず一定だし。

コアAPIの守備範囲であるローカルホストならなおさらじゃない?
194名無しさん@お腹いっぱい。:2005/04/25(月) 10:24:35
確かにそうかも。
それと、DBとは別のマシンでアプリケーションを動かせだろうから、フィルタと登録を
パイプライン的にやれば効率いいかもね。
秒速104文書登録ってのをどこまで維持できるかが見もの。
195名無しさん@お腹いっぱい。:2005/05/02(月) 10:13:17
rast 0.1.0キター
196名無しさん@お腹いっぱい。:2005/05/02(月) 20:03:29
Estraier と HyperestraierとCGIの検索スピード比べると、
大体Hyper...のほうが倍くらい早いかなて感じだ(当社比)。
197名無しさん@お腹いっぱい。:2005/05/02(月) 20:23:55
唐突に出てきた「CGI」という謎の実体について。
198名無しさん@お腹いっぱい。:2005/05/02(月) 20:54:06
HyperestraierをCGIとして使った場合の速度>Estraier をCGIとして使った場合の速度
ってことでわ?
199名無しさん@お腹いっぱい。:2005/05/03(火) 11:59:48
検索インターフェイスってwebしかないの?
コンソールとXで動くやつもあると嬉しいんだが。
200名無しさん@お腹いっぱい。:2005/05/03(火) 12:35:57
ライブラリ使ってなんとかしろ。
201名無しさん@お腹いっぱい。:2005/05/03(火) 12:37:35
インクリメンタルな全文検索インターフェースを頼む。
202名無しさん@お腹いっぱい。:2005/05/03(火) 13:09:05
Hyperestraierでestcmd gatherするとき、
sym link をdereferenceしないようにお願い
したいんだが、どうすれば良い?
203名無しさん@お腹いっぱい。:2005/05/04(水) 16:46:01
中の人に言えば?
204202:2005/05/04(水) 20:12:26
static const char *pathtourl() のなかで
realpath()を呼んでるからだ、つうとこまでは分かった
んだが、絶対パスに展開するのやめさすと各方面に
色々面倒が起きそうな希ガス。
>>203の言うとおり、作者に頼むしかないかな。
205名無しさん@お腹いっぱい。:2005/05/04(水) 21:30:07
APIの呼び方さえ変えなければ特に問題ないと思うけど。
MLに投げれば対応してくれるかも。
206名無しさん@お腹いっぱい。:2005/05/08(日) 11:02:50
mboxファイル用のフィルタはないですか?
207名無しさん@お腹いっぱい。:2005/05/08(日) 18:34:26
>>201
高林さんとかの JavaScript を参考に組めば出来ると思うけど、
たぶんめっちゃおもくなるとおもわれ。
208名無しさん@お腹いっぱい。:2005/05/08(日) 20:54:44
>>207
>>201 は Ajax なインターフェースのことを言ってると思われ。
209名無しさん@お腹いっぱい。:2005/05/08(日) 20:59:06
>>208
> >>201 は Ajax なインターフェースのことを言ってると思われ。

ちがう。
210名無しさん@お腹いっぱい。:2005/05/08(日) 21:01:23
>>207
> 高林さんとかの JavaScript を参考に組めば出来ると思うけど、
> たぶんめっちゃおもくなるとおもわれ。

migemoのアイデアって、1990年ころに、プライベートな
研究会で見たことがあるよ。いや、べつにそっちの方が
先だとか言いたいわけではない。みんな同じことを考え
ていたんだということ。で、「たぶんめっちゃおもくな
るとおもわれ」とコメントされ、それで終わっていた。
211名無しさん@お腹いっぱい。:2005/05/08(日) 21:46:12
>>209
ありゃ、違うのか。 >>208 で合ってたのかな。
212名無しさん@お腹いっぱい。:2005/05/08(日) 22:30:05
Ajax風に難しいことをやるのでなければ、
onChangeイベントでsubmitするだけでしょ?

たぶんめっちゃおもくなるとおもわれるけど。
213名無しさん@お腹いっぱい。:2005/05/08(日) 22:34:28
前に Ajax でリクエストをばんばん飛ばすスクリプト書いたけど、結構レスポンス良かったよ。

ただ、インクリメンタルにする意義が感じられなくて結局使ってないけど。
214名無しさん@お腹いっぱい。:2005/05/08(日) 22:42:49
インクリメンタル検索って、オモチャとしては面白いけど、実用的ではないよね。
エディタで使うみたいに、一個のファイルの中をインクリメンタル検索するのは便利
なんだけど、不特定多数の文書をファイルを対象にた場合は意味がない。
インクリメンタルである利点は、前後関係が確定している場合にのみ享受できる。
215名無しさん@お腹いっぱい。:2005/05/08(日) 23:39:23
エディタでも実用的じゃないし
216名無しさん@お腹いっぱい。:2005/05/08(日) 23:41:20
インクリメンタルなんてほしがるのは素人だけ。
あれは単なるけばけばしい包装、はなばなしいだけの
ファンファーレ。
そんなものをほしがるやつには、UNIXを使う資格はない。
217名無しさん@お腹いっぱい。:2005/05/08(日) 23:50:04
プログラマなら、エディタのインクリメンタル検索は使いまくる
と思うんだけど、みんなは違うの?
218名無しさん@お腹いっぱい。:2005/05/08(日) 23:58:20
目と頭が付いていけないから使ってない
俺の言う事を最後まで聞け(ゴルァ と思う事多し

動的なインターフェイスは使用者に掛かる負荷が大きいんだよね
何も考えずにインクリメンタルサーチ使える人は正直感心する
219名無しさん@お腹いっぱい。:2005/05/09(月) 00:14:29
んなこと言ってたら自動車の運転もできないじゃん。
220名無しさん@お腹いっぱい。:2005/05/09(月) 01:27:21
これは複数サーバ(or ディスク)を使って分散処理を行う事は出来るの?
チュートリアルにそれに関した記述が見当たらなかったんだけどやっぱり無いのかな。
221名無しさん@お腹いっぱい。:2005/05/09(月) 01:55:12
estの方はできるでしょ。hyperの方は知らない。
222名無しさん@お腹いっぱい。:2005/05/10(火) 11:37:13
自分でインデックスを更新するのでなく、新しく保存したファイルを自動検知
してその分だけ更新するようにできないかな。
223名無しさん@お腹いっぱい。:2005/05/10(火) 12:03:00
>>222
もちろんできるでしょ。
224名無しさん@お腹いっぱい。:2005/05/10(火) 12:38:46
新しいかどうかを検査する負荷もバカにならないから現実的じゃ無い気も。
225名無しさん@お腹いっぱい。:2005/05/10(火) 13:04:17
>>224
そう思うなら、口を閉じて引っ込んでろ。
226名無しさん@お腹いっぱい。:2005/05/10(火) 13:34:10
FAMとかgaminとか使うといいかも。
FAM:http://techpubs.sgi.com/library/tpl/cgi-bin/getdoc.cgi?coll=0650&db=bks&fname=/SGI_Developer/books/IIDsktp_IG/sgi_html/ch08.html
gamin:http://www.gnome.org/~veillard/gamin/

いずれにせよOS依存なので、自分の環境にかなり精通していないと難しいだろう。
Google Desktop Searchはどうやってるのか知ってる?
227名無しさん@お腹いっぱい。:2005/05/10(火) 13:51:17
>>225
なにそんなカリカリしてるの?
228222:2005/05/10(火) 14:26:13
>>226
どうもです。でもプログラミングしないといけないのは辛いですね。
過去1時間に更新された更新ファイルのパスのリストがどっかのファイル
に記録されているような仕様だったら嬉しいのですが。

あ、ちなみに225は私じゃないですよ。
229名無しさん@お腹いっぱい。:2005/05/10(火) 14:41:52
>>223
それどうやるの?
230名無しさん@お腹いっぱい。:2005/05/10(火) 15:02:09
>>226
Beagleは使える環境の場合はInotifyを使うみたい。
231名無しさん@お腹いっぱい。:2005/05/10(火) 16:15:10
dnotifyだと指定したディレクトリ直下しか見れなかったけど、
inotifyでもそこんとこは変わってないよね?
監視対象を再帰的に広げるよりは、定期的にfindした方が負荷が小さいような。
232名無しさん@お腹いっぱい。:2005/05/10(火) 16:32:35
>>231
そう思うなら、口を閉じて引っ込んでろ。
233名無しさん@お腹いっぱい。:2005/05/10(火) 16:40:20
>>231
軽量高速な更新検出手段の探求/実現が必要ですねッ!!
234名無しさん@お腹いっぱい。:2005/05/10(火) 16:47:45
>>233
ガンバレー!!
235名無しさん@お腹いっぱい。:2005/05/10(火) 17:44:25
高速じゃなくてもいいなら、適当にsleepして軽量にすることは可能だろう。
明示的に更新を通知する手段と、更新頻度が高い場所は巡回頻度も高めると
いった工夫を併用すればかなり使いやすくなるんじゃない?
236名無しさん@お腹いっぱい。:2005/05/10(火) 17:54:10
>>232
そうカリカリすんなよ。歯痛にでもなったか?
237名無しさん@お腹いっぱい。:2005/05/10(火) 23:44:55
あとOracleのFull-Text Searchは専用のデーモンを立ち上げて監視させる
仕組みになってたと思う。
238名無しさん@お腹いっぱい。:2005/05/11(水) 18:00:03
ファイルシステムから作ればいいんだっ!!
239名無しさん@お腹いっぱい。:2005/05/11(水) 18:20:12
>>238
わかった。全部お前にまかすわ。あとはよろしくな。
240名無しさん@お腹いっぱい。:2005/05/11(水) 18:24:58
あと重要なのは、特定の格納形式/更新形式を持つファイル群を
ハンドリングするプラグインを扱う枠組みだな。
241名無しさん@お腹いっぱい。:2005/05/11(水) 18:29:16
>>240
わかった。そっちはお前にまかすわ。あとはよろしくな。
242名無しさん@お腹いっぱい。:2005/05/11(水) 18:53:11
APIがあるからアプリケーション主導で開発できるわけで、
プラグイン機構は不要だと思われる。
それよりPerlかRubyのバインディングを早く出してほしい。
243名無しさん@お腹いっぱい。:2005/05/11(水) 19:57:37
>>242
いや、じゃなくて、新しい文書扱いシステムを作った側が、
検索エンジンがそれを効率良く扱えるように
一連の設定やプログラミングを行なう枠組みが
いるのではないかという話だ。
244242:2005/05/11(水) 22:48:38
なるほど。
更新処理をトリガとして関数が呼ばれる仕組みが大抵のDBには備わっているけど、
一般的な文書扱いシステムではどうなんだろう。
245名無しさん@お腹いっぱい。:2005/05/12(木) 11:45:47
監視対象のディレクトリがわかっているなら、そのディレクトリに対して
select() かけることで対応できないかなあ。
246名無しさん@お腹いっぱい。:2005/05/12(木) 12:18:15
それだとcreatとunlinkは検出できるけど、writeが検出できなくない?
247名無しさん@お腹いっぱい。:2005/05/14(土) 02:55:39
日本製全文検索が開発中のもよう
Rast: A full-text search system
ttp://www.netlab.jp/rast/

●検索対象となる文書の分野や言語を選ばない
テキストデータを n 個の文字の並びである N-gram に分割して検索を行うため,「検索漏れが生じない」,「辞書の整備が必要ない」という特徴がある N-gram 方式を選べます.
これにより,検索対象となる文書の分野や言語を選ばずに広く利用することができます.

●多様なファイル形式への対応
HTML や Microsoft Word といった多様なファイル形式の文書からテキストデータやタイトルや作成日などの属性情報を抽出し,検索対象にできます.

●全文検索ライブラリの提供
C 言語と Ruby で利用可能な全文検索ライブラリを提供することにより,本ソフトウェアを利用した全文検索を行うアプリケーションを開発することができます.
さらに,ライブラリの利用例として,過去のメールを全文検索できる電子メールソフトを開発します.

●インクリメンタルな文書の追加登録
作成したデータベースに対して,インクリメンタルに文書の追加登録ができます.このため,一度作成したデータベースを作成し直す必要がありません.


誰か試して
248名無しさん@お腹いっぱい。:2005/05/14(土) 03:58:31
精度とかはまだまだ。euc-jpだとutf-8にくらべてバグが多い気がする。
C APIを提供してるわりにクライアントライブラリまでGPLなのはちょっと痛い。

せめてXMLRPCの仕様を公開してほしいが、だったらEstraierのノードAPIを
待った方が幸せになれそう。

Matzのお膝元のnetlabで開発してるので、Rubyを使ったアプリケーションが
いろいろ出回ってきたら面白くなるのかもしれない。
249名無しさん@お腹いっぱい。:2005/05/14(土) 17:02:09
Rubyがどうしたとかテストにはtcl使ってね
とか言われた時点でもう、センスつうか趣味
つうか合わないを思いますわ、パスですわ
>>247
250名無しさん@お腹いっぱい。:2005/05/14(土) 17:18:49
>>249 Perlだったらいいわけか?
251名無しさん@お腹いっぱい。:2005/05/14(土) 19:50:07
Javaだったらよかったのにね。
252名無しさん@お腹いっぱい。:2005/05/14(土) 20:45:23
>>251 lucene
253名無しさん@お腹いっぱい。:2005/05/14(土) 22:58:21
hyperestraier 0.3.8 コンパイルしないな。
ML archive も落ちてる。
254名無しさん@お腹いっぱい。:2005/05/14(土) 23:58:14
「QDBMのバージョンが古い」に一票 >> 253
255253:2005/05/15(日) 07:59:47
その通りだった。トンクス >>254
256254:2005/05/17(火) 00:09:15
俺もはまったからさ。
257名無しさん@お腹いっぱい。:2005/05/25(水) 10:37:35
258名無しさん@お腹いっぱい。:2005/05/25(水) 16:35:21
インクリメンタル検索がサポートされたね
259名無しさん@お腹いっぱい。:2005/05/25(水) 22:28:14
>>258
SUGEEEEEEEEEEE!!!!!!!
260名無しさん@お腹いっぱい。:2005/05/27(金) 18:44:35
rastをCygwinで構築出来た人いる?
261名無しさん@お腹いっぱい。:2005/05/31(火) 23:04:02
OpenSearch対応してくんないかな
262名無しさん@お腹いっぱい。:2005/06/01(水) 11:26:51
今日から金曜まで東京ビッグサイトで開催中の LinuxConference では、

6/2 13:00〜 「全文検索システム Rast の設計と実装」
6/3 10:00〜 「全文検索 BOF」

などという企画をやってる。
263名無しさん@お腹いっぱい。:2005/06/04(土) 22:50:24
げ、昨日か… (;´Д`)ハァ
264名無しさん@お腹いっぱい。:2005/06/04(土) 23:10:40
Googleの文字が全部四角になってしまいました。
(□←ばかり)どうしてか教えてください。
265名無しさん@お腹いっぱい。:2005/06/05(日) 00:05:25
坊やだからさ。
266名無しさん@お腹いっぱい。:2005/06/05(日) 00:20:49
どうすれば大人になれますか?
267名無しさん@お腹いっぱい。:2005/06/05(日) 00:54:33
>>266
「電車男」という映画を見に行くとなにかヒントが得られるかもしれません。
268名無しさん@お腹いっぱい。:2005/06/05(日) 18:28:53
噂通り、インデックス作成がやたら速いね。
並列化できればGoogleとかに匹敵するんじゃないか?
269名無しさん@お腹いっぱい。:2005/06/06(月) 10:22:14
>262
全文検索BOFでは、NAMAZU開発者とRast開発者とHyper Estraierの開発者が
一堂に会して、開発思想とかを語ってくれた。
ただ、2時間もあった割には突っ込んだ話ができず、薄かった感じがする。
270名無しさん@お腹いっぱい。:2005/06/10(金) 22:35:21
Python&Perl&Rubyバインディングキターーーー
http://tokuhirom.dnsalias.org/~tokuhirom/tokulog/1193.html
271名無しさん@お腹いっぱい。:2005/06/10(金) 23:07:46
コアAPIのバインディングかぁ...
Rastと違ってAPIがリモートとローカルで違うらしいから、
やっぱノードAPIを待った方がいいんじゃないかと思う。
272名無しさん@お腹いっぱい。:2005/06/10(金) 23:27:57
パフォーマンスを考えるとコアAPI使って自分でサーバ書いた方がよかないか。
RubyとかだとHTTPサーバのツールキットもあるわけだし。
273名無しさん@お腹いっぱい。:2005/06/11(土) 10:40:11
HTTPd を自前で実装する、というときにパフォーマンスを考えるならスクリプト言語の
バインディングをわざわざ選ぶかなぁ?

むしろスクリプトで書いたプログラムにいちいちサーバ立てるのやってらんないという
面倒くさがり向きなんじゃないの。
274名無しさん@お腹いっぱい。:2005/06/11(土) 16:42:53
いや、HTTPdを実装すること自体にスクリプト言語が向いていると思う。
Cでなんてやってられない。
275名無しさん@お腹いっぱい。:2005/06/12(日) 03:31:38
そうかなぁ... libapr とか使ってみれば?
ちょうどいいから rast のソースでも読んでみなよ。

といいながらも ruby が楽しくなりつつある今日この頃です。
276名無しさん@お腹いっぱい。:2005/06/12(日) 09:49:52
APRはやばいでしょ。
WEBrick+HyperEstraierとかWEBrick+Rastってのが強力かつ簡単でよさげ。
277名無しさん@お腹いっぱい。:2005/06/12(日) 15:35:53
>>276
ライセンス問題?
278名無しさん@お腹いっぱい。:2005/06/12(日) 23:07:12
これってCygwinでも動きますか?
279名無しさん@お腹いっぱい。:2005/06/24(金) 07:37:52
デスクトップサーチっぽいのが出たね。
まだ作りこみが甘い感じだけど、今後に期待age。
http://www.mitsuki.no-ip.com/~seagull/software-archives/hyperestraier/gdestraier.html
280名無しさん@お腹いっぱい。:2005/06/24(金) 09:56:05
もうでさぽ
281名無しさん@お腹いっぱい。:2005/07/04(月) 01:40:52
>.279
open/closeシステムコールをを監視してスポットライト風にインクリメンタルアップデートが
できると面白そう。ガンガレ。
まずは更新があったファイルを指定するとその情報のみをアップデートする機能が
必要だな。既存のものだと全部を指定してアップデートする方法しか用意されてないからな。
282名無しさん@お腹いっぱい。:2005/07/04(月) 18:08:11
>> 281
いちお、estcmdに-sd -cm 付けてるです。
だから全更新してもタイムスタンプの新しいやつ以外はスキップされるですよ。
283名無しさん@お腹いっぱい。:2005/07/06(水) 00:48:17
>>281
namazuにしろなんにしろ従来のは全更新しかなかったと思うんだよね。
だから、逆に一部更新はできるのかと。
編集した利用者ならどこを編集したかわかっているわけだから全更新して
全部のディレクトリをなめる時間待たされるよりも更新した箇所を指定して
updateできたほうがよくない?

んで、その上でシステムコールを監視してスポットライト風アップデートですよ。
284名無しさん@お腹いっぱい。:2005/07/06(水) 03:03:16
システムコールの監視はカーネルに手を入れるかアプリをVM上で動かすか
しないと難しいんじゃない? いずれにしても、オーバーヘッドがでかくなってしまう。
移植性の問題もあるし。

よく更新されるディレクトリの監視頻度を上げるのと、ユーザが明示的に更新を指示
をするのを併用すれば実用上は十分だと思うけど。メールボックスとかだったら、アプ
リケーションのプラグインかなんかで更新ロジックを組み込めるといいね。
285名無しさん@お腹いっぱい。:2005/07/06(水) 10:40:58
カーネルまで触らなくても、ファイルシステムに細工をすればできるんじゃないか。
Windowsじゃ無理だけど、UNIX系ならそのへん独立してるし。

WinFSには全文検索っぽい機能が組み込まれているというウワサも聞いたけど、
どうなんでしょ。
286名無しさん@お腹いっぱい。:2005/07/06(水) 10:49:45
>>283
Hyper Estraierは、ディレクトリでなくファイルそのものを指定して
インデックスに登録できるよ。


>>284
famを使い、特に指定されたディレクトリだけ監視。
移植性と監視コストの問題はfamに丸投げして、各プラットフォームに最適
なアルゴリズムで監視できる事を期待。


更新された時に即座に更新だと確かにオーバヘッドが大きすぎなんで、
遅延してある程度のまとめ更新するデーモンをniceしておけば実用的な
範囲に収まるっぽくね?
いくらなんでも、数分前に更新した文書くらい探さなくても判るだろ。


それより問題は、インデックスをユーザ毎に持つと重複が多すぎるって
事だな。サイズもそうだけど、オーバーヘッドも整数倍になる。
業務の書類とかmanページを探したい時なんか完全に重複だね。

インデックス中の文書データに対するパーミッションをなんとかして、
システムグローバルなインデックス&検索機能のデーモン化をしないと
現実的でないような気がしてきた。
287名無しさん@お腹いっぱい。:2005/07/06(水) 11:04:33
>>285
ファイルシステムオーバーライドするのは面白そうなんで、
LUFS使って簡単に実装しようと思ったけど、
/usr をすげかえる気にならないし、対象ディレクトリが増えた時に
fstabの構成変えるのも馬鹿らしいので廃棄処分にしますた。
288名無しさん@お腹いっぱい。:2005/07/06(水) 15:04:04
数分前に更新した文書っていうけど、自分が更新したとは限らないのが問題。
事実、どっかからダウンロードしてきた文書をすぐに全文検索したくなる
ことは多い。それを考えると、やっぱり手動更新指示の機能もほしいよね?
Hyper Estraierの更新処理は異常に速いから、検索窓の横に「更新」ボタンを
つけておいて、結構気軽に更新をかけさせても実用になると思う。

ラジカセのメタファを使って、「再生(右向きの三角)」で検索をして、
「録音(丸)」で更新をして、「停止(四角)」で検索や更新の停止をして、
負荷状態を音圧っぽく表現するというのも面白いかもね。
289名無しさん@お腹いっぱい。:2005/07/06(水) 16:25:21
>>288
...目的のファイルが判ってるなら、grepした方が早いような気がする...
でもまぁ、同時ログインしてる別ユーザもいるから、確かに遅延はかなり小さく
しないと厳しい状況がありうるだろうね。

更新ボタンを置くのはいい考えなので、Quick build機能付けるよ。
290名無しさん@お腹いっぱい。:2005/07/06(水) 19:04:30
>>286
デスクトップ検索アプリを目指すなら、マルチユーザのインデックスの共有はそれほど考え
なくてもいいんじゃね?
自分のホームディレクトリを対象にしたインデックスさえ作れればほとんどのユーザは満足
でしょ。デーモン走らせないと使えないのは初心者向けでないような気がするよ。
副次的な機能として、他人のインデックスをリードオンリーで開けるようにして、チェック
ボックスをオンにすればそこの結果もマージして表示できるといいかも。
つまり他人のインデックスを更新できる必要はないってこと。
manとかの共有物のインデックスはrootで最初に作っておいて、/var 以下においておけば
いいんじゃない? その更新もわざわざデーモンにしないで、cron実行で十分でしょ。
291名無しさん@お腹いっぱい。:2005/07/06(水) 20:47:50
>>290
基本的にはそうなんだけどさ。
manなら問題ないけど。rootで作ると、本来ユーザに読み込み権限の無いファイルも検索
できて、要約も見えちゃうわけじゃん。
かといって、権限単位にインデックス作るというのも現実的でないし。
業務用の、たとえ共有ディレクトリに入っている技術経歴書とか、仕様書とかを対象と考えた時、
細かい制限ができないと問題だと思ったわけ。

つーわけで、ホームユーザには間違いなく十分だけど、職場で活用となると問題があるわけよ。


試してないけど、
> 副次的な機能として、他人のインデックスをリードオンリーで開けるようにして、チェック
> ボックスをオンにすればそこの結果もマージして表示できるといいかも。
これは現段階でできるような気がする。
今現在、検索用にはDBをリードオンリーで開いてるし、マージもデフォルトだし。
Hyper Estraierはリードオンリーで複数プロセスがオープンしても平気だし。


ってか、みんなのところでちゃんとビルドできてる?、、、って、だれも試してませんか、そうですか。
292名無しさん@お腹いっぱい。:2005/07/07(木) 00:53:57
見せたくないファイルはインデックスに入れないようにするしかないんじゃないか?
一般ユーザの読み込み権限(S_IROTH)がついているファイルだけ読み込むように
すれば大抵は大丈夫だと思うけど。
293名無しさん@お腹いっぱい。:2005/07/07(木) 13:16:11
>>286
> Hyper Estraierは、ディレクトリでなくファイルそのものを指定して
>インデックスに登録できるよ。

 ・・・できないんですけど?
>第3引数としてファイル名を指定すると、そのファイルから処理対象のパスのリストを読み込みます。
 って書いてあるし・・・
294名無しさん@お腹いっぱい。:2005/07/07(木) 13:43:20
>> 293
そのリストにファイル名書くんだよ。

find . -name '*.txt' | estcmd gather オプション インデックス -

295名無しさん@お腹いっぱい。:2005/07/12(火) 00:26:37
howmはこっちをサポートしてくれるといいんだけどね。
Cygwinを使えるし。
296名無しさん@お腹いっぱい。:2005/07/12(火) 16:15:12
Hyperの方ってCygwinじゃなくてネイティブのWin32じゃなかったっけ?
Cygwinでも動くのかなぁ。
297名無しさん@お腹いっぱい。:2005/07/16(土) 23:16:11
> Hyper Estraierの最終目的はP2P型の分散処理に支えられた高速で高精度な検索システムを構築することですが、

そうだったのカー (AA略
298名無しさん@お腹いっぱい。:2005/07/17(日) 03:20:26
ノードAPIキターーーー(゚∀゚)ーーーー!
299名無しさん@お腹いっぱい。:2005/07/17(日) 20:23:17
namazuの改良したいんですが、キーワード毎に重み付けするような
プログラムってどうすればいいかわかりますか??
調べてもわかんないです。本でもなんでも教えてほしいです。。。
300名無しさん@お腹いっぱい。:2005/07/17(日) 21:44:47
301299:2005/07/17(日) 21:48:42
>>300
サンクス
302名無しさん@お腹いっぱい。:2005/07/19(火) 13:36:11
うーん、estmasterが動かないなぁ。 libsocketって何だろう?
303名無しさん@お腹いっぱい。:2005/07/19(火) 21:32:11
ソケットのライブラリだろ。LD_LIBRARY_PATHがおかしいんじゃない?
304名無しさん@お腹いっぱい。:2005/07/20(水) 10:11:12
>>303
アドバイスどうも。libsocketはソケットの抽象化ライブラリみたいだね。
ふつーのglibcソケットだけでも大丈夫みたいだけど。

起動はするが、ポートを叩いてもうんともすんとも言わないという状況だから、
ダイナミックロード関係じゃなさそう。ちなみにOSX(panther)の話ね。


Debianならあっさり動いたからDebianホストでestmasterを動かす事にするよ。
305名無しさん@お腹いっぱい。:2005/07/22(金) 22:32:56
gdestraier-0.1.6 リリースしたよ。
ttp://www.mitsuki.no-ip.com/~seagull/software-archives/hyperestraier/gdestraier.html

誰も気にもかけて無いらしいけど。
306名無しさん@お腹いっぱい。:2005/07/23(土) 11:27:34
こんなとこにアナウンスしてもしょーがないでしょ。
FreshMeatとかSourceForgeに登録したら?
307名無しさん@お腹いっぱい。:2005/07/24(日) 01:19:46
sargeで使ってみようとしたら必要としてるライブラリのバージョンが
新しすぎで無理だった。>gdestraier
308名無しさん@お腹いっぱい。:2005/07/25(月) 20:23:32
java版APIも出たねぇ。
デスクトップ検索もJavaで作った方がいいんじゃねの?
クライアントは多少重くても問題ない。その上でさらにアプレット
みたいなプラグインを動作させられるようにすれば、Spotlightに対抗でき
るかもよ。
309名無しさん@お腹いっぱい。:2005/07/25(月) 20:29:10
>>308
> java版APIも出たねぇ。
> デスクトップ検索もJavaで作った方がいいんじゃねの?

そんな事したら、死に体になってしまう。
310名無しさん@お腹いっぱい。:2005/07/25(月) 21:18:43
ライブラリのバージョンは、とりあえず手元のsidに入ってるやつ参照しただけなんで、
下げても大丈夫だと思う。
とりあえず、sarge準備して試してみますわ。

>>308
重いにも限度があると思う。
起動がトロかったり、フットプリントが許容できても、サクサク間がでないと。
もっとも、いま現在は単一スレッドで要約まで出してるから、サクサクとは言いがたいけど。

目標は、nautilusでディレクトリたどるより手軽に絞りこみ検索できる事。
311名無しさん@お腹いっぱい。:2005/07/26(火) 11:37:21
きょうびのPCのパワーならJavaでもサクサク動くと思うが。
つーか移植性が確保できる(LinuxでもWindowsでもMacでも動く)のが重要だろ。
sargeやら何やらのレベルで非互換がでてるようじゃ流行らないと思われ。
312名無しさん@お腹いっぱい。:2005/07/26(火) 20:29:41
>>311
実際に試せばわかると思うが「サクサク動かない」よ。
313名無しさん@お腹いっぱい。:2005/07/26(火) 21:40:39
>>311
意味不明。Javaって、必要なランタイムライブラリがインストールされてなかったり、
バージョンが適合しなくても問題無いって?
314名無しさん@お腹いっぱい。:2005/07/27(水) 03:19:30
起動はサクサクしないだろうけど、そんなに遅いわけでもないだろう。
実装テクニックの問題だったりしないか?
315名無しさん@お腹いっぱい。:2005/07/27(水) 07:41:42
テクニック云々以前にJVMの起動が遅いんでしょ。
もしかして最近は違うの?(><)
316315:2005/07/27(水) 07:42:59
すまん。寝惚けてた orz
317名無しさん@お腹いっぱい。:2005/07/27(水) 09:18:23
Write once, Debug anywhere.

318名無しさん@お腹いっぱい。:2005/07/27(水) 09:47:33
JRE入れるのは.NET Frameworkを入れるのと同じようなもんで、大抵のユーザは
抵抗なくやってくれるでしょ。J2SEのコアライブラリ以外に必要なランタイムが
あったとしても、それも同梱してしまえばいい。

別にJavaマンセーと言うつもりはないけど、GNOMEやGTK+のバージョンの違いに
悩まされるのは普通のユーザには耐え難いことだよ。依存関係が連鎖している
から、作業途中で嫌になってやめてしまう人が多いと思う。かくいう俺もそれで
gdestraierの利用を断念した。
もしもDegianやVineなどのディストリビューションに標準採用されたとしたら、
そういう苦労はほとんどなくなるかもしれないが。
319名無しさん@お腹いっぱい。:2005/07/27(水) 10:20:17
gnome よりは java のほうがまだましだけど,とりあえずコマンドラインで使
えるようにしてくれないと不便だにゃぁ.cgi から叩きたい時もあるし.
320名無しさん@お腹いっぱい。:2005/07/27(水) 10:25:32
コマンドラインのツールならHyper Estraier自身に含まれてるじゃん。
321名無しさん@お腹いっぱい。:2005/07/27(水) 10:35:27
Java って Debian だと non-free 扱いじゃなかったっけ?
322名無しさん@お腹いっぱい。:2005/07/27(水) 11:11:02
kaffeとかgcjとかで動くならmainにいけるよ。
323名無しさん@お腹いっぱい。:2005/07/27(水) 16:43:19
>>318
作者がコミュニティを小さく保ちたいとは考えていないとか、
windows進出でgoogledesktopなどと張り合う事を考えている
という前提はそもそも正しいの?


ところで、>>304 の問題は0.5.1で解決した。
いまはest_free_net_env()してからest_init_net_env()するとSEGVるので
悩んでいる。
324318:2005/07/27(水) 22:39:59
>>323
張り合うっつーか、公開するぐらいだから、ユーザは多い方が嬉しい
かなと思って書いただけ。本当のところは作者氏の弁を待つしか。
325あうたん:2005/07/28(木) 18:09:01

みなさまはじめまして
最近「Estraier」なるものの存在に気づき社内のデータの検索エンジンをWindows
ベースで構築できないかと考えているものでございます。

ここ最近Windowsバイナリが公開されまして早速つかってみました。検索スピード
に驚くばかりでこれはかなりイケてるなと思ったのですが、やはりn-gram検索の
スコアでは検索時にTOPに出てほしいものがでてきてくれません。
そこでインデックスを何とかして指定したもののスコアをあげたいのですが、やはり
そういうことは難しいのでしょうか?スコアをいじること自体がn-gramの検索の精神
に反していることは理解しているのですが、なんとかしてスコアを補正して特定の
ものを検索の最初にヒットさせたいのです。
これは「Estraier」の問題ではないと思いますが 特定のファイルをスコアの重みを
調整する術はないものでしょうか?(たとえばたくさんのアクセスがあったファイル
は最初の方に表示したいというものです)

皆様のお知恵をお貸しいただければ幸いです

                  WindowsXP+Apache1系+estraier-1.2.28-win32
326名無しさん@お腹いっぱい。:2005/07/28(木) 18:57:55
全てをEstraierにやらせる必要もないだろう。
文章にキーワードを設定しておいて、それと一致するものは
Estraierによる検索結果「よりも先に」表示させるとか。
327名無しさん@お腹いっぱい。:2005/07/28(木) 19:23:57
>>325
スピードが遅くなってもいいのなら、実際いろんな方法があると思うけど。
内部に手を入れてスコア計算をいじくるのもいいし、hyperのAPIで出力結果をバッファして
なんらかのヒューリスティックなソートを掛けるのもいいと思う。

特定のキーワードにだけ高く反応してほしいなら、hiddenテキストに
そのキーワードをたくさん書いておけばtf/idfスコアは当然高くなるよね.
ああ、estraierに隠しテキストはあったっけ?
328名無しさん@お腹いっぱい。:2005/07/28(木) 20:03:18
たくさんアクセスがあるものを上にするという場合、アクセスログを取る仕組みは
既にあるか、自前で作るんだよね。
ならば、アクセス数をDBでカウントして、10アクセスとか100アクセス毎にその文
書の更新をかけて、その際にアクセス数を属性としてつければいい。検索する際に
は、アクセス数をソート条件にすればいい。
329あうたん:2005/07/29(金) 17:17:49
>>328

皆様ご回答ありがとうございます。

アクセスログを取る仕組みに関してはログからなんとかいけそうな気配なんですが
理解力がなくアクセス数を属性としてつける部分がよくわかっていないのです。

ドキュメントには
estcmd gatherで特定ディレクトリのインデックスをつくるところまでは理解できたの
ですが、そこから特定なファイルにのみ属性情報をつける方法が分からないのです。
前身のEstraierではestindex registerでできるようなことが見受けられるのですが、
今回のHyperEstraierでは特定ファイルに対する属性情報(アクセスの頻度による
表示の重み)はどうやってつければいいのでしょうか?

例えば重みを数値(一番先に表示したいものは1000とかその次は999とか)で表現
できると表示順を制御しやすいのですが

またその際にソートは「属性情報(表示の重み)」・「n-gramによるスコア」という順序
でソートがかかるのでしょうか?

教えて君で申し訳ありませんが皆様のお知恵をお貸しいただければ幸いです。


330名無しさん@お腹いっぱい。:2005/07/29(金) 18:16:55
estcmd putでできるのではないでしょうか。
331名無しさん@お腹いっぱい。:2005/08/01(月) 05:30:52
>>329
0.5.3のestcmdならいちいちドラフト形式にしたりせずにできるんじゃないの。

あとn-gramはスコアの計算方法じゃないよ。
スコア計算はtf/idfで、namazuなんかと基本的にいっしょ。
332あうたん:2005/08/01(月) 10:22:43
>>331

> 0.5.3のestcmdならいちいちドラフト形式にしたりせずにできるんじゃないの。

使用しているのは0.5.1のWindowsバイナリ版でした。
そのドキュメントには

 estcmd put [-cl] db [file]

となっていて属性を指定するようなオプションがないようなのです。(T_T
0.5.3では330さんがおっしゃるようにできるのでしょうか・・・


> あとn-gramはスコアの計算方法じゃないよ。

よく読むとそうでした。よく理解しないで用語をつかっていました。(^^;

333名無しさん@お腹いっぱい。:2005/08/01(月) 12:40:01
estcmd putを使う場合はドラフト形式を作らなきゃだめだよ。
対象のファイルに対して、拡張子に応じてestcmd draftとかestxfilt.batで
テキストを抽出するとともに、先頭に「title=あいうえお」というような属性定義
をするその一部として、「myscore=10000」みたいにスコアを属性としてつければ
いいと思う。検索する時には順序の指定で「myscore NUMD」にすればmyscoreの大き
い順番で並べられると思うよ。

331の言うように、0.5.3からは、estcmd gather(-pxオプション?)を使えばドラ
フト形式を使わなくても属性の指定ができるようになったような希ガス。
334あうたん:2005/08/01(月) 14:37:43
>>333

とんちんかんな質問をしているのに、詳しくご教授いただきありがとうございます。m(_ _)m
なんとなくですがわかったような気がします。(^^;

一括登録では属性を「myscore=0」などにしておいてestcmd gather -px で一括登録
し、その後、上位に表示させたい特定ファイルのみオリジナルファイルを「@myscore=1000」
などをつけたドラフト形式に変換しestcmd putで1件づつ登録という流れになるということですね。

まだ、いまいちドラフト形式にするところがよく分かっていないのですが、ドキュメントに指定され
ているようなドラフト形式

@uri=http://www.hogehoge.jp/hogehoge.html
@title=hogetest
@cdate=2005-08-01T00:00:00+09:00
@mdate=2005-08-01T00:00:00+09:00
@myscore=1000

上記のような形式をファイルのどの部分に記載すればいいのでしょうか?
文字コードはUTF8で、ファイルの末尾にアペンドするということでいいのでしょうか?

そもそもドラフト文書への変換用としてestcmd draftがあるみたいに記載があるのですが、
WEBから取得してきたHTMLファイルなどをこのコマンドで変換した場合は、単に文字コードを
自動で判別してUTF8に変換して出力するだけ?の機能なのでしょうか
コマンドの引数では属性を指定したりはできないのでいまいち使い方がわかりません(^^;
estcmd putで属性登録に関する部分もサポートしてもらえるといいかんじになりそうなんですが・・・

いま最新のバイナリみたらWindows版も0.5.3があがってました。最近、勢力的に開発を
されているようで今後に期待です。調べてみたらおっしゃるような(-px)オプションが
追加されていました。

335名無しさん@お腹いっぱい。:2005/08/01(月) 15:11:09
メールの書式と同じような感じで、属性定義の下に空行をあけてから、普通のテキストを
書くみたいです。

@uri=http://www.hogehoge.jp/hogehoge.html
@title=hogetest
@myscore=1000

近所のラーメン屋さんを探してみませんか?
Google ローカルでお試しください

estcmd draftはHTMLのタグを外してから、タイトルなどの属性も抽出したドラフトを作って
くれます。文字コードもUTF-8にしてくれるみたいです。
estcmd putを使わなくても、estcmd gatherにファイルのリストを読み込ませれば登録できる
と思いますよ。estcmd gather abc list.txt を実行すると list.txt からファイル名と属性
のリストを読み込んでくれるはずです。
私はメーリングリストの過去記事の検索システムをHyper Estraierで作って使っているのです
が、属性をいくつかつけたいので、全部の記事の文書ドラフトをいったん作ってから読み込ま
せています。-pxオプションがあればその苦労をしないで済むようになりそうです。
336あうたん:2005/08/01(月) 15:49:31
>>335

> estcmd putを使わなくても、estcmd gatherにファイルのリストを読み込ませれば登録できる
> と思いますよ。estcmd gather abc list.txt を実行すると list.txt からファイル名と属性
> のリストを読み込んでくれるはずです。

迅速なレスありがとうございます。なるほどです。1件の登録であってもリストをつくって登録すれば
estcmd putに機能をもたせなくてもいいということですね。(^^;

ちなみにそのリストファイルの書式ってどんな感じになりますでしょうか?
ドキュメントの読み方があまいかもしれませんが、このあたりの情報はどちらにありますでしょうか?

ほんと教えて君ですいません。m(_ _L
337名無しさん@お腹いっぱい。:2005/08/01(月) 16:35:38
リストの形式はタブ区切りです。最初の項目がURLで、次の項目以降が属性です。
C:\data\000001.txtを登録する際に、@uriがfile://C|/data/000001.txtで、
@titleがABCDEで、myscoreが1000なら、

C:\data\000001.txt file://C|/data/hogehoge ABCDE 1000

というリストになると思います。空白の部分はタブ1個であけてください。
これを list.txt として保存したなら、

estcmd gather -ft -px @uri -px @title -px myscore casket list.txt

を実行すれば登録できると思います。登録対象がテキストでなくWordなどの場合は -ft のかわりに
-fx でフィルタを指定することになると思います。
338あうたん:2005/08/03(水) 08:23:43
>>337

ありがとうございます。さっそくやってみます。
この辺の情報も付属のドキュメントに記載があるのでしょうか?
ドキュメントの読みが浅くてみなさまにご迷惑をおかけしているようで(^^;
339名無しさん@お腹いっぱい。:2005/08/03(水) 11:50:56
> -pxはパスのリストから読み取る属性名を指定します。パスのリストはTSV形式
> にすることができ、第1フィールドは対象文書のパス名、第2フィールド以降は
> 属性値の定義として扱われます。-pxによって第2フィールド以降に対応する属
> 性名を定義します。このオプションは複数回指定できます。

って書いてあるよ。この説明から337の用法まで思い付くのは大変だと思うが。
Windows版のインストール方法も含めて詳しく説明した解説サイトがあればいい
のにね。

ついでに良スレage
340名無しさん@お腹いっぱい。:2005/08/03(水) 13:05:41
>>339
> Windows版のインストール方法も含めて詳しく説明した解説サイトがあればいい
> のにね。

いいだしっぺの法則 ズサー
341あうたん:2005/08/03(水) 15:05:53
>>339

ありがとうございました。このあたりを中心にもう一度熟読?(^^;
してみようと思います。

導入に関してWindows版のサイトや導入した際の備忘録ページなどががあると
訴求力が大きく違うかもしれませんね。

現在メーリングリストに入っていますがほかにもEstraierのことがやり取りされて
いるところってあるのでしょうか?

メーリングリスト
 hyperestraier-users-ja mailing list

http://sourceforge.net/mailarchive/forum.php?forum=hyperestraier-users-ja

で過去のログがみたかったんですけど、私の環境では文字化けしてしまい
どうもうまくよめませんでした。(T_T
342名無しさん@お腹いっぱい。:2005/08/03(水) 16:41:27
>>341
日本語MLの文字化けはsf.jpの仕様なので、こっちを見るといいよ。
ttp://hyperestraier.sourceforge.net/sfmltoj.cgi

まぁ、それでもUTF-8な人のヘッダは化けてる訳ですが...
343あうたん:2005/08/05(金) 11:41:58
>>342

あんがとでした^−^ なんとか読めるとです。
344名無しさん@お腹いっぱい。:2005/08/15(月) 02:07:13
hyperestraier 0.5.4 age
345名無しさん@お腹いっぱい。:2005/08/15(月) 10:55:46
346名無しさん@お腹いっぱい。:2005/08/15(月) 12:12:44
RPM作ってくれないかな。
347名無しさん@お腹いっぱい。:2005/08/15(月) 12:32:16
ports作ってくれないかな。
348名無しさん@お腹いっぱい。:2005/08/15(月) 13:43:00
>>346,367
どっかに転がってるんぢゃね?
Gentoo Portageにはある。DarwinPortsには、鹿版がある。
349名無しさん@お腹いっぱい。:2005/08/15(月) 16:24:57
ChangeLog に載ってない変更はやめてくれぇ...orz

ESTCONDUSUってUSUALのことだったのかYo!
350名無しさん@お腹いっぱい。:2005/09/22(木) 00:17:43
0.9リリースage
351名無しさん@お腹いっぱい。:2005/09/22(木) 00:20:41
あげ忘れた
352名無しさん@お腹いっぱい。:2005/09/22(木) 09:10:49
一気にヴァージョン上がったね。
でも win32 バイナリ来てないよ、(´・ω・`)ショボーン
353名無しさん@お腹いっぱい。:2005/09/26(月) 02:51:57
今は、関係ないかもね
354名無しさん@お腹いっぱい。:2005/09/26(月) 04:21:11
Hyper Estraier Win32なんで板違いっぽいけど
検索するディレクトリ書いたファイル読み込ませて
index作成ってのがどうしてもできないのヨ。
どなたか、オレはこれでできとるがな、という
コマンドラインの書式をイッパツ晒してくれませんでしょうか。
355名無しさん@お腹いっぱい。:2005/09/26(月) 07:11:36
>>354
うちは出来てるヨ(オプションはてけとー)
> estcmd.exe gather -cl -ft -ic euc-jp -il ja -sd -cm casket filelist.lst

「検索するディレクトリ書いた」というより「検索するファイルリスト自体」じゃないとダメなのかも
356名無しさん@お腹いっぱい。:2005/09/27(火) 11:10:16
検索結果に
htmlファイルの<TITLE></TITLE>を表示したいのですが
どのようにしたら良いでしょうか。
357名無しさん@お腹いっぱい。:2005/09/27(火) 11:29:59
>>355
さんくすこ。おいらもできたよ。
358名無しさん@お腹いっぱい。:2005/09/27(火) 16:48:16
こっちもWindowsのHyper Estraierなんですが
estcmd out ってちゃんと使えてますか?
dbの部分でどうしてもエラーが出ます。
C:\cygwin\home\ore>estcmd out casket file:///C:/cygwin/home/ore/html/2004.5.3.html
estcmd: INFO: status: name=casket dnum=74 wnum=31721 fsiz=4617468 crnum=0 csiz=0
dknum=0
estcmd: ERROR: casket: no such item
estcmd: INFO: closing: name=casket dnum=74 wnum=31721 fsiz=4617468 crnum=0 csiz=
0 dknum=0

casketが作成したindexのディレクトリ。同じ場所で
estcmd search ごにょごにょ casket "検索文字"ならちゃんと動くし
エラーメッセージ一行目では認識しときながら二行目では
no such itemになってるのがよくわからないんですが。
359名無しさん@お腹いっぱい。:2005/09/27(火) 17:12:43
>>358
out はあまりテストしてみたくないので、
> estcmd list casket
で ID 取ってみて URI の代わりに ID でやってみては?

purge とかはふつーにうごいてるけどなあ。
360358:2005/09/28(水) 11:29:19
どうも。
file:///C:/cygwin/home/ore/html/..
ではだめで
"file:///C|/cygwin/home/ore/html.."
の方式でやればいいだけだったorz。
まさに板違い質問にて大変失礼。IDでもイケましたよ。
361名無しさん@お腹いっぱい。:2005/09/28(水) 16:50:25
>>356
標準で表示されるような気がするんだけど。
362名無しさん@お腹いっぱい。:2005/09/29(木) 14:13:06
OpenSearch対応したみたいだな。ちょっといじってみるか。
363名無しさん@お腹いっぱい。:2005/09/29(木) 14:39:21
win32 バイナリも出てるね。
週末は遊べそう…
364名無しさん@お腹いっぱい。:2005/10/02(日) 07:05:41
なんか0.9.1に上げたらこれまでのindexが使えなくなってるんだけど
そういうもの?Win32のバイナリっす
365名無しさん@お腹いっぱい。:2005/10/02(日) 14:59:43
>>364
ホントやね。うちも泣く泣く作り直した。
以前も 0.3.x から 0.5.x に変わった時に更新したらおかしくなったなあ。
366名無しさん@お腹いっぱい。:2005/10/02(日) 17:58:40
>>365
うう、うちだけじゃないのか…。
こればっかりはなんとかならんかねー
367名無しさん@お腹いっぱい。:2005/10/02(日) 19:48:04
正式版が出るまでは続くと思うよ。
0.9.0っていうことはベータ的位置づけということなのだと思うけど...
リリース計画がはっきりしてないから予想できないけどね。
368名無しさん@お腹いっぱい。:2005/10/02(日) 19:58:29
ドキュメントにベータ版とはっきり書いてあるよ。
作者のブログではそろそろ1.0を出すって書いてあるけど、いつになるやら。
369名無しさん@お腹いっぱい。:2005/10/02(日) 20:21:56
なんだかAtomに対応してみたり、次はWebのクローラとか作りたいみたいだから
まだ新機能追加はありそう。なんだかんだで正式版はまだ先になりそうだね...

いや、分割パッケージでだすのかなぁ?
開発日記よんでると長期計画なさそうだから本人も知らなさそうだ(w
370名無しさん@お腹いっぱい。:2005/10/02(日) 22:25:40
長期計画があるOSSなんてなかなかあるもんじゃないけどね。
一般的なOSSの場合、開発完了はプロジェクトが生きているうちはないんじゃない?
371名無しさん@お腹いっぱい。:2005/10/02(日) 23:13:25
それはその通りだけど、次のリリースに付け加えるべき機能と直すべきバグのリスト
くらいは公開してくれるとありがたいな。本人にも役に立つだろうし、貢献もしやすい。
372名無しさん@お腹いっぱい。:2005/10/02(日) 23:21:51
早いところGUIをつけてくれるとありがたい。

373名無しさん@お腹いっぱい。:2005/10/03(月) 02:27:44
目指すは打倒Beagleでつか?
374名無しさん@お腹いっぱい。:2005/10/03(月) 10:31:37
>>372
なんの GUI?
375名無しさん@お腹いっぱい。:2005/10/03(月) 13:43:29
>>374
estcmdのGUI
376名無しさん@お腹いっぱい。:2005/10/03(月) 16:25:45
いまさらなのかもしれないけど質問。
http://hyperestraier.sourceforge.net/intro-ja.html#deployment
「更新作業の自動化」の
/usr/local/bin/estcmd gather -cl -il ja -sd -cm /home/www/casket
/usr/local/bin/estcmd purge -cl /home/www/casket
これって、最後にインデックス対象のディレクトリ入れないとダメだよな。
findで一気に登録してる人ってまたfindしなおして更新してるの?
377名無しさん@お腹いっぱい。:2005/10/03(月) 16:59:17
>これって、最後にインデックス対象のディレクトリ入れないとダメだよな。
本当だね。指摘しとこう。
>findで一気に登録してる人ってまたfindしなおして更新してるの?
漏れはディレクトリ毎に更新頻度が全然違うから、よく更新するとこだけ1日1回のcron
にして、他は手動でやってる。



378名無しさん@お腹いっぱい。:2005/10/07(金) 03:38:16
WebDAVなんて使っている香具師いるのかな
379名無しさん@お腹いっぱい。:2005/10/07(金) 09:38:03
使ってはいないけれど、WinもMacも素のOSレベルで共有ディスクとして見えるから、
そこに何でも放り込んどきゃオッケーみたいな使い方は手軽で便利かもしれない。

んで、ノードAPI経由でローカルなデスクトップ検索なんかとP2Pでシームレスに検索
できますよ、ということじゃないのかな。

自信ないけどWinもWebDAVを共有ディスクとして見えたよねぇ?
380名無しさん@お腹いっぱい。:2005/10/07(金) 09:51:11
>>379
> 自信ないけどWinもWebDAVを共有ディスクとして見えたよねぇ?

うむ、マイ ネットワークから "ネットワークプレイスの追加" で。
んでも、WebDAV のファイルサーバー利用って、samba でやるより
運用が面倒なのよね。
(ファイル名文字コード云々の話とか)
ACL も掛けにくいし、パフォーマンスが悪い。
381名無しさん@お腹いっぱい。:2005/10/11(火) 20:30:07
0.9.2リリースage
もうすぐ1.0.0出そうだね。
382名無しさん@お腹いっぱい。:2005/10/12(水) 09:21:10
面白そうなことやってるね

> Hyper Estraierによる共有プロクシ検索の公開実験中です。
>
> あなたのWebブラウザのプロクシに「athlon64.fsij.org」の「8080」番を設定してください。
> そうすると、一度見たページを検索できるようになります。
>
> 検索するには、「http://athlon64.fsij.org:1978/node/test/search_ui」にアクセスしてください。
383およよ:2005/10/15(土) 14:58:48
Estraierに登録する文書にリンクタグを属性としてつけて検索の結果に
(detail画面ではなく検索結果画面で)そのリンクタグを表示することって
できないでしょうか?

つまりその文書にURIとは別に関連するURIを設定できるか?ってこと
なんすけど(^^; リンクタグ自体を属性としてつけたいわけではないの
ですが似たことを実現できると幅がひろがりそうなんですけど・・・

およよ






384名無しさん@お腹いっぱい。:2005/10/15(土) 16:41:15
関連するURIは適当な属性として登録しておいて、estseek.confのextattrのところに
その属性名を書いておけば表示されるよね。
リンクにしたいんだったら、estseek.tmplにJavaScript書いて、onloadで適当にHTML
をいじればできそう。
385名無しさん@お腹いっぱい。:2005/10/17(月) 00:17:40
Hyper Estraier ver1.0.0 記念 age
386名無しさん@お腹いっぱい。:2005/10/17(月) 01:32:32
出たか。おめ
387名無しさん@お腹いっぱい。:2005/10/17(月) 02:29:35
正式版、安定版である旨書かれた場所がないんだが
もう移行して大丈夫なんだろうか。
indexが使えなくなるのはもうやーよ。
388名無しさん@お腹いっぱい。:2005/10/17(月) 03:48:23
「ベータです」という文言が削除されてるから安定版ってことでいいんじゃね?
389名無しさん@お腹いっぱい。:2005/10/17(月) 04:00:23
「ベジータです」
390名無しさん@お腹いっぱい。:2005/10/17(月) 09:45:45
/.jp のストーリーになってるね。
http://slashdot.jp/developers/article.pl?sid=05/10/16/2244215
391名無しさん@お腹いっぱい。:2005/10/17(月) 13:43:59
>>390
開いてみたら相変わらず「まあ/.-Jだしな」な内容だったな。
392名無しさん@お腹いっぱい。:2005/10/17(月) 15:50:23
p2p検索ってなにかうまい使い道あるのかねぇ。よーわからん。
393名無しさん@お腹いっぱい。:2005/10/17(月) 16:04:18
クラサバよりも設置と管理が簡単
394名無しさん@お腹いっぱい。:2005/10/17(月) 22:41:15
P2Pファイル共有ソフトに検索機能をつける事例はたまに見かけるが。
395名無しさん@お腹いっぱい。:2005/10/18(火) 00:19:12
gentoo/amd64 あたりで簡単に動かんかの?
396名無しさん@お腹いっぱい。:2005/10/18(火) 00:24:13
portageに入ってないっけ?64対応は知らんけど
397名無しさん@お腹いっぱい。:2005/10/18(火) 01:52:07
デモサイトがAthlon64だから動くだろ
398名無しさん@お腹いっぱい。:2005/10/19(水) 00:57:46
私には関係ない
399およよ:2005/10/19(水) 11:23:39
>>384
> 関連するURIは適当な属性として登録しておいて、estseek.confのextattrのところに
> その属性名を書いておけば表示されるよね。
> リンクにしたいんだったら、estseek.tmplにJavaScript書いて、onloadで適当にHTML
> をいじればできそう。

ありがとうございました。属性名の表示はできました。
だめもとでリンクを属性情報としてリンクタグを含んだ形で登録したのですがやっぱしだ
めでした。


> リンクにしたいんだったら、estseek.tmplにJavaScript書いて、onloadで適当にHTML
> をいじればできそう。

ってのがどうも (^^:;;
具体的にはどんなことをすればいんでしょうか?
なんかぜんぜん分かってなくてすいません。m(_ _)m

400名無しさん@お腹いっぱい。:2005/10/19(水) 11:33:04
win32版だがPremature end of script headers: estseek.cgiが出て
どうしても動かない。linux上では動かせたのに〜orz

estseek.confが間違っていそうなんだが...
インデックスはD:\indexに作成。対象ファイルはD:\testとすると、
indexname: D:/index
lprefix: file:///D|/test
でアカンのか?
401名無しさん@お腹いっぱい。:2005/10/19(水) 11:59:34
>>399
そこらへんのカスタマイズって、
namazu よりもまだとっつきにくいと言うか難しいよね。

>>400
conf のなかみのミスだと、index not found だとかなんかなはず。
だから、たぶん dll がらみ。.
cgi と同じディレクトリに .dll を全部コピーしてみて。
402名無しさん@お腹いっぱい。:2005/10/19(水) 12:40:09
>>401
レスサンクス。
まさにおっしゃる通りでした。

dllを%systemroot%system32に移動したら、問題なく動きました。
hyperestraierのバイナリの置いてあるディレクトリにはパスは
ちゃんと通してあったんですが、それではダメなようですね。
(付属のドキュメントにも、.exeや.dllのディレクトリにパス通せと
書いてあるだけですし。)
403名無しさん@お腹いっぱい。:2005/10/19(水) 12:49:07
>>402
Apacheの実行ユーザとPathを設定したユーザが違うから、
パスが通ってなかったんじゃないの?
404名無しさん@お腹いっぱい。:2005/10/19(水) 12:49:56
>>399

<script type="text/javascript">function startup(){
var elem = document.getElementById('phrase');
if(elem){
elem.focus();
}
var elems = document.getElementsByTagName('span');
for(var i = 0; i < elems.length; i++){
var cname = elems[i].getAttribute('class');
if(!cname || cname != 'doc_val') continue;
var text = elems[i].firstChild.nodeValue;
if(text.indexOf('http://') != 0) continue;
elems[i].innerHTML = '<a href="' + text + '">' + text + '</a>';
}
}
</script>
405名無しさん@お腹いっぱい。:2005/10/19(水) 12:51:07
estseek.confを上のように書き換えると、「http://」で始まる属性値がリンクになるよ。
(その場合、属性値に「<a>」は不要)
406およよ:2005/10/19(水) 13:35:55
>>405

さっそくのレスありがとうございます。 estseek.tmplのほうでいんですよね(^^;

属性名「Link」で設定してインデックスを作り直してestseek.tmplに追加後検索結果ソースをみてみると

<dd class="doc_attr">Link: <span class="doc_val">http://www.hogehoge.jp/</span></dd>

という部分が出力されていました。ご掲載いただいたソースはclassが「doc_val」で「http://」で始まる部分
をみつけたらそのテキスト部分を書き換えるってことだと思うんですがどうもうまくいかないんです。

本当は

<dd class="doc_attr">Link: <span class="doc_val"><a href ="http://www.hogehoge.jp/">http://www.hogehoge.jp/</a></span></dd>

と出力されるということでよろしいでしょうか?




407およよ:2005/10/19(水) 13:48:00
>>406

すいません。追記ですが <script type="text/javascript">function startup(){  をいれる位置は

<script type="text/javascript">function startup(){
var elem = document.getElementById('phrase');
if(elem){
elem.focus();
}
var elems = document.getElementsByTagName('span');
for(var i = 0; i < elems.length; i++){
var cname = elems[i].getAttribute('class');
if(!cname || cname != 'doc_val') continue;
var text = elems[i].firstChild.nodeValue;
if(text.indexOf('http://') != 0) continue;
elems[i].innerHTML = '<a href="' + text + '">' + text + '</a>';
}
}
</script>
</head>
<body onload="startup();">
<!--ESTFORM-->
<!--ESTRESULT-->
</body>
</html>

です。

408404:2005/10/19(水) 14:04:47
>本当は
><dd class="doc_attr">Link: <span class="doc_val"><a href ="http://www.hogehoge.jp/">http://www.hogehoge.jp/</a></span></dd>
>と出力されるということでよろしいでしょうか?

そのつもりだったのだけど、動かないですか。
Firefoxでしかテストしてないんで、もしかしたらIEだとうまくいかないのかな。
もうちょっと調べてみますね。
409名無しさん@お腹いっぱい。:2005/10/19(水) 16:26:50
xyzzy の Estraier-Mode,
> (qでヌケます)
ちょと ワロタ
410名無しさん@お腹いっぱい。:2005/10/19(水) 17:17:27
右手派ってこと
411およよ:2005/10/20(木) 09:25:31
>>408

板違いスンマソン

こちらでも調べてみたんですが やはり火狐ではうまく表示されるんですがIEだとうまくいかないようです。
スクリプトタグをを入れる位置など調整してしてるんですが・・・(^^;

IEで読み込み時にでるスクリプトにエラーがある際の左下のエラーメッセージは表示されていないので
スクリプトの文法エラーは考えにくいですね。



412名無しさん@お腹いっぱい。:2005/10/20(木) 10:36:54
Hyper Estraierを使ったWindows用のデスクトップ検索(みたいなもの)が出たらしい。
http://freemind.s57.xrea.com/desktophe/
413名無しさん@お腹いっぱい。:2005/10/20(木) 11:21:04
>>407
var cname = elems[i].getAttribute('class');

IE だとこれが null 。 elems[i].className を使用すれば解決
414およよ:2005/10/20(木) 11:49:03
>>413

ご指摘のとおりですた。  \^^/

うー jscript・javascriptの違いってことなのでしょうか
このへんもWEB共通仕様でなくていろんな開発者がないている部分なんでしょうね。

いろいろ 板の方々ありがとうございました。
415名無しさん@お腹いっぱい。:2005/10/21(金) 00:28:53
pgestraier - search Hyper Estraier indexes from PostgreSQL
http://pgestraier.projects.postgresql.org/
416名無しさん@お腹いっぱい。:2005/10/21(金) 00:30:46
リンク先はPgFoundryの方がいいか。
http://pgfoundry.org/projects/pgestraier/
417名無しさん@お腹いっぱい。:2005/10/21(金) 01:57:00
pgestraier には期待してるんだけど現状では pg_rast のほうが使いやすいね。
ただ Hyper Estraier と Rast の間には IPA の期間中にそれなりの結果を出し、
その後になるけど正式版もリリースできたという越えられない壁が。
418名無しさん@お腹いっぱい。:2005/10/21(金) 08:18:48
同じインタフェースでpg_estraierを作れないかな。
419名無しさん@お腹いっぱい。:2005/10/21(金) 15:09:06
FreeBSDのhyper estのportって、おかしくありません?

qdbmを再インストールしようとして失敗するのでqdbmを再インストールしてみても、
やっぱり再インストールしようとして失敗する。
420名無しさん@お腹いっぱい。:2005/10/21(金) 15:52:21
1.0.1が出たね。開発速度がすごい。
421名無しさん@お腹いっぱい。:2005/10/21(金) 16:32:08
422名無しさん@お腹いっぱい。:2005/10/21(金) 19:09:00
>>419
うちはおかしくないけど (FreeBSD 4.8) 。
423名無しさん@お腹いっぱい。:2005/10/23(日) 13:13:44
ttp://d.hatena.ne.jp/kzk/20051023#p2

盛り上がってまいりました(・∀・)
424名無しさん@お腹いっぱい。:2005/10/23(日) 15:40:07
デスクトップ検索ってホントに流行ってるの?
GDS も入れてみたけど、目的の文書が効率よく見つかったってことが、
全然無くて、結局消しちゃったよ。
425名無しさん@お腹いっぱい。:2005/10/23(日) 18:33:42
経験的にローカルに置いてるファイルの数が多いほど必要性が増してくる。
426名無しさん@お腹いっぱい。:2005/10/23(日) 20:34:13
>>424
> デスクトップ検索ってホントに流行ってるの?
> GDS も入れてみたけど、目的の文書が効率よく見つかったってことが、
> 全然無くて、結局消しちゃったよ。

原因あっての結果、準備あっての成果なんだと思う。
デスクトップ検索が可能であることを前提に情報の配置、すなわち
ローカルマシンへの情報の蓄積を行なうようになってしばらく経った後、
その威力が次第に明らかになっていくのだと思う。
427名無しさん@お腹いっぱい。:2005/10/24(月) 01:44:41
ただ今のところP2Pを生かした使い道があまりなさそうな気も。
P2Pのファイル共有ソフトに検索機能をつけるとかそのくらい?
まあGoogleのような大富豪な検索サービスにFLOSSの検索エンジンで対抗するなら
分散型にするしかないんだろうけど。

428名無しさん@お腹いっぱい。:2005/10/24(月) 02:20:33
あー、wikiやblogをnodeAPI経由で検索できるようにさえしておけば、
対応している世界中のwikiを一発で検索できる、とか?
で、検索にはestmasterと通信できる好みのUIを使えばよろしい、と。

あとはwikiにつよいリンクの張り方しているノードとか、blogにつよいノードとか、
または公開されている文書なら何でもかんでもリンク張ってるノードとか
緩やかな文書内容によるクラスタを形成して、気分で変えれるようになるといいね。

どっちゃにしても、管理する文書が多くないと夢は広がらんが。
ここは一丁、アプリ書く?
429名無しさん@お腹いっぱい。:2005/10/24(月) 02:35:02
アイデアとしては面白いけど、色々なリソースの無駄だと思う
430名無しさん@お腹いっぱい。:2005/10/24(月) 03:00:49
OSS開発者にそれをいうのはアホ。

minixのコピーをしこしこ作っていたフィンランドのnerd大学院生にも言ってやればよかったのに。
きっと君の先見の明に感銘を受けたはずだ。
431名無しさん@お腹いっぱい。:2005/10/24(月) 03:00:58
賛成。全部googleに任せておけばいいんだよ。
432名無しさん@お腹いっぱい。:2005/10/24(月) 03:10:13
P2Pって各ホストがバラバラに保有してるindex情報を
共有できるようになるってことでんがな。
図書館の蔵書検索みたいなもんだべ。
433名無しさん@お腹いっぱい。:2005/10/24(月) 03:19:33
スラドでGoogle信者が珍しく騒がないなーと思ったら
こんなとこ来たよ。
434名無しさん@お腹いっぱい。:2005/10/24(月) 03:21:46
>>431
反対。Yahoo!も活用すべき。
435名無しさん@お腹いっぱい。:2005/10/24(月) 03:24:51
>>431
賛成。平林さんも Google に任せておけばいいんだよ。
436名無しさん@お腹いっぱい。:2005/10/24(月) 03:26:33
っていうか、P2Pするにはどういう用件が必要なんだ?
ときどき接続の自宅マシンでできるの?
437名無しさん@お腹いっぱい。:2005/10/24(月) 03:27:35
>>430 が自分が良いこと言った、とか思ってたら笑う。
438名無しさん@お腹いっぱい。:2005/10/24(月) 03:33:31
>>436
それで出来なくはないけど、リンクは静的に設定するから常時立ち上げておかないと意味なさげ。
検索だけならべつにかまわないけど。
439名無しさん@お腹いっぱい。:2005/10/24(月) 04:19:47
>>433
スラドで騒ぐのはマカー。Googleマンセーよりさらに質の悪い連中。
440名無しさん@お腹いっぱい。:2005/10/24(月) 08:29:16
>>436
P2Pノードを自分で立てたら、既存の別のノードか中央のサーバに自分のアドレスとポートを
通知する仕組みが必要だろうね。estの作者がそこまで考えてるかどうかは知らないけど。

441名無しさん@お腹いっぱい。:2005/10/24(月) 11:37:47
P2Pでウンチクのなりそこない垂れてるヤツ
いいかげんドキュメント嫁
ホスト同士の通信のしくみもつくらずP2Pなわけねーだろ>>440
442名無しさん@お腹いっぱい。:2005/10/24(月) 14:24:02
自分専用のノードマスタを立てて、検索はそいつ経由で行って、気に入った文書があれば
自分のノードにESTDOCをコピーするようにすればブックマークはいらんようになるかもしれんね。
そういう使い方ならかならずしも常時立ち上げる必要は無いし。

でも、いまでもGoogleがあるからブックマークは使わないという人もいるから、
それ以上のメリットがあるかどうかは不明。自分で順位を操作できたり、属性を加えられるのが
どれくらい嬉しいのかどうかわからん。
443およよ:2005/10/25(火) 19:39:23
すんまそん。ちとだけフォローをおねがいできますでしょうか?

estcmd gather -ft -px @uri -px @title -px point -px link casket c:\list.txt

みたいに設定した場合で 「@title」や別の属性名例えば「comment」などに日本語を設定して

estseek.cgiで検索すると文字化けしてしまうんですが、なんか指定が足りないのでしょうか?
この場合インデックスに追加しているファイル群の文字コードはばらばらなのですが
それが原因なのでしょうか?


444名無しさん@お腹いっぱい。:2005/10/25(火) 19:45:55
list.txt の文字コードが SJIS だからじゃない?
UTF-8 で保存し直してやってみたらどうでしょう。
445sage:2005/10/25(火) 22:24:48
あたらしいdebパッケージまだかよ〜
446sage:2005/10/25(火) 22:25:28
ageてもうた
447およよ:2005/10/26(水) 11:56:25
>>444

ご指摘のとおりですた。UTFにしたらいけますたー。 (^^;

list.txtのウィンドウズマシンのVBでプログラムをつくっていたので文字コードが原因ですた。
お騒がせしました。m(_ _

448名無しさん@お腹いっぱい。:2005/10/26(水) 14:08:16
449名無しさん@お腹いっぱい。:2005/10/26(水) 17:41:34
Win版バイナリを使っています。
ファイル名も検索できるようにしたいと思うのですが、%ESTORIGFILE%環境変数を利用して、
filenamefilt.bat
echo off
echo %ESTORIGFILE%
として、
カレントディレクトリにあるmogeディレクトリに含まれる拡張子が.hogeの全てのファイル名を、
カレントディレクトリのcasketへ、次のコマンドでインデックスさせようとしているのですが
うまく行きません。

estcmd gather -cl -fx .hoge T@filenamefilt -fz -fo ^ -pc CP932 -sd -cm casket moge

インデックスはされているようなのですが、やはりファイル名では検索できません。
どのようにすればよいのでしょうか?
450およよ:2005/10/26(水) 18:33:11
>>444

すませんです。もひとつにたような話なのですが
estseek.confに今回属性として表示したかった「link」という項目名「extattr」を追加し、
下記のように記述したのですが、追加した属性自体は出力されているのですが、表示名
とした日本語がうまく表示されないのです。「リンク先がこちら」の部分は文字化けしてし
まいます。上の経緯もありましたので 小躍りしながら設定ファイルをUTF8で保存したの
ですが追加するとapacheから内部エラー500で呼び出せなくなってしまいました(^^;

設定部分

extattr: link|リンク先はこちら

属性名の表示名称に日本語は難しいのでしょうか?

extattr: link|LinkHere

などはちゃんと表示されているんですが・・・

451名無しさん@お腹いっぱい。:2005/10/28(金) 15:11:28
Windows 版 1.0.1 に脆弱性 1.0.2 にあげてね。だって。
452名無しさん@お腹いっぱい。:2005/10/28(金) 15:49:19
この手のシステムでの脆弱性は嫌だね。
メジャーになればなるほど攻撃される可能性が増えてしまう。
453名無しさん@お腹いっぱい。:2005/10/28(金) 16:05:03
しかもP2Pで一蓮托生
454名無しさん@お腹いっぱい。:2005/10/28(金) 16:12:51
ネットワークアプリケーションの宿命だけどな。
455名無しさん@お腹いっぱい。:2005/10/29(土) 01:06:49
今日、BerliOSのトップページを見たらTop Project Downloadsのところに
"(666) YaCy P2P Web-Search"というのが出ていた。で、思ったんだけど
P2Pの検索エンジンは結構需要あるんじゃまいか?
456名無しさん@お腹いっぱい。:2005/10/29(土) 01:09:48
cloud9はどうなったんだろう?

P2P検索エンジンがビジネスサイドの方で話題になった頃に
どういう議論がなされて、どういう経過を辿って、そして
消え去ったのか調べてみると良いのではないかな?
457名無しさん@お腹いっぱい。:2005/10/29(土) 01:27:45
HyperEstraierは単体でも十分機能するように作ってあるところが評価できると思う。
分散処理の形態としては、P2Pというより、バス型ネットワークのトポロジーで運用
するのが流行りそうな予感。

458名無しさん@お腹いっぱい。:2005/10/30(日) 00:56:03
ここにXREAで使うやりかた書いてあったが難しくて理解不能。
誰かできた人いませんか?
ttp://fruit.dnsalias.org/hyperestraier/index.html
459名無しさん@お腹いっぱい。:2005/10/31(月) 02:03:15
あほな質問すまん。
Hyperがあるのと無いのってどう違うの?
P2P対応か否か?
460名無しさん@お腹いっぱい。:2005/10/31(月) 02:22:27
記録方式が 分かち書き/N-gram というのも大きな違いだね。

でもやっぱり最大の違いがノードAPIであるのは間違いない。
HTTP ベースで管理できるということは コアAPI または コアAPIを使った言語バインディング を使わなくても
簡単に全文検索機能を持ったアプリケーションを開発できるということで、これは素晴らしいと思う。
もともとは P2P のために作られたのかもしれないけど、P2P で利用しなくても全文検索サーバだけを別に立てて運用できるし
コンソール、GUI、Webアプリ等々、異なるフロントエンドから同じインデックスを利用できたりと、かなり面白い。
461名無しさん@お腹いっぱい。:2005/10/31(月) 02:45:09
逆にestmergeにあたるコマンドが見当たらないんだが。
分けたindexを取りまとめて扱うのにはestmasterを使わなきゃいけないのは
ちょっと残念。
サーバープロセスとしてはメモリ食いすぎてないか?> estmaster
462名無しさん@お腹いっぱい。:2005/10/31(月) 03:27:17
_confを編集すればメモリ使用量はある程度調整できるよ
463名無しさん@お腹いっぱい。:2005/10/31(月) 16:41:19
>>460
mikioタソの日記を見ると形態素解析の価値も認めているから、tokenizerはLucene同様
入れ替え可能になったりして。つか、N-gramはCJKではそこそこ使えるけど、タイ語とか
インド諸言語などの場合はどうなんだろ?
464名無しさん@お腹いっぱい。:2005/10/31(月) 16:43:22
日本語のページのタイトルが「超迷子: 共同体的全文検索系」になっている件について
465名無しさん@お腹いっぱい。:2005/10/31(月) 18:28:01
>>463
Unicodeに文字が入ってるなら問題はないんじゃない?
NグラムのNをいくつにするかは言語ごとに最適値があると思うけど、
性能(速度とDBのサイズ)がちょっと違うだけで、精度はいずれにしても一緒。
466名無しさん@お腹いっぱい。:2005/10/31(月) 18:38:49
n-gramのnを変えたら空間の大きさも精度もちょっとどころでは済まない違いに
なると思うが……。
467名無しさん@お腹いっぱい。:2005/10/31(月) 19:23:38
その辺のバランスをいろいろと考慮した結果が現状の 2.2-gram であり、将来採用されるかもしれない 3.2-gram なんだよね。
468名無しさん@お腹いっぱい。:2005/10/31(月) 19:49:39
>>466
N-gramの時点で再現率(= 実際に検索された文書数 / 論理的な適合文書数 )は100%だし、
Nを変えても精度(= 検索結果中の適合文書数 / 実際に検索された文書数 )は変わらんやろ。
469463:2005/10/31(月) 21:44:39
まあ俺もタイ語やインド諸言語に詳しいわけじゃないからあれだけど。
470名無しさん@お腹いっぱい。:2005/11/01(火) 00:55:06
>>468
それが真なら欧米言語でstemmingやっても効果がゼロの筈だよな。
471名無しさん@お腹いっぱい。:2005/11/01(火) 01:47:18
ステミング使うのは、空白で切るトークナイザの場合でしょ。
N-gramでやる必要はあんまりない。語幹だけ入力すれば検索できるから。
472名無しさん@お腹いっぱい。:2005/11/01(火) 02:15:13
ブーリアン検索しか頭にない奴ばっかりか、このスレ。
473名無しさん@お腹いっぱい。:2005/11/01(火) 02:30:08
>>472 詳しく
474名無しさん@お腹いっぱい。:2005/11/01(火) 21:08:07
1.0.3リリースage
475名無しさん@お腹いっぱい。:2005/11/02(水) 09:11:56
>>473
>>468 とか。
情報検索の適合文書というのはクエリの本来の目的に対して定められるので
n-gramの時点で再現率が100%とかいってる時点でおかしい。
世の中にはブーリアン検索しか検索モデルが存在しないとでも思っていないと
468が満たされるような適合文書の定義にはならない。
476名無しさん@お腹いっぱい。:2005/11/02(水) 18:30:39
検索モデルとしてブーリアン検索しか存在してないってのは偽だが、
ブーリアン検索が最もポピュラーなモデルであることは真だろ。
特に断りがなければブーリアン検索を前提として議論しているって事態
別におかしいことでも何でもない。
477名無しさん@お腹いっぱい。:2005/11/02(水) 18:48:56
ブーリアンが最もポピュラーという前提も非常に疑わしいが、
たとえそうだとしても検索モデルと独立に意味を定義された指標の定義を
変えるのは全くおかしいと思うが。
478名無しさん@お腹いっぱい。:2005/11/07(月) 10:46:43
1.0.4出たね。ますますGoogleっぽくなってる。
479名無しさん@お腹いっぱい。:2005/11/07(月) 10:58:11
そろそろGoogleが作者氏を吸収同化しようと触手を伸ばしはじめているかもかも。
480名無しさん@お腹いっぱい。:2005/11/07(月) 13:33:51
高林氏はGoogle入りしちゃったしね。
481名無しさん@お腹いっぱい。:2005/11/08(火) 14:18:35
DesktopHEオモロイね。
Javaで書かれてるなら、ちょっといじればUNIXでも動きそうだな。
ソース公開してくれればいいのに。
482名無しさん@お腹いっぱい。:2005/11/10(木) 01:07:31
導入してみた。クリップがすごい便利!
ローカルの文書って似たのがたくさんヒットして結果が見づらかったけど、
これならきちんと整理して表示されるから非常に見やすい。
483名無しさん@お腹いっぱい。:2005/11/12(土) 01:04:44
1.0.5 sage
484名無しさん@お腹いっぱい。:2005/11/12(土) 02:16:35
超迷子: 天上天下最速最強佛恥義理全文検索系夜露死苦
485名無しさん@お腹いっぱい。:2005/11/12(土) 21:48:40
( ゚Д゚)ポカーン 文字化けかと思たーよ。
486名無しさん@お腹いっぱい。:2005/11/13(日) 17:41:50
>>480
詳しく
487名無しさん@お腹いっぱい。:2005/11/14(月) 01:06:07
>>486
優れたオープンソース開発者を表彰する「2005年度日本OSS貢献者賞」
http://internet.watch.impress.co.jp/cda/news/2005/08/23/8876.html

この記事が最初出たときには

> 全文検索エンジン「Namazu」などの開発者である高林悟氏(グーグル)

と他の3人もそうだけど所属先が出ていたんだわ。その後間もなく所属先が
文章から削られて、しばらく後に名前の誤字が訂正された。

ちなみに高林氏の友人でもあるPRIME作者の小松弘幸氏もGoogleで
インターンやっていたらしい。あとNAISTの先輩であるchalow作者の
山下達雄氏は現在Yahoo! Japanに在籍している。
488名無しさん@お腹いっぱい。:2005/11/14(月) 01:24:38
>>487
> ちなみに高林氏の友人でもあるPRIME作者の小松弘幸氏もGoogleで
> インターンやっていたらしい。

アメリカ留学時にインターンやって、帰国してGoogle入りしたんでしょ。

489名無しさん@お腹いっぱい。:2005/11/18(金) 01:53:59
1.0.6リリースage
正規表現サポートの模様
490名無しさん@お腹いっぱい。:2005/11/18(金) 02:33:40
>>489
今 ML で話題になってるけど(つかこんな時間に流れてくるとわ…)
またちょっと互換性問題があるみたいね。
491名無しさん@お腹いっぱい。:2005/11/18(金) 02:55:40
crmgr って
QDBM http://qdbm.sourceforge.net/
の中に入ってるコマンドのことかー
492名無しさん@お腹いっぱい。:2005/11/21(月) 00:03:55
超弩級迷子になっている件
493名無しさん@お腹いっぱい。:2005/11/21(月) 03:47:18
絶対遊んでいるだろ
494名無しさん@お腹いっぱい。:2005/11/25(金) 10:23:52
ブログ見てると、そろそろMeCabもサポートされそうな勢いだね。
本当に10倍速くなったらすごいな。
495名無しさん@お腹いっぱい。:2005/11/29(火) 11:07:55
なまずからはどうやって乗り換えればいいんですか?
496名無しさん@お腹いっぱい。:2005/11/29(火) 18:07:39
>>495
まず、HyperEstraierのドキュメントを読み、書いてある手順にしたがってインストールする。
それから、ナマズが対象にしていたファイルのインデックスをHyperEstraierで作りなおす。
497名無しさん@お腹いっぱい。:2005/11/30(水) 22:35:59
HyperEstaraier関係での質問なのですが,
replaceの正規表現による置換で,前方参照の書き方がわかりません.

replace: ^file:///home/hoge/diary/html/([0-9]{4})/([0-9]{\
4})\.html{{!}}http://hoge.example/diary/\1\2.html

のような置換が書きたいです.
どのように書けばよいでしょうか.

なにか良い方法がありましたら,よろしくお願いします.
498名無しさん@お腹いっぱい。:2005/11/30(水) 23:22:44
>>497
ほんとだ。出来ると思って試してみたら \1 とかだめだね。
mod_rewrite で誤魔化すしかなさそう。

replace: は(たぶん)上から評価されていくから、お馬鹿な方法なんだけれども

replace: ^file:///home/hoge/diary/html/{{!}}http://hoge.example/diary/
replace: 1999/{{!}}1999
replace: 2000/{{!}}2000
replace: 2001/{{!}}2001

って延々やっていくとか。
regex 使える前はこれしか実際出来なかったし。
499名無しさん@お腹いっぱい。:2005/11/30(水) 23:50:02
レスありがとうございます.
他に$1なども試しては見たのですが無理でした.

とりあえず,>>498さんの方法を使わせていただき,
前方参照の方法に対応したら,そちらを使うことにします.

ありがとうございました.
500名無しさん@お腹いっぱい。:2005/12/01(木) 00:00:50
estcmd gatherの-pxオプションで登録時にURLを指定すればいいんじゃない?

find /home/hoge/diary/html -type -f -name '*.html' -print |
perl -e '
while(<>){
chomp($_);
printf("%s", $_);
$_ =~ s/([0-9]+)\/([0-9]+)\.html$/\1\2.html/;
print $_;
}' |
estcmd gather -il ja -fh -px @uri casket -
501名無しさん@お腹いっぱい。:2005/12/01(木) 00:20:24
>>500
ほぅ、@uri に格納すればできたのかー
知らなかった。
502名無しさん@お腹いっぱい。:2005/12/01(木) 00:26:49
>>500
ありがとうございます.
もとの属性を変えてしまう,という方法ですね.
勉強になります.
503名無しさん@お腹いっぱい。:2005/12/01(木) 00:42:20
作者氏が、だれかEmacsインターフェース作って〜と呼びかけていますね。

着手した人はいますか?
504名無しさん@お腹いっぱい。:2005/12/01(木) 06:18:35
てかEmacsだと検索式入力がミニバッファくらいしか思い浮かばず萎える。
estcmdじか打ちのスクリプト組んでgnome-terminalみたいなURIをリンクとして
読んでくれるターミナル使ったほうがよさげだし
UNIX環境ならelispアプリにする必要性を感じなかったな
505名無しさん@お腹いっぱい。:2005/12/01(木) 09:31:19
そりゃ単にあんたの好みの問題だろう
506名無しさん@お腹いっぱい。:2005/12/01(木) 09:32:29
ミニバッファだからこそ使い易いんじゃないかな。
Firefoxの検索機能も今はミニバッファになったでしょ。
思考停止時間を最小にするのが目的だと思われ。
結果表示画面もEmacsならではの操作性にできるなら最高だ。
Mewとかと連携することもできるかもね。

507名無しさん@お腹いっぱい。:2005/12/01(木) 10:31:41
検索UIも欲しいけど、それより、ChangeLogをインデックスに登録するようにしてくれないかな。
ファイル全体を文書にするんでなくて、個々のエントリを文書として扱ってほしい。
セーブする時に古いファイルとdiffとればどこのエントリが更新されたかわかるはずだから、
更新されたエントリだけを登録するようにできそう。
508754:2005/12/01(木) 10:37:52
509名無しさん@お腹いっぱい。:2005/12/01(木) 16:06:27
満足した瞬間、人は死にはじめるのである。
510名無しさん@お腹いっぱい。:2005/12/01(木) 19:41:33
作者さんのコメント:
「Emacsインターフェイスのアイデア」
http://qdbm.sourceforge.net/mikio/rbbs.cgi?id=RA11333263561092714358

M-x est-search-migemoって、ものすごい数のOR検索をすることになるけど、
実用的速度で動くのかね。
一致文章絞り込み段階での論理演算の順番の変更による最適化なんかの問題も
あったね。

511名無しさん@お腹いっぱい。:2005/12/11(日) 02:34:19
ver1.1.1 age
512名無しさん@お腹いっぱい。:2005/12/11(日) 02:38:14
残念なお知らせ
インデックスの互換性がぬぁい orz
513名無しさん@お腹いっぱい。:2005/12/11(日) 02:56:37
これ,更新履歴はどうやって見れる?

WEBにはまとまった履歴があがってないし,
ChangeLogにはソースコードの変更が書かれているだけ.

普通の人が意味のわかるChangeLogならまだしも,
これは作った人以外には理解不能でしょう.
514名無しさん@お腹いっぱい。:2005/12/11(日) 04:18:24
>>513
そこがいつもネックなのだがねぇ。

ver1.1.1 の変更点みたいなものは作者ブログ?で・・・
ttp://qdbm.sourceforge.net/mikio/rbbs.cgi?id=RA11342311101232356139
515名無しさん@お腹いっぱい。:2005/12/11(日) 04:24:12
>>513
確かにね。でも例えば Apache と比較しても、
http://www.apache.org/dist/httpd/CHANGES_2.2
それはたいして変わらないんじゃない?

httpd.conf を 2.0.5x から書き換える必要があるとか、
増えたディレクティヴが分かるわけではない。
516名無しさん@お腹いっぱい。:2005/12/11(日) 09:30:29
全然違うだろ
Webから参照できるだけど大違いだし、ソースレベルではない変更が書かれているし、
アップグレードに関することは別の文書としてまとまっているし。
517名無しさん@お腹いっぱい。:2005/12/11(日) 11:00:40
開発者は一度はGNU coding standardを読むべし。
何から何まで真似する必要はないけど。
518名無しさん@お腹いっぱい。:2005/12/11(日) 11:44:31
たぶん、作者の人はAPIを開発のメインと考えているようなので、
普通の人むけのChangeLogはあまり重要と考えていないんじゃないかな。

ああいうChangeLogはソースのdiffと一緒に読んでねっていうノリだからね。
なんつーかオープンソースならではってことでおおらかに構えるか、
またはMLで情報の集積場所が欲しいとか訴えてみれば? 手伝うっていえば喜ぶでしょ

しかしApache Projectと比べてサポートが劣っているていうはかわいそうだよ...
519名無しさん@お腹いっぱい。:2005/12/11(日) 11:48:24
ChangeLogはソースコードの変更箇所を特定するためのものであって、
機能説明をするものではない。必要十分な情報を簡潔に書くのがよいとされる。
エンドユーザにわかるようにだらだら書くのはむしろ間違いだろ。
520名無しさん@お腹いっぱい。:2005/12/11(日) 12:25:43
問題なのは、へたにChangeLog書き強制圧力をかけたりすると、
作者の意欲が減退したりポンと消失したりすることがあることである。

まわりの人がサポートするケースのように思える。
メーリングリストとやらのメンバーたちは何をやっているのか?
クレクレ君の集まりなのか?


521名無しさん@お腹いっぱい。:2005/12/11(日) 12:28:48
誰もChangeLog形式で書けとは言ってない

形式は問わず、もう少し上のレベルの更新履歴が欲しいと言ってるだけ

それがChangeLogの形式で提供されててもいいかね、という程度
ChangeLogにしろ、という話ではない
522名無しさん@お腹いっぱい。:2005/12/11(日) 12:29:18
つか、ブログ見ればすごい詳しく書いてあるだ。
523名無しさん@お腹いっぱい。:2005/12/11(日) 13:49:25
暗いと不平を言う前に、自分で火を放ちましょう。
524名無しさん@お腹いっぱい。:2005/12/11(日) 14:24:52
とりあえず,>>514を読んで満足しました.
525名無しさん@お腹いっぱい。:2005/12/11(日) 14:28:51
estcmd extkeys -um casket
はデータベースを更新するたびに呼んだほうがいいのかな?
526名無しさん@お腹いっぱい。:2005/12/11(日) 14:47:28
どうやらそのようですね.
2回目以降は更新のあったものだけが処理される風味.
527名無しさん@お腹いっぱい。:2005/12/11(日) 14:50:26
>>525
多分そう。
ほとんどの項目は passed になるからそんなに時間かからないっぽ。
528527:2005/12/11(日) 14:51:07
すまん。かぶった。
529名無しさん@お腹いっぱい。:2005/12/11(日) 17:24:05
>>522
ブログにしか書いてなく、しかもそれがWebサイトからでは
容易には辿り着けないことを問題としてるんだろう。
情報があっても、そこへの誘導が皆無であれば無いのと同じこと。
530名無しさん@お腹いっぱい。:2005/12/11(日) 17:56:02
更新履歴の執筆なんかに力を入れるよりも、この調子でガンガン開発を続けて
いってほしい気がするけど。

531名無しさん@お腹いっぱい。:2005/12/11(日) 18:02:41
別に履歴に力を入れろとは言わないが、情報をまとめて欲しい。

なぜそこで履歴に力を入れることになってるのか疑問。
532名無しさん@お腹いっぱい。:2005/12/11(日) 18:12:18
じゃ、「力を入れる」は「気をつかう」に修正。
533名無しさん@お腹いっぱい。:2005/12/11(日) 18:15:30
だからこういうパターンでは、周辺がサポートすることで
対応するのが一般的な方法論だって。
534名無しさん@お腹いっぱい。:2005/12/11(日) 19:10:04
一般的
キタコレ
535名無しさん@お腹いっぱい。:2005/12/11(日) 19:19:49
いやだからblogに書いているようなことをトップから辿れるようにすればいいだけの話でしょ
なんでそうやって論点をズラそうとするんだか
536名無しさん@お腹いっぱい。:2005/12/11(日) 19:20:24
じゃぁ更新があったらMLでその都度聞けば?
そういう奴がウザいと思ったらきっとだれかが更新履歴とか、ブログの記事をまとめ始めるでしょ。

自分でやるのが嫌でも、そのくらいならできるでしょ。
煽りのつもりじゃないぞ
537名無しさん@お腹いっぱい。:2005/12/11(日) 19:54:23
他人がまとめたってそれじゃ作者のblogと同レベルかそれ以下だろう。
てか、なんでそこまで履歴を分かりやすくすることに否定的なのか意味が分からん。
538名無しさん@お腹いっぱい。:2005/12/11(日) 19:59:32
意外と本人がこのスレを見て芸風をあっさり変えたりしてな。
539名無しさん@お腹いっぱい。:2005/12/11(日) 20:48:27
なんでそこまで履歴に拘るのかも意味分からん。
540名無しさん@お腹いっぱい。:2005/12/11(日) 21:43:11
>>537
とりあえず更新のたびに関連するブログのエントリへのリンクのリストを並べるだけでいいじゃん。
おれも個人的にはなぜそこまでくわしい履歴が欲しいのかCとRuby経由からしか
使ってないからよくわからん。

だがアプリケーションとして普及させるならサポートは厚い方がいいに決まってるよね。
しかし、作者は全文検索アプリのためのAPIとして見てほしくて、インターフェイスは単なるデモ
みたいな発言をしていたよ。

それが不満なら...作者に直接声の届くmlか、直接メールするかして、
その上で作者が乗り気でないなら乗り換えるしかない気がするが。

ああ、いやもちろんプロジェクトをフォークする自由は常にある。LGPLだからね。
541名無しさん@お腹いっぱい。:2005/12/11(日) 22:25:45
アプリであろうとAPIであろうと、バージョンアップしたのなら
どこがどう変わったのか知りたいと思うのは普通じゃないの?
その変更点がWebから簡単に参照できればよいね、ってだけの話でしょ。
542GNU coding standardのChangeLogの説明:2005/12/11(日) 22:52:40
変更の目的を逐一書いたり, ある変更点と別の変更点との関係を書いたりする必要はありません.
変更についての説明が必要だと思うこともあるでしょう. その場合,おそらくその通りでしょう.
大いに説明を書いてください. ただし,その説明は,プログラム中にコメント文として書いてください.
そうすれば,プログラムを読む人は必ずそのコメント文を見ることになるからです. 例えば,関数を
一個追加したとき,変更履歴には "New function" と書けば充分です.その関数が何をする関数かの
説明はソースコード中で, その関数の定義の前にコメントとして書かれているはずだからです.
543名無しさん@お腹いっぱい。:2005/12/11(日) 22:55:05
だから、
ソースを読まずにChangeLogだけ読んで、「こんなんじゃ書いた本人しか分からん」
というのは筋違いだし、クレクレ君の典型だ。541の要求はもっともだが、そういう
書き出しから始まっているあたりが反感を買ったんだろう。
544名無しさん@お腹いっぱい。:2005/12/11(日) 23:15:34
論点をずらそうとしているのか、それとも論点を分かっていないのか…
545名無しさん@お腹いっぱい。:2005/12/11(日) 23:30:39
blogはWebから簡単に参照できるけど。
546名無しさん@お腹いっぱい。:2005/12/11(日) 23:42:03
ChangeLogはソースコードをコミットするときに書くようにけど。
ChangeLogと違ってユーザ向けのNEWSは更新を確実にするチャンスがないから。
粒度もChangeLogとは合致しないし、開発中はユーザにとっての変更が出る筈で
はなくても後からみてNEWSに書くべきことが発生していたというのもあり得る。

blogなら、ここに書いてなかったのに変わっとるのは怪しからん! という奴は
いないが、NEWSにしたら絶対そういう奴が出てくるだろうから、開発者が
無理なくそういう変更を拾って記述できるようなアイデアをセットで提案しないと。
547名無しさん@お腹いっぱい。:2005/12/12(月) 00:34:02
たしかにサポートって言う奴は要求する方は勝手だけど、
それを誰がやるのかっていうのはこれは大問題だよね。

マジで言い出しっぺがやってくださいよ。お願いしますよ。
たしかにその要求はもっともだからさ。


あと>>544 == >>541 だったならば、>>542
論点へいたる前提を論じてるのだと思うよ。
548名無しさん@お腹いっぱい。:2005/12/12(月) 01:51:50
で、Wikiの設置という流れになるのがトレンド。
549名無しさん@お腹いっぱい。:2005/12/12(月) 03:54:39
Windows版でMeCabを組み込めた香具師いる?
550名無しさん@お腹いっぱい。:2005/12/12(月) 04:29:19
> まわりの人がサポートするケースのように思える。
> メーリングリストとやらのメンバーたちは何をやっているのか?
> クレクレ君の集まりなのか?

> だからこういうパターンでは、周辺がサポートすることで
> 対応するのが一般的な方法論だって。

周辺とかまわりのひとってなんなのかね?
発言してる本人はどれにも該当しない第三者なの?

>>549
ML には
> なお、Windows版バイナリではMeCabのサポートはしていません。
となってる。
551名無しさん@お腹いっぱい。:2005/12/12(月) 13:11:08
>>550
> 周辺とかまわりのひとってなんなのかね?
> 発言してる本人はどれにも該当しない第三者なの?

そうだろうな。開発に参加していないくせに指示だけ出すやつだろ。
こういうやつは相手にしちゃいけない。コードを書かないやつは無視。
552名無しさん@お腹いっぱい。:2005/12/12(月) 13:25:19
>>550
「発言してる本人」が
「サポート」が必要だと感じてるとは限らんでしょ。
553名無しさん@お腹いっぱい。:2005/12/12(月) 13:28:16
電球の交換に必要な人員数をカウントするスレはここでつか?
554名無しさん@お腹いっぱい。:2005/12/12(月) 14:20:51
> コードを書かないやつは無視。

そんなこと言ってたら、ユーザは何も要望を出せなくなるだろ。
OSSはユーザのフィードバックがあってナンボなんだから、そんな偏狭な
姿勢ではプロジェクトは盛り上がってこないでしょ。
いろんな提案が出されることは歓迎すべきで、それを採用するかどうかは開発者の自由。
555名無しさん@お腹いっぱい。:2005/12/12(月) 15:54:28
>>554
要望ならいいんじゃね?
556名無しさん@お腹いっぱい。:2005/12/12(月) 16:06:16
>>554
> OSSはユーザのフィードバックがあってナンボなんだから、そんな偏狭な

そんな事はない。ユーザなど何の役にもたたないことがほとんど。

> 姿勢ではプロジェクトは盛り上がってこないでしょ。

ユーザゼロでも盛り上がる。

> いろんな提案が出されることは歓迎すべきで、それを採用するかどうかは開発者の自由。

いろんな提案が出されることを歓迎するかどうかは開発者の自由。
557名無しさん@お腹いっぱい。:2005/12/12(月) 16:19:37
>>556
キミがOSSの開発者だったとしたら、普通の人の反応としては、
その製品は使いたくないし、開発に貢献したいとも思わないってなるんじゃないかな。
ユーザがいなくていいならそもそも公開なんてしないっしょ。
558名無しさん@お腹いっぱい。:2005/12/12(月) 16:25:36
>>556
お前のような傲慢なやつは、ユーザにそっぽ向かれて消えるだけ。

オープンソースはユーザに使っていただいているものなのだから、

ユーザに対する謙虚な姿勢を忘れたら存在する意味は無い。

消えな。
559名無しさん@お腹いっぱい。:2005/12/12(月) 16:32:15
>>556
ユーザゼロで盛り上がった例を知りたい.

もちろん,ゼロっていうんだから,
コード書いてる人も使ってない状況でね.
560名無しさん@お腹いっぱい。:2005/12/12(月) 16:41:42
>>559
さあ、fj臭が漂ってまいりました!
561名無しさん@お腹いっぱい。:2005/12/12(月) 16:45:05
コード書いている人が使っていても他のユーザが使わなかったら
オープンソースとして盛り上がってるとは言わないだろ.
562名無しさん@お腹いっぱい。:2005/12/12(月) 16:46:58
開発者一人だけで盛り上がってる様を想像してワロタ
563名無しさん@お腹いっぱい。:2005/12/12(月) 18:15:10
>>560
これだからUNIX板の住人は…('A`)
564名無しさん@お腹いっぱい。:2005/12/12(月) 21:48:40
>>562
おなぬーですな。
565名無しさん@お腹いっぱい。:2005/12/12(月) 23:03:40
おまいらいいかげんスルーって行為を学習しような
566名無しさん@お腹いっぱい。:2005/12/13(火) 19:08:29
voidさん!はやく!
567名無しさん@お腹いっぱい。:2005/12/14(水) 19:03:58
506でこのスレは終了しました
568名無しさん@お腹いっぱい。:2005/12/14(水) 19:37:15
では、ここから仕切りなおして再開↓
569名無しさん@お腹いっぱい。:2005/12/14(水) 22:55:40
Luceneとどっちが速いの?
570名無しさん@お腹いっぱい。:2005/12/15(木) 12:49:51
>>569
Luceneって、キーワードハイライト機能ありますか?
571名無しさん@お腹いっぱい。:2005/12/15(木) 13:08:55
Luceneはテキストの登録と検索の機能を提供するライブラリにすぎないので、
表示部分は自分で作る必要がある。したがって、ハイライト機能も自分で作れば
どうとでもなる。
572名無しさん@お腹いっぱい。:2005/12/15(木) 13:21:46
要するにLuceneにその機能はない
573名無しさん@お腹いっぱい。:2005/12/15(木) 13:26:51
包丁に煮る機能がないのと同じだな。
574名無しさん@お腹いっぱい。:2005/12/15(木) 18:17:41
麻婆豆腐に例えれば豆鼓醤みたいなものか。
575名無しさん@お腹いっぱい。:2005/12/16(金) 14:41:26
>>574
入れればウマーくなるけど、入れなくても差し支えないよね、っていうことでつか
576名無しさん@お腹いっぱい。:2005/12/16(金) 17:11:17
>>575
あ、そうきたか。じゃあ麻婆豆腐で言えば豆腐ということで。
577名無しさん@お腹いっぱい。:2005/12/16(金) 17:26:56
麻婆豆腐が食べたくなってきた・・・
578名無しさん@お腹いっぱい。:2005/12/16(金) 17:30:52
574は気の利いた切り返しのつもりがぐだぐだだな。
水切りをサボった麻婆豆腐みたいなもんか。
579名無しさん@お腹いっぱい。:2005/12/16(金) 17:37:07
もういいから。
580名無しさん@お腹いっぱい。:2005/12/18(日) 23:59:45
>>25
エスカレイヤーかよ!
581名無しさん@お腹いっぱい。:2005/12/19(月) 00:38:08
1.1.2キターーー
582名無しさん@お腹いっぱい。:2005/12/19(月) 23:57:09
全文検索エンジンを用いたファイルシステムの名前空間拡張
滝田 裕、多田好克(電通大)

これってどんなのなんだろう?

583名無しさん@お腹いっぱい。:2005/12/20(火) 00:09:45
>>582
たとえば、「/search/検索語」というディレクトリの中を見ると、その検索語を含む
ファイルがずらっと出てくる。

とかなんじゃないかな?

なにそれ、Estraierが使われてるの?
584名無しさん@お腹いっぱい。:2005/12/20(火) 09:34:29
全文検索と言えば、日経コンピュータに
ファイルサーバーのってことで Google アプライアンスとかが紹介されてたな。
Namazu とか Estraier は全くふれられていなかったが。

ファイルサーバーの管理やったこと在るんだけど、
導入に見合った結果が得られるとは言い難いんだよな。
585名無しさん@お腹いっぱい。:2005/12/21(水) 19:44:28
>>584
>ファイルサーバーの管理やったこと在るんだけど、
>導入に見合った結果が得られるとは言い難いんだよな。

ユーザー(社員、学生?)が全文検索の意義を理解してくれないと言う事ですか?

たんに、UIが悪くて使ってもらえないくらいの意味ですか?

ぜひ詳しく聞きたいっす。


586名無しさん@お腹いっぱい。:2005/12/22(木) 09:12:13
おれも聞きたいな。

一般ユーザは、GoogleよりYahooの方が好きだし。
何であんなごちゃごちゃしている上に検索結果もいまいちな
インターフェイスが好きなのだ?
587名無しさん@お腹いっぱい。:2005/12/22(木) 15:35:21
> 検索結果もいまいちな

このあたりに鈍感だからだろう。
588名無しさん@お腹いっぱい。:2005/12/22(木) 16:39:31
今のYahooはマシな方だと思うが。

infoseekやgooはキチガイみたいに検索結果と関係ない情報がひっついてる。
589名無しさん@お腹いっぱい。:2005/12/26(月) 11:38:03
Estraier1.2.29出たね。Hyperからのバックポートぽい。
590名無しさん@お腹いっぱい。:2005/12/26(月) 22:34:58
>>588
そうねYahooはよくなってると思う
googleは一時よりかなり劣化してる感が否めない
591名無しさん@お腹いっぱい。:2005/12/28(水) 00:41:19
プギャァァァァァァァァァァァlハッハッハッハッハッハッハハハハh!!!!!^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^
死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ
死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ
死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ

先日会社の上司の娘が病気で死んだ、心底どうでもいい事だったが心優しい俺は葬式に出てやった。
すると会社じゃ威張り散らしてる奴が娘(だった物)にすがりついてビービー泣いてるんですよwwwwwww
必死に笑いを堪えつつ仕込んでいたネタを使う。

俺「これ・・娘さんがディズニーのキャラクター好きだって言ってましたよね。」
ミッキーのぬいぐるみセットをスッと差し出す。
俺「もたせてあげてください・・きっと喜んでもらえると思うんです・・」
上「う、う・・・す、すまない・・・ありがとう・・・・」

プププギャギャーm9^ ^
そんなこんなでご冥福をわざわざお祈りしてやったわけだが、今度会社に来たこいつにどんな言葉をかけてやったらいいと思う?
なるべく俺の利益になるよう事を運びたいんだが



コイツリアル基地外だお!(;^ω^)
おまいらの力で懲らしめてほしいお!

嫌いな上司の娘が死んだ
http://news18.2ch.net/test/read.cgi/news7/1135513179/
592名無しさん@お腹いっぱい。:2005/12/29(木) 03:25:58
心底どうでもいいまで読んだ。
593名無しさん@お腹いっぱい。:2006/01/08(日) 06:26:04
超幾何学的迷子
594名無しさん@お腹いっぱい。:2006/02/23(木) 17:03:09
1.1.3出たー!
595名無しさん@お腹いっぱい。:2006/02/24(金) 02:10:46
そして本家index.ja.htmlのタイトルがもう
なにがなんだかわからない件
596名無しさん@お腹いっぱい。:2006/02/24(金) 09:16:16
これで Estraier の読みがわかりました。
597名無しさん@お腹いっぱい。:2006/02/25(土) 08:10:24
>>596 それは何?
598名無しさん@お腹いっぱい。:2006/02/25(土) 10:34:47
あれ?もうタイトル戻ってるね。
599名無しさん@お腹いっぱい。:2006/02/25(土) 12:01:35
>>598
ソース見るとわかるけどアレ結構お遊び仕組まれてるぞ
600名無しさん@お腹いっぱい。:2006/02/25(土) 16:13:55
>>596
「牌破衛須都隸亜」らしい。
601名無しさん@お腹いっぱい。:2006/02/25(土) 21:33:49
うほっ、インデックスファイルの方がでかくなった
602名無しさん@お腹いっぱい。:2006/03/09(木) 18:14:10
1.1.4でた。
また開発速度上げてきたね。
603名無しさん@お腹いっぱい。:2006/03/11(土) 20:29:48
初心者でつ。これって、ローカルでapacheみたいなhttpdを立てなければいけないんですか?
604名無しさん@お腹いっぱい。:2006/03/11(土) 22:03:30
「これ」が何を指すかによって答えが変わる。
1. ふつうにDBへアクセスするだけならサーバは要らない。
2. ふつうのP2P機能なら別途専用のサーバを立てて運用する。httpだが80番は使わない。
3. apache 用の mod_estraier も開発されているので、それを使えばやっぱり apache でOK。
605名無しさん@お腹いっぱい。:2006/03/11(土) 22:33:11
とりあえずはコンソールから estcmd で見られるよん。
とか、そういうの?

$ estcmd search -vh DB searchstring

みたいな。
606603:2006/03/11(土) 23:18:10
>>603-604
なるほど、thxです。
607名無しさん@お腹いっぱい。:2006/03/16(木) 05:51:08
開発者のBLOGがbloglines.comだと変なんですが俺だけですか?
608名無しさん@お腹いっぱい。:2006/03/16(木) 08:54:16
なんかtagが解釈されずにでてくるね。
609名無しさん@お腹いっぱい。:2006/03/21(火) 13:08:16
これってローカルのファイルの全文検索するだけだったらhyperじゃないほうがいい?
610名無しさん@お腹いっぱい。:2006/03/21(火) 14:49:27
hyperの方が旧estより全然速いし精度も高いような気がしる
611名無しさん@お腹いっぱい。:2006/03/21(火) 18:22:48
howmのメモ検索で、hyperestraier使えるようなplug-inが出来るといいなぁ。
612名無しさん@お腹いっぱい。:2006/03/21(火) 19:42:18
>>611
> howmのメモ検索で、hyperestraier使えるようなplug-inが出来るといいなぁ。

毎晩寝る前にお祈りすると妖精さんが作ってくれるかもしれないよっ
613名無しさん@お腹いっぱい。:2006/03/22(水) 16:50:31
検索ベースメーラー キター
http://www7a.biglobe.ne.jp/~hat/xyzzy/kamail3/readme.html
614名無しさん@お腹いっぱい。:2006/03/25(土) 00:02:46
>>613
howmにも是非!!
615名無しさん@お腹いっぱい。:2006/03/26(日) 01:51:34
DesktopHEがバージョンアップしてますね。
仕事PCに入れてみましたが、シンプルで使いやすいです。
616名無しさん@お腹いっぱい。:2006/03/26(日) 10:16:18
>>614
howmってそもそも検索べースじゃないの?
まずはどうしたいのかはっきりさせるべし。
617名無しさん@お腹いっぱい。:2006/03/26(日) 10:23:18
ところでmhcをHypEstで検索できるようにしたいと思っているのですが
ぜんぜんうまくいかない。どうだめなのでも説明できません。
だれかつくってください。
618名無しさん@お腹いっぱい。:2006/03/26(日) 10:55:01
つくってくださらない場合には、いかんながらHypEstコミュニティには
プログラムを作る力がないとあちこちで言って回らざるを得ません。
そのことも御承知おきください。
619名無しさん@お腹いっぱい。:2006/03/26(日) 13:25:16
いま流行りのフリーライダーの出現です!!
620名無しさん@お腹いっぱい。:2006/03/26(日) 14:22:48
>>616
その検索をこのHyperEstraierで高速化できないかと。
今の手段はGNU grepか、lisp製のfake-grepのみなんです。
621名無しさん@お腹いっぱい。:2006/03/26(日) 14:30:15
適当にシェルスクリプトなりelispなり書いてestcmdを呼び出せばすぐできるだろ。
622名無しさん@お腹いっぱい。:2006/03/26(日) 14:57:27
>>619
フリーライダーとはまた別だろ。
623名無しさん@お腹いっぱい。:2006/03/26(日) 18:09:48
Windows上で漢字のフォルダ・ファイル名を扱えますか?
namazuだと表とかが使えなくて困ってたんですが、
これなら使えたりしますか?



624名無しさん@お腹いっぱい。:2006/03/26(日) 20:42:10
>>623
そんなもん漢字コードの問題でnamazuかどうかは
無関係
625名無しさん@お腹いっぱい。:2006/03/26(日) 22:13:49
そうか?
626名無しさん@お腹いっぱい。:2006/03/26(日) 23:11:16
パス中のディレクトリを区切る時に、単に0x5c(\)で区切ると、
0x5cを含んでいる「ソ」や「表」などがあるとうまく扱えない。
ということで、文字コードの問題でもあり、そういった既知の問題への対処を
怠っているアプリケーションの問題であるとも言える。

ちなみにhyper estraier(estcmd)では「-pc cp932」オプションをつければ
うまくいくみたい。
627名無しさん@お腹いっぱい。:2006/03/26(日) 23:16:04
半分は多バイト文字をサポートするプログラミング言語で実装してるかどうかの問題。
もう半分はプログラマの能力の問題。
628623:2006/03/27(月) 01:07:14
使えそうなんですね。
ちょっとやってみます

>>624
namazuというかwin版perlの問題なんですけどね。
629名無しさん@お腹いっぱい。:2006/03/27(月) 20:09:13
mew と連携するようにした例、ネットさがしてる
んだが、無いねぇ。
630名無しさん@お腹いっぱい。:2006/03/27(月) 20:19:27
去年の夏頃にMLで全文検索を行なう方法につ
631名無しさん@お腹いっぱい。:2006/03/27(月) 20:31:28
>>630
どうした。タイーホされたのか?
632名無しさん@お腹いっぱい。:2006/03/29(水) 23:07:12
デモサイトのWikipedia検索便利杉age
たまに最新版の記事に更新してくれると嬉しいのだが
633名無しさん@お腹いっぱい。:2006/03/29(水) 23:35:23
Wikipediaのインクリメンタル検索希望
634名無しさん@お腹いっぱい。:2006/03/30(木) 14:41:48
キーワード抽出の仕方について。
bigramを使っていますが
howm用に自動キーワード抽出をしたいのです。
635名無しさん@お腹いっぱい。:2006/03/30(木) 21:18:15
HTML吐いてインデクシングしる
636名無しさん@お腹いっぱい。:2006/03/30(木) 21:22:19
>633
Wikipediaは一括DLできるんだからローカルでやったら
637名無しさん@お腹いっぱい。:2006/03/31(金) 01:05:09
HyperのP2P検索って、クラスタリングにも使えると思っていいのかな?
638名無しさん@お腹いっぱい。:2006/03/31(金) 01:10:05
Wikipediaに、ローカルの辞書検索ソフトと同様の高水準のフロントエンドをつける
ことを考えよう。
(考え中……)
639名無しさん@お腹いっぱい。:2006/03/31(金) 10:10:37
>>637
むしろそういう性能目的の分散処理が一般的な利用形態なんじゃね?
640名無しさん@お腹いっぱい。:2006/03/32(土) 12:33:21
>>633
こういうの?

Ajax による Wikipedia インクリメンタルサーチ:
http://tokuhirom.dnsalias.org/~tokuhirom/wpsearch/
641名無しさん@お腹いっぱい。:2006/03/32(土) 12:45:12
>>640
そう言うのでなく、まともに動いてもっと高速なの。
642名無しさん@お腹いっぱい。:2006/03/32(土) 23:24:00
>>641
そもそもローカルで動かさないと、実用的な速度のインクリメンタル検索は難しいだろ。
643名無しさん@お腹いっぱい。:2006/03/32(土) 23:28:21
>>641
もっと高速とは?
速度に特に問題はないと思うけど。
644名無しさん@お腹いっぱい。:2006/03/32(土) 23:42:25
>>642
> そもそもローカルで動かさないと、実用的な速度のインクリメンタル検索は難しいだろ。

うん。だからそういうのも含めて、

- 自動即時更新
- インクリメンタル検索
- 全文検索
- 検索語一覧
- バージョン追跡機能

まで装備したWikipediaフロントエンド。

メタデータなどを配るP2Pな分配システムに、
ローカルにギガバイト級のキャッシュを使って
快適に。
645名無しさん@お腹いっぱい。:2006/04/02(日) 00:30:53
言いだしっぺの法則。
646名無しさん@お腹いっぱい。:2006/04/02(日) 00:43:12
>>644
インクリメンタル検索を切り捨てさえすれば、ローカルでなくても実現できるというか、
クラサバ型の方が実現性が高そうな要求項目だね。

わざわざ巨大なデータをP2Pで配布してまでインクリメンタル検索なんてしたくないかもー。
647名無しさん@お腹いっぱい。:2006/04/02(日) 16:23:28
>>645
>>644にそんなものを作るスキルがあるとは思えない。
うろ覚えの単語を組み合わせて文章を作ってるだけのような気がすうr。
648名無しさん@お腹いっぱい。:2006/04/02(日) 16:44:06
wikipediaのインクリメンタル検索つったって見出し語にだけ使え
ればいいんだから大した規模じゃない。いいとこ数十MBだろ。

>>640をもっとまともに実装すればAjaxでやったって快適だし、
ちょろっと自前で実装しても簡単(ついでにいうとこの場合プレフィ
クスの差分だけ保管するようなデータ構造にしとけばかなり節約で
きる)。
つーかIMEの辞書に[見出し語 => URL]を入れといたって済む。

そんなんのためにP2Pとか言いだすと訳わからんことになるぞ。

649名無しさん@お腹いっぱい。:2006/04/02(日) 17:45:10
>>648
> wikipediaのインクリメンタル検索つったって見出し語にだけ使え
> ればいいんだから

そうなの? どうしてそう思うの?
650名無しさん@お腹いっぱい。:2006/04/02(日) 18:07:16
>>649
じゃお前は何を対象にしたインクリメンタル検索しようとしてるんだ?
651名無しさん@お腹いっぱい。:2006/04/02(日) 21:20:45
(´-`).。oO(見出しをインクリメンタル検索して何が嬉しいんだろう。。。
652名無しさん@お腹いっぱい。:2006/04/02(日) 21:30:41
>>651
Googleサジェストみたいな感じにしたいってことでしょ。
それだけのためにわざわざフロントエンドが欲しいとは全く思わないけど。
653名無しさん@お腹いっぱい。:2006/04/02(日) 21:46:06
>>651
> (´-`).。oO(見出しをインクリメンタル検索して何が嬉しいんだろう。。。
見出しには本文がついているんだよ。
654名無しさん@お腹いっぱい。:2006/04/02(日) 21:47:23
>>652
思わないよね。見出しだけなら前方一致で十二分。
655名無しさん@お腹いっぱい。:2006/04/02(日) 21:48:27
>>654
そんなもの欲しがる奴はキチガイだよな。
656名無しさん@お腹いっぱい。:2006/04/02(日) 21:52:51
ttp://chasen.org/~taku/software/ajax/kwic/
こーゆーののwikipedia版が欲しいとかそういう話とばかり思ってた
657名無しさん@お腹いっぱい。:2006/04/02(日) 21:59:36
>>656
rdicみたいなのじゃないの?
658名無しさん@お腹いっぱい。:2006/04/03(月) 03:56:46
自鯖のドキュメントのインデックスを
estmasterで他ホストと共有可能なかたちで公開してる人っている?
LAN内ではなく、グローバルかつリンク自由なかたちで。
いたらどんな感じか教えて欲しいんだが
(リンクしてくる他ホストはいるか、回線やサーバー機への負担は体感でどんなかんじか、など)
P2Pでそこらじゅうのインデックスが共有されるようになれば、
つーのが当初の企てっぽいのに、そういうことしてるところが見当たらないんで
ためしにやってみようかと思うんだけど
659名無しさん@お腹いっぱい。:2006/04/03(月) 10:03:48
>>658
デモサイトで動いてるみたいよ
http://athlon64.fsij.org:1978/
660名無しさん@お腹いっぱい。:2006/04/05(水) 03:05:11
mod_estraierで風博士+estraierみたいなことしてたんだけど
estmasterやApacheを止めてestcmd optimizeとかすると
database problem起こす。
estmasterやApache起動したままやると何もする形跡もないままプロンプトが戻らなくなるし。
サーバー機のスペック不足か俺の設定違いか。同じ目に会ってる人おらん?
661名無しさん@お腹いっぱい。:2006/04/05(水) 10:47:12
estmasterを止める時にkillしてない? そうするとその時点でDBが壊れるような気がす。
あと、estmasterを起動したままoptimizeできないのは、estmasterがDBをロックしている
からだと思われ。
662名無しさん@お腹いっぱい。:2006/04/10(月) 11:12:51
1.2.1リリースage
それにしても、KamailV3は萌えるね
663名無しさん@お腹いっぱい。:2006/04/15(土) 15:50:49
ノードAPI使ったサーチャのサンプルが本家にあるけど
試してみるとオニのように遅いな。
estcallやプロトコル使うより遅い。
つまりノードAPIを使う場合はサーバで動いてる
estmasterのサーチャを呼ぶんでなくて
リモートのインデックスにこっちから検索をかけるだけってことなん?
664名無しさん@お腹いっぱい。:2006/04/22(土) 00:10:27
>>663
estmaster内蔵の検索UIは /node/hogehoge/search_ui
estcallを使った場合は /node/hogehoge/search に接続しているから、
たぶん処理が違っているんじゃないかな。

665名無しさん@お腹いっぱい。:2006/04/22(土) 01:01:29
HEがバージョンあがるたびに、qdbmもあがるので追いかけるのメンドイ。
一体化してくれないかな。
666名無しさん@お腹いっぱい。:2006/04/24(月) 04:39:56
estcmd wordsで文書頻度(DF)を外部データベースに作る場合、
この外部データベースって、estcmd extkeysしたあとは捨てて
いいのかな?
保存しておくと、なんかいいことある?
667名無しさん@お腹いっぱい。:2006/04/24(月) 13:11:46
次回にestkeysを実行する時に使える。
668名無しさん@お腹いっぱい。:2006/04/24(月) 15:24:49
>>667
文書が更新されたのにDFを更新しないのは
おかしくない?
669名無しさん@お腹いっぱい。:2006/04/24(月) 16:21:17
DFを算出する対象のコーパスはでかい方がいいから文書を更新したら
DFのデータベースも更新した方がいいと思うけど、それほど精度は変わらないっぽいね。
でも、そういった意味では、もっと大規模なコーパスでDFのデータベースを作っておいて
それを使い回した方がいい希ガス。
670名無しさん@お腹いっぱい。:2006/04/27(木) 01:07:37
いまWikipediaのアーカイブにestcmd extkeysかけてるんだが、
CPU使用率が30%どまり(DFは外部データベース)。
効率悪いな。
gathererの速度もLuceneのIndexWriterの半分以下。

巨大データを扱うときは、メモリ・IO・同期がキモになると
思うんだが、そういうのをCで書くこと自体が辛いんじゃ
ないか。
アセンブラやらPOSIXやらに依存しまれば、Javaと互角
まではいけるかもしれない。
でも、移植性のある方法で書いたら、どう考えてもJavaのほうが
速くなるはず。
671名無しさん@お腹いっぱい。:2006/04/27(木) 15:44:33
extkeysは-umつけないとあまり意味がないだろ。
672名無しさん@お腹いっぱい。:2006/04/27(木) 18:17:53
>>670
estのgatherの速度はluceneよりは遥かに速いと思うけど、
どういう設定してる?
673名無しさん@お腹いっぱい。:2006/04/27(木) 22:19:50
>>672
LuceneのIndexWriterはsetMaxBufferedDocs(1000)にsetMergeFactor(100)
Hyper EstraierのgathererはDatabaseをDatabase.DBCREAT | Database.DBHUGE

もしかしてset_cache_sizeすればDisk IO待ちが減って速くなるの?
gathererが多少速くなってもestcmd extkeysの遅さはどうしようもないわけだが。
674名無しさん@お腹いっぱい。:2006/04/27(木) 23:53:56
>>673
set_cache_sizeするとすごく速くなるよ。というよりしないと遅い。
extkeysは-umすると多少速くなる。
675名無しさん@お腹いっぱい。:2006/04/30(日) 00:25:37
>>674
set_cache_sizeってどう設定するんですか?
676名無しさん@お腹いっぱい。:2006/04/30(日) 02:16:59
キャッシュを256メガにしたいなら、
db.set_cache_size(1024*1024*256, -1, -1, -1);
677名無しさん@お腹いっぱい。:2006/05/01(月) 05:27:51
estcmd gather の場合は -cs オプションね。>set_cache_size

ところで -um だけど MeCab を --enable-utf8-only オプション付きでコンパイルして
デフォルトの辞書も UTF-8 で構築、かつ Hyper Estraier のソースの mymorph.c を
EUC-JP <-> UTF-8 の変換をしないように変更するとさらに速くなるよ。

--enable-utf8-only オプション付けないと和文が2バイトから3バイトになって
解析対象のデータが多くなる分だけ UTF-8 の辞書を使った方が形態素解析が遅くなるし、
付けたら付けたで UTF-8 の文字単位で解析するようになるから MeCab で
他の文字コードが使えなくなるんで、結局デフォルトのままが無難なわけですが。
678名無しさん@お腹いっぱい。:2006/05/06(土) 19:30:12
manのページを検索したいので以下のようにしました
PATH=$PATH:/usr/local/share/hyperestraier/filter ;export PATH find /usr/share/man -type f |
egrep '.*/man[0-9]/.*\[0-3](.gz)*$' |
estcmd gather -cl -fx ".1,.2,.3,.1.gz,.2.gz,.3.gz" "T@estfxmantotxt" -fz -sd -cm casket
としたところ
Bad : modifier in $ (/).
と言ってます。
構文とかぜんぜんわからないバカ者なのですがどうすれば良いでしょうか
教えてくださいませ。
OS=FreeBSD-5.4R
hyperest-v1.1.6です
よろしくおねがいします
679名無しさん@お腹いっぱい。:2006/05/06(土) 23:57:55
「export PATH」の後ろで改行するか、そこに「;」を置く。
680名無しさん@お腹いっぱい。:2006/05/07(日) 11:21:06
>>679
同じでした。
なんだろう?フィルターの当て方に癖があるのかな
681名無しさん@お腹いっぱい。:2006/05/07(日) 11:51:12
FreeBSD ということでもしやと思うが tcsh を使ってんじゃないだろうな。

PATH=...; export ...
という表現の意味はわかってるか?

まずは環境変数にそのパスを加えてふつうに実行してみろ。問題を切り分けるのはそれから。
682名無しさん@お腹いっぱい。:2006/05/07(日) 12:55:17
>>681
>PATH=...; export ...
>という表現の意味はわかってるか?
ありがとうございます。
意味が理解できました。
683678:2006/05/08(月) 02:12:21
#echo $PATH
〜:/usr/local/share/hyperestraier/filter
と表示されます。
find /usr/share/man -type f |
 egrep '.*/man[0-9]/.*\[0-3](.gz)*$' |
 estcmd gather -cl -fx ".1,.2,.3,.1.gz,.2.gz,.3.gz" "T@estfxmantotxt" -fz -sd -cm casket -
実行後は
estcmd:INFO:〜(XXX):redistered
ulimit: too many arguments
・・・
estcmd: INFO closing: name=casket dnum=1176 wnum=0 fsiz=7252037 crnum=0 csiz=0
dknum=0
フィルタを読み込めてないって事ですよね?どのようにすれば良いでしょうか?
パスの通し方がまずいのかな?
684名無しさん@お腹いっぱい。:2006/05/08(月) 03:20:28
ulimitはフィルタの中で呼ばれているから、フィルタ自体は呼ばれていると思う。
manかcolかtrのどれかがパスに含まれてないことない?
685名無しさん@お腹いっぱい。:2006/05/08(月) 16:01:35
# echo $path
/sbin /bin /use/sbin /usr/bin /usr/games /usr/local/sbin
/usr/local/bin /usr/X11R6 /usr/local/share/hyperstraier/filter
以上が内容です。

# find /usr/share/share/man | grep -e '.*/man[0-9]' |
estcmd gather -no ft -fx"T@estfxmantotxt" -fz -sd -cm casket -
こんなのをやってみました
ulimit: too many arguments
は出力されなかったのですが、
estcmd : INFO: closing: name=casket dnum=0 wnum=0 fsiz=6898748 crnum=0
csiz=0 dknum=0
こんな表示です
686名無しさん@お腹いっぱい。:2006/05/08(月) 16:32:27
man man
ってやって、manが使える?
which man
which col
which tr
ってやるとどうなる?
687名無しさん@お腹いっぱい。:2006/05/08(月) 17:16:12
>>686
>man man
NO manual entry for man

>which man
/usr/bin/man

>which col
/usr/bin/col

>which tr
/usr/bin/tr

以上が結果です。
パス指定で/usr/binをはずして findコマンドを/usr/bin/findにすればいいのかな?
688名無しさん@お腹いっぱい。:2006/05/08(月) 18:37:18
/usr/local/share/filter/estfxmantotxt /usr/share/man/man1/ls.1.gz
を実行するとどんなエラーが出る?
(/usr/share/man/man1/ls.1.gzは適当なmanのファイルのパスに読みかえて)
689名無しさん@お腹いっぱい。:2006/05/08(月) 19:30:35
man man が出ないのは、今回の例とは関係なくマズいだろ。 manpath はどう
なってるの?

あと、 685 で /usr/share/share/man て書いてあるけど /usr/share/man の
誤記だよね?
690名無しさん@お腹いっぱい。:2006/05/08(月) 21:39:19
>>688
# /usr/local/share/filter/estfxmantotxt /usr/share/man/ja/man1/ls.1.gz
/usr/local/share/filter/estfxmantotxt: Command not found.

# /usr/local/share/hyperestraier/filter/estfxmantotxt /usr/share/man/ja/man1/ks.1.gz
/usr/local/share/hyperestraier/estfxmantotxt ulimit: too many arguments
となります

>>689
>/usr/share/share/man て書いてあるけど /usr/share/man の〜
誤記です

# manpath
/usr/share/man:/usr/local/man:/usr/X11R6/man:/usr/share/openssl/man:
/usr/local/lib/perl5/5.8.8/man:/usr/local/lib/perl5/5.8.8/perl/man
以上です
691名無しさん@お腹いっぱい。:2006/05/08(月) 22:00:14
/usr/local/share/hyperestraier/filter/estfxmantotxtをエディタで開いて、
ulimitの行を消せばいいんでない?
692名無しさん@お腹いっぱい。:2006/05/08(月) 22:56:10
>>691
>/usr/local/share/hyperestraier/filter/estfxmantotxtをエディタで開いて、
>ulimitの行を消せばいいんでない?
メッセージは表示されませんでしたが、結果はかわりません
693名無しさん@お腹いっぱい。:2006/05/09(火) 00:34:12
man /usr/share/man/ja/man1/ls.1.gz
はどうでしょ。
694名無しさん@お腹いっぱい。:2006/05/09(火) 01:05:50
#man /usr/share/man/ja/man1/ls.1.gz
No manual entry for /usr/share/man/ja/man1/ls.1.gz
以上です。
ちなみに/usr/share/man/ja/man1/ls.1.gzは存在してます
695名無しさん@お腹いっぱい。:2006/05/09(火) 11:35:46
man /usr/share/... はもともと出来ないでしょ。

まず、 estfxmantotxt は内部で man を呼んでるから、まず
man ls
とかして見えることを確認する。
しかし、 manpath はおかしくないように見えるけれど、なんで man man が出
来なかったんだろ。

それから、 grep するだけじゃなくて、
〜 | xargs basename | perl -pe 's/(.*)\.(\d)(.gz)?/\2 \1/' | 〜

みたいな変換を噛まして /usr/share/man/man1/ls.1.gz から 1 ls を作りだす。


もしくは estfxmantotxt に「フルパスっぽかったら man コマンドではなく
nroff -man を使う」的なスクリプトを書くか。
696名無しさん@お腹いっぱい。:2006/05/09(火) 12:05:39
FreeBSDのmanだと絶対パス指定できないっぽいから、
フィルタの中のmanの行を
nroff -man /usr/local/man/man1/cbcodec.1 | col -b | tr '\t' ' ' | output
に変えるってのはどうでしょ。
nroffは入ってるよね? which nroff
697名無しさん@お腹いっぱい。:2006/05/09(火) 14:54:18
>しかし、 manpath はおかしくないように見えるけれど、なんで man man が出
>来なかったんだろ。
なんでなんでしょうねぇ〜?
OSのインストールで必要最小限のファイルしか選定してないからかもしれません。

只今、別PC(man manが引けるPC)をアップデート&hyperestraierインストールしてます。
698名無しさん@お腹いっぱい。:2006/05/10(水) 11:19:54
1.2.4ちゃんと動いてる?
make checkでエラーが出るんだが。
./estcmd: INFO: 7 (/opt/inst/hyperestraier-1.2.4/doc/index.html): registered
./estcmd: ERROR: exhausting memory
./estcmd: ERROR: /opt/inst/hyperestraier-1.2.4/doc/index.html: no such item
./estcmd: INFO: flushing index words: name=casket dnum=5 wnum=1604 fsiz=27316309 crnum=226 csiz=12856 dknum=0
./estcmd: INFO: closing: name=casket dnum=5 wnum=1733 fsiz=27319842 crnum=0 csiz=0 dknum=0
make: *** [check] Error 1
699名無しさん@お腹いっぱい。:2006/05/10(水) 14:28:17
1.2.5
一応動いてますが
700678:2006/05/10(水) 16:49:26
#man man
引けるようになりました。
#whice nroff
/usr/bin/nroff

estfxmantotxt
60行目
nroff -man /usr/local/man/man1/cbcodec.1 | col -b | tr '\t' ' ' | output
#find /usr/share/man -type f |egrep !.*/man[0-3]' |
estcmd gather -no cl -fx ".gz" "T@estfxmantotxt" -fz -sd -cm casket -

〜〜
troff: fatal error: can't '/usr/local/man/man1/cdcodec.1':no such file or
directory
estcmd: INFO closing: mame=casket dnum=0 wnum=0 fsiz=68698748 crnum=0
csiz=0 dknum=0
以上です。
マシンに言語(eucJP)を設定していないのですが、関係ありますでしょうか?

PS昨日アップデート中、HDDが逝ってしまいました><
701名無しさん@お腹いっぱい。:2006/05/10(水) 17:40:45
環境に依存するからわからないけど、 /usr/local/man/man1/cdcodec.1 は存
在するの? っていうかそのパスなら中身は英語だと思うし、であれば言語は
関係ない。

cdcodec.1 が何かのシンボリックリンクになっていて、リンク先が消えている
のにこのファイルだけ消しわすれ、とかそういう事態ではないかと推測するが。
702名無しさん@お腹いっぱい。:2006/05/10(水) 17:42:57
cdcodecじゃなくて cbcodec か orz

っていうか存在するのは 〜cbcodec.1.gz じゃないの?

何をやったのかいまひとつよくわからん。estfxmantotxt の中にじかに各ファ
イルのパスが書いてあるわけじゃないよね?
703678:2006/05/10(水) 18:07:43
estfxmantotxt
60行目
nroff -man /usr/local/man/man1/cbcodec.1.gz | col -b | tr '\t' ' ' | output
に書き換えて
#find /usr/share/man -type f |egrep !.*/man[0-3]' |
estcmd gather -no cl -fx ".gz" "T@estfxmantotxt" -fz -sd -cm casket

/usr/local/man/man1/cbcodec.1.gz:*: warning {p 1,****


こんなん言ってます
704名無しさん@お腹いっぱい。:2006/05/10(水) 18:16:19
/usr/local/man/man1/cbcodec.1.gzをハードコードしちゃダメぽ。

nroff -man "$infile" | col -b | tr '\t' ' ' | output

にすれば、各々のmanファイルを読めるし、さらに、

less "$infile" | nroff -man | col -b | tr '\t' ' ' | output

とすれば、gzipの場合は適切に解凍してくれるんじゃないかな。
lessが必要だけど。

705名無しさん@お腹いっぱい。:2006/05/10(水) 20:46:07
いやそこはふつう zcat (FreeBSD なら gzcat)だろう
706名無しさん@お腹いっぱい。:2006/05/10(水) 20:56:59
zcatの場合、拡張子を調べて分岐しないといけないから面倒じゃね?
lessなら自動判定してくれる。
707名無しさん@お腹いっぱい。:2006/05/10(水) 22:41:54
/usr/share/man/man1/vidcontrol.1.gz:*: warning [p 1, *.*i]: cannot adjust〜


troff: warning [p 1,7.7i]: cannot adjust line
troff: warning [p 1,7.8i]: can't break line

こんなの言ってます。
LANGを指定しても変わりませんでした。
708名無しさん@お腹いっぱい。:2006/05/11(木) 01:22:13
707 はこれまでの質問者と同じ?
っていうか、 .gz というのは gzip で圧縮したファイルだってのは大丈夫?

nroff にせよ troff にせよ、勝手に展開してくれないから、 gzcat なり
less なりで gzip を展開してやらないよね、という流れなのだが、それ理解
できてる?

っていうか何故 troff になってんの?
709名無しさん@お腹いっぱい。:2006/05/11(木) 01:40:40
man の話は自分が使ってる OS のスレでやれ。
710名無しさん@お腹いっぱい。:2006/05/11(木) 04:34:53
>>709
manにフィルターをかけてindexに引っ掛ける話なんですが?

711名無しさん@お腹いっぱい。:2006/05/16(火) 13:36:10
Webクローラのチュートリアルを実行したら
〜[63]:fetching: 1:http://hpux.cs.utah.edu/hppd/cgi-bin/search?package=on&description=on&term=qdm&Search=Serach
estwaver in free():error:chunk is already free
こんな文字を吐いてフリーズするのですがどうしたらいいのでしょう?
Ctrl+Cでも解除されません
712名無しさん@お腹いっぱい。:2006/05/16(火) 22:01:20
クローラはまだ安定してないっぽいね。kill -9で殺すしかないかも。
713名無しさん@お腹いっぱい。:2006/05/17(水) 01:20:25
ありがとうございました。
714名無しさん@お腹いっぱい。:2006/05/17(水) 21:25:02
リモートからestmasterのnode追加するにはプロトコルを使うしかないようですが

$ estcall raw -auth oira oiranopasswd http://localhost:1978/master?action=nodeadd\&name=NewNode

みたくしても

Bad Request (the action is invalid or lack of parameters)

となってしまうです。
ユーザー名oiraとパスワードはブラウザからmaster_uiに入って設定(sつけた)したもので
おいら的には抜かりないつもりだったんですが
どこを間違ったんでしょう?
$ estcmd --version
Hyper Estraier 1.2.4 on Linux
....
な環境です。
715714:2006/05/17(水) 21:35:40
事故レス。
ブラウザから試したらまず
大文字node名ダメ。かつラベル省略不可。
ということのようでした。

$ estcall raw -auth oira oiranopasswd http://localhost:1978/master?action=nodeadd\&name=newnode\&label=new

でうまく行きますね。すまんこ。
716名無しさん@お腹いっぱい。:2006/05/21(日) 13:53:26
Gentoo で portage から HyperEstraier 1.2.6 入れたんですがestcmd gather
で 300 個くらい文書を登録して estcmd optimize したら返ってこない……

Windows の公式バイナリで同じデータためすと 10 秒くらいで返ってくるん
だけどなぁ。ML は文字化けしてて読めないし。
717名無しさん@お腹いっぱい。:2006/05/21(日) 14:30:08
Gentooスレで同じようなこと言ってる奴いなかったか?
とりあえずUSEと同じオプションでソースからmakeして、
make checkが通るかどうか試してみれ
718名無しさん@お腹いっぱい。:2006/05/21(日) 21:32:31
>>716
昔同じようなことになったけど、USE="-bzip2"にしたら正常に動くようになった。
719名無しさん@お腹いっぱい。:2006/05/21(日) 23:14:42
>>717
qdbm 1.8.56, hyperestraier 1.2.6
をとってきて configure & make したら hyperestraier の make check でエラーになりました。

orz% make check
rm -rf casket casket-*
LD_LIBRARY_PATH=.:/lib:/usr/lib:/home/orz/lib:/usr/local/lib:/home/orz/local/lib:/home/orz/local/lib ./estcmd create -tr -xl -attr '@uri' seq -attr '@title' str \
-attr '@author' str -attr '@mdate' num -attr '@size' num casket
./estcmd: INFO: status: name=casket dnum=0 wnum=0 fsiz=19924487 crnum=0 csiz=0 dknum=0
./estcmd: INFO: closing: name=casket dnum=0 wnum=0 fsiz=27265610 crnum=0 csiz=0 dknum=0
LD_LIBRARY_PATH=.:/lib:/usr/lib:/home/orz/lib:/usr/local/lib:/home/orz/local/lib:/home/orz/local/lib ./estcmd put -ws casket ./misc/test001.est
./estcmd: INFO: status: name=casket dnum=0 wnum=0 fsiz=27265610 crnum=0 csiz=0 dknum=0
./estcmd: INFO: 1 (http://hyperestraier.sourceforge.net/sample.txt): registered
./estcmd: INFO: flushing index words: name=casket dnum=1 wnum=1 fsiz=27266752 crnum=101 csiz=5715 dknum=0
./estcmd: INFO: closing: name=casket dnum=1 wnum=45 fsiz=27266752 crnum=57 csiz=3194 dknum=0
./estcmd: ERROR: casket: database problem
make: *** [check] エラー 1
orz%

>>718
情報 thx です。bzip2 を configure からはずしてもう一度やってみます。
720719:2006/05/21(日) 23:45:07
ありがとうございました。手動ビルドで --enable-bzip をはずすと make check が通りました。
また /etc/portage/package.use に hyperestraier -bzip2 でも使えるようになりました。

721名無しさん@お腹いっぱい。:2006/05/22(月) 00:35:05
ユーザガイドによると、bzip2を使うとかなり遅くなるらしく、zlibを進めている
いるけど、なんでgentooのデフォルトはbzip2付きなんだろ。
722名無しさん@お腹いっぱい。:2006/05/25(木) 23:24:02
1.2.7が出たね。
WebクローラからP2Pサーバに分散登録する機能がついた。
かなり大規模な検索エンジンもこれで簡単に作れるようになるのかな。
723名無しさん@お腹いっぱい。:2006/06/06(火) 10:41:41
1.2.8 出たので age
estwaverのhttps対応はいつ?とても便利に使ってるので期待。
724名無しさん@お腹いっぱい。:2006/06/12(月) 19:44:03
@weight属性を全文書につけて順序指定した場合に、
@weightの値が同じ場合、@idでソートされてしまうようなんですが、
これをスコア順にすることってできないんでしょうか?
725名無しさん@お腹いっぱい。:2006/07/03(月) 23:55:29
いつのまにかPerl用API出てたんでage
726名無しさん@お腹いっぱい。:2006/07/11(火) 15:23:45
最近話題ないね。
727名無しさん@お腹いっぱい。:2006/07/11(火) 15:41:41
1.3.2 が出てるじゃん。
ここしばらく頻繁にアップグレードしてる印象があるけど。
728名無しさん@お腹いっぱい。:2006/07/12(水) 21:51:30
作者は最近mixiに入社したらしいね。
729名無しさん@お腹いっぱい。:2006/07/12(水) 22:46:57
はつみみです。
730名無しさん@お腹いっぱい。:2006/07/12(水) 23:03:31
731名無しさん@お腹いっぱい。:2006/07/12(水) 23:21:18
え〜、googleにでもヘッドハントされるんじゃないかと思っていたのに……
なんでそんなところに……
732名無しさん@お腹いっぱい。:2006/07/13(木) 00:10:12
>>731
これ使ったことないけど、そんなに凄い技術なの?
733名無しさん@お腹いっぱい。:2006/07/13(木) 01:03:10
Googleには同じようなことをやっているチームが既にあるわけだし、
多少できる人材が加わったところであまり意味はないような。
それよりは、検索対象のデータをいっぱい持っているけど検索技術が
まだないところに行ってもらった方がよさげ。
734名無しさん@お腹いっぱい。:2006/07/17(月) 22:10:13
WebクローラのSSL対応まだー?
735名無しさん@お腹いっぱい。:2006/07/17(月) 22:26:40
>>734
なにそれ?
Webのクロール機能なんてあるの?
736名無しさん@お腹いっぱい。:2006/07/17(月) 22:38:54
737名無しさん@お腹いっぱい。:2006/07/24(月) 02:50:08
Database::openなんだけど
DRWRITER | DBREADERで読み書きモードでオープンしたら
やっぱりまずい?
検索結果に出てきた文書をそのままoutしてしまいたいんだけど。

試してみると30回ほどやってみてデータの破壊はなかった
738名無しさん@お腹いっぱい。:2006/07/24(月) 08:42:58
DBWRITERだけで読み込みも書き込みもできるよ。
739名無しさん@お腹いっぱい。:2006/07/24(月) 21:34:04
>>738
トンクス。
740名無しさん@お腹いっぱい。:2006/07/27(木) 21:09:15
質問:
検索結果を重要度が高い順に並べたりしてくれるような機能ってありますか?

msearchを使っているのですが、更新が新しいもの順とか、アルファベット順とか
そんな機能しかないのです。
741名無しさん@お腹いっぱい。:2006/07/27(木) 21:27:27
>>740
はい
742740:2006/07/27(木) 23:13:06
まじですか?
導入検討します
743名無しさん@お腹いっぱい。:2006/07/31(月) 14:19:32
Estraierで言うところの重要度って何を元に重要度としてるの?
ページの<title>タグとか<h>タグとかを見てたりするの?
744名無しさん@お腹いっぱい。:2006/07/31(月) 17:37:11
>>743
ヒント ユーザーガイド
745名無しさん@お腹いっぱい。:2006/07/31(月) 17:49:42
HTMLの要素の意味とかは特に斟酌しない。基本的には、タグはぜんぶとっぱらっ
て、テキストをぜんぶくっつけたものとして取り込んでいると考えてさしつかえない。
746名無しさん@お腹いっぱい。:2006/08/01(火) 00:02:13
キーワードを登録して重み付けする機能はあるけど。
747名無しさん@お腹いっぱい。:2006/08/01(火) 02:21:59
>>745
読んでる部分はある。titleと、、、あとなんだっけ?
748名無しさん@お腹いっぱい。:2006/08/01(火) 02:50:24
>747
metaとか見てる筈。でもそれくらい。
title は @title 属性にもなるし、本文にも隠しテキストとして入っている。

という話はややっこしいので、 743 にはああ書いた方が伝わると思ったんで
あのように書いた。少なくとも h1 とかで重要度とかいうのは考えてないです
よという感じ。


そもそも 743 の考えている重要度ってのがおれにはよくわかってないんですが。
基本的には H.E. では単語の重要度には Tf-Idf を使ってるよ、てのが答えに
なっているのかな。
749名無しさん@お腹いっぱい。:2006/08/01(火) 03:13:49
estwaverを動かそうとしたらSegmentation faultで落ちるのでがっかり。
750名無しさん@お腹いっぱい。:2006/08/01(火) 07:22:46
俺は、qdbmコンパイルするときに、最適化オプション付けまくったらSEGV。
estcmd gatherでもだけど。
751名無しさん@お腹いっぱい。:2006/08/01(火) 20:36:06
NAMAZUは<title>とか<meta>以外にも何か読んでる?
752名無しさん@お腹いっぱい。:2006/08/01(火) 21:22:35
なぜそれをここで聞く
753名無しさん@お腹いっぱい。:2006/08/04(金) 07:36:15
文書ドラフト(中間フォーマット)について教えてほしいのですが
これは普通(マニュアル通り)に記述してインデックス作成すれば検索できるように
なるのでしょうか?
マニュアルにある「若者たち」をやってみたのですが、検索されません。
どうしたらいいでしょうか?
754名無しさん@お腹いっぱい。:2006/08/04(金) 09:01:44
「どうしたらいいでしょうか?」なんて質問にまともに答えられるわけないだろ。
インデックスを作った時の操作が間違ってるとした言えない。

せめて、実行したコマンドを張り付けるとか、ログを張り付けるとか、実行環境について書くとかしませう。
755名無しさん@お腹いっぱい。:2006/08/04(金) 15:49:18
ありがとうございます。はじめたばかりの初心者です。すいません

# estcmd put casket /home/date.est
estcmd: ERROR: casket:invalid argument

# estcmd version
Hyper Estraier 1.3.4 on FreeBSD
date.estはUTF-8で記述してあります。

実行前には普通にインデックスをは作成しました。
756名無しさん@お腹いっぱい。:2006/08/04(金) 23:34:30
ちゃんとcasketがあるディレクトリで実行してる?
757名無しさん@お腹いっぱい。:2006/08/04(金) 23:46:21
@uriっていう属性がないと登録できないんだけど、ちゃんと入れてる?
@urlじゃだめだよ。それでダメなら、date.estの中身を見せてみ。
758名無しさん@お腹いっぱい。:2006/08/05(土) 04:28:10
>>757,756
ありがとうございます。登録する事が出来ました。@uriの記述でした。

文書ドラフト形式の登録の場合、ファイル毎に登録しなければならないでしょうか?
一括で登録する方法ってありませんでしょうか?
よろしくお願いします。
759名無しさん@お腹いっぱい。:2006/08/05(土) 04:49:51
>>758
文書ドラフトであってもestcmd gatherで登録できる
760名無しさん@お腹いっぱい。:2006/08/16(水) 10:17:26
1.3.7 ageSSL対応期待.使える?
761名無しさん@お腹いっぱい。:2006/08/17(木) 20:42:06
estcmd draft -fh -il ja (file)
ファイル名をつけると
# 1;2c1;2c1〜
と表示します
ファイル名無しだとフリーズするのですが、どうすればいいのでしょうか?
762名無しさん@お腹いっぱい。:2006/08/18(金) 05:22:14
フリーズっていうか、標準入力を読もうとしてブロックしてるだけじゃん。
763名無しさん@お腹いっぱい。:2006/08/18(金) 14:43:03
これって、Cygwinで使えますか?
764名無しさん@お腹いっぱい。:2006/08/18(金) 18:17:53
>762
ありがとうございます。
標準入力ってどんなの?
普通のHTML文章じゃダメなのかな?
765名無しさん@お腹いっぱい。:2006/08/18(金) 21:37:48
>764
お前の理解力に合わせて言うとキーボードからの入力待ち状態だと思ってさしつかえない。
っていうか勉強しろ。


ちなみに、 fh をつければ、ちゃんと HTML として解釈してくれる。
766名無しさん@お腹いっぱい。:2006/08/18(金) 21:45:05
ありがとうさん
コマンドオプションにfhをつけてるが?
767名無しさん@お腹いっぱい。:2006/08/19(土) 20:44:11
>763
CygwinでなくてネイティブWin32版が出てる。
768名無しさん@お腹いっぱい。:2006/08/20(日) 09:37:25
>>449
WinXP以降ならば
@echo off
for %%A IN ("%ESTORIGFILE%") DO echo "%%~nA" > "%2"
769名無しさん@お腹いっぱい。:2006/09/10(日) 00:27:53
1.4.2が出てるな。疑似インデックスって使ってる人いる?
770名無しさん@お腹いっぱい。:2006/09/13(水) 18:03:11
アップデートしたときはインデックスを再度作り直ししなきゃいけないの?
771名無しさん@お腹いっぱい。:2006/09/13(水) 18:57:12
内部で使っているqdbmの形式が変わってなければ大丈夫のはず。
772名無しさん@お腹いっぱい。:2006/09/14(木) 01:40:58
ほとんどがqdbmのアップデートに伴うような・・
変更点とかってどうやって解るの?
773名無しさん@お腹いっぱい。:2006/09/14(木) 10:43:16
>>772
それ漏れも知りたい。
ほぼ全てのリリースでqdbmの更新が必要だからな。
774名無しさん@お腹いっぱい。:2006/09/14(木) 11:05:50
qdbm の更新は必ずしも qdbm のファイル形式の変更を意味しないよ。
たいていの更新ではファイル形式じたいは変わってないので読み書きできると
思う。なんでそのくせ最新版を要求するのかはよくわからない。

qdbm のバージョンアップに伴い旧形式で読み書きできなくなるときは、作者
の人がそのような注意をアナウンスのときにしている気がする。
けれどそれは何も保証するものではないなあ。
775名無しさん@お腹いっぱい。:2006/09/14(木) 11:18:15
そういうのは周辺コミュニティがサポートするもんだがなあ。
776名無しさん@お腹いっぱい。:2006/09/14(木) 13:35:46
QDBMは本来の目的意外にもH.E.のためにつくられた汎用的なユーティリティ関数群を
(余所で再利用することを考えて?)H.E.の外部に出しておくためのライブラリとしての側面があるからねえ。
777名無しさん@お腹いっぱい。:2006/09/14(木) 14:47:01
H.E.って何?って思ったけど
HyperEstraierの略だったのね^^

でも意味わからなぁ〜い
まだまだ未熟ですがご指導お願いいたします。
778名無しさん@お腹いっぱい。:2006/09/14(木) 23:23:46
超迷子だよ。
779名無しさん@お腹いっぱい。:2006/09/15(金) 11:49:52
みんな初心者なのねw
780名無しさん@お腹いっぱい。:2006/09/15(金) 15:03:07
とりあえずは qdbm 同梱にしちゃえばいいのにー。
H.E. 側で安定したら qdbm 側に反映するとかー。
781名無しさん@お腹いっぱい。:2006/09/15(金) 17:46:10
同梱しても >>770 の問題は解決されないし、同梱のメリットって何?

せいぜい最新版にしたときのコンパイルがちょびっと楽になるというくらい?
別途に qdbm が欲しい人にとってはかえって面倒なだけだし。
782名無しさん@お腹いっぱい。:2006/09/15(金) 22:10:21
同梱すれば、QDBMとH.E.のバージョンが食い違うというミスは無くせるよね。
それに、ダウンロードする回数も1回で済む。

デメリットに関しては>>781の言う通りだと思う。
783名無しさん@お腹いっぱい。:2006/09/17(日) 07:52:41
case 59: name = "ちょwwwおまwwwいごww"; break;
case 61: name = "どう見ても超迷子です本当にありがとうございました"; break;
784名無しさん@お腹いっぱい。:2006/09/17(日) 14:32:50
case 51: name = "超迷子は少年を浪費する"; break;
case 53: name = "超迷子さんのすきゃんてぃ"; break;

作者の世代がなんとなくわかるな。
785名無しさん@お腹いっぱい。:2006/09/18(月) 11:50:16
まあ、作者のページには生年月日が書いてあるけどな。
786名無しさん@お腹いっぱい。:2006/09/18(月) 16:54:12
おちゃめさんなんですね
787名無しさん@お腹いっぱい。:2006/09/20(水) 17:21:39
無知な所もありますのでご指導いただければ幸いなのですが
インターフェイルに接続するときに
http://localhost:1978/master_ui等でブラウザからアクセスするのですが
これはポートポート番号1978を使って接続していますよね?
nmapで見てみたら1978は表示しないのですが何ででしょう?
788名無しさん@お腹いっぱい。:2006/09/20(水) 17:36:30
netstat -l すれば?

nmap はデフォルトでスキャンするポートに含まれてないからじゃないの。
-p1978 すれば出てくるでしょ。
789名無しさん@お腹いっぱい。:2006/09/20(水) 23:07:47
w3m から cgi 叩けますか?
790名無しさん@w3m:2006/09/20(水) 23:51:14
cgiは糞。とにかく最低。cgiはマジ氏ねばいい。
791名無しさん@お腹いっぱい。:2006/09/20(水) 23:52:51
>>789
ローカルCGIでもちゃんと動くよ。
792名無しさん@お腹いっぱい。:2006/09/22(金) 02:56:41
logファイルってどうやって読めばいいの?
2006-09-20T14:41:33ZINFO[71]: fetching: 1: http://hpux.cs.utah.edu/hppd/cgi-bin/search?package=on&description=on&term=qdbm&Search=Search
何度トライしても上記でフリーズ?するんだけど
793名無しさん@お腹いっぱい。:2006/09/27(水) 15:37:07
実装メモリが少ない場合はzlibを有効にしないほうがいいですよね?
794名無しさん@お腹いっぱい。:2006/09/27(水) 20:00:32
教えていただきたいのですが
ユーザーガイドに
データをダンプするコマンド
estcmd search -max -1 -dd casket [UVSET]
とあるのですが「UVSET]って何をすればいいのでしょうか?

estcmd search -max -1 -dd casket
これだけだと
estcmd: ERROR: /***/casket: I/O problem
と表示されます
795名無しさん@お腹いっぱい。:2006/09/27(水) 21:21:21
[UVSET] は [UVSET] のままでいいよ。何かの文字列に置き換えるって意味じゃない。
796名無しさん@お腹いっぱい。:2006/09/28(木) 01:08:45
estcmd search -max -dd 1 casket [UVSET]
estcmd: No match.

こんなん表示されます。どうしたらいいでしょう

797名無しさん@お腹いっぱい。:2006/09/28(木) 02:31:06
それは [] の文字がシェルの特殊文字なんでエラーになってる。 H.E. の問題じゃないよ。

estcmd search -max -dd 1 casket '[UVSET]'
とするとよろし。
798名無しさん@お腹いっぱい。:2006/09/28(木) 03:21:19
ありがとうございます。動作しました。
しかしながら *.est のファイルが見当たらないのですがどうしたらいいのでしょう
799名無しさん@お腹いっぱい。:2006/09/28(木) 10:04:28
-max オプションの引数が -dd になってるからじゃね?
取得最大数を無制限にするなら-1を指定するから、
estcmd search -max -1 -dd casket '[UVSET]'
が正解のような。
800名無しさん@お腹いっぱい。:2006/09/28(木) 11:44:25
すいませんでした。
転記ミスです。
#estcmd serach -max -1 -dd casket '[UVSET]'
--------[6801AEBA0ECCC85A]--------
VERSION 1.0
NODE local
HIT 33494
HINT#1 [UVSET] 33494
TIME 0.461
DOCNUM 33494

--------[6801AEBA0ECCC85A]--------
--------[6801AEBA0ECCC85A]--------:END
801名無しさん@お腹いっぱい。:2006/09/28(木) 14:04:10
カレントディレクトリに*.estを書き出そうとしたけどパーミッションがないとかかなぁ。
802名無しさん@お腹いっぱい。:2006/09/28(木) 17:15:52
rootで作業しています。
念のためにパーミッションを変更しましたが同様です。
803名無しさん@お腹いっぱい。:2006/09/28(木) 18:24:27
そうそう、それ聞こうと思ってたけど、なんで root なの?
まあいいけど。

・適当な ID で estcmd get したらできるか
・-max 1 (とか少ない数)にしたらどうなるか、 -dd を外すとどうなるか
・作業場所はどんなところか、残り容量はどれくらいか

とかも確認よろ。

あとありえないと思うけど、 NFS 共有してる場所とか、場合によって root
でも書き込めない場所というのはあるよ。
804名無しさん@お腹いっぱい。:2006/09/28(木) 19:38:54
お手数かけました。
再度ユーザーガイドを見ながら最初からやり直したら出来ました。

rootで作業は横着したいので作業してます。
閉ざされた環境なので問題ないと思っています。
805名無しさん@お腹いっぱい。:2006/09/28(木) 20:42:35
ええっと解決したときは何のミスだったかとか書いてくれるとうれしい。


一般的な考え方としてはよっぽどの作業(システムに変更を加えるというまさ
にそのアクションそのもの)以外の場合に root を使うのはダメゼッタイ。
環境がどうこうとか、問題がないとか関係なく、やめた方がいいよ。
806名無しさん@お腹いっぱい。:2006/09/29(金) 04:34:08
version 1.4.3
クローラの設定ファイル_conf
# text size limitation (in kilobytes)
これって取得するtextのサイズ制限でいいのかな?

807名無しさん@お腹いっぱい。:2006/09/29(金) 10:08:44
取得してから抽出するテキストのサイズだろ
808名無しさん@お腹いっぱい。:2006/09/29(金) 11:37:11
各コマンドで作成されたファイルを覗きたい時に利用できるedetorって何かありますか?
圧縮されてるから普通のedetorで見れないだけ?
sestseek.cgiも覗いて見たいです。
環境はwin、UNIXどちらでもいいです。
809名無しさん@お腹いっぱい。:2006/09/29(金) 11:39:27
edetorってなんだ?
810名無しさん@お腹いっぱい。:2006/09/29(金) 12:07:29
エデターだべさ。
811名無しさん@お腹いっぱい。:2006/09/29(金) 14:07:29
cgiはCで書かれているだけ。ソースをダウンロードして嫁。

コマンドで作成されたファイルというのが DB のことを指すのであれば、この
構成については基本的にはドキュメントがない。どうしても知りたければソー
スを読むか作者に聞くかするしかないんじゃない。
また、H.E. のDBは基本的には QDBM のDBファイルだろうから、 QDBM のユー
ティリティコマンドでいろいろ弄れることは弄れるはず。
812名無しさん@お腹いっぱい。:2006/09/29(金) 14:23:30
何で読めばいい?
813名無しさん@お腹いっぱい。:2006/09/29(金) 14:25:59
お好みのエデターで
814名無しさん@お腹いっぱい。:2006/09/29(金) 15:04:39
お好みのエデターがね
表示しないのよぉ〜
何使ってる?教えて
815名無しさん@お腹いっぱい。:2006/09/29(金) 15:10:00
emacs
816名無しさん@お腹いっぱい。:2006/10/02(月) 15:05:20
ファイル名に“?”や“=”等の文字が含まれている場合、
INDEXをコマンドを使って作成すると文字が変換されてしまい
検索結果をリンクしても表示されません

特殊な文字を使ったファイル名を別な文字にあらかじめ置き換えておく方法が考えられますが
他に方法はありますでしょうか?
よろしくお願いします。

817名無しさん@お腹いっぱい。:2006/10/02(月) 16:25:02
バグレポートを出す
818名無しさん@お腹いっぱい。:2006/10/02(月) 16:52:34
バグになるのかなぁ〜
RFCで定義されてるみたいだから正常だと思うんだけど
819名無しさん@お腹いっぱい。:2006/10/02(月) 18:24:02
> 検索結果をリンクしても表示されません
これは、バグと言えると思うけどなぁ
820816:2006/10/02(月) 19:39:48
とりあえずestseek.confのreplaceに記述してなんとか表示するようにしました。

次に困ったら又考えよう
821名無しさん@お腹いっぱい。:2006/10/02(月) 21:41:00
showlreal: true
にすればエスケープしてないファイル名を表示してくれるんじゃね?
822名無しさん@お腹いっぱい。:2006/10/03(火) 16:03:20
estfraud.cgiを利用したい時って
estfraud.confだけを設定したらいい?
それともestfraud.conf+_confの設定?
823名無しさん@お腹いっぱい。:2006/10/04(水) 16:48:26
N-gram戦争中w
全文検索ユーティリティ統一スレッド part3
ttp://pc8.2ch.net/test/read.cgi/bsoft/1120649196/
824名無しさん@お腹いっぱい。:2006/10/05(木) 07:59:33
イントラネットの検索に使おうとしていますが取りこぼしが多いです。
少なくともリンクがダブルクォートで囲ってないと誤動作するようです。HTML
規格違反だとは思いますが。
あとpukiwikiのぺージにはまりこんでしまう問題もなんとかならないでしょうか。
825名無しさん@お腹いっぱい。:2006/10/05(木) 08:39:11
HyperEstraierは正確にはN.M-gram(と作者が呼んでる)手法だから、
単なるN-gramとは事情がちょっと違うよなあ。
826名無しさん@お腹いっぱい。:2006/10/05(木) 09:10:06
理論通りの N-gram を実装しても、インデックスが大きくなり過ぎて結局使え
ないし。
>>824
そのレベルの問題は作者に報告するのがよかろうに。
827名無しさん@お腹いっぱい。:2006/10/05(木) 17:30:08
クローラ単独(初期状態の_confで変更点はURLのみ)で動作してて作成された ~casket/_indexなんですけ
このindexをestseek.cgiで指定して検索した場合って検索結果って表示されますか?
828名無しさん@お腹いっぱい。:2006/10/05(木) 19:30:58
>>827
estwaverやestmasterで作ったインデックスも
estcmdで作ったインデックスと全く同じように使えるよ。
829名無しさん@お腹いっぱい。:2006/10/05(木) 21:16:19
クローラに取得した時間表記をlocaltime(JST)にしたいときはどうすればいいですか?
830名無しさん@お腹いっぱい。:2006/10/05(木) 23:38:04
estseek.tmplにJavaScript仕掛けて、Dateオブジェクト使って再計算すれば?
831名無しさん@お腹いっぱい。:2006/10/06(金) 14:15:53
クローラが巡回した後にアクセスlogにアクセスが残りますが
このアクセス名を変更したいときはどのようにすれば良いでしょうか?
バージョンだけでも隠匿したいです。
832名無しさん@お腹いっぱい。:2006/10/06(金) 16:37:50
最近社内LAN向けにH.E勉強してるんですが、
estcmd extkeys -um

っつうコマンドは何のために実行するんですか?
「インデックス内の各文書のキーワードを抽出したデータベースを作成します。」となって
いますが、インデックスを形態素解析してキーワードごとに区切り直して何のメリットが?

検索速度、精度に影響あるんですか?
833名無しさん@お腹いっぱい。:2006/10/06(金) 18:34:18
>>826
> 理論通りの N-gram を実装しても、インデックスが大きくなり過ぎて結局使え
> ないし。

へ?
俺200MBくらいの日本語テキストをLuceneのN-gramでインデックス化してるよ?
類似検索とかしなければ、0.1秒で帰ってくる。
マシンはPPCのMac mini。
834名無しさん@お腹いっぱい。:2006/10/06(金) 18:42:05
>>832
類似検索ができるようになります。
835名無しさん@お腹いっぱい。:2006/10/06(金) 20:08:53
>>832
補助インデックスでヒット数が得られれば検索速度が上がる。
そうでない場合でも、検索精度が上がる。
836名無しさん@お腹いっぱい。:2006/10/06(金) 21:24:54
Windows版で申し訳ないのですが estcmd で -attr オプションを付けると HIT 数の表示がおかしくなるみたいです。

たとえば下記の3つの結果が 53, 27, 27 になります。
estcmd search -vu -max 10 -attr "@uri STRINC Win" casket Windows
estcmd search -vu -max 10 -sk 1 -attr "@uri STRINC Win" casket Windows
estcmd search -vu -max 50 -attr "@uri STRINC Win" casket Windows

これは仕様でしょうか?
837名無しさん@お腹いっぱい。:2006/10/07(土) 07:41:25
>>836
スレ違い
838名無しさん@お腹いっぱい。:2006/10/07(土) 10:17:48
板違いなのかな。

>>836
属性インデックスを使わない場合は、ヒントの該当数表示が正確とは限らないから、
それは多分仕様。
839836:2006/10/08(日) 10:38:47
>>838
レスサンクスです。UNIX版も同じでしょうか?
余計な事調べるより速度を重視ってとこでしょうかね。
この数値を元に検索結果のページ切り替えタブを作っているのですが
2ページめ(10〜20件)を表示すると総ページ数がいきなり減ってしまうので困ってます。

もうひとつ質問です。
スコアの値を基に★3つとか表示をしたいのですが満点をいくつにすればよいのかよくわかりません。
検索語が増えればどんどん点数が上がっていくみたいなので困っています。
840名無しさん@お腹いっぱい。:2006/10/08(日) 11:46:06
なんだ?
ここはUNIX板だよな?居候は謙虚になりなさいw

何をやりたいのかよくわからんが、
P2Pガイドの助言の項目(ページ)にヒントがある
加点方式だから満点も何もないだろ

841名無しさん@お腹いっぱい。:2006/10/08(日) 14:24:30
>>839
840の言う通り、加点方式だから満点に意味はない。
けれど、スコアは偏差値で調整されているはずだから、
1位を満点にすればそれっぽい表示ができるかもね。
842名無しさん@お腹いっぱい。:2006/10/08(日) 18:06:15
>>839
ここまで厚顔無恥なやつは初めてだよ
他人の迷惑も少しは考えろよ
843名無しさん@お腹いっぱい。:2006/10/08(日) 20:31:20
>>839
>余計な事調べるより
余計なことなら聞かないでくれ
844名無しさん@お腹いっぱい。:2006/10/08(日) 21:43:00
俺は839じゃないけど、842と843は心狭杉。
845名無しさん@お腹いっぱい。:2006/10/08(日) 21:57:39
答えもヒント与えてるし広すぎだと思うぞ
教えて君が助長しないか心配
846名無しさん@お腹いっぱい。:2006/10/08(日) 22:47:31
これもゆとり教育のせいなのかな・・・
847名無しさん@お腹いっぱい。:2006/10/08(日) 22:48:40
N-gramを使うまでは、僕はまったくもてませんでした。
2ちゃんねるやWarez、最新アニメの話で彼女をひきつけようとしても、白けられるばかりでした。
N-gramを使ってからは全てが変わりました。
全文検索の話で盛り上がり、彼女はもう僕にめろめろです。
素敵な彼女のハートをつかむことを助けてくれたN-gramに僕は大感謝です。
848名無しさん@お腹いっぱい。:2006/10/09(月) 00:59:16
たとえば!の話だ。
単にHがしたい!と言う質問に対しては
嫁に相手してもらえ!彼女を作れ!や風俗に行け!と言う明確な回答が出来る。
しかし、有名アイドルとHがしたい!と言う条件がつく質問には幅広い回答しか出来まい
849名無しさん@お腹いっぱい。:2006/10/09(月) 09:48:29
クローラーを再巡回させたとき、削除された文章があったときは
データから削除される?
850836:2006/10/09(月) 23:01:54
ありゃりゃ、なんか荒らしちゃってすみません。

>>840-841
ご回答ありがとうございます。
P2Pの方は関係ないと思って全然読んでませんでした。

>>843
余計な事・・・っていうのは>>838さんの回答に対してではなく
(EstraierがHit数のような)余計な事調べるより(検索)速度を重視
って意味です。念のため。

それではお邪魔しました。
851名無しさん@お腹いっぱい。:2006/10/10(火) 01:23:20
クローラーの動作なんですけど
replace ~file/usr/home/data/{{!}}http://domein.com/
とした場合、訪問するのは/usr/home/data/でしょうか?http://domein.com/
でしょうか?それともエラーで訪問しないのでしょうか?
852名無しさん@お腹いっぱい。:2006/10/11(水) 19:58:16
とりあえずLAN内のファイルサーバを検索できるところまではできたんだけど、
Namazuの-excludeオプションみたいな、特定のフォルダだけ検索対象から
除外するにはどうすればいいの?

あと、Namazuみたいに複数のインデックスに分けて、チェックボックスで
検索対象選ぶインターフェイスにしたいんだけど@genreで分けるしか方法はないの?
インデックス自体を物理的に分けて、横断検索できたらなぁ。。。
853名無しさん@お腹いっぱい。:2006/10/11(水) 23:22:29
>Namazuの-excludeオプションみたいな、特定のフォルダだけ検索対象から
>除外するにはどうすればいいの?
estcmd scandir と estcmd regex を組み合わせてゴリゴリやる.
#findとgrepでも可

>インデックス自体を物理的に分けて、横断検索できたらなぁ。。。
estmaster 使ってメタ検索を使う.
854名無しさん@お腹いっぱい。:2006/10/12(木) 16:36:37
>>853
estmasterとかマニュアル読んだけど意味全然分かんないし。
昔あったestmerge.cgiってHyper Estraierには使えないのかな?
便利な機能削ってP2Pだとかやたら取っつきにくい新機能で「すごいだろ」
って言われても一般ユーザーにはどうすることも出来ないよ。
855名無しさん@お腹いっぱい。:2006/10/12(木) 18:39:14
いいの、一般人はフロントエンドだけみればいいんだから。
856名無しさん@お腹いっぱい。:2006/10/13(金) 20:27:25
もしかしてキーワードの抽出に分かち書きを利用するとクローラーってまともに動かない?
857名無しさん@お腹いっぱい。:2006/10/13(金) 21:37:47
わかち書き使ってクローラー動かしてるけど普通に動くよ
858名無しさん@お腹いっぱい。:2006/10/14(土) 01:05:02
MeCabじゃなくて-um?
859名無しさん@お腹いっぱい。:2006/10/14(土) 03:46:13
BSD系で-umつきクローリングするとSEGVったりdouble freeになったりすることがある
libmecabのpthread&mmapまわりか、libqdbmのガベコレか、どっちかが臭い(たぶん前者)
860名無しさん@お腹いっぱい。:2006/10/14(土) 10:49:53
>>854
一般ユーザ向けのソフトじゃないでしょ
いきなり何いってるんだ?
861名無しさん@お腹いっぱい。:2006/10/14(土) 10:54:57
サンキュ
862名無しさん@お腹いっぱい。:2006/10/16(月) 18:36:44
Hyper Estraierって、namazuでのNMZ.result.normal.jaのように
結果のカスタマイズはできませんか?
863名無しさん@お腹いっぱい。:2006/10/16(月) 20:03:33
回答者にnamazuを使え!ってことか?

ユーザーガイド読めよ!
864名無しさん@お腹いっぱい。:2006/10/17(火) 15:15:31
拡張子が本来、.cgiのものを.htmlで表示させてるんですけど、中にエラー処理とか入ってるために、
検索すると、エラー処理部分の<title>が表示されちゃったり、キーワード「エラー」で全件ヒットしたりしてます。
こんな時はクローラー動かすしかないですかね?
フィルタは、さっぱりわかりませんし。
865名無しさん@お腹いっぱい。:2006/10/17(火) 15:39:44
>>862
質問もまもともにできないの?
866名無しさん@お腹いっぱい。:2006/10/17(火) 16:54:35
864の言いたいことを整理すると次のようなことか。

・CGIスクリプトをそのまま H.E. につっこんでいる
・しかも HTML ファイルとして処理させている
・そうするとスクリプト中の正規の処理のパートと、エラー処理などの部分と、両方とも H.E. に1つのドキュメントに入ってしまう
・クローラを使って HTTP 経由で CGI の吐いた HTML を処理するしか方法はないのだろうか?
・フィルタは理解する気がありません

これであってる?
867名無しさん@お腹いっぱい。:2006/10/17(火) 17:45:48
データーをCGIで表示させてH.Eに取り込みたいて事だろ!

cgi自体をデーターとして取り込み操作してるから出来ないんだよ!
頭使え!

俺だったらestファイルで読み込む方法を取るな
868名無しさん@お腹いっぱい。:2006/10/20(金) 00:22:40
>>862
estseek.conf と estseek.tmpl でできる以上のカスタマイズは無理っぽい。

俺も PREV 1 2 3 4 NEXT とか
右下に英語で小さく表示されるのが嫌だったので変更したかったんだが、
estseek.c のソース見たらその辺はハードコーディングされてて
テンプレートとかでカスタマイズできるように見えなかった。
というわけで Perl で API 叩くフロントエンド書いたよ。
Namazu のテンプレートなんかよりずっと柔軟なカスタマイズができるようになった。
API マンセー
869名無しさん@お腹いっぱい。:2006/10/20(金) 10:17:49
スタイルシートをいじればほとんど何でもできることない?
870名無しさん@お腹いっぱい。:2006/10/20(金) 11:38:15
まあNamazuにもlibnmzやSearch::Perlがあるけどね。
それよりインデクサのAPIがあることのほうが素晴らしいとは思わんかね。
871名無しさん@お腹いっぱい。:2006/10/20(金) 13:07:53
知らなければ弄れない
872名無しさん@お腹いっぱい。:2006/10/20(金) 20:39:03
windows用のHyper Estraier+ANHttpdの構成で使っていますが,
全文検索(BODY TEXT)だけでなく,ファイル名も同時に検索できるようにするには
どのようにしたらよいのでしょうか。

formtype=fileでは,bodytextがpathのどちらかの検索となってしまううえに,
pathではand/or検索ができない(一語検索のみ)のですが。
873名無しさん@お腹いっぱい。:2006/10/20(金) 21:15:41
属性名にファイルnameを書いたら?
874名無しさん@お腹いっぱい。:2006/10/20(金) 22:43:45
>>869
ではそのスタイルシートで PREV を [前へ] に変えてみてくれ。

ついでに Submit ボタンのキャプションを「検索」に、
「per page」を「件毎」に、「with」を「属性」に、
「Results of 1 - 10 of about 220 for XXX (0.010 sec.)」を
「"XXX" の検索結果 約 220 件中 1 - 10 件目 (0.010 秒)」に変えてもらえると嬉しい。
875名無しさん@お腹いっぱい。:2006/10/20(金) 22:47:54
痴漢ぐらいならJavaScriptでできない?
876名無しさん@お腹いっぱい。:2006/10/20(金) 23:20:01
JavaScript ならできるだろうけど、
estseek が吐く HTML がいつどう変わるかわからんからんし、
JS オフだと働かないしなあ… (それは CSS も同じだ)
綺麗な解決法とは言い難いところがあるね。

>>870
Search::Namazu のこと?
http://cvs.namazu.org/Search-Namazu/
http://www.namazu.org/~knok/ も死んでて
かろうじて http://www.akaneiro.jp/Search-Namazu/ にあるみたいだけど開発版のようだし、
使った事例も全然見かけないし、実際使えんの?
877名無しさん@お腹いっぱい。:2006/10/21(土) 15:24:13
ソースを弄る
878名無しさん@お腹いっぱい。:2006/10/21(土) 17:58:06
879名無しさん@お腹いっぱい。:2006/10/23(月) 22:12:14
>>872
873さんも書いているが、文書ドラフトの
@titleとかにファイル名を突っ込むバッチファイルを
書いてやればよいのでは?

自分は画像ファイルなどもタイトルで検索したかった
のでそうして使ってる。
880名無しさん@お腹いっぱい。:2006/10/24(火) 00:58:52
>879

ありがとうございます。一応,自己レスしておきます。
結局,xdoc2txtに全部通すことにし,estfilt.batを
  @echo off
  echo %ESTORIGFILE% >%2
  xdoc2txt -s -r=0 -o=0 %ESTORIGFILE% >> %2
とし,gather時に-foつけて対処してしまいました。
一番手っ取り早かったものですから。
881名無しさん@お腹いっぱい。:2006/10/24(火) 01:06:53
Estraier流のインデックスの作り方,属性とBODYTEXTのどちらにも
引っかかる検索式の書き方等,よかったら教えていただけませんか?
882名無しさん@お腹いっぱい。:2006/10/24(火) 01:41:28
メール形式とかは、 estcmd では、タイトルを属性にしながら同時に隠しテキ
ストとしてBODY につっこんでるよね。そういうことをやるしかないと思う。
883名無しさん@お腹いっぱい。:2006/10/25(水) 21:49:39
Hyper Estraierをウィンドウズで動かしたいのですが、Windowsバイナリパッケージをインストールして。。。その後が全然どうすればいいかわかりません。
どなたか手順を教えていただけないでしょうか?
やりたいことはWebサーバ構築してキャッシュを全文検索で探せるようにしたいんで・・・
よろしくお願いします。
884名無しさん@お腹いっぱい。:2006/10/26(木) 00:21:11
はぅ。
885名無しさん@お腹いっぱい。:2006/10/26(木) 00:56:43
886883:2006/10/26(木) 10:56:45
>>885アリガトウゴざいます。やってみます。
887名無しさん@お腹いっぱい。:2006/11/11(土) 21:04:50
estproxy.cgiでPDFのハイライト表示ってできないの?
888mini:2006/11/12(日) 16:24:05
hit36わかる


889名無しさん@お腹いっぱい。:2006/11/20(月) 08:02:38
メモリ使用量を100MB位に押さえるには?
今は200MB以上使われてしまう。
890名無しさん@お腹いっぱい。:2006/11/20(月) 12:10:36
最近hyperestraier-users-ja MLのメール来てますか?
例えば,1.4.9のリリースのメールって来た?
俺は公式サイト見て1.4.9リリースを知ったんだけど…
891名無しさん@お腹いっぱい。:2006/11/20(月) 20:25:03
11月11日のメールが最後だな。
俺も1.4.9出てたの今初めて知った
892名無しさん@お腹いっぱい。:2006/11/20(月) 22:03:41
「Hyper Estraier 1.4.9をリリースしました。」

のメールがhyperestraier-users(英語)の方に出されてるので、間違えてるっぽいね。
893名無しさん@お腹いっぱい。:2006/11/21(火) 07:46:12
RSSチェックするほうが確実っぽいぞ。
894名無しさん@お腹いっぱい。:2006/11/21(火) 07:47:51
サポートチームが機能不全なんですね。
895名無しさん@お腹いっぱい。:2006/11/21(火) 10:52:46
仕方ないじゃん。上場したいまでも、
いまだにベータ版で飯喰ってるような会社だぜ。

896890:2006/11/21(火) 11:55:18
そうか.皆さん所にもメールは来ていなくて,リリースのメールは英語MLに間違って(?)出されていたと.

迷惑メールフォルダ探したり,MLに再登録しようか迷っていたんだけどそんなことしなくて良いのねw
状況が分かってイカッタ.
それと作者氏のブログのRSSを登録することにしたヨ.
897名無しさん@お腹いっぱい。:2006/11/21(火) 22:28:51
Sourceforgeにユーザ登録してあれば、「monitor this package」するがよろし。
898名無しさん@お腹いっぱい。:2006/11/21(火) 23:11:51
fedora core 6 で試そうとしたが
libiconvが見つからん。
iconvは、glibc-commonにあったけど、
libiconvはどこのパッケージにあるの??
899名無しさん@お腹いっぱい。:2006/11/23(木) 17:36:23
Apache使ってestceek.cgiを動かしたいんだが、どっちも初心者なんでよくわかりません。
手順をある程度教えてもらえないでしょうか?
900名無しさん@お腹いっぱい。:2006/11/23(木) 17:38:03
sageんの忘れてました。
901名無しさん@お腹いっぱい。:2006/11/23(木) 23:20:53
902名無しさん@お腹いっぱい。:2006/11/26(日) 03:00:06
KaMailV3でhyperestraierを使っていますが、
subjectが長い場合、語の途中に空白が入っていて、
その語が、検索に引っ掛からないことがあるんですが、
これは、hyperestaraier側の問題なんでしょうか。

subjectのソースを見ると、
=?ISO-2022-JP?B?........?=
の部分が複数行ある時、語の分断が発生して
いるように見えるんですが、関係あるんでしょうか。。。
903名無しさん@お腹いっぱい。:2006/11/26(日) 09:59:58
RFC822の仕様が日本語とかの多バイト圏の言語を想定していないものになっているから、
たぶんしょうがない。どちらかといえば送る側のメーラの問題。
904902:2006/11/26(日) 14:49:48
ただ、同じメールをThunderbirdでも読んでいるんですが、
subjectで検索しても、ちゃんと検索語の含まれる
メールが抽出されるみたいです。
905名無しさん@お腹いっぱい。:2006/11/26(日) 14:50:21
>>903
estraierの問題だと思う。
エンコードされた文字列間は空白なしで連結するのが仕様。空白を含めたかったら空白もエンコードする。
906名無しさん@お腹いっぱい。:2006/11/26(日) 15:03:51
>>905
え、それってどの仕様?
907名無しさん@お腹いっぱい。:2006/11/26(日) 15:09:40
>>905
> エンコードされた文字列間は空白なしで連結するのが仕様。空白を含めたかったら空白もエンコードする。

それって確定したの? ずいぶん長いこと紛争の種になったポイントだよね?
908名無しさん@お腹いっぱい。:2006/11/26(日) 15:16:03
そんな事したら、空白区切りの言語で問題でるじゃん
いまのところデコードした後、空白の前後が日本語の文字だったら連結すると
かってアプリ側で対処するしかない。
909名無し募集中。。。:2006/11/26(日) 22:14:04
Windows で作成したインデックスを Linux に持っていって
estseek.cgi で検索することはできますか?
やってみると estseek.cgi のトップ画面は出るのですが
検索しようとすると Segmentation Fault します
インデックス化されているファイルのパス名に日本語が入ってると難しいかなぁ...
910名無しさん@お腹いっぱい。:2006/11/30(木) 17:18:35
estseek.cgiがApache上で動きません。Premature end of script headers: estseek.cgiってエラーがでます。
Test.cgiで作ったのはフツーに動いたんですが、何がおかしいんでしょうか?
911名無しさん@お腹いっぱい。:2006/11/30(木) 20:19:50
Apacheのエラーログ見ろ
912名無しさん@お腹いっぱい。:2006/11/30(木) 22:56:33
>>911
そのApacheのエラーログが
>Premature end of script headers: estseek.cgiってエラー
なんじゃねーの?
913名無しさん@お腹いっぱい。:2006/11/30(木) 23:11:09
shellが使えるんだったら、そのディレクトリ上で ./estseek.cgi って直接実行すれば何か分かるかも
914名無しさん@お腹いっぱい。:2006/12/01(金) 00:12:08
estseek.conf の記述ミス説に 100gram
915名無しさん@お腹いっぱい。:2006/12/01(金) 11:49:42
>>911さん>>912さんの通りです。そもそもestseekて多分バイナリですよね?confをミスったんでしょうか?
とにかくコンフを初期設定に戻してやってみます。

916名無しさん@お腹いっぱい。:2006/12/01(金) 12:04:50
どなたか、超初心者の私に、win版のインストールを教示してくれるHPを教えていただけないでしょうか?

因みに、私は、マニュアルの記載
http://hyperestraier.sourceforge.net/intro-ja.html#introduction
>>Hyper Estraierは、以下のライブラリを利用しています。予めそれらをインストールしておいてください。

>>libiconv : 文字コード変換。バージョン1.9.1以降(glibcにも同梱)。
>>zlib : 可逆データ圧縮。バージョン1.2.1以降。
>>QDBM : 組み込み用データベース。バージョン1.8.68以降。

で、既につまづいている状況です。
どなたか。。。
917名無しさん@お腹いっぱい。:2006/12/01(金) 12:12:12
> なお、Windows版のバイナリパッケージには必要なライブラリが全て納められていますので、そちらを使うことをお薦めします。
だってさ。
918916:2006/12/01(金) 12:26:20
>>917

 ありがとうございます。
 これは、
・qdbmのwinバイナリパッケージ
 のインストールも、不要と考えてよいのでしょうか?

重ね重ねすいませんが。。
919名無しさん@お腹いっぱい。:2006/12/01(金) 12:27:53
>>918
知らね。
まず入れてみて、動かなかったら考えたら?
920918:2006/12/01(金) 12:56:52
>>919

ありがとうございます。
まだ動かせる所までは程遠い状態、かつ、qdbmを入れてみることができるまで程遠い状態ですが、前に進みますね。

あと、どなたか、こんな超初心者の私に、win版のインストールを教示してくれるHPを教えていただけないでしょうか?
921名無しさん@お腹いっぱい。:2006/12/01(金) 18:13:57
つgoogle
922920:2006/12/02(土) 09:30:18
>>921

どもです。
予めgoogleで調べたのですが、インストール・設定のメモ等をアップして
くれているHPが見つからなかったんですよ。。
私の探し方が悪いのかも。。
そこで、このスレの利用を思いついたのですよ。
923名無しさん@お腹いっぱい。:2006/12/02(土) 10:59:43
とりあえず公式を熟読して書かれている通りにやってみな
俺がXPで動かしたときは問題なくできたから
924名無し募集中。。。:2006/12/02(土) 14:19:25
hyperestraier-1.4.9-win32.zip ってのを落としてくれば
QDBM とか他のは何もいらない
検索 CGI を動かすのだったら Apache などの Web サーバが必要
925922:2006/12/02(土) 22:32:51
>>923 >>924
ありがとうございます。
公式の熟読は、確かに不十分だったかもしれません。気をつけます。
>>QDBM とか他のは何もいらない
は、嬉しいコメントです。実は、この点は、公式の熟読でもわからない点でした。

以前(Hyper・・・前)のestraierは、セットアップ時間30分で十分だったのですが、
Hyperになって、高機能になった分、設定が難しくなったと感じているのは
私だけでしょうか?だからインストールメモのHPが無いのかな、、、と。
でも絶対難しくなってますよね。。。言い訳でした。。。
926名無しさん@お腹いっぱい。:2006/12/02(土) 22:44:07
zip展開するだけで estcmd.exe は動くぞ。
どこが難しいんだ?
927名無しさん@お腹いっぱい。:2006/12/03(日) 00:43:03
難しくないから誰もインストールメモなんて書かないとは思わないのかね?
928922:2006/12/03(日) 09:18:36
927
欲嫁。
929名無しさん@お腹いっぱい。:2006/12/04(月) 02:11:15
キーワードをもとにローカル画像を検索したいと思っています。個人用途です。
例えば画像(png、jpgなど)ファイル中にコメントを埋め込んで、それを検索の対象に含める、ということは可能でしょうか?
ユーザガイド読んだら適切なフィルタを持ってくればできそうに思えたのですが、実際に運用してる方に聞きたく書きこみました。
それともこういう場合、コメントはファイルに埋め込むのでなく、別途テキストを用意するのが王道だったりするのでしょうか?

何かコメント頂ければ幸いです
930名無しさん@お腹いっぱい。:2006/12/05(火) 02:13:35
>>929
俺は実際に運用してるわけじゃないが、フィルタさえ用意すれば当然可能。
ファイルそのものにコメント記入フィールドがあるなら、
別途テキストなんか用意するよりファイルに直接埋め込む方が正攻法だべ。
931名無しさん@お腹いっぱい。:2006/12/05(火) 04:44:17
フィルタはこの辺↓使って書くんだろうな。
http://search.cpan.org/dist/Image-ExifTool/
932929:2006/12/05(火) 07:45:42
>>930
>>931

お返事ありがとうございます。お言葉に勇気づけられました。ちょっくらやってみます。
以下のような解説を書いてる方もおられましたです。
ttp://module.jp/blog/comment_in_imagefile.html
933915:2006/12/07(木) 14:42:34
あきまへん、やっぱり動きません。そもそもestseekがどうあっても文字化けするし・・・
ちなみに大事な要因を書き忘れてました、Windowsでアパッチは2.2.3を使ってます。
934915:2006/12/07(木) 15:25:12
何度もすいません、estseek.confの中身がやっぱり問題でしょうか?
replace: file:///www/cgi-bin/{{!}}http://localhost/
でCGIの設置場所がCのwwwのcgi-binに掘り込んでるんですが、正しくはどう
935名無しさん@お腹いっぱい。:2006/12/07(木) 16:12:19
コマンドプロンプトでestseek.cgiを直接実行したらどうなる?
936915:2006/12/07(木) 16:39:26
Status: 500 Internal Server Error
Content-Type: text/plain; charset=UTF-8

Error: the configuration file is missing.
ってでました。
937名無しさん@お腹いっぱい。:2006/12/07(木) 18:05:26
Configuration file(要はestseek.conf)がないよー、って言ってるじゃん
ファイル名が微妙に間違ってるとかない?
これ以上はエスパーが降臨しないと分からんな
938名無しさん@お腹いっぱい。:2006/12/07(木) 22:03:07
>>936
どう見ても estseek.conf が存在しないとしか思えませんが
939915:2006/12/13(水) 19:21:19
すいません。場所が違いました。
Status: 500 Internal Server Error
Content-Type: text/plain; charset=UTF-8

Error: indexname is undefined.
となりました。
コンブの記述ミスでしょうか?
940名無しさん@お腹いっぱい。:2006/12/13(水) 20:22:37
だからー
出てくるメッセージ読めって
Error: indexname is undefined -> エラー:indexnameが定義されてません

Windows版バイナリパッケージを解凍した素のestseek.cgiを実行したって
Error: the index is missing or broken
って出る(バイナリパッケージにいきなりcasketなんていうフォルダはない
から当たり前)のに、undefined って出てるんだから、完全にコンブ(これも
新しい俺用語だな)の記述ミスだろ
941915:2006/12/13(水) 22:15:15
>>940すいません。。。そこからコンブがまずいとわかりませんでした↓↓
コンブの中身はこうししてるんですが・・・
どこがまずいですか?
環境はC:\www\casketにCASKETがあって、C:\www\public_htmlにindex.htmlやestseek.*やtest.cgiがある感じです。
加えてC:\www\cgi-binにもindex.htmlやestseek.*やtest.cgiがある感じです。
以下の中身はcgi-binの方です。

indexname: /www/casket
・・・
replace: file://C|/www/public_html/{{!}}http://localhost/
replace: /index\.html?${{!}}/
・・・
942名無しさん@お腹いっぱい。:2006/12/13(水) 23:23:36
それを見る限り、indexname: /www/casket って*確かに*定義してあるよね
でも、estseek.cgi を実行すると undefined ってエラーが*なぜか*出てるんだよ
何かきっと単純な見落としがあるんだろうけど、それが何かはエスパーが降臨しないと分からん

試しにWindows版バイナリパッケージをもう一度落としてきて、それをC:\hyperestraier に解凍して、
C:\hyperestraier\estseek.conf の一行目を indexname: c:/www/casket にして、コマンドプロンプト
から、
C:\hyperestraier> estseek.cgi [ENTER]
って実行してみな
これが動かなかったら PC を窓から投げ捨てろ
動いたとしたら地道に違いを見つければきっと解決できる
943名無しさん@お腹いっぱい。:2006/12/13(水) 23:28:53
あ、ちなみに estseek.cgi が動くと言っても、コマンドプロンプトから実行しても HTML がずらずらーーっと出てくるだけだからな
CGI としてブラウザから操作できるかどうかは、apache の設定とかも絡んでくるから別次元の話
944名無しさん@お腹いっぱい。:2006/12/14(木) 01:01:12
>>941
> C:\www\casketにCASKETがあって
だったら何で
indexname: /www/casket
なの?
indexname: C:\www\casket
にしなければならないんじゃネーノ?

あと、その casket が estwaver で作ったものであるなら、
indexname は 〜/casket ではなく 〜/casket/_index にしないと動かないわけだが
945915:2006/12/14(木) 09:52:34
>>942,943,944さん、ありがとうございました。
ただestcmdで作ったものなんでスけどね。。。
waverで作って、やってみます。
動かなかったら、新品のPCを最上階から投げ捨てる覚悟を作ってやります!!
946915:2006/12/14(木) 09:53:15
サゲ忘れ
947名無しさん@お腹いっぱい。:2006/12/15(金) 01:53:32
>>945
で、
indexname: C:\www\casket
は試したのか?

誰も waver で作り直せなんて言ってないだろが。

とっとと窓から投げ捨てろ
948名無しさん@お腹いっぱい。 :2007/02/18(日) 19:07:15
今月発売の Software Design で HyperEstraier 特集
age とく
949名無しさん@お腹いっぱい。:2007/02/18(日) 21:37:07
>>948 あ、それおいらも今日立ち読みした。
でも、記事は動作原理とインストールして走らすまでの
話が主で、Namazu みたいに使いこなしのこなれた
枯れたシステムという感じではないね、やっぱり。
へたれな おいらは mew 以外ではまだしばらく
様子見しまつ。
950名無しさん@お腹いっぱい。:2007/02/20(火) 11:06:30
estwaver で pdf ファイルのインデクシングできないぞ。
_conf で denyrx: から pdfを除外して、
typerule: ^application/pdf${{!}H@/usr/local/share/hyperestraier/filter/estfxpdftohtml
を入れても、estwaver crawl xxx すっと

2007-02-20T01:47:06Z INFO fetching: 1: http://.../MS0024320.pdf
2007-02-20T01:47:06Z INFO ignored: 200: http://.../MS0024320.pdf

となる。なぜだろう?
951名無しさん@お腹いっぱい。:2007/02/20(火) 11:17:34
pdftotextが入ってないんじゃない?
estfxpdftotextはシェルスクリプトで、内部的にpdftotextを読んでるだけだから。
952950:2007/02/20(火) 11:23:44
>>951 estcmdはちゃんと動くからその問題ではないす。
estcmd gather -cl -fx ".pdf" "H@estfxpdftohtml" -fz -ic UTF-8 -sd -cm casket /var/..
これは問題なくうごく。

ソースを追うとさ、estwaver が呼んでいる fetch_document が
status 200 を返しているんだな。てことは、est_url_shuttle
が200を返しているんだけど、その先が thread になってて
ようわからん。
953950:2007/02/20(火) 12:36:47
自己解決しますた

× typerule: ^application/pdf${{!}H@/usr/local/share/hyperestraier/filter/estfxpdftohtml
○ typerule: ^application/pdf${{!}}H@/usr/local/share/hyperestraier/filter/estfxpdftohtml

ttp://hyperestraier.sourceforge.net/cguide-ja.html のタイプミスに気が塚なんだ onz
954名無しさん@お腹いっぱい。:2007/03/06(火) 13:11:37
えす採れ1.4.10おめ。
955名無しさん@お腹いっぱい。:2007/03/12(月) 12:45:54
956名無しさん@お腹いっぱい。:2007/03/15(木) 05:33:29
学生じゃないんで泣く泣くあきらめる
957名無しさん@お腹いっぱい。:2007/03/16(金) 23:03:34
とっつぁんは学生の仕事とりあげちゃいかん。
958名無しさん@お腹いっぱい。:2007/03/17(土) 13:20:59
学生の仕事はきちんと単位をとって論文書いて卒業することだw
959名無しさん@お腹いっぱい。:2007/03/26(月) 01:11:33
WINDOWSの話で恐縮なのですが、質問させてください。
pukiwikiのデータのインデックスをestwaverで作ろうとしたのですが、
casketの_confでseedで指定しているページのインデックスしか作ることが
できませんでした。(リンクをたどってくれない。)
通常のhtmlのページは取り込むことができます。
pukiwikiのようなURLでリンクが張られるページのインデックスを、
estwaverで作るにはどうしたらいいのでしょうか。
denyrxなどで弾かれているかと思い、制限がかかりそうなところは
全てコメントアウトするなどしたのですが、変わりませんでした。
またseeddepth,maxdepthは20にしています。

ヒントだけでも結構ですので、もしわかる方いましたらよろしくお願いします。
960名無しさん@お腹いっぱい。:2007/03/26(月) 02:18:50
>>959
denyrxで弾かれてるしかないだろうな
961名無しさん@お腹いっぱい。:2007/03/26(月) 09:59:59
denyrxでlocalhostが入ってるからじゃね?
962959:2007/03/26(月) 19:00:49
>>960,961
レスどうもありがとうございます。
denyrx、noidrxは全てコメントアウトしているのですがだめでした。

その後いろいろ試行錯誤していたのですが、偶然取り込むことができました。
前に取り込めたhtmlも動作がおかしいようだったので、unittestを
してみたところ、_confが上書きされてしまいました。
そこで改めて設定をやり直したところ、ちゃんと動作しました。
_conf以外にはseedをphpの吐くページではなく、その上にphpにリンクを
張っているhtmlを作るという変更をしました。
あまり原因が明確ではないのが気持ち悪いですが・・・

付き合ってくださった方々、どうもありがとうございました。
963名無しさん@お腹いっぱい。:2007/03/26(月) 23:30:56
一生懸命いじっていた _conf は全く別の場所のファイルだった説を唱えてみる
964名無しさん@お腹いっぱい。:2007/03/28(水) 00:46:28
次スレはHyperEstraierでいいよね?
965名無しさん@お腹いっぱい。:2007/03/28(水) 06:39:47
おう、次スレの時期か。
このスレ、ここまで来るのに2年以上かかったのね。
966名無しさん@お腹いっぱい。:2007/03/28(水) 08:24:07
スレの速度もHyperになりましたか。
967名無しさん@お腹いっぱい。:2007/04/15(日) 19:12:10
Win用のバージョン1.4.10でファイル検索システム用にノードサーバを立ち上げて
検索インターフェース(search_ui)で検索をかけたのですが検索結果のリンク先が文字化けします
estseek.confの「showreal」のような設定はできますか?
あるいはestseek.cgiをインターフェースに使うことはできるのでしょうか?
968名無しさん@お腹いっぱい。:2007/04/16(月) 10:07:18
うう、*.tex とかを読ませる方法がわからん・・・
969名無しさん@お腹いっぱい。:2007/04/16(月) 11:30:10
つ「マニュアル」
970名無しさん@お腹いっぱい。:2007/04/16(月) 19:25:09

そうなんですが、正直なところマニュアル(uguide-ja)は、
入門者には情報が多すぎるのと専門用語が多くてわかりにくいです。
もうちょっと腰を落ちつけて読みます。


971名無しさん@お腹いっぱい。:2007/04/16(月) 20:30:45
んなこたねえだろ
972名無しさん@お腹いっぱい。:2007/04/16(月) 22:43:41
いややっぱりわからんです。私の頭悪すぎなのでしょう。
973名無しさん@お腹いっぱい。:2007/04/16(月) 22:52:38
>>972
HEのは、特徴的な文体ではあるな。
しかし、ほかのソフトマニュアル
のほうがうんと読みやすい、てことも
ないわけだし。
974名無しさん@お腹いっぱい。:2007/04/16(月) 23:14:00
estcmd gather -il ja -sd casket ~/foo/*.tex
でもだめ、
find ~/foo -iname '*.tex' | estcmd gather -il ja -sd casket -
でもだめ。

なんか大きな間違いをしてますか?

> 特に構造のない文字列です。デフォルトでは、ファイル名の接尾辞が「.txt」「.text
> 」「.asc」の場合にプレーンテキストとして扱われます。

はわかるんですが、デフォルト以外はどうしたらいいのかの説明がないから
迷ってしまう・・・

>第3引数としてファイル名を指定すると、そのファイルから処理対象のパスのリス
>トを読み込みます。

これもわかりにくかった。

-fxは、ファイル名の接尾辞に関連づけた外部コマンドを指定します。カンマ区切
りで複数の接尾辞を指定できます。「*」だと全てのファイルに一致します。コマ
ンド名の前に「T@」をつけるとその出力がプレーンテキストとして解析され、「H@
」をつけるとHTMLとして解析され、「M@」をつけるとMIMEとして解析され、いずれ
でもない場合は文書ドラフトとして解析されます。このオプションは複数回指定で
きます。

ここらへんなんでしょうが、私には意味わからんです。
この文章のあとにexampleが欲しいと思います。


975名無しさん@お腹いっぱい。:2007/04/16(月) 23:18:27
-fx の事例があるのは「外部コマンドのフィルタ」の部分で、
ここでもふつうのテキストをどうすれば読ませられるかってのは
わからない。うーん。

なんというか、もうひとつ流行らない理由がわかりました。
googleでも解説ページのようなものがひっかからないし。うーん。
なんか貢献したいんですが。
976名無しさん@お腹いっぱい。:2007/04/16(月) 23:36:52
*.texを普通のテキストとして読ませるなら
% estcmd create tex_db
% find /usr/share/doc/ -name '*.tex' | estcmd gather -ft -fz tex_db -
みたいな感じでどう?
977名無しさん@お腹いっぱい。:2007/04/16(月) 23:40:27
あ、ごめん、'-fz'とかいらないわ。
'-ft'が読み込んだファイル全部をテキストファイルとして
扱うってオプションです。
978名無しさん@お腹いっぱい。:2007/04/17(火) 07:25:55
なるほど、そういうふうにするのですか。助かります。
ありがとうございます。
979名無しさん@お腹いっぱい。:2007/04/17(火) 19:58:52
御礼に次スレ立てておきました。
http://pc11.2ch.net/test/read.cgi/unix/1176807372/
980774:2007/04/22(日) 11:22:42
http://athlon64.fsij.org/~mikio/wikipedia/estseek.cgi?clip=8
こちらのサイトでtestを検索
http://athlon64.fsij.org/~mikio/wikipedia/estseek.cgi?phrase=text&perpage=10&clip=8&navi=0&attr=&order=
すると関連キーワードとして
RelatRelated terms: text, rowspan, style, align, center, color, background, key
というふうに出てきますが、これって配布されているCGI、estseek.cgiでも出すようにできますか??
いろいろ調べているんですが、方法が一向に分からず。
ご存知の方いらっしゃったら教えて下さい。お願いします。
981名無しさん@お腹いっぱい。:2007/04/23(月) 07:01:46

http://hyperestraier.sourceforge.net/uguide-ja.html#estseek
> 設定ファイルの書式
> relkeynum : 表示する関連語の数を指定します。

では駄目だったということ?
・「いろいろ調べている」がいったいどこを調べたのか?
・実際に試した事
くらいは書こう。
982名無しさん@お腹いっぱい。:2007/04/24(火) 22:21:29
複数のインデックスを作っておいて、同時に検索できるのでしょうか?
estseek.confのindexname: 部分では複数の記述ができませんでした。
983名無しさん@お腹いっぱい。:2007/04/24(火) 22:57:29
estseek では無理
ノードマスタを叩け
984名無しさん@お腹いっぱい。:2007/04/25(水) 22:37:44
>>983
ありがとうございます。

DesktopHEを見ていると、対象を複数書いても1つのインデックス。
普通にgatherだけでは作れないかもしれないですが、こちらの方法も調べてみます。
985名無しさん@お腹いっぱい。
983だと>>967の問題が...