1 :
名無しさん@お腹いっぱい。 :
04/11/12 10:08:19
2 :
名無しさん@お腹いっぱい。 :04/11/12 10:49:39
,,-‐''""''ー--е >1把握した .|"" . .|| >3(´・ω・`)知らんがな . ;;| VIP連合 .|| >4おっぱい!おっぱい! :: .;;| ...|| >5ピザでも食ってろデブw .:::::;:;| ,ノ""""|| >6僕は、神山満月ちゃん! .:::::;;:| ,/""" 人 ;n|| >7夢がひろがりんぐwwwwwww "" (__)./ ) >8だから個人宛てって言ってんじゃよ (____./ /|| 人 >9そんなことロスでは日常茶飯事だぜ(´・ω・`)y─┛~~~~ V・I・P>∩(・∀/ / (__) >10-1000それが、VIPクオリティ \ ( と) (__) >1001イヤッッホォォォオオォオウ! 〈 〈 ヽ )\(´∀` ) n (_)(ノ, \ ( E) | VIP /ヽ ヽ_//
おいオマエら、MewからEstraierを使う方法を教えてください。
>>4 4様禁止
5様
4様
3様
Q様
1様乙 で Namazu と比べてどこがどうなの? 使ってる人教えてプリーズ。
道を歩いてたら発砲されたよ
Namazuにくらべて、検索語の周辺文を要約として出してくれるのがいい。UIはGoogleにソックリ。 性能や検索精度はいっしょぐらいかな。あと、関連検索がちょっと面白い。
>>10 Namazuは単語の出現位置をインデックスに記録しないからね。
ランキングはよくわからん。ちなみにNamazuにはPageRankハックが
あったけど、特許申請されているという理由(その後特許になっている)
で採用は見送られている。
12 :
名無しさん@お腹いっぱい。 :04/11/12 12:58:59
自分が使ってみた感じでは、精度はEstraierの方が上なような。
namazu スレの766です。Estraier試してみますた。namazuに くらべて複合語検索にずいぶん強いすね、「拡散接合」とか 「絶縁限界」とか。indexingもだいぶ早いような希ガスます。 かなーり良さげなんで、しばらく使ってみることにします。
メタ検索機能って使ってる香具師いる?
>>12-13 ほほう、さすが評判になってるだけによさげっすね〜。
自分も乗り換えてみたいけど、gnus-namazu と Namazu の自作フィルタがある
からかなり気合いがいるなあ…(´・ω・`)
namazu用のフィルタってestに使えないのかな。 改造するとしたらどれくらい手間かかりますかねぇ。
インデックス作るのは相当遅い。 検索速度は同じぐらいかな。 まぁ単純には比較できないか。 namazuは自作フィルタで重み付けをやっているので その部分を何とかできればなぁ。 みんな乗り換えたの?
そうか? インデクシングはestraierの方がずいぶん速い気がするんだが。
インデックスはEstraierはQDBMベースだからhashとB+Treeか。 一方、Namazuは二分木だっけ。
二分探索であって二分木ではないと思われる。
ってゆーか、初めて知った。デモを使ってみたらスゲーいいじゃん。 Namazuから乗り換えよっと。
Estraier て読み方わからん。これ何語よ。 あと sourforge の ML アーカイブもなんか 文字コードおかしくね?
超昂天使だろ
>>24 > あと sourforge の ML アーカイブもなんか
> 文字コードおかしくね?
それは周知の事実。わざわざMailmanの改悪版を作っておきながら
直す気もないので、SF.netで日本語のMLを立てるべからず。
27 :
名無しさん@お腹いっぱい。 :04/11/13 06:46:50
>>24 > Estraier て読み方わからん。これ何語よ。
Q. : 「Estraier」はどう発音するのか。
A. : 「estraier」は昔のフランス語で「さまよう」もしくは「はぐれる」という意
味の言葉だそうだが、作者はそれをどう発音すべきか未だに知らない。
えとれあ、とかなんとかじゃねの。 これ見た初め、2バイトコードなんか全然知らない フランス野郎がつくったソフトかと思たーぜぃ。
えすとれーるでないのと言ってみるテスト。 e(離れて) + traire(引く) → estraire(v) → extraire → estraier(adj) → etrange, etranger
31 :
名無しさん@お腹いっぱい。 :04/11/13 09:02:52
% estindex register test としてみると : estindex: INFO: ./rfc3675.txt: registered: id=138 wnum=0 estindex: INFO: test: database closing: fsiz=755995 dnum=35 wnum=0 bnum=114667 estindex: INFO: test: writing meta information: fsiz=755995 dnum=35 wnum=0 bnum=114667 estindex: INFO: test: registration completed successfully となるのは、これはどこか変なんだよな?
32 :
名無しさん@お腹いっぱい。 :04/11/13 09:54:11
はてなダイアリーには「えすとれいあー」と振り仮名があったな。 ちゃんと全文検索エンジンで。 漏れも時間できたらNamazuから乗り換えてみよう。
>>31 registration completed successfullyって言うてるやん。
>>31 wnum=0 ってなってるから、単語が抽出できてないんでないの?
ファイルが空か、パーミッションがないとか。
だったらsuccessfullyってのも変だが。
「エスレール」とかちゃう?
古仏語でsは脱落してもtは脱落しないのココロ
37 :
名無しさん@お腹いっぱい。 :04/11/14 12:45:55
1.2.25リリースage
文書分類機能がなかなか面白いね。 俺も乗り換えてみるか。
古仏語の発音は、時代によって変わるから難しいな 今のフランス語と違って、ほぼローマ字読みだったはずだけど 「エ(ス)トライエル」ぐらいか(ラ行は巻き舌音)
40 :
名無しさん@お腹いっぱい。 :04/11/14 16:49:29
"est*"でいいやん。
現代フランス語としての発音はどうなの?
仏語は母音衝突を嫌う。三重母音が存在したとは考えにくい。 語尾がerになった時には既にaiは単母音化していただろう。
>>41 aier は現代仏語としてはありえん綴りだが
無理に読めばエストレー(ル)かのお。
末尾のrを発音するかどうかはまちまちだろう。
が、仏人は当然学校で古仏語を習ってるので
よほどのdqnでない限りは古仏語読みを試みると思われ
32の英語読みが爽やかだ
口では「えすとなんとか」と呼んでいます。
現代仏語しかやったことないけど、エストレー(ル)は近いと思う。
めんどいからなまぜに改名しようぜ
そういやluceneの読み方も物議を醸してたな。
Namazu後継で「なまこ」
あー、estraierはvuidierと韻を踏むのか。 じゃあエストライエルかエストレイェルだな。
ここは検索対象としない(インデックス作成を除外)の指定 Namazuの EXCLUDE_PATHに相当するオプションってあるのでしょうか?
エストライアーとかエストレイルかな。
>>50 EXC_DIR オプションスイッチ、
今のところ無いように見える。
indexingさす dir を明示して
とりあえずしのげ、つうことでわ。
>>52 ,53
-ipreは、無視するファイル名を書くようですね?。このディレクトリー以下全部除外。ってのは無理?
やはり、一個一個ディレクトリー指定していくほか無いようですね。
いやほら 403で見れなくしてても、namazuもそうだけど、お構いなしに database作って
大漏洩になっちゃうから・・
55 :
名無しさん@お腹いっぱい。 :04/11/14 23:31:15
希望の仕様をまとめてお願いしてみろよ。
>>54 prefixのpreだと思われる。だから、前方一致でヒットすれば無視されるはず。
まだインスコもしてないから判んないんだけど Namazu の --target-list み たいに find でファイルリスト作っといてそれを食わせるとかできないの?
>>58 thx。それが出来ればどうとでもなるよね。find の方が融通が効くからいろい
ろ指定したいときは Namazu でも find 使ってるな、俺。
断固として日本人が普通に読める名前への改名を要求する。
62 :
名無しさん@お腹いっぱい。 :04/11/15 16:40:59
df ってなんて読むんですか。
>断固として日本人が普通に読める名前への改名を要求する。 儂の妄想:〜いろんな名称・呼び方で紛糾。最終的に「Nanashi」で定着〜
コート脱いだらハワイの Estraier 萌え
えすたん
67 :
名無しさん@お腹いっぱい。 :04/11/16 13:07:25
試しに入れてみたけど、estraierめちゃくちゃいいじゃん。
68 :
名無しさん@お腹いっぱい。 :04/11/16 14:23:45
estindex: QDBM does not feature iconv と言い出して動かなくなってしまった。
ふむ 以前、 >% estindex register test > >としてみると > >: >estindex: INFO: ./rfc3675.txt: registered: id=138 wnum=0 >estindex: INFO: test: database closing: fsiz=755995 dnum=35 wnum=0 bnum=114667 >estindex: INFO: test: writing meta information: fsiz=755995 dnum=35 wnum=0 bnum=114667 >estindex: INFO: test: registration completed successfully > >となるのは、これはどこか変なんだよな? とポストした者だが、その後1.2.15にバージョンアップしたところ >estindex: QDBM does not feature iconv >と言い出して動かなくなってしまった。 ということのようだ。同様の人はいませんか? どこが壊れてるんだろう??
>>68 メッセージ通りだと思われ。
configure のオプションはどうしてる?
qdbm は estraier 付属のもの使ってる? 別途入れてる?
うちは FreeBSD の ports で入れたら同じこと言われたんで、
確認したら別途インスコされた qdbm に --enable-iconv が
入ってなかったんで直したよ。
じゃあ、改名しなくてもいいから作者は読み方を決めろ。
Senと書いてChihiroと読むように Estraierと書いてSnatcherと読む。
73 :
名無しさん@お腹いっぱい。 :04/11/16 18:59:03
>>72 良いね、スナッチャー。響きも良いし、軽快に動くイメージとも相性よさげ。
「えすとれいや〜」はナンだか変形メカみたいなイメージが…。
ガシ、ガシ、シャキーン!ってカンジ<次世代検索メカ・エストレイヤー
>>70 情報ありがとう。
est*もqdbmも消してest*から依存性で両方インストールしなおしたり
してもだめだから、libiconvまわりを疑っていた。
あれこれやってみて、
# portupgrade -f -m 'CONFIGURE_ARGS+=--enable-iconv CONFIGURE_ARGS+=--enable-zlib databases/qdbm
したらあっさり動いたなり。
要するに、FreeBSDのportsのestraierは、動く状態になっていないと
いうことで最終解答?
JavaScriptなしでアンカーにtarget指定できないもんでしょうか? decanc: target="_blank" みたいな。
SnatcherってEstraierの昔の名前だよね? コナミっぽくてアレだけど。
OSXに入れてみた。+kakasi, +mecab ともに問題なく動いた。(最初、mecabの 辞書をUTF8にしてしまってはまったのは内緒だ。)序でに、 darwinportsの Portfileも書いた。茶筅は昔、試したときにコンパイル出きんかったんで手を つけてない。
これからは慧須都霊留とよんでください。
80 :
名無しさん@お腹いっぱい。 :04/11/17 12:33:15
>>78 乙カレー。
漏れもPBに入れてみるかのぉ。
OpenOfficeのファイルを検索対象にするにはどうすればいいですか?
>>81 unzipとperl5.8以上かlvあたりありゃ出来るんじゃない?
>>82 81じゃないけど、感動した。
gzipじゃないので、zcatができないのが辛いけど。
84 :
名無しさん@お腹いっぱい。 :04/11/20 15:23:52
> 要するに、FreeBSDのportsのestraierは、動く状態になっていないと > いうことで最終解答? どうもそうらしい。QDBMのportsの作りなおし希望!
windowsに入れてみたかったけれどよくわからなかったので、 Google DeskTop Searchにしてしまいました。 # UNIX系のツールは敷居が高くて難しいよ。
Google Desktop Search が Unixで動いても よいんだがそうじゃないわけで。
87 :
名無しさん@お腹いっぱい。 :04/11/23 02:52:45
メールボックス(Sylpheed)の検索に使っているのですが、新しくメールが届いた 時に、新着の分だけインデックスに登録することってできますか? 今のところcronでやってるのですが、やっぱりすぐ反映された方が便利なわけで、、、
ポーリングすりゃいいじゃん。
89 :
名無しさん@お腹いっぱい。 :04/11/23 13:20:21
受信箱直下にある状態でインデックスしても、すぐ移動されてしまうので意味がない。 どうせなら、フォルダに振り分けたのをトリガーにしてestindexが発動してほしいな。
fetchmailで取りこむときにインデクサ動かせばいいんじゃなーい?
そんなんでインデクサ?
ライブラリベースでメーラーに組み込めるようになっていたらいいのになあ。 Matzさんが作ってるメールオーガナイザーはQDBMを直接使っているんだっけ。
メールオーガナイザーはなんで公開されないんだ?
96 :
名無しさん@お腹いっぱい。 :04/11/30 21:22:27
estはGPLじゃなかったっけ?
というかGPL=何でも公開という誤った認識はさっさと捨てろ。 バイナリを頒布しない限りはソースの入手可能性を保証する義務は生じないぞ。 そうでないとプライバシーの権利を損ねることになるからだ。
一見さんお断りのお店みたいなもんだな。 馴染み客に紹介してもらえば出入りできるようになる。 ただ一見さんお断りの場合は紹介者の信用が担保となるので でたらめな新しい客は入ってこないんだが、 GPLのバイナリ頒布は再配布にリスクが伴わないのが問題だな。
binary頒布しても、ハンドアセンブルして 16進ダンプを 打ち込んだと主張すれば source開示しなくていいですか?
Namazuじゃなくてこれを使う意味ってなにかあるの?
>>101 多分こっちの方がよくできている。
Namazuのアドバンテージはフィルタが豊富なことぐらいかな。
googleのPageRankみたいな機能は特許でいれられないの?
>>101 つーかもはやNamazuを使う理由がないよな。
以前両方入れてみたけど、結局namazuを使ってるな...
多少の性能差よりも枯れ慣れノウハウ蓄積の方が 価値を持つ傾向のある世界だからね。
あの憶えにくい独自の命名に、作者のわがまま……っていうのは 言いすぎか……ええと、まわりを見ずにわが道を行きそうという 不安感を憶えるので、躊躇してしまうんだよな。
我が道を行った方がいいんじゃねえの? 他と同じだったら存在価値ないし。
>>111 Namazuのことかestraierのことかどっち?
作者が我が道を見失ったらお終いだろ
アイデンティティを失ったらおしまい。 周りが見えなくなったら地下に埋もれる。
116 :
名無しさん@お腹いっぱい。 :04/12/02 17:54:39
>>111 一時期のリリース速度がはんぱじゃなかったから、安定してない気はしてしまうよな。
最近は落ち着いてきたみたいだけど。
あと、仕様書にある
>Estraierのバージョンが上がる際には、古いバージョンで作成した転置インデッ
>クスの互換性は保証されない。
ってあたりも、つっ走り感を漂わせてるかも。
117 :
名無しさん@お腹いっぱい。 :04/12/02 18:14:19
作者の気まぐれでオタオタするのはもうごめんだしなあ。
作者がBAKAなんだっけ
作者って、問題がある人なの?
人はだれでも問題を抱えているものさ。
>>119 日本人は日本人をけなすのが大好き。それだけだろ。
mew-nmz で使えまつか?
ちなみに、BSDライセンスだから公開する気はない。
>>119 バッドノウハウ等の頭の悪い文書を書いた人
嫉み、乙
GPLでも自分だけで使ってるぶんには公開する必要ないよ。
同じ指摘が繰り返されてる罠
商品にするわけでもないだろうから、公開したって損はないだろうに。
存在しないものは公開できないよな。
135 :
名無しさん@お腹いっぱい。 :04/12/08 14:29:08
FreeBSDのportsの今日のアップデートで、 qdbmにiconvサポートが入り、 そしてest*のmecabサポートがFreeBSD5.*以上で のみ指定可能なオプションに格下げ。 注意されたし。
136 :
名無しさん@お腹いっぱい。 :04/12/08 15:49:59
デフォルトの属性として title や author はあるのですが オリジナルの属性の定義って出来ますか?
authorにCSVかなんか適当に突っ込んで、表示する時に切り分ければ?
138 :
名無しさん@お腹いっぱい。 :05/01/02 22:52:28
CygwinでないWin版は出ねーの?
>>138 誰かがパッチ書けばね。QDBMの方はNative Win32に対応してるべ。
140 :
名無しさん@お腹いっぱい。 :05/01/03 01:32:24
141 :
名無しさん@お腹いっぱい。 :05/02/07 11:51:07
1.2.26リリースage
namazu に比べてはやっていない気がするけど、なんでだろう?
Namazuの方が何年も前に出ているし、当時は他に強力な競合ソフトがほとんど なかったから。
144 :
名無しさん@お腹いっぱい。 :05/02/09 16:29:28
作者のblogによると、 時期バージョンはN-gram式になるらしい。
動詞っぽいからエストレエ(-er動詞のrは発音しない)だと思っていた。
146 :
名無しさん@お腹いっぱい。 :05/03/13 19:40:53
s/E// するとセントレアみたい。
148 :
名無しさん@お腹いっぱい。 :2005/03/29(火) 19:58:11 ID:
なんか変な風に煮詰まってないか? 作者氏。
将来的にはどうか知らんけど、 とりあえずソフトはちゃんと 動くんだから良しとする。 Namazu にも頑張ってもらいたい。 選択肢が複数あるいうのは大切。
150 :
名無しさん@お腹いっぱい。 :2005/04/07(木) 13:46:13
凄く良い! namazuのindexをコンバートできないかな・・・ それと、googleみたいなページ切り替えにしたいな 前へ 123・・・ 戻る こんな感じで。。
ライブラリだし、スクリプト言語のバインディングも提供されるようだから そのへんは好きにできるだろう。 インデックスのコンバートはどうか知らないが、多分難しいとおもう。 namazuは出現位置の情報はもってないんじゃなかったっけ。あと隣接チェックとかも。
欲を出すとgoogleキャッシュみたいにヒットしたキーワードを 反転させて表示するリンクも欲しい。
namazuの様にINDEXをパラメータで変更出来ないのですか? <input type="hidden" name="idxname" value="XXX"> マニュアル見た感じCGIではパラメータがないようです。 Serverはindexname(だったかな)パラメータ持ってました。
>>154 estmerge.cgi 使えばイイんでない?
>>155 名前がマージなんで結合してしまうので。。
serverを動かすしかないのか。
ソースに手を入れるか・・・
157 :
名無しさん@お腹いっぱい。 :2005/04/08(金) 14:20:16
>>155 メタ検索の対象となるestsearch.cgiをチェックボックスで
選択できるから、それは個々のestsearch.cgiが担っているインデックスを
選択しているのと同じことだろう、ってことでしょ?
>>157 ありがとうございます。
マニュアルに書いてます??
相当読んだんですが気付かなかったです。
結論
estmerge.cgi
を使う。
159 :
157 :2005/04/08(金) 15:43:07
あまり詳しくは書いてないみたいですね。 試しに動かしてみたら意外に便利だったという感じ。
160 :
名無しさん@お腹いっぱい。 :2005/04/08(金) 16:34:16
recipientやauthorで検索ってどうすればいいんだろう?
どのエンジンも一長一短でやはりエンジンを一つ決めて自作するしかないな。
エンジンは鯰よりも早くて良いな。 IF(単純なHTML)の自由度がないのが惜しい。
163 :
名無しさん@お腹いっぱい。 :2005/04/09(土) 16:35:42
>>160 estindex register -tattr recipient -tattr author ...
とかやればいんじゃね?
164 :
名無しさん@お腹いっぱい。 :2005/04/10(日) 19:20:31
subversionのレポジトリの中身を、ワーキングコピーに取り出さずに うまいことsvn cat とかsvn lsとかだけ使ってestindexに食わせるこ とはできるでしょうか。
166 :
名無しさん@お腹いっぱい。 :2005/04/13(水) 19:24:58
短い識別子でないとダメって今時珍しい人だな。
Hyper estraier がリリースされたね。 さて、APIをながめてみるか。
170 :
168 :2005/04/16(土) 16:06:38
>>169 thx。
んで、estraierとhyper-eでのindexは全く別モノ?
共存さすのは無問題?
インデックスは別物だろう。 共存は別にできるんでないの。
デふぉだとindexは同じcasketつう名前の フォルダの中にできるわけだが。
デフォっつーか、インデックス名は引数で指定してるだけじゃん。 違う名前にすればOK。
174 :
名無しさん@お腹いっぱい。 :2005/04/17(日) 20:06:05
hyper-eいいね。対応フォーマットを増やしてくれるともっといい。
フィルタは簡単に書けるんじゃない? rastと違ってDB作成時に属性を決める必要がないみたいで便利そう。
フィルタ増やすというよりLuceneみたいにいろんなアプリに組み込めると面白そう。
>>176 libestraier.so は飾りじゃありませんよ。
APIドキュメントが早く欲しいところ。
つ【doxygen,gtk-doc】
え、引数の意味を自分で調べてその上でわざわざDoxygenタグを自分で書けと? ドキュメントを待つか、ヘッダファイルだけでぶっつけ本番でやった方が いいとおもうけど。
ドキュメントはAPI freezeしてからでいいかも。 しかしautomakeもlibtoolも使ってないのか。
そいつぁいいや
autoconfすら使ってないzlibみたいなのもあるんだし、別にいいんじゃない?
コンパイルするときは便利だと思うが自分で書こうとすると 嫌になる。 バッドノウハウのかたまりだもんな。>autoconf一味
コンパイルするときも邪魔だと思うが、 バッドノウハウとかいう人はもっとウザい。
185 :
名無しさん@お腹いっぱい。 :2005/04/19(火) 10:08:12
APIドキュメントも出たね。rastより簡単そうかな。
そう? rastよりもずいぶんと低レベルで複雑じゃない?とおもったら意図的にやってたのか、、バインディングを書いてもいいと思ってたけど、ノードAPIが出るまで待つか、、
全文検索のようにスケールに敏感な機能の場合、ある程度低水準の方が使いやすいことない? 内部で勝手にMutex使われていると性能が出なかったりして、API自体をいじらないといけなくなる。 本家にパッチ送って反映待ちになるのも面倒いから、自分で好きにいじれる方が、、、
rastとsennaの話題はここですか?
>>187 スケーラビリティの点から見るとたしかに日記に書いてあるような
サーバークライアント方式の導入は正しいように思えるね。
mnogosearch見たいな感じになるのかしらん。
やっぱノードAPI待ちかな。それともTigerが出たらSpotlightとSearchKitに
浮気しようかな。正直迷うな
すげー、Windows版が出とる。
>>190 サーバ方式にしてもスケーラビリティは上がらないんじゃない?
検索速度は上がるかもしれないけど、ネットワークの負荷を考えると微妙。
ネットワーク遅延はデータベース検索においてそれほど大きな問題じゃない と思うよ。そもそもデータベースのスケールによらず一定だし。 コアAPIの守備範囲であるローカルホストならなおさらじゃない?
確かにそうかも。 それと、DBとは別のマシンでアプリケーションを動かせだろうから、フィルタと登録を パイプライン的にやれば効率いいかもね。 秒速104文書登録ってのをどこまで維持できるかが見もの。
195 :
名無しさん@お腹いっぱい。 :2005/05/02(月) 10:13:17
rast 0.1.0キター
Estraier と HyperestraierとCGIの検索スピード比べると、 大体Hyper...のほうが倍くらい早いかなて感じだ(当社比)。
197 :
名無しさん@お腹いっぱい。 :2005/05/02(月) 20:23:55
唐突に出てきた「CGI」という謎の実体について。
HyperestraierをCGIとして使った場合の速度>Estraier をCGIとして使った場合の速度 ってことでわ?
検索インターフェイスってwebしかないの? コンソールとXで動くやつもあると嬉しいんだが。
ライブラリ使ってなんとかしろ。
201 :
名無しさん@お腹いっぱい。 :2005/05/03(火) 12:37:35
インクリメンタルな全文検索インターフェースを頼む。
Hyperestraierでestcmd gatherするとき、 sym link をdereferenceしないようにお願い したいんだが、どうすれば良い?
中の人に言えば?
204 :
202 :2005/05/04(水) 20:12:26
static const char *pathtourl() のなかで
realpath()を呼んでるからだ、つうとこまでは分かった
んだが、絶対パスに展開するのやめさすと各方面に
色々面倒が起きそうな希ガス。
>>203 の言うとおり、作者に頼むしかないかな。
APIの呼び方さえ変えなければ特に問題ないと思うけど。 MLに投げれば対応してくれるかも。
206 :
名無しさん@お腹いっぱい。 :2005/05/08(日) 11:02:50
mboxファイル用のフィルタはないですか?
>>201 高林さんとかの JavaScript を参考に組めば出来ると思うけど、
たぶんめっちゃおもくなるとおもわれ。
209 :
名無しさん@お腹いっぱい。 :2005/05/08(日) 20:59:06
210 :
名無しさん@お腹いっぱい。 :2005/05/08(日) 21:01:23
>>207 > 高林さんとかの JavaScript を参考に組めば出来ると思うけど、
> たぶんめっちゃおもくなるとおもわれ。
migemoのアイデアって、1990年ころに、プライベートな
研究会で見たことがあるよ。いや、べつにそっちの方が
先だとか言いたいわけではない。みんな同じことを考え
ていたんだということ。で、「たぶんめっちゃおもくな
るとおもわれ」とコメントされ、それで終わっていた。
212 :
名無しさん@お腹いっぱい。 :2005/05/08(日) 22:30:05
Ajax風に難しいことをやるのでなければ、 onChangeイベントでsubmitするだけでしょ? たぶんめっちゃおもくなるとおもわれるけど。
前に Ajax でリクエストをばんばん飛ばすスクリプト書いたけど、結構レスポンス良かったよ。 ただ、インクリメンタルにする意義が感じられなくて結局使ってないけど。
214 :
名無しさん@お腹いっぱい。 :2005/05/08(日) 22:42:49
インクリメンタル検索って、オモチャとしては面白いけど、実用的ではないよね。 エディタで使うみたいに、一個のファイルの中をインクリメンタル検索するのは便利 なんだけど、不特定多数の文書をファイルを対象にた場合は意味がない。 インクリメンタルである利点は、前後関係が確定している場合にのみ享受できる。
エディタでも実用的じゃないし
インクリメンタルなんてほしがるのは素人だけ。 あれは単なるけばけばしい包装、はなばなしいだけの ファンファーレ。 そんなものをほしがるやつには、UNIXを使う資格はない。
プログラマなら、エディタのインクリメンタル検索は使いまくる と思うんだけど、みんなは違うの?
目と頭が付いていけないから使ってない 俺の言う事を最後まで聞け(ゴルァ と思う事多し 動的なインターフェイスは使用者に掛かる負荷が大きいんだよね 何も考えずにインクリメンタルサーチ使える人は正直感心する
んなこと言ってたら自動車の運転もできないじゃん。
220 :
名無しさん@お腹いっぱい。 :2005/05/09(月) 01:27:21
これは複数サーバ(or ディスク)を使って分散処理を行う事は出来るの? チュートリアルにそれに関した記述が見当たらなかったんだけどやっぱり無いのかな。
estの方はできるでしょ。hyperの方は知らない。
222 :
名無しさん@お腹いっぱい。 :2005/05/10(火) 11:37:13
自分でインデックスを更新するのでなく、新しく保存したファイルを自動検知 してその分だけ更新するようにできないかな。
223 :
名無しさん@お腹いっぱい。 :2005/05/10(火) 12:03:00
新しいかどうかを検査する負荷もバカにならないから現実的じゃ無い気も。
>>224 そう思うなら、口を閉じて引っ込んでろ。
226 :
名無しさん@お腹いっぱい。 :2005/05/10(火) 13:34:10
228 :
222 :2005/05/10(火) 14:26:13
>>226 どうもです。でもプログラミングしないといけないのは辛いですね。
過去1時間に更新された更新ファイルのパスのリストがどっかのファイル
に記録されているような仕様だったら嬉しいのですが。
あ、ちなみに225は私じゃないですよ。
>>226 Beagleは使える環境の場合はInotifyを使うみたい。
dnotifyだと指定したディレクトリ直下しか見れなかったけど、 inotifyでもそこんとこは変わってないよね? 監視対象を再帰的に広げるよりは、定期的にfindした方が負荷が小さいような。
>>231 そう思うなら、口を閉じて引っ込んでろ。
233 :
名無しさん@お腹いっぱい。 :2005/05/10(火) 16:40:20
>>231 軽量高速な更新検出手段の探求/実現が必要ですねッ!!
高速じゃなくてもいいなら、適当にsleepして軽量にすることは可能だろう。 明示的に更新を通知する手段と、更新頻度が高い場所は巡回頻度も高めると いった工夫を併用すればかなり使いやすくなるんじゃない?
>>232 そうカリカリすんなよ。歯痛にでもなったか?
あとOracleのFull-Text Searchは専用のデーモンを立ち上げて監視させる 仕組みになってたと思う。
ファイルシステムから作ればいいんだっ!!
>>238 わかった。全部お前にまかすわ。あとはよろしくな。
240 :
名無しさん@お腹いっぱい。 :2005/05/11(水) 18:24:58
あと重要なのは、特定の格納形式/更新形式を持つファイル群を ハンドリングするプラグインを扱う枠組みだな。
>>240 わかった。そっちはお前にまかすわ。あとはよろしくな。
APIがあるからアプリケーション主導で開発できるわけで、 プラグイン機構は不要だと思われる。 それよりPerlかRubyのバインディングを早く出してほしい。
243 :
名無しさん@お腹いっぱい。 :2005/05/11(水) 19:57:37
>>242 いや、じゃなくて、新しい文書扱いシステムを作った側が、
検索エンジンがそれを効率良く扱えるように
一連の設定やプログラミングを行なう枠組みが
いるのではないかという話だ。
244 :
242 :2005/05/11(水) 22:48:38
なるほど。 更新処理をトリガとして関数が呼ばれる仕組みが大抵のDBには備わっているけど、 一般的な文書扱いシステムではどうなんだろう。
監視対象のディレクトリがわかっているなら、そのディレクトリに対して select() かけることで対応できないかなあ。
それだとcreatとunlinkは検出できるけど、writeが検出できなくない?
日本製全文検索が開発中のもよう
Rast: A full-text search system
ttp://www.netlab.jp/rast/ ●検索対象となる文書の分野や言語を選ばない
テキストデータを n 個の文字の並びである N-gram に分割して検索を行うため,「検索漏れが生じない」,「辞書の整備が必要ない」という特徴がある N-gram 方式を選べます.
これにより,検索対象となる文書の分野や言語を選ばずに広く利用することができます.
●多様なファイル形式への対応
HTML や Microsoft Word といった多様なファイル形式の文書からテキストデータやタイトルや作成日などの属性情報を抽出し,検索対象にできます.
●全文検索ライブラリの提供
C 言語と Ruby で利用可能な全文検索ライブラリを提供することにより,本ソフトウェアを利用した全文検索を行うアプリケーションを開発することができます.
さらに,ライブラリの利用例として,過去のメールを全文検索できる電子メールソフトを開発します.
●インクリメンタルな文書の追加登録
作成したデータベースに対して,インクリメンタルに文書の追加登録ができます.このため,一度作成したデータベースを作成し直す必要がありません.
誰か試して
精度とかはまだまだ。euc-jpだとutf-8にくらべてバグが多い気がする。 C APIを提供してるわりにクライアントライブラリまでGPLなのはちょっと痛い。 せめてXMLRPCの仕様を公開してほしいが、だったらEstraierのノードAPIを 待った方が幸せになれそう。 Matzのお膝元のnetlabで開発してるので、Rubyを使ったアプリケーションが いろいろ出回ってきたら面白くなるのかもしれない。
Rubyがどうしたとかテストにはtcl使ってね
とか言われた時点でもう、センスつうか趣味
つうか合わないを思いますわ、パスですわ
>>247
250 :
名無しさん@お腹いっぱい。 :2005/05/14(土) 17:18:49
Javaだったらよかったのにね。
252 :
名無しさん@お腹いっぱい。 :2005/05/14(土) 20:45:23
hyperestraier 0.3.8 コンパイルしないな。 ML archive も落ちてる。
「QDBMのバージョンが古い」に一票 >> 253
255 :
253 :2005/05/15(日) 07:59:47
256 :
254 :2005/05/17(火) 00:09:15
俺もはまったからさ。
インクリメンタル検索がサポートされたね
>>258 SUGEEEEEEEEEEE!!!!!!!
rastをCygwinで構築出来た人いる?
261 :
名無しさん@お腹いっぱい。 :2005/05/31(火) 23:04:02
OpenSearch対応してくんないかな
今日から金曜まで東京ビッグサイトで開催中の LinuxConference では、 6/2 13:00〜 「全文検索システム Rast の設計と実装」 6/3 10:00〜 「全文検索 BOF」 などという企画をやってる。
げ、昨日か… (;´Д`)ハァ
264 :
名無しさん@お腹いっぱい。 :2005/06/04(土) 23:10:40
Googleの文字が全部四角になってしまいました。 (□←ばかり)どうしてか教えてください。
坊やだからさ。
どうすれば大人になれますか?
>>266 「電車男」という映画を見に行くとなにかヒントが得られるかもしれません。
噂通り、インデックス作成がやたら速いね。 並列化できればGoogleとかに匹敵するんじゃないか?
>262 全文検索BOFでは、NAMAZU開発者とRast開発者とHyper Estraierの開発者が 一堂に会して、開発思想とかを語ってくれた。 ただ、2時間もあった割には突っ込んだ話ができず、薄かった感じがする。
270 :
名無しさん@お腹いっぱい。 :2005/06/10(金) 22:35:21
コアAPIのバインディングかぁ... Rastと違ってAPIがリモートとローカルで違うらしいから、 やっぱノードAPIを待った方がいいんじゃないかと思う。
パフォーマンスを考えるとコアAPI使って自分でサーバ書いた方がよかないか。 RubyとかだとHTTPサーバのツールキットもあるわけだし。
HTTPd を自前で実装する、というときにパフォーマンスを考えるならスクリプト言語の バインディングをわざわざ選ぶかなぁ? むしろスクリプトで書いたプログラムにいちいちサーバ立てるのやってらんないという 面倒くさがり向きなんじゃないの。
いや、HTTPdを実装すること自体にスクリプト言語が向いていると思う。 Cでなんてやってられない。
そうかなぁ... libapr とか使ってみれば? ちょうどいいから rast のソースでも読んでみなよ。 といいながらも ruby が楽しくなりつつある今日この頃です。
APRはやばいでしょ。 WEBrick+HyperEstraierとかWEBrick+Rastってのが強力かつ簡単でよさげ。
これってCygwinでも動きますか?
279 :
名無しさん@お腹いっぱい。 :2005/06/24(金) 07:37:52
もうでさぽ
>.279 open/closeシステムコールをを監視してスポットライト風にインクリメンタルアップデートが できると面白そう。ガンガレ。 まずは更新があったファイルを指定するとその情報のみをアップデートする機能が 必要だな。既存のものだと全部を指定してアップデートする方法しか用意されてないからな。
>> 281 いちお、estcmdに-sd -cm 付けてるです。 だから全更新してもタイムスタンプの新しいやつ以外はスキップされるですよ。
>>281 namazuにしろなんにしろ従来のは全更新しかなかったと思うんだよね。
だから、逆に一部更新はできるのかと。
編集した利用者ならどこを編集したかわかっているわけだから全更新して
全部のディレクトリをなめる時間待たされるよりも更新した箇所を指定して
updateできたほうがよくない?
んで、その上でシステムコールを監視してスポットライト風アップデートですよ。
システムコールの監視はカーネルに手を入れるかアプリをVM上で動かすか しないと難しいんじゃない? いずれにしても、オーバーヘッドがでかくなってしまう。 移植性の問題もあるし。 よく更新されるディレクトリの監視頻度を上げるのと、ユーザが明示的に更新を指示 をするのを併用すれば実用上は十分だと思うけど。メールボックスとかだったら、アプ リケーションのプラグインかなんかで更新ロジックを組み込めるといいね。
カーネルまで触らなくても、ファイルシステムに細工をすればできるんじゃないか。 Windowsじゃ無理だけど、UNIX系ならそのへん独立してるし。 WinFSには全文検索っぽい機能が組み込まれているというウワサも聞いたけど、 どうなんでしょ。
>>283 Hyper Estraierは、ディレクトリでなくファイルそのものを指定して
インデックスに登録できるよ。
>>284 famを使い、特に指定されたディレクトリだけ監視。
移植性と監視コストの問題はfamに丸投げして、各プラットフォームに最適
なアルゴリズムで監視できる事を期待。
更新された時に即座に更新だと確かにオーバヘッドが大きすぎなんで、
遅延してある程度のまとめ更新するデーモンをniceしておけば実用的な
範囲に収まるっぽくね?
いくらなんでも、数分前に更新した文書くらい探さなくても判るだろ。
それより問題は、インデックスをユーザ毎に持つと重複が多すぎるって
事だな。サイズもそうだけど、オーバーヘッドも整数倍になる。
業務の書類とかmanページを探したい時なんか完全に重複だね。
インデックス中の文書データに対するパーミッションをなんとかして、
システムグローバルなインデックス&検索機能のデーモン化をしないと
現実的でないような気がしてきた。
>>285 ファイルシステムオーバーライドするのは面白そうなんで、
LUFS使って簡単に実装しようと思ったけど、
/usr をすげかえる気にならないし、対象ディレクトリが増えた時に
fstabの構成変えるのも馬鹿らしいので廃棄処分にしますた。
数分前に更新した文書っていうけど、自分が更新したとは限らないのが問題。 事実、どっかからダウンロードしてきた文書をすぐに全文検索したくなる ことは多い。それを考えると、やっぱり手動更新指示の機能もほしいよね? Hyper Estraierの更新処理は異常に速いから、検索窓の横に「更新」ボタンを つけておいて、結構気軽に更新をかけさせても実用になると思う。 ラジカセのメタファを使って、「再生(右向きの三角)」で検索をして、 「録音(丸)」で更新をして、「停止(四角)」で検索や更新の停止をして、 負荷状態を音圧っぽく表現するというのも面白いかもね。
>>288 ...目的のファイルが判ってるなら、grepした方が早いような気がする...
でもまぁ、同時ログインしてる別ユーザもいるから、確かに遅延はかなり小さく
しないと厳しい状況がありうるだろうね。
更新ボタンを置くのはいい考えなので、Quick build機能付けるよ。
>>286 デスクトップ検索アプリを目指すなら、マルチユーザのインデックスの共有はそれほど考え
なくてもいいんじゃね?
自分のホームディレクトリを対象にしたインデックスさえ作れればほとんどのユーザは満足
でしょ。デーモン走らせないと使えないのは初心者向けでないような気がするよ。
副次的な機能として、他人のインデックスをリードオンリーで開けるようにして、チェック
ボックスをオンにすればそこの結果もマージして表示できるといいかも。
つまり他人のインデックスを更新できる必要はないってこと。
manとかの共有物のインデックスはrootで最初に作っておいて、/var 以下においておけば
いいんじゃない? その更新もわざわざデーモンにしないで、cron実行で十分でしょ。
291 :
名無しさん@お腹いっぱい。 :2005/07/06(水) 20:47:50
>>290 基本的にはそうなんだけどさ。
manなら問題ないけど。rootで作ると、本来ユーザに読み込み権限の無いファイルも検索
できて、要約も見えちゃうわけじゃん。
かといって、権限単位にインデックス作るというのも現実的でないし。
業務用の、たとえ共有ディレクトリに入っている技術経歴書とか、仕様書とかを対象と考えた時、
細かい制限ができないと問題だと思ったわけ。
つーわけで、ホームユーザには間違いなく十分だけど、職場で活用となると問題があるわけよ。
試してないけど、
> 副次的な機能として、他人のインデックスをリードオンリーで開けるようにして、チェック
> ボックスをオンにすればそこの結果もマージして表示できるといいかも。
これは現段階でできるような気がする。
今現在、検索用にはDBをリードオンリーで開いてるし、マージもデフォルトだし。
Hyper Estraierはリードオンリーで複数プロセスがオープンしても平気だし。
ってか、みんなのところでちゃんとビルドできてる?、、、って、だれも試してませんか、そうですか。
見せたくないファイルはインデックスに入れないようにするしかないんじゃないか? 一般ユーザの読み込み権限(S_IROTH)がついているファイルだけ読み込むように すれば大抵は大丈夫だと思うけど。
>>286 > Hyper Estraierは、ディレクトリでなくファイルそのものを指定して
>インデックスに登録できるよ。
・・・できないんですけど?
>第3引数としてファイル名を指定すると、そのファイルから処理対象のパスのリストを読み込みます。
って書いてあるし・・・
>> 293 そのリストにファイル名書くんだよ。 find . -name '*.txt' | estcmd gather オプション インデックス -
295 :
名無しさん@お腹いっぱい。 :2005/07/12(火) 00:26:37
howmはこっちをサポートしてくれるといいんだけどね。 Cygwinを使えるし。
Hyperの方ってCygwinじゃなくてネイティブのWin32じゃなかったっけ? Cygwinでも動くのかなぁ。
> Hyper Estraierの最終目的はP2P型の分散処理に支えられた高速で高精度な検索システムを構築することですが、 そうだったのカー (AA略
298 :
名無しさん@お腹いっぱい。 :2005/07/17(日) 03:20:26
ノードAPIキターーーー(゚∀゚)ーーーー!
299 :
名無しさん@お腹いっぱい。 :2005/07/17(日) 20:23:17
namazuの改良したいんですが、キーワード毎に重み付けするような プログラムってどうすればいいかわかりますか?? 調べてもわかんないです。本でもなんでも教えてほしいです。。。
301 :
299 :2005/07/17(日) 21:48:42
うーん、estmasterが動かないなぁ。 libsocketって何だろう?
ソケットのライブラリだろ。LD_LIBRARY_PATHがおかしいんじゃない?
>>303 アドバイスどうも。libsocketはソケットの抽象化ライブラリみたいだね。
ふつーのglibcソケットだけでも大丈夫みたいだけど。
起動はするが、ポートを叩いてもうんともすんとも言わないという状況だから、
ダイナミックロード関係じゃなさそう。ちなみにOSX(panther)の話ね。
Debianならあっさり動いたからDebianホストでestmasterを動かす事にするよ。
305 :
名無しさん@お腹いっぱい。 :2005/07/22(金) 22:32:56
こんなとこにアナウンスしてもしょーがないでしょ。 FreshMeatとかSourceForgeに登録したら?
sargeで使ってみようとしたら必要としてるライブラリのバージョンが 新しすぎで無理だった。>gdestraier
308 :
名無しさん@お腹いっぱい。 :2005/07/25(月) 20:23:32
java版APIも出たねぇ。 デスクトップ検索もJavaで作った方がいいんじゃねの? クライアントは多少重くても問題ない。その上でさらにアプレット みたいなプラグインを動作させられるようにすれば、Spotlightに対抗でき るかもよ。
309 :
名無しさん@お腹いっぱい。 :2005/07/25(月) 20:29:10
>>308 > java版APIも出たねぇ。
> デスクトップ検索もJavaで作った方がいいんじゃねの?
そんな事したら、死に体になってしまう。
310 :
名無しさん@お腹いっぱい。 :2005/07/25(月) 21:18:43
ライブラリのバージョンは、とりあえず手元のsidに入ってるやつ参照しただけなんで、
下げても大丈夫だと思う。
とりあえず、sarge準備して試してみますわ。
>>308 重いにも限度があると思う。
起動がトロかったり、フットプリントが許容できても、サクサク間がでないと。
もっとも、いま現在は単一スレッドで要約まで出してるから、サクサクとは言いがたいけど。
目標は、nautilusでディレクトリたどるより手軽に絞りこみ検索できる事。
きょうびのPCのパワーならJavaでもサクサク動くと思うが。 つーか移植性が確保できる(LinuxでもWindowsでもMacでも動く)のが重要だろ。 sargeやら何やらのレベルで非互換がでてるようじゃ流行らないと思われ。
>>311 実際に試せばわかると思うが「サクサク動かない」よ。
>>311 意味不明。Javaって、必要なランタイムライブラリがインストールされてなかったり、
バージョンが適合しなくても問題無いって?
起動はサクサクしないだろうけど、そんなに遅いわけでもないだろう。 実装テクニックの問題だったりしないか?
テクニック云々以前にJVMの起動が遅いんでしょ。 もしかして最近は違うの?(><)
316 :
315 :2005/07/27(水) 07:42:59
すまん。寝惚けてた orz
Write once, Debug anywhere.
JRE入れるのは.NET Frameworkを入れるのと同じようなもんで、大抵のユーザは 抵抗なくやってくれるでしょ。J2SEのコアライブラリ以外に必要なランタイムが あったとしても、それも同梱してしまえばいい。 別にJavaマンセーと言うつもりはないけど、GNOMEやGTK+のバージョンの違いに 悩まされるのは普通のユーザには耐え難いことだよ。依存関係が連鎖している から、作業途中で嫌になってやめてしまう人が多いと思う。かくいう俺もそれで gdestraierの利用を断念した。 もしもDegianやVineなどのディストリビューションに標準採用されたとしたら、 そういう苦労はほとんどなくなるかもしれないが。
gnome よりは java のほうがまだましだけど,とりあえずコマンドラインで使 えるようにしてくれないと不便だにゃぁ.cgi から叩きたい時もあるし.
コマンドラインのツールならHyper Estraier自身に含まれてるじゃん。
Java って Debian だと non-free 扱いじゃなかったっけ?
kaffeとかgcjとかで動くならmainにいけるよ。
>>318 作者がコミュニティを小さく保ちたいとは考えていないとか、
windows進出でgoogledesktopなどと張り合う事を考えている
という前提はそもそも正しいの?
ところで、
>>304 の問題は0.5.1で解決した。
いまはest_free_net_env()してからest_init_net_env()するとSEGVるので
悩んでいる。
324 :
318 :2005/07/27(水) 22:39:59
>>323 張り合うっつーか、公開するぐらいだから、ユーザは多い方が嬉しい
かなと思って書いただけ。本当のところは作者氏の弁を待つしか。
みなさまはじめまして 最近「Estraier」なるものの存在に気づき社内のデータの検索エンジンをWindows ベースで構築できないかと考えているものでございます。 ここ最近Windowsバイナリが公開されまして早速つかってみました。検索スピード に驚くばかりでこれはかなりイケてるなと思ったのですが、やはりn-gram検索の スコアでは検索時にTOPに出てほしいものがでてきてくれません。 そこでインデックスを何とかして指定したもののスコアをあげたいのですが、やはり そういうことは難しいのでしょうか?スコアをいじること自体がn-gramの検索の精神 に反していることは理解しているのですが、なんとかしてスコアを補正して特定の ものを検索の最初にヒットさせたいのです。 これは「Estraier」の問題ではないと思いますが 特定のファイルをスコアの重みを 調整する術はないものでしょうか?(たとえばたくさんのアクセスがあったファイル は最初の方に表示したいというものです) 皆様のお知恵をお貸しいただければ幸いです WindowsXP+Apache1系+estraier-1.2.28-win32
全てをEstraierにやらせる必要もないだろう。 文章にキーワードを設定しておいて、それと一致するものは Estraierによる検索結果「よりも先に」表示させるとか。
>>325 スピードが遅くなってもいいのなら、実際いろんな方法があると思うけど。
内部に手を入れてスコア計算をいじくるのもいいし、hyperのAPIで出力結果をバッファして
なんらかのヒューリスティックなソートを掛けるのもいいと思う。
特定のキーワードにだけ高く反応してほしいなら、hiddenテキストに
そのキーワードをたくさん書いておけばtf/idfスコアは当然高くなるよね.
ああ、estraierに隠しテキストはあったっけ?
たくさんアクセスがあるものを上にするという場合、アクセスログを取る仕組みは 既にあるか、自前で作るんだよね。 ならば、アクセス数をDBでカウントして、10アクセスとか100アクセス毎にその文 書の更新をかけて、その際にアクセス数を属性としてつければいい。検索する際に は、アクセス数をソート条件にすればいい。
>>328 皆様ご回答ありがとうございます。
アクセスログを取る仕組みに関してはログからなんとかいけそうな気配なんですが
理解力がなくアクセス数を属性としてつける部分がよくわかっていないのです。
ドキュメントには
estcmd gatherで特定ディレクトリのインデックスをつくるところまでは理解できたの
ですが、そこから特定なファイルにのみ属性情報をつける方法が分からないのです。
前身のEstraierではestindex registerでできるようなことが見受けられるのですが、
今回のHyperEstraierでは特定ファイルに対する属性情報(アクセスの頻度による
表示の重み)はどうやってつければいいのでしょうか?
例えば重みを数値(一番先に表示したいものは1000とかその次は999とか)で表現
できると表示順を制御しやすいのですが
またその際にソートは「属性情報(表示の重み)」・「n-gramによるスコア」という順序
でソートがかかるのでしょうか?
教えて君で申し訳ありませんが皆様のお知恵をお貸しいただければ幸いです。
estcmd putでできるのではないでしょうか。
>>329 0.5.3のestcmdならいちいちドラフト形式にしたりせずにできるんじゃないの。
あとn-gramはスコアの計算方法じゃないよ。
スコア計算はtf/idfで、namazuなんかと基本的にいっしょ。
>>331 > 0.5.3のestcmdならいちいちドラフト形式にしたりせずにできるんじゃないの。
使用しているのは0.5.1のWindowsバイナリ版でした。
そのドキュメントには
estcmd put [-cl] db [file]
となっていて属性を指定するようなオプションがないようなのです。(T_T
0.5.3では330さんがおっしゃるようにできるのでしょうか・・・
> あとn-gramはスコアの計算方法じゃないよ。
よく読むとそうでした。よく理解しないで用語をつかっていました。(^^;
estcmd putを使う場合はドラフト形式を作らなきゃだめだよ。 対象のファイルに対して、拡張子に応じてestcmd draftとかestxfilt.batで テキストを抽出するとともに、先頭に「title=あいうえお」というような属性定義 をするその一部として、「myscore=10000」みたいにスコアを属性としてつければ いいと思う。検索する時には順序の指定で「myscore NUMD」にすればmyscoreの大き い順番で並べられると思うよ。 331の言うように、0.5.3からは、estcmd gather(-pxオプション?)を使えばドラ フト形式を使わなくても属性の指定ができるようになったような希ガス。
>>333 とんちんかんな質問をしているのに、詳しくご教授いただきありがとうございます。m(_ _)m
なんとなくですがわかったような気がします。(^^;
一括登録では属性を「myscore=0」などにしておいてestcmd gather -px で一括登録
し、その後、上位に表示させたい特定ファイルのみオリジナルファイルを「@myscore=1000」
などをつけたドラフト形式に変換しestcmd putで1件づつ登録という流れになるということですね。
まだ、いまいちドラフト形式にするところがよく分かっていないのですが、ドキュメントに指定され
ているようなドラフト形式
@uri=
http://www.hogehoge.jp/hogehoge.html @title=hogetest
@cdate=2005-08-01T00:00:00+09:00
@mdate=2005-08-01T00:00:00+09:00
@myscore=1000
上記のような形式をファイルのどの部分に記載すればいいのでしょうか?
文字コードはUTF8で、ファイルの末尾にアペンドするということでいいのでしょうか?
そもそもドラフト文書への変換用としてestcmd draftがあるみたいに記載があるのですが、
WEBから取得してきたHTMLファイルなどをこのコマンドで変換した場合は、単に文字コードを
自動で判別してUTF8に変換して出力するだけ?の機能なのでしょうか
コマンドの引数では属性を指定したりはできないのでいまいち使い方がわかりません(^^;
estcmd putで属性登録に関する部分もサポートしてもらえるといいかんじになりそうなんですが・・・
いま最新のバイナリみたらWindows版も0.5.3があがってました。最近、勢力的に開発を
されているようで今後に期待です。調べてみたらおっしゃるような(-px)オプションが
追加されていました。
メールの書式と同じような感じで、属性定義の下に空行をあけてから、普通のテキストを
書くみたいです。
@uri=
http://www.hogehoge.jp/hogehoge.html @title=hogetest
@myscore=1000
近所のラーメン屋さんを探してみませんか?
Google ローカルでお試しください
estcmd draftはHTMLのタグを外してから、タイトルなどの属性も抽出したドラフトを作って
くれます。文字コードもUTF-8にしてくれるみたいです。
estcmd putを使わなくても、estcmd gatherにファイルのリストを読み込ませれば登録できる
と思いますよ。estcmd gather abc list.txt を実行すると list.txt からファイル名と属性
のリストを読み込んでくれるはずです。
私はメーリングリストの過去記事の検索システムをHyper Estraierで作って使っているのです
が、属性をいくつかつけたいので、全部の記事の文書ドラフトをいったん作ってから読み込ま
せています。-pxオプションがあればその苦労をしないで済むようになりそうです。
>>335 > estcmd putを使わなくても、estcmd gatherにファイルのリストを読み込ませれば登録できる
> と思いますよ。estcmd gather abc list.txt を実行すると list.txt からファイル名と属性
> のリストを読み込んでくれるはずです。
迅速なレスありがとうございます。なるほどです。1件の登録であってもリストをつくって登録すれば
estcmd putに機能をもたせなくてもいいということですね。(^^;
ちなみにそのリストファイルの書式ってどんな感じになりますでしょうか?
ドキュメントの読み方があまいかもしれませんが、このあたりの情報はどちらにありますでしょうか?
ほんと教えて君ですいません。m(_ _L
リストの形式はタブ区切りです。最初の項目がURLで、次の項目以降が属性です。 C:\data\000001.txtを登録する際に、@uriがfile://C|/data/000001.txtで、 @titleがABCDEで、myscoreが1000なら、 C:\data\000001.txt file://C|/data/hogehoge ABCDE 1000 というリストになると思います。空白の部分はタブ1個であけてください。 これを list.txt として保存したなら、 estcmd gather -ft -px @uri -px @title -px myscore casket list.txt を実行すれば登録できると思います。登録対象がテキストでなくWordなどの場合は -ft のかわりに -fx でフィルタを指定することになると思います。
>>337 ありがとうございます。さっそくやってみます。
この辺の情報も付属のドキュメントに記載があるのでしょうか?
ドキュメントの読みが浅くてみなさまにご迷惑をおかけしているようで(^^;
339 :
名無しさん@お腹いっぱい。 :2005/08/03(水) 11:50:56
> -pxはパスのリストから読み取る属性名を指定します。パスのリストはTSV形式 > にすることができ、第1フィールドは対象文書のパス名、第2フィールド以降は > 属性値の定義として扱われます。-pxによって第2フィールド以降に対応する属 > 性名を定義します。このオプションは複数回指定できます。 って書いてあるよ。この説明から337の用法まで思い付くのは大変だと思うが。 Windows版のインストール方法も含めて詳しく説明した解説サイトがあればいい のにね。 ついでに良スレage
>>339 > Windows版のインストール方法も含めて詳しく説明した解説サイトがあればいい
> のにね。
いいだしっぺの法則 ズサー
>>342 あんがとでした^−^ なんとか読めるとです。
344 :
名無しさん@お腹いっぱい。 :2005/08/15(月) 02:07:13
hyperestraier 0.5.4 age
RPM作ってくれないかな。
ports作ってくれないかな。
>>346 ,367
どっかに転がってるんぢゃね?
Gentoo Portageにはある。DarwinPortsには、鹿版がある。
ChangeLog に載ってない変更はやめてくれぇ...orz ESTCONDUSUってUSUALのことだったのかYo!
0.9リリースage
351 :
名無しさん@お腹いっぱい。 :2005/09/22(木) 00:20:41
あげ忘れた
一気にヴァージョン上がったね。 でも win32 バイナリ来てないよ、(´・ω・`)ショボーン
353 :
名無しさん@お腹いっぱい。 :2005/09/26(月) 02:51:57
今は、関係ないかもね
Hyper Estraier Win32なんで板違いっぽいけど 検索するディレクトリ書いたファイル読み込ませて index作成ってのがどうしてもできないのヨ。 どなたか、オレはこれでできとるがな、という コマンドラインの書式をイッパツ晒してくれませんでしょうか。
>>354 うちは出来てるヨ(オプションはてけとー)
> estcmd.exe gather -cl -ft -ic euc-jp -il ja -sd -cm casket filelist.lst
「検索するディレクトリ書いた」というより「検索するファイルリスト自体」じゃないとダメなのかも
検索結果に htmlファイルの<TITLE></TITLE>を表示したいのですが どのようにしたら良いでしょうか。
こっちもWindowsのHyper Estraierなんですが estcmd out ってちゃんと使えてますか? dbの部分でどうしてもエラーが出ます。 C:\cygwin\home\ore>estcmd out casket file:///C:/cygwin/home/ore/html/2004.5.3.html estcmd: INFO: status: name=casket dnum=74 wnum=31721 fsiz=4617468 crnum=0 csiz=0 dknum=0 estcmd: ERROR: casket: no such item estcmd: INFO: closing: name=casket dnum=74 wnum=31721 fsiz=4617468 crnum=0 csiz= 0 dknum=0 casketが作成したindexのディレクトリ。同じ場所で estcmd search ごにょごにょ casket "検索文字"ならちゃんと動くし エラーメッセージ一行目では認識しときながら二行目では no such itemになってるのがよくわからないんですが。
>>358 out はあまりテストしてみたくないので、
> estcmd list casket
で ID 取ってみて URI の代わりに ID でやってみては?
purge とかはふつーにうごいてるけどなあ。
360 :
358 :2005/09/28(水) 11:29:19
どうも。 file:///C:/cygwin/home/ore/html/.. ではだめで "file:///C|/cygwin/home/ore/html.." の方式でやればいいだけだったorz。 まさに板違い質問にて大変失礼。IDでもイケましたよ。
>>356 標準で表示されるような気がするんだけど。
362 :
名無しさん@お腹いっぱい。 :2005/09/29(木) 14:13:06
OpenSearch対応したみたいだな。ちょっといじってみるか。
win32 バイナリも出てるね。 週末は遊べそう…
なんか0.9.1に上げたらこれまでのindexが使えなくなってるんだけど そういうもの?Win32のバイナリっす
>>364 ホントやね。うちも泣く泣く作り直した。
以前も 0.3.x から 0.5.x に変わった時に更新したらおかしくなったなあ。
>>365 うう、うちだけじゃないのか…。
こればっかりはなんとかならんかねー
正式版が出るまでは続くと思うよ。 0.9.0っていうことはベータ的位置づけということなのだと思うけど... リリース計画がはっきりしてないから予想できないけどね。
ドキュメントにベータ版とはっきり書いてあるよ。 作者のブログではそろそろ1.0を出すって書いてあるけど、いつになるやら。
なんだかAtomに対応してみたり、次はWebのクローラとか作りたいみたいだから まだ新機能追加はありそう。なんだかんだで正式版はまだ先になりそうだね... いや、分割パッケージでだすのかなぁ? 開発日記よんでると長期計画なさそうだから本人も知らなさそうだ(w
長期計画があるOSSなんてなかなかあるもんじゃないけどね。 一般的なOSSの場合、開発完了はプロジェクトが生きているうちはないんじゃない?
それはその通りだけど、次のリリースに付け加えるべき機能と直すべきバグのリスト くらいは公開してくれるとありがたいな。本人にも役に立つだろうし、貢献もしやすい。
早いところGUIをつけてくれるとありがたい。
目指すは打倒Beagleでつか?
>これって、最後にインデックス対象のディレクトリ入れないとダメだよな。 本当だね。指摘しとこう。 >findで一気に登録してる人ってまたfindしなおして更新してるの? 漏れはディレクトリ毎に更新頻度が全然違うから、よく更新するとこだけ1日1回のcron にして、他は手動でやってる。
WebDAVなんて使っている香具師いるのかな
使ってはいないけれど、WinもMacも素のOSレベルで共有ディスクとして見えるから、 そこに何でも放り込んどきゃオッケーみたいな使い方は手軽で便利かもしれない。 んで、ノードAPI経由でローカルなデスクトップ検索なんかとP2Pでシームレスに検索 できますよ、ということじゃないのかな。 自信ないけどWinもWebDAVを共有ディスクとして見えたよねぇ?
>>379 > 自信ないけどWinもWebDAVを共有ディスクとして見えたよねぇ?
うむ、マイ ネットワークから "ネットワークプレイスの追加" で。
んでも、WebDAV のファイルサーバー利用って、samba でやるより
運用が面倒なのよね。
(ファイル名文字コード云々の話とか)
ACL も掛けにくいし、パフォーマンスが悪い。
381 :
名無しさん@お腹いっぱい。 :2005/10/11(火) 20:30:07
0.9.2リリースage もうすぐ1.0.0出そうだね。
382 :
名無しさん@お腹いっぱい。 :2005/10/12(水) 09:21:10
383 :
およよ :2005/10/15(土) 14:58:48
Estraierに登録する文書にリンクタグを属性としてつけて検索の結果に (detail画面ではなく検索結果画面で)そのリンクタグを表示することって できないでしょうか? つまりその文書にURIとは別に関連するURIを設定できるか?ってこと なんすけど(^^; リンクタグ自体を属性としてつけたいわけではないの ですが似たことを実現できると幅がひろがりそうなんですけど・・・ およよ
関連するURIは適当な属性として登録しておいて、estseek.confのextattrのところに その属性名を書いておけば表示されるよね。 リンクにしたいんだったら、estseek.tmplにJavaScript書いて、onloadで適当にHTML をいじればできそう。
385 :
名無しさん@お腹いっぱい。 :2005/10/17(月) 00:17:40
Hyper Estraier ver1.0.0 記念 age
出たか。おめ
正式版、安定版である旨書かれた場所がないんだが もう移行して大丈夫なんだろうか。 indexが使えなくなるのはもうやーよ。
「ベータです」という文言が削除されてるから安定版ってことでいいんじゃね?
「ベジータです」
>>390 開いてみたら相変わらず「まあ/.-Jだしな」な内容だったな。
p2p検索ってなにかうまい使い道あるのかねぇ。よーわからん。
クラサバよりも設置と管理が簡単
P2Pファイル共有ソフトに検索機能をつける事例はたまに見かけるが。
gentoo/amd64 あたりで簡単に動かんかの?
portageに入ってないっけ?64対応は知らんけど
デモサイトがAthlon64だから動くだろ
398 :
名無しさん@お腹いっぱい。 :2005/10/19(水) 00:57:46
私には関係ない
399 :
およよ :2005/10/19(水) 11:23:39
>>384 > 関連するURIは適当な属性として登録しておいて、estseek.confのextattrのところに
> その属性名を書いておけば表示されるよね。
> リンクにしたいんだったら、estseek.tmplにJavaScript書いて、onloadで適当にHTML
> をいじればできそう。
ありがとうございました。属性名の表示はできました。
だめもとでリンクを属性情報としてリンクタグを含んだ形で登録したのですがやっぱしだ
めでした。
> リンクにしたいんだったら、estseek.tmplにJavaScript書いて、onloadで適当にHTML
> をいじればできそう。
ってのがどうも (^^:;;
具体的にはどんなことをすればいんでしょうか?
なんかぜんぜん分かってなくてすいません。m(_ _)m
win32版だがPremature end of script headers: estseek.cgiが出て どうしても動かない。linux上では動かせたのに〜orz estseek.confが間違っていそうなんだが... インデックスはD:\indexに作成。対象ファイルはD:\testとすると、 indexname: D:/index lprefix: file:///D|/test でアカンのか?
>>399 そこらへんのカスタマイズって、
namazu よりもまだとっつきにくいと言うか難しいよね。
>>400 conf のなかみのミスだと、index not found だとかなんかなはず。
だから、たぶん dll がらみ。.
cgi と同じディレクトリに .dll を全部コピーしてみて。
>>401 レスサンクス。
まさにおっしゃる通りでした。
dllを%systemroot%system32に移動したら、問題なく動きました。
hyperestraierのバイナリの置いてあるディレクトリにはパスは
ちゃんと通してあったんですが、それではダメなようですね。
(付属のドキュメントにも、.exeや.dllのディレクトリにパス通せと
書いてあるだけですし。)
>>402 Apacheの実行ユーザとPathを設定したユーザが違うから、
パスが通ってなかったんじゃないの?
404 :
名無しさん@お腹いっぱい。 :2005/10/19(水) 12:49:56
>>399 <script type="text/javascript">function startup(){
var elem = document.getElementById('phrase');
if(elem){
elem.focus();
}
var elems = document.getElementsByTagName('span');
for(var i = 0; i < elems.length; i++){
var cname = elems[i].getAttribute('class');
if(!cname || cname != 'doc_val') continue;
var text = elems[i].firstChild.nodeValue;
if(text.indexOf('
http:// ') != 0) continue;
elems[i].innerHTML = '<a href="' + text + '">' + text + '</a>';
}
}
</script>
405 :
名無しさん@お腹いっぱい。 :2005/10/19(水) 12:51:07
estseek.confを上のように書き換えると、「
http:// 」で始まる属性値がリンクになるよ。
(その場合、属性値に「<a>」は不要)
406 :
およよ :2005/10/19(水) 13:35:55
>>405 さっそくのレスありがとうございます。 estseek.tmplのほうでいんですよね(^^;
属性名「Link」で設定してインデックスを作り直してestseek.tmplに追加後検索結果ソースをみてみると
<dd class="doc_attr">Link: <span class="doc_val">
http://www.hogehoge.jp/</span ></dd>
という部分が出力されていました。ご掲載いただいたソースはclassが「doc_val」で「
http:// 」で始まる部分
をみつけたらそのテキスト部分を書き換えるってことだと思うんですがどうもうまくいかないんです。
本当は
<dd class="doc_attr">Link: <span class="doc_val"><a href ="
http://www.hogehoge.jp/ ">
http://www.hogehoge.jp/</a ></span></dd>
と出力されるということでよろしいでしょうか?
407 :
およよ :2005/10/19(水) 13:48:00
>>406 すいません。追記ですが <script type="text/javascript">function startup(){ をいれる位置は
<script type="text/javascript">function startup(){
var elem = document.getElementById('phrase');
if(elem){
elem.focus();
}
var elems = document.getElementsByTagName('span');
for(var i = 0; i < elems.length; i++){
var cname = elems[i].getAttribute('class');
if(!cname || cname != 'doc_val') continue;
var text = elems[i].firstChild.nodeValue;
if(text.indexOf('
http:// ') != 0) continue;
elems[i].innerHTML = '<a href="' + text + '">' + text + '</a>';
}
}
</script>
</head>
<body onload="startup();">
<!--ESTFORM-->
<!--ESTRESULT-->
</body>
</html>
です。
408 :
404 :2005/10/19(水) 14:04:47
xyzzy の Estraier-Mode, > (qでヌケます) ちょと ワロタ
右手派ってこと
411 :
およよ :2005/10/20(木) 09:25:31
>>408 板違いスンマソン
こちらでも調べてみたんですが やはり火狐ではうまく表示されるんですがIEだとうまくいかないようです。
スクリプトタグをを入れる位置など調整してしてるんですが・・・(^^;
IEで読み込み時にでるスクリプトにエラーがある際の左下のエラーメッセージは表示されていないので
スクリプトの文法エラーは考えにくいですね。
>>407 var cname = elems[i].getAttribute('class');
IE だとこれが null 。 elems[i].className を使用すれば解決
414 :
およよ :2005/10/20(木) 11:49:03
>>413 ご指摘のとおりですた。 \^^/
うー jscript・javascriptの違いってことなのでしょうか
このへんもWEB共通仕様でなくていろんな開発者がないている部分なんでしょうね。
いろいろ 板の方々ありがとうございました。
pgestraier には期待してるんだけど現状では pg_rast のほうが使いやすいね。 ただ Hyper Estraier と Rast の間には IPA の期間中にそれなりの結果を出し、 その後になるけど正式版もリリースできたという越えられない壁が。
同じインタフェースでpg_estraierを作れないかな。
419 :
名無しさん@お腹いっぱい。 :2005/10/21(金) 15:09:06
FreeBSDのhyper estのportって、おかしくありません? qdbmを再インストールしようとして失敗するのでqdbmを再インストールしてみても、 やっぱり再インストールしようとして失敗する。
420 :
名無しさん@お腹いっぱい。 :2005/10/21(金) 15:52:21
1.0.1が出たね。開発速度がすごい。
421 :
名無しさん@お腹いっぱい。 :2005/10/21(金) 16:32:08
>>419 うちはおかしくないけど (FreeBSD 4.8) 。
423 :
名無しさん@お腹いっぱい。 :2005/10/23(日) 13:13:44
デスクトップ検索ってホントに流行ってるの? GDS も入れてみたけど、目的の文書が効率よく見つかったってことが、 全然無くて、結局消しちゃったよ。
経験的にローカルに置いてるファイルの数が多いほど必要性が増してくる。
426 :
名無しさん@お腹いっぱい。 :2005/10/23(日) 20:34:13
>>424 > デスクトップ検索ってホントに流行ってるの?
> GDS も入れてみたけど、目的の文書が効率よく見つかったってことが、
> 全然無くて、結局消しちゃったよ。
原因あっての結果、準備あっての成果なんだと思う。
デスクトップ検索が可能であることを前提に情報の配置、すなわち
ローカルマシンへの情報の蓄積を行なうようになってしばらく経った後、
その威力が次第に明らかになっていくのだと思う。
ただ今のところP2Pを生かした使い道があまりなさそうな気も。 P2Pのファイル共有ソフトに検索機能をつけるとかそのくらい? まあGoogleのような大富豪な検索サービスにFLOSSの検索エンジンで対抗するなら 分散型にするしかないんだろうけど。
あー、wikiやblogをnodeAPI経由で検索できるようにさえしておけば、 対応している世界中のwikiを一発で検索できる、とか? で、検索にはestmasterと通信できる好みのUIを使えばよろしい、と。 あとはwikiにつよいリンクの張り方しているノードとか、blogにつよいノードとか、 または公開されている文書なら何でもかんでもリンク張ってるノードとか 緩やかな文書内容によるクラスタを形成して、気分で変えれるようになるといいね。 どっちゃにしても、管理する文書が多くないと夢は広がらんが。 ここは一丁、アプリ書く?
アイデアとしては面白いけど、色々なリソースの無駄だと思う
OSS開発者にそれをいうのはアホ。 minixのコピーをしこしこ作っていたフィンランドのnerd大学院生にも言ってやればよかったのに。 きっと君の先見の明に感銘を受けたはずだ。
賛成。全部googleに任せておけばいいんだよ。
P2Pって各ホストがバラバラに保有してるindex情報を 共有できるようになるってことでんがな。 図書館の蔵書検索みたいなもんだべ。
スラドでGoogle信者が珍しく騒がないなーと思ったら こんなとこ来たよ。
434 :
名無しさん@お腹いっぱい。 :2005/10/24(月) 03:21:46
>>431 賛成。平林さんも Google に任せておけばいいんだよ。
436 :
名無しさん@お腹いっぱい。 :2005/10/24(月) 03:26:33
っていうか、P2Pするにはどういう用件が必要なんだ? ときどき接続の自宅マシンでできるの?
>>430 が自分が良いこと言った、とか思ってたら笑う。
>>436 それで出来なくはないけど、リンクは静的に設定するから常時立ち上げておかないと意味なさげ。
検索だけならべつにかまわないけど。
>>433 スラドで騒ぐのはマカー。Googleマンセーよりさらに質の悪い連中。
>>436 P2Pノードを自分で立てたら、既存の別のノードか中央のサーバに自分のアドレスとポートを
通知する仕組みが必要だろうね。estの作者がそこまで考えてるかどうかは知らないけど。
P2Pでウンチクのなりそこない垂れてるヤツ
いいかげんドキュメント嫁
ホスト同士の通信のしくみもつくらずP2Pなわけねーだろ
>>440
自分専用のノードマスタを立てて、検索はそいつ経由で行って、気に入った文書があれば 自分のノードにESTDOCをコピーするようにすればブックマークはいらんようになるかもしれんね。 そういう使い方ならかならずしも常時立ち上げる必要は無いし。 でも、いまでもGoogleがあるからブックマークは使わないという人もいるから、 それ以上のメリットがあるかどうかは不明。自分で順位を操作できたり、属性を加えられるのが どれくらい嬉しいのかどうかわからん。
443 :
およよ :2005/10/25(火) 19:39:23
すんまそん。ちとだけフォローをおねがいできますでしょうか? estcmd gather -ft -px @uri -px @title -px point -px link casket c:\list.txt みたいに設定した場合で 「@title」や別の属性名例えば「comment」などに日本語を設定して estseek.cgiで検索すると文字化けしてしまうんですが、なんか指定が足りないのでしょうか? この場合インデックスに追加しているファイル群の文字コードはばらばらなのですが それが原因なのでしょうか?
list.txt の文字コードが SJIS だからじゃない? UTF-8 で保存し直してやってみたらどうでしょう。
445 :
sage :2005/10/25(火) 22:24:48
あたらしいdebパッケージまだかよ〜
ageてもうた
447 :
およよ :2005/10/26(水) 11:56:25
>>444 ご指摘のとおりですた。UTFにしたらいけますたー。 (^^;
list.txtのウィンドウズマシンのVBでプログラムをつくっていたので文字コードが原因ですた。
お騒がせしました。m(_ _
Win版バイナリを使っています。 ファイル名も検索できるようにしたいと思うのですが、%ESTORIGFILE%環境変数を利用して、 filenamefilt.bat echo off echo %ESTORIGFILE% として、 カレントディレクトリにあるmogeディレクトリに含まれる拡張子が.hogeの全てのファイル名を、 カレントディレクトリのcasketへ、次のコマンドでインデックスさせようとしているのですが うまく行きません。 estcmd gather -cl -fx .hoge T@filenamefilt -fz -fo ^ -pc CP932 -sd -cm casket moge インデックスはされているようなのですが、やはりファイル名では検索できません。 どのようにすればよいのでしょうか?
450 :
およよ :2005/10/26(水) 18:33:11
>>444 すませんです。もひとつにたような話なのですが
estseek.confに今回属性として表示したかった「link」という項目名「extattr」を追加し、
下記のように記述したのですが、追加した属性自体は出力されているのですが、表示名
とした日本語がうまく表示されないのです。「リンク先がこちら」の部分は文字化けしてし
まいます。上の経緯もありましたので 小躍りしながら設定ファイルをUTF8で保存したの
ですが追加するとapacheから内部エラー500で呼び出せなくなってしまいました(^^;
設定部分
extattr: link|リンク先はこちら
属性名の表示名称に日本語は難しいのでしょうか?
extattr: link|LinkHere
などはちゃんと表示されているんですが・・・
Windows 版 1.0.1 に脆弱性 1.0.2 にあげてね。だって。
452 :
名無しさん@お腹いっぱい。 :2005/10/28(金) 15:49:19
この手のシステムでの脆弱性は嫌だね。 メジャーになればなるほど攻撃される可能性が増えてしまう。
しかもP2Pで一蓮托生
ネットワークアプリケーションの宿命だけどな。
今日、BerliOSのトップページを見たらTop Project Downloadsのところに "(666) YaCy P2P Web-Search"というのが出ていた。で、思ったんだけど P2Pの検索エンジンは結構需要あるんじゃまいか?
456 :
名無しさん@お腹いっぱい。 :2005/10/29(土) 01:09:48
cloud9はどうなったんだろう? P2P検索エンジンがビジネスサイドの方で話題になった頃に どういう議論がなされて、どういう経過を辿って、そして 消え去ったのか調べてみると良いのではないかな?
HyperEstraierは単体でも十分機能するように作ってあるところが評価できると思う。 分散処理の形態としては、P2Pというより、バス型ネットワークのトポロジーで運用 するのが流行りそうな予感。
458 :
名無しさん@お腹いっぱい。 :2005/10/30(日) 00:56:03
あほな質問すまん。 Hyperがあるのと無いのってどう違うの? P2P対応か否か?
記録方式が 分かち書き/N-gram というのも大きな違いだね。 でもやっぱり最大の違いがノードAPIであるのは間違いない。 HTTP ベースで管理できるということは コアAPI または コアAPIを使った言語バインディング を使わなくても 簡単に全文検索機能を持ったアプリケーションを開発できるということで、これは素晴らしいと思う。 もともとは P2P のために作られたのかもしれないけど、P2P で利用しなくても全文検索サーバだけを別に立てて運用できるし コンソール、GUI、Webアプリ等々、異なるフロントエンドから同じインデックスを利用できたりと、かなり面白い。
逆にestmergeにあたるコマンドが見当たらないんだが。 分けたindexを取りまとめて扱うのにはestmasterを使わなきゃいけないのは ちょっと残念。 サーバープロセスとしてはメモリ食いすぎてないか?> estmaster
462 :
名無しさん@お腹いっぱい。 :2005/10/31(月) 03:27:17
_confを編集すればメモリ使用量はある程度調整できるよ
>>460 mikioタソの日記を見ると形態素解析の価値も認めているから、tokenizerはLucene同様
入れ替え可能になったりして。つか、N-gramはCJKではそこそこ使えるけど、タイ語とか
インド諸言語などの場合はどうなんだろ?
464 :
名無しさん@お腹いっぱい。 :2005/10/31(月) 16:43:22
日本語のページのタイトルが「超迷子: 共同体的全文検索系」になっている件について
>>463 Unicodeに文字が入ってるなら問題はないんじゃない?
NグラムのNをいくつにするかは言語ごとに最適値があると思うけど、
性能(速度とDBのサイズ)がちょっと違うだけで、精度はいずれにしても一緒。
n-gramのnを変えたら空間の大きさも精度もちょっとどころでは済まない違いに なると思うが……。
その辺のバランスをいろいろと考慮した結果が現状の 2.2-gram であり、将来採用されるかもしれない 3.2-gram なんだよね。
>>466 N-gramの時点で再現率(= 実際に検索された文書数 / 論理的な適合文書数 )は100%だし、
Nを変えても精度(= 検索結果中の適合文書数 / 実際に検索された文書数 )は変わらんやろ。
469 :
463 :2005/10/31(月) 21:44:39
まあ俺もタイ語やインド諸言語に詳しいわけじゃないからあれだけど。
>>468 それが真なら欧米言語でstemmingやっても効果がゼロの筈だよな。
ステミング使うのは、空白で切るトークナイザの場合でしょ。 N-gramでやる必要はあんまりない。語幹だけ入力すれば検索できるから。
ブーリアン検索しか頭にない奴ばっかりか、このスレ。
474 :
名無しさん@お腹いっぱい。 :2005/11/01(火) 21:08:07
1.0.3リリースage
>>473 >>468 とか。
情報検索の適合文書というのはクエリの本来の目的に対して定められるので
n-gramの時点で再現率が100%とかいってる時点でおかしい。
世の中にはブーリアン検索しか検索モデルが存在しないとでも思っていないと
468が満たされるような適合文書の定義にはならない。
検索モデルとしてブーリアン検索しか存在してないってのは偽だが、 ブーリアン検索が最もポピュラーなモデルであることは真だろ。 特に断りがなければブーリアン検索を前提として議論しているって事態 別におかしいことでも何でもない。
ブーリアンが最もポピュラーという前提も非常に疑わしいが、 たとえそうだとしても検索モデルと独立に意味を定義された指標の定義を 変えるのは全くおかしいと思うが。
478 :
名無しさん@お腹いっぱい。 :2005/11/07(月) 10:46:43
1.0.4出たね。ますますGoogleっぽくなってる。
そろそろGoogleが作者氏を吸収同化しようと触手を伸ばしはじめているかもかも。
高林氏はGoogle入りしちゃったしね。
DesktopHEオモロイね。 Javaで書かれてるなら、ちょっといじればUNIXでも動きそうだな。 ソース公開してくれればいいのに。
482 :
名無しさん@お腹いっぱい。 :2005/11/10(木) 01:07:31
導入してみた。クリップがすごい便利! ローカルの文書って似たのがたくさんヒットして結果が見づらかったけど、 これならきちんと整理して表示されるから非常に見やすい。
1.0.5 sage
超迷子: 天上天下最速最強佛恥義理全文検索系夜露死苦
( ゚Д゚)ポカーン 文字化けかと思たーよ。
486 :
名無しさん@お腹いっぱい。 :2005/11/13(日) 17:41:50
>>487 > ちなみに高林氏の友人でもあるPRIME作者の小松弘幸氏もGoogleで
> インターンやっていたらしい。
アメリカ留学時にインターンやって、帰国してGoogle入りしたんでしょ。
489 :
名無しさん@お腹いっぱい。 :2005/11/18(金) 01:53:59
1.0.6リリースage 正規表現サポートの模様
>>489 今 ML で話題になってるけど(つかこんな時間に流れてくるとわ…)
またちょっと互換性問題があるみたいね。
超弩級迷子になっている件
絶対遊んでいるだろ
494 :
名無しさん@お腹いっぱい。 :2005/11/25(金) 10:23:52
ブログ見てると、そろそろMeCabもサポートされそうな勢いだね。 本当に10倍速くなったらすごいな。
495 :
名無しさん@お腹いっぱい。 :2005/11/29(火) 11:07:55
なまずからはどうやって乗り換えればいいんですか?
>>495 まず、HyperEstraierのドキュメントを読み、書いてある手順にしたがってインストールする。
それから、ナマズが対象にしていたファイルのインデックスをHyperEstraierで作りなおす。
497 :
名無しさん@お腹いっぱい。 :2005/11/30(水) 22:35:59
HyperEstaraier関係での質問なのですが,
replaceの正規表現による置換で,前方参照の書き方がわかりません.
replace: ^file:///home/hoge/diary/html/([0-9]{4})/([0-9]{\
4})\.html{{!}}
http://hoge.example/diary/\1\2.html のような置換が書きたいです.
どのように書けばよいでしょうか.
なにか良い方法がありましたら,よろしくお願いします.
>>497 ほんとだ。出来ると思って試してみたら \1 とかだめだね。
mod_rewrite で誤魔化すしかなさそう。
replace: は(たぶん)上から評価されていくから、お馬鹿な方法なんだけれども
replace: ^file:///home/hoge/diary/html/{{!}}
http://hoge.example/diary/ replace: 1999/{{!}}1999
replace: 2000/{{!}}2000
replace: 2001/{{!}}2001
…
って延々やっていくとか。
regex 使える前はこれしか実際出来なかったし。
レスありがとうございます.
他に$1なども試しては見たのですが無理でした.
とりあえず,
>>498 さんの方法を使わせていただき,
前方参照の方法に対応したら,そちらを使うことにします.
ありがとうございました.
estcmd gatherの-pxオプションで登録時にURLを指定すればいいんじゃない? find /home/hoge/diary/html -type -f -name '*.html' -print | perl -e ' while(<>){ chomp($_); printf("%s", $_); $_ =~ s/([0-9]+)\/([0-9]+)\.html$/\1\2.html/; print $_; }' | estcmd gather -il ja -fh -px @uri casket -
>>500 ほぅ、@uri に格納すればできたのかー
知らなかった。
>>500 ありがとうございます.
もとの属性を変えてしまう,という方法ですね.
勉強になります.
503 :
名無しさん@お腹いっぱい。 :2005/12/01(木) 00:42:20
作者氏が、だれかEmacsインターフェース作って〜と呼びかけていますね。 着手した人はいますか?
てかEmacsだと検索式入力がミニバッファくらいしか思い浮かばず萎える。 estcmdじか打ちのスクリプト組んでgnome-terminalみたいなURIをリンクとして 読んでくれるターミナル使ったほうがよさげだし UNIX環境ならelispアプリにする必要性を感じなかったな
そりゃ単にあんたの好みの問題だろう
ミニバッファだからこそ使い易いんじゃないかな。 Firefoxの検索機能も今はミニバッファになったでしょ。 思考停止時間を最小にするのが目的だと思われ。 結果表示画面もEmacsならではの操作性にできるなら最高だ。 Mewとかと連携することもできるかもね。
507 :
名無しさん@お腹いっぱい。 :2005/12/01(木) 10:31:41
検索UIも欲しいけど、それより、ChangeLogをインデックスに登録するようにしてくれないかな。 ファイル全体を文書にするんでなくて、個々のエントリを文書として扱ってほしい。 セーブする時に古いファイルとdiffとればどこのエントリが更新されたかわかるはずだから、 更新されたエントリだけを登録するようにできそう。
508 :
754 :2005/12/01(木) 10:37:52
満足した瞬間、人は死にはじめるのである。
510 :
名無しさん@お腹いっぱい。 :2005/12/01(木) 19:41:33
511 :
名無しさん@お腹いっぱい。 :2005/12/11(日) 02:34:19
ver1.1.1 age
残念なお知らせ インデックスの互換性がぬぁい orz
これ,更新履歴はどうやって見れる? WEBにはまとまった履歴があがってないし, ChangeLogにはソースコードの変更が書かれているだけ. 普通の人が意味のわかるChangeLogならまだしも, これは作った人以外には理解不能でしょう.
全然違うだろ Webから参照できるだけど大違いだし、ソースレベルではない変更が書かれているし、 アップグレードに関することは別の文書としてまとまっているし。
開発者は一度はGNU coding standardを読むべし。 何から何まで真似する必要はないけど。
たぶん、作者の人はAPIを開発のメインと考えているようなので、 普通の人むけのChangeLogはあまり重要と考えていないんじゃないかな。 ああいうChangeLogはソースのdiffと一緒に読んでねっていうノリだからね。 なんつーかオープンソースならではってことでおおらかに構えるか、 またはMLで情報の集積場所が欲しいとか訴えてみれば? 手伝うっていえば喜ぶでしょ しかしApache Projectと比べてサポートが劣っているていうはかわいそうだよ...
ChangeLogはソースコードの変更箇所を特定するためのものであって、 機能説明をするものではない。必要十分な情報を簡潔に書くのがよいとされる。 エンドユーザにわかるようにだらだら書くのはむしろ間違いだろ。
520 :
名無しさん@お腹いっぱい。 :2005/12/11(日) 12:25:43
問題なのは、へたにChangeLog書き強制圧力をかけたりすると、 作者の意欲が減退したりポンと消失したりすることがあることである。 まわりの人がサポートするケースのように思える。 メーリングリストとやらのメンバーたちは何をやっているのか? クレクレ君の集まりなのか?
誰もChangeLog形式で書けとは言ってない 形式は問わず、もう少し上のレベルの更新履歴が欲しいと言ってるだけ それがChangeLogの形式で提供されててもいいかね、という程度 ChangeLogにしろ、という話ではない
つか、ブログ見ればすごい詳しく書いてあるだ。
暗いと不平を言う前に、自分で火を放ちましょう。
estcmd extkeys -um casket はデータベースを更新するたびに呼んだほうがいいのかな?
どうやらそのようですね. 2回目以降は更新のあったものだけが処理される風味.
527 :
名無しさん@お腹いっぱい。 :2005/12/11(日) 14:50:26
>>525 多分そう。
ほとんどの項目は passed になるからそんなに時間かからないっぽ。
528 :
527 :2005/12/11(日) 14:51:07
すまん。かぶった。
>>522 ブログにしか書いてなく、しかもそれがWebサイトからでは
容易には辿り着けないことを問題としてるんだろう。
情報があっても、そこへの誘導が皆無であれば無いのと同じこと。
更新履歴の執筆なんかに力を入れるよりも、この調子でガンガン開発を続けて いってほしい気がするけど。
別に履歴に力を入れろとは言わないが、情報をまとめて欲しい。 なぜそこで履歴に力を入れることになってるのか疑問。
じゃ、「力を入れる」は「気をつかう」に修正。
533 :
名無しさん@お腹いっぱい。 :2005/12/11(日) 18:15:30
だからこういうパターンでは、周辺がサポートすることで 対応するのが一般的な方法論だって。
一般的 キタコレ
いやだからblogに書いているようなことをトップから辿れるようにすればいいだけの話でしょ なんでそうやって論点をズラそうとするんだか
じゃぁ更新があったらMLでその都度聞けば? そういう奴がウザいと思ったらきっとだれかが更新履歴とか、ブログの記事をまとめ始めるでしょ。 自分でやるのが嫌でも、そのくらいならできるでしょ。 煽りのつもりじゃないぞ
他人がまとめたってそれじゃ作者のblogと同レベルかそれ以下だろう。 てか、なんでそこまで履歴を分かりやすくすることに否定的なのか意味が分からん。
意外と本人がこのスレを見て芸風をあっさり変えたりしてな。
なんでそこまで履歴に拘るのかも意味分からん。
>>537 とりあえず更新のたびに関連するブログのエントリへのリンクのリストを並べるだけでいいじゃん。
おれも個人的にはなぜそこまでくわしい履歴が欲しいのかCとRuby経由からしか
使ってないからよくわからん。
だがアプリケーションとして普及させるならサポートは厚い方がいいに決まってるよね。
しかし、作者は全文検索アプリのためのAPIとして見てほしくて、インターフェイスは単なるデモ
みたいな発言をしていたよ。
それが不満なら...作者に直接声の届くmlか、直接メールするかして、
その上で作者が乗り気でないなら乗り換えるしかない気がするが。
ああ、いやもちろんプロジェクトをフォークする自由は常にある。LGPLだからね。
アプリであろうとAPIであろうと、バージョンアップしたのなら どこがどう変わったのか知りたいと思うのは普通じゃないの? その変更点がWebから簡単に参照できればよいね、ってだけの話でしょ。
変更の目的を逐一書いたり, ある変更点と別の変更点との関係を書いたりする必要はありません. 変更についての説明が必要だと思うこともあるでしょう. その場合,おそらくその通りでしょう. 大いに説明を書いてください. ただし,その説明は,プログラム中にコメント文として書いてください. そうすれば,プログラムを読む人は必ずそのコメント文を見ることになるからです. 例えば,関数を 一個追加したとき,変更履歴には "New function" と書けば充分です.その関数が何をする関数かの 説明はソースコード中で, その関数の定義の前にコメントとして書かれているはずだからです.
だから、 ソースを読まずにChangeLogだけ読んで、「こんなんじゃ書いた本人しか分からん」 というのは筋違いだし、クレクレ君の典型だ。541の要求はもっともだが、そういう 書き出しから始まっているあたりが反感を買ったんだろう。
論点をずらそうとしているのか、それとも論点を分かっていないのか…
blogはWebから簡単に参照できるけど。
ChangeLogはソースコードをコミットするときに書くようにけど。 ChangeLogと違ってユーザ向けのNEWSは更新を確実にするチャンスがないから。 粒度もChangeLogとは合致しないし、開発中はユーザにとっての変更が出る筈で はなくても後からみてNEWSに書くべきことが発生していたというのもあり得る。 blogなら、ここに書いてなかったのに変わっとるのは怪しからん! という奴は いないが、NEWSにしたら絶対そういう奴が出てくるだろうから、開発者が 無理なくそういう変更を拾って記述できるようなアイデアをセットで提案しないと。
たしかにサポートって言う奴は要求する方は勝手だけど、
それを誰がやるのかっていうのはこれは大問題だよね。
マジで言い出しっぺがやってくださいよ。お願いしますよ。
たしかにその要求はもっともだからさ。
あと
>>544 ==
>>541 だったならば、
>>542 は
論点へいたる前提を論じてるのだと思うよ。
で、Wikiの設置という流れになるのがトレンド。
549 :
名無しさん@お腹いっぱい。 :2005/12/12(月) 03:54:39
Windows版でMeCabを組み込めた香具師いる?
> まわりの人がサポートするケースのように思える。
> メーリングリストとやらのメンバーたちは何をやっているのか?
> クレクレ君の集まりなのか?
> だからこういうパターンでは、周辺がサポートすることで
> 対応するのが一般的な方法論だって。
周辺とかまわりのひとってなんなのかね?
発言してる本人はどれにも該当しない第三者なの?
>>549 ML には
> なお、Windows版バイナリではMeCabのサポートはしていません。
となってる。
>>550 > 周辺とかまわりのひとってなんなのかね?
> 発言してる本人はどれにも該当しない第三者なの?
そうだろうな。開発に参加していないくせに指示だけ出すやつだろ。
こういうやつは相手にしちゃいけない。コードを書かないやつは無視。
>>550 「発言してる本人」が
「サポート」が必要だと感じてるとは限らんでしょ。
電球の交換に必要な人員数をカウントするスレはここでつか?
> コードを書かないやつは無視。 そんなこと言ってたら、ユーザは何も要望を出せなくなるだろ。 OSSはユーザのフィードバックがあってナンボなんだから、そんな偏狭な 姿勢ではプロジェクトは盛り上がってこないでしょ。 いろんな提案が出されることは歓迎すべきで、それを採用するかどうかは開発者の自由。
>>554 > OSSはユーザのフィードバックがあってナンボなんだから、そんな偏狭な
そんな事はない。ユーザなど何の役にもたたないことがほとんど。
> 姿勢ではプロジェクトは盛り上がってこないでしょ。
ユーザゼロでも盛り上がる。
> いろんな提案が出されることは歓迎すべきで、それを採用するかどうかは開発者の自由。
いろんな提案が出されることを歓迎するかどうかは開発者の自由。
>>556 キミがOSSの開発者だったとしたら、普通の人の反応としては、
その製品は使いたくないし、開発に貢献したいとも思わないってなるんじゃないかな。
ユーザがいなくていいならそもそも公開なんてしないっしょ。
558 :
名無しさん@お腹いっぱい。 :2005/12/12(月) 16:25:36
>>556 お前のような傲慢なやつは、ユーザにそっぽ向かれて消えるだけ。
オープンソースはユーザに使っていただいているものなのだから、
ユーザに対する謙虚な姿勢を忘れたら存在する意味は無い。
消えな。
>>556 ユーザゼロで盛り上がった例を知りたい.
もちろん,ゼロっていうんだから,
コード書いてる人も使ってない状況でね.
コード書いている人が使っていても他のユーザが使わなかったら オープンソースとして盛り上がってるとは言わないだろ.
開発者一人だけで盛り上がってる様を想像してワロタ
>>560 これだからUNIX板の住人は…('A`)
おまいらいいかげんスルーって行為を学習しような
voidさん!はやく!
506でこのスレは終了しました
568 :
名無しさん@お腹いっぱい。 :2005/12/14(水) 19:37:15
では、ここから仕切りなおして再開↓
Luceneとどっちが速いの?
>>569 Luceneって、キーワードハイライト機能ありますか?
Luceneはテキストの登録と検索の機能を提供するライブラリにすぎないので、 表示部分は自分で作る必要がある。したがって、ハイライト機能も自分で作れば どうとでもなる。
要するにLuceneにその機能はない
包丁に煮る機能がないのと同じだな。
麻婆豆腐に例えれば豆鼓醤みたいなものか。
>>574 入れればウマーくなるけど、入れなくても差し支えないよね、っていうことでつか
>>575 あ、そうきたか。じゃあ麻婆豆腐で言えば豆腐ということで。
麻婆豆腐が食べたくなってきた・・・
574は気の利いた切り返しのつもりがぐだぐだだな。 水切りをサボった麻婆豆腐みたいなもんか。
もういいから。
581 :
名無しさん@お腹いっぱい。 :2005/12/19(月) 00:38:08
1.1.2キターーー
582 :
名無しさん@お腹いっぱい。 :2005/12/19(月) 23:57:09
全文検索エンジンを用いたファイルシステムの名前空間拡張 滝田 裕、多田好克(電通大) これってどんなのなんだろう?
>>582 たとえば、「/search/検索語」というディレクトリの中を見ると、その検索語を含む
ファイルがずらっと出てくる。
とかなんじゃないかな?
なにそれ、Estraierが使われてるの?
全文検索と言えば、日経コンピュータに ファイルサーバーのってことで Google アプライアンスとかが紹介されてたな。 Namazu とか Estraier は全くふれられていなかったが。 ファイルサーバーの管理やったこと在るんだけど、 導入に見合った結果が得られるとは言い難いんだよな。
>>584 >ファイルサーバーの管理やったこと在るんだけど、
>導入に見合った結果が得られるとは言い難いんだよな。
ユーザー(社員、学生?)が全文検索の意義を理解してくれないと言う事ですか?
たんに、UIが悪くて使ってもらえないくらいの意味ですか?
ぜひ詳しく聞きたいっす。
おれも聞きたいな。 一般ユーザは、GoogleよりYahooの方が好きだし。 何であんなごちゃごちゃしている上に検索結果もいまいちな インターフェイスが好きなのだ?
> 検索結果もいまいちな このあたりに鈍感だからだろう。
今のYahooはマシな方だと思うが。 infoseekやgooはキチガイみたいに検索結果と関係ない情報がひっついてる。
589 :
名無しさん@お腹いっぱい。 :2005/12/26(月) 11:38:03
Estraier1.2.29出たね。Hyperからのバックポートぽい。
>>588 そうねYahooはよくなってると思う
googleは一時よりかなり劣化してる感が否めない
プギャァァァァァァァァァァァlハッハッハッハッハッハッハハハハh!!!!!^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^
死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ
死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ
死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ
先日会社の上司の娘が病気で死んだ、心底どうでもいい事だったが心優しい俺は葬式に出てやった。
すると会社じゃ威張り散らしてる奴が娘(だった物)にすがりついてビービー泣いてるんですよwwwwwww
必死に笑いを堪えつつ仕込んでいたネタを使う。
俺「これ・・娘さんがディズニーのキャラクター好きだって言ってましたよね。」
ミッキーのぬいぐるみセットをスッと差し出す。
俺「もたせてあげてください・・きっと喜んでもらえると思うんです・・」
上「う、う・・・す、すまない・・・ありがとう・・・・」
プププギャギャーm9^ ^
そんなこんなでご冥福をわざわざお祈りしてやったわけだが、今度会社に来たこいつにどんな言葉をかけてやったらいいと思う?
なるべく俺の利益になるよう事を運びたいんだが
コイツリアル基地外だお!(;^ω^)
おまいらの力で懲らしめてほしいお!
嫌いな上司の娘が死んだ
http://news18.2ch.net/test/read.cgi/news7/1135513179/
心底どうでもいいまで読んだ。
超幾何学的迷子
594 :
名無しさん@お腹いっぱい。 :2006/02/23(木) 17:03:09
1.1.3出たー!
そして本家index.ja.htmlのタイトルがもう なにがなんだかわからない件
これで Estraier の読みがわかりました。
あれ?もうタイトル戻ってるね。
>>598 ソース見るとわかるけどアレ結構お遊び仕組まれてるぞ
うほっ、インデックスファイルの方がでかくなった
602 :
名無しさん@お腹いっぱい。 :2006/03/09(木) 18:14:10
1.1.4でた。 また開発速度上げてきたね。
初心者でつ。これって、ローカルでapacheみたいなhttpdを立てなければいけないんですか?
「これ」が何を指すかによって答えが変わる。 1. ふつうにDBへアクセスするだけならサーバは要らない。 2. ふつうのP2P機能なら別途専用のサーバを立てて運用する。httpだが80番は使わない。 3. apache 用の mod_estraier も開発されているので、それを使えばやっぱり apache でOK。
とりあえずはコンソールから estcmd で見られるよん。 とか、そういうの? $ estcmd search -vh DB searchstring みたいな。
606 :
603 :2006/03/11(土) 23:18:10
開発者のBLOGがbloglines.comだと変なんですが俺だけですか?
なんかtagが解釈されずにでてくるね。
これってローカルのファイルの全文検索するだけだったらhyperじゃないほうがいい?
610 :
名無しさん@お腹いっぱい。 :2006/03/21(火) 14:49:27
hyperの方が旧estより全然速いし精度も高いような気がしる
howmのメモ検索で、hyperestraier使えるようなplug-inが出来るといいなぁ。
612 :
名無しさん@お腹いっぱい。 :2006/03/21(火) 19:42:18
>>611 > howmのメモ検索で、hyperestraier使えるようなplug-inが出来るといいなぁ。
毎晩寝る前にお祈りすると妖精さんが作ってくれるかもしれないよっ
613 :
名無しさん@お腹いっぱい。 :2006/03/22(水) 16:50:31
615 :
名無しさん@お腹いっぱい。 :2006/03/26(日) 01:51:34
DesktopHEがバージョンアップしてますね。 仕事PCに入れてみましたが、シンプルで使いやすいです。
>>614 howmってそもそも検索べースじゃないの?
まずはどうしたいのかはっきりさせるべし。
ところでmhcをHypEstで検索できるようにしたいと思っているのですが ぜんぜんうまくいかない。どうだめなのでも説明できません。 だれかつくってください。
つくってくださらない場合には、いかんながらHypEstコミュニティには プログラムを作る力がないとあちこちで言って回らざるを得ません。 そのことも御承知おきください。
619 :
名無しさん@お腹いっぱい。 :2006/03/26(日) 13:25:16
いま流行りのフリーライダーの出現です!!
>>616 その検索をこのHyperEstraierで高速化できないかと。
今の手段はGNU grepか、lisp製のfake-grepのみなんです。
適当にシェルスクリプトなりelispなり書いてestcmdを呼び出せばすぐできるだろ。
Windows上で漢字のフォルダ・ファイル名を扱えますか? namazuだと表とかが使えなくて困ってたんですが、 これなら使えたりしますか?
>>623 そんなもん漢字コードの問題でnamazuかどうかは
無関係
そうか?
パス中のディレクトリを区切る時に、単に0x5c(\)で区切ると、 0x5cを含んでいる「ソ」や「表」などがあるとうまく扱えない。 ということで、文字コードの問題でもあり、そういった既知の問題への対処を 怠っているアプリケーションの問題であるとも言える。 ちなみにhyper estraier(estcmd)では「-pc cp932」オプションをつければ うまくいくみたい。
半分は多バイト文字をサポートするプログラミング言語で実装してるかどうかの問題。 もう半分はプログラマの能力の問題。
628 :
623 :2006/03/27(月) 01:07:14
使えそうなんですね。
ちょっとやってみます
>>624 namazuというかwin版perlの問題なんですけどね。
mew と連携するようにした例、ネットさがしてる んだが、無いねぇ。
去年の夏頃にMLで全文検索を行なう方法につ
632 :
名無しさん@お腹いっぱい。 :2006/03/29(水) 23:07:12
デモサイトのWikipedia検索便利杉age たまに最新版の記事に更新してくれると嬉しいのだが
633 :
名無しさん@お腹いっぱい。 :2006/03/29(水) 23:35:23
Wikipediaのインクリメンタル検索希望
キーワード抽出の仕方について。 bigramを使っていますが howm用に自動キーワード抽出をしたいのです。
HTML吐いてインデクシングしる
>633 Wikipediaは一括DLできるんだからローカルでやったら
HyperのP2P検索って、クラスタリングにも使えると思っていいのかな?
Wikipediaに、ローカルの辞書検索ソフトと同様の高水準のフロントエンドをつける ことを考えよう。 (考え中……)
>>637 むしろそういう性能目的の分散処理が一般的な利用形態なんじゃね?
641 :
名無しさん@お腹いっぱい。 :2006/03/32(土) 12:45:12
>>640 そう言うのでなく、まともに動いてもっと高速なの。
>>641 そもそもローカルで動かさないと、実用的な速度のインクリメンタル検索は難しいだろ。
>>641 もっと高速とは?
速度に特に問題はないと思うけど。
>>642 > そもそもローカルで動かさないと、実用的な速度のインクリメンタル検索は難しいだろ。
うん。だからそういうのも含めて、
- 自動即時更新
- インクリメンタル検索
- 全文検索
- 検索語一覧
- バージョン追跡機能
まで装備したWikipediaフロントエンド。
メタデータなどを配るP2Pな分配システムに、
ローカルにギガバイト級のキャッシュを使って
快適に。
言いだしっぺの法則。
>>644 インクリメンタル検索を切り捨てさえすれば、ローカルでなくても実現できるというか、
クラサバ型の方が実現性が高そうな要求項目だね。
わざわざ巨大なデータをP2Pで配布してまでインクリメンタル検索なんてしたくないかもー。
>>645 >>644 にそんなものを作るスキルがあるとは思えない。
うろ覚えの単語を組み合わせて文章を作ってるだけのような気がすうr。
wikipediaのインクリメンタル検索つったって見出し語にだけ使え
ればいいんだから大した規模じゃない。いいとこ数十MBだろ。
>>640 をもっとまともに実装すればAjaxでやったって快適だし、
ちょろっと自前で実装しても簡単(ついでにいうとこの場合プレフィ
クスの差分だけ保管するようなデータ構造にしとけばかなり節約で
きる)。
つーかIMEの辞書に[見出し語 => URL]を入れといたって済む。
そんなんのためにP2Pとか言いだすと訳わからんことになるぞ。
649 :
名無しさん@お腹いっぱい。 :2006/04/02(日) 17:45:10
>>648 > wikipediaのインクリメンタル検索つったって見出し語にだけ使え
> ればいいんだから
そうなの? どうしてそう思うの?
>>649 じゃお前は何を対象にしたインクリメンタル検索しようとしてるんだ?
(´-`).。oO(見出しをインクリメンタル検索して何が嬉しいんだろう。。。
>>651 Googleサジェストみたいな感じにしたいってことでしょ。
それだけのためにわざわざフロントエンドが欲しいとは全く思わないけど。
>>651 > (´-`).。oO(見出しをインクリメンタル検索して何が嬉しいんだろう。。。
見出しには本文がついているんだよ。
>>652 思わないよね。見出しだけなら前方一致で十二分。
>>654 そんなもの欲しがる奴はキチガイだよな。
自鯖のドキュメントのインデックスを estmasterで他ホストと共有可能なかたちで公開してる人っている? LAN内ではなく、グローバルかつリンク自由なかたちで。 いたらどんな感じか教えて欲しいんだが (リンクしてくる他ホストはいるか、回線やサーバー機への負担は体感でどんなかんじか、など) P2Pでそこらじゅうのインデックスが共有されるようになれば、 つーのが当初の企てっぽいのに、そういうことしてるところが見当たらないんで ためしにやってみようかと思うんだけど
mod_estraierで風博士+estraierみたいなことしてたんだけど estmasterやApacheを止めてestcmd optimizeとかすると database problem起こす。 estmasterやApache起動したままやると何もする形跡もないままプロンプトが戻らなくなるし。 サーバー機のスペック不足か俺の設定違いか。同じ目に会ってる人おらん?
estmasterを止める時にkillしてない? そうするとその時点でDBが壊れるような気がす。 あと、estmasterを起動したままoptimizeできないのは、estmasterがDBをロックしている からだと思われ。
662 :
名無しさん@お腹いっぱい。 :2006/04/10(月) 11:12:51
1.2.1リリースage それにしても、KamailV3は萌えるね
ノードAPI使ったサーチャのサンプルが本家にあるけど 試してみるとオニのように遅いな。 estcallやプロトコル使うより遅い。 つまりノードAPIを使う場合はサーバで動いてる estmasterのサーチャを呼ぶんでなくて リモートのインデックスにこっちから検索をかけるだけってことなん?
>>663 estmaster内蔵の検索UIは /node/hogehoge/search_ui
estcallを使った場合は /node/hogehoge/search に接続しているから、
たぶん処理が違っているんじゃないかな。
HEがバージョンあがるたびに、qdbmもあがるので追いかけるのメンドイ。 一体化してくれないかな。
estcmd wordsで文書頻度(DF)を外部データベースに作る場合、 この外部データベースって、estcmd extkeysしたあとは捨てて いいのかな? 保存しておくと、なんかいいことある?
次回にestkeysを実行する時に使える。
>>667 文書が更新されたのにDFを更新しないのは
おかしくない?
DFを算出する対象のコーパスはでかい方がいいから文書を更新したら DFのデータベースも更新した方がいいと思うけど、それほど精度は変わらないっぽいね。 でも、そういった意味では、もっと大規模なコーパスでDFのデータベースを作っておいて それを使い回した方がいい希ガス。
いまWikipediaのアーカイブにestcmd extkeysかけてるんだが、 CPU使用率が30%どまり(DFは外部データベース)。 効率悪いな。 gathererの速度もLuceneのIndexWriterの半分以下。 巨大データを扱うときは、メモリ・IO・同期がキモになると 思うんだが、そういうのをCで書くこと自体が辛いんじゃ ないか。 アセンブラやらPOSIXやらに依存しまれば、Javaと互角 まではいけるかもしれない。 でも、移植性のある方法で書いたら、どう考えてもJavaのほうが 速くなるはず。
extkeysは-umつけないとあまり意味がないだろ。
>>670 estのgatherの速度はluceneよりは遥かに速いと思うけど、
どういう設定してる?
>>672 LuceneのIndexWriterはsetMaxBufferedDocs(1000)にsetMergeFactor(100)
Hyper EstraierのgathererはDatabaseをDatabase.DBCREAT | Database.DBHUGE
もしかしてset_cache_sizeすればDisk IO待ちが減って速くなるの?
gathererが多少速くなってもestcmd extkeysの遅さはどうしようもないわけだが。
674 :
名無しさん@お腹いっぱい。 :2006/04/27(木) 23:53:56
>>673 set_cache_sizeするとすごく速くなるよ。というよりしないと遅い。
extkeysは-umすると多少速くなる。
>>674 set_cache_sizeってどう設定するんですか?
キャッシュを256メガにしたいなら、 db.set_cache_size(1024*1024*256, -1, -1, -1);
estcmd gather の場合は -cs オプションね。>set_cache_size ところで -um だけど MeCab を --enable-utf8-only オプション付きでコンパイルして デフォルトの辞書も UTF-8 で構築、かつ Hyper Estraier のソースの mymorph.c を EUC-JP <-> UTF-8 の変換をしないように変更するとさらに速くなるよ。 --enable-utf8-only オプション付けないと和文が2バイトから3バイトになって 解析対象のデータが多くなる分だけ UTF-8 の辞書を使った方が形態素解析が遅くなるし、 付けたら付けたで UTF-8 の文字単位で解析するようになるから MeCab で 他の文字コードが使えなくなるんで、結局デフォルトのままが無難なわけですが。
manのページを検索したいので以下のようにしました PATH=$PATH:/usr/local/share/hyperestraier/filter ;export PATH find /usr/share/man -type f | egrep '.*/man[0-9]/.*\[0-3](.gz)*$' | estcmd gather -cl -fx ".1,.2,.3,.1.gz,.2.gz,.3.gz" "T@estfxmantotxt" -fz -sd -cm casket としたところ Bad : modifier in $ (/). と言ってます。 構文とかぜんぜんわからないバカ者なのですがどうすれば良いでしょうか 教えてくださいませ。 OS=FreeBSD-5.4R hyperest-v1.1.6です よろしくおねがいします
「export PATH」の後ろで改行するか、そこに「;」を置く。
>>679 同じでした。
なんだろう?フィルターの当て方に癖があるのかな
FreeBSD ということでもしやと思うが tcsh を使ってんじゃないだろうな。 PATH=...; export ... という表現の意味はわかってるか? まずは環境変数にそのパスを加えてふつうに実行してみろ。問題を切り分けるのはそれから。
>>681 >PATH=...; export ...
>という表現の意味はわかってるか?
ありがとうございます。
意味が理解できました。
683 :
678 :2006/05/08(月) 02:12:21
#echo $PATH 〜:/usr/local/share/hyperestraier/filter と表示されます。 find /usr/share/man -type f | egrep '.*/man[0-9]/.*\[0-3](.gz)*$' | estcmd gather -cl -fx ".1,.2,.3,.1.gz,.2.gz,.3.gz" "T@estfxmantotxt" -fz -sd -cm casket - 実行後は estcmd:INFO:〜(XXX):redistered ulimit: too many arguments ・・・ estcmd: INFO closing: name=casket dnum=1176 wnum=0 fsiz=7252037 crnum=0 csiz=0 dknum=0 フィルタを読み込めてないって事ですよね?どのようにすれば良いでしょうか? パスの通し方がまずいのかな?
ulimitはフィルタの中で呼ばれているから、フィルタ自体は呼ばれていると思う。 manかcolかtrのどれかがパスに含まれてないことない?
# echo $path /sbin /bin /use/sbin /usr/bin /usr/games /usr/local/sbin /usr/local/bin /usr/X11R6 /usr/local/share/hyperstraier/filter 以上が内容です。 # find /usr/share/share/man | grep -e '.*/man[0-9]' | estcmd gather -no ft -fx"T@estfxmantotxt" -fz -sd -cm casket - こんなのをやってみました ulimit: too many arguments は出力されなかったのですが、 estcmd : INFO: closing: name=casket dnum=0 wnum=0 fsiz=6898748 crnum=0 csiz=0 dknum=0 こんな表示です
man man ってやって、manが使える? which man which col which tr ってやるとどうなる?
>>686 >man man
NO manual entry for man
>which man
/usr/bin/man
>which col
/usr/bin/col
>which tr
/usr/bin/tr
以上が結果です。
パス指定で/usr/binをはずして findコマンドを/usr/bin/findにすればいいのかな?
/usr/local/share/filter/estfxmantotxt /usr/share/man/man1/ls.1.gz を実行するとどんなエラーが出る? (/usr/share/man/man1/ls.1.gzは適当なmanのファイルのパスに読みかえて)
man man が出ないのは、今回の例とは関係なくマズいだろ。 manpath はどう なってるの? あと、 685 で /usr/share/share/man て書いてあるけど /usr/share/man の 誤記だよね?
>>688 # /usr/local/share/filter/estfxmantotxt /usr/share/man/ja/man1/ls.1.gz
/usr/local/share/filter/estfxmantotxt: Command not found.
# /usr/local/share/hyperestraier/filter/estfxmantotxt /usr/share/man/ja/man1/ks.1.gz
/usr/local/share/hyperestraier/estfxmantotxt ulimit: too many arguments
となります
>>689 >/usr/share/share/man て書いてあるけど /usr/share/man の〜
誤記です
# manpath
/usr/share/man:/usr/local/man:/usr/X11R6/man:/usr/share/openssl/man:
/usr/local/lib/perl5/5.8.8/man:/usr/local/lib/perl5/5.8.8/perl/man
以上です
691 :
名無しさん@お腹いっぱい。 :2006/05/08(月) 22:00:14
/usr/local/share/hyperestraier/filter/estfxmantotxtをエディタで開いて、 ulimitの行を消せばいいんでない?
>>691 >/usr/local/share/hyperestraier/filter/estfxmantotxtをエディタで開いて、
>ulimitの行を消せばいいんでない?
メッセージは表示されませんでしたが、結果はかわりません
man /usr/share/man/ja/man1/ls.1.gz はどうでしょ。
#man /usr/share/man/ja/man1/ls.1.gz No manual entry for /usr/share/man/ja/man1/ls.1.gz 以上です。 ちなみに/usr/share/man/ja/man1/ls.1.gzは存在してます
man /usr/share/... はもともと出来ないでしょ。 まず、 estfxmantotxt は内部で man を呼んでるから、まず man ls とかして見えることを確認する。 しかし、 manpath はおかしくないように見えるけれど、なんで man man が出 来なかったんだろ。 それから、 grep するだけじゃなくて、 〜 | xargs basename | perl -pe 's/(.*)\.(\d)(.gz)?/\2 \1/' | 〜 みたいな変換を噛まして /usr/share/man/man1/ls.1.gz から 1 ls を作りだす。 もしくは estfxmantotxt に「フルパスっぽかったら man コマンドではなく nroff -man を使う」的なスクリプトを書くか。
FreeBSDのmanだと絶対パス指定できないっぽいから、 フィルタの中のmanの行を nroff -man /usr/local/man/man1/cbcodec.1 | col -b | tr '\t' ' ' | output に変えるってのはどうでしょ。 nroffは入ってるよね? which nroff
>しかし、 manpath はおかしくないように見えるけれど、なんで man man が出 >来なかったんだろ。 なんでなんでしょうねぇ〜? OSのインストールで必要最小限のファイルしか選定してないからかもしれません。 只今、別PC(man manが引けるPC)をアップデート&hyperestraierインストールしてます。
1.2.4ちゃんと動いてる? make checkでエラーが出るんだが。 ./estcmd: INFO: 7 (/opt/inst/hyperestraier-1.2.4/doc/index.html): registered ./estcmd: ERROR: exhausting memory ./estcmd: ERROR: /opt/inst/hyperestraier-1.2.4/doc/index.html: no such item ./estcmd: INFO: flushing index words: name=casket dnum=5 wnum=1604 fsiz=27316309 crnum=226 csiz=12856 dknum=0 ./estcmd: INFO: closing: name=casket dnum=5 wnum=1733 fsiz=27319842 crnum=0 csiz=0 dknum=0 make: *** [check] Error 1
1.2.5 一応動いてますが
700 :
678 :2006/05/10(水) 16:49:26
#man man 引けるようになりました。 #whice nroff /usr/bin/nroff estfxmantotxt 60行目 nroff -man /usr/local/man/man1/cbcodec.1 | col -b | tr '\t' ' ' | output #find /usr/share/man -type f |egrep !.*/man[0-3]' | estcmd gather -no cl -fx ".gz" "T@estfxmantotxt" -fz -sd -cm casket - 〜〜 troff: fatal error: can't '/usr/local/man/man1/cdcodec.1':no such file or directory estcmd: INFO closing: mame=casket dnum=0 wnum=0 fsiz=68698748 crnum=0 csiz=0 dknum=0 以上です。 マシンに言語(eucJP)を設定していないのですが、関係ありますでしょうか? PS昨日アップデート中、HDDが逝ってしまいました><
環境に依存するからわからないけど、 /usr/local/man/man1/cdcodec.1 は存 在するの? っていうかそのパスなら中身は英語だと思うし、であれば言語は 関係ない。 cdcodec.1 が何かのシンボリックリンクになっていて、リンク先が消えている のにこのファイルだけ消しわすれ、とかそういう事態ではないかと推測するが。
cdcodecじゃなくて cbcodec か orz っていうか存在するのは 〜cbcodec.1.gz じゃないの? 何をやったのかいまひとつよくわからん。estfxmantotxt の中にじかに各ファ イルのパスが書いてあるわけじゃないよね?
703 :
678 :2006/05/10(水) 18:07:43
estfxmantotxt 60行目 nroff -man /usr/local/man/man1/cbcodec.1.gz | col -b | tr '\t' ' ' | output に書き換えて #find /usr/share/man -type f |egrep !.*/man[0-3]' | estcmd gather -no cl -fx ".gz" "T@estfxmantotxt" -fz -sd -cm casket /usr/local/man/man1/cbcodec.1.gz:*: warning {p 1,**** 〜 〜 こんなん言ってます
/usr/local/man/man1/cbcodec.1.gzをハードコードしちゃダメぽ。 nroff -man "$infile" | col -b | tr '\t' ' ' | output にすれば、各々のmanファイルを読めるし、さらに、 less "$infile" | nroff -man | col -b | tr '\t' ' ' | output とすれば、gzipの場合は適切に解凍してくれるんじゃないかな。 lessが必要だけど。
いやそこはふつう zcat (FreeBSD なら gzcat)だろう
zcatの場合、拡張子を調べて分岐しないといけないから面倒じゃね? lessなら自動判定してくれる。
/usr/share/man/man1/vidcontrol.1.gz:*: warning [p 1, *.*i]: cannot adjust〜 〜 〜 troff: warning [p 1,7.7i]: cannot adjust line troff: warning [p 1,7.8i]: can't break line こんなの言ってます。 LANGを指定しても変わりませんでした。
707 はこれまでの質問者と同じ? っていうか、 .gz というのは gzip で圧縮したファイルだってのは大丈夫? nroff にせよ troff にせよ、勝手に展開してくれないから、 gzcat なり less なりで gzip を展開してやらないよね、という流れなのだが、それ理解 できてる? っていうか何故 troff になってんの?
man の話は自分が使ってる OS のスレでやれ。
>>709 manにフィルターをかけてindexに引っ掛ける話なんですが?
クローラはまだ安定してないっぽいね。kill -9で殺すしかないかも。
ありがとうございました。
リモートからestmasterのnode追加するにはプロトコルを使うしかないようですが
$ estcall raw -auth oira oiranopasswd
http://localhost:1978/master?action=nodeadd\&name=NewNode みたくしても
Bad Request (the action is invalid or lack of parameters)
となってしまうです。
ユーザー名oiraとパスワードはブラウザからmaster_uiに入って設定(sつけた)したもので
おいら的には抜かりないつもりだったんですが
どこを間違ったんでしょう?
$ estcmd --version
Hyper Estraier 1.2.4 on Linux
....
な環境です。
715 :
714 :2006/05/17(水) 21:35:40
Gentoo で portage から HyperEstraier 1.2.6 入れたんですがestcmd gather で 300 個くらい文書を登録して estcmd optimize したら返ってこない…… Windows の公式バイナリで同じデータためすと 10 秒くらいで返ってくるん だけどなぁ。ML は文字化けしてて読めないし。
Gentooスレで同じようなこと言ってる奴いなかったか? とりあえずUSEと同じオプションでソースからmakeして、 make checkが通るかどうか試してみれ
>>716 昔同じようなことになったけど、USE="-bzip2"にしたら正常に動くようになった。
>>717 qdbm 1.8.56, hyperestraier 1.2.6
をとってきて configure & make したら hyperestraier の make check でエラーになりました。
orz% make check
rm -rf casket casket-*
LD_LIBRARY_PATH=.:/lib:/usr/lib:/home/orz/lib:/usr/local/lib:/home/orz/local/lib:/home/orz/local/lib ./estcmd create -tr -xl -attr '@uri' seq -attr '@title' str \
-attr '@author' str -attr '@mdate' num -attr '@size' num casket
./estcmd: INFO: status: name=casket dnum=0 wnum=0 fsiz=19924487 crnum=0 csiz=0 dknum=0
./estcmd: INFO: closing: name=casket dnum=0 wnum=0 fsiz=27265610 crnum=0 csiz=0 dknum=0
LD_LIBRARY_PATH=.:/lib:/usr/lib:/home/orz/lib:/usr/local/lib:/home/orz/local/lib:/home/orz/local/lib ./estcmd put -ws casket ./misc/test001.est
./estcmd: INFO: status: name=casket dnum=0 wnum=0 fsiz=27265610 crnum=0 csiz=0 dknum=0
./estcmd: INFO: 1 (
http://hyperestraier.sourceforge.net/sample.txt ): registered
./estcmd: INFO: flushing index words: name=casket dnum=1 wnum=1 fsiz=27266752 crnum=101 csiz=5715 dknum=0
./estcmd: INFO: closing: name=casket dnum=1 wnum=45 fsiz=27266752 crnum=57 csiz=3194 dknum=0
./estcmd: ERROR: casket: database problem
make: *** [check] エラー 1
orz%
>>718 情報 thx です。bzip2 を configure からはずしてもう一度やってみます。
720 :
719 :2006/05/21(日) 23:45:07
ありがとうございました。手動ビルドで --enable-bzip をはずすと make check が通りました。 また /etc/portage/package.use に hyperestraier -bzip2 でも使えるようになりました。
ユーザガイドによると、bzip2を使うとかなり遅くなるらしく、zlibを進めている いるけど、なんでgentooのデフォルトはbzip2付きなんだろ。
722 :
名無しさん@お腹いっぱい。 :2006/05/25(木) 23:24:02
1.2.7が出たね。 WebクローラからP2Pサーバに分散登録する機能がついた。 かなり大規模な検索エンジンもこれで簡単に作れるようになるのかな。
723 :
名無しさん@お腹いっぱい。 :2006/06/06(火) 10:41:41
1.2.8 出たので age estwaverのhttps対応はいつ?とても便利に使ってるので期待。
@weight属性を全文書につけて順序指定した場合に、 @weightの値が同じ場合、@idでソートされてしまうようなんですが、 これをスコア順にすることってできないんでしょうか?
725 :
名無しさん@お腹いっぱい。 :2006/07/03(月) 23:55:29
いつのまにかPerl用API出てたんでage
最近話題ないね。
1.3.2 が出てるじゃん。 ここしばらく頻繁にアップグレードしてる印象があるけど。
作者は最近mixiに入社したらしいね。
はつみみです。
え〜、googleにでもヘッドハントされるんじゃないかと思っていたのに…… なんでそんなところに……
>>731 これ使ったことないけど、そんなに凄い技術なの?
Googleには同じようなことをやっているチームが既にあるわけだし、 多少できる人材が加わったところであまり意味はないような。 それよりは、検索対象のデータをいっぱい持っているけど検索技術が まだないところに行ってもらった方がよさげ。
734 :
名無しさん@お腹いっぱい。 :2006/07/17(月) 22:10:13
WebクローラのSSL対応まだー?
>>734 なにそれ?
Webのクロール機能なんてあるの?
Database::openなんだけど DRWRITER | DBREADERで読み書きモードでオープンしたら やっぱりまずい? 検索結果に出てきた文書をそのままoutしてしまいたいんだけど。 試してみると30回ほどやってみてデータの破壊はなかった
DBWRITERだけで読み込みも書き込みもできるよ。
740 :
名無しさん@お腹いっぱい。 :2006/07/27(木) 21:09:15
質問: 検索結果を重要度が高い順に並べたりしてくれるような機能ってありますか? msearchを使っているのですが、更新が新しいもの順とか、アルファベット順とか そんな機能しかないのです。
741 :
名無しさん@お腹いっぱい。 :2006/07/27(木) 21:27:27
742 :
740 :2006/07/27(木) 23:13:06
まじですか? 導入検討します
743 :
名無しさん@お腹いっぱい。 :2006/07/31(月) 14:19:32
Estraierで言うところの重要度って何を元に重要度としてるの? ページの<title>タグとか<h>タグとかを見てたりするの?
HTMLの要素の意味とかは特に斟酌しない。基本的には、タグはぜんぶとっぱらっ て、テキストをぜんぶくっつけたものとして取り込んでいると考えてさしつかえない。
キーワードを登録して重み付けする機能はあるけど。
>>745 読んでる部分はある。titleと、、、あとなんだっけ?
>747 metaとか見てる筈。でもそれくらい。 title は @title 属性にもなるし、本文にも隠しテキストとして入っている。 という話はややっこしいので、 743 にはああ書いた方が伝わると思ったんで あのように書いた。少なくとも h1 とかで重要度とかいうのは考えてないです よという感じ。 そもそも 743 の考えている重要度ってのがおれにはよくわかってないんですが。 基本的には H.E. では単語の重要度には Tf-Idf を使ってるよ、てのが答えに なっているのかな。
749 :
名無しさん@お腹いっぱい。 :2006/08/01(火) 03:13:49
estwaverを動かそうとしたらSegmentation faultで落ちるのでがっかり。
俺は、qdbmコンパイルするときに、最適化オプション付けまくったらSEGV。 estcmd gatherでもだけど。
751 :
名無しさん@お腹いっぱい。 :2006/08/01(火) 20:36:06
NAMAZUは<title>とか<meta>以外にも何か読んでる?
なぜそれをここで聞く
文書ドラフト(中間フォーマット)について教えてほしいのですが これは普通(マニュアル通り)に記述してインデックス作成すれば検索できるように なるのでしょうか? マニュアルにある「若者たち」をやってみたのですが、検索されません。 どうしたらいいでしょうか?
「どうしたらいいでしょうか?」なんて質問にまともに答えられるわけないだろ。 インデックスを作った時の操作が間違ってるとした言えない。 せめて、実行したコマンドを張り付けるとか、ログを張り付けるとか、実行環境について書くとかしませう。
ありがとうございます。はじめたばかりの初心者です。すいません # estcmd put casket /home/date.est estcmd: ERROR: casket:invalid argument # estcmd version Hyper Estraier 1.3.4 on FreeBSD date.estはUTF-8で記述してあります。 実行前には普通にインデックスをは作成しました。
ちゃんとcasketがあるディレクトリで実行してる?
@uriっていう属性がないと登録できないんだけど、ちゃんと入れてる? @urlじゃだめだよ。それでダメなら、date.estの中身を見せてみ。
>>757 ,756
ありがとうございます。登録する事が出来ました。@uriの記述でした。
文書ドラフト形式の登録の場合、ファイル毎に登録しなければならないでしょうか?
一括で登録する方法ってありませんでしょうか?
よろしくお願いします。
>>758 文書ドラフトであってもestcmd gatherで登録できる
1.3.7 ageSSL対応期待.使える?
estcmd draft -fh -il ja (file) ファイル名をつけると # 1;2c1;2c1〜 と表示します ファイル名無しだとフリーズするのですが、どうすればいいのでしょうか?
フリーズっていうか、標準入力を読もうとしてブロックしてるだけじゃん。
これって、Cygwinで使えますか?
>762 ありがとうございます。 標準入力ってどんなの? 普通のHTML文章じゃダメなのかな?
>764 お前の理解力に合わせて言うとキーボードからの入力待ち状態だと思ってさしつかえない。 っていうか勉強しろ。 ちなみに、 fh をつければ、ちゃんと HTML として解釈してくれる。
ありがとうさん コマンドオプションにfhをつけてるが?
>763 CygwinでなくてネイティブWin32版が出てる。
>>449 WinXP以降ならば
@echo off
for %%A IN ("%ESTORIGFILE%") DO echo "%%~nA" > "%2"
769 :
名無しさん@お腹いっぱい。 :2006/09/10(日) 00:27:53
1.4.2が出てるな。疑似インデックスって使ってる人いる?
アップデートしたときはインデックスを再度作り直ししなきゃいけないの?
内部で使っているqdbmの形式が変わってなければ大丈夫のはず。
ほとんどがqdbmのアップデートに伴うような・・ 変更点とかってどうやって解るの?
>>772 それ漏れも知りたい。
ほぼ全てのリリースでqdbmの更新が必要だからな。
qdbm の更新は必ずしも qdbm のファイル形式の変更を意味しないよ。 たいていの更新ではファイル形式じたいは変わってないので読み書きできると 思う。なんでそのくせ最新版を要求するのかはよくわからない。 qdbm のバージョンアップに伴い旧形式で読み書きできなくなるときは、作者 の人がそのような注意をアナウンスのときにしている気がする。 けれどそれは何も保証するものではないなあ。
そういうのは周辺コミュニティがサポートするもんだがなあ。
QDBMは本来の目的意外にもH.E.のためにつくられた汎用的なユーティリティ関数群を (余所で再利用することを考えて?)H.E.の外部に出しておくためのライブラリとしての側面があるからねえ。
H.E.って何?って思ったけど HyperEstraierの略だったのね^^ でも意味わからなぁ〜い まだまだ未熟ですがご指導お願いいたします。
超迷子だよ。
みんな初心者なのねw
とりあえずは qdbm 同梱にしちゃえばいいのにー。 H.E. 側で安定したら qdbm 側に反映するとかー。
同梱しても
>>770 の問題は解決されないし、同梱のメリットって何?
せいぜい最新版にしたときのコンパイルがちょびっと楽になるというくらい?
別途に qdbm が欲しい人にとってはかえって面倒なだけだし。
同梱すれば、QDBMとH.E.のバージョンが食い違うというミスは無くせるよね。
それに、ダウンロードする回数も1回で済む。
デメリットに関しては
>>781 の言う通りだと思う。
case 59: name = "ちょwwwおまwwwいごww"; break; case 61: name = "どう見ても超迷子です本当にありがとうございました"; break;
case 51: name = "超迷子は少年を浪費する"; break; case 53: name = "超迷子さんのすきゃんてぃ"; break; 作者の世代がなんとなくわかるな。
まあ、作者のページには生年月日が書いてあるけどな。
おちゃめさんなんですね
netstat -l すれば? nmap はデフォルトでスキャンするポートに含まれてないからじゃないの。 -p1978 すれば出てくるでしょ。
w3m から cgi 叩けますか?
cgiは糞。とにかく最低。cgiはマジ氏ねばいい。
実装メモリが少ない場合はzlibを有効にしないほうがいいですよね?
教えていただきたいのですが ユーザーガイドに データをダンプするコマンド estcmd search -max -1 -dd casket [UVSET] とあるのですが「UVSET]って何をすればいいのでしょうか? estcmd search -max -1 -dd casket これだけだと estcmd: ERROR: /***/casket: I/O problem と表示されます
795 :
名無しさん@お腹いっぱい。 :2006/09/27(水) 21:21:21
[UVSET] は [UVSET] のままでいいよ。何かの文字列に置き換えるって意味じゃない。
estcmd search -max -dd 1 casket [UVSET] estcmd: No match. こんなん表示されます。どうしたらいいでしょう
それは [] の文字がシェルの特殊文字なんでエラーになってる。 H.E. の問題じゃないよ。 estcmd search -max -dd 1 casket '[UVSET]' とするとよろし。
ありがとうございます。動作しました。 しかしながら *.est のファイルが見当たらないのですがどうしたらいいのでしょう
799 :
名無しさん@お腹いっぱい。 :2006/09/28(木) 10:04:28
-max オプションの引数が -dd になってるからじゃね? 取得最大数を無制限にするなら-1を指定するから、 estcmd search -max -1 -dd casket '[UVSET]' が正解のような。
すいませんでした。 転記ミスです。 #estcmd serach -max -1 -dd casket '[UVSET]' --------[6801AEBA0ECCC85A]-------- VERSION 1.0 NODE local HIT 33494 HINT#1 [UVSET] 33494 TIME 0.461 DOCNUM 33494 --------[6801AEBA0ECCC85A]-------- --------[6801AEBA0ECCC85A]--------:END
カレントディレクトリに*.estを書き出そうとしたけどパーミッションがないとかかなぁ。
rootで作業しています。 念のためにパーミッションを変更しましたが同様です。
そうそう、それ聞こうと思ってたけど、なんで root なの? まあいいけど。 ・適当な ID で estcmd get したらできるか ・-max 1 (とか少ない数)にしたらどうなるか、 -dd を外すとどうなるか ・作業場所はどんなところか、残り容量はどれくらいか とかも確認よろ。 あとありえないと思うけど、 NFS 共有してる場所とか、場合によって root でも書き込めない場所というのはあるよ。
お手数かけました。 再度ユーザーガイドを見ながら最初からやり直したら出来ました。 rootで作業は横着したいので作業してます。 閉ざされた環境なので問題ないと思っています。
ええっと解決したときは何のミスだったかとか書いてくれるとうれしい。 一般的な考え方としてはよっぽどの作業(システムに変更を加えるというまさ にそのアクションそのもの)以外の場合に root を使うのはダメゼッタイ。 環境がどうこうとか、問題がないとか関係なく、やめた方がいいよ。
version 1.4.3 クローラの設定ファイル_conf # text size limitation (in kilobytes) これって取得するtextのサイズ制限でいいのかな?
取得してから抽出するテキストのサイズだろ
各コマンドで作成されたファイルを覗きたい時に利用できるedetorって何かありますか? 圧縮されてるから普通のedetorで見れないだけ? sestseek.cgiも覗いて見たいです。 環境はwin、UNIXどちらでもいいです。
edetorってなんだ?
エデターだべさ。
cgiはCで書かれているだけ。ソースをダウンロードして嫁。 コマンドで作成されたファイルというのが DB のことを指すのであれば、この 構成については基本的にはドキュメントがない。どうしても知りたければソー スを読むか作者に聞くかするしかないんじゃない。 また、H.E. のDBは基本的には QDBM のDBファイルだろうから、 QDBM のユー ティリティコマンドでいろいろ弄れることは弄れるはず。
何で読めばいい?
お好みのエデターで
お好みのエデターがね 表示しないのよぉ〜 何使ってる?教えて
emacs
ファイル名に“?”や“=”等の文字が含まれている場合、 INDEXをコマンドを使って作成すると文字が変換されてしまい 検索結果をリンクしても表示されません 特殊な文字を使ったファイル名を別な文字にあらかじめ置き換えておく方法が考えられますが 他に方法はありますでしょうか? よろしくお願いします。
バグレポートを出す
バグになるのかなぁ〜 RFCで定義されてるみたいだから正常だと思うんだけど
> 検索結果をリンクしても表示されません これは、バグと言えると思うけどなぁ
820 :
816 :2006/10/02(月) 19:39:48
とりあえずestseek.confのreplaceに記述してなんとか表示するようにしました。 次に困ったら又考えよう
showlreal: true にすればエスケープしてないファイル名を表示してくれるんじゃね?
estfraud.cgiを利用したい時って estfraud.confだけを設定したらいい? それともestfraud.conf+_confの設定?
823 :
名無しさん@お腹いっぱい。 :2006/10/04(水) 16:48:26
イントラネットの検索に使おうとしていますが取りこぼしが多いです。 少なくともリンクがダブルクォートで囲ってないと誤動作するようです。HTML 規格違反だとは思いますが。 あとpukiwikiのぺージにはまりこんでしまう問題もなんとかならないでしょうか。
HyperEstraierは正確にはN.M-gram(と作者が呼んでる)手法だから、 単なるN-gramとは事情がちょっと違うよなあ。
理論通りの N-gram を実装しても、インデックスが大きくなり過ぎて結局使え
ないし。
>>824 そのレベルの問題は作者に報告するのがよかろうに。
クローラ単独(初期状態の_confで変更点はURLのみ)で動作してて作成された ~casket/_indexなんですけ このindexをestseek.cgiで指定して検索した場合って検索結果って表示されますか?
>>827 estwaverやestmasterで作ったインデックスも
estcmdで作ったインデックスと全く同じように使えるよ。
クローラに取得した時間表記をlocaltime(JST)にしたいときはどうすればいいですか?
estseek.tmplにJavaScript仕掛けて、Dateオブジェクト使って再計算すれば?
クローラが巡回した後にアクセスlogにアクセスが残りますが このアクセス名を変更したいときはどのようにすれば良いでしょうか? バージョンだけでも隠匿したいです。
832 :
名無しさん@お腹いっぱい。 :2006/10/06(金) 16:37:50
最近社内LAN向けにH.E勉強してるんですが、 estcmd extkeys -um っつうコマンドは何のために実行するんですか? 「インデックス内の各文書のキーワードを抽出したデータベースを作成します。」となって いますが、インデックスを形態素解析してキーワードごとに区切り直して何のメリットが? 検索速度、精度に影響あるんですか?
>>826 > 理論通りの N-gram を実装しても、インデックスが大きくなり過ぎて結局使え
> ないし。
へ?
俺200MBくらいの日本語テキストをLuceneのN-gramでインデックス化してるよ?
類似検索とかしなければ、0.1秒で帰ってくる。
マシンはPPCのMac mini。
>>832 補助インデックスでヒット数が得られれば検索速度が上がる。
そうでない場合でも、検索精度が上がる。
Windows版で申し訳ないのですが estcmd で -attr オプションを付けると HIT 数の表示がおかしくなるみたいです。 たとえば下記の3つの結果が 53, 27, 27 になります。 estcmd search -vu -max 10 -attr "@uri STRINC Win" casket Windows estcmd search -vu -max 10 -sk 1 -attr "@uri STRINC Win" casket Windows estcmd search -vu -max 50 -attr "@uri STRINC Win" casket Windows これは仕様でしょうか?
板違いなのかな。
>>836 属性インデックスを使わない場合は、ヒントの該当数表示が正確とは限らないから、
それは多分仕様。
839 :
836 :2006/10/08(日) 10:38:47
>>838 レスサンクスです。UNIX版も同じでしょうか?
余計な事調べるより速度を重視ってとこでしょうかね。
この数値を元に検索結果のページ切り替えタブを作っているのですが
2ページめ(10〜20件)を表示すると総ページ数がいきなり減ってしまうので困ってます。
もうひとつ質問です。
スコアの値を基に★3つとか表示をしたいのですが満点をいくつにすればよいのかよくわかりません。
検索語が増えればどんどん点数が上がっていくみたいなので困っています。
なんだ? ここはUNIX板だよな?居候は謙虚になりなさいw 何をやりたいのかよくわからんが、 P2Pガイドの助言の項目(ページ)にヒントがある 加点方式だから満点も何もないだろ
>>839 840の言う通り、加点方式だから満点に意味はない。
けれど、スコアは偏差値で調整されているはずだから、
1位を満点にすればそれっぽい表示ができるかもね。
>>839 ここまで厚顔無恥なやつは初めてだよ
他人の迷惑も少しは考えろよ
>>839 >余計な事調べるより
余計なことなら聞かないでくれ
俺は839じゃないけど、842と843は心狭杉。
答えもヒント与えてるし広すぎだと思うぞ 教えて君が助長しないか心配
これもゆとり教育のせいなのかな・・・
847 :
名無しさん@お腹いっぱい。 :2006/10/08(日) 22:48:40
N-gramを使うまでは、僕はまったくもてませんでした。 2ちゃんねるやWarez、最新アニメの話で彼女をひきつけようとしても、白けられるばかりでした。 N-gramを使ってからは全てが変わりました。 全文検索の話で盛り上がり、彼女はもう僕にめろめろです。 素敵な彼女のハートをつかむことを助けてくれたN-gramに僕は大感謝です。
たとえば!の話だ。 単にHがしたい!と言う質問に対しては 嫁に相手してもらえ!彼女を作れ!や風俗に行け!と言う明確な回答が出来る。 しかし、有名アイドルとHがしたい!と言う条件がつく質問には幅広い回答しか出来まい
クローラーを再巡回させたとき、削除された文章があったときは データから削除される?
850 :
836 :2006/10/09(月) 23:01:54
ありゃりゃ、なんか荒らしちゃってすみません。
>>840-841 ご回答ありがとうございます。
P2Pの方は関係ないと思って全然読んでませんでした。
>>843 余計な事・・・っていうのは
>>838 さんの回答に対してではなく
(EstraierがHit数のような)余計な事調べるより(検索)速度を重視
って意味です。念のため。
それではお邪魔しました。
852 :
名無しさん@お腹いっぱい。 :2006/10/11(水) 19:58:16
とりあえずLAN内のファイルサーバを検索できるところまではできたんだけど、 Namazuの-excludeオプションみたいな、特定のフォルダだけ検索対象から 除外するにはどうすればいいの? あと、Namazuみたいに複数のインデックスに分けて、チェックボックスで 検索対象選ぶインターフェイスにしたいんだけど@genreで分けるしか方法はないの? インデックス自体を物理的に分けて、横断検索できたらなぁ。。。
>Namazuの-excludeオプションみたいな、特定のフォルダだけ検索対象から >除外するにはどうすればいいの? estcmd scandir と estcmd regex を組み合わせてゴリゴリやる. #findとgrepでも可 >インデックス自体を物理的に分けて、横断検索できたらなぁ。。。 estmaster 使ってメタ検索を使う.
854 :
名無しさん@お腹いっぱい。 :2006/10/12(木) 16:36:37
>>853 estmasterとかマニュアル読んだけど意味全然分かんないし。
昔あったestmerge.cgiってHyper Estraierには使えないのかな?
便利な機能削ってP2Pだとかやたら取っつきにくい新機能で「すごいだろ」
って言われても一般ユーザーにはどうすることも出来ないよ。
いいの、一般人はフロントエンドだけみればいいんだから。
もしかしてキーワードの抽出に分かち書きを利用するとクローラーってまともに動かない?
わかち書き使ってクローラー動かしてるけど普通に動くよ
MeCabじゃなくて-um?
BSD系で-umつきクローリングするとSEGVったりdouble freeになったりすることがある libmecabのpthread&mmapまわりか、libqdbmのガベコレか、どっちかが臭い(たぶん前者)
>>854 一般ユーザ向けのソフトじゃないでしょ
いきなり何いってるんだ?
サンキュ
Hyper Estraierって、namazuでのNMZ.result.normal.jaのように 結果のカスタマイズはできませんか?
回答者にnamazuを使え!ってことか? ユーザーガイド読めよ!
拡張子が本来、.cgiのものを.htmlで表示させてるんですけど、中にエラー処理とか入ってるために、 検索すると、エラー処理部分の<title>が表示されちゃったり、キーワード「エラー」で全件ヒットしたりしてます。 こんな時はクローラー動かすしかないですかね? フィルタは、さっぱりわかりませんし。
864の言いたいことを整理すると次のようなことか。 ・CGIスクリプトをそのまま H.E. につっこんでいる ・しかも HTML ファイルとして処理させている ・そうするとスクリプト中の正規の処理のパートと、エラー処理などの部分と、両方とも H.E. に1つのドキュメントに入ってしまう ・クローラを使って HTTP 経由で CGI の吐いた HTML を処理するしか方法はないのだろうか? ・フィルタは理解する気がありません これであってる?
データーをCGIで表示させてH.Eに取り込みたいて事だろ! cgi自体をデーターとして取り込み操作してるから出来ないんだよ! 頭使え! 俺だったらestファイルで読み込む方法を取るな
>>862 estseek.conf と estseek.tmpl でできる以上のカスタマイズは無理っぽい。
俺も PREV 1 2 3 4 NEXT とか
右下に英語で小さく表示されるのが嫌だったので変更したかったんだが、
estseek.c のソース見たらその辺はハードコーディングされてて
テンプレートとかでカスタマイズできるように見えなかった。
というわけで Perl で API 叩くフロントエンド書いたよ。
Namazu のテンプレートなんかよりずっと柔軟なカスタマイズができるようになった。
API マンセー
スタイルシートをいじればほとんど何でもできることない?
まあNamazuにもlibnmzやSearch::Perlがあるけどね。 それよりインデクサのAPIがあることのほうが素晴らしいとは思わんかね。
知らなければ弄れない
windows用のHyper Estraier+ANHttpdの構成で使っていますが, 全文検索(BODY TEXT)だけでなく,ファイル名も同時に検索できるようにするには どのようにしたらよいのでしょうか。 formtype=fileでは,bodytextがpathのどちらかの検索となってしまううえに, pathではand/or検索ができない(一語検索のみ)のですが。
属性名にファイルnameを書いたら?
>>869 ではそのスタイルシートで PREV を [前へ] に変えてみてくれ。
ついでに Submit ボタンのキャプションを「検索」に、
「per page」を「件毎」に、「with」を「属性」に、
「Results of 1 - 10 of about 220 for XXX (0.010 sec.)」を
「"XXX" の検索結果 約 220 件中 1 - 10 件目 (0.010 秒)」に変えてもらえると嬉しい。
痴漢ぐらいならJavaScriptでできない?
ソースを弄る
>>872 873さんも書いているが、文書ドラフトの
@titleとかにファイル名を突っ込むバッチファイルを
書いてやればよいのでは?
自分は画像ファイルなどもタイトルで検索したかった
のでそうして使ってる。
>879 ありがとうございます。一応,自己レスしておきます。 結局,xdoc2txtに全部通すことにし,estfilt.batを @echo off echo %ESTORIGFILE% >%2 xdoc2txt -s -r=0 -o=0 %ESTORIGFILE% >> %2 とし,gather時に-foつけて対処してしまいました。 一番手っ取り早かったものですから。
Estraier流のインデックスの作り方,属性とBODYTEXTのどちらにも 引っかかる検索式の書き方等,よかったら教えていただけませんか?
メール形式とかは、 estcmd では、タイトルを属性にしながら同時に隠しテキ ストとしてBODY につっこんでるよね。そういうことをやるしかないと思う。
Hyper Estraierをウィンドウズで動かしたいのですが、Windowsバイナリパッケージをインストールして。。。その後が全然どうすればいいかわかりません。 どなたか手順を教えていただけないでしょうか? やりたいことはWebサーバ構築してキャッシュを全文検索で探せるようにしたいんで・・・ よろしくお願いします。
はぅ。
886 :
883 :2006/10/26(木) 10:56:45
887 :
名無しさん@お腹いっぱい。 :2006/11/11(土) 21:04:50
estproxy.cgiでPDFのハイライト表示ってできないの?
888 :
mini :2006/11/12(日) 16:24:05
hit36わかる
メモリ使用量を100MB位に押さえるには? 今は200MB以上使われてしまう。
最近hyperestraier-users-ja MLのメール来てますか? 例えば,1.4.9のリリースのメールって来た? 俺は公式サイト見て1.4.9リリースを知ったんだけど…
11月11日のメールが最後だな。 俺も1.4.9出てたの今初めて知った
892 :
名無しさん@お腹いっぱい。 :2006/11/20(月) 22:03:41
「Hyper Estraier 1.4.9をリリースしました。」 のメールがhyperestraier-users(英語)の方に出されてるので、間違えてるっぽいね。
RSSチェックするほうが確実っぽいぞ。
サポートチームが機能不全なんですね。
仕方ないじゃん。上場したいまでも、 いまだにベータ版で飯喰ってるような会社だぜ。
896 :
890 :2006/11/21(火) 11:55:18
そうか.皆さん所にもメールは来ていなくて,リリースのメールは英語MLに間違って(?)出されていたと. 迷惑メールフォルダ探したり,MLに再登録しようか迷っていたんだけどそんなことしなくて良いのねw 状況が分かってイカッタ. それと作者氏のブログのRSSを登録することにしたヨ.
Sourceforgeにユーザ登録してあれば、「monitor this package」するがよろし。
fedora core 6 で試そうとしたが libiconvが見つからん。 iconvは、glibc-commonにあったけど、 libiconvはどこのパッケージにあるの??
899 :
名無しさん@お腹いっぱい。 :2006/11/23(木) 17:36:23
Apache使ってestceek.cgiを動かしたいんだが、どっちも初心者なんでよくわかりません。 手順をある程度教えてもらえないでしょうか?
sageんの忘れてました。
902 :
名無しさん@お腹いっぱい。 :2006/11/26(日) 03:00:06
KaMailV3でhyperestraierを使っていますが、 subjectが長い場合、語の途中に空白が入っていて、 その語が、検索に引っ掛からないことがあるんですが、 これは、hyperestaraier側の問題なんでしょうか。 subjectのソースを見ると、 =?ISO-2022-JP?B?........?= の部分が複数行ある時、語の分断が発生して いるように見えるんですが、関係あるんでしょうか。。。
903 :
名無しさん@お腹いっぱい。 :2006/11/26(日) 09:59:58
RFC822の仕様が日本語とかの多バイト圏の言語を想定していないものになっているから、 たぶんしょうがない。どちらかといえば送る側のメーラの問題。
904 :
902 :2006/11/26(日) 14:49:48
ただ、同じメールをThunderbirdでも読んでいるんですが、 subjectで検索しても、ちゃんと検索語の含まれる メールが抽出されるみたいです。
>>903 estraierの問題だと思う。
エンコードされた文字列間は空白なしで連結するのが仕様。空白を含めたかったら空白もエンコードする。
906 :
名無しさん@お腹いっぱい。 :2006/11/26(日) 15:03:51
>>905 > エンコードされた文字列間は空白なしで連結するのが仕様。空白を含めたかったら空白もエンコードする。
それって確定したの? ずいぶん長いこと紛争の種になったポイントだよね?
そんな事したら、空白区切りの言語で問題でるじゃん いまのところデコードした後、空白の前後が日本語の文字だったら連結すると かってアプリ側で対処するしかない。
Windows で作成したインデックスを Linux に持っていって estseek.cgi で検索することはできますか? やってみると estseek.cgi のトップ画面は出るのですが 検索しようとすると Segmentation Fault します インデックス化されているファイルのパス名に日本語が入ってると難しいかなぁ...
estseek.cgiがApache上で動きません。Premature end of script headers: estseek.cgiってエラーがでます。 Test.cgiで作ったのはフツーに動いたんですが、何がおかしいんでしょうか?
Apacheのエラーログ見ろ
>>911 そのApacheのエラーログが
>Premature end of script headers: estseek.cgiってエラー
なんじゃねーの?
shellが使えるんだったら、そのディレクトリ上で ./estseek.cgi って直接実行すれば何か分かるかも
estseek.conf の記述ミス説に 100gram
915 :
名無しさん@お腹いっぱい。 :2006/12/01(金) 11:49:42
>>911 さん
>>912 さんの通りです。そもそもestseekて多分バイナリですよね?confをミスったんでしょうか?
とにかくコンフを初期設定に戻してやってみます。
916 :
名無しさん@お腹いっぱい。 :2006/12/01(金) 12:04:50
どなたか、超初心者の私に、win版のインストールを教示してくれるHPを教えていただけないでしょうか?
因みに、私は、マニュアルの記載
http://hyperestraier.sourceforge.net/intro-ja.html#introduction >>Hyper Estraierは、以下のライブラリを利用しています。予めそれらをインストールしておいてください。
>>libiconv : 文字コード変換。バージョン1.9.1以降(glibcにも同梱)。
>>zlib : 可逆データ圧縮。バージョン1.2.1以降。
>>QDBM : 組み込み用データベース。バージョン1.8.68以降。
で、既につまづいている状況です。
どなたか。。。
> なお、Windows版のバイナリパッケージには必要なライブラリが全て納められていますので、そちらを使うことをお薦めします。 だってさ。
918 :
916 :2006/12/01(金) 12:26:20
>>917 ありがとうございます。
これは、
・qdbmのwinバイナリパッケージ
のインストールも、不要と考えてよいのでしょうか?
重ね重ねすいませんが。。
>>918 知らね。
まず入れてみて、動かなかったら考えたら?
920 :
918 :2006/12/01(金) 12:56:52
>>919 ありがとうございます。
まだ動かせる所までは程遠い状態、かつ、qdbmを入れてみることができるまで程遠い状態ですが、前に進みますね。
あと、どなたか、こんな超初心者の私に、win版のインストールを教示してくれるHPを教えていただけないでしょうか?
つgoogle
922 :
920 :2006/12/02(土) 09:30:18
>>921 どもです。
予めgoogleで調べたのですが、インストール・設定のメモ等をアップして
くれているHPが見つからなかったんですよ。。
私の探し方が悪いのかも。。
そこで、このスレの利用を思いついたのですよ。
とりあえず公式を熟読して書かれている通りにやってみな 俺がXPで動かしたときは問題なくできたから
hyperestraier-1.4.9-win32.zip ってのを落としてくれば QDBM とか他のは何もいらない 検索 CGI を動かすのだったら Apache などの Web サーバが必要
925 :
922 :2006/12/02(土) 22:32:51
>>923 >>924 ありがとうございます。
公式の熟読は、確かに不十分だったかもしれません。気をつけます。
>>QDBM とか他のは何もいらない
は、嬉しいコメントです。実は、この点は、公式の熟読でもわからない点でした。
以前(Hyper・・・前)のestraierは、セットアップ時間30分で十分だったのですが、
Hyperになって、高機能になった分、設定が難しくなったと感じているのは
私だけでしょうか?だからインストールメモのHPが無いのかな、、、と。
でも絶対難しくなってますよね。。。言い訳でした。。。
zip展開するだけで estcmd.exe は動くぞ。 どこが難しいんだ?
難しくないから誰もインストールメモなんて書かないとは思わないのかね?
928 :
922 :2006/12/03(日) 09:18:36
927 欲嫁。
キーワードをもとにローカル画像を検索したいと思っています。個人用途です。 例えば画像(png、jpgなど)ファイル中にコメントを埋め込んで、それを検索の対象に含める、ということは可能でしょうか? ユーザガイド読んだら適切なフィルタを持ってくればできそうに思えたのですが、実際に運用してる方に聞きたく書きこみました。 それともこういう場合、コメントはファイルに埋め込むのでなく、別途テキストを用意するのが王道だったりするのでしょうか? 何かコメント頂ければ幸いです
>>929 俺は実際に運用してるわけじゃないが、フィルタさえ用意すれば当然可能。
ファイルそのものにコメント記入フィールドがあるなら、
別途テキストなんか用意するよりファイルに直接埋め込む方が正攻法だべ。
932 :
929 :2006/12/05(火) 07:45:42
933 :
915 :2006/12/07(木) 14:42:34
あきまへん、やっぱり動きません。そもそもestseekがどうあっても文字化けするし・・・ ちなみに大事な要因を書き忘れてました、Windowsでアパッチは2.2.3を使ってます。
934 :
915 :2006/12/07(木) 15:25:12
何度もすいません、estseek.confの中身がやっぱり問題でしょうか?
replace: file:///www/cgi-bin/{{!}}
http://localhost/ でCGIの設置場所がCのwwwのcgi-binに掘り込んでるんですが、正しくはどう
コマンドプロンプトでestseek.cgiを直接実行したらどうなる?
936 :
915 :2006/12/07(木) 16:39:26
Status: 500 Internal Server Error Content-Type: text/plain; charset=UTF-8 Error: the configuration file is missing. ってでました。
Configuration file(要はestseek.conf)がないよー、って言ってるじゃん ファイル名が微妙に間違ってるとかない? これ以上はエスパーが降臨しないと分からんな
>>936 どう見ても estseek.conf が存在しないとしか思えませんが
939 :
915 :2006/12/13(水) 19:21:19
すいません。場所が違いました。 Status: 500 Internal Server Error Content-Type: text/plain; charset=UTF-8 Error: indexname is undefined. となりました。 コンブの記述ミスでしょうか?
だからー 出てくるメッセージ読めって Error: indexname is undefined -> エラー:indexnameが定義されてません Windows版バイナリパッケージを解凍した素のestseek.cgiを実行したって Error: the index is missing or broken って出る(バイナリパッケージにいきなりcasketなんていうフォルダはない から当たり前)のに、undefined って出てるんだから、完全にコンブ(これも 新しい俺用語だな)の記述ミスだろ
941 :
915 :2006/12/13(水) 22:15:15
>>940 すいません。。。そこからコンブがまずいとわかりませんでした↓↓
コンブの中身はこうししてるんですが・・・
どこがまずいですか?
環境はC:\www\casketにCASKETがあって、C:\www\public_htmlにindex.htmlやestseek.*やtest.cgiがある感じです。
加えてC:\www\cgi-binにもindex.htmlやestseek.*やtest.cgiがある感じです。
以下の中身はcgi-binの方です。
indexname: /www/casket
・・・
replace: file://C|/www/public_html/{{!}}
http://localhost/ replace: /index\.html?${{!}}/
・・・
それを見る限り、indexname: /www/casket って*確かに*定義してあるよね でも、estseek.cgi を実行すると undefined ってエラーが*なぜか*出てるんだよ 何かきっと単純な見落としがあるんだろうけど、それが何かはエスパーが降臨しないと分からん 試しにWindows版バイナリパッケージをもう一度落としてきて、それをC:\hyperestraier に解凍して、 C:\hyperestraier\estseek.conf の一行目を indexname: c:/www/casket にして、コマンドプロンプト から、 C:\hyperestraier> estseek.cgi [ENTER] って実行してみな これが動かなかったら PC を窓から投げ捨てろ 動いたとしたら地道に違いを見つければきっと解決できる
あ、ちなみに estseek.cgi が動くと言っても、コマンドプロンプトから実行しても HTML がずらずらーーっと出てくるだけだからな CGI としてブラウザから操作できるかどうかは、apache の設定とかも絡んでくるから別次元の話
>>941 > C:\www\casketにCASKETがあって
だったら何で
indexname: /www/casket
なの?
indexname: C:\www\casket
にしなければならないんじゃネーノ?
あと、その casket が estwaver で作ったものであるなら、
indexname は 〜/casket ではなく 〜/casket/_index にしないと動かないわけだが
945 :
915 :2006/12/14(木) 09:52:34
>>942 ,943,944さん、ありがとうございました。
ただestcmdで作ったものなんでスけどね。。。
waverで作って、やってみます。
動かなかったら、新品のPCを最上階から投げ捨てる覚悟を作ってやります!!
946 :
915 :2006/12/14(木) 09:53:15
サゲ忘れ
>>945 で、
indexname: C:\www\casket
は試したのか?
誰も waver で作り直せなんて言ってないだろが。
とっとと窓から投げ捨てろ
948 :
名無しさん@お腹いっぱい。 :2007/02/18(日) 19:07:15
今月発売の Software Design で HyperEstraier 特集 age とく
>>948 あ、それおいらも今日立ち読みした。
でも、記事は動作原理とインストールして走らすまでの
話が主で、Namazu みたいに使いこなしのこなれた
枯れたシステムという感じではないね、やっぱり。
へたれな おいらは mew 以外ではまだしばらく
様子見しまつ。
estwaver で pdf ファイルのインデクシングできないぞ。
_conf で denyrx: から pdfを除外して、
typerule: ^application/pdf${{!}H@/usr/local/share/hyperestraier/filter/estfxpdftohtml
を入れても、estwaver crawl xxx すっと
2007-02-20T01:47:06Z INFO fetching: 1:
http://.../MS0024320.pdf 2007-02-20T01:47:06Z INFO ignored: 200:
http://.../MS0024320.pdf となる。なぜだろう?
pdftotextが入ってないんじゃない? estfxpdftotextはシェルスクリプトで、内部的にpdftotextを読んでるだけだから。
952 :
950 :2007/02/20(火) 11:23:44
>>951 estcmdはちゃんと動くからその問題ではないす。
estcmd gather -cl -fx ".pdf" "H@estfxpdftohtml" -fz -ic UTF-8 -sd -cm casket /var/..
これは問題なくうごく。
ソースを追うとさ、estwaver が呼んでいる fetch_document が
status 200 を返しているんだな。てことは、est_url_shuttle
が200を返しているんだけど、その先が thread になってて
ようわからん。
953 :
950 :2007/02/20(火) 12:36:47
自己解決しますた
× typerule: ^application/pdf${{!}H@/usr/local/share/hyperestraier/filter/estfxpdftohtml
○ typerule: ^application/pdf${{!}}H@/usr/local/share/hyperestraier/filter/estfxpdftohtml
ttp://hyperestraier.sourceforge.net/cguide-ja.html のタイプミスに気が塚なんだ onz
えす採れ1.4.10おめ。
955 :
名無しさん@お腹いっぱい。 :2007/03/12(月) 12:45:54
学生じゃないんで泣く泣くあきらめる
とっつぁんは学生の仕事とりあげちゃいかん。
学生の仕事はきちんと単位をとって論文書いて卒業することだw
WINDOWSの話で恐縮なのですが、質問させてください。 pukiwikiのデータのインデックスをestwaverで作ろうとしたのですが、 casketの_confでseedで指定しているページのインデックスしか作ることが できませんでした。(リンクをたどってくれない。) 通常のhtmlのページは取り込むことができます。 pukiwikiのようなURLでリンクが張られるページのインデックスを、 estwaverで作るにはどうしたらいいのでしょうか。 denyrxなどで弾かれているかと思い、制限がかかりそうなところは 全てコメントアウトするなどしたのですが、変わりませんでした。 またseeddepth,maxdepthは20にしています。 ヒントだけでも結構ですので、もしわかる方いましたらよろしくお願いします。
>>959 denyrxで弾かれてるしかないだろうな
961 :
名無しさん@お腹いっぱい。 :2007/03/26(月) 09:59:59
denyrxでlocalhostが入ってるからじゃね?
962 :
959 :2007/03/26(月) 19:00:49
>>960 ,961
レスどうもありがとうございます。
denyrx、noidrxは全てコメントアウトしているのですがだめでした。
その後いろいろ試行錯誤していたのですが、偶然取り込むことができました。
前に取り込めたhtmlも動作がおかしいようだったので、unittestを
してみたところ、_confが上書きされてしまいました。
そこで改めて設定をやり直したところ、ちゃんと動作しました。
_conf以外にはseedをphpの吐くページではなく、その上にphpにリンクを
張っているhtmlを作るという変更をしました。
あまり原因が明確ではないのが気持ち悪いですが・・・
付き合ってくださった方々、どうもありがとうございました。
一生懸命いじっていた _conf は全く別の場所のファイルだった説を唱えてみる
次スレはHyperEstraierでいいよね?
おう、次スレの時期か。 このスレ、ここまで来るのに2年以上かかったのね。
スレの速度もHyperになりましたか。
967 :
名無しさん@お腹いっぱい。 :2007/04/15(日) 19:12:10
Win用のバージョン1.4.10でファイル検索システム用にノードサーバを立ち上げて 検索インターフェース(search_ui)で検索をかけたのですが検索結果のリンク先が文字化けします estseek.confの「showreal」のような設定はできますか? あるいはestseek.cgiをインターフェースに使うことはできるのでしょうか?
うう、*.tex とかを読ませる方法がわからん・・・
つ「マニュアル」
そうなんですが、正直なところマニュアル(uguide-ja)は、 入門者には情報が多すぎるのと専門用語が多くてわかりにくいです。 もうちょっと腰を落ちつけて読みます。
んなこたねえだろ
いややっぱりわからんです。私の頭悪すぎなのでしょう。
>>972 HEのは、特徴的な文体ではあるな。
しかし、ほかのソフトマニュアル
のほうがうんと読みやすい、てことも
ないわけだし。
estcmd gather -il ja -sd casket ~/foo/*.tex でもだめ、 find ~/foo -iname '*.tex' | estcmd gather -il ja -sd casket - でもだめ。 なんか大きな間違いをしてますか? > 特に構造のない文字列です。デフォルトでは、ファイル名の接尾辞が「.txt」「.text > 」「.asc」の場合にプレーンテキストとして扱われます。 はわかるんですが、デフォルト以外はどうしたらいいのかの説明がないから 迷ってしまう・・・ >第3引数としてファイル名を指定すると、そのファイルから処理対象のパスのリス >トを読み込みます。 これもわかりにくかった。 -fxは、ファイル名の接尾辞に関連づけた外部コマンドを指定します。カンマ区切 りで複数の接尾辞を指定できます。「*」だと全てのファイルに一致します。コマ ンド名の前に「T@」をつけるとその出力がプレーンテキストとして解析され、「H@ 」をつけるとHTMLとして解析され、「M@」をつけるとMIMEとして解析され、いずれ でもない場合は文書ドラフトとして解析されます。このオプションは複数回指定で きます。 ここらへんなんでしょうが、私には意味わからんです。 この文章のあとにexampleが欲しいと思います。
-fx の事例があるのは「外部コマンドのフィルタ」の部分で、 ここでもふつうのテキストをどうすれば読ませられるかってのは わからない。うーん。 なんというか、もうひとつ流行らない理由がわかりました。 googleでも解説ページのようなものがひっかからないし。うーん。 なんか貢献したいんですが。
*.texを普通のテキストとして読ませるなら % estcmd create tex_db % find /usr/share/doc/ -name '*.tex' | estcmd gather -ft -fz tex_db - みたいな感じでどう?
あ、ごめん、'-fz'とかいらないわ。 '-ft'が読み込んだファイル全部をテキストファイルとして 扱うってオプションです。
なるほど、そういうふうにするのですか。助かります。 ありがとうございます。
980 :
774 :2007/04/22(日) 11:22:42
複数のインデックスを作っておいて、同時に検索できるのでしょうか? estseek.confのindexname: 部分では複数の記述ができませんでした。
estseek では無理 ノードマスタを叩け
>>983 ありがとうございます。
DesktopHEを見ていると、対象を複数書いても1つのインデックス。
普通にgatherだけでは作れないかもしれないですが、こちらの方法も調べてみます。