全文検索エンジン Hyper Estraier 2
1 :
名無しさん@お腹いっぱい。 :
2007/04/17(火) 19:56:12
2 :
名無しさん@お腹いっぱい。 :2007/04/17(火) 19:57:06
「はっ!はぁぁぁあんっ!ナ、ナマズは?ナマズは、こ、超えたの??」
いいえ、タイにご執心の気違い次男がいる限り、なまずは不滅です。 もっとも最近は、もっとダイレクトにcockらしいですが。
こんなところにエロゲーのスレが!??
インストール方法から検索方法までの詳細 ↓ ↓
つGoogle
11 :
名無しさん@お腹いっぱい。 :2007/04/22(日) 20:12:08
フロントエンド、統一してくれんかのぅ
12 :
774 :2007/04/23(月) 01:14:13
複数のインデックスを作っておいて、同時に検索できるのでしょうか? estseek.confのindexname: 部分では複数の記述ができませんでした。
14 :
13 :2007/04/24(火) 22:22:08
すみません。前スレに移動しました。
relwords.qdb って何処で入手できるんでしょうか。
18 :
16 :2007/05/02(水) 22:17:48
俺なら作者に「お願い」するけどな。 ところでGNU FDLに基づいて公開義務が生じる根拠って何かあるの?
20 :
名無しさん@お腹いっぱい。 :2007/05/06(日) 11:58:48
22 :
名無しさん@お腹いっぱい。 :2007/06/12(火) 00:07:48
KaMailV3もここで良い?
xyzzyのスレがあるべ。 作者さんはずっとあっちの人だ
estcmd search -ord のあとに何をかけばいいのかわかんねー。 rubyの二つの bindingもどういう得失があるんだろう.. やっぱり purerubyだとちょっと遅いとか?? ちょっとソースに diveしてくる。
25 :
名無しさん@お腹いっぱい。 :2007/07/02(月) 22:06:30
mixy日記はコーパスとしておもしろそうだよねえ。
namazu.el と同じようなフロントエンドおねがいしますー。 上にあったlookupじゃ使いにくいです。 リターン一発で編集したいです。
28 :
名無しさん@お腹いっぱい。 :2007/08/26(日) 14:16:34
Windowsバイナリ版で作成したインデクスと付属CGI(estseek.cgi及び関連ファイル)は そのままレン鯖にうpしても動かないですかね? 試用段階なのだけど、なにか違うんだろうか。
29 :
28 :2007/08/26(日) 15:33:46
ご、ごめん、いずれにしてもRubyからアクセス(検索)することになるので そっちをテストしたらうまくいきました。 付属CGIが動かない理由はまだわからないけど、 自分でもいまいち整理できてないですし、 estseek.cgiは使わないので質問は取り下げます。 ごめりんこですm(_ _)m
ちかごろ良さげなパッチがMLに 流れてるが、作者はマージせんのか。 中華、作者はメンテしてんのか?
確か1.4.9と1.4.10の間も長かったな。 mixi移籍後社内業務で手一杯なのか開発速度が大幅に落ちた希ガス
>>32 開発スピードが遅くなるのはいいんだけど、放置プレイだけが心配だなぁ。
Tokyo Cabinet で QDBM の不満点を解消したとかいってるし、QDBM 放置 → H.E. も放置な流れの気配が…
34 :
名無しさん@お腹いっぱい。 :2007/11/05(月) 14:51:27
100万レコードくらいのインデックスを作成したいのですが、 mysqlのエラーで止まります。何かいい方法ありますか?
そもそもmysqlのエラーというのが発生する経緯がわからん どういう使い方をしているのか、それを説明したまえ
36 :
34 :2007/11/06(火) 19:34:03
>35
レスありがとうございます。
hyperestraierとacts_as_searchableというrailsのプラグインを使って、全文検索を行いたいと考えています。
acts_as_searchableに備わっているreindex!というメソッドを実行すると、インデックスが構築される仕様になっているのですが、
これを実行すると、だんだん処理が重くなり、最終的にはMysql::Error: Lost connection to MySQL server during queryというエラーが出てしまいます。
reindex!というメソッドはデフォルトでは対象になるレコードを一気にメモリにのせてしまうので、
そのあたりは負荷を減らすようなコードに修正して実行しています。
(このような感じです。
ttp://d.hatena.ne.jp/yune_kotomi/20070912/1189617411 )
hyperestraierのメーリングリストで、mysqlのLost Connectionを改善する
mysql_retry_lost_connectionというrailsのプラグインを教えて頂いたのですが、
インストールしても効果がなく、どうも、接続が切れる前の段階でつまずいているような気がします。
対象レコード数は100万弱で、途中で止まってしまいましたが、
#docs => 22897、#words => 196666まではいけました。
なにかアドバイスいただければ幸いです。
よろしくお願いします。
そのMySQLのqueryとやらは、その先の処理が何時間かかろうともいつまでも待ってくれるの? 単にタイムアウトしているだけのような気が...
つーかMLとマルチ?やるなあおい
作者こないね
マルチっていうより、ML で有効なレスポンスがないからこっちにも、ってことだろう。 残念ながら俺は MySQL と組み合わせたことも Rails も使ったことがないからよくわからん。 つか普通 MySQL で全文検索するんだったら Senna じゃね?
いや、だからさ、作者はメンテする意思あんのか、と。
42 :
名無しさん@お腹いっぱい。 :2007/11/12(月) 00:50:42
メンテナンスに関しては、開発者コミュニティが形成されていない のがダメな点だな。 作者の手を煩わせてはいかんよ。
いやでもパッチ投げても直接マージされるわけじゃなく、本人がリライトして 著作権保持者を維持してるので、開発コミュニティの形成はforkでもしないと 無理だよ。
作者がmixiじゃなくgoogleに就職していれば…
45 :
名無しさん@お腹いっぱい。 :2007/11/12(月) 10:59:56
googleに行ったフーリソフトウェア者も沈黙しちゃってる件(泣)
マイクロソフトはソース見たらフリーウェアに参加で着なくなるけどほかのも?
estseek.cgiで属性検索しても結果に出てこないのはなんで? [UVSET]してるけどなー
あとgather -aa @uri STRで属性インデックスつけてるけど やっぱ遅いですね 属性検索で速く検索する方法ありますか
>>48 それ属性インデクス追加のオプションだっけ?
おれは
estcmd create -attr @uri str idx
とかやって属性インデクス付けたよ.
1000万件位のレコード数だったけど,URI検索は体感できるほど
速くなった.
50 :
名無しさん@お腹いっぱい。 :2007/11/29(木) 10:43:00
http://hyperestraier.sourceforge.net/index.ja.html > 最新のソースパッケージ(バージョン1.4.12)
あれ、いつの間に。
ML 入ってるけどリリース情報なかったぞ。
何にせよ復活age.
ただ、ChangeLog 見る限り、
2007-11-18 Mikio Hirabayashi <
[email protected] >
* estraier.c: code clean-up.
- Bugs related to type casting of perl binding were fixed.
- Release: 1.4.12
2006-11-11 Mikio Hirabayashi <
[email protected] >
* estraier.c (est_resmap_add): "method" argument was added.
* estraier.c (est_inode): a bug related to overflow was fixed.
* estraier.c (est_narrow_score): a bug related to attribute distinction was fixed.
* estraier.c (est_search_union): search accuracy with trailing uni-gram was improved.
* estmaster.c (searchlocal): a bug related to scanning with regular expressions was fixed.
* estscout.c (realmain): "union", "score", and "idsuffix" attributes were added.
* estsupt.c (realmain): "score" attribute was added.
* estsupt.c (procsearch): accuracy of hint was improved.
* estsupt.c (realmain): "logmsg" parameter was added.
* estscout.c (realmain): "distinct" parameter was added.
* estscout.c (showresult): cache clear at random was added.
- Release: 1.4.11
ここのところ精力的に ML に投げられてたパッチはマージされてなさげ?
pthreadsライブラリのないシステムで動かしたいんですが なんとかならんですかね。
53 :
名無しさん@お腹いっぱい。 :2007/12/06(木) 19:59:56
Chimera Search(キメラ・サーチ)
http://www.osstech.co.jp/product/chimera > 構築コンポーネントに以下のOSS(オープンソースソフトウェア)を利用
> しているため、安価に導入できるのに高性能・高機能を発揮します。
> * プログラム言語: Rubyおよび Ruby On Rails
> * 全文検索システム : Hyper Estraier
百度でやってるように 會→会 懷→懐 みたいに異体・旧字体・繁体・簡体をまとめてくれるといいのに。 estraier.c のなかの canonize なんとか関数に誰かちょっちょっと書き加えてくれ。
>>53 こういう製品って虚しいよね。
だって、導入60万、年12万だったらGoogle MINIの方が
安いし、ハードウェア込みの提供だからメンテフリーだし。
実際,うちの会社はWWW用はGoogleMINI にした。
部内サーバは自分でHyper Estraierをいれた。
>>55 それはそうなんだが、Google MINIってちっとも社内のニーズに合わせてくれなくて不満がでるんだよな。
ページの計算もなんか適当に丸められちゃうし。
コレ使って、某サイトの1万件の記事の全文検索作ったが早いし良いね!! acts_as_searchableの未完成具合に泣いたけどww Rails系のエンジニアに聞くと皆使ってるし、 結構いろんなサービスでも使ってるみたい。
最新版のWindows版のバイナリパッケージを配布して欲しい...
ありゃ、SennaはともかくHEにもないんだ…
(  ̄0 ̄)Ψ 誰かぁぁ PHP-nativ binding を作ってぇ〜
61 :
名無しさん@お腹いっぱい。 :2008/01/29(火) 14:23:57
クローラー+ノードサーバーを使用した検索をシステムを動かし
http://*****:1978/node/***/search_ui の形式で検索には成功しました。
次ステップで
estraierpure.rb を PHP に移植したという 「EstraierPure for PHP 4.3」を使用し、ClassNodeを利用しましたが、検索結果に同じサイトばかり表示されてしまいます。
1:Pure版には 類似隠匿機能はないのでしょうか。
Ruby、Javaにもないようですし..
2:Binding版(Perl等)には、類似隠匿機能(set_eclipse)があるのですが、classNode がありません。
Binding版で、P2P(ノード)利用した検索をシステムって可能なのでしょうか。
CPAN(Search-Estraier)を観ましたが、classNodeがあったのですが、set_eclipseがありませんでした
3:そもそもBinding版とPure版の違いってなんでしょうか。(汗
全く、的外れな質問でしたらお許しください
やりたいのは、「P2P+クローラーでの検索サーバーの構築」です。
5年ぶりになまずを再インストールしたらすごくまともになってた。これでいいじゃん。
5年ぶりかよっ。
65 :
名無しさん@お腹いっぱい。 :2008/01/30(水) 02:18:18
鰤と鯰
66 :
61 :2008/01/30(水) 14:55:51
面倒くせーですか.... Cでやってみましょうか..15年ブリ(鬱
いくらなんでも鯰でいいはないだろ… 検索漏れ大杉でとても使う木になれん
>検索漏れ大杉 ヒント Mecab
namazu+kakasi じゃなくて 鯰+和布蕪ってこと?
>>66 Cで組むならQDBMの使いこなしが必要。
関数になれましょう
71 :
名無しさん@お腹いっぱい。 :2008/02/07(木) 15:54:15
景気よくageます. Windows版バイナリパッケージのverは1.4.10で止まったままなんでしょうか. どなたかビルドしておられたらありがたいですが
1.4.10 で困ることあるのか?
辞書データ変換ツール一般についてと (製品版のデータを全部持った)体験版のデータ変換についての話が 入り乱れてないか?
すまん、誤爆した。
75 :
名無しさん@お腹いっぱい。 :2008/02/20(水) 02:24:28
これ、データーベース(QDBM)が壊れまくり。 DBが開いた状態で、プロセスが落ちると100%ぶっ飛ぶ 速いらしいが、こんなん怖くて使えないわ。 どうでもいいような、無くなってもいいデータしか扱えないわ。 さてと、1000万件のデータ、ゼロから収集だわ(鬱 なんとかならんでしょうかね
なんとかしてみてよ。
俺もbsfilterでqdbm使ってたらすぐ壊れたんでsdbmに変えた・゚・(つД`)・゚・
>>77 よかったな! sdbmの方が圧倒的に速いぞ。
80 :
名無しさん@お腹いっぱい。 :2008/02/21(木) 13:32:05
まぁ〜、トラック と ノーヘルどころか、頭蓋骨すらない脳味噌丸出しのバイク便の差。 高速道路で同じ荷物を運んで どっちの運ちゃんが逝くかは明白。 シートベルト程度の防御は欲しいけど、速さと安全は成り立たないだろね。 RAMにカキコされたキャッシュ程度のモンよ
81 :
名無しさん@お腹いっぱい。 :2008/02/21(木) 18:56:31
HE+Tokyo Cabinet に変わるまで待てよ
TC ってさらに速さを追求したライブラリなんじゃネーの? 安全性上がるのか?
84 :
83 :2008/02/23(土) 13:52:41
http://alpha.mixi.co.jp/blog/?p=98 > QDBMにおいては、データベースを開いているアプリケーションが異常終了した場合、
> もしくはデータベースを適切に閉じずに終了した場合は、データベースが壊れるように
> していました。それらは明白なバグであり、アプリケーションの作者やそれを使うことを
> 選択したユーザに何らかの意識的な対処を求めることが適切であると考えたからです。
> (中略)
> しかし、上記のような理想主義と「上から目線」では現実の問題に対処できないことを
> 近ごろ感じはじめました。マナーを守らない/守れないユーザやユースケースも結構な
> 割合で存在するのが現実なのです。したがって、TCは、マナーを守らないアプリケー
> ションやそのユーザにも宥和する戦略に転換しました。
突然の停電とか当たり前に起こりうる事態なんだから、
バグとかマナーとかそういう問題じゃないと思うんだよな…
アプリにバグが無くても OS の不具合で落ちることなんかしょっちゅうだしな。
サバイバビリティの概念がないソフトウェア設計者がいるのか。 能力的に対処できないということはなさそうだから、 実世界の面倒くさいことから逃避するための言い訳か。 > アプリにバグが無くても OS の不具合で落ちることなんかしょっちゅうだしな。 そんな事がしょっちゅうあるようなOSは使わないのが普通。 開発者がアレだとユーザもアレなのが集まるというのを実感しないでもない。
>>86 おまえは Windows を使ったことがないのか?
●ノードマスタの異常終了(再起動シナイ) サーバールートdirの _pid と _stop の削除 ●DBの復旧 estcmd repair index_path
共有鯖で、クローラーを動かしてますが、突然、 「out of memory」で止まってしまいました。( p_q)エ-ン クローラールートディレクトリ(rootdir)内が飛んだようで 以後、 estwaver crawl rootdir で 「could not open」となり起動できません。 メモリが少ないのはわかるのですが、先日までは正常に動作してました。 rootdirの復活方法など対処方法を教えてください (o*。_。)oペコッ
つ…釣り?
あるいは「一般人」かも
むしろ今後HEが放棄されそうで心配…。
mixi.jp 内で動いているエンジンを表に出して欲しい。
>>92 中見てないけどtokyoestraierってのがそうじゃないの?
>>92 選択肢の一つではあるが、技術的に妥当な選択だとは思わないな。
用途が制約される(上位層やユーザがその要求を履行するのは難しい)という点で。
トレードオフのある技術選択において何が妥当かはユースケース次第だろう。 consistencyを真面目に考えたらそれこそスタンドアロンでは実現できないし。
99 :
名無しさん@お腹いっぱい。 :2008/02/28(木) 13:12:04
DesktopHEでファイルサイズとテキストサイズの上限を調整する方法教えてくれよ。
ココもMLも過疎ってるし...
node配下のインデックスファイルって 別のHEシステムにインポートできないかな。 独立したサーバAで作ったインデックスを 別の独立したサーバBにrsyncで飛ばして してクローン作るとか・・・
rsyncでやってみれば 多分動くでしょ。AとBのアーキテクチャが同じなら
Q. ビッグエンディアンもしくはリトルエンディアンのマシン上で動きますか? A. はい。どちらでも動作します。ただし、双方でインデックスを 共有することはできません。 そうでない場合は共有できるんじゃないの?
104 :
名無しさん@お腹いっぱい。 :2008/04/04(金) 10:03:10
> 101 私やってますよ サーバAでestwaverで集めて、サーバBにrsyncで飛ばして、検索はBで ってシステム構築してます AもBも同じPC同じOSですが
>>101-102 レスd
バックアップとしても使えそうね
てか過疎で誰も居ないかと思ってたけど
人がまだ居て嬉しかった(´;ω;`)ブワッ
107 :
名無しさん@お腹いっぱい。 :2008/04/09(水) 23:28:58
tokyocabinetのwin32版って、どこ?
109 :
名無しさん@お腹いっぱい。 :2008/04/10(木) 10:05:57
お、TCのドキュメントでたんだ。 期待age
110 :
52 :2008/04/17(木) 18:25:17
>>52 >pthreadsライブラリのないシステムで動かしたいんですが
Hyper Estraierの前身の Estraierが pthreadsを必要としてなかったのでそっちを入れました。
pthはだめなの?
112 :
名無しさん@お腹いっぱい。 :2008/04/18(金) 10:46:20
Windowsで作成したデータベースをFreeBSDにコピーして使用しようと思い「P2Pガイド」の 「初期導入の効率化」を参考にデータベースを作成したのですが、検索が上手くいきません。 FreeBSD側に持っていっても、estsmdでは正常に検索できるのですが、サーバを立ち上げて estcallを使うと、検索結果のヘッダ(ヒット数など)は表示される物の、それに続くはずの 文書一覧が表示されません。 どなたか原因分かる方見えませんか?
>>111 GNU pth というのがあったとですか。勉強になりました。
でも本当の UNIX系OSではなくて UNIXエミュレーション環境なので pth では無理かも。
ともかく調べてみます。ありがとね。
インデックス作成していたらout of memoryで止まるorz 物理メモリ1GB、仮想メモリ1.4GB使い切る・・・ -ftなんか使う物じゃないんだろうか javaとかのソースコードも見たいんだけどなぁ・・・
なるほど。参考になりました。 大学の研究室のファイルサーバ(約600GB)の検索用に導入しようと試みているんですが 実験のログやそれをとりまとめたxls、論文のdocやpdf、プレゼン用のppt(x)に 実験プログラムなどなど混沌としているため目的のファイルを探すのが容易になればと・・・ -ftじゃなくて.javaなどもテキストファイルとして認識するようにどこか変更すればいいんだろうか。 がんばっていろいろいじってみます
117 :
名無しさん@お腹いっぱい。 :2008/05/05(月) 21:20:24
KaMailV3でH.E使っているんですが、mh形式のメールを登録したときに、メール内の添付ファイル名で検索することってできるんでしょうか。 H.E単体で、できないものであれば、あきらめようと思っていますが。
Windowsバイナリ版1.4.9を数台のPCに設置&P2P連携し、 デフォルトの検索インターフェイスやコマンドラインからメタ検索をしているのですが、 似た内容のファイルが複数ヒットすると数件しかスニペット表示されません。 (例えば、5件のファイルがヒットしてもスニペット表示されるのは1件だけとか) 何かオプションを指定するなどしてヒットしたすべてのファイル、 あるいは上位何件かのファイルのスニペットを表示させる、 ということはできないのでしょうか?
壊れやすいよね。 問題なのは壊れたのに気づかないという・・・ リペアしてもリペア出来てないという・・・
検索結果をXMLで受け取りたいときはどうしたらいいの?
estcmd なら estcmd search に -vxを付けると、属性情報とスニペットをXML形式にして結果を出力します。 ってマニュアルに書いてあるよ。 それ以外は自分でAPI使ってXML返すプログラムを作るってのが 本来の使い方だろうね。
APIつくらないとダメかなぁ〜
124 :
名無しさん@お腹いっぱい。 :2008/06/22(日) 17:24:43
256Mのバーチャルサーバーで動かしてます。 検索時はメモリオーバーになるらしく、プロセスがKILLされまくります。 どれくらいのメモリがあれば使えるものですか?
128M の玄箱 HG でも動いているが… なんか使い方おかしいんじゃね?
>>124 バーチャルサーバのスワップはちゃんととってます?
検索対象拡張子を追加するにはどこいじればいいんだろう? .javaとかをテキストとして処理するようにしたいんだが・・・
128 :
124 :2008/06/23(月) 16:57:29
バーチャルサーバのスワップ? どうやって取るんだろ。。( p_q)ワカンネっす PLASKサーバーです _conf の設定が悪いのでしょうか。。P2P(estmaster)で使ってます。 _confにメモリ周辺の設定ってありましたっけ?
129 :
名無しさん@お腹いっぱい。 :2008/06/24(火) 02:03:12
.netからDLLを利用しようと思ってます。 が、検索のAPIがDLL内でmallocしたものを返す仕様になっており、 メモリ解放ができません。 内部で完結するよう関数追加してビルドしなおししかないでしょうか?
DTDって変更したいときは任意の場所に出来るのかな? デフォルトのファイルを書き換えるだけ?
>>129 どうしたいのか分からんが、間にラッパーを
かませればいいんじゃないの?
>>131 はい、ラッパー作った方がいいと思います。
ラッパーのビルドもcygwin入れて本体と同じライプラリつかってやるんですよね。きっと。
UNIX系はさっぱりで、makeファイルすらよくわからず、相当時間がかかりそうです。
とり急ぎ直近はSearch系だけestcmdでやっちまおうと思います。
ギャザラはDLL使うのでなんとも不格好なんですが。
freeをcrtからインポートすればいいだけじゃないの?
makeの設定とdllの中身見たらmsvcrt.dllでいいみたいですね どうもありがとうございました。
質問です。 windows環境でRailsの開発をしててHyper Estraierを使いたいんですが、 配布されているバイナリパッケージにRubyバインディングが見当たりません。 Cygwinでソースをmakeしても、Hyper Estraier本体は入るんですが、 Rubyバインディングのmakeでコケます。 windowsでは無理?
どうコケのかを言わずに、どう答えて欲しいんだろう
138 :
名無しさん@お腹いっぱい。 :2008/07/24(木) 13:28:58
ショボ頭の自分助けて… pdfをインデックス化したいんですけど、30MB超えるpdfだと、 文章の途中までしかインデックス化してくれません。。 特にエラーとか出てないんですけどなんでだろ? $ estcmd gather -cl -fx ".pdf" "H@estfxpdftohtml" -fz -ic UTF-8 -il ja -lf -1 -lt -1 -sd -cm casket ./ 一応、-lf -1 -lt -1で、ファイルサイズ制限無しとかにしてみるんだけど、 マニュアルとかGoogle先生とか聞いても対処方法もわかんなくて、、 こんなバカ助かるかな?
139 :
fumiyas :2008/07/25(金) 12:27:12
>>138 estfxpdftohtml スクリプト中に「ulimit -v 262144 -t 10 2> "/dev/null"」ってのがあるから
「262144」の部分を適当に多くしてみるとどう?
140 :
fumiyas :2008/07/25(金) 12:55:11
>>114 うちの estmaster もインデックスにデータを投入するごとに肥大化しているような。
お客さんのところでメモリ使用量 1GB 越えも発生したので、調査する予定。(;_;)
… その前に Tokyo Estraier を試してみようかしら?
141 :
名無しさん@お腹いっぱい。 :2008/07/25(金) 15:21:53
>>139 うぅ、バカに救いの手をありがとうございます。orz
少しインデックス化できた文章が増えたので、イケルか!と思ったんですが、
値を倍位に変更しても、それ以上は増えなくて、やっぱり途中で切れちゃってる。_| ̄|○|||
( -t 10 => 500とかもしてみたけどダメだった…)
なにげに、
$ pdftotext -enc UTF-8 -htmlmeta "pdfファイル"
これでやってみると、きちんとオワリまで文章がテキスト化されているみたい。
新たに発覚したんだけど、どうもpdf文章の途中でたまたま出てくる「<<」の記号から、
「>>」の所まで、ごっそり文書がインデックス化されてないっぽい。(゚ロ゚;))((;゚ロ゚)オロオロ
すまん、かえって混乱させてるかも。。
というか、自分混乱してる。
142 :
fumiyas :2008/07/26(土) 02:26:06
>>141 ああ、わかった…。(たぶん)
pdftotext のバグですね。
pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" | output
の部分を:
pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" \
|sed '/<pre>/,/<\/pre>/{s/&/\&/g;s/</\</g;s/>/\>/g}' \
| output
とでも書き換えてみてください。(これだと「pre」が単語として登録されてしまうが…。)
# sed 's/ -htmlmeta / -raw -nopgbrk /' /usr/bin/estfxpdftohtml > /usr/bin/estfxpdftotext
# chmod 755 /usr/bin/estfxpdftotext
とでもして、
$ estcmd gather -cl -fx ".pdf" "T@estfxpdftotext" -fz -ic UTF-8 -il ja -lf -1 -lt -1 -sd -cm casket ./
とするとか。
144 :
名無しさん@お腹いっぱい。 :2008/07/28(月) 14:06:44
>>142 ホントすいません、付き合って頂いちゃってありがとうございます。
pdftotext のバグですか!?
だとすると、こんなド素人に使いこなすのは難しくなっちゃうかも。。現状で満足せなあかんですかね(;´ー`)
スクリプトありがとうございます(人-)
ただかなり初歩的な部分で分からないところが…(滝汗) そもそも sed がイマイチ分かってないしょっぱい自分…
> # sed 's/ -htmlmeta / -raw -nopgbrk /' /usr/bin/estfxpdftohtml > /usr/bin/estfxpdftotext
> # chmod 755 /usr/bin/estfxpdftotext
estfxpdftohtml や estfxpdftotextは /usr/local/share/hyperestraier/filter にあって
/usr/bin には無かったりするんですが、その辺は読み替えろよこんちくしょう的な感じでしょうか…?(゚Д゚;)アワワ
それともそのままやっちゃっても大丈夫的な感じでしょうか?
145 :
fumiyas :2008/07/29(火) 13:53:59
>>144 まずは pdftotext のバグについて。
pdftotext は -htmlmeta オプションを付けると PDF に含まれる
本文のテキストを簡単な HTML にして、プラス文書情報 (Adobe Reader なら
[File] - [Properties] で表示される情報) を HTML の <meta> に
含めてくれますが、PDF 本文のテキストは <pre> で囲まれるだけで
その中に含まれる <, >, & を <, >, & に変換してくれません(バグ)。
なので PDF に「<HTMLのタグではない適当な文字列>」という文が含まれていると、
estcmd がそれを HTML のタグと認識してしまい、削除してしまいます。
sed がやっていることですが、<pre>〜</pre> の間の <, >, & を
<, >, & に変換しているだけです。
最後に estfxpdftohtml(text) の置き場所ですが、私の手元の Debian の
hyperestraier パッケージでは /usr/bin に置かれているというだけで、
そっちの環境で /usr/local/share/hyperestraier/filter なら、
そっちに合わせて ↑ に置くのがいいと思います。
# sed 's/ -htmlmeta / -raw -nopgbrk /' \
/usr/local/share/hyperestraier/filter/estfxpdftohtml \
>/usr/local/share/hyperestraier/filter/estfxpdftotext
>>143 ハンドル(?)をググると出てくるので、そっちをどうぞ。:-)
146 :
fumiyas :2008/07/29(火) 13:57:46
ありゃ? 「&lt;」(実際は半角)とかが「<」に変換されちまった…。 どうしたらいいの? ま、いいか。
147 :
fumiyas :2008/07/29(火) 15:56:25
初心者板で聞いてきました。「&amp;」って書くのね…。 pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" \ |sed '/<pre>/,/<\/pre>/{s/&/\&/g;s/</\</g;s/>/\>/g}' \ |output その中に含まれる <, >, & を <, >, & に変換してくれません(バグ)。
148 :
名無しさん@お腹いっぱい。 :2008/07/30(水) 18:50:03
>>147 す・すすごい!!できたできました!!(・∀・∀・)
ごっそり抜けちゃってた文章も、タグだと誤解されてしまってたんですね。
きちんとインデックスに戻ってきました、戻ってきましたよ!!щ(゜ロ゜щ) カモ-ン
天才ですかfumiyasさま… (シ_ _)シ ネ申
>>147 ほんにありがとうございます。
確かにインデックスの方には <pre> が単語化されているようですが、
これはもう、しょうがないですよ…ね…?
はぁぁ、感動しちゃいました。(;∀; )
149 :
fumiyas :2008/08/01(金) 01:35:58
>>148 解決されたようでなによりです。
「pre」が気になるようなら、上で書いたように estfxpdftohtml
の代わりに estfxpdftotext でもどうぞ。estcmd の -fx オプションの
値を変更するのを忘れないように。
150 :
HE@SHE :2008/09/27(土) 02:48:36
Hyper Estraierで、URI属性をフレーズ検索の対象とする方法はありますでしょうか。
151 :
名無しさん@お腹いっぱい。 :2008/10/02(木) 13:47:11
すみません教えてください。 ファイルサーバ(Xとか入れてません)として使っているetchにHyper Estraierを入れてわりと経つのですが、 pdfの日本語がインデックスに入っていないことに気付きました。 いろいろ調べて、ひとまずpdftotextが日本語を変換してくれてないのだ、と分かりました。 degas@debian:~$ pdftotext 日本語入りのpdf.pdf Error: Unknown character collection 'Adobe-Japan1' : Error: Unknown character collection 'Adobe-Japan1' ってな状況ですorz。xpdfはapt-getでhyperestraierをインストールするときに 推奨パッケージでxpdf-utilsを入れたので、大丈夫だと思っているのですが…。 念のためいまxpdfも入れてみましたが、同じエラーが出ます。 指針が有ればお願いしますm(_ _)m。
Unknown character collection 'Adobe-Japan1' でググっても解決しないの? xpdf-japanese とやらを入れてる?
ありがとうございます。 xpdf-japaneseはapt-getだと入らないのですよ…何でか分からないけど。
そうですか。私にも何でか分かりません。
解決しました。 xpdf-commonをapt-getでインストール、 cmap-adobe-japan1を取ってきてdpkgでインストール、 さらに/etc/xpdf/xpdfrcに include /etc/xpdf/xpdfrc-japanese.dpkg-new を書き加えればOKでした。 apt-getしか使えない男にお付き合いいただきありがとうございました。 お邪魔しました。
ファイルを指定ディレクトリに置くだけだからapt-getイラネですよ。 DLしてtar xvfzしてREADMEだかINSTALLだか読めば分かると思う。
tokyo estraierはここ以外で存在が話題になっていないんだけど 商用、あるいは公用の検索システムに勝手に使っちゃっていいんだろうか
159 :
fumiyas :2008/10/27(月) 11:44:33
>>158 GPL と LGPL だし、問題ないでしょ。(たぶん :-)
で、tokyo estraier どんなくらい試しました?
>>159 >>158 じゃないけれど
普通にインデックスして普通に検索出来て普通に遊べて…
これ、本当にインデックス時にTokyoCabinet使ってるのか不安になってきた
データベースファイルの先頭バイトを覗いたら、[depot]って書かれてたりして
>>161 う…_attrフォルダの中に「depot」ファイルがあるんだが
過去のバージョンと、Windows版のバイナリパッケージのページが落ちてるようなんだが。 UNIX板でアレだけどWin版の1.4.10持ってる人だれか上げてくれないかな…
>>164 >>165 ディレクトリ一覧が表示されないだけだったのか。
ありがとう、助かりました。
お早いレスで俺涙目。
Tokyo Estraierってどこにあるの?
170 :
fumiyas :2008/10/30(木) 18:22:25
TE コンパイルしてみた。`estcmd create db` だけ試した。
>>162 _idx 以外は QDBM を使ってるんで、_idx だけ見てごらん。
$ /usr/local/tokyoestraier/bin/estcmd crete db
$ strings db/_idx/0001
ToKyO CaBiNeT
1.0:510
>>169 HE ソースとの diff とってみればわかるけど、一部のみ TC, ほかは QDBM。
ちなみに、`estcmd repair db` 時に _idx 以下は何もしないようになっている。
いいのか? いまのところ DB の構成を把握していないのでよくわからんが、
_idx が転置インデックス? ほかは? 知っている人、教えて…。
あと 100万以上の文書は試したことないんでアレなんだけど、
参考までにハードウェアの構成とか、estcmd create に
指定したオプション (estcmd を使っているなら。-xh 付けたの?)、
estmaster の _conf の設定等を教えてもらえると嬉しいです。
171 :
名無しさん@お腹いっぱい。 :2008/12/08(月) 22:30:47
Hyper Estraierについて質問させてください。
Windowsで一回動かしたんですが、cygwinのパスで結果が表示されてしまうので、
うれしくないと思い、VMware2.5.1 build-126130 でUbuntu7.10を動かし、
そちらでestcmd gather を走らせました。Hyper Estraier1.4.9です。
Apacheはxamppを使いました。
http://localhost/xampp/ は正常に表示されてると
思います。1.6.8aと出ています。あとphp5もスタートさせました。
でも、
http://localhost/cgi-bin/estseek.cgi にアクセスすると、
Error: the configration file is misshing.とか出ます。
/opt/lampp/cgi-bin/estseek.cgi と同じフォルダに estseek.confは置いてます。
estcmd search casket 'ほげほげ'
とかはちゃんとHITして結果が出てきます。
Errorが出てくる原因は何でしょうか。分かる方教えてください。
172 :
171 :2008/12/09(火) 22:34:48
自己レスです。よく分かりませんが estseek.conf estseek.tmpl estseek.top をchmod 744 したら動きました。失礼しました。
>>173 別に公開する必要は無い。
会社側からするとChimera Searchのバイナリとあわせてソースコードを提供する、
もしくはバイナリにソースコードの入手方法が明記された文書を添えておけばいい。
GPLv2での3-aと3-bね。
175 :
173 :2008/12/12(金) 19:40:13
>>174 そうなんだ。どうもありがと。
Webページ見たけど個人お断りみたいな事書いてあったな。
関係ないけどGPL v2日本語訳の原文へのリンクが間違ってるね(v3にリンクされてる)。
GPLはちゃんと読んでない人は世間の評判から誤解しやすいライセンスだから、 批判するんだったらちゃんと読んで理解してからにした方がいい。
>>47 にも書いてるけど,属性検索ができない.
Wikipediaの全文検索デモページで試してみたけど効果なし...
疑似ノードマスタって、認証なしなの? 通常のノードマスタみたいにユーザとパスを設定できないの?
estcmd outで文書の一括削除はできますか?
181 :
名無しさん@お腹いっぱい。 :2009/02/13(金) 23:47:32
Windows版のバイナリ落としてindexだけはコマンドで作ってみたんですが JavaのAPI使ってファイル検索や全文検索を行うサンプルコードが載って いるサイトとかってないですかね? web環境ないのでSwingから直で操作したいのですがAPIの使い方がよくわかりません・・ 初歩的な質問ですいません。
Unix板なのに申し訳ないのですが、Ubuntu Intrepid64bit版を使っています。 mecabを組み込みたかったのでソースからビルドしましたが、ライブラリとしてregexp.hだけ認識されないのでビルドできません。 32bitの時も同様だったのですが、こちらはネットでダウンロードしたライブラリをつっこんでインストール迄無事に成功しました。 aptitude search lib | grep -i regexp などで見つけたものを次々インストールしてみましたが全くお手上げです。 必要なライブラリについてご存知の方いませんか?
>>182 やったの去年だからよく覚えてないけど
ふつーのUbuntuならソフトウェアの一覧に普通に入っていた気がする
aptで入るね
185 :
182 :2009/02/24(火) 06:22:35
作者ページのタイトルがうざくなってるんだが、改ざんされたのかな
特に変わったようには見えないが。 > Last-Modified: Tue, 25 Dec 2007 01:47:27 GMT だし。
>>186 ソースみてみ。アクセスしたタイミングで表示されるものが変わるようになってる。
しかし作者タソはmixiに就職してからH.E.のほうには全然顔出さなくなったな。
ソース見てみた、何じゃこりゃ。 > case 59: name = "ちょwwwおまwwwいごww"; break; > case 61: name = "どう見ても超迷子です本当にありがとうございました"; break;
> From: [783] 名無しさん@お腹いっぱい。 <sage> > Date: 2006/09/17(日) 07:52:41 > > case 59: name = "ちょwwwおまwwwいごww"; break; > case 61: name = "どう見ても超迷子です本当にありがとうございました"; break;
検索してもHitしないってことはなにが考えられるのかな? 登録文書に検索語句は確実にあるし、DBも壊れていない・・・
ごめん、壊れてたみたい。 estcmd inform で壊れてるかどうかわかんないんだよなあ・・・
>>192 そうなの?おれもestcmd inform で情報出てきたら平気だと思ってた。
どうやって壊れてる判定したの?
>>193 絶対に登録文書にある文字列を検索しても出てこなかったので。
再構築で直りました。
インデックスが壊れているかどうか調べるコマンドが欲しい。
estcmd repair を、時々やらないと駄目ってことですかね。 (-_-;ウーン たまに治らないときもあるし.. -- 追記お願いします m(_ _"m)ペコリ--------- 【テク1】ノードマスタが再起動しない・・正常に停止しないとこうなる サーバールートDirの _pid _stop の削除 【テク2】DBがdでるっぽい #estcmd repair index_path ex.ノードサーバー利用時は(サーバールートをcasketなら) #estcmd repair casket/_node/ノード名 【テク3】estwaver crawl時の「could not open」エラーの解決法 クローラールートディレクトリを crawl_dir と仮定して Code: #cd crawl_dir #estcmd repair _index #dpmgr repair _trace/0001/depot #dpmgr repair _trace/0002/depot #dpmgr repair _trace/0003/depot
>>195 >>estcmd repair を、時々やらないと駄目ってことですかね。
repairを一回やってみたんだ。直ったかなと思って、それでも念の為に
もう一回repairしてみたんだ。登録文書がごっそり減ったんだ。
repairを繰り返す度に減っていくんだ・・・
あきらめて再構築したよ。
>repairを繰り返す度に減っていくんだ・・・ ((( ;゚Д゚)))ガクガクブルブル 「特定のキーワードにヒットしたを、DBから削除する」 なんてことできますか? 「特定のキーワードにヒットさせない」でもいいかなー
Estraierで2chのログファイルを全文検索してJaneで表示できないでしょうか。 DATファイルを全文検索に入れるだけじゃなくて、名前やスレタイで絞り込めれば最高なのですが。 DesktopHEで利用しようとしております。
>>197 私も探してみたけど、そのものは無いみたい。
よくやる作業ならcgiとか作るんじゃないかな。
コマンドから手作業するときは、例えばこんな感じ。
消したいやつを検索して
estcmd search -vu -attr '@uri STRINC /path/to/del/' _index BadWord
OKなら上のコマンドに以下を追加
|awk '$1 ~ /^[0-9]+/{print $1}' |while read id; do estcmd out -cl _index $id; done
>>198 出来ないことはないと思うけど、面倒くさいかもね。dat2htmlのフィルタ作って読みこませて、
DesktopHEの関連付けはjaneにすればいいみたいな。
私はhtmlに変換してブラウザで全文検索してる。そういう人の方が多いと思うけど。
>>200 速レスありがとう。
htmlに変換してって毎日巡回するたびにdat2html走らせてるの?
それとも真夜中にバッチ処理?
いずれにせよ、HDD容量が倍必要ですよね?
>>201 >>毎日巡回するたびにdat2html走らせてるの?
そうだよ。1時間ごとにdat2htmlを走らせてる。ロードアベレージを見て負荷が大きいときは処理しないようにしている。
ログは8GBくらいある。datファイルは定期的に削除している。
ウェブブラウザから検索できるので、LAN内で利用出来て重宝している。
>>202 うちもログは6Gぐらいあります。
全部変換するとなると15gぐらいいきそうですよねorz
Windowsだからロードアベレージ監視できないのと、指定したコテハンがNASDAQについて
レスした発言とかを知りたくても特定がとてつもなく難しいのがネックになりそう。
Threadsearchと併用しないと駄目ですかね。
XREAで設置しようとしたけど、インストールの段階で躓いたorz cannot find -liconvとかでてきてるし・・・ libiconvの入れ方に問題があるのかなぁ・・・。
205 :
名無しさん@お腹いっぱい。 :2010/01/07(木) 21:28:29
某サイト丸ごと吸い上げようと、 クローラーの設定seeddepthを50にしたら、5時間かかっても1つもインデックスできなかった... 種文書を全部吸い上げてからインデックスするとは知らんかった。 seeddepth1〜2でよさそうね。
Hyper Estraier のwinを使っている方に質問です。 当方初心者。 インストール、インデックス作成まではできました。なんとか。 しかし、estseek.confの内容変更の段で(だと思ってるんですが・・・)つまづいています。 replaceの行の変更はどのようにしたらよろしいのか教えていただけないでしょうか? 何卒よろしくお願いいたします。
>>206 win版も使ったことはありますが、それだけでは何がなんだか分かりません。
estcmd inform casket は通りますか?
Hyper Estraier の画面は出るのですか?
表示のどこかに不満があるのですか?
どうなって欲しくて、現状どうなっているのか書いてください。
ゴミのような2chのログも、こいつを使うと宝の山になる。 はらしょー
209 :
名無しさん@お腹いっぱい。 :2010/02/05(金) 14:01:07
Hyper Estraier 1.4.10(Win)を利用している者です。 ブラウザの検索結果画面のリンクをクリックしてもジャンプしないという経験をした方はいないでしょうか? 今、その状態です。 検索結果画面のソースを丸々コピーしたhtmlファイルを作成し、それをブラウザに表示し、リンクをクリックすれば目的の文書にジャンプします。 すごく不思議な感じです。ブラウザはIE、sleipnirで確認しました。 どのようにすればジャンプするようになるかおわかりの方、教えていただけないでしょうか? これは、もうhtmlの問題に過ぎないような気もしますが、よろしくお願いいたします。
文字コードの問題じゃね?
鯖、HEてよりは、ブラウザ、クライアントの問題ぽく聞こえる。
212 :
209 :2010/02/08(月) 08:11:35
>>211 ブラウザは、他にオペラも試しました。同じ結果でした。
クライアントも4人分のLAN接続しているPCから試しました。同じ結果でした。
>>210 仮に文字コードの問題なら、対処法はありますでしょうか?
何卒よろしくお願いいたします。
まずは、本当に文字コードの問題かどうかを確かめるべきです フォルダ名からファイル名まで完全に英数文字だけのファイルをわざと検索結果として出して それをブラウザから開くことができれば、文字コードの問題だと思います
214 :
209,212 :2010/02/09(火) 08:13:55
>>213 >フォルダ名からファイル名まで完全に英数文字だけのファイルをわざと検索結果として出し
やってみました。ダメでした。相変わらずジャンプしてくれません。
考えるに、estseek.conf の replace設定なのかな、と。
これについては、自分でも自信がなかったので、下記に示します。
当方の場合、c:\の直下に「server」のフォルダを作成し、そこに「estseek.cgi」、「casket」等を入れております。
−−−−−−−−−−−−−−−−−−−−−−−−−−−
replace: ^file:///c:\server\{{!}}
http://127.0.0.1/ replace: /index\.html?${{!}}/
−−−−−−−−−−−−−−−−−−−−−−−−−−−
このような記載でよろしいのでしょうか?
215 :
209,212,214 :2010/02/09(火) 16:47:54
追記します。
estseek.conf のreplace設定を見直してみました。
試行錯誤の結果、
−−−−−−−−−−−−−−−−−−−−−−−−−−−
replace: file:///c|/server/{{!}}
http://サーバPCのIPアドレス/ replace: /index\.html?${{!}}/
−−−−−−−−−−−−−−−−−−−−−−−−−−−
とすることによりまして、
検索結果の画面に緑色で表示される、ヒットした文書ファイルの所在の表示が、
http://サーバPCのIPアドレス/| http://サーバPCのIPアドレス/ ・・・・・
となりました。
この、「|」を挟んで繰り返される「
http://サーバPCのIPアドレス/ 」の最初の方、および「|」が消えるようになれば、正常動作するような気がします。
これらを消す、なにか良い方法がありましたら教えていただければ助かります。
replaceの設定は元の設定で問題ない感じがします。 むしろ、showlrealの設定が falseの設定になっていると、 当該現象が発生するように思われます。こちらでも、 同様の現象を確認しました。unix で 1.4.13ですが。
こちらでは、ジャンプしない現象も、その後に改善した状況も確認できました。 replace行を拝見すると、C:\server\ 部分のエスケープがされてないようです。 正しくは、C:\\server\\ではないでしょうか? そして、C:\\server\\の配下に、実際の検索したいデータが存在する必要があります。estseek.cgiや indexファイルではありません。 showlrealの変更で、ジャンプの可否が確認できたら、この行を修正する必要があります。 以下マニュアルより ------------- replaceは正規表現によってURIを変換するのに使います。複数回指定できます。 先頭にマッチする「^」を駆使すれば接頭辞(ディレクトリ)の変換ができますし、末尾にマッチする 「$」を駆使すれば接尾辞(拡張子)の変換ができます。例えば、「\.htm${{!}}.html」とすると、末尾の「.htm」を「.html」に変換できます。 「{{!}}」の前の部分は正規表現なので、「\」や「.」にはエスケープ文字「\」を前置する必要があることに注意してください。「{{!}}」の後の置換文字列は正規表現ではないので、エスケープは必要ありません。 --------------
>>216 showlreal を「true」にしてみましたが、状況は変わりませんでした。
ジャンプする、しないの問題でいえば、pdfの文書ファイルはジャンプすることが確認されました。
.htmがなぜかジャンプしないのです。
>>217 C:\\server\\と記載し、やってみました。
すると、検索結果の画面に緑色で表示される、ヒットした文書ファイルの所在の表示が、
c:\server\search\・・・・・
となりました。
htmの文書へは、ジャンプしてくれません。
仮にジャンプしてくれても、LAN内のPCからアクセスした場合、当該文書にアクセスできません。
やはり、
http://サーバPCのIPアドレス/ ・・・のように表示されなくてはならないと思います。
まだまだ試行錯誤中・・・
つーかさ、やってることの意味分かってやってる? 別に「そうしないと君のためにならないよ」なんてくだらない説教をしたいからではなく、 何が分かって何が分からなかったのかを言ってくれないと、どこから説明すればいいのか、 どこを質問すればいいのかを、こっちは全部エスパーしなくちゃならないんだよ。 困ってるのは分かってるから、せめて情報の出し惜しみはしないでくれ。 # 素直に読むと、何も分かってない、replace行の動作の意味や正規表現とはなんぞやを # すべて説明しなくちゃならないように思えるんだけど..... もしかしてそうなの?
これって英語の検索もはやくなるの?
もちろん早くなるけど、普通に使うと hyper で hyper estraier には引っかかるけど、hyperestraier には引っかかりません そういうのを引っかけるようにするにはワイルドカードを使うなど工夫しなくてはなりません
なんだ、宣伝かよ
日本語で最速なのはこれっぽいけど 英語で最速なのがどれなにか知りたかったんだ
「file size limit exceeded」で、いきなりダウンしたよ。 システムによって2Gとかのファイル制限あるから、 logファイルの大きさには注意しましょ。 ログの記録レベルを煽りましょう〜
indexサイズが小さくて、もれなく検索できればいい。 あと書庫内検索。重要度順位は入らんから不足無しで出るのが良い。 web用途ではなくデスクトップで使うには 書庫内と不足なしが大事。 順位は無くて良い。開いてみれば済むからな。 これはそういう使い方出来る?
複雑なアルゴリズムはいらない。 Grepの手助け程度で良い。 書庫に対応する。 いいやつ無いですか?
フィルタ書けばいいじゃん。
全文検索では全角か半角はどちらかに変換した方がいいと思うのですが。 UTF8や16では、全角のアルファベットは世界共通の配置になってますか。 言語ごとに異なる位置にありますか。 統一した方が良いと思いますが。コード位置がわかりません、
N-gramするうえで文字単位にするかバイト単位にするかはどうすればいいですか。 このソフトはどっちですか。 日本語だと一文字で2バイトか3バイトになります。英語は1バイトにります。 文字単位では日本語一文字と英語一文字の価値が同等になりますが 実際の情報量は日本語の方が大きいです。 英語の2文字か3文字くらいの情報量がありそう。 バイト単位にすると、N=2の時に英字一文字の検索がしにくくなります。
何が言いたいのかさっぱり分かりません!\( ̄∧ ̄)/ # 思いついた単語を羅列してるだけみたいだけど在日?
脊髄反射で在日とか言うネトウヨ?
ということにしたいのですね。
いいえ、自分が理解できないだけなのを認めたくないだけです。
ということにしたいのですね。
はい。
分かってんならすぐに教えてやれよ、ノロマだな
という煽りは置いといて、元々の問いは本当にその答えを望んでいたのか?
もしそうだとしても、たぶんその答えの前に「HE内部では全ての文字はUTF-8で扱う」という大前提が必要では?
元々の問い(かどうかも分からない)は、N-gramのアルゴリズムには詳しそうなんだけど、それでいて「日本語は
英語の2文字か3文字くらいの情報量がありそう」とか言い出すし、UTF-8のことを知ってそうだけど知らなそうだし、
N-gramのアルゴリズムにそれだけ詳しいんならユーザガイドをちらっと読めば
>>238 の答えはすぐに分かるはずだし
ほんと、よく何を言ってるのか分かったね、すごいよあんた
>>238
サンクス いまローカルでgrep手助け用検索開発してる もれないようにUTF8をバイナリとみてすべての2バイトを記録してみる。
ちょwまて 漏れなしバイナリ検索ならgrepで十分だろ インデックス化するメリットないぞ
数ギガ、数十ギガとデータあったらどうする?
もうその話あきた。よそでやれ
mixiで公開してる東京なんとか とかいう奴はこれの上位版?
TokyoCabinetは検索エンジンというよりそのバックエンド、かな?
これはなんでこんな速いんだ 転置インデックスだけの速さじゃないよね
hyper estraierで3000報の論文を検索しまくったら 予想外に研究が進んで、凶授どもが俺のことを 天才と勘違いしてやがるw こんなダメ人間に希望を与えてくれた作者氏に 頭が下がる思いです。
公式メーリングリストは敷居が高いのと、 若干過疎気味なので、こちらで質問させてください。 windows開発環境で、ドキュメントファイル(doc,xls,ppt,pdf)は インデックスを作成し、検索できるようになりました。 後は掲示板のデータベースの検索が残っています。 SQLという言語で読み書きしてるらしいのですが、 hyper estraierでデータベースのインデックスを 作成するにはどうすればよいのでしょうか? 検索してみたのですが、windows環境での方法は 見つかりませんでした。 windows環境でインデックスを作成する方法の伝授、 もしくは説明してるサイトがありましたら、教示願います。 当方、組み込み系のプログラムの経験はありますが、 windowsプログラム、webアプリ、SQLは素人状態です。 要領を得ない、質問をした本人がいまいちわかってない 自覚がある質問で申し訳ありませんが、よろしくお願いします。
たぶん一番普通の方法はwebクローラーを使ってインデックスを作成
ttp://hyperestraier.sourceforge.net/cguide-ja.html うまく行かないようであればスクリプトとかでインデックス追加スクリプトを自作
いろんな方法があってC,Java,Rubu,Perl,Pythonとか
ざっくり言うとプログラム中で @uri,@title,@mdate,本文を作って検索インデックスに追加。
頑張ればcsvデータ→シェルスクリプト+estcmdでもできなくはないと思う。
>>249 248です。
ありがとうございました。
まだわかっていない部分があるので、
まずはwebクローラーを使って試行してみます。
数が増えるとフラッシュしまくりで速度低下するんですが。 解決方法ありますか。
複数ファイルの書庫をディレクトリと認識するエンジンありますか
>>252 書庫の中身をドラフト形式で渡すフィルタ書けばいいんじゃないかな。
サンクス
【岩波書店】 Google問題の核心
―― 開かれた検索システムのために ――
牧野 二郎
http://www.iwanami.co.jp/shinkan/index.html 世界の出版界に衝撃が走った.Googleが新しいブックサービスを開始したのだ.
Googleなどの検索システムがなぜ興隆し,そこで起こっている収集の限界や偏向問
題など深刻化する問題を各国の事例などを踏まえ徹底的に検証する.それらを解決
するため,著者を軸にさまざまの分野の研究者が集結し,新しい検索システムを提
案する.
>>249 結局、SQLコマンドでデータを取ってきて、
インデックス作成するプログラムを作りました。
ありがとうございました。
すみません、教えてください。 Hyper Estraierを使い始めましたが、 Hyper Estraierで文章の中身だけでなく、 ファイル名やファイルパスも検索のキーワードに 同時にヒットさせたいです。 インデックスの作成や、検索時になにか オプションで指定するなど、なにか方法がありますか。 よろしくお願いします。
クローラーで拾ってきたURLだけの検索ってので改造したけど、随分前のことなの忘れちゃった。 他に
引き継いで開発してくれる有志っていないの? 低スキルなので、私はだめだけど..
>>259 なんか問題あるっけ?
TCに移行すればいいじゃない。
TCって、KVSじゃないの?
TCは全文検索できるよ。
最近使い始めたものです。 簡便書式で検索した場合、 例えば、「a*」とした場合と「ab*」とした場合に なぜか「ab*」の方がヒット件数が多くなります。 一応、公式サイト見てきましたが、 それらしいことは書いてありませんでした。 なにか心当たりがある方がいれば、 教えてください。 よろしくお願いします。
>>262 データ量多くなるとまともに使えなくなるけどなw
>>264 mixiの全データ検索に使用されているからそれはないのでは?
なにか運用間違えているとか?
TCの全文検索ってQ-GRAMインデックスのことだろ? データ量増えるとホント糞みたいに重くなって使い物にならんぞ。
作ってる本人も遅いって言ってた気がする。
268 :
265 :2010/09/23(木) 20:30:00
mixiでTCが使われているのは全文検索じゃなかったね。ゴメン
>>263 N-gramのN=2とかが関係してるんじゃない?
わかち書きを変えてみると違う結果になると思う。
>>269 レス、ありがとうございました。
とりあえず、est_cond_set_optionsのオプションをESTCONDSUREで
検索してみましたが、結果の数は変わりませんでした。
なんにしろ、N-gram関連を勉強してみます。
>>263 wildmax の設定でいくらか調整できると思う。
けれど一文字で検索する場合には、N-gramインデックスでは
あまり良い結果出せないんじゃないかな。
269が書いた通り、2-gramに対し一文字で検索するため、
「ab」を含む文書を取得する
「a」で始まる2-gramをwildmax個拾って、それらを含む文書を
取得する(2gramの出現頻度とかは見てない)
という内部動作なんだろうなと、前に思った。
>>271 遅レスすいません。さっき、気づきました。
詳細な情報ありがとうございました。
とりあえず、ソースを読んでみましたが、
QDBMの中身も把握してないと理解
できなさそうなので、時間のあるときに
見てみます。
windowsですが、DesktopHEの他に、似たソフトってないですか? もしくはどなたか改造されていたり。 フォルダ順ができるだけでも楽になるのですが・・・
ファイル名のみ、または、最初の数行だけをクロールすることは可能? 全文だとインデックスがすごい容量になりそうなので、できるだけ少ないクロールをしたいのですが。
”インデックスの容量”を心配しているの? だとしたら杞憂だと思うんだけど、もしかして組込み系?
>>276 いえ、普通のLinuxマシンで、1TBほどのファイルサーバーをクロールしようと考えています。インデックスの容量とクロール時間を気にしています。
なので、とりあえずはファイル名と最初の数行だけをクロールしたいと考えていました。
>>277 インデックスの容量 -> テキスト情報量に依存
クロール時間 -> クロール方法に依存
マニュアルをちゃんと読んでから検討したほうがいいよ。
279 :
名無しさん@お腹いっぱい。 :2011/02/10(木) 23:56:21
最近のMinGWでコンパイルに成功したかたいますか? ライブラリ名が変更されてるのを修正すればコンパイルは通るのですが、 実行すると異郷終了します そもそもqdbmのmake checkでvtestが失敗するようで、 コンパイルできないのが正しいんでしょうか? 一応バイナリ版のqdbmを持ってきて実行しても やはりインデックス作成で異常終了してしまいました なにかポインタがあれば教えてください
大文字小文字を区別して検索できるようにして欲しい
インデックスがでかくなってくると速度落ちないですか? 回避する方法ありますか?
282 :
281 :2011/04/17(日) 12:31:21.73
>>251 も自分だ。10ヶ月ほど前にも書き込んでたが。
解決策見つからず。
>>251 ,281-282
この遅くなるって、
c:\hyperestraier\estcmd: INFO: flushing index words: name=index ...
ってでてディスク凄いアクセスするようになって遅くなって感じですか?
自分は上記のような感じで
ファイル数12500、総サイズ1.33G程度のHTMLファイルを
スキャンし終わるまで14分位かかってしまいます。
オプションとしては次のようにしているのですが・・・
gather -il ja -lt -1 -lf -1 -pc CP932 -sd -cm -cs 400
もう見てる人居ないんだろうか
見てるけど、開発が止まっちゃってて新しい話題がないよなー
一応チェックリストには入れてる
namazu と これくらいかー? 使える全文検索は。
288 :
名無しさん@お腹いっぱい。 :2011/07/13(水) 06:07:12.29
luceneで決まりだろ
クラウドサービスの検索エンジンでタダで使えるのってあるのでしょうか? 全部Webに乗っけてしまって、site:付きでググってもらうのは他人に説明不要で楽なんだけど。 何一つ知らないので、どなたか詳しい方や使った経験ある人は紹介してくれませんか。 query文法を調整したり、著者名は特別扱いしたり、順位付けをカスタマイズしたり(それか不要な 結果をフィルタリングしたり)、出力のフォーマットを調整できればとかいう希望をもってます。
290 :
名無しさん@お腹いっぱい。 :2011/07/19(火) 00:44:48.88
今はkyotoだっけtokyoだっけ?
作者がmixiからgoogleにいったよね
293 :
名無しさん@お腹いっぱい。 :2011/08/13(土) 15:26:49.80
え?自分で会社作ってたんじゃなかったっけ??
失敗したんだって
295 :
名無しさん@お腹いっぱい。 :2011/08/28(日) 22:41:21.12
解決策が見つからなかったので質問させてください。
Windows用バイナリをWindowsサーバに入れて、ファイルサーバの検索用に
使用しています。ファイルサーバのパスに「−」(全角マイナス)が含ま
れている場合、検索結果のリンクの「−」の部分がunicodeの「-」になっ
てしまい、リンクからファイルを開くことができません。
unicode→Shift-JISの変換がうまくいっていないのかと思いますが、どの
ようにすれば解決するのか教えてください。また、この問題はLinuxでは
そもそも発生しない問題でしょうか。
Windows用バイナリ
http://hyperestraier.sourceforge.net/win/
P2Pでクローラーを動かしてます。 特定のURLがインデックスされるかを知るにはどうすればよろしいのでしょうか?
297 :
296 :2011/09/18(日) 23:42:18.24
お願いします
298 :
192.774 :2011/11/26(土) 01:02:16.43
検索革命のせいか検索デスクの逆リンクがまだ動かない。
mew以外にもhyper estraier で過去ログの高速検索ができるメールソフトないでしょうか
Gnus
301 :
名無しさん@お腹いっぱい。 :2012/04/19(木) 18:59:45.66
Hyper EstraierをGoogleアラートに登録してたら、
今日こんな↓
https://gist.github.com/2418271 が送られてきたが、これなんだろ? mac用のruby使ったinstaller?
githubよく知らんので、これが全部なのかなんかの一部なのかも分からん。
なにこれ?
やはりMacでしたか。よくわからないのですが、 僕はWinとUbuntuしか持ってないので使い道ないですね。 しかしこれだけ情報が増えた世界で個人で気軽に使える 全文検索エンジンは絶対使わなきゃ損と思ってるのですが、 いまいちもりあがりませんな…
>>303 Hyper Estraierが出てきた当時はサイト内検索はnamazuから取って変わると
思っていたけどGoogleカスタム検索のほうが流行ってしまって見ることは
かなり少なくなってしまった気がするな。俺はローカルのメールを検索するのに
現役で使っているけど。
MLログを見てみたら作者がフェードアウトしてしまってもう5年経つのか。
後継のソフトウェアを作ってるみたいだけどもう少し表に出てきてほしい。
>>304 >>303 さんとは別の者だけど
ブログ見る限りは、子供できて家庭が忙しくて
プライベートで全文検索どころじゃないのかなあと
googleに再就職した、とは書いてあるけど
306 :
303 :2012/04/21(土) 20:56:51.07
>>304 うちの会社だけなのかな、よその部署から情報もらおうと思うと
同じ本部内ですらすごく嫌がられる。だからActive Directoryで
公開されているフォルダを全部DesktopHEでインデックス化しちゃったんだよね。
よくない事かもしれないけど、いろいろ分かって捗るw
307 :
名無しさん@お腹いっぱい :2012/05/21(月) 00:40:06.77
検索に基礎がなっていない。
308 :
名無しさん@お腹いっぱい。 :2012/08/11(土) 17:34:18.82
すいません、質問させてください。 まずは、環境から。 ubuntuにhyperestraier wv xlhtml ppthtmlをインストール。 word、excel等を検索対象とするために、 # cp /usr/share/hyperestraier/filter/* /usr/lib/bin/ (ダメ押し?でこれも # PATH=$PATH:/usr/share/hyperestraier/filter) これでパスが通るはず? で、実際にやってみました。 $ estcmd gather -fx .doc,.xls,.odt,.ods T@estxfilt -fz -ic UTF8 -pc UTF8 -sd -cm インデクスフォルダ/ 検索対象フォルダ/ $ estcmd gather -fx .doc,.xls,.odt,.ods T@estxfilt -fz -ic UTF8 -pc UTF8 -sd -cm インデクスフォルダ/ ほげ これで、doc、xls等が検索対象になっていることは確認できましたが、 estcmd: INFO: 26 (~/fuga.ods): registered sh: 1: estxfilt: not found と表示され、txtファイル以外の検索はできないようです。 どのようにすれば、doc、xlsファイル等を検索できるでしょうか? また、そもそもLinuxでMSofficeのファイルを全文検索することは可能なのでしょうか? さらに、odfファイル全般についても検索可能かをお尋ねしたいと思います。 以上、よろしくお願いいたします。
309 :
名無しさん@お腹いっぱい。 :2012/08/11(土) 17:38:13.25
訂正です。 下の方の $ estcmd gather -fx .doc,.xls,.odt,.ods T@estxfilt -fz -ic UTF8 -pc UTF8 -sd -cm インデクスフォルダ/ ほげ ↓ $ estcmd search -ic utf-8 -vh インデクスフォルダ/ ほげ です。 失礼しました。
>>309 estfxmsotohtml を使うんじゃないの。
H@estfxmsotohtml でhtmlにして登録じゃないの。
>>310 おぉ、うまくいきました。
T@estxfilt→H@estfxmsotohtmlと置き換えることで、
xlsとdocが検索できるようになりました。
ありがとうございました。
ところで、ODFファイルの検索は可能なのでしょうか?
MS関連のファイルには対応しているけど、
Linuxで使われているOpenOfficeのファイルに対応してないというのは、
ちょっと納得できないような・・・。
>>311 ODFがメジャーになる前だったからなあ……
odt2txt ってコマンドがあるからこいつを使ってフィルタを作ればいいんじゃないかな。
シェルスクリプトでフィルタ書くの簡単だし。
>>312 レスどうもです。
odsはどうするのでしょうか?
っていうか、そんなスキルないですよorz
フィルタ書くの簡単だとしたら、
なんでLinuxで全文検索が簡単にできるようにならないんでしょうかね?
個人的には、デスクトップ検索はPCの必須アイテムだと考えていますが、
googleデスクトップは終了しちゃうし、DesktopHEは64bitで使えないし、
現在windowsで最強のデスクトップ検索ソフトのfilediverは超マイナーだし、
デスクトップ検索は、世間的にはあんまり関心のない分野なのかなと思ったりします。
>>313 知らんがな。
おまえの愚痴に付き合う気はない。
欲しい人は自分で書く。そういう世界だから。
あとデスクトップ検索アプリは他にちゃんとあるし、フィルタもすでに作っている人がいる。
pandocというのがodfの変換もできるほか、いろいろ変換できそう
>>313 DesktopHEはWin7x64で快適に動作していますが。