N-gramでも漏れはありますよ
>それはサーチクロスもGDSもConceptSearchも同じだから比較にならない。
漏れ具合が違いますから比較する意味はあるよ
検索に対するアプローチも全部違うしね
どれも五十歩百歩じゃないかな
漏れが気になるならgrepしか無いと思われ
579 :
名無しさん@そうだ選挙にいこう:2006/10/04(水) 05:56:59
うるさいな
N-gram最高なんだよ
N-gramに漏れはないよ。漏れがあるなんて何を根拠に言ってんの?
そもそもWDSは「全文」検索じゃないだろう、と今更
次スレではスレタイ考えた方がいいね
検索漏れがあったら「全文検索」じゃないんだったら
grep以外は全文検索じゃなくなるのか?
じゃnamazuも「全文検索」じゃないってことだな
namazuは設定次第だろ
これだから馬鹿は・・・
N-gramはノイズが大杉
>>585 namazuを設定次第でGrep検索できると思いこんでる馬鹿発見!!
588 :
名無しさん@そうだ選挙にいこう:2006/10/04(水) 11:27:24
>>581 「全文検索」
http://ja.wikipedia.org/wiki/%E5%85%A8%E6%96%87%E6%A4%9C%E7%B4%A2 > N-Gram
> (中略)
> たとえば「全文検索技術」という文字列の場合、「全文」「文検」「検索」「索技」「技術」と2文字ずつ分割して
> 索引化を行ってやれば、検索漏れが生じず、辞書の必要も無い。
577 名前:名無しさん@そうだ選挙にいこう 本日のレス 投稿日:2006/10/04(水) 02:58:59
N-gramでも漏れはありますよ
577 名前:名無しさん@そうだ選挙にいこう 本日のレス 投稿日:2006/10/04(水) 02:58:59
N-gramでも漏れはありますよ
577 名前:名無しさん@そうだ選挙にいこう 本日のレス 投稿日:2006/10/04(水) 02:58:59
N-gramでも漏れはありますよ
577 名前:名無しさん@そうだ選挙にいこう 本日のレス 投稿日:2006/10/04(水) 02:58:59
N-gramでも漏れはありますよ
馬鹿皿仕上げ
N-gram信者って
なんで必死なの?
N-gramは他のインデックス型に比べたらいいのは事実だからね
ただ漏れがないとか信者発言は痛いよな・・・
592 :
名無しさん@そうだ選挙にいこう:2006/10/04(水) 12:53:13
http://www.blwisdom.com/word/key/000876.html > N-gram方式
> (中略)
> N-gram の長所として、検索漏れがない、文法解析をしていないので多言語展開が容易などがあり、
> 漏れがないという利点を利用して特許情報の全文検索に用いられたりすることがある。
理論上検索漏れがないのはどこのソースを見ても明らか。
「ギリシア」で「ギリシャ」がヒットしないから漏れがある、とか言ってんじゃねえだろうな
馬鹿発見w
>>592 >「ギリシア」で「ギリシャ」がヒットしないから漏れがある、とか言ってんじゃねえだろうな
どこを読んだからこんなことが言えるんだ???
それと単語だけじゃなくて文でも考えてみろよ
だから「N-gramに検索漏れがある」という具体的事例なり
ソースなり示してみろよ。フォルスドロップと検索漏れをごっちゃにしてんじゃねえだろうな
ギリシアに行った。
だとアに行とかで引っかからんよ
単語によっては結構あるのよ
今はインデックス型とgrep型両方使うしかないんだよな
N-gramはゴミも多いしいつ使っていいか分からん
検索も遅く漏れもあるしさ・・・
598 :
名無しさん@そうだ選挙にいこう:2006/10/04(水) 14:14:59
うるせいよ馬鹿
N-gram最強なんだよ
>>595 お前は普段使ってるのか?
使ってる人なら理屈を知らなくても
漏れがあるのは知ってるはず
600 :
名無しさん@そうだ選挙にいこう:2006/10/04(水) 15:36:10
>>599 N-gram式ならQuickFinder2.0を使っていたし、
平凡社の「世界大百科事典第2版」の全文検索もたぶんN-gram。
最近ならDesktopHE(Hyper Estraierのスタンダロン)を試用したことがある。
いま、ためしに「ギリシアに行った。」と記したテキストを保存して
DesktopHEでインデクシングかけてみた。
結果は「アに行」でも問題なくヒットした。
N-gramに検索漏れがあるとか言ってる奴はサーチクロスをN-gram と勘違いしてんじゃねえの?
原理通り全部インデックスにしてれば漏れはない気がするが
原理通りなら元のファイル容量を大きく超えないか???
うむ。それを実装してるとは思えない。
だから漏れはあると俺も思う。
ギ、リ、シ、ア、に、行、っ、た、。
ギリ、リシ、シア、アに、に行、行っ、った、た。
ギリシ、リシア、シアに、アに行、に行っ、行った、った。
ギリシア、リシアに、・・・
信者はたぶんNの値が小さい時の場合しか考えてないんでしょ
全パターンをインデクシングしてるのもあるんだろうか?
>>600 「ギリシアに行った。明日はドイツに行くつもりです。」
を「アに行った。明日はドイツに行くつもりで」でも出る?
607 :
名無しさん@そうだ選挙にいこう:2006/10/04(水) 16:16:48
http://www.ipa.go.jp/jinzai/esp/2004mito2/mdata/4-4.html > Hyper Estraierの方式では、インデックスサイズを対象文書のサイズの半分以下に抑えることができる。
> これにより、普通のパソコンクラスのリソースがあれば100万件(10GB)以上の文書を
> 対象とした検索システムが実用的に使えるようになった。
N-gram 方式のインデックスは通常、バイナリ圧縮されてるし、同じ文字のリピートが
多いから圧縮率も高くなる。
おまけにHyper Estraierみたいに位置情報をもたせない仕組みを設けて
いっそうサイズを小さくする工夫がなされているものもある。
>>603 だから「思う」じゃなくて、実際にN-gram で検索漏れが発生している実例を出してくれよ。
まあ、漏れがある時点で「純粋なN-gram」であるはずは無いんだけど。
>>607 >まあ、漏れがある時点で「純粋なN-gram」であるはずは無いんだけど。
漏れがあってもN-gramだぞ
公式を嫁
>>606 やってみた。問題なくヒットする。
疑うんならDesktopHE を入れて試してみればいいよ。
適当なフォルダに解凍してダブルクリックするだけのシンプル設計だから。
>>607 596の例でも
bi-gramならヒットしないよね
つまりN-gramはNの値と検索文字数によって漏れが出るのはしょうがない
長い文字列じゃ検索シネーヨで終わる予感w
>>610 はぁ?
Bi-gramでもヒットするに決まってるじゃん。
(index)ギリ、リシ、シア、アに、に行、行っ、った、た。
(query word)アに行
query wordは「アに」と「に行」に分解されてindexに対してAND探索かけてみたら
結果は明白だろ。
>>610 Nが無限のもあるにはあるぞ
ただ実用的じゃないがなw
>>613 茶々入れるのはよせよ
理解してないならレスするな
>>613 そうか!
mono-gramでインデックスを作ってAND検索すれば漏れないじゃんw
俺天才だな
>>615 理解してないのはお前だろ。
Bi-gramを「2文字ずつスライドさせてインデックス化する方式」とでも
思ってんのか?
>>617 N-gram 方式を謳ってるエンジンの多くは
@まず文字種ごとに区切る
AそれをN文字(ふつうは2〜3)単位で索引化
だから違う文字種が混ざると漏れが出るわな。
Hyper Estraierはそれでも優秀な方だし実用上問題はないだろ
>>597 共起関係を調べたりでしょ
検索で使ってる人よりも多いしさ
漏れがないって人は
根拠を示して欲しいな
リンク先は都合のいい部分しかかかれてないし・・・
622 :
名無しさん@そうだ選挙にいこう:2006/10/04(水) 16:46:59
信者は絶対に認めないよ
AND検索まで持ち出したのは笑ったw
>>621 「N-gram」でググればいい。どこのサイトにも「検索漏れがない」って書いてあるだろ
624 :
名無しさん@そうだ選挙にいこう:2006/10/04(水) 16:47:53
>>622 だから理解してないんならしゃべんなよ。
「AND探索」ってのは検索エンジンがクエリワードをN字ごとに切り分けて
転置ファイルの文書IDをAND条件で拾ってくるってことだ。
N-gram方式の場合は必ずこれが行われている。
実際、Hyper EstraierはBi-gramだけど
>>600にあるとおり、
ヒットしてるし。
>>610の理解してるBi-gramってのはどういうモンなんだ?
626 :
名無しさん@そうだ選挙にいこう:2006/10/04(水) 16:53:25
N-gramってどうやって使うんだ?
細かいことはもうどうでもいいよ
事実、漏れはあったし
>>623 N-gram 検索漏れがない の検索結果 約 29 件中 1 - 16 件目 (0.21 秒)
N-gram 検索漏れがある の検索結果 約 880 件中 1 - 100 件目 (0.26 秒)
>>625 お前こそ理解してないだろ・・・
Estraierがないのは当たり前
だからといってN-gramでもないとは言えないんだよ
>>625 上の方でギリシアとギリシャがあったけど
どちらで検索しても漏れがないgrepやインデックス型もあるけど
だからといってgrepやインデックス型の特徴とはいわんだろ
「BBSではハンドルネーム」が「Sではハンドルネーム」だと引っかからない。
これは英字と日本語を分離させてからN字に区切るHyper Estraierの
アルゴリズムに起因する問題だろ。(そもそも実用上問題ないが)
N-gramアルゴリズム自体には検索漏れが生じる隙間はない。
たぶん世の検索エンジンで「N-gram」を名乗るものには
字種で切り分けてからインデックス化するタイプが多いんだろう。
だから
>>596みたいなとんちんかんな話が出る。
>>629 だから実例で示せっつってんのに。
>>623 Googleは検索 | 漏れ | が | ある で区切って検索してるから
そんな結果になるんだろw
おれは
>>600で具体的にどんなソフトを使ってきて、
「N-gram 方式には検索漏れがない」って言ってるわけじゃん。
でも「検索漏れがある」派はアルアルと繰り返すばかりで
どういうシステム、またはアプリで検索漏れが発生するのか
全然示そうとしないね。
要するに連中はN-gram の仕組みを理解してなかっただけだろ。
>>629なんてその典型。
>>610 > つまりN-gramはNの値と検索文字数によって漏れが出るのはしょうがない
このあたり全く理解出来てないのが丸見えだな。
Nの値は検索速度に影響してくるが、漏れの発生件数とは何の関係もないのに
漏れの証拠が出たら一気に沈静化したなw
>>637 estcmd create [-tr] [-apn|-acc] [-xl|-xh] [-sv|-si|-sa] [-attr name type] db
インデックスを作成します。
-trをつけると、既にインデックスがある場合にも新しいインデックスを作成します。
-apnをつけると、全ての言語をN-gram法で処理します。
-apnをつけると、全ての言語をN-gram法で処理します。
-apnをつけると、全ての言語をN-gram法で処理します。
-apnをつけると、全ての言語をN-gram法で処理します。
それを使ってないってことはインデックスが馬鹿でかくなるのか?
でも、圧縮できるといってたよなぁ
なぜわざわざパフォーマンスが落ちるものをデモにしてるんだ
>>641 なんのためにN-gram使ってると思っているの?
日本語が分かち書きされていないからだよ?
>>639 いや、どうひいき目にみても
>>617は、いわゆる「検索漏れ」ではないだろ。
形態素解析の検索ソフト(GDSやWDS、CB)つかってみろよ。
「紗綾」で「入江紗綾」がヒットしないとかマジあるし。
>>632 ある の検索結果 約 916,000,000 件中 1 - 100 件目 (0.19 秒)
ない の検索結果 約 583,000,000 件中 1 - 100 件目 (0.29 秒)
「ある」と「ない」で2倍程度しか差がないのに
628では20倍も差ができてるから
お前の理屈はおかしい
>>647 「普通の全文検索では検索漏れがあるが、N-gram法ではない」っていう文章が多いんだろ。
~~~~~~~~~~~~~~~~~
だいたい、形態素解析を使ってるシステムを紹介するページだと、わざわざ自分の弱点である
検索漏れについて触れることすら少ないしね。
「検索漏れ」という単語を多く含んでいるということはそれだけN-gramに検索漏れがない
証拠とも言える
>「検索漏れ」という単語を多く含んでいるということはそれだけN-gramに検索漏れがない証拠とも言える
なんで???
>>648 >「検索漏れ」という単語を多く含んでいる
どこから多くなんて結論が出たんだ?
他のソフトで検索でもしたのなら書いて欲しい・・・
N-gram派が遊ばれてる・・・
>>648 普通はソフト名+バグなら
バグを含んでるととらえるよな
いくら信者でもさすがにその理屈はおかしいよ
>>653 バグと検索漏れじゃ単語としての使用頻度が違うだろ。
つうか、Googleの検索結果で「ブッシュ 悪」が 819,000 件だから
「ブッシュは悪だ」っていう判断と同じだろそりゃ。
いいからN-gramでググってまずアルゴリズムを理解するところから始めろよ
>>655 そんな一例だけもってこられてもw
ググれば評価はいろいろだよ
いいからさっさとN-gramの検索漏れの実例を出せよ。
信者は都合のいい意見しか記憶に残らんから^^;
>>617 の事?
>欧文は単語を単位にして検索され、
>それ以外の言語(中国語、日本語、韓国語、アラビア語など)は文字を単位にして検索されます(N-gram方式)。
って書いてあるけど??
BBSがBSで引っかからないはN-gram使ってないからだろ?
N-gramで検索漏れをなくしたら
grepより遅くならんかな
結局は理屈の上では検索漏れをなくすことが出来るってだけなんだよな
今北産業
とりあえずN-gramは、理論的には漏れは無いはずだ。
アルゴリズムをちゃんと理解すればそれは分かるはず。
で、N-gramには適合率(ノイズが多いってことね)が下がるという欠点があるわけで、
それを補うために検索ソフトが様々な工夫を凝らしている訳だ。
その結果、適合率が上がったが、
N-gramを謳いながらも検索条件によっては検索漏れが生じる事になった。
という事でN-gramに検索漏れはないけど、
N-gramを使った検索ソフトには検索漏れがある場合はあるとういう事でFA?
ソフトのせいじゃないだろw
>>664の見解でほぼFAでしょ。
おそらくLivedoorブログあたりの「N-gram 方式」を謳うエンジンで
漏れを経験したもんだから、アルゴリズムも知らずに「検索漏れはある」
と強弁してたんじゃないかな。
実際、ノイズと漏れとは逆比例の関係にあるから、実装上は
インデックスサイズの最適化も考慮して、ある程度の漏れを
許容してるのが普通だしね。
漏れがないソフトを書けよ
668 :
名無しさん@そうだ選挙にいこう:2006/10/05(木) 13:06:59
estraierは純粋なn-gramじゃないんじゃない?
Ngramって曖昧検索は出来んの?
yes
>>670 あいまい検索はシソーラスを内蔵してるかどうかだから
インデクシング方式とは関係ない。
grep式でも曖昧検索は出来る。(一太郎の全ファイル検索とか)
なんかいろいろサーチエンジン入れるハメになっちゃったんで
この機会に性能比較してみた。
対象フォルダ
70MBのtxt,doc,xls,html,mht混在フォルダ
サーチクロス インデクシング22秒 インデックスサイズ971KB(cache含まず)
DesktopHE インデクシング1分54秒 インデックスサイズ4.8MB
探三朗 インデクシング10秒 インデックスサイズ1.1MB
※探三朗以外は文書フィルタにxdoc2txt.exe使用
「溶接」でサーチ
サーチクロス 5件、DesktopHE 5件、探三朗 2件
理由は探三朗でヒットしなかったファイルは探三朗で未対応の*.mhtファイルだったため
意外と探三朗は優秀か?ただもっと大規模な文書群を索引化してみないと
ノイズや検索時間の問題が出てくるかも分からんから断定は出来んが
ついでにGREPでもヨロ
あと長い単語も
>>674 GREPじゃ「インデクシング0秒」「インデックスサイズ0B」に決まってんじゃないか。
とりあえず、Office SuiteやPDF文書フィルタを備えたgrepソフトなんてないから
WindowsXPの検索で同じフォルダに検索かけてみた(一太郎やPDFのiFilter導入済み)
検索時間50秒で4件ヒット。サーチクロス&DesktopHEと比べて
1件少ないのは、mht文書が1件漏れているから。
その文書には確かに本文に「溶接」の文字が含まれているのだが
Windowsの逐次検索ではヒットしない。フィルタの質が悪いんだろうな
本論は最初から実装として漏れがあるって話だったじゃん
それをN-gram自体はってのにすり替えて勝利宣言かよwwwwwwwww
>>676 「実装として」なんて話なかったよ。
おれが
>>576で「N-gramでない限り検索漏れはあるに決まってるし」と
いったところ、
>>577が「N-gramでも漏れはありますよ」というので
>>580で「N-gramに漏れはないよ」と返したところ、議論になっただけ。
べつに勝利宣言するつもりもないよ。
実装レベルで(文字種による切り分け)でN-gram法でも検索漏れが
出るという認識は俺もほとんど持ってなかった。
ただアルゴリズム上は漏れは出ないという認識は正しいはずだし、
>>617レベルの漏れは実用上なんの問題もない「漏れ」だとは
思うけどね。
このスレはなんで昼間に伸びるの?
業務用として使われることが多く、詳しい人は管理者であり
管理者特権を行使している人が集うから。
ついに認めたなアホ
漏れがあることを認めたんなら、他の形式のソフトと同じと言うこと
もう出てこなくていいよおまえ
「理論上は」と「実装した場合」の区別をわざとつけずに詭弁を弄するだけの馬鹿は消えろ
679の訂正
業務用として使われることが多く、詳しい人は管理者であり
管理以外の仕事を任せてもらえない人も多いようだ。
N-gram "検索漏れがない" の検索結果のうち 日本語のページ 約 6 件
N-gram "検索漏れがある"に該当するページが見つかりませんでした
AN HTTPDとnamazuでLAN内検索システムってのを
前に作ったことがあるんだけど、これからはHyper Estraierだってんで、
同じように挑戦してみた。
●Active Perlが無くても動く
●*.cgiはEXEとして実行可能にしておく
●-pc CP932 オプションを付けてインデクシングする
と、いった感じで進めていった。
インデックスも無事できて検索画面で検索もできるんだけど、
ファイル名に日本語名が入ってると、ブラウザからのリンクが効かないんだよね。
ファイル名がURLエンコードされたままになってるからじゃないかと思う。
mknmzなら-U オプションで解決したんだけど、
Hyper Estraierではやり方が分からん。。。namazuと比べると
WEB上の資料も乏しいし、誰か分かる人いませんか?
>>675 Grep以外は全文検索じゃないとか言ってた奴がいたが、
そのGrepが一番精度低いとは笑えるな
>>683 設定ファイルの
showlreal: true
は指定してみた?
688 :
683:2006/10/05(木) 23:04:02
>>686 すげー!THX!
confいじってからインデックス作り直したらバッチリ動いたよ!
あとはnamazuみたいに複数のインデックスをチェックボックスで切り替えられたらなぁ。
公式みたところでは@genre によるジャンル絞り込みしかできないみたい。
検索時に検索が発生するか否かの議論
>>687 はいはいGrep信者は専用スレでも立ててそっち行ってね。
ここはインデックス型高速全文検索スレだから
>>692 えーと君は精度って言葉の意味を調べた方が良いよ
煽りに煽り返すんじゃなくてさ
ていうか、喧嘩はもうやめよう。
適合率(精度)と再現率の定義から始めないと議論が噛み合わないぞ。
>>695 「ノイズが少ない」では定義として不十分でしょ。
さらに一歩踏み込んで、シグナルとノイズの定義を明確化せねば。
ノイズの定義は明らかでしょ。
まず、フォルスドロップ、ついで単語の切り分けに失敗したケース
「相撲」で検索→「航空相撲殺」がヒット
「スキー」で検索→「ドストエフスキー」「スキーム」がヒット
いずれにせよ上記のようなノイズはN-gram 方式では技術的に不可避だから
WWW検索みたいな大規模な検索エンジンにN-gramを使うのは自殺行為だろうね。
Hyper Estraierのようにハイブリッド式って方向もあるだろうけど
,ィ⊃ , -- 、
,r─-、 ,. ' / ,/ } ち
{ ヽ / ∠ 、___/ |
署 ヽ. V-─- 、 , ',_ヽ / ,' ょ
ヽ ヾ、 ',ニ、 ヽ_/ rュ、 ゙、 /
ま \ l トこ,! {`-'} Y っ
ヽj 'ー'' ⊆) '⌒` !
で , 、 l ヘ‐--‐ケ } と
ヽ ヽ. _ .ヽ. ゙<‐y′ /
来 } >'´.-!、 ゝ、_ ~ ___,ノ
| −! \` ー一'´丿 \
い ノ ,二!\ \___/ /`丶、
/\ / \ /~ト、 / l \
>>697 ところが、細かいところでノイズの捉え方は異なる。
そしてその細かい違いに拘るユーザが多いということがこういった論争を引き起こしている
ような気がする。
例えば「検索」で「全文検索」を該当させるべきか否か。
わかち書きの場合、「全文検索」が辞書にあれば、
そのフレーズは「検索」というクエリではヒットしないことになるが、
それが「ノイズ除去」なのか「検索漏れ」なのかは、ユーザが「全文検索」
というフレーズをどうとらえているかによる。
つまり、「単語の切り分けに失敗」したかどうかが各ユーザの主観に委ねられてしまう
ので、宗教論争になりがちなのだと思う。
ノイズや検索精度の定義が自明でないことを踏まえて、統計的なアプローチをとるのが
賢明なんじゃないかなぁ。
estaierはbi-gramとhashだから
まったくの別物だよ
>>700 スペル間違ってるし、いきなり何言ってるのかも分かんないし・・・
702 :
名無しさん@そうだ選挙にいこう:2006/10/07(土) 06:51:37
>>702 完全N-gramモードで動かせば検索漏れは無くせる。
それはもはやN-gramじゃないですからw
>>702 アフォですか?
Estraierってのは形態素解析を使ったH.E.の前世代エンジン。
検索漏れはあって当然。
Hyper Estraierはデフォ設定だと漏れはあるが
設定次第で完全N-gramにできるから漏れはゼロにできる。
検査漏れもいいけれど、表示の優先度はどうするよ?
つまるところ、ググルのページランクみたいなものだが、実質的な使い勝手
はソート順の方が効いてくる希ガス。
>>705 設定次第なら大抵のソフトでも検索漏れないなw
>>707 ページランクって被リンク先のランクと数から重み付けする方式でしょ?
WWW検索では有効かも知れないけど、イントラネットや個人のアーカイブなら
やっぱりタイトル(ファイル名)と本文に含む数で順位付けするしかないんじゃない?
>>708 namazuはどんな設定しても漏れまくりですが何か?
710 :
名無しさん@そうだ選挙にいこう:2006/10/07(土) 22:28:36
ずいぶんスレ伸びたね。N-gram論争で。
でもここは個人向けの全文検索スレだよね?
もうじきVistaが出荷されるよね。
VistaにはWDSと同エンジンのインデックス検索が標準で付いてくるよね。
君らみたいなマニア層じゃない人はもちろんそれを使うよね。
「すげー、Excelの中身まで一瞬で検索するよ」
「mp3のID3タグやPDFのメタデータまで検索してくれるわ」
「インデックスとか良く分からないけど、いつのまにやら作ってくれてる。便利だなー」
「やっぱシェル統合だね」
オタクは「MSNエンジンは形態素解析の精度がどうのこうの」いうかも
知れないけど、結局サードパーティの変なソフト入れて、インデックス作成に
メモリ大量消費したり、途中でこけたりするサーチ○ロスとかNa○azuとか○straierとか
Concept○earchみたいのはあっという間に淘汰されていくんだろうね。
ムシャ |
ムシャ |
∩___∩ | ぷらぷら
| ノ ヽ (( |
/ ● ● | J ))
. (( | ( _●_) ミ ・
彡、 |∪}=) ,ノ ∴
/ ヽ/^ヽ ヽ 。
| ヽ \ |
| ヽ__ノ
712 :
名無しさん@そうだ選挙にいこう:2006/10/07(土) 23:33:24
Vista 使わないな。XPと2000で間に合う。
2ちゃん専ブラの過去ログ検索にこだわってサーチクロス使ってきたけど
いい方法考えた。
(1)まず
http://tatsu01.at.infoseek.co.jp/ でDAT2HTMLを入手
(2)c:\Program Files に「dat2html」フォルダを作って解凍したファイルを
全部突っ込む
(3)次のファイルをメモ帳で作る
path c:\Program Files\dat2html
c:
cd c:\Program Files\hzb2\users\USER_NAME\log\2ch ←専ブラによる
dat2html /c /t /s
pause conversion is finished
(4)「dat2html.bat」とでも名前を付けて適当な場所に保存
(5)上記バッチファイルをダブルクリックで、専ブラのログ保存場所に
html形式に変換されて保存される
(6)バッチファイルをタスクスケジューラで3日に1回くらい実行させておく
これでGDSやMSN、はてはnamazuでもスレッド単位で過去ログ検索が可能になる
オレって天才!
>>714 バッチファイルの中身を訂正
path c:\Program Files\dat2html
c:
cd c:\Program Files\hzb2\users\USER_NAME\log\2ch ←専ブラによる
dat2html *.dat /c /t /s ←「*.dat」が必要
pause conversion is finished
>>714 それで満足できるなら問題ないけど。ファイルサイズがが大きくなっちゃうとか。
あと、GDSはサイズ制限でイマイチだと思います。
サーチクロスって無料?
否
>>714 面倒じゃね?
メリットもあんまりなさそう・・・
>>719 タスクスケジューラで一度設定しとけばあとは自動的にやってくれるから面倒じゃないよ。
でもログのサイズが倍増するのが玉に瑕。。。
あと、差分だけの変換ってのができないから、実行のたび一から変換になっちゃう。
ログサイズによっては結構時間かかるんだよね〜。
2ちゃんの過去ログを宝の山と思う人でなおかつサーチクロス使わない人は
試す価値あるんじゃないかな?
721 :
名無しさん@そうだ選挙にいこう:2006/10/08(日) 17:00:47
Hyper Estraierってデフォルトでファイルサイズ32MB、テキストサイズ128KBの
制限があるんだよね。どうりで文書の最後の方が引っかからないと思った。。。
で制限を緩めてファイルサイズ512MB、テキストサイズ2048KBにして
Gatherer走らせてみた。テキストサイズの方は何とかなるんだけど、
うちにある透明テキスト入り480MBのPDF(テキスト自体は1MB程度)が「Out of Memory」でこける。
しゃーないから仮想メモリを1024MBまで増やしたんだけど、それでもダメ。
ちょっとメモリ食い過ぎじゃないの?xdoc2txtでテキストをテンポラリーに抽出してから
インデックス化すればいいだけだと思うんだがなぁ。
これじゃ書籍をスクラップしてPDF化した奴はかなり弾かれることになる。
ちなみにこのファイル、サーチクロスやWDSではすんなりインデックス化されるんだよね。
使う前にヘルプ読むなりするから
デフォルトが糞でも問題ない
724 :
名無しさん@そうだ選挙にいこう:2006/10/08(日) 22:21:42
N-gramを使うまでは、僕はまったくもてませんでした。
2ちゃんねるやWarez、最新アニメの話で彼女をひきつけようとしても、白けられるばかりでした。
N-gramを使ってからは全てが変わりました。
全文検索の話で盛り上がり、彼女はもう僕にめろめろです。
素敵な彼女のハートをつかむことを助けてくれたN-gramに僕は大感謝です。
>>722 そういうフィルタを書けばいいんじゃね?
estxfilt.batを適当に改造するだけだから多分簡単ぽい。
>>722 480MBのpdfを作業フォルダにコピーしてからestxfilt.batで変換するようになってるみたいだけど
こけるのは480MBのコピーのときかな?
-fzオプションでコピーを抑止して、estxfilt.bat の中で
%ESTORIGFILE% から読み込むようにすればいいんじゃね?
728 :
722:2006/10/09(月) 01:45:53
estxfilt.bat の中身って単なるxdoc2txtのコマンドだよね。
とりあえずコマンドプロンプトから正常にテキスト抽出できるかどうか試してみたら
「abnormal terminal」と出て、動かない。
物理メモリ512MB、仮想メモリ2048MBのクライアントでGatherer走らせたら
インデックス化できました。結局クライアントがしょぼすぎたっつうことで。。。
xdoc2txt.exeってファイルサイズ分を実メモリに読み込んで処理するんだね
【desktop】Google デスクトップ Vol.3【検索】
http://pc7.2ch.net/test/read.cgi/software/1153406994/l50 329 名前:名無しさん@お腹いっぱい。 投稿日:2006/10/04(水) 11:22:45 sDrCWpEr0
さっきこれ入れてみました。
かのGoogleがやることに間違いはないだろうと楽しみでしたね。
さすがにインターフェイスがわかりやすいです。
スケジューラーないなーと思ってたんですけど探したらカレンダーがありました。
よくわかんないけどユーザー登録して苦労しながら使ってみたら、
いちいちブラウザ立ちあがんのかよと思いましたけどまあいいかな。
そんな間にもデスクトップはPCを検索してくれます。
アイドル状態じゃないと検索しないのかよと思い、すぐ検索を選択。
CPUを80〜90%ずっと使ってます。重い。。。でも意外に遅い。。。
だけどむしろ終わったときに喜びましたね。 いい感じじゃ、さすがグーグル様。
で、感動しながらディスク容量を見たときにびっくり。 なんか1GBとか減ってんの。
調べてみたらデータベースね。 馬鹿かと。 なんでデータベース作んのにそんな容量使うねん。
多分ファイルの内容とかも全部読み取ってんだろうけど、個人的にそこまでしなくていいよ。
題名でだいたい分かるし。勘弁して。 しかもさらに調べたらプロセスが4つぐらい常駐してんのね。メモリ馬鹿食い。
むかついてとっさにアンインストールしようとしたんだけど、 ちょっと待って。
そうか容量食うんだったらデータベースを全部消せばいいんだよな。
よし探し出してShift+Deleteと。 あとGoogleDesktopCrawl.exeを消せばHDDの検索機能止まるから完璧。
しかもGoogleDesktopCrawl.exeのプロセス1個減るからメモリにも優しいっていう。
天才かもしれない。
こんな感じでうまく使いこなせそうです。
みなさんもお試しあれ〜。
釣りだろ。下の中。
Sennaの薄いラッパーにすぎないのに、まるで自社開発の検索エンジンであるかのような
宣伝のしかたはうまいよなー。
>>734 ちゃんと中身を見てからイチャモン付けような。
>>733とは別人だけど、実際はSennaのPostgreSQLバインディングなんよ。
しかもちょっと手が加えられたpg_sennaにconfigureを加えただけと言っても過言ではないようなステキ構成。
それをさも独自開発のように宣伝するのは凄いw
pgestraierやpg_rast(むしろRast本体)に動きが見られない現状、
PostgreSQLに対応したものを出してくれるだけで十分ありがたいんだけどね。
俺も読んだけど
>まるで自社開発の検索エンジンであるかのような
になるのはおかしくね?
>>735 どこに独自開発のように宣伝してる部分があるの?
何も但し書きがない状態で自社サイトに載せてて自社開発でないと思うほうが難しいだろ
そんなこと言ってたら全ての漫画家は手塚治虫のパクりだろ
( ・?ω・?)喧嘩が好きですね
そんなことよりも、サーチクロスで、PDFのフォントとかに制限のないフィルタを探してくれ。
type1 はむりだべ。
type1をフィルタリングできるのは海外にあったけど
標準出力が出来ない。ファイルには出せるけど。
だれか探してくれ。
出来るでしょ
748 :
名無しさん@そうだ選挙にいこう:2006/10/13(金) 15:21:53
N-gram使えば解決
N-gram・・・
とっつきにくそうだな。調べる気にもならなくなるなぁ。
サーチクロスのフィルタとして使えるの?
簡単に説明してちょ。
750 :
名無しさん@そうだ選挙にいこう:2006/10/13(金) 16:22:41
円記号問題がないソフトはありますか?
>>750 HyperEstraier なら"¥"で検索できる。
ちゃんと半角もヒットする。
752 :
名無しさん@そうだ選挙にいこう:2006/10/13(金) 18:12:13
>>745 type1 フォント使ってるPDFを紹介してよ。
抽出できるかどうか試してみるから
そのludiaとやらは、まがりなりにも「オープンソース開発センタ」を名乗っている
部署が作っているわりには、派生元であるSennaに対するリスペクトがなさすぎるよな。
というか、ソース見る限り、わざわざ商標までとるような仕事なのかと小一時間…
$ wc -l pgsenna2.c pgsenna2.h
751 pgsenna2.c
93 pgsenna2.h
844 合計
おとなしくpg-sennaとして出してればよかったのにな。
なんか妬んでけちをつけてるようにしか見えないよな
でも正直、商標はやりすぎだろ
>>755 なんで?
AVEXくらいなら分かるけど
これは何の問題もないとおもうぞ
商標=金儲けの感があるからじゃね?
放っておくと勝手に名前を使われて信用を害されたりするから、防衛的に商標登録することがある。
大会社は信用の保護のために、こういう金にならないものであっても無策ではいられないのだよ。
759 :
名無しさん@そうだ選挙にいこう:2006/10/15(日) 17:26:30
ヤクザな企業が後から商標を取って
「ねー、おたくの会社、うちの名前を勝手に使うってどういうこと?お金払ってよ」
と訴えられるのを防ぐために商標とってるだけ。
>>758のいうとおりです。
755には、なんでやりすぎなのか説明してほしいw
ようするにNamazuのパッケージに新規開発した文書フィルタ追加して
「Hyper NTT SearchSolutionSystem (HN-3S)」とか商標とって
公開してるようなもん?
全然違うだろ
732をよくよめ
>>761 作者は違うと主張するだろうけど、
傍目に見るとそんなレベルだよな。
フィルタとラッパーは同じものなの?
サーチクロスでUnicode(UTF-16),UTF-8のテキストファイルが
インデックス化できないのは有名だが、txt htm html shtml に対しても
xdoc2txt.exeを文書フィルタとして使えば抽出できるようになるんだな。
テキストとHTMLのインデックスを作り直すか。。。
>>752 ありがとうございます。ただ、該当フォントを使ったpdfは新たに作ることも出来ず
機密ではなくとも外に出せる文書ではないため、うpできませぬ。
再度国内HPで紹介され、試用できるものは試してみましたが、やはりだめやった。
どうもありがとう。
767 :
名無しさん@そうだ選挙にいこう:2006/10/16(月) 11:39:11
>>759 みかかが勝手に商標を取って
「ねー、おたくの会社、うちの名前を勝手に使うってどういうこと?お金払ってよ」
と訴えるんじゃないかってことだろ。
もともと他人のフンドシに自分の名前を書いてるんだから
勝手に名前を使われて信用を害されたりするなんて因縁つけるのは本末転倒。
大会社と違ってボランティア組織は金が無いから、こういうことに無策で食い物にされそう。
アンチの論理はおもしろいなw
商標って勝手に取れるものなの?
探三郎、使ってみた。
検索結果から直接文書を開けるのと
結果一覧が見やすいのはイイ!
これで、大文字・小文字を区別するかどうかを
選択できれば完璧なんだが。
行に飛んでくれない
検索結果の画面がカスタマイズできない
もなんとかしてほしい
プレビューで行に飛ぶってこと?
そんなソフトサーチクロス以外にあるの?
あと、探三朗(Vectorなど)なのか探三郎(公式)なのかもはっきりして欲しい
>>772 Copernic Desktop Search2も飛ぶよ
namazuやkwicも飛べる
>あと、探三朗(Vectorなど)なのか探三郎(公式)なのかもはっきりして欲しい
吉とよしのやの「よし」が同じなのと一緒
> 吉とよしのやの「よし」が同じなのと一緒
それは違うだろw
今時の検索エンジンは朗も郎も同一視するから問題ない
一太朗
サーチクロスは標準でUTF-8のHTML文書がインデックス化されないんだよね。
xdoc2txtを外部フィルタとして使えば、UTF-8だろうがUnicode Textだろうが
インデックス化される。
でも、HTML文書ってデフォルトで外部フィルタ選べないようになってんだよな。
で、標準HTMLフィルタはオフにして、「新しいファイル形式」から拡張子とxdoc2txtを
登録する。これでUTF-8な文書も検索できるのはいいんだけど、
今度はHTMLプレビューが使えなくてプレーンテキストになっちゃう。
諸刃の剣やなぁ。なんとかしてよヴィレッジさん
780 :
名無しさん@そうだ選挙にいこう:2006/10/18(水) 17:07:01
掲示板ないソフトは総じて不親切な気がする
いや、ちゃんとした会社だと別なんだけどさ・・・
掲示板があるだけマシだからな
783 :
名無しさん@そうだ選挙にいこう:2006/10/18(水) 19:55:16
僕もソフト屋のはしくれだけど、掲示板は怖い。
それに面倒くさい。
掲示板を管理してくれる専用の業者に頼むほど予算もないし。
サーチクロス、圧縮ファイルとリムーバブルメディアに対応して欲しいなぁ。
Open Office形式に対応できてんだからzip対応は簡単そうなんだが……
785 :
名無しさん@そうだ選挙にいこう:2006/10/24(火) 13:41:56
テスト
>>776 つち吉はU+20BB7でコード化されてる。メイリオや小塚明朝には入っている。
787 :
名無しさん@そうだ選挙にいこう:2006/10/29(日) 21:00:32
サーチクロスでファイル名のみの検索って出来る?
うちの環境だとファイル名検索をチェック入れると必ずこける。
いつもこけるフォルダを除外に入れても位置がちょっとあとにずれるだけでやっぱり
サーチクロスごとこける。
どうにかならんもんかね。
>うちの環境だとファイル名検索をチェック入れると必ずこける。
単に君のPC環境の問題でしょ
バグならもっと話題になってるはず
サーチクロスは環境ごとに不具合の出方も違うしね。
うちではフレーズ検索の絞り込みが中途半端にしかされない問題がある。
あと
>>787の場合「こける」が何を意味してんのか分からんし答えようもないよ。
一般保護エラーでアプリが落ちるのか、エラーメッセージとかが出るのか
787は単にグチってるだけなのかもね
>>788 PC3台ともこけるんですが。。。
自社エンジンがこけまくってても直さずにxdoc2txtを薦めるソフト会社ですが。。。
こんなことぐちりながらも他にいい商品が無いから使ってる俺も俺ですが。。。
>>789 スマソ。アプリごと落ちる。
793 :
787:2006/10/30(月) 21:51:32
ばかはてめえだ
質問すらまともに出来な奴はスルーしたほうがいい
優しくて損したなw
>>792 詳しい状況も何も対象フォルダをCドライブ全体を指定してIndexを作るだけ。
これでサーチクロスが丸ごと落ちる。
フォルダの範囲を小さくするとまともに動く。でもCドライブを丸ごと指定すると駄目ぽ。
>>793 あんただぁれぇ?
>>791 ひょっとしたら「こける」のはインデクシング最中にってこと?
>>787の書き方だと検索をするときにこける、みたいに読めてしまう。
もしインデクシング中にこけるんであれば、単に搭載物理メモリに対して
インデックス対象ファイル数が多すぎるだけだと思う。
経験則からいくとメモリ1GBに対してファイル20,000個が限界。
うちではインデックス作成の時に少しずつ対象フォルダ&対象拡張子を
増やしていき、一度のインデクシングで対象を1万数千ファイル程度に抑えてる。
対象フォルダや拡張子を増やすときに「一から作り直せ」みたいなメッセージが出るが
無視して「更新」し続けていれば、いつかは完成する。
一度出来上がれば、あとは適当な頻度で更新すれば、もう強制終了することもなくなる。
>>796 レスどうも。そうです。インデクシング中にこけます。
メモリは4G乗せててOSに3.5G、RAMディスクに500M割り当ててます。
一から作り直せって言われても無視して更新すればいいんですね。
やってみます、と書いてやってみたら出来ました。
ありがとうございました。
あともう一つ教えて欲しいのですが、全ドライブを検索対象に入れる
いい方法は無いでしょうか。
マイコンピュータ自体を指定不可なので、今はCとDドライブのインデックス、
Eドライブのインデックスと分けています。
>>797 ???また良く分からんことを・・・
「インデックス対象」ってとこに新規で「フォルダ1=c:\」「フォルダ2=d:\」って
つくるだろ。そしたらもう1回、「新規」ボタン押して好きなドライブ追加していきゃ
インデックスは1つ(標準)だけでできるだろ。
ただ、そこまでやるとインデックスが肥大化しすぎて、
読み込みに何十秒もかかるようになって実用に耐えられないんじゃあるまいか
>>797 いつどこで何をしてたら
どうコケるのか書けよ
基本的なコミュニケイト能力がないな・・・
うるせー
すみません、自己解決しました。
お騒がせしました。
>>798 す、すまん。馬鹿だった。許してたもれ。
試しにwindowsでファイル名のみにチェックを入れて検索してみたら、
readme.txtとかが大量にヒットした。原因はフォルダ名にWindowsを含んでるだけ。。。orz
使えないっす。。。
おまえら優しいな
俺はバカに答える気になれんわ
>>802 フルパス名が検索対象になってるからいいんじゃないか。
「windows」なんかで検索すなよ。アホかっちゅうの
>>802 いや、それは正しい挙動だろ?>windowsを検索でフォルダ名にWindowsを含む
それが探せないほうが困る。
というか、基本的にはシステムディレクトリ(c:\winntとかc:\windowsとか)は
外したほうがいいんじゃね?
場合によってはc:\program filesとかも外したほうがよさげ。
(上記は別indexにしたほうが便利)
バカばっかりだな
自己紹介乙
>>804 何を必死になってるのか知らんがファイル名のみで検索するオプションなんて
どんなファイラーの検索コマンドにもあるぞ。
フォルダ名を含むか含めないか選択させればいいだけの話だろ?
804はアンチが煽り失敗したようにみえるよな
かいたときはみんな賛同してくれると思ってたんじゃないかな
もうVistaの検索でいいやん。
お前らも次PC買い換えるときはVista入ってるだろ。
セットアップしたら有無を言わさずインデックス作成してくれてるよ。
宣伝乙
812 :
名無しさん@そうだ選挙にいこう:2006/11/24(金) 14:44:37
社員乙
>>814 この記事は一太郎とWEB検索との連動についての記事。
CSはデスクトップサーチだから関係ない。
>>816 ジローサーチ?次郎さんが開発したのか?
サーチクロスって起動して即フリーズ。
なんだよ、この糞ソフト。
アンインストールも上手く出来ないし。糞過ぎるぞ。
820 :
名無しさん@そうだ選挙にいこう:2006/12/09(土) 15:04:41
>>819 金払ってるワイ。
貧乏割れ厨と一緒にすんな。ここはビジネスsoft板だ、経費だよ、経費。つーても2000円程度だったなw
金ならある、まともな検索ソフト教えれ。
茨城県
>>820 普通に使えてる人もいるしPC環境のせいでは?
818はただのアンチだろ
>>818 > サーチクロスって起動して即フリーズ。
ありえねえし。どうせOSがMeかなんかだろ
Copernic Desktop Search 2のバージョンが2.02になったみたい。変更点は以下の模様
Changes & improvements
Toolbar now compatible with Firefox 2.0
Improved previewing of plain text email messages
Improved plug-in support
Fixes
Fixed index update issues with non-permanently connected network drives
Other stability and performance tweaks
826 :
818:2006/12/10(日) 17:48:52
>>824 インスコ直後は普通に使えていたんだけど、そのうちに起動しても枠だけ表示されてボタンとかが全く表示されなくなった。
これは最小化してから元のサイズに戻すと表示されていたので使えてた。
その後は起動直後にフリーズ。インデックスが大きすぎたのかな??
結構、お気に入りのソフトなので使えれば使いたいですよ。
> サーチクロスって起動して即フリーズ。
> なんだよ、この糞ソフト。
> アンインストールも上手く出来ないし。糞過ぎるぞ。
> 金払ってるワイ。
> 貧乏割れ厨と一緒にすんな。ここはビジネスsoft板だ、経費だよ、経費。つーても2000円程度だったなw
> 金ならある、まともな検索ソフト教えれ。
お気に入り、ねぇ……
828 :
名無しさん@そうだ選挙にいこう:2006/12/10(日) 23:24:14
>>826 昔から、かわいさ余って憎さ百倍というじゃないか。
そういう人情の機微が分からないようじゃ、世渡りが大変だろうな。
831 :
名無しさん@そうだ選挙にいこう:2006/12/28(木) 11:50:12
832 :
名無しさん@そうだ選挙にいこう:2006/12/28(木) 17:44:53
JS検索ツール最強
検索するときに正規表現つかえるし。
>>831 Docuworksに対応してない。
終了
あれ、インデックスサービスのフィルタ使えないの?
835 :
名無しさん@そうだ選挙にいこう:2007/01/08(月) 07:04:04
秀丸エディタでGREP検索
これ最強
秀丸って検索遅くない?
そうでもないか。
Grepなんか使えるか。1000や2000のドキュメントじゃないんだ。
839 :
名無しさん@そうだ選挙にいこう:2007/01/19(金) 11:05:34
だれかHyperestraierでifilterを使えるようにしてくれないかな。
xdoc2txtだと漏れがある感じ。
>>838 それでは、OS付属の検索使え
スタート→検索→ファイルやフォルダ
Vistaの検索って結局どうなんだろう?
エクセルのセルに書いたのやPDFやXDWとかも大丈夫なんかな?
ファイルのセキュリティ設定次第だろ
age
897 名前:名無しさん@お腹いっぱい。 投稿日:2006/10/12(木) 14:05:02 wcjlsRxk
プトレマイオス朝時代のエジプトには、当時世界最大の図書館「アレクサンドリア大図書館」があり、
70万もの蔵書を誇っていたという。
蔵書のほとんどは巻物だったが、1巻200ページ相当として、300dpiでスキャンした場合、1頁500KBとして
1巻100MB、それが70万巻ということは70TBか。
TeraStation 2TBを35台つなげればアレクサンドリア図書館に匹敵するデジタルアーカイブが完成するな。
文字数を見ると、1頁に2000文字のアルファベットが書き込めるとすると、
2000文字×200頁×70万=280,000,000,000文字の知識が詰まっていたということになる。
1文字1バイトなら280GB、UTF-8みたいに1文字3バイトなら840GBか。テキストだけ抜き出せば
個人のPCでも何とかなりそうだな。
さて、これを全文検索かけるとなるとNamazuの場合、対象ファイル数は90万弱が限界みたいだから
http://www.namazu.org/FAQ.html#index-scale 何とかなるかも。
Hyper Estraierの場合、
http://hyperestraier.sourceforge.net/uguide-ja.html#tips にあるように「一つのインデックスに登録できる文書の総量の目安は、プレーンテキストなら300GB」
とのことなので、1文字1バイトならぎりぎりいけそう。UTF-8なら3つくらいにインデックスを分けて
P2P連係させないといけなくなる。
やれば?
848 :
名無しさん@そうだ選挙にいこう:2007/03/25(日) 18:56:34
MitakeSearchあぼーんだって
>>846 あと20年もすれば一瞬で検索できるようになってる。
まぁ机上の空論だがな
違うだろw
覚えたてか?
何が言いたいんだ?
IBM OmniFind Yahoo! Editionってどうよ?
855 :
名無しさん@そうだ選挙にいこう:2007/06/18(月) 09:57:44
低スペック向けのソフトばかりじゃつまらんよ
>>857 >利用するための環境だが(ry
>Windows XP SP2、Windows Server 2003 SP1(ry
>ハードウェアの最小要件は1プロセッサ、1GBのRAM、80GBの空き領域、(ry
対象OSにXPが入っているからクライアント機で使えますよ。
まあ書いて有るように個人向けでは無く企業向けだけど。
855はそういうことを言いたいんじゃないとおもうぞ
単に愚痴ってるだけじゃね?
860 :
名無しさん@そうだ選挙にいこう:2007/07/02(月) 16:59:44
結局GDSのひとり勝ちか。もうこのスレの存在意義もなくなったな
861 :
名無しさん@そうだ選挙にいこう:2007/07/02(月) 21:48:41
DesktopHEいいよ。
インデックスファイルの更新とメールへの対応をのぞけば
サーチクロスと同等かそれ以上。
862 :
名無しさん@そうだ選挙にいこう:2007/08/08(水) 15:51:47
namazu以外でもっとこう簡単に全文検索サーバって立てられないのかね。
GDSはバージョンアップでDNKA(だっけ?)が使えなくなっちゃうし。
手軽におひすでフルテキスト検索サーバを立てたいんだよ俺は
HE
864 :
名無しさん@そうだ選挙にいこう:2007/08/13(月) 01:56:48
DesktopHE(・∀・)イイ!!微妙にアップデートしとる。
OEに未対応じゃん>デスクトップHE
OEなんか使うなよ……
DesktopHEスゴいね。
これで、変更があった部分のみのインデックスの差分更新が
出来るようになったらサーチクロスを完全に喰ってしまうんでないかい?
>>867 DesktopHEのインデックスは変更のあった部分だけだと思うぞ。
GUIでかったりぃーと思うなら,直接”estcmd”にオプション付けたbatにすればよい
ここを参考に
http://hyperestraier.sourceforge.net/uguide-ja.html 本家のゲストブックから受売りだけど,うちの例
インデックスする
estcmd gather -il ja -sd -cm -pc CP932 -lf 8 "インデックス作りたいパス”
複数ある場合は,繰返し書けばいいと思う,
直列でかける区切りは知らん(セミコロンとかやったけど,並列で動いたので未確認)
消した物は消す
estcmd purge -pc CP932 "インデックスのパス"
キーワード抽出する
estcmd extkeys -um "インデックスのパス"
最適化する
estcmd optimize "インデックスのパス"
これをコマンドランチャーから気が向いたときに,バックグラウンドで実行してる。
>>868 > 消した物は消す
> estcmd purge -pc CP932 "インデックスのパス"
↑これってやらないかんものなの?
俺はestcmd gather だけで新規作成、更新も済まして、週一でoptimizeかけてんだけど
>>869 つ込まれても困るが,
こちらの環境では一瞬なので無視してます。(へたれ)
>>868-869 ありがとう。知らなかった。
よく分からないので毎回インデックス削除して、再作成していたよ(´Д`;)
DesktopHE使ってみた。
ツール構成がシンプルでいいね。
残念なのがxdoc2txtでうまく内容を拾えないpdfがあること。
ScanSnapの付属ツールScanSnapOrganizerでOCRしたpdfの中に
xdoc2txtでテキストが抽出できるものとできないものがあって
その境界がよくわからん……。(xdoc2txt単体で試してみた)
GDSでも透明テキスト付pdfの一部でやはりうまく内容が拾い出せないし
WDS3.0はiFilterとの連携がうまく作動しないし(俺の環境が悪そう)
WDS2.6はpdfに関しては問題ないけど検索精度が悪すぎる。
透明テキスト付pdfをきちんと利用できる環境が整わなん。
ウチの環境(Win XP x64), WDS3.0, Acrobat Pro 7 (現在Pro 8)で、
透明テキスト付pdfの全文検索できてますよ。
pdfファイルはWDSのプレビューペインで表示されずに、直接Acrobat
で開きますが。
それに、たまにインデクスしないpdfファイルもあるけど(ネットで拾ってきた
やつ)。なぜか、MicrosofのOOXML仕様書のpdfファイルがWDSで
インデクスされないんだよね。
874 :
872:2007/09/14(金) 12:45:46
64bitのpdf用iFilterあったんか、と思って調べたら
FoxitReaderのiFilterがあるんだね。
うちは32bitXPだけどadobeのからこれに入れ替えてインデックス作り直したら
WDS3.0でもうまく透明テキスト付pdfの内容が拾えるようになったよ。
ヒントをくれた873氏、ありがとう。
アドビ以外で作られたPDFも必要なら
NAMAZUとかで自分で設定しないとダメ
一般向けのソフトでは対応がマチマチ
876 :
名無しさん@そうだ選挙にいこう:2007/09/19(水) 13:37:17
xdoc2txtがいまいちすぎる
ソースよこせば改造してやるのに
xpdfを使え。
DesktopHE使ってみた。
検索結果当初は良い感じだけど、安定して動作しないことない?
フォルダ名の最後が"表"(別の漢字だったかも。うろ覚え)で終わるフォルダは
gather時に全てエラーが発生してインデックスが作れなかったり
正常にインデックス作成できた分も1月ぐらいするとインデックスが壊れちゃったりした。
repairすると復旧できるようになるけど、漏れる率がだいぶ上がっちゃうし。
ちなみに対象ファイルは80Gバイトの100万ファイルぐらい。
うちのPCが不安定なのが悪いのかな〜
試しにやってみたけど
きちんとインデックス作れたよ
1TBをインデックスしてるけど
特に不安定とは感じたことないな
880 :
名無しさん@そうだ選挙にいこう:2007/10/13(土) 10:16:45
サーチクロスなんだけど
二つのエクセルシートへ
100000-1で検索すると
-1以外も検索され
ちゃうんだけど
7箇所ヒット!俺だけ?
ファイル1 ファイル2
100000-3 100000-3
100000-2 100000-2
100000-4 100000-4
100000-1
100000-6 100000-6
100000-0 100000-0
100000-5 100000-5
881 :
名無しさん@そうだ選挙にいこう:2007/10/20(土) 13:51:10
DesktopHEのインデックス
早いね
883 :
名無しさん@そうだ選挙にいこう:2007/10/21(日) 09:29:31
>>882 ビュアーをテキストでなく
OLEにするとダメみたい
884 :
名無しさん@そうだ選挙にいこう:2007/11/11(日) 18:26:29
Vistaの検索使えあげ
>>884 あれ使い物にならん。
結局、従来のインデックスサービス使ってる。
887 :
名無しさん@そうだ選挙にいこう:2008/01/18(金) 14:04:36
ネタないねあげ
>>886 検索結果にノイズ多すぎ。
全然関係無いものばっかり引っかかる。
詳しいドキュメントも持って無いから細かい設定法もわからん。
従来のインデックスサービスのほうがよっぽど役に立つ。
従来のインデックスサービスについてなら
レジストリの設定法まで載ってる詳しいドキュメントを持ってるから
うまく使いこなせるが
Vista検索の詳しいドキュメントを持ってないから使いこなせてないだけかもしれないが、
そういう詳細な日本語ドキュメントを用意してないMSが悪いとも言える。
ノイズが多いのは単にお前が使えてないだけだ
890 :
名無しさん@そうだ選挙にいこう:2008/02/28(木) 13:11:23
DesktopHEでファイルサイズとテキストサイズの上限を調整する方法教えてくれよ。
公式のBBSできいたら?
>>890 本家のBBSからメモっておいたもの デフォは128KBらしい
>[設定]-[上級者向けインデックス設定]の
>「テキスト、HTML、MIMEファイルインデックスコマンド」に文字列を追加してください。
>ファイルの先頭512KBまでを解析させたいのであれば、「-lt 512」
>という文字列を追記してください。
> 数値にマイナスの値を指定すると、無制限になりますが、
>インデックス時にメモリ容量が足りなくなる可能性があります。
DesktopHE使ってみたがいい感じ。
サーチクロスから変えたいけど個人的に検索結果がまだ若干悪いのが惜しすぎる
894 :
名無しさん@そうだ選挙にいこう:2008/03/24(月) 20:13:06
俺は画像とテキスト文書の検索にしか使わないんだが、
グーグルのは巨大テキストファイルは文の後半を読まない。
MSのは検索精度は相当優れているんだが、ビュワーが遅い遅い。
画像管理ならPICASAが相当早くて最強なんだが日本語検索が
まったく使い物にならない。
てことで今はCOPEMIC使ってます。
まあこれも検索精度の点じゃMSのより不満があるけど、ユーザーインターフェース、
速度、機能のバランスが一番いいかな。
895 :
名無しさん@そうだ選挙にいこう:2008/03/24(月) 20:13:57
COPERNICの間違い
896 :
名無しさん@そうだ選挙にいこう:2008/03/25(火) 13:09:49
COPERNICは日本語が弱いんだよねえ。
ファイル名ならひっかかるけど、内容はまったく無視。
グーグルは後半も読むでしょ
COPERNIC日本語引っかかるぞ?
>>896 んなこたーないぞ?
俺の環境では。
メールの文字は化けてるけどね
文字化けするなら日本語弱いと言われても仕方ないのでは・・・。
902「わざと文字化けしてんのか?」
>>900 それで本文引っかかる?
引っかかっても文字化けして読めないなら
あまり意味が無いと思うけど・・・
>>905 導入してみればええやん
結論から言うとかかるし読める
900の環境だけで文字化けするなら
一行目は変じゃね?
908 :
名無しさん@そうだ選挙にいこう:2008/04/08(火) 20:20:51
GoogleデスクトップがVer5になってるけど、結局全文検索ならぬ先頭検索?
yes
高須
HIT率が一番良いのはWDSなんだよなぁ
重いけど
Linux 板と間違えた
誤爆スマソ
◆ハードディスクD ドライブの中のフォルダ D:¥txt 内にある10個のサブ
フォルダ txt01〜txt10 に散らばって保存してある文書ファイル計814本の中から、
「恐慌」の文字列を持つファイルを全て検索する grep のテスト結果
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
EmEditor professional 1秒以内 (マッチした件数を表示しない)
EdTex Editor 2秒以内 (マッチした件数を表示しない)
WZ Editor 3秒以内 (2件ありました、と表示する)
NotePad++ 3秒以内 (find result-2 hits、と表示する)
>>914 訂正です
◆ハードディスクD ドライブの中のフォルダ D:¥txt 内にある10個のサブ
フォルダ txt01〜txt10 に散らばって保存してある文書ファイル計814本の中から、
「恐慌」の文字列を持つファイルを全て検索する grep のテスト結果
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
EmEditor professional 1秒以内 (マッチした件数を表示しない)
EdTex Editor 1・5秒以内 (検索ファイル数とマッチ数を表示する)
WZ Editor 3秒以内 (2件ありました、と表示する)
NotePad++ 3秒以内 (find result-2 hits、と表示する)
Linux 板にでもどうぞ
>>914 参考にはなる人もいるかもしれんがスレ違いだから
出来たら書き込む前にテンプレ読んでくれ
918 :
名無しさん@そうだ選挙にいこう:2008/05/19(月) 07:52:26
DesktopHE使い始めたんですけど、
テキストファイルの内容だけじゃなくて、
ファイル名にもヒットするようにできないんでしょうか?
できる
>>919 どうしたらいいですか?
特にDesktopHEって設定項目が少ない上にヘルプも貧弱で良く分かりません・・・
>>921 すみません言葉足らずだったかも知れません
name:を用いた検索だと、txtやxlsなどは出てきても
mpgやaviなどが検索できないのです
そういうのも検索したいのですが・・・
だからググれよ
ここを特定のサポート代わりにつかわないでくれ。
せめて有益な情報もかいてあれば
別なんだが・・・
レビューとかさ
ググってもでてこねいな
俺も知りたいから教えてくれ
テキストファイルとみなせばいいんじゃね?
お前ら優しいな
やってみたけどできないな
うまく行った人いたら詳しく教えて
>>926 インデックス設定でテキスト〜に対象拡張子を追加
>>928 試しにやってみたが一応出来た。
*.c *.cpp *.pl *.py *.cgi *mpg *.avi *.zip *.rar *.lzh *.mp3
こんなふうにやってるんだがうまくいかんな
一回インデックス消して作り直さないとだめなのかな
教えて君に関わるとろくなことにならないな・・・
>>930 なんでまだ質問するの?
俺もうまくいかね
*
公式サイトすら読まない馬鹿ばっかだな
公式サイトがわかりにくいからしょうがないよ
あれ分かりにくいとか、どんだけゆとりだよw
公式サイト云々言ってる奴はバカだな
このスレの意味ねーだろ
( ´,_ゝ`)プッ
俺も公式は分かりにくいと思うわ
肝心なことがきちんと記述されていない
せめてヘルプぐらいつけろと
上級者向け設定の項目とか、上でも出てる拡張子の書式とか
肝心なことはなーんも書いてないやん
もう少しマジメにヘルプ書けと
確かに書いてないな
煽ってる暇があったらよ〜く理解なさってる
>>943先生がヘルプ作ってやれよ
書いてねえじゃん
こんなマイナーなソフトを使えるぐらいで優越感を持たれても失笑しか出てこんあ
プロテインだね
>>948 こんな単純なソフトすら使えない人って…
>>952 俺はバカでいいから上級インデックス設定についてヘルプ書いてくれよ
単純なソフトなんだからすぐ書けるよね?
お前ら優しすぎ
やっぱりDesktopHEをちゃんと理解してる人はいないみたいだな
なんでこのスレって煽り口調の人が多いの?
>>959 インデックス対象の種類を追加するとか基本的な使い方なら
本家のページさえ読めば書いてあるからできるはずなんだけどね。
出来ない人は読んでないか本当に日本語を理解できないか
ただの荒らしかだろう
対称の拡張子を追加するってのやってみたんだが、
estcmd I/O errorってなってうまくいかないのが既出?
estcmd: ERROR: .cpp: I/O problem
こんなかんじな
で、すべてのファイル名を検索するには?
CDSかGDSかWDSを使いたくないからDesktopHE使ってるんじゃないの
乙
だが早すぎではなかろうか
半年早いと思う
971 :
名無しさん@そうだ選挙にいこう:2008/05/29(木) 10:46:56
Janeの標準ログ検索でデスクトップサーチ使えるぜ。
WDS使用
【54 件見つかりました】(検索時間:5秒)
WDS未使用
【78 件見つかりました】(検索時間:89秒)
WDS3.1って検索精度低い?
関係ないファイルまでヒットしまくるんだけど
パスが検索対象になってるからか・・・
これOFFにできないのか
例)D:\マニュアル\デジカメ\CANON EOS 5D.pdf
キーワード:"マニュアル"
ヒット結果:CANON EOS 5D.pdf
>>973 Janeで一つのレスの中に指定した複数のワードが含まれてるレスを
全文検索する方法なんて無いかな?
janeでやるしかないんじゃないかな?
>>977 Janeではできないぞ?
一つのスレの中に単語が含まれてるかどうかを検索するだけで、レスの中に含まれるかの
判断はしない。
出来るよ
全部のjaneで出来るかは分からないけど
OpenJaneDoeだとできない。
JaneDoe Viewだとできる。
Jane Styleでも出来るね
>>981 えっ?俺Jane Doe Style使ってるけどできないぞ?
ログから検索(G)じゃだめ?
>>983 それは指定したキーワードが「スレ」に含まれているかどうかを検索するんでしょ?
俺が言ってるのは「レス」
ごめん。できた。
通常検索じゃなくて、マルチワードにしないと駄目なんだな。
ありがとう。
あと半年もたす予定のスレを13も減らしてすまってほんっとすまん。
最後はどうでもよくね?
>ビジネスでもプライベートでも必須の環境となりつつあります。
テンプレのこういう書き方はどうかとおもうけど・・・
毎日 全文検索してる人はほとんどいないんじゃないかな
一週間、一月単位でもね
基本フォルダ分けしてるから毎日は使わないけど、
どこに入れたか思い出せないときとか
1週間に1回ぐらいの頻度では使うかな俺は。