全文検索ユーティリティ統一スレッド　part3

>>581
「全文検索」
http://ja.wikipedia.org/wiki/%E5%85%A8%E6%96%87%E6%A4%9C%E7%B4%A2

> N-Gram
> （中略）
> たとえば「全文検索技術」という文字列の場合、「全文」「文検」「検索」「索技」「技術」と2文字ずつ分割して
> 索引化を行ってやれば、検索漏れが生じず、辞書の必要も無い。

577 名前：名無しさん＠そうだ選挙にいこう本日のレス投稿日：2006/10/04(水) 02:58:59
N-gramでも漏れはありますよ
577 名前：名無しさん＠そうだ選挙にいこう本日のレス投稿日：2006/10/04(水) 02:58:59
N-gramでも漏れはありますよ
577 名前：名無しさん＠そうだ選挙にいこう本日のレス投稿日：2006/10/04(水) 02:58:59
N-gramでも漏れはありますよ
577 名前：名無しさん＠そうだ選挙にいこう本日のレス投稿日：2006/10/04(水) 02:58:59
N-gramでも漏れはありますよ

馬鹿皿仕上げ

589 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 11:52:43

N-gram信者って
なんで必死なの？

590 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 12:03:06

>>588
インデックスを作る段階で漏れるだろｗ

591 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 12:20:48

N-gramは他のインデックス型に比べたらいいのは事実だからね
ただ漏れがないとか信者発言は痛いよな・・・

592 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 12:53:13

http://www.blwisdom.com/word/key/000876.html
> N-gram方式
> （中略）
> N-gram の長所として、検索漏れがない、文法解析をしていないので多言語展開が容易などがあり、
> 漏れがないという利点を利用して特許情報の全文検索に用いられたりすることがある。

理論上検索漏れがないのはどこのソースを見ても明らか。
「ギリシア」で「ギリシャ」がヒットしないから漏れがある、とか言ってんじゃねえだろうな

593 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 13:15:12

馬鹿発見ｗ

594 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 13:16:12

>>592
>「ギリシア」で「ギリシャ」がヒットしないから漏れがある、とか言ってんじゃねえだろうな
どこを読んだからこんなことが言えるんだ？？？

それと単語だけじゃなくて文でも考えてみろよ

595 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 14:03:43

だから「N-gramに検索漏れがある」という具体的事例なり
ソースなり示してみろよ。フォルスドロップと検索漏れをごっちゃにしてんじゃねえだろうな

596 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 14:07:35

ギリシアに行った。
だとアに行とかで引っかからんよ
単語によっては結構あるのよ

597 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 14:10:03

今はインデックス型とgrep型両方使うしかないんだよな
N-gramはゴミも多いしいつ使っていいか分からん
検索も遅く漏れもあるしさ・・・

598 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 14:14:59

うるせいよ馬鹿
N-gram最強なんだよ

599 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 14:16:23

>>595
お前は普段使ってるのか？
使ってる人なら理屈を知らなくても
漏れがあるのは知ってるはず

600 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 15:36:10

>>599
N-gram式ならQuickFinder2.0を使っていたし、
平凡社の「世界大百科事典第2版」の全文検索もたぶんN-gram。
最近ならDesktopHE（Hyper Estraierのスタンダロン）を試用したことがある。

いま、ためしに「ギリシアに行った。」と記したテキストを保存して
DesktopHEでインデクシングかけてみた。
結果は「アに行」でも問題なくヒットした。

N-gramに検索漏れがあるとか言ってる奴はサーチクロスをN-gram と勘違いしてんじゃねえの？

601 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 15:40:13

原理通り全部インデックスにしてれば漏れはない気がするが

602 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 16:01:54

原理通りなら元のファイル容量を大きく超えないか？？？

603 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 16:03:27

うむ。それを実装してるとは思えない。
だから漏れはあると俺も思う。

604 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 16:06:42

ギ、リ、シ、ア、に、行、っ、た、。
ギリ、リシ、シア、アに、に行、行っ、った、た。
ギリシ、リシア、シアに、アに行、に行っ、行った、った。
ギリシア、リシアに、・・・

605 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 16:09:47

信者はたぶんNの値が小さい時の場合しか考えてないんでしょ
全パターンをインデクシングしてるのもあるんだろうか？

606 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 16:14:26

>>600
「ギリシアに行った。明日はドイツに行くつもりです。」
を「アに行った。明日はドイツに行くつもりで」でも出る？

607 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 16:16:48

http://www.ipa.go.jp/jinzai/esp/2004mito2/mdata/4-4.html
> Hyper Estraierの方式では、インデックスサイズを対象文書のサイズの半分以下に抑えることができる。
> これにより、普通のパソコンクラスのリソースがあれば100万件(10GB)以上の文書を
> 対象とした検索システムが実用的に使えるようになった。

N-gram 方式のインデックスは通常、バイナリ圧縮されてるし、同じ文字のリピートが
多いから圧縮率も高くなる。
おまけにHyper Estraierみたいに位置情報をもたせない仕組みを設けて
いっそうサイズを小さくする工夫がなされているものもある。

>>603
だから「思う」じゃなくて、実際にN-gram で検索漏れが発生している実例を出してくれよ。
まあ、漏れがある時点で「純粋なN-gram」であるはずは無いんだけど。

608 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 16:19:02

>>607
>まあ、漏れがある時点で「純粋なN-gram」であるはずは無いんだけど。
漏れがあってもN-gramだぞ
公式を嫁

609 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 16:19:57

>>606
やってみた。問題なくヒットする。
疑うんならDesktopHE を入れて試してみればいいよ。
適当なフォルダに解凍してダブルクリックするだけのシンプル設計だから。

610 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 16:20:35

>>607
596の例でも
bi-gramならヒットしないよね
つまりN-gramはNの値と検索文字数によって漏れが出るのはしょうがない

611 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 16:22:51

長い文字列じゃ検索シネーヨで終わる予感ｗ

612 ：N-gram信者：2006/10/04(水) 16:22:58

参考までにHyper Estraierのデモサイトを紹介しとくよ
http://athlon64.fsij.org/~mikio/wikipedia/estseek.cgi?clip=8

どんな半端な文字列でもヒットする。
しかも相手はあの巨大なWikipedia。

>>608　公式ってなに？

613 ：N-gram信者：2006/10/04(水) 16:28:28

>>610
はぁ？
Bi-gramでもヒットするに決まってるじゃん。

(index)ギリ、リシ、シア、アに、に行、行っ、った、た。
(query word)アに行

query wordは「アに」と「に行」に分解されてindexに対してAND探索かけてみたら
結果は明白だろ。

614 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 16:29:51

>>610
Nが無限のもあるにはあるぞ
ただ実用的じゃないがなｗ

615 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 16:30:43

>>613
茶々入れるのはよせよ
理解してないならレスするな

616 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 16:33:07

>>613
そうか！
mono-gramでインデックスを作ってAND検索すれば漏れないじゃんｗ
俺天才だな

617 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 16:38:22

>欧文は単語を単位にして検索され、それ以外の言語（中国語、日本語、韓国語、アラビア語など）
>は文字を単位にして検索されます（N-gram方式）。

これにより「どんな半端な文字列でもヒットする。」ってことはないね
事実

http://ja.wikipedia.org/wiki/2%E3%81%A1%E3%82%83%E3%82%93%E3%81%AD%E3%82%8B

に「BBSではハンドルネーム」という部分があるが
「BBSではハンドルネーム」なら引っかかるが
「BSではハンドルネーム」とか「Sではハンドルネーム」
では引っかからないんだぜ？

618 ：N-gram信者：2006/10/04(水) 16:40:30

>>615
理解してないのはお前だろ。
Bi-gramを「2文字ずつスライドさせてインデックス化する方式」とでも
思ってんのか？

619 ：N-gram信者：2006/10/04(水) 16:43:39

>>617
N-gram 方式を謳ってるエンジンの多くは
①まず文字種ごとに区切る
②それをN文字（ふつうは2～3）単位で索引化

だから違う文字種が混ざると漏れが出るわな。
Hyper Estraierはそれでも優秀な方だし実用上問題はないだろ

620 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 16:45:24

>>597
共起関係を調べたりでしょ
検索で使ってる人よりも多いしさ

621 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 16:46:02

漏れがないって人は
根拠を示して欲しいな
リンク先は都合のいい部分しかかかれてないし・・・

622 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 16:46:59

信者は絶対に認めないよ
AND検索まで持ち出したのは笑ったｗ

623 ：N-gram信者：2006/10/04(水) 16:47:40

>>621
「N-gram」でググればいい。どこのサイトにも「検索漏れがない」って書いてあるだろ

624 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 16:47:53

N-gram戦争中
全文検索ユーティリティ統一スレッド　part3
ttp://pc8.2ch.net/test/read.cgi/bsoft/1120649196/

625 ：N-gram信者：2006/10/04(水) 16:51:56

>>622
だから理解してないんならしゃべんなよ。
「AND探索」ってのは検索エンジンがクエリワードをN字ごとに切り分けて
転置ファイルの文書IDをAND条件で拾ってくるってことだ。
N-gram方式の場合は必ずこれが行われている。

実際、Hyper EstraierはBi-gramだけど>>600にあるとおり、
ヒットしてるし。>>610の理解してるBi-gramってのはどういうモンなんだ？

626 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 16:53:25

N-gramってどうやって使うんだ？

627 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 16:53:48

細かいことはもうどうでもいいよ
事実、漏れはあったし

628 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 16:57:18

>>623
N-gram　検索漏れがないの検索結果約 29 件中 1 - 16 件目 (0.21 秒)
N-gram　検索漏れがあるの検索結果約 880 件中 1 - 100 件目 (0.26 秒)

629 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 16:58:07

>>625
お前こそ理解してないだろ・・・
Estraierがないのは当たり前
だからといってN-gramでもないとは言えないんだよ

630 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 16:59:34

>>625
上の方でギリシアとギリシャがあったけど
どちらで検索しても漏れがないgrepやインデックス型もあるけど
だからといってgrepやインデックス型の特徴とはいわんだろ

631 ：N-gram信者：2006/10/04(水) 17:03:41

「BBSではハンドルネーム」が「Sではハンドルネーム」だと引っかからない。
これは英字と日本語を分離させてからN字に区切るHyper Estraierの
アルゴリズムに起因する問題だろ。（そもそも実用上問題ないが）

N-gramアルゴリズム自体には検索漏れが生じる隙間はない。
たぶん世の検索エンジンで「N-gram」を名乗るものには
字種で切り分けてからインデックス化するタイプが多いんだろう。
だから>>596みたいなとんちんかんな話が出る。

632 ：N-gram信者：2006/10/04(水) 17:08:06

>>629
だから実例で示せっつってんのに。

>>623
Googleは検索 | 漏れ | が | あるで区切って検索してるから
そんな結果になるんだろｗ

633 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 17:11:08

>>629
言える

634 ：N-gram信者：2006/10/04(水) 17:11:42

>>623 じゃなくて >>628だった。。。

635 ：N-gram信者：2006/10/04(水) 17:16:03

おれは>>600で具体的にどんなソフトを使ってきて、
「N-gram 方式には検索漏れがない」って言ってるわけじゃん。

でも「検索漏れがある」派はアルアルと繰り返すばかりで
どういうシステム、またはアプリで検索漏れが発生するのか
全然示そうとしないね。

要するに連中はN-gram の仕組みを理解してなかっただけだろ。

>>629なんてその典型。

636 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 17:23:58

>>610
> つまりN-gramはNの値と検索文字数によって漏れが出るのはしょうがない

このあたり全く理解出来てないのが丸見えだな。
Nの値は検索速度に影響してくるが、漏れの発生件数とは何の関係もないのに

637 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 17:25:45

漏れはあるじゃねえか！（>>617）

638 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 17:48:27

>>626
nyで落とせ

639 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 18:10:07

漏れの証拠が出たら一気に沈静化したなｗ

640 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 19:12:59

>>637
estcmd create [-tr] [-apn|-acc] [-xl|-xh] [-sv|-si|-sa] [-attr name type] db
インデックスを作成します。
-trをつけると、既にインデックスがある場合にも新しいインデックスを作成します。
-apnをつけると、全ての言語をN-gram法で処理します。

-apnをつけると、全ての言語をN-gram法で処理します。
-apnをつけると、全ての言語をN-gram法で処理します。
-apnをつけると、全ての言語をN-gram法で処理します。

641 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 19:15:18

それを使ってないってことはインデックスが馬鹿でかくなるのか？
でも、圧縮できるといってたよなぁ
なぜわざわざパフォーマンスが落ちるものをデモにしてるんだ

642 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 19:28:35

>>641
なんのためにN-gram使ってると思っているの？
日本語が分かち書きされていないからだよ？

643 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 19:53:58

>>642
何言ってるの？
違うよ

644 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 19:57:00

>>640
そこじゃないから＾＾；

645 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 20:02:04

>>639
いや、どうひいき目にみても>>617は、いわゆる「検索漏れ」ではないだろ。
形態素解析の検索ソフト（GDSやWDS、CB）つかってみろよ。
「紗綾」で「入江紗綾」がヒットしないとかマジあるし。

646 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 20:07:17

N-gram法に漏れがあるなんて言ってる奴はアルゴリズム理解してないんだろ。

http://www.gengokk.co.jp/zenbun.htm
↑の「Ｎ文字インデックス法による全文検索」ていうの読めば分かる。
原理上、漏れはあり得ない。その代わり索引サイズはデカくなる。

647 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 20:21:26

>>632
あるの検索結果約 916,000,000 件中 1 - 100 件目 (0.19 秒)
ないの検索結果約 583,000,000 件中 1 - 100 件目 (0.29 秒)
「ある」と「ない」で２倍程度しか差がないのに
628では20倍も差ができてるから
お前の理屈はおかしい

648 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 20:29:11

>>647
「普通の全文検索では検索漏れがあるが、N-gram法ではない」っていう文章が多いんだろ。
　　　　　　　　　　　　　 ~~~~~~~~~~~~~~~~~
だいたい、形態素解析を使ってるシステムを紹介するページだと、わざわざ自分の弱点である
検索漏れについて触れることすら少ないしね。
「検索漏れ」という単語を多く含んでいるということはそれだけN-gramに検索漏れがない
証拠とも言える

649 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 20:56:08

>「検索漏れ」という単語を多く含んでいるということはそれだけN-gramに検索漏れがない証拠とも言える
なんで？？？

650 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 20:57:30

>>649
頭悪いな。>>648を100回嫁よ

651 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 20:57:56

>>648
>「検索漏れ」という単語を多く含んでいる
どこから多くなんて結論が出たんだ？
他のソフトで検索でもしたのなら書いて欲しい・・・

652 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 20:58:38

N-gram派が遊ばれてる・・・

653 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 20:59:58

>>648
普通はソフト名＋バグなら
バグを含んでるととらえるよな
いくら信者でもさすがにその理屈はおかしいよ

654 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 21:03:54

>>653
バグと検索漏れじゃ単語としての使用頻度が違うだろ。

つうか、Googleの検索結果で「ブッシュ悪」が 819,000 件だから
「ブッシュは悪だ」っていう判断と同じだろそりゃ。

いいからN-gramでググってまずアルゴリズムを理解するところから始めろよ

655 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 21:05:28

姉妹スレでもN-gramはこう評価されている。

http://pc7.2ch.net/test/read.cgi/software/1103114707/91
デスクトップ検索総合スレ Part1
91 ：名無しさん＠お腹いっぱい。：2005/05/29(日) 03:48:47 ID:cubYVqwD
Hyper EstraierとAN HTTPDの組み合わせを結構簡単に動かせた。
N-gram方式による漏れのない全文検索か

656 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 21:36:43

>>655
そんな一例だけもってこられてもｗ
ググれば評価はいろいろだよ

657 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 21:50:36

いいからさっさとN-gramの検索漏れの実例を出せよ。

658 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 21:50:38

信者は都合のいい意見しか記憶に残らんから＾＾；

659 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 21:51:08

>>657
何度も出てるだろｗ

660 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 21:54:03

>>657
氏ね、アホｗ

661 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 22:02:30

>>617 の事？

＞欧文は単語を単位にして検索され、
＞それ以外の言語（中国語、日本語、韓国語、アラビア語など）は文字を単位にして検索されます（N-gram方式）。

って書いてあるけど？？

BBSがBSで引っかからないはN-gram使ってないからだろ？

662 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 22:04:36

N-gramで検索漏れをなくしたら
grepより遅くならんかな

663 ：名無しさん＠そうだ選挙にいこう：2006/10/04(水) 22:13:08

結局は理屈の上では検索漏れをなくすことが出来るってだけなんだよな

664 ：名無しさん＠そうだ選挙にいこう：2006/10/05(木) 04:54:21

今北産業

とりあえずN-gramは、理論的には漏れは無いはずだ。
アルゴリズムをちゃんと理解すればそれは分かるはず。

で、N-gramには適合率（ノイズが多いってことね）が下がるという欠点があるわけで、
それを補うために検索ソフトが様々な工夫を凝らしている訳だ。

その結果、適合率が上がったが、
N-gramを謳いながらも検索条件によっては検索漏れが生じる事になった。

という事でN-gramに検索漏れはないけど、
N-gramを使った検索ソフトには検索漏れがある場合はあるとういう事でFA?

665 ：名無しさん＠そうだ選挙にいこう：2006/10/05(木) 05:14:22

ソフトのせいじゃないだろｗ

666 ：N-gram信者：2006/10/05(木) 08:28:00

>>664の見解でほぼFAでしょ。

おそらくLivedoorブログあたりの「N-gram 方式」を謳うエンジンで
漏れを経験したもんだから、アルゴリズムも知らずに「検索漏れはある」
と強弁してたんじゃないかな。

実際、ノイズと漏れとは逆比例の関係にあるから、実装上は
インデックスサイズの最適化も考慮して、ある程度の漏れを
許容してるのが普通だしね。

667 ：名無しさん＠そうだ選挙にいこう：2006/10/05(木) 09:17:49

漏れがないソフトを書けよ

668 ：名無しさん＠そうだ選挙にいこう：2006/10/05(木) 13:06:59

>>667
HyperEstraier

>>640にあるとおりオプション付ければ英文字もN-gram法で処理してくれる。

あと、>>526にもある「探三朗」。実際使ってみたけど
レポート通りのN-gram。たぶん文字種による切り分けもやってないのか
http://ja.wikipedia.org/wiki/2%E3%81%A1%E3%82%83%E3%82%93%E3%81%AD%E3%82%8B
の全文をテキストにしてインデクシングかけたら
「BSではハンドルネーム」とか「Sではハンドルネーム」
でもヒットした。

ただ、インデックスサイズの最適化を考えるとEstraierの方が
賢いやり方だとは思うがね。

で、「N-gram に検索漏れはある」派はその理論的根拠なり、
実例なりを準備できたのかい？
>>617については>>661でN-gram法使ってないことが指摘されてるし。

669 ：名無しさん＠そうだ選挙にいこう：2006/10/05(木) 13:16:24

estraierは純粋なn-gramじゃないんじゃない？

670 ：名無しさん＠そうだ選挙にいこう：2006/10/05(木) 13:22:44

Ngramって曖昧検索は出来んの？

671 ：名無しさん＠そうだ選挙にいこう：2006/10/05(木) 13:31:26

yes

672 ：名無しさん＠そうだ選挙にいこう：2006/10/05(木) 13:41:55

>>670
あいまい検索はシソーラスを内蔵してるかどうかだから
インデクシング方式とは関係ない。

grep式でも曖昧検索は出来る。（一太郎の全ファイル検索とか）

673 ：N-gram信者：2006/10/05(木) 13:47:19

なんかいろいろサーチエンジン入れるハメになっちゃったんで
この機会に性能比較してみた。

対象フォルダ
70MBのtxt,doc,xls,html,mht混在フォルダ

サーチクロス　インデクシング22秒　インデックスサイズ971KB（cache含まず）
DesktopHE　インデクシング1分54秒　インデックスサイズ4.8MB
探三朗　インデクシング10秒　インデックスサイズ1.1MB

※探三朗以外は文書フィルタにxdoc2txt.exe使用

「溶接」でサーチ
サーチクロス 5件、DesktopHE 5件、探三朗 2件
理由は探三朗でヒットしなかったファイルは探三朗で未対応の*.mhtファイルだったため

意外と探三朗は優秀か？ただもっと大規模な文書群を索引化してみないと
ノイズや検索時間の問題が出てくるかも分からんから断定は出来んが

674 ：名無しさん＠そうだ選挙にいこう：2006/10/05(木) 14:05:48

ついでにGREPでもヨロ
あと長い単語も

675 ：N-gram信者：2006/10/05(木) 14:24:23

>>674
GREPじゃ「インデクシング0秒」「インデックスサイズ0B」に決まってんじゃないか。

とりあえず、Office SuiteやPDF文書フィルタを備えたgrepソフトなんてないから
WindowsXPの検索で同じフォルダに検索かけてみた（一太郎やPDFのiFilter導入済み）

検索時間50秒で4件ヒット。サーチクロス＆DesktopHEと比べて
1件少ないのは、mht文書が1件漏れているから。
その文書には確かに本文に「溶接」の文字が含まれているのだが
Windowsの逐次検索ではヒットしない。フィルタの質が悪いんだろうな

676 ：名無しさん＠そうだ選挙にいこう：2006/10/05(木) 14:46:48

本論は最初から実装として漏れがあるって話だったじゃん
それをN-gram自体はってのにすり替えて勝利宣言かよｗｗｗｗｗｗｗｗｗ

677 ：N-gram信者：2006/10/05(木) 15:07:41

>>676
「実装として」なんて話なかったよ。
おれが>>576で「N-gramでない限り検索漏れはあるに決まってるし」と
いったところ、>>577が「N-gramでも漏れはありますよ」というので
>>580で「N-gramに漏れはないよ」と返したところ、議論になっただけ。

べつに勝利宣言するつもりもないよ。
実装レベルで（文字種による切り分け）でN-gram法でも検索漏れが
出るという認識は俺もほとんど持ってなかった。

ただアルゴリズム上は漏れは出ないという認識は正しいはずだし、
>>617レベルの漏れは実用上なんの問題もない「漏れ」だとは
思うけどね。

678 ：名無しさん＠そうだ選挙にいこう：2006/10/05(木) 15:14:03

このスレはなんで昼間に伸びるの？

679 ：名無しさん＠そうだ選挙にいこう：2006/10/05(木) 15:29:52

業務用として使われることが多く、詳しい人は管理者であり
管理者特権を行使している人が集うから。

680 ：名無しさん＠そうだ選挙にいこう：2006/10/05(木) 15:37:55

ついに認めたなアホ
漏れがあることを認めたんなら、他の形式のソフトと同じと言うこと
もう出てこなくていいよおまえ
「理論上は」と「実装した場合」の区別をわざとつけずに詭弁を弄するだけの馬鹿は消えろ

681 ：名無しさん＠そうだ選挙にいこう：2006/10/05(木) 16:04:02

679の訂正
業務用として使われることが多く、詳しい人は管理者であり
管理以外の仕事を任せてもらえない人も多いようだ。

682 ：名無しさん＠そうだ選挙にいこう：2006/10/05(木) 17:13:31

N-gram "検索漏れがない" の検索結果のうち日本語のページ約 6 件
N-gram "検索漏れがある"に該当するページが見つかりませんでした

683 ：名無しさん＠そうだ選挙にいこう：2006/10/05(木) 18:47:22

AN HTTPDとnamazuでLAN内検索システムってのを
前に作ったことがあるんだけど、これからはHyper Estraierだってんで、
同じように挑戦してみた。
●Active Perlが無くても動く
●*.cgiはEXEとして実行可能にしておく
●-pc CP932 オプションを付けてインデクシングする

と、いった感じで進めていった。
インデックスも無事できて検索画面で検索もできるんだけど、
ファイル名に日本語名が入ってると、ブラウザからのリンクが効かないんだよね。
ファイル名がURLエンコードされたままになってるからじゃないかと思う。

mknmzなら-U オプションで解決したんだけど、
Hyper Estraierではやり方が分からん。。。namazuと比べると
WEB上の資料も乏しいし、誰か分かる人いませんか？

684 ：名無しさん＠そうだ選挙にいこう：2006/10/05(木) 18:52:52

>>681
俺のレスを勝手に修正すんな基地外

>>681=信者

685 ：名無しさん＠そうだ選挙にいこう：2006/10/05(木) 19:49:08

>>675
Grep以外は全文検索じゃないとか言ってた奴がいたが、
そのGrepが一番精度低いとは笑えるな

686 ：名無しさん＠そうだ選挙にいこう：2006/10/05(木) 21:01:02

>>683
設定ファイルの
showlreal: true
は指定してみた？

687 ：名無しさん＠そうだ選挙にいこう：2006/10/05(木) 22:34:19

>>685
精度？
馬鹿？
ああ、馬鹿でしたね

688 ：６８３：2006/10/05(木) 23:04:02

>>686
すげー！ＴＨＸ！
confいじってからインデックス作り直したらバッチリ動いたよ！

あとはnamazuみたいに複数のインデックスをチェックボックスで切り替えられたらなぁ。
公式みたところでは@genre によるジャンル絞り込みしかできないみたい。

689 ：名無しさん＠そうだ選挙にいこう：2006/10/05(木) 23:05:03

全文検索ユーティリティ統一スレッド　part3
http://pc8.2ch.net/test/read.cgi/bsoft/1120649196/577-

N-gramによる検索時に検索が発生するか否かの議論。

また、以下ではサーチクロスの実装パターンの推測が行われている。
http://pc8.2ch.net/test/read.cgi/bsoft/1120649196/495

690 ：名無しさん＠そうだ選挙にいこう：2006/10/05(木) 23:14:55

検索時に検索が発生するか否かの議論

691 ：名無しさん＠そうだ選挙にいこう：2006/10/05(木) 23:36:38

閑話休題。N-GRAMの変形を実装した、OracleのinterMedia Text (現在はOracle Text) という
製品では、ワイルドカード検索で予期しないふるまいをするという解説記事があるよ。

ちなみにワイルドカードは、 '_' は任意の1文字に、'%' は0個以上の文字列にマッチする。

ttp://otndnld.oracle.co.jp/products/oracle8i/intermedia/htdocs/imt.htm

692 ：名無しさん＠そうだ選挙にいこう：2006/10/06(金) 00:22:51

>>687
はいはいGrep信者は専用スレでも立ててそっち行ってね。
ここはインデックス型高速全文検索スレだから

693 ：名無しさん＠そうだ選挙にいこう：2006/10/06(金) 03:55:07

>>692
えーと君は精度って言葉の意味を調べた方が良いよ
煽りに煽り返すんじゃなくてさ

694 ：名無しさん＠そうだ選挙にいこう：2006/10/06(金) 07:18:47

ていうか、喧嘩はもうやめよう。
適合率（精度）と再現率の定義から始めないと議論が噛み合わないぞ。

695 ：名無しさん＠そうだ選挙にいこう：2006/10/06(金) 10:47:53

>>694
定義も何も>>646のリンク先にすでに出ていることじゃないか。

適合率が高い＝ノイズが少ない
再現率が高い＝検索漏れが少ない

両者は反比例する。

「精度」っていう場合は、適合率のことをいう。
http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/infoDB/ir-esti.ppt
http://itpro.nikkeibp.co.jp/article/COLUMN/20051208/225947/

ノイズが少ない検索エンジンが「精度がいい」。
いまもって形態素解析が検索エンジンの中核を担っているのはそういうことなのかもね。

696 ：名無しさん＠そうだ選挙にいこう：2006/10/06(金) 12:23:27

>>695
「ノイズが少ない」では定義として不十分でしょ。
さらに一歩踏み込んで、シグナルとノイズの定義を明確化せねば。

697 ：名無しさん＠そうだ選挙にいこう：2006/10/06(金) 13:06:21

ノイズの定義は明らかでしょ。
まず、フォルスドロップ、ついで単語の切り分けに失敗したケース
「相撲」で検索→「航空相撲殺」がヒット
「スキー」で検索→「ドストエフスキー」「スキーム」がヒット

いずれにせよ上記のようなノイズはN-gram 方式では技術的に不可避だから
WWW検索みたいな大規模な検索エンジンにN-gramを使うのは自殺行為だろうね。
Hyper Estraierのようにハイブリッド式って方向もあるだろうけど

698 ：名無しさん＠そうだ選挙にいこう：2006/10/06(金) 14:32:25

　　　　　　　　　　　　　　　　　　　　,ィ⊃　　, -- ､
　　　　　　　　　　,r─-､　　　,. ' ／　　,/ 　　 }　　　　　ち
　　　　　　　　　 { 　　　ヽ　／ ∠ ､＿__/　　　　|
　　　署　　　　　ヽ.　　　 V-─- 、　, ',_ヽ / 　,'　　　　　　ょ
　　　　　　　　　　ヽ　ヾ､　　',ﾆ､ヽ_/ ｒｭ､ﾞ､　/
　　　ま　　　　　　　＼　 l　　ﾄこ,! 　　{`-'} 　Y　　　　　　　っ
　　　　　　　　　　　　　ヽj 　　'ー'' ⊆) '⌒｀　!
　　　で　　　　, ､　　　 l 　　　ﾍ‐--‐ｹ　　　}　　　　　　　と
　　　　　　　　ヽヽ.　　_ .ヽ. 　　　ﾞ<‐y′ 　 /
　　　来　　　　 }　 >'´.-!、ゝ､＿　~ 　___,ノ
　　　　　　　　　|　　　－!　　＼` ｰ一'´丿＼
　　　い　　　　ﾉ　　　 ,二!＼　　＼___／　　　/｀丶､
　　　　　　　 /＼　／　　　＼　 /~ﾄ､　　／　　　 l ＼

699 ：名無しさん＠そうだ選挙にいこう：2006/10/06(金) 20:20:16

>>697
ところが、細かいところでノイズの捉え方は異なる。
そしてその細かい違いに拘るユーザが多いということがこういった論争を引き起こしている
ような気がする。

例えば「検索」で「全文検索」を該当させるべきか否か。
わかち書きの場合、「全文検索」が辞書にあれば、
そのフレーズは「検索」というクエリではヒットしないことになるが、
それが「ノイズ除去」なのか「検索漏れ」なのかは、ユーザが「全文検索」
というフレーズをどうとらえているかによる。

つまり、「単語の切り分けに失敗」したかどうかが各ユーザの主観に委ねられてしまう
ので、宗教論争になりがちなのだと思う。

ノイズや検索精度の定義が自明でないことを踏まえて、統計的なアプローチをとるのが
賢明なんじゃないかなぁ。

700 ：名無しさん＠そうだ選挙にいこう：2006/10/06(金) 23:56:03

estaierはbi-gramとhashだから
まったくの別物だよ

701 ：名無しさん＠そうだ選挙にいこう：2006/10/07(土) 00:19:36

>>700
スペル間違ってるし、いきなり何言ってるのかも分かんないし・・・

702 ：名無しさん＠そうだ選挙にいこう：2006/10/07(土) 06:51:37

Estraier検索漏れあるじゃん

全文検索エンジンEstraier
ttp://pc8.2ch.net/test/read.cgi/unix/1100221699/

>>701
NM-gramってことでしょ

703 ：名無しさん＠そうだ選挙にいこう：2006/10/07(土) 10:20:50

>>702
完全N-gramモードで動かせば検索漏れは無くせる。

704 ：名無しさん＠そうだ選挙にいこう：2006/10/07(土) 10:23:12

それはもはやN-gramじゃないですからｗ

705 ：名無しさん＠そうだ選挙にいこう：2006/10/07(土) 11:19:52

>>702
アフォですか？
Estraierってのは形態素解析を使ったH.E.の前世代エンジン。
検索漏れはあって当然。

Hyper Estraierはデフォ設定だと漏れはあるが
設定次第で完全N-gramにできるから漏れはゼロにできる。

706 ：名無しさん＠そうだ選挙にいこう：2006/10/07(土) 11:33:00

検査漏れもいいけれど、表示の優先度はどうするよ？

707 ：名無しさん＠そうだ選挙にいこう：2006/10/07(土) 11:34:10

つまるところ、ググルのページランクみたいなものだが、実質的な使い勝手
はソート順の方が効いてくる希ガス。

708 ：名無しさん＠そうだ選挙にいこう：2006/10/07(土) 12:02:12

>>705
設定次第なら大抵のソフトでも検索漏れないなｗ

709 ：名無しさん＠そうだ選挙にいこう：2006/10/07(土) 12:14:48

>>707
ページランクって被リンク先のランクと数から重み付けする方式でしょ？
WWW検索では有効かも知れないけど、イントラネットや個人のアーカイブなら
やっぱりタイトル（ファイル名）と本文に含む数で順位付けするしかないんじゃない？

>>708
namazuはどんな設定しても漏れまくりですが何か？

710 ：名無しさん＠そうだ選挙にいこう：2006/10/07(土) 22:28:36

ずいぶんスレ伸びたね。N-gram論争で。
でもここは個人向けの全文検索スレだよね？
もうじきVistaが出荷されるよね。
VistaにはWDSと同エンジンのインデックス検索が標準で付いてくるよね。
君らみたいなマニア層じゃない人はもちろんそれを使うよね。

「すげー、Excelの中身まで一瞬で検索するよ」
「mp3のID3タグやPDFのメタデータまで検索してくれるわ」
「インデックスとか良く分からないけど、いつのまにやら作ってくれてる。便利だなー」
「やっぱシェル統合だね」

オタクは「MSNエンジンは形態素解析の精度がどうのこうの」いうかも
知れないけど、結局サードパーティの変なソフト入れて、インデックス作成に
メモリ大量消費したり、途中でこけたりするサーチ○ロスとかNa○azuとか○straierとか
Concept○earchみたいのはあっという間に淘汰されていくんだろうね。

711 ：名無しさん＠そうだ選挙にいこう：2006/10/07(土) 22:32:27

　　　　　　　　　　　ムシャ　　　　　　　　　|
　　　　　　　　　　　　　ムシャ　　　　　　　|
　　　　　 ∩＿＿＿∩　　　　　　　　　|　　ぷらぷら
　　　　　 | ノ　　　　　ヽ　　　　　　（（　 |
　　　　　/　　●　　　● |　　　　　　　　　J　　））
.　（（　　|　　　　( _●_)　ミ　・
　　　　彡､　　　|∪}=) ,ノ　∴
　　　　　/　　　ヽ/＾ヽ　ヽ　。
　　　　　|　　　　ヽ　＼　|
　　　　　|　　　　　　ヽ＿_ﾉ

712 ：名無しさん＠そうだ選挙にいこう：2006/10/07(土) 23:33:24

>>710
そんな感じだろうね。

713 ：名無しさん＠そうだ選挙にいこう：2006/10/07(土) 23:45:18

Vista 使わないな。XPと2000で間に合う。

714 ：名無しさん＠そうだ選挙にいこう：2006/10/08(日) 00:53:43

２ちゃん専ブラの過去ログ検索にこだわってサーチクロス使ってきたけど
いい方法考えた。

（１）まず http://tatsu01.at.infoseek.co.jp/ でDAT2HTMLを入手
（２）c:\Program Files に「dat2html」フォルダを作って解凍したファイルを
　　全部突っ込む
（３）次のファイルをメモ帳で作る
path c:\Program Files\dat2html
c:
cd c:\Program Files\hzb2\users\USER_NAME\log\2ch ←専ブラによる
dat2html /c /t /s
pause conversion is finished
（４）「dat2html.bat」とでも名前を付けて適当な場所に保存
（５）上記バッチファイルをダブルクリックで、専ブラのログ保存場所に
　　html形式に変換されて保存される
（６）バッチファイルをタスクスケジューラで3日に1回くらい実行させておく

これでGDSやMSN、はてはnamazuでもスレッド単位で過去ログ検索が可能になる
オレって天才！

715 ：名無しさん＠そうだ選挙にいこう：2006/10/08(日) 00:56:59

>>714
バッチファイルの中身を訂正

path c:\Program Files\dat2html
c:
cd c:\Program Files\hzb2\users\USER_NAME\log\2ch ←専ブラによる
dat2html *.dat /c /t /s　　　　　　　　←「*.dat」が必要
pause conversion is finished

716 ：名無しさん＠そうだ選挙にいこう：2006/10/08(日) 01:50:17

>>714
それで満足できるなら問題ないけど。ファイルサイズがが大きくなっちゃうとか。

あと、GDSはサイズ制限でイマイチだと思います。

717 ：名無しさん＠そうだ選挙にいこう：2006/10/08(日) 08:00:34

サーチクロスって無料？

718 ：名無しさん＠そうだ選挙にいこう：2006/10/08(日) 14:57:27

否

719 ：名無しさん＠そうだ選挙にいこう：2006/10/08(日) 15:33:54

>>714
面倒じゃね？
メリットもあんまりなさそう・・・

720 ：名無しさん＠そうだ選挙にいこう：2006/10/08(日) 16:12:18

>>719
タスクスケジューラで一度設定しとけばあとは自動的にやってくれるから面倒じゃないよ。
でもログのサイズが倍増するのが玉に瑕。。。

あと、差分だけの変換ってのができないから、実行のたび一から変換になっちゃう。
ログサイズによっては結構時間かかるんだよね～。

２ちゃんの過去ログを宝の山と思う人でなおかつサーチクロス使わない人は
試す価値あるんじゃないかな？

721 ：名無しさん＠そうだ選挙にいこう：2006/10/08(日) 17:00:47

やっぱりN-gram最高だったな
ttp://preferred.jp/sedue/benchmark.htm

722 ：名無しさん＠そうだ選挙にいこう：2006/10/08(日) 21:18:35

Hyper Estraierってデフォルトでファイルサイズ32MB、テキストサイズ128KBの
制限があるんだよね。どうりで文書の最後の方が引っかからないと思った。。。

で制限を緩めてファイルサイズ512MB、テキストサイズ2048KBにして
Gatherer走らせてみた。テキストサイズの方は何とかなるんだけど、
うちにある透明テキスト入り480MBのPDF（テキスト自体は1MB程度）が「Out of Memory」でこける。

しゃーないから仮想メモリを1024MBまで増やしたんだけど、それでもダメ。
ちょっとメモリ食い過ぎじゃないの？xdoc2txtでテキストをテンポラリーに抽出してから
インデックス化すればいいだけだと思うんだがなぁ。

これじゃ書籍をスクラップしてPDF化した奴はかなり弾かれることになる。
ちなみにこのファイル、サーチクロスやWDSではすんなりインデックス化されるんだよね。

723 ：名無しさん＠そうだ選挙にいこう：2006/10/08(日) 21:58:17

使う前にヘルプ読むなりするから
デフォルトが糞でも問題ない

724 ：名無しさん＠そうだ選挙にいこう：2006/10/08(日) 22:21:42

N-gramを使うまでは、僕はまったくもてませんでした。
２ちゃんねるやWarez、最新アニメの話で彼女をひきつけようとしても、白けられるばかりでした。
N-gramを使ってからは全てが変わりました。
全文検索の話で盛り上がり、彼女はもう僕にめろめろです。
素敵な彼女のハートをつかむことを助けてくれたN-gramに僕は大感謝です。

725 ：名無しさん＠そうだ選挙にいこう：2006/10/08(日) 22:51:33

>>722
そういうフィルタを書けばいいんじゃね？
estxfilt.batを適当に改造するだけだから多分簡単ぽい。

726 ：名無しさん＠そうだ選挙にいこう：2006/10/08(日) 23:08:14

>>722
480MBのpdfを作業フォルダにコピーしてからestxfilt.batで変換するようになってるみたいだけど
こけるのは480MBのコピーのときかな？

727 ：名無しさん＠そうだ選挙にいこう：2006/10/09(月) 00:30:52

-fzオプションでコピーを抑止して、estxfilt.bat の中で
%ESTORIGFILE% から読み込むようにすればいいんじゃね？

728 ：722：2006/10/09(月) 01:45:53

estxfilt.bat の中身って単なるxdoc2txtのコマンドだよね。
とりあえずコマンドプロンプトから正常にテキスト抽出できるかどうか試してみたら
「abnormal terminal」と出て、動かない。

物理メモリ512MB、仮想メモリ2048MBのクライアントでGatherer走らせたら
インデックス化できました。結局クライアントがしょぼすぎたっつうことで。。。
xdoc2txt.exeってファイルサイズ分を実メモリに読み込んで処理するんだね

729 ：これわろた：2006/10/09(月) 18:37:44

【desktop】Google デスクトップ Vol.3【検索】
http://pc7.2ch.net/test/read.cgi/software/1153406994/l50

329 名前：名無しさん＠お腹いっぱい。投稿日：2006/10/04(水) 11:22:45 sDrCWpEr0
さっきこれ入れてみました。
かのGoogleがやることに間違いはないだろうと楽しみでしたね。
さすがにインターフェイスがわかりやすいです。
スケジューラーないなーと思ってたんですけど探したらカレンダーがありました。
よくわかんないけどユーザー登録して苦労しながら使ってみたら、
いちいちブラウザ立ちあがんのかよと思いましたけどまあいいかな。
そんな間にもデスクトップはPCを検索してくれます。
アイドル状態じゃないと検索しないのかよと思い、すぐ検索を選択。
CPUを80～90％ずっと使ってます。重い。。。でも意外に遅い。。。
だけどむしろ終わったときに喜びましたね。いい感じじゃ、さすがグーグル様。

で、感動しながらディスク容量を見たときにびっくり。なんか1GBとか減ってんの。
調べてみたらデータベースね。馬鹿かと。なんでデータベース作んのにそんな容量使うねん。
多分ファイルの内容とかも全部読み取ってんだろうけど、個人的にそこまでしなくていいよ。
題名でだいたい分かるし。勘弁して。しかもさらに調べたらプロセスが4つぐらい常駐してんのね。メモリ馬鹿食い。

むかついてとっさにアンインストールしようとしたんだけど、ちょっと待って。
そうか容量食うんだったらデータベースを全部消せばいいんだよな。
よし探し出してShift＋Deleteと。あとGoogleDesktopCrawl.exeを消せばHDDの検索機能止まるから完璧。
しかもGoogleDesktopCrawl.exeのプロセス1個減るからメモリにも優しいっていう。
天才かもしれない。

こんな感じでうまく使いこなせそうです。
みなさんもお試しあれ～。

730 ：名無しさん＠そうだ選挙にいこう：2006/10/09(月) 19:30:50

釣りだろ。下の中。

731 ：名無しさん＠そうだ選挙にいこう：2006/10/10(火) 00:16:16

関連スレ
Vistaの高度な検索機能と整理機能を使いこなすスレ
http://pc8.2ch.net/test/read.cgi/win/1151723516/l50

732 ：名無しさん＠そうだ選挙にいこう：2006/10/13(金) 03:38:41

NTTデータが全文検索エンジン｢Ludia｣をオープンソースとして無償公開
http://itpro.nikkeibp.co.jp/article/NEWS/20061012/250485/

733 ：名無しさん＠そうだ選挙にいこう：2006/10/13(金) 05:07:14

Sennaの薄いラッパーにすぎないのに、まるで自社開発の検索エンジンであるかのような
宣伝のしかたはうまいよなー。

734 ：名無しさん＠そうだ選挙にいこう：2006/10/13(金) 05:26:44

>>733
文盲か？

735 ：名無しさん＠そうだ選挙にいこう：2006/10/13(金) 07:19:05

>>734
ちゃんと中身を見てからイチャモン付けような。

>>733とは別人だけど、実際はSennaのPostgreSQLバインディングなんよ。
しかもちょっと手が加えられたpg_sennaにconfigureを加えただけと言っても過言ではないようなステキ構成。
それをさも独自開発のように宣伝するのは凄いw
pgestraierやpg_rast（むしろRast本体）に動きが見られない現状、
PostgreSQLに対応したものを出してくれるだけで十分ありがたいんだけどね。

736 ：名無しさん＠そうだ選挙にいこう：2006/10/13(金) 07:34:56

俺も読んだけど
>まるで自社開発の検索エンジンであるかのような
になるのはおかしくね？

737 ：名無しさん＠そうだ選挙にいこう：2006/10/13(金) 08:28:41

http://www.nttdata.co.jp/release/2006/101100.html
http://www.nttdata.co.jp/services/ludia/index.html

Sennaのセの字も書いてないな。

738 ：名無しさん＠そうだ選挙にいこう：2006/10/13(金) 08:30:54

>>735
どこに独自開発のように宣伝してる部分があるの？

739 ：名無しさん＠そうだ選挙にいこう：2006/10/13(金) 10:15:58

何も但し書きがない状態で自社サイトに載せてて自社開発でないと思うほうが難しいだろ

740 ：名無しさん＠そうだ選挙にいこう：2006/10/13(金) 10:42:33

そんなこと言ってたら全ての漫画家は手塚治虫のパクりだろ

741 ：名無しさん＠そうだ選挙にいこう：2006/10/13(金) 11:14:19

（　･？ω･？）喧嘩が好きですね

742 ：名無しさん＠そうだ選挙にいこう：2006/10/13(金) 11:18:15

そんなことよりも、サーチクロスで、PDFのフォントとかに制限のないフィルタを探してくれ。

743 ：名無しさん＠そうだ選挙にいこう：2006/10/13(金) 12:40:47

>>739
だからそう言ってるじゃん

744 ：名無しさん＠そうだ選挙にいこう：2006/10/13(金) 13:54:11

>>742
xdoc2txt

745 ：名無しさん＠そうだ選挙にいこう：2006/10/13(金) 14:21:16

type1 はむりだべ。

746 ：名無しさん＠そうだ選挙にいこう：2006/10/13(金) 14:58:07

type1をフィルタリングできるのは海外にあったけど
標準出力が出来ない。ファイルには出せるけど。
だれか探してくれ。

747 ：名無しさん＠そうだ選挙にいこう：2006/10/13(金) 15:01:30

出来るでしょ

748 ：名無しさん＠そうだ選挙にいこう：2006/10/13(金) 15:21:53

N-gram使えば解決

749 ：名無しさん＠そうだ選挙にいこう：2006/10/13(金) 16:07:18

N-gram・・・
とっつきにくそうだな。調べる気にもならなくなるなぁ。
サーチクロスのフィルタとして使えるの？

簡単に説明してちょ。

750 ：名無しさん＠そうだ選挙にいこう：2006/10/13(金) 16:22:41

円記号問題がないソフトはありますか？

751 ：名無しさん＠そうだ選挙にいこう：2006/10/13(金) 18:08:04

>>750
HyperEstraier なら"￥"で検索できる。
ちゃんと半角もヒットする。

752 ：名無しさん＠そうだ選挙にいこう：2006/10/13(金) 18:12:13

>>745
type1 フォント使ってるPDFを紹介してよ。
抽出できるかどうか試してみるから

753 ：名無しさん＠そうだ選挙にいこう：2006/10/13(金) 22:14:27

そのludiaとやらは、まがりなりにも「オープンソース開発センタ」を名乗っている
部署が作っているわりには、派生元であるSennaに対するリスペクトがなさすぎるよな。
というか、ソース見る限り、わざわざ商標までとるような仕事なのかと小一時間…

$ wc -l pgsenna2.c pgsenna2.h
751 pgsenna2.c
93 pgsenna2.h
844 合計

おとなしくpg-sennaとして出してればよかったのにな。

754 ：名無しさん＠そうだ選挙にいこう：2006/10/14(土) 06:47:54

なんか妬んでけちをつけてるようにしか見えないよな

755 ：名無しさん＠そうだ選挙にいこう：2006/10/14(土) 23:35:23

でも正直、商標はやりすぎだろ

756 ：名無しさん＠そうだ選挙にいこう：2006/10/14(土) 23:42:28

>>755
なんで？
AVEXくらいなら分かるけど
これは何の問題もないとおもうぞ

757 ：名無しさん＠そうだ選挙にいこう：2006/10/15(日) 00:06:30

商標＝金儲けの感があるからじゃね？

758 ：名無しさん＠そうだ選挙にいこう：2006/10/15(日) 00:59:15

放っておくと勝手に名前を使われて信用を害されたりするから、防衛的に商標登録することがある。
大会社は信用の保護のために、こういう金にならないものであっても無策ではいられないのだよ。

759 ：名無しさん＠そうだ選挙にいこう：2006/10/15(日) 17:26:30

ヤクザな企業が後から商標を取って
「ねー、おたくの会社、うちの名前を勝手に使うってどういうこと？お金払ってよ」
と訴えられるのを防ぐために商標とってるだけ。>>758のいうとおりです。

760 ：名無しさん＠そうだ選挙にいこう：2006/10/15(日) 18:00:32

755には、なんでやりすぎなのか説明してほしいｗ

761 ：名無しさん＠そうだ選挙にいこう：2006/10/15(日) 20:49:47

ようするにNamazuのパッケージに新規開発した文書フィルタ追加して
「Hyper NTT SearchSolutionSystem (HN-3S)」とか商標とって
公開してるようなもん？

762 ：名無しさん＠そうだ選挙にいこう：2006/10/15(日) 20:54:06

全然違うだろ
732をよくよめ

763 ：名無しさん＠そうだ選挙にいこう：2006/10/15(日) 22:12:30

>>761
作者は違うと主張するだろうけど、
傍目に見るとそんなレベルだよな。

764 ：名無しさん＠そうだ選挙にいこう：2006/10/15(日) 23:25:11

フィルタとラッパーは同じものなの？

765 ：名無しさん＠そうだ選挙にいこう：2006/10/16(月) 00:37:12

サーチクロスでUnicode(UTF-16)，UTF-8のテキストファイルが
インデックス化できないのは有名だが、txt htm html shtml に対しても
xdoc2txt.exeを文書フィルタとして使えば抽出できるようになるんだな。

テキストとHTMLのインデックスを作り直すか。。。

766 ：名無しさん＠そうだ選挙にいこう：2006/10/16(月) 08:36:06

>>752
ありがとうございます。ただ、該当フォントを使ったpdfは新たに作ることも出来ず
機密ではなくとも外に出せる文書ではないため、うpできませぬ。
再度国内HPで紹介され、試用できるものは試してみましたが、やはりだめやった。
どうもありがとう。

767 ：名無しさん＠そうだ選挙にいこう：2006/10/16(月) 11:39:11

>>759
みかかが勝手に商標を取って
「ねー、おたくの会社、うちの名前を勝手に使うってどういうこと？お金払ってよ」
と訴えるんじゃないかってことだろ。
もともと他人のフンドシに自分の名前を書いてるんだから
勝手に名前を使われて信用を害されたりするなんて因縁つけるのは本末転倒。
大会社と違ってボランティア組織は金が無いから、こういうことに無策で食い物にされそう。

768 ：名無しさん＠そうだ選挙にいこう：2006/10/16(月) 16:08:05

アンチの論理はおもしろいなｗ

769 ：名無しさん＠そうだ選挙にいこう：2006/10/16(月) 16:52:02

商標って勝手に取れるものなの？

770 ：名無しさん＠そうだ選挙にいこう：2006/10/16(月) 17:26:08

探三郎、使ってみた。

検索結果から直接文書を開けるのと
結果一覧が見やすいのはｲｲ！

これで、大文字・小文字を区別するかどうかを
選択できれば完璧なんだが。

771 ：名無しさん＠そうだ選挙にいこう：2006/10/16(月) 17:44:33

行に飛んでくれない
検索結果の画面がカスタマイズできない
もなんとかしてほしい

772 ：名無しさん＠そうだ選挙にいこう：2006/10/16(月) 18:29:21

プレビューで行に飛ぶってこと？
そんなソフトサーチクロス以外にあるの？

あと、探三朗（Vectorなど）なのか探三郎（公式）なのかもはっきりして欲しい

773 ：名無しさん＠そうだ選挙にいこう：2006/10/16(月) 18:36:29

>>772
Copernic Desktop Search2も飛ぶよ

774 ：名無しさん＠そうだ選挙にいこう：2006/10/16(月) 19:46:39

namazuやkwicも飛べる

775 ：名無しさん＠そうだ選挙にいこう：2006/10/16(月) 19:47:31

>あと、探三朗（Vectorなど）なのか探三郎（公式）なのかもはっきりして欲しい
吉とよしのやの「よし」が同じなのと一緒

776 ：名無しさん＠そうだ選挙にいこう：2006/10/16(月) 20:44:45

> 吉とよしのやの「よし」が同じなのと一緒
それは違うだろｗ

777 ：名無しさん＠そうだ選挙にいこう：2006/10/16(月) 22:45:29

今時の検索エンジンは朗も郎も同一視するから問題ない

778 ：名無しさん＠そうだ選挙にいこう：2006/10/16(月) 22:45:57

一太朗

779 ：名無しさん＠そうだ選挙にいこう：2006/10/17(火) 00:55:19

サーチクロスは標準でUTF-8のHTML文書がインデックス化されないんだよね。
xdoc2txtを外部フィルタとして使えば、UTF-8だろうがUnicode Textだろうが
インデックス化される。

でも、HTML文書ってデフォルトで外部フィルタ選べないようになってんだよな。
で、標準HTMLフィルタはオフにして、「新しいファイル形式」から拡張子とxdoc2txtを
登録する。これでUTF-8な文書も検索できるのはいいんだけど、
今度はHTMLプレビューが使えなくてプレーンテキストになっちゃう。

諸刃の剣やなぁ。なんとかしてよヴィレッジさん

780 ：名無しさん＠そうだ選挙にいこう：2006/10/18(水) 17:07:01

サーチクロス掲示板過去ログ検索
ttp://www.villagecenter.co.jp/cgi-bin/searchx3.cgi?0=search

・・・なんかしょぼいなぁ。しかもこれwwwsrch.cgi みたいなgrep式エンジンじゃないの？
閉鎖するんならログを全部プレーンテキストで公開してほしかったな。

781 ：名無しさん＠そうだ選挙にいこう：2006/10/18(水) 17:12:42

掲示板ないソフトは総じて不親切な気がする
いや、ちゃんとした会社だと別なんだけどさ・・・

782 ：名無しさん＠そうだ選挙にいこう：2006/10/18(水) 18:06:29

掲示板があるだけマシだからな

783 ：名無しさん＠そうだ選挙にいこう：2006/10/18(水) 19:55:16

僕もソフト屋のはしくれだけど、掲示板は怖い。
それに面倒くさい。
掲示板を管理してくれる専用の業者に頼むほど予算もないし。

784 ：名無しさん＠そうだ選挙にいこう：2006/10/22(日) 02:32:30

サーチクロス、圧縮ファイルとリムーバブルメディアに対応して欲しいなぁ。
Open Office形式に対応できてんだからzip対応は簡単そうなんだが……

785 ：名無しさん＠そうだ選挙にいこう：2006/10/24(火) 13:41:56

テスト

786 ：名無しさん＠そうだ選挙にいこう：2006/10/24(火) 16:06:13

>>776
つち吉はU+20BB7でコード化されてる。メイリオや小塚明朝には入っている。

787 ：名無しさん＠そうだ選挙にいこう：2006/10/29(日) 21:00:32

サーチクロスでファイル名のみの検索って出来る？
うちの環境だとファイル名検索をチェック入れると必ずこける。
いつもこけるフォルダを除外に入れても位置がちょっとあとにずれるだけでやっぱり
サーチクロスごとこける。

どうにかならんもんかね。

788 ：名無しさん＠そうだ選挙にいこう：2006/10/30(月) 08:58:01

>うちの環境だとファイル名検索をチェック入れると必ずこける。
単に君のPC環境の問題でしょ
バグならもっと話題になってるはず

789 ：名無しさん＠そうだ選挙にいこう：2006/10/30(月) 14:48:44

サーチクロスは環境ごとに不具合の出方も違うしね。
うちではフレーズ検索の絞り込みが中途半端にしかされない問題がある。

あと>>787の場合「こける」が何を意味してんのか分からんし答えようもないよ。
一般保護エラーでアプリが落ちるのか、エラーメッセージとかが出るのか

790 ：名無しさん＠そうだ選挙にいこう：2006/10/30(月) 16:26:21

787は単にグチってるだけなのかもね

791 ：名無しさん＠そうだ選挙にいこう：2006/10/30(月) 20:25:05

>>788
PC３台ともこけるんですが。。。
自社エンジンがこけまくってても直さずにxdoc2txtを薦めるソフト会社ですが。。。

こんなことぐちりながらも他にいい商品が無いから使ってる俺も俺ですが。。。

>>789
ｽﾏｿ。アプリごと落ちる。

792 ：名無しさん＠そうだ選挙にいこう：2006/10/30(月) 21:42:29

>>791
詳しい状況かけよ
バカなの？？？

793 ：787：2006/10/30(月) 21:51:32

ばかはてめえだ

794 ：名無しさん＠そうだ選挙にいこう：2006/10/30(月) 21:56:28

質問すらまともに出来な奴はスルーしたほうがいい
優しくて損したなｗ

795 ：名無しさん＠そうだ選挙にいこう：2006/10/30(月) 22:18:10

>>792
詳しい状況も何も対象フォルダをCドライブ全体を指定してIndexを作るだけ。
これでサーチクロスが丸ごと落ちる。
フォルダの範囲を小さくするとまともに動く。でもCドライブを丸ごと指定すると駄目ぽ。

>>793
あんただぁれぇ？

796 ：名無しさん＠そうだ選挙にいこう：2006/10/30(月) 22:27:39

>>791
ひょっとしたら「こける」のはインデクシング最中にってこと？

>>787の書き方だと検索をするときにこける、みたいに読めてしまう。

もしインデクシング中にこけるんであれば、単に搭載物理メモリに対して
インデックス対象ファイル数が多すぎるだけだと思う。
経験則からいくとメモリ1GBに対してファイル20,000個が限界。

うちではインデックス作成の時に少しずつ対象フォルダ＆対象拡張子を
増やしていき、一度のインデクシングで対象を1万数千ファイル程度に抑えてる。
対象フォルダや拡張子を増やすときに「一から作り直せ」みたいなメッセージが出るが
無視して「更新」し続けていれば、いつかは完成する。

一度出来上がれば、あとは適当な頻度で更新すれば、もう強制終了することもなくなる。

797 ：名無しさん＠そうだ選挙にいこう：2006/10/30(月) 22:53:46

>>796
レスどうも。そうです。インデクシング中にこけます。
メモリは4G乗せててOSに3.5G、RAMディスクに500M割り当ててます。

一から作り直せって言われても無視して更新すればいいんですね。
やってみます、と書いてやってみたら出来ました。
ありがとうございました。

あともう一つ教えて欲しいのですが、全ドライブを検索対象に入れる
いい方法は無いでしょうか。
マイコンピュータ自体を指定不可なので、今はCとDドライブのインデックス、
Eドライブのインデックスと分けています。

798 ：名無しさん＠そうだ選挙にいこう：2006/10/30(月) 23:26:13

>>797
？？？また良く分からんことを・・・

「インデックス対象」ってとこに新規で「フォルダ1＝c:\」「フォルダ2＝d:\」って
つくるだろ。そしたらもう1回、「新規」ボタン押して好きなドライブ追加していきゃ
インデックスは１つ（標準）だけでできるだろ。

ただ、そこまでやるとインデックスが肥大化しすぎて、
読み込みに何十秒もかかるようになって実用に耐えられないんじゃあるまいか

799 ：名無しさん＠そうだ選挙にいこう：2006/10/31(火) 00:18:36

>>797
いつどこで何をしてたら
どうコケるのか書けよ
基本的なコミュニケイト能力がないな・・・

800 ：名無しさん＠そうだ選挙にいこう：2006/10/31(火) 00:29:58

うるせー

801 ：名無しさん＠そうだ選挙にいこう：2006/10/31(火) 00:30:19

すみません、自己解決しました。
お騒がせしました。

802 ：名無しさん＠そうだ選挙にいこう：2006/10/31(火) 00:32:29

>>798
す、すまん。馬鹿だった。許してたもれ。

試しにwindowsでファイル名のみにチェックを入れて検索してみたら、
readme.txtとかが大量にヒットした。原因はフォルダ名にWindowsを含んでるだけ。。。orz
使えないっす。。。

803 ：名無しさん＠そうだ選挙にいこう：2006/10/31(火) 07:27:29

おまえら優しいな
俺はバカに答える気になれんわ

804 ：名無しさん＠そうだ選挙にいこう：2006/10/31(火) 22:17:08

>>802
フルパス名が検索対象になってるからいいんじゃないか。
「windows」なんかで検索すなよ。アホかっちゅうの

805 ：名無しさん＠そうだ選挙にいこう：2006/10/31(火) 23:20:09

>>802
いや、それは正しい挙動だろ？＞windowsを検索でフォルダ名にWindowsを含む
それが探せないほうが困る。

というか、基本的にはシステムディレクトリ（c:\winntとかc:\windowsとか）は
外したほうがいいんじゃね？
場合によってはc:\program filesとかも外したほうがよさげ。
（上記は別indexにしたほうが便利）

806 ：名無しさん＠そうだ選挙にいこう：2006/11/01(水) 00:38:08

バカばっかりだな

807 ：名無しさん＠そうだ選挙にいこう：2006/11/01(水) 07:51:03

自己紹介乙

808 ：名無しさん＠そうだ選挙にいこう：2006/11/01(水) 11:06:30

>>804
何を必死になってるのか知らんがファイル名のみで検索するオプションなんて
どんなファイラーの検索コマンドにもあるぞ。
フォルダ名を含むか含めないか選択させればいいだけの話だろ？

809 ：名無しさん＠そうだ選挙にいこう：2006/11/03(金) 21:13:07

804はアンチが煽り失敗したようにみえるよな
かいたときはみんな賛同してくれると思ってたんじゃないかな

810 ：名無しさん＠そうだ選挙にいこう：2006/11/03(金) 22:45:59

もうVistaの検索でいいやん。
お前らも次PC買い換えるときはVista入ってるだろ。
セットアップしたら有無を言わさずインデックス作成してくれてるよ。

811 ：名無しさん＠そうだ選挙にいこう：2006/11/03(金) 23:42:19

宣伝乙

812 ：名無しさん＠そうだ選挙にいこう：2006/11/24(金) 14:44:37

超漢字V
(p)http://www.amazon.co.jp/gp/product/B000IOF66G/sr=8-2/qid=1164097185/

商品紹介
Windows上で動くTRONソフト。
OS切替もスムーズでデータのやり取りもらくらく操作。
プリンタやネットワークなど対応周辺機器も大幅に増加。
メニュー操作でインストールも超簡単。

813 ：名無しさん＠そうだ選挙にいこう：2006/11/24(金) 15:24:22

社員乙

814 ：名無しさん＠そうだ選挙にいこう：2006/12/04(月) 08:21:32

http://www.nikkei.co.jp/news/main/20061204AT1D0106T01122006.html

CSどうなるんだよ。

815 ：名無しさん＠そうだ選挙にいこう：2006/12/04(月) 22:55:26

>>814
この記事は一太郎とWEB検索との連動についての記事。
CSはデスクトップサーチだから関係ない。

816 ：名無しさん＠そうだ選挙にいこう：2006/12/06(水) 03:33:18

これはどうよ。

全文検索エンジン「JiroSearch」がGPLで公開
http://slashdot.jp/developers/06/12/01/1414210.shtml

817 ：名無しさん＠そうだ選挙にいこう：2006/12/08(金) 17:52:04

>>816
ジローサーチ？次郎さんが開発したのか？

818 ：名無しさん＠そうだ選挙にいこう：2006/12/09(土) 12:17:30

サーチクロスって起動して即フリーズ。
なんだよ、この糞ソフト。
アンインストールも上手く出来ないし。糞過ぎるぞ。

819 ：名無しさん＠そうだ選挙にいこう：2006/12/09(土) 13:15:32

>>818
割ったやつだからじゃないの？

820 ：名無しさん＠そうだ選挙にいこう：2006/12/09(土) 15:04:41

>>819
金払ってるワイ。
貧乏割れ厨と一緒にすんな。ここはビジネスsoft板だ、経費だよ、経費。つーても2000円程度だったなｗ
金ならある、まともな検索ソフト教えれ。

821 ：名無しさん＠そうだ選挙にいこう：2006/12/09(土) 15:07:03

茨城県

822 ：名無しさん＠そうだ選挙にいこう：2006/12/09(土) 16:26:17

>>820
普通に使えてる人もいるしPC環境のせいでは？

823 ：名無しさん＠そうだ選挙にいこう：2006/12/09(土) 20:35:20

818はただのアンチだろ

824 ：名無しさん＠そうだ選挙にいこう：2006/12/10(日) 00:57:39

>>818
> サーチクロスって起動して即フリーズ。

ありえねえし。どうせOSがMeかなんかだろ

825 ：名無しさん＠そうだ選挙にいこう：2006/12/10(日) 15:04:00

Copernic Desktop Search 2のバージョンが2.02になったみたい。変更点は以下の模様

Changes & improvements
Toolbar now compatible with Firefox 2.0
Improved previewing of plain text email messages
Improved plug-in support

Fixes
Fixed index update issues with non-permanently connected network drives
Other stability and performance tweaks

826 ：818：2006/12/10(日) 17:48:52

>>824
インスコ直後は普通に使えていたんだけど、そのうちに起動しても枠だけ表示されてボタンとかが全く表示されなくなった。
これは最小化してから元のサイズに戻すと表示されていたので使えてた。
その後は起動直後にフリーズ。インデックスが大きすぎたのかな？？
結構、お気に入りのソフトなので使えれば使いたいですよ。

827 ：名無しさん＠そうだ選挙にいこう：2006/12/10(日) 20:42:24

> サーチクロスって起動して即フリーズ。
> なんだよ、この糞ソフト。
> アンインストールも上手く出来ないし。糞過ぎるぞ。

> 金払ってるワイ。
> 貧乏割れ厨と一緒にすんな。ここはビジネスsoft板だ、経費だよ、経費。つーても2000円程度だったなｗ
> 金ならある、まともな検索ソフト教えれ。

お気に入り、ねぇ……

828 ：名無しさん＠そうだ選挙にいこう：2006/12/10(日) 23:24:14

>>826
昔から、かわいさ余って憎さ百倍というじゃないか。
そういう人情の機微が分からないようじゃ、世渡りが大変だろうな。

829 ：名無しさん＠そうだ選挙にいこう：2006/12/11(月) 13:47:18

>>826
工作員乙

830 ：名無しさん＠そうだ選挙にいこう：2006/12/11(月) 14:00:34

>>826
いったんアンインスコすれば？

831 ：名無しさん＠そうだ選挙にいこう：2006/12/28(木) 11:50:12

うはｗｗｗｗｗＶｉｓｔａの検索最強！ｗｗｗｗｗ
サーチクロスもＧＤＳもイラネｗｗｗｗｗｗｗ

ttp://www.asoopenschool.jp/column_vista1.htm

832 ：名無しさん＠そうだ選挙にいこう：2006/12/28(木) 17:44:53

JS検索ツール最強
検索するときに正規表現つかえるし。

833 ：名無しさん＠そうだ選挙にいこう：2006/12/28(木) 20:03:47

>>831
Docuworksに対応してない。

終了

834 ：名無しさん＠そうだ選挙にいこう：2006/12/28(木) 20:06:50

あれ、インデックスサービスのフィルタ使えないの？

835 ：名無しさん＠そうだ選挙にいこう：2007/01/08(月) 07:04:04

秀丸エディタでGREP検索
これ最強

836 ：名無しさん＠そうだ選挙にいこう：2007/01/11(木) 15:47:08

秀丸って検索遅くない？

837 ：名無しさん＠そうだ選挙にいこう：2007/01/12(金) 21:07:41

そうでもないか。

838 ：名無しさん＠そうだ選挙にいこう：2007/01/15(月) 18:17:54

Grepなんか使えるか。1000や2000のドキュメントじゃないんだ。

839 ：名無しさん＠そうだ選挙にいこう：2007/01/19(金) 11:05:34

だれかHyperestraierでifilterを使えるようにしてくれないかな。
xdoc2txtだと漏れがある感じ。

840 ：名無しさん＠そうだ選挙にいこう：2007/01/22(月) 06:43:00

>>838
それでは、OS付属の検索使え

スタート→検索→ファイルやフォルダ

841 ：名無しさん＠そうだ選挙にいこう：2007/01/22(月) 07:14:55

>>839
ググれよ

842 ：名無しさん＠そうだ選挙にいこう：2007/01/31(水) 14:02:02

>>840
アフォ、それもＧｒｅｐと同じじゃ

843 ：名無しさん＠そうだ選挙にいこう：2007/02/01(木) 10:56:17

Vistaの検索って結局どうなんだろう？
エクセルのセルに書いたのやPDFやXDWとかも大丈夫なんかな？

844 ：名無しさん＠そうだ選挙にいこう：2007/02/01(木) 12:26:13

ファイルのセキュリティ設定次第だろ

845 ：名無しさん＠そうだ選挙にいこう：2007/03/14(水) 22:38:15

age

846 ：名無しさん＠そうだ選挙にいこう：2007/03/23(金) 10:37:42

897 名前：名無しさん＠お腹いっぱい。投稿日：2006/10/12(木) 14:05:02 wcjlsRxk
プトレマイオス朝時代のエジプトには、当時世界最大の図書館「アレクサンドリア大図書館」があり、
70万もの蔵書を誇っていたという。
蔵書のほとんどは巻物だったが、1巻200ページ相当として、300dpiでスキャンした場合、1頁500KBとして
1巻100MB、それが70万巻ということは70TBか。
TeraStation 2TBを35台つなげればアレクサンドリア図書館に匹敵するデジタルアーカイブが完成するな。

文字数を見ると、1頁に2000文字のアルファベットが書き込めるとすると、
2000文字×200頁×70万＝280,000,000,000文字の知識が詰まっていたということになる。
1文字1バイトなら280GB、UTF-8みたいに1文字3バイトなら840GBか。テキストだけ抜き出せば
個人のPCでも何とかなりそうだな。

さて、これを全文検索かけるとなるとNamazuの場合、対象ファイル数は90万弱が限界みたいだから
http://www.namazu.org/FAQ.html#index-scale
何とかなるかも。
Hyper Estraierの場合、
http://hyperestraier.sourceforge.net/uguide-ja.html#tips
にあるように「一つのインデックスに登録できる文書の総量の目安は、プレーンテキストなら300GB」
とのことなので、1文字1バイトならぎりぎりいけそう。UTF-8なら3つくらいにインデックスを分けて
P2P連係させないといけなくなる。

847 ：名無しさん＠そうだ選挙にいこう：2007/03/23(金) 11:16:06

やれば？

848 ：名無しさん＠そうだ選挙にいこう：2007/03/25(日) 18:56:34

MitakeSearchあぼーんだって

849 ：名無しさん＠そうだ選挙にいこう：2007/03/25(日) 22:28:19

>>846
あと２０年もすれば一瞬で検索できるようになってる。

850 ：名無しさん＠そうだ選挙にいこう：2007/03/25(日) 23:25:49

まぁ机上の空論だがな

851 ：名無しさん＠そうだ選挙にいこう：2007/03/26(月) 13:19:04

違うだろｗ
覚えたてか？

852 ：名無しさん＠そうだ選挙にいこう：2007/03/28(水) 07:42:36

ttp://www.justsystem.co.jp/office9/topic/of9_tips/navi_4.gif

853 ：名無しさん＠そうだ選挙にいこう：2007/03/28(水) 09:17:05

何が言いたいんだ？

854 ：名無しさん＠そうだ選挙にいこう：2007/05/19(土) 21:51:53

IBM OmniFind Yahoo! Editionってどうよ？

855 ：名無しさん＠そうだ選挙にいこう：2007/06/18(月) 09:57:44

>>854
http://internet.watch.impress.co.jp/cda/news/2006/12/14/14241.html
> 推奨要件は3GHzの2プロセッサ、2GBのRAM、250GBのミラーハードディスクなどとなっている。

なにこれ？クライアント向けじゃないの？

856 ：名無しさん＠そうだ選挙にいこう：2007/06/18(月) 18:50:27

低スペック向けのソフトばかりじゃつまらんよ

857 ：名無しさん＠そうだ選挙にいこう：2007/06/19(火) 02:32:18

>>856
サーバーかクライアントの話だろ?

858 ：名無しさん＠そうだ選挙にいこう：2007/06/19(火) 18:06:22

>>857
>利用するための環境だが(ry
>Windows XP SP2、Windows Server 2003 SP1(ry
>ハードウェアの最小要件は1プロセッサ、1GBのRAM、80GBの空き領域、(ry

対象OSにXPが入っているからクライアント機で使えますよ。

まあ書いて有るように個人向けでは無く企業向けだけど。

859 ：名無しさん＠そうだ選挙にいこう：2007/06/19(火) 18:41:12

855はそういうことを言いたいんじゃないとおもうぞ
単に愚痴ってるだけじゃね？

860 ：名無しさん＠そうだ選挙にいこう：2007/07/02(月) 16:59:44

結局GDSのひとり勝ちか。もうこのスレの存在意義もなくなったな

861 ：名無しさん＠そうだ選挙にいこう：2007/07/02(月) 21:48:41

DesktopHEいいよ。

インデックスファイルの更新とメールへの対応をのぞけば
サーチクロスと同等かそれ以上。

862 ：名無しさん＠そうだ選挙にいこう：2007/08/08(水) 15:51:47

namazu以外でもっとこう簡単に全文検索サーバって立てられないのかね。
GDSはバージョンアップでDNKA（だっけ？）が使えなくなっちゃうし。

手軽におひすでフルテキスト検索サーバを立てたいんだよ俺は

863 ：名無しさん＠そうだ選挙にいこう：2007/08/09(木) 14:17:40

864 ：名無しさん＠そうだ選挙にいこう：2007/08/13(月) 01:56:48

DesktopHE（・∀・）ｲｲ!!微妙にアップデートしとる。

865 ：名無しさん＠そうだ選挙にいこう：2007/08/19(日) 00:14:41

OEに未対応じゃん＞デスクトップHE

866 ：名無しさん＠そうだ選挙にいこう：2007/08/19(日) 00:54:18

OEなんか使うなよ……

867 ：名無しさん＠そうだ選挙にいこう：2007/08/26(日) 23:49:33

DesktopHEスゴいね。
これで、変更があった部分のみのインデックスの差分更新が
出来るようになったらサーチクロスを完全に喰ってしまうんでないかい？

868 ：名無しさん＠そうだ選挙にいこう：2007/08/27(月) 22:44:50

>>867
DesktopHEのインデックスは変更のあった部分だけだと思うぞ。
GUIでかったりぃーと思うなら，直接”estcmd”にオプション付けたbatにすればよい
ここを参考に
http://hyperestraier.sourceforge.net/uguide-ja.html

本家のゲストブックから受売りだけど，うちの例

インデックスする
estcmd gather -il ja -sd -cm -pc CP932 -lf 8 "インデックス作りたいパス”
複数ある場合は，繰返し書けばいいと思う，
直列でかける区切りは知らん（セミコロンとかやったけど，並列で動いたので未確認）

消した物は消す
estcmd purge -pc CP932 "インデックスのパス"

キーワード抽出する
estcmd extkeys -um "インデックスのパス"

最適化する
estcmd optimize "インデックスのパス"

これをコマンドランチャーから気が向いたときに，バックグラウンドで実行してる。

869 ：名無しさん＠そうだ選挙にいこう：2007/08/27(月) 23:34:14

>>868
> 消した物は消す
> estcmd purge -pc CP932 "インデックスのパス"

↑これってやらないかんものなの？
俺はestcmd gather だけで新規作成、更新も済まして、週一でoptimizeかけてんだけど

870 ：名無しさん＠そうだ選挙にいこう：2007/08/28(火) 02:17:47

>>869
つ込まれても困るが，

こちらの環境では一瞬なので無視してます。（へたれ）

871 ：名無しさん＠そうだ選挙にいこう：2007/08/28(火) 21:20:21

>>868-869
ありがとう。知らなかった。
よく分からないので毎回インデックス削除して、再作成していたよ（´Д｀；）

872 ：名無しさん＠そうだ選挙にいこう：2007/09/13(木) 05:28:46

DesktopHE使ってみた。
ツール構成がシンプルでいいね。

残念なのがxdoc2txtでうまく内容を拾えないpdfがあること。
ScanSnapの付属ツールScanSnapOrganizerでOCRしたpdfの中に
xdoc2txtでテキストが抽出できるものとできないものがあって
その境界がよくわからん……。(xdoc2txt単体で試してみた)

GDSでも透明テキスト付pdfの一部でやはりうまく内容が拾い出せないし
WDS3.0はiFilterとの連携がうまく作動しないし（俺の環境が悪そう）
WDS2.6はpdfに関しては問題ないけど検索精度が悪すぎる。

透明テキスト付pdfをきちんと利用できる環境が整わなん。

873 ：名無しさん＠そうだ選挙にいこう：2007/09/14(金) 00:37:32

ウチの環境（Win XP x64), WDS3.0, Acrobat Pro 7 (現在Pro 8)で、
透明テキスト付ｐｄｆの全文検索できてますよ。

ｐｄｆファイルはWDSのプレビューペインで表示されずに、直接Acrobat
で開きますが。

それに、たまにインデクスしないｐｄｆファイルもあるけど（ネットで拾ってきた
やつ）。なぜか、MicrosofのOOXML仕様書のｐｄｆファイルがWDSで
インデクスされないんだよね。

874 ：872：2007/09/14(金) 12:45:46

64bitのpdf用iFilterあったんか、と思って調べたら
FoxitReaderのiFilterがあるんだね。
うちは32bitXPだけどadobeのからこれに入れ替えてインデックス作り直したら
WDS3.0でもうまく透明テキスト付pdfの内容が拾えるようになったよ。
ヒントをくれた873氏、ありがとう。

875 ：名無しさん＠そうだ選挙にいこう：2007/09/14(金) 18:29:28

アドビ以外で作られたPDFも必要なら
NAMAZUとかで自分で設定しないとダメ
一般向けのソフトでは対応がマチマチ

876 ：名無しさん＠そうだ選挙にいこう：2007/09/19(水) 13:37:17

xdoc2txtがいまいちすぎる

ソースよこせば改造してやるのに

877 ：名無しさん＠そうだ選挙にいこう：2007/09/19(水) 14:16:31

xpdfを使え。

878 ：名無しさん＠そうだ選挙にいこう：2007/09/23(日) 12:31:59

DesktopHE使ってみた。
検索結果当初は良い感じだけど、安定して動作しないことない？

フォルダ名の最後が"表"(別の漢字だったかも。うろ覚え）で終わるフォルダは
gather時に全てエラーが発生してインデックスが作れなかったり
正常にインデックス作成できた分も1月ぐらいするとインデックスが壊れちゃったりした。
repairすると復旧できるようになるけど、漏れる率がだいぶ上がっちゃうし。

ちなみに対象ファイルは80Gバイトの100万ファイルぐらい。
うちのPCが不安定なのが悪いのかな～

879 ：名無しさん＠そうだ選挙にいこう：2007/09/25(火) 17:41:17

試しにやってみたけど
きちんとインデックス作れたよ
1TBをインデックスしてるけど
特に不安定とは感じたことないな

880 ：名無しさん＠そうだ選挙にいこう：2007/10/13(土) 10:16:45

サーチクロスなんだけど
二つのエクセルシートへ
100000-1で検索すると
-1以外も検索され
ちゃうんだけど
7箇所ヒット！俺だけ？

ファイル１　ファイル２
100000-3　　100000-3
100000-2　　100000-2
100000-4　　100000-4
100000-1
100000-6　　100000-6
100000-0　　100000-0
100000-5　　100000-5

881 ：名無しさん＠そうだ選挙にいこう：2007/10/20(土) 13:51:10

DesktopHEのインデックス
早いね

882 ：名無しさん＠そうだ選挙にいこう：2007/10/20(土) 14:06:00

>>880
試したけど
そんな風にならんかったよ

883 ：名無しさん＠そうだ選挙にいこう：2007/10/21(日) 09:29:31

>>882
ビュアーをテキストでなく
ＯＬＥにするとダメみたい

884 ：名無しさん＠そうだ選挙にいこう：2007/11/11(日) 18:26:29

Vistaの検索使えあげ

885 ：名無しさん＠そうだ選挙にいこう：2007/11/15(木) 07:12:42

>>884
あれ使い物にならん。
結局、従来のインデックスサービス使ってる。

886 ：名無しさん＠そうだ選挙にいこう：2007/12/08(土) 16:46:12

>>885
どの辺がだめ？

887 ：名無しさん＠そうだ選挙にいこう：2008/01/18(金) 14:04:36

ネタないねあげ

888 ：名無しさん＠そうだ選挙にいこう：2008/02/11(月) 02:52:53

>>886
検索結果にノイズ多すぎ。
全然関係無いものばっかり引っかかる。
詳しいドキュメントも持って無いから細かい設定法もわからん。
従来のインデックスサービスのほうがよっぽど役に立つ。

従来のインデックスサービスについてなら
レジストリの設定法まで載ってる詳しいドキュメントを持ってるから
うまく使いこなせるが
Vista検索の詳しいドキュメントを持ってないから使いこなせてないだけかもしれないが、
そういう詳細な日本語ドキュメントを用意してないMSが悪いとも言える。

889 ：名無しさん＠そうだ選挙にいこう：2008/02/11(月) 10:57:43

ノイズが多いのは単にお前が使えてないだけだ

890 ：名無しさん＠そうだ選挙にいこう：2008/02/28(木) 13:11:23

DesktopHEでファイルサイズとテキストサイズの上限を調整する方法教えてくれよ。

891 ：名無しさん＠そうだ選挙にいこう：2008/02/28(木) 17:53:14

公式のBBSできいたら？

892 ：名無しさん＠そうだ選挙にいこう：2008/02/28(木) 18:39:00

>>890
本家のBBSからメモっておいたものデフォは128KBらしい

>[設定]-[上級者向けインデックス設定]の
>「テキスト、HTML、MIMEファイルインデックスコマンド」に文字列を追加してください。
>ファイルの先頭512KBまでを解析させたいのであれば、「-lt 512」
>という文字列を追記してください。
> 数値にマイナスの値を指定すると、無制限になりますが、
>インデックス時にメモリ容量が足りなくなる可能性があります。

893 ：名無しさん＠そうだ選挙にいこう：2008/03/24(月) 03:17:03

DesktopHE使ってみたがいい感じ。
サーチクロスから変えたいけど個人的に検索結果がまだ若干悪いのが惜しすぎる

894 ：名無しさん＠そうだ選挙にいこう：2008/03/24(月) 20:13:06

俺は画像とテキスト文書の検索にしか使わないんだが、
グーグルのは巨大テキストファイルは文の後半を読まない。
MSのは検索精度は相当優れているんだが、ビュワーが遅い遅い。
画像管理ならPICASAが相当早くて最強なんだが日本語検索が
まったく使い物にならない。

てことで今はCOPEMIC使ってます。
まあこれも検索精度の点じゃMSのより不満があるけど、ユーザーインターフェース、
速度、機能のバランスが一番いいかな。

895 ：名無しさん＠そうだ選挙にいこう：2008/03/24(月) 20:13:57

COPERNICの間違い

896 ：名無しさん＠そうだ選挙にいこう：2008/03/25(火) 13:09:49

COPERNICは日本語が弱いんだよねえ。
ファイル名ならひっかかるけど、内容はまったく無視。

897 ：名無しさん＠そうだ選挙にいこう：2008/03/25(火) 21:50:44

グーグルは後半も読むでしょ

898 ：名無しさん＠そうだ選挙にいこう：2008/03/26(水) 02:48:35

>>897
サイズ制限なかったっけ？

899 ：名無しさん＠そうだ選挙にいこう：2008/03/26(水) 03:09:40

COPERNIC日本語引っかかるぞ？

900 ：名無しさん＠そうだ選挙にいこう：2008/03/27(木) 11:19:11

>>896
んなこたーないぞ？
俺の環境では。
メールの文字は化けてるけどね

901 ：名無しさん＠そうだ選挙にいこう：2008/03/27(木) 11:52:16

文字化けするなら日本語弱いと言われても仕方ないのでは・・・。

902 ：名無しさん＠そうだ選挙にいこう：2008/03/27(木) 12:31:46

>>901
は？わざとやってんのか？

903 ：名無しさん＠そうだ選挙にいこう：2008/04/06(日) 11:55:35

>>902
わざとってなにを？

904 ：名無しさん＠そうだ選挙にいこう：2008/04/06(日) 13:37:14

902「わざと文字化けしてんのか？」

905 ：名無しさん＠そうだ選挙にいこう：2008/04/06(日) 19:44:15

>>900
それで本文引っかかる？
引っかかっても文字化けして読めないなら
あまり意味が無いと思うけど・・・

906 ：名無しさん＠そうだ選挙にいこう：2008/04/06(日) 21:08:31

>>905
導入してみればええやん
結論から言うとかかるし読める

907 ：名無しさん＠そうだ選挙にいこう：2008/04/06(日) 22:02:57

900の環境だけで文字化けするなら
一行目は変じゃね？

908 ：名無しさん＠そうだ選挙にいこう：2008/04/08(火) 20:20:51

GoogleデスクトップがVer5になってるけど、結局全文検索ならぬ先頭検索？

909 ：名無しさん＠そうだ選挙にいこう：2008/04/08(火) 22:12:48

yes

910 ：名無しさん＠そうだ選挙にいこう：2008/04/08(火) 22:38:59

高須

911 ：名無しさん＠そうだ選挙にいこう：2008/04/08(火) 23:01:11

ＨＩＴ率が一番良いのはWDSなんだよなぁ
重いけど

912 ：名無しさん＠そうだ選挙にいこう：2008/04/09(水) 00:21:50

こんなん出てた。
全文検索エンジンLux
http://luxse.sourceforge.net/

ToDo のところに
# 削除・更新
# 全角半角かなの同一視
とか書いてあるあたり見ると、まだ全然未完成みたいだけど。

913 ：名無しさん＠そうだ選挙にいこう：2008/04/09(水) 00:24:47

Linux 板と間違えた
誤爆スマソ

914 ：名無しさん＠そうだ選挙にいこう：2008/05/12(月) 12:11:44

◆ハードディスクD ドライブの中のフォルダ D：￥txt 内にある10個のサブ
フォルダ txt01～txt10 に散らばって保存してある文書ファイル計814本の中から、
「恐慌」の文字列を持つファイルを全て検索する grep のテスト結果
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
ＥｍＥditor professional　　1秒以内　（マッチした件数を表示しない）
EdTex Editor　　　　　　　　2秒以内　（マッチした件数を表示しない）
ＷＺＥditor　　　　　　　　　3秒以内　（2件ありました、と表示する）
NotePad++　　　　　　　　3秒以内　（find result-2 hits、と表示する）

915 ：名無しさん＠そうだ選挙にいこう：2008/05/12(月) 20:01:24

>>914 訂正です
◆ハードディスクD ドライブの中のフォルダ D：￥txt 内にある10個のサブ
フォルダ txt01～txt10 に散らばって保存してある文書ファイル計814本の中から、
「恐慌」の文字列を持つファイルを全て検索する grep のテスト結果
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
EｍEditor professional　　　1秒以内　（マッチした件数を表示しない）
EdTex Editor　　　　　　　　　1・5秒以内　（検索ファイル数とマッチ数を表示する）
ＷＺ Editor　　　　　　　　　　3秒以内　（2件ありました、と表示する）
NotePad++　　　　　　　　　　3秒以内　（find result-2 hits、と表示する）

916 ：名無しさん＠そうだ選挙にいこう：2008/05/12(月) 20:39:51

Linux 板にでもどうぞ

917 ：名無しさん＠そうだ選挙にいこう：2008/05/15(木) 15:16:28

>>914
参考にはなる人もいるかもしれんがスレ違いだから
出来たら書き込む前にテンプレ読んでくれ

918 ：名無しさん＠そうだ選挙にいこう：2008/05/19(月) 07:52:26

DesktopHE使い始めたんですけど、
テキストファイルの内容だけじゃなくて、
ファイル名にもヒットするようにできないんでしょうか？

919 ：名無しさん＠そうだ選挙にいこう：2008/05/19(月) 09:48:58

できる

920 ：名無しさん＠そうだ選挙にいこう：2008/05/19(月) 13:18:57

>>919
どうしたらいいですか？
特にDesktopHEって設定項目が少ない上にヘルプも貧弱で良く分かりません・・・

921 ：名無しさん＠そうだ選挙にいこう：2008/05/19(月) 22:39:39

>>920
公式サイトの「使い方検索」
http://freemind.s57.xrea.com/desktophe/