オープンソースの全文検索ソフト

このエントリーをはてなブックマークに追加
169login:Penguin:2005/12/04(日) 22:15:43 ID:LqLx7hy3
>>168
自分で下層のDBを用意する
170login:Penguin:2005/12/05(月) 09:54:08 ID:gHetzDlJ
Nutchってその辺どうしてるんだろ?
171login:Penguin:2006/01/08(日) 13:08:32 ID:/SfDDqW0
なまずがもうすぐバージョンアップするって本当?
172login:Penguin:2006/01/30(月) 18:44:33 ID:OupapdHM
>>171
きたよ
173login:Penguin:2006/02/24(金) 12:47:39 ID:VEoUF2uq
>>166
LuceneはC#へのポーティングがあるな。
174login:Penguin:2006/12/19(火) 08:51:48 ID:H/fR0rQV
で、世の中 Google Desktop Search とか Spotlight が当たり前になってる今、
みなさん最近は何使ってんの?
175名無しさん@お腹いっぱい:2006/12/19(火) 10:12:39 ID:9M7VxUKD
>>174
> が当たり前になってる今
なってねーよ。
176age:2007/01/16(火) 23:04:15 ID:sCPN49tb
ご存知の方おられたら教えてください。
Nutchは、AnalyzerにデフォルトでNutchAnalyzerを使っていて、
日本語はインデックス作成時に(クエリー処理時も)1文字ずつに
分解されてしまいます。そこで、bigramでインデックスを張れる
CJKAnalyzerを利用しようかと思ったのですが、nutchのソース修正が
必要でしょうか?
177age:2007/01/16(火) 23:05:32 ID:sCPN49tb
pluginをいじるだけでできるかと調べたのですが、
なにぶんドキュメントが少なくて、よくわかりませんでした...。
178login:Penguin:2007/01/21(日) 22:34:31 ID:cbvQ8w/u
179login:Penguin:2007/01/31(水) 10:26:20 ID:9FAAVXiR
Google や Yahoo! がやっているような、表記揺れの展開をやってみたいのですが、
全文検索ソフトと併用できるような便利な表記揺れ展開用の辞書かライブラリってあるのでしょうか。
それとも自分で辞書を作らなければならないのでしょうか。

代用漢字、異体字、カタカナ語、送り仮名、検索ワードの誤り、略称、関連語など、
考え出すときりがないとも言えるのですが…
企業向けの商用ソフト(の形態素解析ソフトのおまけ?)にはあるらしいことは一応わかってきました。

なにかアドバイスください。
180login:Penguin:2007/02/01(木) 15:07:34 ID:OTOWAPaF
>>179
どこかの国立の日本語研究所が表記揺らぎ辞書を公開してたよ。
181179:2007/02/01(木) 16:59:00 ID:93ds0frc
国立国語研究所の「表記統合辞書」ですね。ありがとうございます。

kokken.go.jp がつながりにくいようですが…
必要に応じて電話で問い合わせしてみようかしら。
182login:Penguin:2007/02/02(金) 10:56:10 ID:RbpAhOyB
風博士ではRastが死亡認定された模様。
183login:Penguin:2007/02/08(木) 09:58:55 ID:lffkdWu+
html内で、コメントを使わずにスタイルシートのhiddenを使ってコメントアウトしているページがあり
NAMAZUはもちろん対応していないのですが、対応できる検索エンジンってあります?
184login:Penguin:2007/02/08(木) 15:30:47 ID:aalcJ7Z4
多分ない。
185login:Penguin:2007/02/08(木) 15:43:02 ID:lffkdWu+
>>184
そうですよね。googleでも引っかかってしまうし。
186login:Penguin:2007/02/08(木) 22:54:22 ID:WBqU/6bx
対応ってどういう意味だろう。
そこが検索でヒットされて欲しくないってこと?
そんなエンジンはないだろうな。
187login:Penguin:2007/02/08(木) 23:29:33 ID:xQE/x50H
対応できるってどういう意味だろう。
「作ればあるもん」だと思うのだが。
188login:Penguin:2007/02/13(火) 16:54:43 ID:g+G6znAU
rastって死亡? なんか実質1年くらい動きがなさそうなんだけど。
matzがいるような会社でも、IPAから金めぐんでもらってやってただけで
それがなくなったら後は野となれ山となれなのかね? もしそうだったら寂しいね。
189login:Penguin:2007/02/13(火) 18:46:26 ID:JrXWD7sx
>>188
長い目で見れば、死亡させた方が金になるんだよ。
190login:Penguin:2007/02/14(水) 07:47:29 ID:/l3toK3t
Hyper Estarierは未踏で開発が加速して、今はまったりとしつつも
きちんと続いている。
SennaもMySQL連携が効いたのか、じわじわと利用が進んでいる。

Rastはなあ... 構造を複雑にしすぎて、金が切れてからのメンテナンスが
難しくなったんじゃないかという気がする。あとは外部からの開発者を
集められなかったことが敗因か。
191login:Penguin:2007/02/14(水) 09:45:36 ID:URN3dXTi
H.E. も個人開発だけどね
192login:Penguin:2007/02/14(水) 13:13:18 ID:fQFyeH6h
>>190
> 難しくなったんじゃないかという気がする。あとは外部からの開発者を
> 集められなかったことが敗因か。

いや〜
金をもらって作られたブツの世話を引き継いで、タダで作業するのって、惨めだぞ〜
特に多大な金が投入されたことをみんなが知っていると、いろいろあって鬱病になりそうになる。

もう2度とやりたくない。
193login:Penguin:2007/02/15(木) 11:59:16 ID:vlsOl9z9
>>191
作者はじつにいい会社に転職したよね。今後も安泰かというと不安だけど...
>>192
気持ちはよくわかる。最低限、「自分が使うから」ぐらいのモチベーションが
ないとやっていけないよなあ。

194login:Penguin:2007/07/12(木) 15:36:46 ID:FQfZ6HrX
>>181
これの固有名詞版ってないのかしらん?

USA、米国、アメリカ、U.S.→アメリカみたいな
195login:Penguin:2007/08/28(火) 03:01:56 ID:AfUQD9wn
人少ないみたいだからアゲますね。

ちょっとダサい質問なんですが、インデックスを作成するタイプの全文検索で
そのものがインストールされていないレンタル鯖で使えるものってありますか?
PerlもしくはRubyから検索したいと思って
Namazu、HyperEstraierを試したんですが、
前者はPerlモジュールのインストールを断られ、
後者はインデックスがQDBMの形式だからどの道無理かと思いました。
(方法があればHEの方は使ってみたいけど)

頻繁に更新されるような対象じゃないので、MySQLのFULLTEXTでも・・・
と思ってはいるんだけど、
なにか方法(ソフト)があればおしえてください。
196login:Penguin:2007/08/28(火) 08:03:34 ID:NA5riCTs
http://rubyforge.org/projects/ferret/

pure rubyでこんなのがあるよ。日本語が使えるかどうかはわからないけど。
Luceneにinspreされたとかいてあるから、UTF-8なら使えそうな気もする。
197195:2007/08/28(火) 20:02:17 ID:uwrt1akO
>>196
少し触ってみたところ使いやすい感じで好感触でした!
完全かどうかはわかりませんが、日本語も大丈夫でした。
とりあえずレン鯖での動作も確認できました。
まだ不明な点もありますが、しばらく使ってみようと思います。
ありがとうございました!
198login:Penguin:2008/01/08(火) 00:46:08 ID:XSbSibRZ
gonzuiみたいなのでVB6検索できるエンジンありませんかね?

VB6病発病したソースコードを手術しないといけないので
頼みます。
199login:Penguin:2008/04/09(水) 00:25:01 ID:X4T3aWgW
こんなん出てた。
全文検索エンジンLux
http://luxse.sourceforge.net/

ToDo のところに
# 削除・更新
# 全角半角かなの同一視
とか書いてあるあたり見ると、まだ全然未完成みたいだけど。
200login:Penguin:2008/04/09(水) 13:25:32 ID:P7VWxNnr
apacheのluceneがeclipseのヘルプ?で使われていたことを知った。
201login:Penguin:2008/09/08(月) 17:32:23 ID:NVWE6wto
InfoCrawlerとOmniFindってどう?


今研究室の文書管理システムを作らなきゃいけないんだが,ユーザビリティを損なわず文書管理したい.
ファイルドラッグできるフリーなシステムは見つからない.
⇒Sambaフォルダに適当にぶち込んで後から見るときは検索でおk

と言う風に今は考えてるんだが、間違ってないよな?
doc,pdf,ppt辺りを読み込んでくれる素敵なエンジンはない物か…
202login:Penguin:2008/11/20(木) 11:23:32 ID:rg5Oz6Z5
保守
203login:Penguin:2008/11/29(土) 10:11:46 ID:lHYI9aEV
204login:Penguin:2009/12/23(水) 12:09:55 ID:2EkpDgwW
ど素人の質問で申し訳ないんですが、
ひらがな/カタカナのどちらでも検索可能にしたい場合、
「検索時に、両方のキーワードで検索する」案と、
「インデックス自体を、両方作っておく」案の、どちらが検索時間が短くすむのでしょうか?
(検証しろと言われれば、それまでなんですが)

私の事情的には、「大差はない」というのが理想ですが、
どうなんでしょうか?

ちなみに、使ってるのはLucene(2.3.2かな)で、すでに運用開始している状態です。
205login:Penguin:2009/12/23(水) 12:50:29 ID:hw50+bfV
常にひらがな/カタカナのどちらでも検索していいなら、
インデックス作るときに、どっちかにまとめてしまうな。
あとは、検索時に指定されたのを同じルールで処理してから検索。

データが小さくなるし、analyzerでこの処理をさせれば、
本文はそのままだから、取り出し可能にもできるし。
206login:Penguin:2009/12/23(水) 13:01:14 ID:hw50+bfV
あと、データ量と同時検索数次第な気がするけど、
両方のキーワードで検索した方が速いと思うよ。
インデックスを小さくしておいた方が速いと思う。

ひらがな/カタカナ混じりだったらどうするとか考えると、
統一しちゃう方が簡単だと思うんだよなー。

検索用フィールドをいくつか作るのはありかもね。
平仮名片仮名を無視する検索用はどちらかに統一して、
そうじゃない方はそのまま入れておく。
207login:Penguin:2009/12/24(木) 14:55:08 ID:pQ+PzKun
>>206
レスありがとうございます。

やはり「INDEXも検索も統一」というのが良さそうですね。

ただ、すでに運用してるシステムでして、
根本から作り直すことになると、コストやリソースの関係で、
お客様の希望する時期に出せそうになかったもので、
質問のような小手先の対応を考えていました。

208login:Penguin:2011/10/26(水) 09:08:10.23 ID:u1Edo4nm
dpkgとzeitgeistがXapianっていう全文検索ソフトを使っているけれどあれは何?
対応言語に日本語は入っていないみたい
209login:Penguin:2011/12/11(日) 16:26:21.87 ID:jX1ksO4u
「俺の全文検索」のソースをアップロードした。

http://www.ne.jp/asahi/sun/patagonia/fulltext/fulltext.html

うまく全文検索できないときには掲示板に書きこんでくれ。
210login:Penguin:2011/12/11(日) 16:52:48.77 ID:SGJMDI+x
postgresql 使ってるのか。
Hyper Estraier でいいと思うけどなあ。ずっと楽だし
211login:Penguin:2012/08/12(日) 05:00:25.96 ID:9d6phxtS
>>209
NOT FOUNDだよ

半年も前かぁ・・・(´・ω・`)
212login:Penguin:2012/12/14(金) 05:08:44.92 ID:/WE9Cz8v
Fessというソフトなんですけど、
検索されたファイルの名前に、スペースが含まれている場合に、
一覧から開くことができません。
対策ってありますでしょうか。
213login:Penguin:2012/12/14(金) 11:36:00.22 ID:ZBNKtAHu
>>212
FessのMLがあるからそっちで聞けば?
214login:Penguin:2013/01/12(土) 01:36:56.87 ID:17wiELXf
聞こう聞こうと思っているうちに、
どなたかがメーリングリストで質問してくださっていました。
今、その回答町です。
215login:Penguin:2013/01/27(日) 16:23:24.30 ID:Y1uylGbU
全裸変換ソフトって読んでしまった。
寝てくるノシ
216login:Penguin:2013/02/09(土) 12:29:36.38 ID:0CxhohCh
専用サーバソフトいらずで
単純なインタプリタcgiのみで動くやつないかね?
まあ要するにフリーのレンサバで動かしたい
217login:Penguin:2013/02/09(土) 12:38:10.29 ID:ihRM0VR4
>>216
namazu
218login:Penguin
全文検索サーバ: Fess 9.0.0 リリース

http://sourceforge.jp/projects/fess/news/24562

本当に、新機能の搭載待っていました。
ありがとう。ありがとう。

勝手に記念して、専用スレッドを作りました。

http://engawa.2ch.net/test/read.cgi/linux/1392653371/