超高機能なサーチエンジンを作りたいんだけど

このエントリーをはてなブックマークに追加
>>297
google が全部でどれだけのコンピュータを使っていると思う?
302280:03/04/17 02:04
万単位で持ってるとか聞きましたが正確には何台ぐらいあるんすか??
仮に1万台に分散して良いなら1台当たり30万ページ載せれば
30億ページindexできちゃいますよね。
30万ページならMySQLでも十分イケそうに思います。
秒間100クエリぐらい楽ショーじゃないすか?
SCoreとか使って1万台ぐらいのクラスタ組めるんでしょーか?
303デフォルトの名無しさん:03/04/17 02:05
サーチエジソンならなんとか・・・
304デフォルトの名無しさん:03/04/17 09:55
>>303くだんねーこと書くから流れが止まっちまったじゃねーかゴルァ!
3051:03/04/17 19:29
>いや、目標はいつだって具体的じゃなきゃだめだろ。
具体的な目標は、発想の幅を狭める。

言い方を変えれば、
計画通りに技術を開発する事は不可能。
偶然できた技術を柔軟に使いこなす事が大切。

>>302
前文検索するシステムを作りたいのか?
それともサーチエンジンを作りたいのか?
どちらにせよ、相当慎重に作らないとね。
例えば、「あ」というものにマッチする文書を検索したら落ちるよ。
1万台で秒間100クエリで
1台あたりの平均データ通信量を1kとした時
マスターになってるマシンは、一秒間で1Gのデータを処理するわけだ。
306デフォルトの名無しさん:03/04/17 19:40
インデックス貼るとかのほかにさ、日本語と英語ではあいまいさの扱いが違ったり
することも考えてね。namazuのワード単位検索は辞書命だし。これだけみんなが
しのぎを削ってるのだから、一筋縄ではいかんと思ったほうがいいよ。
>>305
支離滅裂ですな。
>1
何か完成させた事ある?
いつも妄想だけで終わってない?
309280:03/04/17 20:46
>>307
> 支離滅裂ですな。
そうなんですか?
僕はさすが1さん、と思いましたが。。
まず>>1はトリップつけろ。

google並みの検索サイト作るには、
1万台規模のクラスタリングマシンが必要になる。
もうこの時点で、このプロジェクトは破綻してるわけだ。

しかし実装うんぬんは別として、現状の技術(例えばNamazu)について
このスレで知識を深めて、
Indexingするときに一工夫いれた電気Namazuとか作れないだろうか?
311283:03/04/17 21:28
>>1

私は単純に、「超高機能な」をもう少しdiscussionして頂きたいですね。
特にあなたの意見をもっと色々お聞きしてみたいですね。

みなさんへ
「1つの抽象的な目標を設け、新しい技術を開発」これ前に進めませんか?
抽象的な目標が超高機能だけでは少し広すぎて散漫になり過ぎませんか?
それとももう少し好き勝手に語り合った上で意味のありそうなトピックを
抽出して適応できる技術を掘り下げてみるとか?

>>280
ということで、このスレは既存技術について語るスレではないので、もし
何故?を掘り下げたい場合は別の場があればそちらに詳しくレスします。
312デフォルトの名無しさん:03/04/17 21:44
つまり>>1はアイデアも無しにスレをたてた夢想家だった、というわけですね?
313283:03/04/17 22:02
>>312

そう言わずに。夢想でもいいじゃないですか。もしここから第四世代の
検索エンジンが生まれるなら、それはそれで素晴らしいことですから。
>google並みの検索サイト作るには、
>1万台規模のクラスタリングマシンが必要になる。

従来の方法では確かにそうだが、
画期的な新しい方法でその常識がくつがえされるかもしれないだろ。
>>314
アホですか?あなたは。

アメリカを始めとする世界中の企業やら大学の頭のいいやつが、
毎日毎日、頭を使って検索の事ばっかり考えてるんだぞ。
今この時間にも、検索エンジンのエキスパートが、
頭をフル回転させて新しい技術は無いか知恵をしぼってるんだよ。

ここで理想論をチマチマ話して、そんな画期的な事ができるわけねーだろ。
1万台規模のクラスタリングを素人さんが、ちょこちょこっと考えて大幅に減らせるわけねーだろ。

世の中なめるのもたいがいにしろ。
316283:03/04/17 22:50
>>315

まぁ、確かにそうかもしれませんが、この場はビジネスではないし、
空論で終わる可能性が極めて高いけど可能性自体と否定することも
ないのでは?
317280:03/04/17 22:52
>>315
これ見てください。
ttp://www-db.stanford.edu/pub/voy/museum/pictures/display/GoogleBG.jpg
当時大学生だったBrinとPageがGoogleを開発してたマシンです。
最初から1万台は無理だけど、理想と閃きさえあれば大した設備がなくても
ブレイクスルーできるんじゃないですか?
318あぼーん:あぼーん
あぼーん
>>317
どちらにしろ、いきなり全世界規模の HTML ファイル数を考えるから破綻しそうになるんだよ。
始めはこつこつ、数万ファイルくらいから始めるがよいだろうね。

ちなみに、インターネット上のデータは、半年で2倍になっているらしいね。
これは HTML,XML 以外バイナリデータも含んでいるけど。
ムーアもびっくりだ。
320デフォルトの名無しさん:03/04/17 23:15
マシン台数でGoogleに勝つには、
P2Pでインデックス情報とページランキング情報を交換し合うくらいしか無いような飢餓。
321デフォルトの名無しさん:03/04/17 23:29


     天才は思いついた後、地道に考えるけど、
     バカって思いつきだけで終わるよね

この違いをバカは知らない
322デフォルトの名無しさん:03/04/17 23:31
>>321は馬鹿だと?
一般的なサーチェンジンじゃなくて、
なんらかの専門分野のサーチェンジにしとけば、
適当なマシーンで十分いけるけどな。
324デフォルトの名無しさん:03/04/17 23:48
>>320P2Pは技術的な問題もあると思うけど、どうやって普及させるかっていうのもあるよね。とりあえずapacheのモジュールとかにしてみるっていうのくらいしか漏れにはおもいつかないが....
DNSサーバーのような分散型ってのは?
326ごみ垂れ流し:03/04/18 10:45
・元データは何?
  ブラウザキャッシュ?
  ブックマーク+手動評価?
  それ以外の手動登録?
  まさかの個別ロボット?
  単騎及び、一部専用ノードのロボット収集?

・検索処理はどこで?
  鯖側
  →インデックス化(全文の場合)の負荷もあわせると、
   やる気なくしそう(モノによるけど)
  蔵側
  →流量大目(モノによるけど)

・クエリ先は?
  全体
  →なんか効率わるそう
  クラスタ(winny みたいな自己申告クラスタワードの塊?)
  →量少ない?

なんか、全文型より評価付き共有ブックマークの方に思考が流れてしまう…。
ロボ使うと難易度と手間が…。
327ごみ垂れ流し:03/04/18 10:47
326はP2Pでやる場合をホゲーと妄想したものでつ

>>324
楽しくなきゃ普及しなそうなので、winny の BBS に相乗りしちゃうクライアントにするとか。
328デフォルトの名無しさん:03/04/18 17:59
> そこで、そこそこ時間はかかるけど
> 結果は厳選されているそんなサーチエンジンを作りたいと思う。

3フェーズ敵対型サーチエンジン 「ハヤブサNG」 "HAYABUSA Next Generation"

【アルゴリズム】
入力:キーワードX

フェーズ1 (try)キーワードXでgoogleし、ダメっぽいサイトAを抽出する。
※抽出精度は低くても良いが、誰が見てもそこそこダメっぽくなければいけない。

フェーズ2 (throw)2chにスレッドを立てる。
※例 「Xに関してはサイトAが一番。他はクズ。知らないヤシはヒキコモリ。」
※このアルゴリズムが敵対型と呼ばれるキモのフェーズ。
※板の選別や煽り方に熟練を要する。

フェーズ3 (catch)適当な時間が経過した後でレスを回収する。

出力

【問題点】
日本語以外が不得意(全くダメというわけではないが)
検索する度にスレが立つか
自前でサーバーイパーイ用意するより、GoogleAPIを利用した方がずっと安価だな。
分散型コンピューティングで巨大検索エンジンを   Wired News
http://www.hotwired.co.jp/news/news/technology/story/20030418305.html

>  ウェブ検索会社の米ルックスマート社は、『SETIアットホーム』が
> 宇宙人探しのためにやったのと同じことを、ウェブ検索のために
> 行なうという野心的な計画を進めている。


スレにもってこいの話題だろ?
グッジョブ
333デフォルトの名無しさん:03/04/19 11:38
>>331
面白いね
>>331
成功するかどうかはどうでもいいが実際に運用してほしいなぁ。
すっげー気にNULL
335山崎渉:03/04/20 03:00
   ∧_∧
  (  ^^ )< ぬるぽ(^^)
336山崎渉:03/04/20 03:39
   ∧_∧
  (  ^^ )< ぬるぽ(^^)
337デフォルトの名無しさん:03/04/21 01:10
から揚げ
338デフォルトの名無しさん:03/04/21 21:35
ttp://live2.2ch.net/test/read.cgi/news/1050765578/
ttp://news2.2ch.net/test/read.cgi/newsplus/1050771700/
2ちゃんねる検索β版。LIVEなスレやレスをリアルタイムで検索できる
らしいんだが、リアルタイムに検索できて嬉しいことなんてあるのか?
漏れには思いつかん。
339動画直リン:03/04/21 21:36
>>326
共有ブックマークというとblinkとかいうのがありませんでしたか?
最近あまりきかないので盛り上がってないのでしょうか。

blogの基本はリンクに対するコメント、という捉え方が正しいなら、
ある程度大きなblogのコミュニティの集合があって、
それをカバーするそれなりに強力な検索エンジンがあれば
共有ブックマーク的なものになったりしないでしょうか?

326さんは何かアイデア(や妄想)をお持ちなのでしょうか。
 一文、奇数個の否定形、組み合わさるとネガティブになる組み合わせの言葉・・・
・・
メモリが1G以上積める1Uのサーバ譲ってください。。
http://pc.2ch.net/test/read.cgi/linux/1031975012/l10

これだ。ひろゆきは本気らしい。

> [27] 名前: ひろゆき ◆HRUNYAXA | [email protected] 投稿日: 02/09/14 13:03 ID:/NZMwIXQ
> 今回の検索サービスはhtml化した過去ログは想定外で、
> ライブなスレッドだけを対象にしてます。
> ライブなスレッドの数は203928個です。
343デフォルトの名無しさん:03/04/23 20:50
>>1
調子はいかが?
3441:03/04/23 21:07
元気だけど
学校が忙しくてね
345デフォルトの名無しさん:03/04/23 21:56
>>1
いっそのこと、メタでやってみたら?
スコアリングとか、詰めていけばけっこう面白いかもです


vivisimo愛好家より
vivisimoか
漏れも使ってるよ

スレ違いsage
347デフォルトの名無しさん:03/05/05 13:08
ところで普通のサーチエンジンっておまえら作れるの?
348デフォルトの名無しさん:03/05/05 14:47
ファイル共有ならぬブックマーク共有
+
ページランキングならぬリンクランキング
厳選されたブックマークが得られそうな予感
349デフォルトの名無しさん:03/05/05 15:48
ひとまず日本語について勉強しなきゃなぁ・・・
たしかに プログラミング VB って検索して出てきたホームページ行くと
日記とかに出くわしてやる気が失せるときもあるしなぁ。

たとえばキーワードで検索した後、その人がどのホームページに何分いたかを調べて、
たとえば5分以上であれば、まぁいいサイト。5分以下だと悪いサイトって感じにするのもイイって
あまり技術もない俺が何も言えんが。
しかもこれじゃストーカーみたいだ・・・

あとはtitleタグだけで検索するとか。ある程度タイトルは厳選されているから。
ただこれも画像で済ませる人がいるから無理か・・・
検索エンジンは昔から、誰かが新手法を考えると、
その新手法を逆手にとって訪問者を増やそうとする人間がノイズを増やして
結局新手法が役に立たなくなる、という歴史の積み重ね。

手法や閾値が公開されていない手法が最善の手法なんと違いますかね?
351>1:03/05/05 22:06
高機能かどうか分からないが、
n-gram

WebPage を無制限に拾っても、結果表示一秒以下。
テキストマッチが最後には重要... 単なるテキストマッチはスパムに弱いか
こんなスレがあると、今はまだ言えないアレやソレを書きたくなっちゃうから
さっさとDAT落ちしろよ。
353デフォルトの名無しさん:03/05/06 07:15
>>352
書いてスッキリすれば(w
2ch ブラウザ程度の規模で、ログのキーワード検索をする上で参考になるようなページはありますか?
355 :03/05/08 21:42
>>349

>あとはtitleタグだけで検索するとか。ある程度タイトルは厳選されているから。

今でもというかずっと昔からtitle:を付ければ可能なのだが。意外と種々の検索式は
知られていないようだ。
つか、最近検索式って目立たなくなったよね。
フレッシュアイの検索博士がいつの間にか復活してて、ちょっとうれしかったり。
中身TOCCだけど。

かんけいないけどさ。
ほとんどのユーザは検索式を使った検索をしないからね。
358 :03/05/10 21:01
>>358

そうなんだよね。しかも1word一発で最上の結果を要求される。
その実求めているものは違う。

 アイドルの画像、アダルトサイト、公式サイト、掲示板のスレ・・・

入力されたwordから完璧に自動判別できれば、勝手に内部でフィルタかけたりできそうだって考えて実装研究したんだが、結構うまくロジックにならないんだよ。

大勢のニーズの最大公約数を満たすスコアリング手法がPageRank TM 以上のものを見つけたいと思ってるのだが難しいね。
誰かアイディアないかな?
359デフォルトの名無しさん:03/05/13 20:57
Webをカテゴリ分けしたいんだがそうゆうサービスってどこかやってる?
>>358
流石に「アイドルの画像」だけで期待している結果が出たらまずいだろ。
深田恭子を見て「かわいい!」と喜ぶ奴もいれば、「でぶ?」と思う奴もいる。
言葉は同じでもそれぞれの人間が期待している内容は全然違うってこと。
だから、「入力されたwordから完璧に自動判別」てのは根本的に無理、不可能。

で、ここからが本題。
ユーザ向けに自動でカスタマイズされてく検索クライアントなら何とかなりそうだろ。
検索自体はgoogleAPIを使うとして、検索式を自動で補完する仕組みを考えてくれ。
361360:03/05/13 22:36
>>1 すまん。
何だかログを見てたら自分で作った方が早いような気がしてきた。
とりあえず、全自動カスタマイズは後回しにして
filetype:とかsite:とかを工夫してみる。
>>360
期待してますよ
2ちゃんねらーだったら、site:2ch.net が自動的に付くわけですな。
>>363
それはそれで困るかもw
365360:03/05/14 13:15
とりあえずメモ。
・advanced_searchの項目は全部GETのq=以下で送っている。
APIは無くてもいい。URLに直接書いても動く。
・advanced_searchでは同じextのOR検索は選べないが、
"filetype:pdf |filetype:ppt"と直接いれれば可能。
しかし、"filetype:pdf|filetype:ppt"とすると
"pdf|filetype:ppt"を拡張子とみなされて失敗。
パージングの条件が変わるらしい。
・phrase検索のときword-wordとword=wordや"word word"の結果が違う。
何故?
googleAPI使ってる時点で負けだな。
つーか考え方自体が全然ダメ。
検索式の自動補完なんてやったってユーザーは喜びません。
>>366
さて、それはどうだろう?
話の腰を折るのは止めて、とりあえず、結果を待ってみてはいかが?


念のために言っておくけど、漏れは360じゃないよ。
368360:03/05/14 17:44
さらにメモ。
・googleは日本語の助詞を正しく取り除いていない。
・クエリの q= に直接日本語を打ち込んでも検索できた。
googleAPI関連のドキュメントより。
・日付制限
q=searchword+daterange:2452122-2452234
ジュリアン日付で一日単位で制限できる。
・検索範囲の制限
lr=lang_ja|lang_en
restrict=linux.conutryUS
言語やトピックの制限にもブール演算が使える。
>>360
アク解は遠慮してね
370エンジンニュース:03/05/15 18:45
関連記事です。

http://internet.watch.impress.co.jp/www/article/2003/0515/pagerank.htm
Googleで使われている「PageRank」高速化手法をStanford大学の研究者が発見
371デフォルトの名無しさん:03/05/16 15:33
やっぱ最強の検索エンジンは人力だと思うよ。
文脈自由文法か正規表現に対応してほしい。
>>360
調子はいかが?

>>371
はやぶさ、ですなw
タグを抜いたページのキャッシュをバッチリGETし鯖に保存して置き、
それを次回クロール時から1バイト単位で重量比較監視する。
重さに変化が見られれば、検索結果にそのページを表示させる。
つまり、初出URLは一度目からは検索対象にしないということ。

半年間変化が無いものは検索側の結果表示から排除する。
その後も監視しつづけ、また変化があれば検索に載せる。

つまりWWWCを数十億ページ単位でやるような感じ。
人がやって数百も無いページ数でも管理が大変なんだから、
それをいかに自動化させるかが問題。とにかくハードが大変。


--よいページとは随時更新され続けるページのことである-- by 名無し語録
訪問数と時間軸が波形になっているもの
周期が安定、
ほし
>>374
ますます日記サイトのヒット率が上がる罠。
>>376
だね
検索ノイズが増える罠
378374:03/05/17 09:19
>>376-377
んぁ 確かに。
自分でも普段から検索に個人の日記が引っかかることが
鬱陶しいと思っていたことを忘れていた。

でも良いサイト(ページ)は土日祝日以外は毎日更新しているところだと
思うんだよね。それを評価基準に生かせないかと
379デフォルトの名無しさん:03/05/17 12:03
だから今の検索エンジンがどんなに性能アップしようと
Webのカテゴリ分けができないとノイズが減らないのよ。
 同じ単語検索もその周りにある文字の象意によって表示
をかえる
>>378
ただ、日記の中にも、公式技術文書にはそんざいしない、
その個人特有の環境に基づく役立つ技術とかあって、完全排除は困る。
>>379 のような分類後に、選択が可能でないと。

例:
・Unix系OSの作業でとらぶったときに
・ある商品の評判・評価・とらぶる例を知りたいときに
goo最速ニュースの検索式は
http://news.goo.ne.jp/news/search/search.php?kind=web&day=all&MT=
だと結果が???になるので修正してほしいのですがよろしくお願いします。
>>382
マルチポストはお勧めできませんな
>>378
更新頻度でサイトの質を測る、という考え方には同意できませんね
放置されてる学術論文とか、web上には有意な情報が多く埋没してるので
385381:03/05/18 01:54
>>383
ここで2件目で他には書きませんのでそこを何とか……駄目ですか……。
386デフォルトの名無しさん:03/05/18 05:16
>>382
gooの中の人に言ってるのか?こんなとこ読んでないと思うぞ。
MT=以降をEUCでURLエンコードすれば済む話だ。
あと、あまり高頻度に巡回すると嫌われるから気をつけろよ。1分ぐらいは間隔を空けてやれ。
単語のカテゴリ分けするの
388デフォルトの名無しさん:03/05/18 09:14
マルチポストマルチポストっていってるやつってストーカーだよな.きも.
389382:03/05/18 09:48
>>385は382の名前:誤爆です。俺ダメッポ。381さんスンマソ。

http://pc2.2ch.net/test/read.cgi/esite/1031482990/922とここの2件以外は別人です
>>386ヒントありがとうございます。“EUCでURLエンコード”でぐぐって解決しました。
http://pc2.2ch.net/test/read.cgi/esite/1031482990/922
>>382,>>385,>>388,>>389

すべて文体まで同じの同一人物じゃねーか 病的な嘘つきだな。
391382:03/05/18 11:55
>>390
>ここの2件以外は別人です
ここのスレとhttp://pc2.2ch.net/test/read.cgi/esite/1031482990/922のスレに質問書いたと言う意味だがなにか

388の時間俺寝てたし。

オマエも病的馬鹿なんじゃねーの晒しage
392デフォルトの名無しさん:03/05/18 12:01
>>1
余計だと思うサイトが一致しない限り、
うまくいかないだろ。
てか、Googleは出るサイトが多い。
yahooは出るサイトが少ない。
この差のできるわけを勉強してこい。
そしたら、そんな都合の良いものできないわけがわかる。
393デフォルトの名無しさん:03/05/18 12:50
できないと言うだけなら、バカでもできる。

難しい問題に対して、何かアイディアを出す事に挑戦するのが
平均以上の知性を持った人のとる行動だ。
394デフォルトの名無しさん:03/05/18 12:52
例えば
あらかじめ100個の質問に答えておく事で
ユーザーの特性を把握して
検索結果を表示する事もできるだろう。

どんなサイトを訪れているかを調べる事で、
ユーザーの趣向を分析する事もできるだろう。
>>394
で、その個人情報は転売されるという訳でして(-人-)
AllTheWebが最近始めた「クラスタ分け」を、上手い具合に進化させる事が出来れば良いんですけどねぇ
>>395
個人情報での filter は利用者側が持つ、って形にすれば転売は避けられそう。
今どきの PC なら、それなりに処理能力ありそうだし。
>>396
検索者側のムラをどう処理するか…
sageの日もあれば、ageの日もある(w
調整バーが必要?
398360:03/05/19 02:26
仕事が一段落付いたので復活。

google検索式の入力補完はjavascriptで書いた。
全く複雑なことをしていなくて恥ずかしいが、
欲しい人がいれば上げる場所を用意してくれい。
399デフォルトの名無しさん:03/05/20 12:25
>>398
どんなんか見てみたいので公開してほすぃぞ。
400金策エンジン:03/05/20 17:10
漏れも見たいぞ。でも場所は持ってない。