1 :
デフォルトの名無しさん :
03/03/22 21:34 今あるサーチエンジンはどうでもいいサイトまで引っかかってしまう。 たしかに高速に結果は出るが、こうも余計なサイトが引っかかってくると 見る時間がもったいない。 そこで、そこそこ時間はかかるけど 結果は厳選されているそんなサーチエンジンを作りたいと思う。 俺はプログラマーだ。 プログラミングなら任せといてくれ。 でも、アルゴリズムがよくわからない。 あれ嫁これ嫁でもかまわない。 アドバイスをください。 その見返りとして、便利なサーチエンジンを提供します。
2 :
デフォルトの名無しさん :03/03/22 21:36
ふーん
ヽ、.三 ミニ、_ ___ _,. ‐'´//-─=====-、ヾ /ヽ
,.‐'´ `''‐- 、._ヽ /.i ∠,. -─;==:- 、ゝ‐;----// ヾ.、
[ |、! /' ̄r'bゝ}二. {`´ '´__ (_Y_),. |.r-'‐┬‐l l⌒ | }
゙l |`} ..:ヽ--゙‐´リ ̄ヽd、 ''''  ̄ ̄ |l !ニ! !⌒ //
. i.! l .::::: ソ;;:.. ヽ、._ _,ノ' ゞ)ノ./
` ー==--‐'´(__,. ..、  ̄ ̄ ̄ i/‐'/
i .:::ト、  ̄ ´ l、_/::|
! |: |
ヽ ー‐==:ニニニ⊃ !:: ト、
おれたちはとんでもない思い違いをしていたようだ。これを見てみろ。
まず「クソスレ」を英字で表記する
『KUSOSURE』
これを逆にすると、
『ERUSOSUK』
そしてこれを更に日本語に直すと
『エルソサク』
スレを立てたのが
>>1 と言う事を考えれば末尾に『クソスレ』を加えるのが当然だ。
すると導き出される解は
『エルソサククソスレ』
そして最後の仕上げに意味不明な文字『エルソサク』
これはノイズと考えられるので削除し残りの文字を取り出す。
するとできあがる言葉は・・・・・・『クソスレ』。
つまり!『クソスレ』とは『まさにこのスレッド』を表す言葉だったのだ!!
4 :
デフォルトの名無しさん :03/03/22 21:44
>>3 もうすこし頭を使えない物か。
全然面白くないんだが。
>>4 そんなもんにいちいちツッコむなよ・・・
単発質問スレを立てるな!
>>1 まずGoogleに対する具体的な不満を述べてください
明日までに作れ。
ところでGoogleってなんであんなに速いの? とてもじゃないが、あんな速いの作れる気がしないんだが。
つまんね。
>11 ハイテクだな。
>>11 なんだここは?
>このサーチエンジンは手動のため、返答に日数がかかります。
>はやぶさデータベースセンターは土日が休日となっておりますので、勝手ながら土日の検索依頼分は通常より2、3日遅れになります。
この2行が気になるどころじゃねー。手動?
14 :
デフォルトの名無しさん :03/03/23 10:00
サーチエンジンの作り方に関する資料ってない?
>>8 Googleはとんでもない贅沢なことやってるらしい。
あのデータベースは全てメモリ上に存在するとか・・・
そりゃ速いわ・・・
16 :
デフォルトの名無しさん :03/03/23 11:18
とりあえずフリーの検索エンジンの スクリプトをよく見て研究しる。
結論
>>1 はGoogleについて勉強するべきである。
18 :
デフォルトの名無しさん :03/03/23 11:29
大手の検索エンジンのサーバマシンて64bitCPUを大量に 並べてたり、とても個人が趣味で導入できるシロモノじゃないだろ。 プログラムも大事だがGoogleやAltaVista級のエンジンを 作るとなるとハイスペックなマシンも必要ってこったな。
19 :
デフォルトの名無しさん :03/03/23 13:07
2chから目的のスレを探すアルゴリズムの方が 有益なんじゃないかと
21 :
デフォルトの名無しさん :03/03/23 14:30
>11 検索ワード: エロマンガ島 で検索してみた.約700日後に結果が返ってくるそうだ.
>>21 約二年か・・・ まあ、厳選された情報だから仕方ないね
2年て、中途半端な期間だな。 厳選してる間にパラダイムシフトでも起きて、 結果が不用になってたりするんじゃないか。
入れ食いだな
25 :
デフォルトの名無しさん :03/03/23 16:43
エロ画像と入力して あくどい宣伝ページが排除されているなら すばらしい検索エンジンだと思う
ヌ速系の記者システムのように、データベースへのリンク追加権限 を持つ人間が追加要請のリンクを審査して追加する。 あくどいページは排除されるし、画像ゲットのヒントやおすすめ があればソレも同時に追加される。 リンク情報には記者の名前も追加され、記者についての評価は 任意で誰にでもできる。 検索条件に一定ランク以上の記者のリンクのみ、だとかも指定すると 良好な結果が帰ってきたりとか。
27 :
デフォルトの名無しさん :03/03/23 22:41
なるほどね。 でも、サーチエンジンクラスになると 人手でやるのは無謀なんじゃないかと。
現在
>>11 のサイトで『楽しい家族計画』検索中。
701日後が楽しみだ。
でも、もし俺が死んで悲しむ家族がこんな検索結果を見たら( ´Д⊂
>>26 今そういうシステムを考えてるんだよ。
全然検索ではないんだけどね。
ゴメンそれだけ。
30 :
デフォルトの名無しさん :03/03/24 09:39
人手と機械が協力しあうってのは ありだと思う。 P2Pなサーチエンジンってのはどうだろう?
31 :
デフォルトの名無しさん :03/03/24 10:19
エロマンガ島のパラダイムシフトか… 高速回線限定の分散ネットワークをホストにするP2Pサーチエンジンとか面白そうだな
2chは、時間が少しかかって、人的資源を使う、 結果があいまいなサーチエンジンですか。
34 :
デフォルトの名無しさん :03/03/25 22:39
自分でサーチエンジン作れる人っているの?
35 :
デフォルトの名無しさん :03/03/25 23:00
毎日Webを見まくる 自分でカテゴリわけしとく これなら、OKだよね 余計なサイトはひっかからない ヤッホー!はこのやり方です
データマイニング、これ難しい。 どのデータとデータを組み合わせるのか? さらに、クラスタリング+超高性能なPCが必要。 これ、スポンサーないと無理。 さらに、データの収集。 そのためには、大容量のストレージと、太い回線が必要となる。 2ちゃんの過去ログ検索は、すでに実現してるね。 あれは、Windows+Namazuでおこなってるらしい。 でも自分で検索エンジン作るなら、まずは形態素解析やデータベースの知識が必須。 Googleは、英語のみならず様々な言語での検索が可能ってのは、 本当はすごい事だと思う。 素人が作れるレベルは、せいぜいNamazuでなんちゃって検索エンジンつくる程度。
37 :
デフォルトの名無しさん :03/03/25 23:24
Namazuは形態素解析した結果を利用してるよね。 形態素解析して、名詞だけをインデックスにしてるのかな? 個人でやるならP2Pなのかな?
1が人間検索エンジンとなると良い検索が出来ると思う。
>>37 あなたが言うP2Pとは一体なに?
誰かが検索エンジンのために、マシンのリソースを貸してくれて、
それをP2Pでクラスタリングするということ?
もしそうだとしたら、
検索エンジンのために、マシンのリソースを貸すというのは、
難しいと思うよ。現実的は話としては。
仮に可能だとしても、Googleを越えるのは無理。
何故なら、P2Pのマシン間の帯域は狭いから。
>>37 名詞だけってそんな雑なことはしないでしょ。
名詞だけしか登録してないのに、全文検索エンジンを名乗られたらたまらん。
>>1 なかなか難しいとこだな。
似たようなこと昔やったけど。
googleにクエリー投げる
→ 結果からリンクのみ抽出
→ リンク先のページをGET
→ 形態素解析
→ 独自のランキングデータベースで再ランキング
→ 結果の表示
で、結果は・・・・。
ランキングデータベースのチューニングすれば、精度はそれなりっぽかった。
が、形態素解析のオーバーヘッドがでかすぎて実用にならんかった。
×実用にならん ○実用にたえん 他にも怪しいところあるが、見逃してくれ・・・
サイトを作る人間がもっとしっかりしたリンクページを作るように意識すれば 俺はそれで(・∀・)イイ。 俺のは万年更新中になってるが
45 :
デフォルトの名無しさん :03/03/27 09:08
>>40 名詞だけじゃなかったら、
何をインデックスにするんだ?
>誰かが検索エンジンのために、マシンのリソースを貸してくれて、
>それをP2Pでクラスタリングするということ?
違う
あぼーん
47 :
デフォルトの名無しさん :03/03/27 12:01
で、>>1は建て逃げか…
逃げてませんが。 話し相手がいないだけです。
>>45 品詞って名詞だけじゃないだろ・・・。
名詞だけで文章の特徴が捉えられるとでも?
52 :
デフォルトの名無しさん :03/03/27 22:26
じゃ、漏れが
>>1 の話し相手になってやる。
まず、どんなことがやりたいのか明確にしよう。
>>36 の書いているように、クローラ、インデクサなんかも自分で作るのか、
>>41 みたいに、基本的な部分は外部に任せちゃって、得られた結果を絞り込むのか?
53 :
デフォルトの名無しさん :03/03/27 22:51
ありがとう。
>>41 みたいに、基本的な部分は外部に任せちゃって、得られた結果を絞り込むのか?
こっちではないです。
作りたいものはサーチエンジン
すなわち
見たいホームページ→抽象化(キーワードを入力?)→具体的なホームページ
というプロセスをサポートする。
今あるサーチエンジンでは
見たいホームページを見つけてきているとは言いがたい(気がする)。
問題はどこにあるか?
矢印が2つあるので、そこに焦点を当てるのが基本だと思う。
すなわち、抽象化と検索。
実は抽象化と検索は表裏一体。
キーワード化以外の抽象化方法があれば、
その入力を加えた検索アルゴリズムが必要になるわけだ。
だから、抽象化と検索アルゴリズムを並行して考えていこうと思ってます。
ふむ。 その場合、抽象化が一番の鍵だね。 抽象化の方法が決まれば、検索アルゴリズムも自ずと決まってきそう。 ヒットするのが見たいものだけでいいっていうなら、 文書をわりと低次元なベクトルに落としちゃうって言うのもありかもな。 ベクトル化する際に正規化しなければ、大きさでランキングもできるし。 ・・・なんか昔NTCIRでそんな論文を読んだ気がしてきた。
>>53 すまん、これじゃ普通の人にはわからんな。
解説すると、文書っていうのは単語の集合だから、
ある単語が1つの次元をあらわすとすると、
ある言語の語彙がN個だった場合、その言語で記述された文書は、
高々N次元のベクトルで表現できる。
で、このN次元っていうのを、特徴的な単語に絞って
低次元にしてあげれば〜、っていう話し。
まぁ、その「特徴的な単語」の決定が難しいんだけど。
56 :
デフォルトの名無しさん :03/03/27 23:43
学者系の奴か? 複雑で非効率的な抽象化より、リンク関係を基本とした単純なページランキングのほうが優秀だという事実を無視しないようにな。 運用時のパフォーマンスが、検索エンジンの重要なファクターだということをキモに命じておけよ。
57 :
デフォルトの名無しさん :03/03/28 01:23
>>55 いわんとしてる事はなんとなくわかるんだが、
実装となるとまた話は違うと思うわけで。
言語の語彙がN個でN次元ってさぁ、
日本語に10万個の語彙があれば、10万次元なわけでしょ?
それを低次元に射影するってのは、一体どれほどの計算量か考えてみれば、
実装なんて無理なんじゃないの?
>>53 抽象化ってのを具体的に説明しる。
俺の意見を言わせてもらうと、
今の検索エンジンって、結構もったいない事してると思う。
というのは、自分が検索ワードで「Visual C++ サンプルプログラム」という検索をしたとする。
またある人が、「Visual C++ ソース」で検索するとする。
その時に、前の似た検索をした人が、他にどんな検索ワードを使ったかを記憶しておけば、
それを用いて絞りこんだ結果を上のほうに持ってきて、
みたいな事ができるといいと思うんだけどな。
58 :
デフォルトの名無しさん :03/03/28 01:29
Namazuフレンドリーな文章の書き方のこつってある? Kakasi/Chasenフレンドリーってことになるのかもしれないけど
>>57 検索者の好みや履歴を利用した検索システムは、いろいろ提案されています。
しかし、プライバシーの侵害という問題が起きています。
また、どうやって検索者を追跡するのかという技術的な問題もあります。
くわしくはFITの論文などを見てください。
>>59 どこまでがプライバシーなのか定義が自分にはわからん。
後者については、技術的な問題は何もないでしょう。
というか、検索者を追跡する必要はないわけで。
ざっくばらんに言えば、そのページで検索された検索ワードを保存しておいて、
仮に保存したものを、「SearchMine」と言うならば、
ユーザーが検索するとき、最初にSearchMineを検索して、
その検索結果を使って、あらかじめ取得しておいたWebページを検索すればい
いと思うんだが。
>>57 >その時に、前の似た検索をした人が、他にどんな検索ワードを使ったかを記憶しておけば、
>それを用いて絞りこんだ結果を上のほうに持ってきて、
微妙に違う話かと思いますが、goo が検索結果からのクリックを評価に加えてるという話を聞いたことがあります。
>あれ嫁これ嫁でもかまわないManaging GigabytesとModern Information Retrievalを嫁>まぁ、その「特徴的な単語」の決定が難しいんだけど。Latent Semantic Indexing とかあるけどな。その手のは再現率は上がっても適合率は上がらんという罠。
すまん。改行が抜けた。
>>1 >あれ嫁これ嫁でもかまわない
Managing GigabytesとModern Information Retrievalを嫁
>>52 >まぁ、その「特徴的な単語」の決定が難しいんだけど。
Latent Semantic Indexing とかあるけどな。
その手のは再現率は上がっても適合率は上がらんという罠。
> 言語の語彙がN個でN次元ってさぁ、 > 日本語に10万個の語彙があれば、10万次元なわけでしょ? > それを低次元に射影するってのは、一体どれほどの計算量か考えてみれば、 > 実装なんて無理なんじゃないの? 計算量は置いといて、どんなふうに計算するの?
特異値分解しる。主成分分析と考え方は一緒。 元の行列は次元数は膨大だが極端にスパースだからSVDを高速化する手法はある。
すみませんでした。 質問する資格、前提となる知識をもっていませんでした。
んなこたーない。 最初は誰だって素人だからな。知識は今から仕入れればいい。 最近国産のサーチエンジンは軒並み元気ないから、 1みたいな奴は応援するぞ。ガンガレ!
>複雑で非効率的な抽象化より、リンク関係を基本とした単純なページランキングのほうが優秀だという事実を無視しないようにな。
そんな事実はありません。
というか、抽象化という言葉の意味を取り違えています。
>運用時のパフォーマンスが、検索エンジンの重要なファクターだということをキモに命じておけよ。
検索結果のクオリティーのみが重要で、
検索時間は10秒までOKだと考える事にしてます。
>抽象化ってのを具体的に説明しる。
ユーザーが見たいホームページ(サーチエンジンに検索させたいホームページ)
をあるデータに変換して
サーチエンジンに渡します。
現行のサーチエンジンでは、見たいホームページのキーワードを入力します。
この、ユーザーが見たいホームページからあるデータへの変換を
抽象化と呼んでいます。
>>62 推薦ありかとうございます。
時間をみつけて読んでみます。
サーチエンジンという大きな物ではなく、 まず小さなものから考えて行こうと思います。 例えば、2chのあるスレにある書き込みというのは スレのタイトルで検索した結果、見つかった書き込みと捉える 事ができると思います。 では、その書き込みのクオリティーを測る方法はどんな物があるでしょうか? 今は、このような事を考えています。
>>70 あくまで2chを例えに使うなら
・類似書き込みの多さ
・信頼の置けるコテハンか
をクオリティーの目安にしてる。
後のは検索エンジンの場合は
googleのページランクに相当する考えを
持ってくればいいのかな
>>70 「クオリティ」 という時点で客観的な物差しだよね。
「ある特定の人」 が見たい情報ではなくて。
これからの時代は、やっぱりYahooみたいなディレクトリ型だよ。 でも検索エンジンが不要ってわけじゃなくて、googleは 今まで使われた検索単語をデータベース化してあるから そこから検索単語を使ってディレクトリを自動生成する ってのが研究中だとか。
俺には難しいが面白そうなスレですね。 末永くROMさせていただきます。 ガンガレ
75 :
デフォルトの名無しさん :03/03/28 23:49
>>58 遅レスだが・・・。
・助詞、助動詞の使用は最低限にする。
・できるだけ漢字の名詞を使用する。
この二つだな。
ま、最近のChaSenは「横浜ビブレ」なんてのが
固有名詞として登録されてたりするから、
カタカナ使用してもそれほど問題にならんかも知れん。
# ChaSenの開発チームは大学卒業してもメンテさせられてるという噂・・・。
>>70 漏れの考えだと2種類+1のアプローチがあるな。
ひとつは、スレタイと1に書き込まれたテンプレとの類似度を計算する方法。
>>71 が書いてるように、コテハンつーのもありだと思うけど、
「信頼の置ける」ってのを判定するのがつらい。
もうひとつが、PageRankみたいに
>>76 のような、
他レスからの参照数をベースに計算する方法。
この方法だと、1がダントツでトップに来てしまうので、
その辺は工夫する必要がある。
AAや、「氏ね」、「クソスレたてんな」等の
お決まりの文句が付随してるのはカウントしないとかな。
で、最後におまけのひとつ。
ガイドライン版の「勝手に今日輝いていたレス大賞」から引っ張ってくる。
これ最強。
すまん、よく考えたら、「他レスからの参照が多い」 つーのは、突っ込みどころ満載って感じになるな。 ネタとしてのクオリティは高いが。
>>76 まあコテハンの信頼性ってのは地道に統計取るしかないね。
ただ、たとえば2chブラウザのスレとかで言うと
コテハン(大抵作者)のレスというのは情報の有用性は
非常に大きいわけで、それをスコアに反映させない手は無いかと。
荒らしとかでない限り、ある一定数以上のレスをしているコテハンは
いいスコアつけるべきだと思う。
別途、荒らしフィルタとかバカコテフィルタを考えなきゃいけないけど。
つーか、まずデータベースから設計しないと、、、
キーワードというか NGワード等を動的に生成する方法はないものかと 日々考えています。 >AAや、「氏ね」、「クソスレたてんな」等の >お決まりの文句が付随してるのはカウントしないとかな。 これらは時間が経つにつれて、 流行り文句が替わるので手作業で修正しないといけません。 ここを自動化できるメリットは大きいですね。 >「ある特定の人」 が見たい情報ではなくて。 これはもう仕方のない問題です。 検索者の情報を事細かに入力するのであれば別ですが。
81 :
名無し@沢村 :03/03/29 17:27
>>1 >俺はプログラマーだ。
>プログラミングなら任せといてくれ。
>でも、アルゴリズムがよくわからない。
プログラマー?
アルゴリズムがよくわからない?
?????????????????
いままでどうやってプログラミングしていたの?
所詮沢村には理解できないさ
そういうのはプログラマではなくパンチャとかコーダと呼ぶべきだな。
俺がイメージしているサーチエンジンのアルゴリズムが わかるのであれば教えてください。
この段階では丸投げと変わらん。
87 :
名無し@沢村 :03/03/29 19:58
>>84 >俺がイメージしているサーチエンジンのアルゴリズムが
わかるのであれば教えてください。
わかるよ。
>結果は厳選されているそんなサーチエンジンを作りたいと思う。
要するにヌヒがどんな基準で厳選しようと考えているかだ。
その基準で余計なサイトを振るい落とせばいいだけだよ。簡単な話しだよ。頑張れ!
フィルタの設計だよね ある意味一番面白くて個性が発揮できる部分だね
そんな表層的な事は小学生でも分かると思われ
スレタイみてずっと思ってたんだが、 それは企画ではなくて 単 な る 願 望 で す。
>>87 アルゴリズムという言葉の意味がわかってなかったみたいですね。
それじゃ
92 :
名無し@沢村 :03/03/29 21:07
>>91 バカコラクソおまえ、殺すぞ!!
いいかおまえは余計なサイトを振るい落とす基準の詳細について聞きたいのだろうが、
バカクソおまえがどんな基準を持っているかわからなければ振るい落とす詳細の設計の仕様がないだろが!!ボケ!!
要はおまえがどんな基準を持って余計なサイトを振るい落とそうとしているかが重要なんだよ!!マラボケ!!
93 :
デフォルトの名無しさん :03/03/29 21:09
Webサービスかなんかでアクセス数を取得して、 ヒットしたサイトをそこのアクセス数順にソートして表示できないの?
共立の 「情報検索アルゴリズム」 とか 手に入りやすい本をちょろっと読んどいたら?
97 :
名無し@沢村 :03/03/29 21:46
98 :
デフォルトの名無しさん :03/03/29 21:52
>>1 とりあえずgoogleは200人のエンジニアで5年で現在の仕組を構築。
あの速度を維持するには500台以上のUnixマシンと冗長性の高いネット
ワーク構築が必須。またcascheについての工夫も当然。
なお、検索エンジンの仕組を考えるのであれば、
1. 効率のよいデータ収集と容量効率のよいDB構造の検討
2. 1秒あたり1000万を超えるクエリを処理できる負荷分散の検討
3. 日本語を対象にするなら形態素分析に関する検討
が基礎にあって、
例えば10億URLの情報が平均500Kでキーワードトークンが平均2K程度になる
と仮定して総indexの容量とそれをどうすれば高速で検索できるのか、hash関数
などをどう使えるのか、そんなことを考えてみてください。
キーワードのフィルタリング、例えば形態素辞書をより高度に活用することなど
は、上記基礎設計の後でじっくり考えてみましょうね。また商用という意味では、
それらを導入するコストパフォーマンスも含めて考える必要も当然あります。
「NGワード等を動的に生成する方法」これは比較的簡単なことで、上記基礎設計
技術とノウハウがあれば可能です。しかしやはり導入による全体のパフォーマン
ス低下がその効果に見合わないというのが実情ですね。
因みにgoogleのエンジニアは全て米国にいます。日本ではエンジンチューニング
の類はしませんから、彼等がここを見て書き込んでることはありません。
私は過去ですが商用検索エンジンの開発経験があるしがないエンジニアでした。
101 :
デフォルトの名無しさん :03/03/29 22:29
200人で5年って12000人月ですか ギネスブック記録ですか?
>>101 もちろんその中には徹夜の日や休日返上もあるから1500人月くらいじゃねーの?
>>101 そのくらいのプロジェクトはいくらでもあるでしょう。
google のシステム自体が、たしかギネス認定されていたと思います。
105 :
デフォルトの名無しさん :03/03/29 23:02
>>99 その商用検索エンジンって何の言語で作ってました?
クローラー、形態素解析、文書フィルタ、インデクサ、
クライアント部分等、それぞれで違うと思うのですが、
よろしければ教えていただけませんか?
あと、DBは何を使ってました?
>>105 言語はほぼC++です。Webインターフェース部分は専用のPagebuilder。
DBは汎用ではなく専用のDBです。クローラーにはPythonやPerlなどの
script系言語も使われてます。形態素分析辞書はモジュール供給なので
中身はblack boxで辞書自体にユーザー辞書を乗せ新語(ビンラディンとか)
などに対応していました。
>>1 素朴な質問だけど、「どうでもいいサイトまで引っかかってしまう」
とあるが、あるキーワードに対してどうでもいいサイトとはどう定義
しますか?もちろんそのキーワードを使うユーザーの最大公約数の答
えとしてです。仰る語感では「確かに仰る通り!」と思えるのですが、
それをロジックにすることは簡単ではありません。
例えば、「掲示板」というキーワードの場合、どういう検索結果が、
あなたの仰る「どうでもいいサイト」になりますか?
確かにスパムキーワードを施すようなサイトはクローラーがデータを
取得する際に存在するキーワードの傾向などから自動分類することも
可能でしょう。しかし、「自分が探しているサイトが上位にある」こ
とをあらゆるユーザー用途に対して最大公約数的に実現できることは
容易なことではありません。固有名詞に対して、その会社、団体、個
人サイトなどがトップに来るようなことはほぼ実現していますが、
実際「掲示板」のような抽象的なキーワードでの表示順位にみなさん
はどんな結果を求められていますか?他のキーワードでも構いません。
教えてください。私には結局在職中に答えを見つけることはできません
でした。
108 :
デフォルトの名無しさん :03/03/29 23:38
>>1 もうひとつ。
結局、「超高機能なサーチエンジン」に求められるスペックとは?
- DB保有量、対応言語
- 想定クエリ処理数
- 平均レスポンス時間
- クローリングスペック
- 当然全件一括更新なんかできないからどう部分更新できるか
- クローリングDB運用管理(クロール頻度やURLの追加削除など)
- スコアリングスペック
- クエリ処理自体のスペック
- 表示方法(どういうAPIを介するのか、結果をXML化し云々などなど)
- 表示順
- 検索方法(and or not その他link元とかそういうこと)
などなど検討ポイントは多いのですが、是非 1 がどういうポイントから、
高機能なものを作ろうとお考えなのか、お聞きしてみたいです。(マジで)
>>102 私はgoogleの人間ではありませんから伝聞です。もちろん初めから総勢200人で
動いていたわけではありません。最初は数名からスタートしたと聞いています。
研究、実験段階までは多くても10数名でしょう。商用化の目処がたつまでに、
2、3年、それから現在の商売モデルを既に作り上げ売り上げ見込みに基づいて
本格的にエンジニアを雇用していったわけです。
111 :
デフォルトの名無しさん :03/03/29 23:49
class Web{ string url; string data; } vector<Web> Search(string searchString){ vector<Web> ret; for(int i=0;i<255;i++){ for(int j=0;j<255;j++){ for(int k=0;k<255;k++){ for(int l=0;l<255;l++){ string s=toIP(i,j,k,l); int fh=_open(s.c_str(),_O_RDONLY); char buf[100000000]; _read(fh,buf,100000000); if(search(buf,searchString) > 0) { Web w; w.url=s; w.data=buf; ret.push_back(buf); } } } } return ret; } まぁ最先端の検索エンジンはこんなかんじかな。
>>113 最先端ならこうして欲しい気も…。
for(int i=0;i<65535;i++){
for(int j=0;j<65535;j++){
for(int k=0;k<65535;k++){
for(int l=0;l<65535;l++){
for(int m=0;i<65535;m++){
for(int n=0;j<65535;n++){
for(int o=0;k<65535;o++){
for(int p=0;l<65535;p++){
string s = toIPv6(i,j,k,l,m,n,o,p);
それだ!
おげ。修正忘れ。 ネタでエンバグしてどうするよ<俺 for(int i=0;i<65535;i++){ for(int j=0;j<65535;j++){ for(int k=0;k<65535;k++){ for(int l=0;l<65535;l++){ for(int m=0;m<65535;m++){ for(int n=0;n<65535;n++){ for(int o=0;o<65535;o++){ for(int p=0;p<65535;p++){ string s = toIPv6(i,j,k,l,m,n,o,p);
「掲示板 作り方」と入力したとしよう これで、「掲示板の作り方なんて知らないよ」サイトは必要ない 「掲示板 作り方」は掲示板の作り方を知りたい人が使う検索ワードである よって、どうでもいいサイトは存在する
で?
>>117 (掲示板 and 作り方)not 知らない ではダメですか?
>>99 >私は過去ですが商用検索エンジンの開発経験があるしがないエンジニアでした。
今は何やってんだ?
>>120 今はエンジニアではありませんとだけ申し上げておきます。
>>99 こういう実務経験のあるひとの書き込みはすごくうれしい。
たまにでもいいので、なにか気づいた点があれば、アドバイスおながいします。
>あるキーワードに対してどうでもいいサイトとはどう定義しますか? サーチエンジンとは あるホームページXを抽象化したデータf(X)=Yを作り Yに基づいて検索した結果をg(Y)=Zとすると X=Zである事が望ましい。 しかし、実際にはX!=Zである。 そこで、ホームページの差異、すなわち距離dを定義する。 d(X,g(f(X))=d(X,Z)の値が低いgとfを作る事が サーチエンジンを作る意味である。 ここで、fとgの作り方のほかに 距離dをどうやって決めるかという問題がある。 この距離dの取り方は、文字認識でも音声認識でも人間の感覚が 関わってくる問題すべてで問題となります。 例えば、ある入力された文字が「あ」という文字と「い」という文字の どちらに近いか? これは、普遍的事実というよりは、人間の感性に依存しています。 逆に距離dの決め方がわかってしまうと、問題は解決したも同然です。 従って、距離dの具体的な答えを問う質問は愚問です。 理解していただいたでしょうか? では、文字認識等ではどのような解決策をとっているかというと 多くの手法がありますが 現在の流行は統計的推測であります。 すなわち、SVMやニューラルネット、音声認識ではHMMなどです。 従って、前例に習うとするならば距離dの問題は は統計的推測を用いた解決を用いる事が一つの方法です。 しかしながら、その適用が難しいというのが現状だと思います。
>「NGワード等を動的に生成する方法」これは比較的簡単なことで、上記基礎設計 >技術とノウハウがあれば可能です 個人的には無理だと思っていますが。 できるなら、そのアルゴリズムの詳細を教えてください。 人間が手作業でキーワードを付け加えるなら簡単ですが。 パフォーマンスは確かに重要です。 googleのパフォーマンスには検索速度の他にも 大勢で使うためのパフォーマンスという意味が含まれています。 今回考えているのは、 1台の個人のPCで動き、検索時間は1分程度かかってもいいので、 クオリティーの高い結果を提供するという事です。 (あるいは、HTTPという形ではなく 見つかり次第結果を表示するようなアプリケーションでもいいと 思っています。) 従って、P2Pという形態は好ましいと思っています。
>>1 一切広告付けるなよ
完全無料のボランティアでやれよ
127 :
デフォルトの名無しさん :03/03/30 12:05
>>106 >DBは汎用ではなく専用のDBです。
汎用のDBを使わずにわざわざ専用のDBを開発してまで使う理由とは?
128 :
デフォルトの名無しさん :03/03/30 12:53
>>127 検索エンジンで専用のDBつくるのはあたりまえだと思うのだが。
データ持ち方自体が検索エンジンの機能・性能と密接なんだから。
>>126 はい、もちろん広告なんて載せません。
完全無料です。
でも、無能な人、貧乏な人、ケチな人は絶対使わないでね。
有能な人、お金持ちな人、ケチじゃない人は無料でじゃんじゃん使ってね。
ところで、なんで指図されてるんでしょうか?
誤爆?勘違い?デムパ?
DBという言葉がでていますが、
ハードディスクのような大容量メディアをDBと呼んでいる人と
それらを利用しやすくするためのソフトウェアをDBと呼んでいる人が
いるような・・・
後者はDBMSと呼ぶのでしょうか?
専用のデータ構造を作った方がいいような気もするというのが
個人的な意見です。
そんなにファイルをたくさん使うわけでもなさそうなので。
>>129 広告は反対だが、漏れ的にはじゃんじゃんウラで稼いで欲しい。
じゃなきゃ、安定成長できんでそ。
最初は完全ボランティアだろうが。
131 :
デフォルトの名無しさん :03/03/30 17:26
>>1 1の書き込みを見る限りでは、Googleの検索結果に
「余計なサイト排除フィルタ」を被せれば、
目的を達成できるような気がします。
ひとまず「余計なサイト排除フィルタ」の開発に専念し、
それで目的を達成できたら御の字、不満なら独自DBの
開発に着手するという線は如何でしょう?
GoogleAPIを使えば労力を節約できると思うので、参考までに。
http://www.google.com/apis/
あぼーん
41で既出だった・・・
134 :
デフォルトの名無しさん :03/03/30 21:13
>>1 が、某メタサーチ管理人のように思えてならないのだが...
135 :
デフォルトの名無しさん :03/03/30 22:12
μηκο УАЯО ∫НΙΝЕ ! あなた達の為に 地獄からラッシュで カムバックしてきたわョ! イエス、 イエス、 イエッス このНАМАУОНЕΙが 来たからには ジャスト安心よ! あなたの良く知る НАМАУОНЕΙだよ! ユゥノゥ? ・・・ああ 子供たち 私の最後の言葉をきいとくれ クソ検索エンジンや お前のフェイスは ベリーベリーベリー ファニーだね フールだね ダムンだね! お前の天然のウザさを例えるに 戦闘帰りに上機嫌で鼻歌歌ってたら ダークに紛れて鼻の穴にダイブしてくる蚊柱のよう! お前なんて今すぐどうにかなっておしまい 世 田 羊 イヒ 介 大 の た め に これが私の最後の言葉! くれぐれもプロミスを守って・・・
136 :
デフォルトの名無しさん :03/03/30 22:15
>>131 googleの結果から絞り込むというのも一つの手段ですが
まったく新しいアルゴリズムを作ろうと考えています。
余計なサイト排除フィルタを作る事も
目標達成の通り道になるとは思いますから、挑戦しようとしています。
そこで、現在2chのカキコに対して
その重要度を計算するアルゴリズムについて
考えている最中というわけです。
重要度を計算するには
書き込みの文章自体から計算する方法と
それ以外の情報も加えて計算する方法があります。
それ以外の情報とは、
誰もが思いつくのは
コテハンや>>での参照回数ですね。
>>1 >できるなら、そのアルゴリズムの詳細を
辞めても守秘義務があるので一般論以外は無理です。
>>127 >汎用のDBを使わずにわざわざ専用のDBを開発してまで使う理由
簡単です。速度と容量のパフォーマンスのためです。
>>1 >しかしながら、その適用が難しいというのが現状
仰る通りですね。書かれていた手法は様々なアプローチで試みましたが
商用エンジンの価値は「評判」で決まるため、感性に訴求させることは
誰しもが唸る?ような新理論を上手に広め、種々の問題は未解決ながら
もこのエンジンはいいと認知させていくことが肝要ですからね。
もう当事者ではないですが、知り得る範囲でご協力致しますが、技術情
報詳細の開示(例えばデータ構造など今だ頭にはいっているものも含め)
はご容赦くださいね。
それではまた。
138 :
デフォルトの名無しさん :03/03/30 23:24
まずはベイズ理論からだな
>>136 全く新しいものを作るなら、
新たな作成物が既存のものでないかどうか調べる必要がありますよ。
少なくとも、google一発で見つかっちゃうようなのは言語道断。
まあ車輪の再開発も勉強という面においては有効だし。 仕事でやるなら再開発は嫌うべきだが。
面白い sage Googleに正規表現検索が付けばそれで事足りる気がするけど...
142 :
デフォルトの名無しさん :03/03/31 01:34
評判より検索結果でしょ
143 :
デフォルトの名無しさん :03/03/31 03:14
>>141 >>1 を含めて、正規表現なんて知ってるユーザーは少ないので、実装されない。
で、and検索だけの糞い結果しか得られない。
正規表現対応の検索エンジンは、ユーザー数が少ないので、広告も少なく、
性能が低く、データ量も少ないので、正規表現の威力が出ない。
広告などのゴミデータが散乱する。
下手に資本主義化したネットの末路。
本来の性能を完全にスポイルしている。
>>1 の言う抽象化はユーザーが賢くなれば済むことのようだが
>>144 賢くならないユーザーの方が多いんだよ。
それにね。
いい?いまから大事なこと言うよ。
賢 い ユ ー ザ ー は 金 に な ら な い
まさに金言だな
しかし、無能な香具師は使うなと
>>1 は言ってるぞ。
なんか
>>1 の言動が厨臭くてかなわん。
世界の80%は厨房で出来てます
まあ、正規表現なんてのは無理な話。 ユーザーの問題じゃなくてパフォーマンスがでないから。 それに正規表現で問い合わせできても、たいして変わらないような。 それはそうと、パターンマッチングはそれ程重要じゃないんだな。 >商用エンジンの価値は「評判」で決まるため、感性に訴求させることは まあ、「評判」という言葉の意味の乱用だね。 評判は性能で決まる事もあれば・・・ というわけです。 それに商用を目指しているわけではないので、 ひたすら自分の要求に合った、クオリティーの高い検索結果を 出す物を目指します。 >もう当事者ではないですが、知り得る範囲でご協力致しますが、技術情 なんか協力できそうなんですか? 技術的な話は聞いても、守秘義務があるから一つもできないようなので 文献の話でもしましょうか? これから少しずつ読もうと考えています。 >全く新しいものを作るなら、 >新たな作成物が既存のものでないかどうか調べる必要がありますよ。 考え方の問題です。 既存の物にとらわれないという意味です。 なぜに、調べる必要性が出てくるのでしょうか? 妄想はやめましょう。 >少なくとも、google一発で見つかっちゃうようなのは言語道断。 意味わかりませんが。 新しいホームページを探す技術ではありませんよw ところで、あるテキストからキーワードを抜き出す技術に興味のある人はいますか?
形態素解析とインデクシング? それとも tf/idf みたいな重み付けも含めて?
残りの二割は当然「やさしさ」で。
153 :
デフォルトの名無しさん :03/03/31 16:07
ロボット型の検索エンジンでしかも商用ともなれば数億ページにもなる データを保管し、そこから必要なデータを素早く取り出さなければいけない と思うんだけど、それを独自に開発したDBで対応できるものなの? 煽りじゃなく純粋に知りたい。
オンメモリでいいやん
>>153 だからこそ独自に開発したDBがいるんじゃない。
独自に開発しなかったら、何つかうっちうねん。
>>155 データを扱うエキスパートである各RDBMSに
独自に開発したDBがスピード、安定度、耐久性、堅牢性において
勝てるものなのかっていうことを言いたいんだが。
>>154 Googkeはそれをやってるんだっけ。
なるほど。
一般論だが、汎用より特化したシステムの方がチューンナップされてるのは当たり前だと思うが。
>>156 リレーショナルモデルを前提にした検索エンジン作らない限りは
結局RDBMSの上にDBMSを構築するはめになる。
それでスピード・安定度・耐久性・堅牢性有利になるかといえば、疑問。
もしかしてRDBMSが万能とおもってない?
しかし、いつのまにこんなに良スレに・・・ ここはJava厨C#厨も出現しづらいし。
161 :
デフォルトの名無しさん :03/03/31 17:56
>ここはJava厨C#厨も出現しづらいし。 Luceneって実際のとこどうよ? と、あえて召喚してみるテスト
155のバカさ加減にはあきれるな
>>150 キーワード抽出だと、NTCIRのNEタスクの論文なんかが参考になるかも。
学者のたわごとが多いので、あくまで参考程度に。
実は学生時代にこの辺の研究してた。
日本語だと以下が基本的な(?)アプローチ。
まず、形態素解析してtf/idf。
さらに重み付けのために、前後(特に後ろ)の文を見て、指示代名詞の有無を調べる。
きちんと章・段落がある文書は、その情報も使う。
最初/最後の文章は重要な語が出てくることが多いから。
Webに特化していいのであれば、HTMLタグなんかもキーワード抽出に使える。
<title>、<a>、<h?>、<th>、<b>、<em> など。
>>1 >なんか協力できそうなんですか?
不必要に好戦的なのですね。そういう意味ではあまりご協力できそうも
ないのに余計なことを申し上げましたね。撤回致します。見守らせて下さい。
> まあ、「評判」という言葉の意味の乱用だね。
> 評判は性能で決まる事もあれば
検索対象URL数、機能性、更新頻度、反映スピード、検索スピードなど性能
で客観的に測れる指標もありますが、それら以上に「この検索結果は良い」
というスコアリング結果に対する体感が評判だと申し上げているわけです。
もちろん、商用を担当していた以上数々のマーケデータを知っている上で
申し上げているので、それが可笑しいと思われるなら仕方ないのでこの点
では反論致しません。
>>153 はい、汎用のRDBMSではスピード、容量面で全然実用的になりません。もっとも
データ構造は私が手掛けていた範囲ですから、それが絶対的ではもちろんありま
せんが、極端な話しRDBMSに一旦入れてある商品DBなどを検索させる場合でも、
そこからわざわざサーチエンジンの専用indexを作って検索させておりました。
それだけスピードには差が出てしまいます。
>>163 引用省略しますが、はい、まさにそういう処理をしておりました。難しいのは
実際TAGによる重みづけを行う場合のバランスでした。title中のキーワードに
どれだけの重みをつけるべきか。他にも種々のパラメータが存在するので、実
際の重みづけ(スコアリング)結果を出すにはどうしてもサンプルデータでは
無理が多く、テスト用にデータを本番と同等分持たないと有効なテスト結果を
得られないこともコストにヒットしました。正直あれだけの設備を二重に持つ
ことはなかなか厳しいです。しかし、本番サービスを止めずに様々な改良実験
を行うためにはどうしても必要になります。1億URLを対象とするエンジンなら
1億の中でのテストでないと意味がないわけです。tfという香具師がまたやっ
かいな値なのです。
166 :
デフォルトの名無しさん :03/03/31 22:45
肩書き能書きじゃ評価できないんで。 中身があるかないかです。 そして、できるかできないかです。 >スコアリング結果に対する体感が評判 評価という意味をそういうふうに限定しないと意味は通じないと 書き込んだつもりですが。 まだまだ日本語力が足りないようです。 勉強してきます。 形態素解析をして、tf/idf等を用いたスコアリング これをもう一度抽象化すれば あるテキストの構造を解析して、それらの意味を判定 そのデータを用いてスコアづけ という事ですね。 テキストの構造を解析する方法は形態素解析がベストなんでしょうか? 個人的には形態素解析は使いたくないのですが。 なぜなら、WEB上のテキストには充分に性能を発揮しないと思うからです。
>>166 >テキストの構造を解析する方法は形態素解析がベストなんでしょうか?
個人的な見解だとYes。品詞情報を使えるのも大きいと思う。
N-gramを用いる方法もあるけど、検索結果にノイズが混じりすぎる。
もう一つ、漏れが学生時代に試したので、
「文字種のつながりで単語を認識する」ってのがある。
アルファベット、漢字、カタカナが連続して出てくるものは同一単語としてみなすだけ。
「キーワード抽出だと、NTCIRのNEタスクの論文なんかが参考になるかも。」
を例に挙げると、"キーワード"、"抽出"、"NTCIR"、等が該当する。
2chのログには有効かもしれん。(藁
>>167 むしろだめだ。
イ`
とか平気で出てくる。
たとえばgoogleで検索した結果のページに多く出てくる単語で 検索結果の最大公約数をとると 知りたいことが網羅されたページが出てきそう。
ちょっと場違いな意見だけど、何か検索した時に 『他の人はこのような単語も検索しています。』 っていうのが有るとたまにうれしい。 【データベース 設計】で検索した時に【正規化】もよく使われています。 ↑こんな感じで。
173 :
デフォルトの名無しさん :03/04/01 18:24
ロボット型の良い所とディレクトリ型の良い所を合せて ロボットで拾ってきたデータをカテゴリ分けするってのはどう? カテゴリ分けはできれば半自動(自動+手動)になるかな。
>>172 Lycos が昔やってたけど、
必ずしも他の人にとっても意義のあるキーワードとは限らない
という結果に。
>>172 キーワードチャンクですね。ありましたね。これはAND候補ですが、
同義語をORの一括検索なんて如何でしょう?あまり意味ないかな?
例えばですが、 アメリカ なら米国やUSAやamericaものいずれか
でも良しとするのような。これは同義語シソーラスがあればあまり
面倒なアルゴリズムは不要で実現可能ですが。
>>177 "Query Expansion" でぐぐってみ。
179 :
デフォルトの名無しさん :03/04/01 23:59
>>99 >同義語をORの一括検索なんて如何でしょう?
??
infoseekさん、これ以前からやってたでしょ?
180 :
デフォルトの名無しさん :03/04/02 05:49
知ったかバカの99
181 :
デフォルトの名無しさん :03/04/02 12:27
はったりっぽい
183 :
デフォルトの名無しさん :03/04/02 18:07
くだらない煽りに、自分で自分を擁護するなんて・・・ よっぽど精神レベルが低いんだろうな(ププ
……荒らさないでね。
googleのテキスト広告が1クリック500円以上する罠。
>>180 はぁ、そうですか。そうまで言われて知ってること話すの馬鹿らしいのでもう
書き込みやめておきますね。お邪魔しました。
>>187 一週間もすればあぁいうバカは少なくなるから、そのころにまた。
189 :
デフォルトの名無しさん :03/04/02 23:28
プ
190 :
デフォルトの名無しさん :03/04/02 23:35
書き込み内容で厨を黙らせられない香具師はすっこんでろ。
193 :
デフォルトの名無しさん :03/04/03 00:58
194 :
デフォルトの名無しさん :03/04/03 01:25
意味ある発言のできないやつは消えてくれ 俺もなー
195 :
デフォルトの名無しさん :03/04/03 01:35
196 :
デフォルトの名無しさん :03/04/03 01:56
ここはネタスレですか?
>>196 いや、良スレの卵です。
食べごろなので厨が集まりましたが、生まれてしまえば大丈夫です。
そっと見守って下さい。
今、俺、酔ってます。
198 :
名無し@沢村 :03/04/03 09:03
おまいらよ、「肉を抉る 尻」というキーワードで検索した場合、不要なサイトというのは何だ? つーか「肉を抉る 尻」というキーワードで検索した場合おまいらの知りたいことというのは何だ? おまいらよ、おれは「肉を抉る 尻」というキーワードで検索してみたが、ずいぶんどうでもいいサイトばかりが出てきてついに知りたいサイトは見つからなかったよ。 つーか見つけるのに挫折したよ。 おまいらよ、「肉を抉る 尻」というキーワードで検索した場合おまいらの知りたいことというのは何だ?
お前の知りたいことと一致します
200 :
名無し@沢村 :03/04/03 09:25
おまいらよ、「肉を抉る 尻」というキーワードで検索した場合知りたいことというのは、「女の尻の肉を抉る」ということだよ。 だが「女の尻の肉を抉る」という文に一致する文がそのまま出ているサイトが存在する可能性は少ないから、とりあえず「肉を抉る 尻」で検索して「女の尻の肉を抉る」に期待をふくらませるのよ♪ おまいらよ、ここで問題になってくるのがまず「尻」の主体が人間かどうかだよ。 おれが検索した場合も「尻」の主体が人間ではなく製品の「尻」の部分だったサイトがたくさん出てきたからな。 おまいらよ、まず「尻」の主体が人間かどうかをフィルターにかけて調べることだよ。 つぎに「尻」の主体が人間のうちの若い女かどうかを調べることだよ。 おまいらよ、「尻」の主体が若い女とわかっただけでも、そのサイトが女の尻の肉を抉ることについて語っている可能性がずいぶん高くなるぞ!! つぎはワンセンテンスを調べることだな。 ワンセンテンスのうちに「尻」という言葉と「肉」という言葉が入っていたら、おまいらよそのサイトはもはや80%の確率で「女の尻の肉を抉る」ことについて語っていると考えても過言ではないと思うよ。 おまいらよ、このように単語同士をむすびつけて興味を割り出すエンジンつーかデータベースがまず必要で、 その興味に応じて細かくフィルターを通すエンジンが必要になるということだよ。 わかるか?
>>200 そこで検索語句から「女」が外れるところを見ると、あなたは検索初心者ですね?
シリアルを検索するときに、尻と表記しているサイトも引っかかれば高機能と言えよう
| /\  ̄フ | _|_ ─-┼- ~T~ ─┼─  ̄| /| /_ / / | \ 口コ ┌─┴─┐ |/ | /丶 / | ` 人 ∠ム ー-─ /| \ノ ( | / \ ホ  ̄ ̄ ̄ ──┐ ─┼─ ___ ├─ ── | __ /ヽヽ ─┼─ / | ──、 | フ ( \ / ̄ ̄) | |. |  ̄ \__ ○_/ ○ヽ / し  ̄ ̄ ̄ | ──┐ / ─┼─ ヽヽ _| | | | / / | __  ̄ | ̄ | | \_/ ( \ | ( ̄ V  ̄ \ |  ̄ ̄  ̄ ̄
(・∀・)
OCRだな。
あぼーん
>>200 メス豚 尻 挿入
これで検索した後、それらのサイトのリンク集を使う
セマンティックウェブのように、 オントロジー使って似た概念や連想される概念も拾えるようにするとか。
セマァウァントゥイェック
>>209 社内文書や図書館ならともかく、WWWでそういう「あいまい」検索すると、
際限なくゴミを拾う事になる。
やはり自分で考えたテキストマッチが一番。
検索語を己で考えられないような人は、検索エンジンを使わなくてよし。
日本語のページがある程度優先的に上にくるようにして
214 :
デフォルトの名無しさん :03/04/04 17:15
216 :
デフォルトの名無しさん :03/04/04 23:58
セマンティックウェブはいらないね どんなタグがあれば、どんな事ができるか? という段階でしょ。 タグは人間がつける事になっている時点で糞
一回ググってそれを表示 これ最強
1さんは、もう居ないのでしょうか?
いるけど 専門知識を持ってる人はどうもいないようで。
具体的に 「こういうアルゴリズム/システムではうまくいくかどうか」 という聞き方なら答えられるけど、 「魚は焼くとおいしい食べ方ができる」 なんて大雑把なものでは何とも言えない。 ブレインストーミングするにも、アイデアは全然出てないし。
もう一度原点に帰り、あなたの考える精度について定義しそれを実現させるためのロジックを議論してはどうでしょう?最初に「無関係な結果が多い」ことを書かれていましたが、まずはそのあたりから。
技術的な話のできる人がでてきたら、話しを再開します。 SVMとテキスト処理に関して、誰か話しますか?
223 :
デフォルトの名無しさん :03/04/06 21:07
茶筅等で解析して、類似度の高いもの同士の距離が近くなるような高次元のマップを作り、分類の基準とする。 検索結果のリンクをクリックしたあと、セッションが破棄されるまで戻ってこなかったら、検索がそのリンクによって成功したと判断し、検索クエリとページのカテゴリの距離を学習させる。 (URLではすぐ無駄になるため。)
224 :
デフォルトの名無しさん :03/04/06 21:13
前もってカテゴリを指定して検索する。 (安易だが強力では?) [v]ニュース [ ]ポルノ このカテゴリ名の抽出も自動でやれればベストかな。
225 :
デフォルトの名無しさん :03/04/06 21:28
「検索クエリのブックマーク」機能を作る。 【ブックマーク登録画面】 検索クエリ[ページランク 謎] 内容についてのメモ[ページランク機能についての調査結果] 利用者に同意を得てこの情報を利用し、検索結果の脇に表示する。 一定期間経過後は、検索結果にあわせて誰でも内容の変更が可能。 名付けて「好意の道しるべ」
Download & Search Bee
ユーザーからのレスポンスで学習したい要望はあるんですが それは難しいんですよね。 クリックする基準って、タイトルですよね・・・
あぼーん
あぼーん
231 :
デフォルトの名無しさん :03/04/09 11:48
良スレになるかと思いきや…
SVMも知らない人とアルゴリズムの話はできないよねw テキストをどう前処理して SVMやらNNの入力にするかって話でもしたかったんだけどね。 2chのレベルじゃ無理みたいだね。 いやー、残念。
こうして、1は自分の小さな殻の中に閉じこもっていくのでありました。
ここは釣堀ではありません。
というか
>>1 を騙るなら
>>1 くらい読んでやれよ。と思った。
238 :
デフォルトの名無しさん :03/04/12 14:39
SVGやNNの話題? 頼まれてもお断わりだ。 馬 鹿 が 染 つ る か ら な 。
239 :
デフォルトの名無しさん :03/04/12 14:43
SVGってAdobeの?
SVM だってば。
それにしても、
>>1 の不満がよく分からんな。
余計なサイトの具体例がイマイチイメージ沸かない。
検索結果に不満がある人がそもそも、そんなにいないんじゃないかな?
議論がループするけど、抽象化ってのは、
予め、内容ごとにページをマッピングして行くってこと?
242 :
デフォルトの名無しさん :03/04/12 18:47
>>1 はソースコードを一度も書いたことのない大学生だと予想。
どうせ検索エンジンの技術解説ページどころか、検索方法についてのヘルプも読んだためしがないんだろう。
それでクエリがクソなせいでまともなページがヒットしないのをエンジン側に責任転嫁。
冷静を装ってスレ建てするも、次第に剥がれる化けの皮。
しかも実装方法も問題点も皆目わからないので、大学で識った技術の略称を連呼して煽るだけ。
マジ使えねえなこいつ。
243 :
デフォルトの名無しさん :03/04/12 19:27
COM -.com で検索すると COM" は一般すぎる言葉のため、 検索には使用されていません とかでるけど。 これどうにかならないかな?
244 :
デフォルトの名無しさん :03/04/12 19:35
ダブルクォートしろや
SVMすら知らない奴がこんなに釣れたw 世の中バカグラマーが多いんだね。
SVMって何ですか?
247 :
デフォルトの名無しさん :03/04/13 01:15
Sugoku Violence-na Mama
248 :
デフォルトの名無しさん :03/04/13 05:24
>>1 はもう出て来なくていいよ。
それより
>>99 に商用検索エンジン開発の苦労話きぼん。(守秘義務に触れない範囲で)
その方が良スレになると思われ
249 :
デフォルトの名無しさん :03/04/13 11:21
また自作自演ですか。 うんざりです。
だからぁ、SVMって何なのよ。
251 :
これぐらい自分で調べろ :03/04/13 11:49
まあサポートベクターマシンとかニューラルネットとか利用した 検索エンジンなんて作っても、遅くて誰も使わないだろうな。
>>1 は妄想がお好きなようだ
おそらっく完成もしないし
誰も使わない罠
市ね
254 :
デフォルトの名無しさん :03/04/13 15:17
シソーラスを検索傾向から自動的に生成していく 検索エンジンってどうかなあ 同じ時期に同じユーザーによって連続して検索された 言葉は相関の高い可能性が高いということで
googleとかlycosとかのサーチエンジンでヒットした上位サイトを 集中的にアクセス(ネット上に分散した端末総動員)してヒット率を ゆがめる。後は下位のサイトのサーバーをアタックしてアクセス率を 下げる。これで完璧。
257 :
デフォルトの名無しさん :03/04/13 18:51
メタサーチエンジンという言葉も知らないバカがいるな・・・ >まあサポートベクターマシンとかニューラルネットとか利用した >検索エンジンなんて作っても、遅くて誰も使わないだろうな。 すごいバカがいる・・・ こんなバカがいるとは・・・
>>256 2chに書かれた時点で公知の事実では とマジレスしてみるテスト
259 :
デフォルトの名無しさん :03/04/14 01:49
上の方でDBの話題が出てたけど、 RDBMSがダメとなるとどのような形式のDBになる?
検索システムの勉強で、とりあえずManagingGigabyte読んでみたり。
アルゴリズムの類よりも、ハードウェアトラブルの方が興味あるなぁ。 googleは10000台以上のPCを使ってるって話だけど、1日に何台故障してんだろ?
262 :
デフォルトの名無しさん :03/04/14 05:46
>>1 何をもって厳選されたと判断する?それは個人の主観によるだろ?
感性について人間に遥かに及ばないPCにそれが可能と思うか?
プログラマならそのくらいわかるだろ?
クラスターだから 一台くらい壊れても兵器
平気か平気じゃないかの話じゃなくて、故障率に興味があるってことでしょ。 クラスタだなんてツネシキ
故障率なんてハード固有の問題でクラスタと関係ないじゃん
ないだろうね。 それだけの大規模な運用の実例が知りたいってだけでしょう。
文字の出現位置の距離を指標にいれてるエンジンってあるんだろうか?知りたいです。
268 :
デフォルトの名無しさん :03/04/14 21:07
>RDBMSがダメとなるとどのような形式のDBになる? 質問の意図がわからないけど、 RDBを自分でプログラム書いて作る事はできるよね? mySQLなどの汎用RDBというのは インターフェースとしてSQLという形式のフォーマットで データを出し入れするわけだ。 でも、自分で作るならSQLにこだわらなくてもいい。 データ構造も自分の好きなように作れる=好きな型を作れる。 こうする事のメリットは ちょっと速くなることと、 DBを作る苦労をすれば、DBを操作するオペレーションが わかりやすい物になる事。
269 :
デフォルトの名無しさん :03/04/14 21:07
> 何をもって厳選されたと判断する?それは個人の主観によるだろ? 個人の主観の平均値でいいんじゃ?
>>267 実際のどのシステムで使われているかどうかは知らんが、
その手の論文に言わせると、使われているものはよくあるらしい。
271 :
デフォルトの名無しさん :03/04/14 23:05
類義語のほうがヒット数多いときは、そっちも候補として表示してほしい。 このまえ専門用語で検索してもヒットしなかったんで、略語で検索してみたらイパーイヒットしたよ。
>>264 協調フィルタリングなど、その辺をくみ上げようという考えもあるけどね。
>>271 汎用エンジンだと類義語って判定が難しいんだよね・・・。
専門分野によって同じ単語でも意味違ってくるし。
分野ごとにシソーラスを用意して、インデキシングのときに
文書をクラスタリングすればいけそうだけど。
274 :
デフォルトの名無しさん :03/04/15 18:41
>>268 なるほど。
このスレの話の流れからRDBMS自体が検索エンジンのDBには
向かないのかなぁと思ってました。
>>274 正規化の考えを取り入れることはあっても、そのものを使うことはあまりないかなぁ。
最近はデータベース界も新しいアルゴリズムの発表とかあって、
それらを実装して実験しなくちゃいけないのだけど、時間が足りないもそ
。
276 :
デフォルトの名無しさん :03/04/15 23:40
>>274 RDBを使っているケースのほとんどが
データ検索をRDBに任せているけれど
サーチエンジンの場合は
データ検索アルゴリズムを考える事が肝であり
そこを工夫しないと、とんでもない事が起こる。
277 :
デフォルトの名無しさん :03/04/16 00:39
とりあえずnamazuを改造してみたら? namazuのクラスタなんとか検索とかランキング検索パッチとか実験で作ってる人いたじゃん。あんな感じで
278 :
デフォルトの名無しさん :03/04/16 01:21
>>276 どんなとんでもない事が起こるのでしょうか?
279 :
デフォルトの名無しさん :03/04/16 01:24
>>267 Google はページ内での各キーワードの位置も重視します。
Google の結果は、ユーザーが指定したすべてのキーワードを含むだけではなく、
そのページ内でそれらのキーワード間の近接度も分析します。
他の多くのサーチエンジンとは異なり、
Google ではキーワードの近接度に従って検索結果の順位付けを行います。
キーワードが近くに一緒にまとまっている検索結果ほど優先されるので、
関係のない結果を排除する手間を省くことができます。
280 :
デフォルトの名無しさん :03/04/16 01:50
MySQLはFULLTEXT index張れば全文検索バリバリっすよ。 RDBMSで十分っすよ。
>>267 昔のlycos とかだと スーパーサーチで明示的に指定できたと思う。
つか、その頃の感覚では、そういったオプションは珍しくなく感じてたので、
他の検索サイトも似たようなオプションがあったかも。
# この辺の感覚は昔に戻ってほしい…
ま、今は明示されてない&他の評価方法も強い、ってな感じで目立たないだけと思うけど。
282 :
デフォルトの名無しさん :03/04/16 14:42
>MySQLはFULLTEXT index張れば全文検索バリバリっすよ。 >RDBMSで十分っすよ。 1ページの平均走査時間を100msecとしよう。 googleには 3,083,324,652 だけページの数がある。 従って 3,083,324,65200msec 3,083,324,65sec 5138874min 85647h 3568day 10year 従って、indexを作るのに10年かかる
>>280 Indexingももちろんですが、問題はクエリ処理の方が大きいです。
日本語をバラしてtoken作ると10億通り以上になるんです。これに
URLが紐付いてるわけです。URLはもちろん文字列で持ってたら破綻
するのでhashします。tokenもね。これを0.1秒とかで同時に検索要求
を受けて処理するには・・・おわかり頂けますよね?
私は某大手携帯サイト向けにDBとネットワーク設計の提案(受注できま
せんでしたけどね。)に携わったのでその負荷計算しましたが、商用
のWeb検索ではRDBMSでは非現実的です。
284 :
デフォルトの名無しさん :03/04/16 20:59
個人レベルでサーチエンジンやりたいっていう場合に 使えるパッケージはnamazuくらいしかないの?
285 :
デフォルトの名無しさん :03/04/16 21:23
サーチエンジンやるためのフリーウェアなんてないよ namazuは全文検索ができるだけ
286 :
デフォルトの名無しさん :03/04/16 21:44
>>283 じゃあやっぱりRDBMSってダメなんか。
287 :
デフォルトの名無しさん :03/04/16 21:45
ロボット部はともかくとしての話で
>>286 目的如何ではダメだということです。
というか、DB構造自分であれこれ試行錯誤しながらコアな検索部分の
ロジックを考えるのが醍醐味なので何故RDBMSに固執するのかが私には
あまりよく理解できませんので一概に否定するつもりはありませんけど。
ところで、ここは、「超高機能なサーチエンジン」を作るスレですよね?
原点に帰り「超高機能な仕様」を決めませんか?シソーラスっぽいギミック
的な部分より、まずコアな仕様として、
1. Web情報収集(クローリング)
2. Indexing , Scoring
3. 表示
に分けて議論しませんか?前提として1億URL程度を対象とする。1秒間に
100クエリ程度。この条件では如何でしょう?某携帯の場合の想定は1000ク
エリでしたが。
sufary は駄目かなぁ(個人利用)
例えば 1. Web情報収集では ページ毎の更新頻度はマチマチですよね?また明らかにニュースサイトの ようにPRが高い上に更新頻度が超高いURLを別DB化し他のURLとは別に高速 巡回しindexing & mergeする際、それをどういうロジックによって認識さ せるのが吉なのかとか、どう思います?httpgetで返してくる更新日って webサーバーによって違うので正確じゃないし、かといってファイル自体の dateを拾うとすれば負荷がかかる。またニュースサイトであるという認識も 完全自動は難しく人手が必要ですが、何とかロジック化できれば、何段階か の巡回頻度別にDBをわけることでより効率よく最新のWeb情報を反映できるの ではないかと思います。
て言うか言い出しっぺは何処よ? 偽られるのが嫌なら、トリップ付けて出て来いよ。
>>289 SUFARYのページ死んでない?
Saryにやられてしまいましたか。
言いだしっぺは俺だけど
サーチエンジンを作ろうといった時
おおまかに2つの方向性が考えられるわけだ。
1つは
1つの具体的な目標を設け、既存の技術を使って、それを実装する。
もう1つは
1つの抽象的な目標を設け、新しい技術を開発し、それを実装する。
俺は後者をやりたかったわけ。
1に書いてる事はもちろん謙遜で言ってる。
>>283 が言ってるのは前者だよね。
それほど興味が無いというのが本音。
>>291 だから、トリップ付けてくれよ。。偽が湧いて荒れるから……。
>>283 はぁ。。僕、厨房なのでまだ何が大変なのか良く分からないっす。
1台で全部やったら大変でしょーけど、ぐぐるみたくクラスタ使って
パーティショニングすれば1台あたりのページ数はずっと小さくできますよね?
並列に処理すればindex時間は短縮できるし、
1台で扱うtokenの数もずっと小さくなるんじゃ?
それはRDB使うか専用DB使うかとは独立に作り込む部分だと思うっす。
>>296 いや、目標はいつだって具体的じゃなきゃだめだろ。
ブレインストーミングがしたいだけならいいが。
299 :
デフォルトの名無しさん :03/04/17 00:46
>>294 気持は分かるぞ。今更googleと同レベルのもの作ったってしょーがねーしな。
>>297 google が全部でどれだけのコンピュータを使っていると思う?
万単位で持ってるとか聞きましたが正確には何台ぐらいあるんすか?? 仮に1万台に分散して良いなら1台当たり30万ページ載せれば 30億ページindexできちゃいますよね。 30万ページならMySQLでも十分イケそうに思います。 秒間100クエリぐらい楽ショーじゃないすか? SCoreとか使って1万台ぐらいのクラスタ組めるんでしょーか?
303 :
デフォルトの名無しさん :03/04/17 02:05
サーチエジソンならなんとか・・・
304 :
デフォルトの名無しさん :03/04/17 09:55
>>303 くだんねーこと書くから流れが止まっちまったじゃねーかゴルァ!
>いや、目標はいつだって具体的じゃなきゃだめだろ。
具体的な目標は、発想の幅を狭める。
言い方を変えれば、
計画通りに技術を開発する事は不可能。
偶然できた技術を柔軟に使いこなす事が大切。
>>302 前文検索するシステムを作りたいのか?
それともサーチエンジンを作りたいのか?
どちらにせよ、相当慎重に作らないとね。
例えば、「あ」というものにマッチする文書を検索したら落ちるよ。
1万台で秒間100クエリで
1台あたりの平均データ通信量を1kとした時
マスターになってるマシンは、一秒間で1Gのデータを処理するわけだ。
306 :
デフォルトの名無しさん :03/04/17 19:40
インデックス貼るとかのほかにさ、日本語と英語ではあいまいさの扱いが違ったり することも考えてね。namazuのワード単位検索は辞書命だし。これだけみんなが しのぎを削ってるのだから、一筋縄ではいかんと思ったほうがいいよ。
>1 何か完成させた事ある? いつも妄想だけで終わってない?
>>307 > 支離滅裂ですな。
そうなんですか?
僕はさすが1さん、と思いましたが。。
まず
>>1 はトリップつけろ。
google並みの検索サイト作るには、
1万台規模のクラスタリングマシンが必要になる。
もうこの時点で、このプロジェクトは破綻してるわけだ。
しかし実装うんぬんは別として、現状の技術(例えばNamazu)について
このスレで知識を深めて、
Indexingするときに一工夫いれた電気Namazuとか作れないだろうか?
>>1 私は単純に、「超高機能な」をもう少しdiscussionして頂きたいですね。
特にあなたの意見をもっと色々お聞きしてみたいですね。
みなさんへ
「1つの抽象的な目標を設け、新しい技術を開発」これ前に進めませんか?
抽象的な目標が超高機能だけでは少し広すぎて散漫になり過ぎませんか?
それとももう少し好き勝手に語り合った上で意味のありそうなトピックを
抽出して適応できる技術を掘り下げてみるとか?
>>280 ということで、このスレは既存技術について語るスレではないので、もし
何故?を掘り下げたい場合は別の場があればそちらに詳しくレスします。
312 :
デフォルトの名無しさん :03/04/17 21:44
つまり
>>1 はアイデアも無しにスレをたてた夢想家だった、というわけですね?
>>312 そう言わずに。夢想でもいいじゃないですか。もしここから第四世代の
検索エンジンが生まれるなら、それはそれで素晴らしいことですから。
>google並みの検索サイト作るには、 >1万台規模のクラスタリングマシンが必要になる。 従来の方法では確かにそうだが、 画期的な新しい方法でその常識がくつがえされるかもしれないだろ。
>>314 アホですか?あなたは。
アメリカを始めとする世界中の企業やら大学の頭のいいやつが、
毎日毎日、頭を使って検索の事ばっかり考えてるんだぞ。
今この時間にも、検索エンジンのエキスパートが、
頭をフル回転させて新しい技術は無いか知恵をしぼってるんだよ。
ここで理想論をチマチマ話して、そんな画期的な事ができるわけねーだろ。
1万台規模のクラスタリングを素人さんが、ちょこちょこっと考えて大幅に減らせるわけねーだろ。
世の中なめるのもたいがいにしろ。
>>315 まぁ、確かにそうかもしれませんが、この場はビジネスではないし、
空論で終わる可能性が極めて高いけど可能性自体と否定することも
ないのでは?
あぼーん
>>317 どちらにしろ、いきなり全世界規模の HTML ファイル数を考えるから破綻しそうになるんだよ。
始めはこつこつ、数万ファイルくらいから始めるがよいだろうね。
ちなみに、インターネット上のデータは、半年で2倍になっているらしいね。
これは HTML,XML 以外バイナリデータも含んでいるけど。
ムーアもびっくりだ。
320 :
デフォルトの名無しさん :03/04/17 23:15
マシン台数でGoogleに勝つには、 P2Pでインデックス情報とページランキング情報を交換し合うくらいしか無いような飢餓。
321 :
デフォルトの名無しさん :03/04/17 23:29
天才は思いついた後、地道に考えるけど、 バカって思いつきだけで終わるよね この違いをバカは知らない
322 :
デフォルトの名無しさん :03/04/17 23:31
一般的なサーチェンジンじゃなくて、 なんらかの専門分野のサーチェンジにしとけば、 適当なマシーンで十分いけるけどな。
324 :
デフォルトの名無しさん :03/04/17 23:48
>>320 P2Pは技術的な問題もあると思うけど、どうやって普及させるかっていうのもあるよね。とりあえずapacheのモジュールとかにしてみるっていうのくらいしか漏れにはおもいつかないが....
DNSサーバーのような分散型ってのは?
・元データは何? ブラウザキャッシュ? ブックマーク+手動評価? それ以外の手動登録? まさかの個別ロボット? 単騎及び、一部専用ノードのロボット収集? ・検索処理はどこで? 鯖側 →インデックス化(全文の場合)の負荷もあわせると、 やる気なくしそう(モノによるけど) 蔵側 →流量大目(モノによるけど) ・クエリ先は? 全体 →なんか効率わるそう クラスタ(winny みたいな自己申告クラスタワードの塊?) →量少ない? なんか、全文型より評価付き共有ブックマークの方に思考が流れてしまう…。 ロボ使うと難易度と手間が…。
326はP2Pでやる場合をホゲーと妄想したものでつ
>>324 楽しくなきゃ普及しなそうなので、winny の BBS に相乗りしちゃうクライアントにするとか。
328 :
デフォルトの名無しさん :03/04/18 17:59
> そこで、そこそこ時間はかかるけど > 結果は厳選されているそんなサーチエンジンを作りたいと思う。 3フェーズ敵対型サーチエンジン 「ハヤブサNG」 "HAYABUSA Next Generation" 【アルゴリズム】 入力:キーワードX ↓ フェーズ1 (try)キーワードXでgoogleし、ダメっぽいサイトAを抽出する。 ※抽出精度は低くても良いが、誰が見てもそこそこダメっぽくなければいけない。 ↓ フェーズ2 (throw)2chにスレッドを立てる。 ※例 「Xに関してはサイトAが一番。他はクズ。知らないヤシはヒキコモリ。」 ※このアルゴリズムが敵対型と呼ばれるキモのフェーズ。 ※板の選別や煽り方に熟練を要する。 ↓ フェーズ3 (catch)適当な時間が経過した後でレスを回収する。 ↓ 出力 【問題点】 日本語以外が不得意(全くダメというわけではないが)
検索する度にスレが立つか
自前でサーバーイパーイ用意するより、GoogleAPIを利用した方がずっと安価だな。
グッジョブ
333 :
デフォルトの名無しさん :03/04/19 11:38
>>331 成功するかどうかはどうでもいいが実際に運用してほしいなぁ。
すっげー気にNULL
∧_∧ ( ^^ )< ぬるぽ(^^)
∧_∧ ( ^^ )< ぬるぽ(^^)
337 :
デフォルトの名無しさん :03/04/21 01:10
から揚げ
338 :
デフォルトの名無しさん :03/04/21 21:35
339 :
動画直リン :03/04/21 21:36
>>326 共有ブックマークというとblinkとかいうのがありませんでしたか?
最近あまりきかないので盛り上がってないのでしょうか。
blogの基本はリンクに対するコメント、という捉え方が正しいなら、
ある程度大きなblogのコミュニティの集合があって、
それをカバーするそれなりに強力な検索エンジンがあれば
共有ブックマーク的なものになったりしないでしょうか?
326さんは何かアイデア(や妄想)をお持ちなのでしょうか。
一文、奇数個の否定形、組み合わさるとネガティブになる組み合わせの言葉・・・ ・・
343 :
デフォルトの名無しさん :03/04/23 20:50
元気だけど 学校が忙しくてね
345 :
デフォルトの名無しさん :03/04/23 21:56
>>1 いっそのこと、メタでやってみたら?
スコアリングとか、詰めていけばけっこう面白いかもです
vivisimo愛好家より
vivisimoか 漏れも使ってるよ スレ違いsage
347 :
デフォルトの名無しさん :03/05/05 13:08
ところで普通のサーチエンジンっておまえら作れるの?
348 :
デフォルトの名無しさん :03/05/05 14:47
ファイル共有ならぬブックマーク共有 + ページランキングならぬリンクランキング 厳選されたブックマークが得られそうな予感
349 :
デフォルトの名無しさん :03/05/05 15:48
ひとまず日本語について勉強しなきゃなぁ・・・ たしかに プログラミング VB って検索して出てきたホームページ行くと 日記とかに出くわしてやる気が失せるときもあるしなぁ。 たとえばキーワードで検索した後、その人がどのホームページに何分いたかを調べて、 たとえば5分以上であれば、まぁいいサイト。5分以下だと悪いサイトって感じにするのもイイって あまり技術もない俺が何も言えんが。 しかもこれじゃストーカーみたいだ・・・ あとはtitleタグだけで検索するとか。ある程度タイトルは厳選されているから。 ただこれも画像で済ませる人がいるから無理か・・・
検索エンジンは昔から、誰かが新手法を考えると、 その新手法を逆手にとって訪問者を増やそうとする人間がノイズを増やして 結局新手法が役に立たなくなる、という歴史の積み重ね。 手法や閾値が公開されていない手法が最善の手法なんと違いますかね?
高機能かどうか分からないが、 n-gram WebPage を無制限に拾っても、結果表示一秒以下。 テキストマッチが最後には重要... 単なるテキストマッチはスパムに弱いか
こんなスレがあると、今はまだ言えないアレやソレを書きたくなっちゃうから さっさとDAT落ちしろよ。
353 :
デフォルトの名無しさん :03/05/06 07:15
2ch ブラウザ程度の規模で、ログのキーワード検索をする上で参考になるようなページはありますか?
>>349 >あとはtitleタグだけで検索するとか。ある程度タイトルは厳選されているから。
今でもというかずっと昔からtitle:を付ければ可能なのだが。意外と種々の検索式は
知られていないようだ。
つか、最近検索式って目立たなくなったよね。 フレッシュアイの検索博士がいつの間にか復活してて、ちょっとうれしかったり。 中身TOCCだけど。 かんけいないけどさ。
ほとんどのユーザは検索式を使った検索をしないからね。
>>358 そうなんだよね。しかも1word一発で最上の結果を要求される。
その実求めているものは違う。
アイドルの画像、アダルトサイト、公式サイト、掲示板のスレ・・・
入力されたwordから完璧に自動判別できれば、勝手に内部でフィルタかけたりできそうだって考えて実装研究したんだが、結構うまくロジックにならないんだよ。
大勢のニーズの最大公約数を満たすスコアリング手法がPageRank TM 以上のものを見つけたいと思ってるのだが難しいね。
誰かアイディアないかな?
359 :
デフォルトの名無しさん :03/05/13 20:57
Webをカテゴリ分けしたいんだがそうゆうサービスってどこかやってる?
>>358 流石に「アイドルの画像」だけで期待している結果が出たらまずいだろ。
深田恭子を見て「かわいい!」と喜ぶ奴もいれば、「でぶ?」と思う奴もいる。
言葉は同じでもそれぞれの人間が期待している内容は全然違うってこと。
だから、「入力されたwordから完璧に自動判別」てのは根本的に無理、不可能。
で、ここからが本題。
ユーザ向けに自動でカスタマイズされてく検索クライアントなら何とかなりそうだろ。
検索自体はgoogleAPIを使うとして、検索式を自動で補完する仕組みを考えてくれ。
>>1 すまん。
何だかログを見てたら自分で作った方が早いような気がしてきた。
とりあえず、全自動カスタマイズは後回しにして
filetype:とかsite:とかを工夫してみる。
2ちゃんねらーだったら、site:2ch.net が自動的に付くわけですな。
とりあえずメモ。 ・advanced_searchの項目は全部GETのq=以下で送っている。 APIは無くてもいい。URLに直接書いても動く。 ・advanced_searchでは同じextのOR検索は選べないが、 "filetype:pdf |filetype:ppt"と直接いれれば可能。 しかし、"filetype:pdf|filetype:ppt"とすると "pdf|filetype:ppt"を拡張子とみなされて失敗。 パージングの条件が変わるらしい。 ・phrase検索のときword-wordとword=wordや"word word"の結果が違う。 何故?
googleAPI使ってる時点で負けだな。 つーか考え方自体が全然ダメ。 検索式の自動補完なんてやったってユーザーは喜びません。
>>366 さて、それはどうだろう?
話の腰を折るのは止めて、とりあえず、結果を待ってみてはいかが?
念のために言っておくけど、漏れは360じゃないよ。
さらにメモ。 ・googleは日本語の助詞を正しく取り除いていない。 ・クエリの q= に直接日本語を打ち込んでも検索できた。 googleAPI関連のドキュメントより。 ・日付制限 q=searchword+daterange:2452122-2452234 ジュリアン日付で一日単位で制限できる。 ・検索範囲の制限 lr=lang_ja|lang_en restrict=linux.conutryUS 言語やトピックの制限にもブール演算が使える。
371 :
デフォルトの名無しさん :03/05/16 15:33
やっぱ最強の検索エンジンは人力だと思うよ。
文脈自由文法か正規表現に対応してほしい。
タグを抜いたページのキャッシュをバッチリGETし鯖に保存して置き、 それを次回クロール時から1バイト単位で重量比較監視する。 重さに変化が見られれば、検索結果にそのページを表示させる。 つまり、初出URLは一度目からは検索対象にしないということ。 半年間変化が無いものは検索側の結果表示から排除する。 その後も監視しつづけ、また変化があれば検索に載せる。 つまりWWWCを数十億ページ単位でやるような感じ。 人がやって数百も無いページ数でも管理が大変なんだから、 それをいかに自動化させるかが問題。とにかくハードが大変。 --よいページとは随時更新され続けるページのことである-- by 名無し語録
訪問数と時間軸が波形になっているもの 周期が安定、 ほし
>>374 ますます日記サイトのヒット率が上がる罠。
>>376-377 んぁ 確かに。
自分でも普段から検索に個人の日記が引っかかることが
鬱陶しいと思っていたことを忘れていた。
でも良いサイト(ページ)は土日祝日以外は毎日更新しているところだと
思うんだよね。それを評価基準に生かせないかと
379 :
デフォルトの名無しさん :03/05/17 12:03
だから今の検索エンジンがどんなに性能アップしようと Webのカテゴリ分けができないとノイズが減らないのよ。
同じ単語検索もその周りにある文字の象意によって表示 をかえる
>>378 ただ、日記の中にも、公式技術文書にはそんざいしない、
その個人特有の環境に基づく役立つ技術とかあって、完全排除は困る。
>>379 のような分類後に、選択が可能でないと。
例:
・Unix系OSの作業でとらぶったときに
・ある商品の評判・評価・とらぶる例を知りたいときに
>>378 更新頻度でサイトの質を測る、という考え方には同意できませんね
放置されてる学術論文とか、web上には有意な情報が多く埋没してるので
>>383 ここで2件目で他には書きませんのでそこを何とか……駄目ですか……。
386 :
デフォルトの名無しさん :03/05/18 05:16
>>382 gooの中の人に言ってるのか?こんなとこ読んでないと思うぞ。
MT=以降をEUCでURLエンコードすれば済む話だ。
あと、あまり高頻度に巡回すると嫌われるから気をつけろよ。1分ぐらいは間隔を空けてやれ。
単語のカテゴリ分けするの
388 :
デフォルトの名無しさん :03/05/18 09:14
マルチポストマルチポストっていってるやつってストーカーだよな.きも.
392 :
デフォルトの名無しさん :03/05/18 12:01
>>1 余計だと思うサイトが一致しない限り、
うまくいかないだろ。
てか、Googleは出るサイトが多い。
yahooは出るサイトが少ない。
この差のできるわけを勉強してこい。
そしたら、そんな都合の良いものできないわけがわかる。
393 :
デフォルトの名無しさん :03/05/18 12:50
できないと言うだけなら、バカでもできる。 難しい問題に対して、何かアイディアを出す事に挑戦するのが 平均以上の知性を持った人のとる行動だ。
394 :
デフォルトの名無しさん :03/05/18 12:52
例えば あらかじめ100個の質問に答えておく事で ユーザーの特性を把握して 検索結果を表示する事もできるだろう。 どんなサイトを訪れているかを調べる事で、 ユーザーの趣向を分析する事もできるだろう。
>>394 で、その個人情報は転売されるという訳でして(-人-)
AllTheWebが最近始めた「クラスタ分け」を、上手い具合に進化させる事が出来れば良いんですけどねぇ
>>395 個人情報での filter は利用者側が持つ、って形にすれば転売は避けられそう。
今どきの PC なら、それなりに処理能力ありそうだし。
>>396 検索者側のムラをどう処理するか…
sageの日もあれば、ageの日もある(w
調整バーが必要?
仕事が一段落付いたので復活。 google検索式の入力補完はjavascriptで書いた。 全く複雑なことをしていなくて恥ずかしいが、 欲しい人がいれば上げる場所を用意してくれい。
399 :
デフォルトの名無しさん :03/05/20 12:25
>>398 どんなんか見てみたいので公開してほすぃぞ。
漏れも見たいぞ。でも場所は持ってない。
402 :
デフォルトの名無しさん :03/05/20 19:23
正規表現で単語を取り出してfiletype:やsite:を付け足すというスクリプト。 とりあえず、iswebに場所をとってアップする予定。 実は3kBくらいしかないのでアップローダでも充分な気もする。 せめて類義語で展開したいのだが、無料で使える辞書が見つからない。 再配布自由の類義語辞書があったら教えてくれ、または誰か作ってくれ。
数秘術の人とファイル更新時で検索してみる
>>1 の
> 結果は厳選されているそんなサーチエンジンを作りたいと思う。
そうだなぁ。まずは誰か、『優良なページ』の定義を出来るやつはいないか?
話はそこから。
408 :
デフォルトの名無しさん :03/05/22 11:01
>正規表現で単語を取り出して 漢字/ひらがな/カタカナ/英数字/記号毎とかに分割するってこと?
微妙にスレ違いかもしれませんけど、 google で検索するときは、 User-Agent とかを設定しないといけないんですか? 501 Not Implemented エラーが帰ってきちゃうんですが。
?
414 :
デフォルトの名無しさん :03/05/24 22:12
サーチエンジンのフリーソフトってありますか?
>>414 Namazu とかのこと?
それともロボットを使ってページ集めたりもしちゃうもの?
namazu は知ってます. カスタムなクローリングとインデックス化ができるロボットがほしいです. それで,いくつかの指定したWebサーバや,指定したドメインに特化した サーチエンジンがほしいと思います. 例えば2chのサーバだけとか. サイトを限ることで,新しい情報が収集しやすいし,自分の興味に特化したり, サーチの質も自分向けにカスタム化できるといいなと思っています.
>>417 情報有難うございます.
こういうのを探してました.suzakuを試用してみます.
他にもありましたらお願いします.
俺はロボットPerlで自作したよ。
>>419 おれも作った。LWP 使ったら十数行でできた。
421 :
デフォルトの名無しさん :03/05/26 02:03
>>421 CTAN から関連ファイルとってきて perldoc すれば、概要がわかる。
指定URLから、リンク一覧をハッシュで取得できるので、
それを芋づる式にたどっていけばよい。
423 :
デフォルトの名無しさん :03/05/26 18:59
グーグルのようなページ単位のランキングって ページ全体にランキングが生じるから キーワードでフィルタリングされた状態では非常に 疎なランキングになるよね。 しかも、ページランキングの値とキーワードとの マッチングの評価が不完全になる。 そこで、検索キーワードを持ったページ同士のリンクの距離から 各ページのポイントを決定して(つまりランキングをつける前に キーワードでフィルタリングしておくような感じ)、しかも そのページのリンクからなるネットワーク空間の重みもあわせて 優良ページを決定していったら? 複合キーワードはそれぞれのキーワードごとに評価しておいて ベクトル量を計算すればいいと思うんだけど。 ダメ?
425 :
デフォルトの名無しさん :03/05/26 20:47
うぉ! 勉強になりますた。
426 :
423=424 :03/05/26 20:53
>>424 フィルタリングしたページと「さらにリンクそのもの」を評価する
って部分もやっぱガイシュツだったですか。
でそうな。誰でも思いつくか。
でも自分のロジックが実用化されてちょっとうれしいでつ。
>> 424 TEOMAを使ってみた。 期待通りのRefineが出やすい分野と出にくい分野があるのは 関連概念を抽出する方法が全自動ではないから? 面白そうだけど日本語対応は当分無理かもしれない。
>>427 そーなんですか。
特に複合語検索に対してはこれといって新しいものはないようですし。
そこが最大のハードルなんですよねぇ。
ちなみに
426で423=424と名乗ったのはわたしで、423=425の大間違いでした。
424さんめっさごめんなさい。そして有益な情報ありがとうでした。
429 :
デフォルトの名無しさん :03/05/27 17:01
luceneでつくりゃー一発だろうよ。
あぼーん
435 :
デフォルトの名無しさん :03/06/03 21:47
とりあえずageとく
結果の順位をどう並べたいかは人それぞれ、しかも場合によって同じ人でも別の結果を求めるはず。 仕事でとか趣味でとか、会社で、家で‥‥‥ なら、それら全てを見せてしまったらどうだろう? もちろん見やすい形にはする。 ヒットしたページのうち、上位ページの内容がバラバラになるようにするんだ。 ヒットしたページをさらに分類し、それぞれの分類から適当に1つ取り出せば可能。 検索結果を自動的にディレクトリ分けするという感じ。
そう言えば、どこの検索サイトも検索結果の見通しが悪いな。 スコア順とは言っても、それは検索エンジンによって勝手につけられた点数だし、 各サイトへのリンクは上から下に一列に並べられている。 リンクの先は検索によって絞り込まれているとはいえ、一列には収まらないほど多様なことは間違いない。 検索結果は最大100件程度で、リンク先を知る手がかりはページのタイトルと、 ただ引用した程度の要約だけ。 これ以外の手がかりは検索エンジンが内部に持っているのだろうが、ユーザーが知ることは無い。 結果の出し方は改善の余地があるんじゃないだろうか?
クラスタリング
このスレ読んでて自然言語解析について勉強したくなって 勉強してみたんですが、面白いっすね。難しいけど。 処理自体は機械的? だから形態素解析は辞書が全てな気がする。。。 いや、このスレの話題には直接関係しないですけど。。 すいません。では。。
>>440 いいんじゃないの?
今後の検索エンジンに望む事とか、今現在あるエンジンへの不満とか。
>>440 形態素解析は辞書が全てと言えないこともないが、
構文解析アルゴリズムも結構重要。
最近のIMは意味解析まで使うのが一般的。
ex.「本に載る」「車に乗る」を一発で変換できる。
本題に戻すとinfoseekは形態素解析を使っているのが、
「犬を食べる」と「犬が食べる」の検索結果が全く同じ。
「犬 食べる」と「犬 食べた」も同様だが、「犬 食べ」は違った。
名詞や動詞の語幹を切り出してAND検索しているのだろう。
精度と速度、データ量のバランスを考えるとこれ以上は難しいかもしれない。
444 :
デフォルトの名無しさん :03/06/11 00:45
検索されたページが実は必ずしも自分の嗜好に(思考に)合うかは? 実際に見てみないとわからない。そこで、実際にページを見てみて 好感度を個人毎に登録すべし、その登録された情報に基づき、その人 個人、個人のヒット率が上がっていくってのはどうでしょうか? 当然、ある人の好みと、また別の人の好みは似通っており、嗜好の 類型毎にグルーピングされていき、自分はどのグルーピングにに属して いるか(どんどん嗜好の濃度が濃く成っていく)によって、そのグルー ピングの人が好む検索結果が推測されて出力される。 同じ趣味の人のリンク先は、結構自分にも合うかもってことでしょう? 私が望む検索エンジンはこんな感じですかね。 (一般検索の場合にはこの嗜好フィルタをはずすこと)かな? でも、似通い過ぎて新たな発見がなくなっていったりして、、、 新規のページもヒットしなく成ったりして、、、 でも、ちょっとした工夫で面白い検索エンジンができるかもね。 では、お休みでござる。
445 :
デフォルトの名無しさん :03/06/11 00:46
>>444 何だかwinnyのクラスタみたいな気がした。
まあ、P2Pでも中央集権でもいいのだけど、それ風のフローチャート。
0.各ユーザは検索単語のリストとお勧めURL、お仲間リストを持つ。
1.検索リストが重なっている他のユーザを探す。
2.もし見つかったらそのユーザを自分のお仲間リストに登録し、
3.お互いのお勧めURLとお仲間リストを交換する。
4.1〜3をしばらく繰り返す。
5.お仲間リストの人たちの評価を元に検索結果を出す。
(2回目以降は既にお仲間リストがあるので検索が早くなる)
6.実際に検索結果を見て採点する。
無視したいURLのリストを作っておいてそれをお勧めしている相手は弾くとか、
検索単語が同じでも評価が大きく違う人は無視する仕組みが必要、と。
書いてみて思ったが、 これって検索エンジンよりもblogにかぶるのでは? 「自分の検索結果を良くする」という明快な目的があるから 高品質なものだけをお勧めするようになるだろうし。 紹介文はないけど、逆に二次情報が氾濫しないで済むかも。
blinkは公開ブックマーク集+採点って感じか、使ってみる。 以下はとりあえずの印象。 ・自分に合う人を見つけられれば最高(になると思う) ・宣伝が多い、ヒットチャートは超メジャー多数、などデータに難有り。 ・あるURLにリンクした人を検索することが出来ればいいかも。
450 :
デフォルトの名無しさん :03/06/13 03:38
ロボット禁止のページだけを探る検索エンジンとか作れば 技術とかカンケーなしに話題性十分だぞ もちろんアングラとなるがw
>>450 訴えられないか?
でも確かにrobots.txtは紳士協定だからね。
>>450 法的にどうなのか、気になるところですね
453 :
デフォルトの名無しさん :03/06/18 19:55
>>450 外道エンジン自身は、メタタグやrobot.txtで収集規制してたりしてw
明日までに作れ。
まだ1はいるのかな とりあえず何でもいいから簡単な検索エンジン作ってみれ テストコレクションは比較的小さいmedを ftp://ftp.cs.cornell.edu/pub/smart から持ってな(Webデータじゃないけど) 作ったらtrec_evalで11点平均適合率を算出汁
__∧_∧_ |( ^^ )| <寝るぽ(^^) |\⌒⌒⌒\ \ |⌒⌒⌒~| 山崎渉 ~ ̄ ̄ ̄ ̄
時間や閲覧の順路の似た人の見ているページから解析する
461 :
デフォルトの名無しさん :03/07/24 18:42
>>452 法的には問題ないだろ。
「リンク先のコンテンツには責任もたねぇぞゴルア」
とか書いとけば。
462 :
デフォルトの名無しさん :03/07/25 17:00
高級なスレはあげ.
まぁ全くもってレベルが低いわけだが つーか高「機能」って何よ?って話 QAとかも一機能なわけか?
464 :
デフォルトの名無しさん :03/07/26 00:08
>>464 >直リンお断りって書いてあっても?
断り書きがあったからどうだというのだ?
直リン禁止と書いてあっても法律的には何の拘束力も無い。
ついでに直リンは著作権の侵害にもならない。
法律 != 道徳、マナー、モナー (´∀`)
(^^)
468 :
デフォルトの名無しさん :03/08/13 01:52
>>1 は何処に?
進捗があったら書き込んでくれ。せっかくだから。
(⌒V⌒) │ ^ ^ │<これからも僕を応援して下さいね(^^)。 ⊂| |つ (_)(_) 山崎パン
google のシステム自体が、たしかギネス認定されていたと思います。
474 :
デフォルトの名無しさん :04/01/16 16:15
誰か自前でロボット型の検索エンジン作った香具師はいねーの?
475 :
デフォルトの名無しさん :04/01/17 00:10
おいおいお前等検索エンジンの情熱はなくなってしまったのか?
どっかでLucene の記事を読んだな
477 :
デフォルトの名無しさん :04/01/17 12:29
>Lucene 何ですかそりは?
478 :
デフォルトの名無しさん :04/01/17 22:59
お前等ってさーロボット型検索エンジンを使うばかりで 自らが作ろうとは思わないわけ?
このスレ置き去りかよ!
>>474 うーん、ロボット型とはちゃうが、
2chクルーして、dat収集してる。
Namazuはついでにやろうかと。
482 :
デフォルトの名無しさん :04/01/21 00:34
がんがれ。
ただいまこのスレは
>>1 の再登場を待つスレとなっております。
そんなことより誰かいないのかこのスレは。
namazu を再利用しやすいように再実装してほしいな。 公開しているページなら google まかせで良いので、 検索だけじゃなく+アルファの機能を作るための土台として namazu を使いたい。
488 :
デフォルトの名無しさん :04/02/01 22:08
namazuってデータを格納しておくDB部分は自前で実装したんだと思うんだけど すごいよね。
インデクサ部分は perl のスクリプトかつモジュールになってないので 再利用しづらいね。
491 :
デフォルトの名無しさん :04/02/09 16:49
2ch発サーチエンジンが出て欲しいage
2ch 検索があるじゃん。
494 :
デフォルトの名無しさん :04/02/11 21:47
>>419-420 perlでロボットを自作したと書いてあるけどまだそのロボットって残ってるか
>>496 このスレの419だけど、動かし方はコマンドラインから実行するだけ。
設定ファイルがあるので、そこで開始URL(複数指定可)、
何階層までリンクをたどるかなどを指定する。
他には、巡回しないURLを指定できたり、正規表現で指定もできる。
Robot.txtを見るかとか、METAタグを見るかなどの指定もある。
>>497 書いてある事を読むと今使っているプログラムに似ている。
確か名前はWgetだったかな・・・
499 :
デフォルトの名無しさん :04/02/14 13:29
>>498 クローラーなんてそんなもんだろ?別に俺は発明者じゃないし。
俺の場合は、取ってきたデータは独自の加工をしてDBに突っ込んだり
するんだから自分で作った方が都合がいいんだよ。
501 :
デフォルトの名無しさん :04/02/14 23:08
>>499 そこに書かれた本の8割は持ってる。
残りの2割も知ってる。
あまりいい情報じゃない。
>>499 書いてあるURLにアクセスして読んだけどあまりいい情報じゃなかった。
俺はよく行くホームページにあった検索エンジンのソースを変えて、WEBサーバーを構築してインターネットで
利用している。もう少しで独自ドメインを利用する予定だけど。
>>499 書いてあったURLにアクセスしたけどあまりいい情報じゃなかった。
俺はCGIの検索エンジンを毎日ソースコードを変えて利用しやすくしている。
スパイダーを組み込めばYahoo!JAPANみたいなページが出来上がるけど
4月からの正式運用までに間に合うかなと思っている(独自ドメインを利用した
検索サイトを12月から準備している)。
504 :
デフォルトの名無しさん :04/02/15 00:08
>>503 Wget使うなら検索エンジン部分はNamazuにすれば?とか思うけど。
でもそんな既存のシステムはありふれているわけだが。
>>504 ありがとうございます。と言いたいんだが今日サーバー機を作っていたら使用するM/Bに
ディスプレイをつける差込口がなかった。だから部品を買いたいんだが今月は3万以上使っているからバイト代が
もう無い・・・・・・。
>>505 Yahoo!JAPANはカテゴリ型だけどロボットも使っている(ハイブリット型と言います)。
>>506 最初はNamazuを利用しようかなと思っていたけどその時はまだ言語を覚えはじめだったから無理でした。
今は大体わかるけどまだまだ。でもCGIは作ってすぐに利用できるからCGIにした。
3月の中旬位から独自ドメインを利用するつもり(まだサーバーも出来ていない・設定もしていない・予算が無い)。
今はWindowsXPでサーバーを立てている。まだ試験運用中だから・・
http://nervnet.zive.net/ 上のURLは来月ぐらいまでしか使えない。
>>507 そのサイト見させてもらったけど、使ってるスクリプトってYomi-Search?
それとも自作かな?
CosmoNaviね。
512 :
デフォルトの名無しさん :04/02/17 11:19
・一ヶ月ごとに10億ページを取ってくること ・これらのページのインデックスを維持すること ・1秒につき最高1000回の検索インデックスを付けること ・非常に高品質ですばらしい検索結果を提供すること ・最小のコストで動作すること 目指すところは素晴らしいんだけど、これらはソフト側じゃなくて ハード側の問題だよね。
>>512 いや、そこまでスケーラブルということでしょ。
それくらいの運用にも耐えられますよということか。 ところでもう実用段階なのかな?
515 :
デフォルトの名無しさん :04/02/18 21:39
Nutchのデモサイトってある? 使ってみたいんだけど。
516 :
デフォルトの名無しさん :04/02/18 23:19
517 :
デフォルトの名無しさん :04/02/19 00:31
518 :
デフォルトの名無しさん :04/02/19 15:19
デート商法 ⇒ /| 版画 ⇒ 絵売り女(エウリアン) ⇒ 株式会社ウェディング / /.| /| アールビバン ⇒ /;;;;'ー |___ // .|フジサンケイリビング いがらしゆみこ ⇒ /;;;;;;;;;; __ ~―-、_/ 'ー | フジサンケイアドワーク /;;;;;;;;;;;;;;;;;;;;; r';; ;;ヽ.ヽ ! / r―-、 | ヽ /::;;;;;;;;;;;;;;;; |!!;; O;;!〉|llllll| |;;;; o ;;;| 〈 つ ニセメモ勧誘英会話学校 /:;;;;;;;;;;;;;;;; - `ー-‐' ||||| ヽ_ _,! | わ ⇒ /:::;;;;;;;;;;;;;;; / |ヽ_______,、 | ぁぁ シーザディー(CtheD /;:::;;;;;;;;; | | ~ | || || | | | ああ 旧名称=サンケイ /::::;;;;;;;;;;; | ー |/`ー'`ー' Vー' | | ぁあ インターナショナル・/:::::;;;;;;;;;;;;;;;;;; | | |ぁあ カレッジ)/:::::;;;;;;;;;;;;;;;;;;;; | | | ぁ /::::::::;;;;;;;;;;;;;;;; i | /~⌒!⌒) | | | /::::::;;;;;;;;;;; \ | | /  ̄l ̄| | |/ /:::::::;;;;;;;; | | / ! | | | 別会社さえ使えば /::::::;;;;;;; | | __ /| _ _ ∧_ .| | 何でもありかよ・・・ /::::::;;;;; | | | | | | |||| | /::::;;; ヽ  ̄ ̄ ̄二二 ̄ ̄ノ /〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜`ー――――――'〜
519 :
デフォルトの名無しさん :04/02/20 12:22
天下取るんだったら既存のシステム使ってちゃダメよ。
520 :
デフォルトの名無しさん :04/02/20 22:38
521 :
デフォルトの名無しさん :04/02/21 20:23
>>520 どんなシステムになっているのだろうか?
522 :
デフォルトの名無しさん :04/02/22 12:22
国産ロボット検索エンジン出てきて欲しい。
商用ならあるじゃん。虫の息だけど。
Y!Jはそのままgoogle継続だとさ
525 :
デフォルトの名無しさん :04/02/22 23:43
526 :
デフォルトの名無しさん :04/02/23 23:21
もっと日本の検索エンジンがんばれ。 Googleを超える検索エンジン作ったるっていう気骨のある 香具師はいないもんかねぇ。
スケーラビリティ面ではまず無理だからねえ。
528 :
デフォルトの名無しさん :04/02/24 02:43
AIさえあればなー でもそんなものは夢の夢だし、AIができても、CPUが相当なものでないトナー
でも結局は情報検索においてみんなの理想とすることろはAIなんだよね。
530 :
デフォルトの名無しさん :04/02/24 18:04
ロボットで取ってきたデータを自動でカテゴライズ。 検索式もないのにばっちりピンポイントなサイトが出てくると。
スノウクラッシュにいたよな。ライブラリアンって。
gooLabの精度があがれば理想に近い
533 :
デフォルトの名無しさん :04/02/25 11:01
検索エンジンの3つの答え ・カテゴリ型検索エンジン ・ロボット型検索エンジン ・人力検索エンジン
>>533 それはデータ収集方法の話で入力方法から工夫するアプローチもあるんじゃねーの
このスレは検索エンジンの中でもロボットの話でしたね。
536 :
デフォルトの名無しさん :04/02/26 10:12
人力検索のはてなはどうよ?
537 :
デフォルトの名無しさん :04/02/26 23:16
はてな、株式会社になって渋谷に移転だってよ。 儲かってんなー。
538 :
デフォルトの名無しさん :04/02/26 23:19
>>1 ってか、特許に引っかかると思うぞw
まぁ、本当に作って運営したらの話だが。
>>537 儲かってるのか!
一時は商売になってるとは思えないって意味で「日本のGoogle」とか呼ばれてたのに。
541 :
デフォルトの名無しさん :04/02/27 23:50
>>539 なんだかんだ言って今IT業界では一番熱い会社でしょ。
542 :
デフォルトの名無しさん :04/02/28 13:52
543 :
デフォルトの名無しさん :04/02/28 17:16
>一時は商売になってるとは思えないって意味で「日本のGoogle」とか呼ばれてたのに。 はてなも最初はそんなこと言われてたのか。
次世代検索サイトは「キーワード選択式」だ。間違いない。
>>546 プルダウンメニューで選んでいくってか?
549 :
デフォルトの名無しさん :04/03/01 18:10
550 :
デフォルトの名無しさん :04/03/05 19:22
あげていくぞコラァ!
551 :
デフォルトの名無しさん :04/03/07 00:02
漠然とP2Pのサーチエンジン作ろうと妄想してたんだけど。 Proxyを個々のPCに用意して、それぞれが閲覧したページを保存しておき、 それから作ったインデックスを検索するようなね。 Webブラウジングとクロールを同時に行うところがCoolだと思っていたのだが。 Nutch見たら、P2Pだと遅すぎて使えねえって書いてあったよ・・・
検索かけて一日放置、次の日に結果を見て、検索語考え直して… …っていう流れになりそうだもんね、 P2P だと。 それはそれで用途がありそうな気はするけど。 興味ある分野とかの単語いくつも指定して放置すると、毎日ずっと検索しててくれる…とか。 search engine っていうより、 bookmark の共有みたいなものになるけど。 気に入らなかったページは保存しないとかできれば、誰かの気に入ったページだけが出てくるとかもできるし。
まあ、みんな考えることはだいたい一緒だね… 串でクロールするっていっても、プライバシー対策とか偽造対策が大変そう。 スピード面は、うまく作ればP2Pでも問題ないと個人的には思う。
で、君たちは実際にP2P検索エンジンを作り始めてるの? 絵に描いた餅じゃねーだろうな?
>串でクロールするっていっても、プライバシー対策とか偽造対策が大変そう。 偽造対策は、うまく広まれば数でカバーできるんじゃないかな。 問題はプライバシーだけど、まあそういうのはおいおい考えていけば良いと思う。 >スピード面は、うまく作ればP2Pでも問題ないと個人的には思う。 同意。 nyなりで数秒で結果が(とりあえず)返ってくることを考えれば、そういう結論にもなると思う。 >で、君たちは実際にP2P検索エンジンを作り始めてるの? 確かにここは「超高機能なサーチエンジンを作りたいんだけど」スレだからな・・・ いいだしっぺの法則に則って、何となく作ってみるよ。 期待しないで1,2日待ってくれ。 念のため確認するけど、今のところそれっぽいのを作ってる人いないんだよね?
個人的にSQL使った全文検索エンジンっぽいの作って使ってるけど、 たいしたもんではないし、ありふれてるんで(ry
全文検索にはNamazu使ってるんですが、うまく検索できん Namazuってこんなに馬鹿だったのか・・・_| ̄|○
Estraierどうよ
Estraierは知りませんでした。 よさげですね。あとで試してみます。 ありがとう
560 :
デフォルトの名無しさん :04/04/07 00:25
561 :
デフォルトの名無しさん :04/04/07 01:28
どんなもの目指すのですか?
検索漏れが無いもの?
インデックスサイズが小さいもの?
対象とする言語は日本語のみ?
ほんとうに
>>1 が言うようにGoogleのような大規模なものを作るの?
まだ、やりたいと思ってる人はいる?
>>1 は、どこいったの?
追加: 開発言語は何を使うの? ライブラリは、どの程度まで許容する? (たとえば、C++で開発するなら標準ライブラリ限定とか)
>>1 ではないですが。
とりあえずperl + 茶筅 + MySQLで、
TF-IDF、品詞、出現要素等の組み合わせで重み付けして検索できるとこまでは作ってみたけど、まだまだショボイ
TFに対応する要素をSQL的正規化して格納してるから、インデックスサイズ爆発。
複数語指定あった時のスコア計算とかも重いー。まだまだ。
ところで。自然言語をRDFにそこそこの精度で変換出来れば、いろいろ面白いことが出来そうな気がする。
PageRankみたいな仕組みと組み合わせて、評価の学習とかもできれば。
566 :
デフォルトの名無しさん :04/04/08 19:59
webで使うんすか?
567 :
デフォルトの名無しさん :04/04/08 20:10
初っ端から開発宣言の
>>1 さん、がんばってくださいね。~~;
568 :
デフォルトの名無しさん :04/04/08 20:41
569 :
デフォルトの名無しさん :04/04/08 20:43
570 :
デフォルトの名無しさん :04/04/09 01:19
このスレは勝手に下がっていくな。
571 :
デフォルトの名無しさん :04/04/09 04:01
実験 RFCから2000ファイル抽出65MB Grepで検索25秒 2000ファイルを連結して一つのファイルにする。 Grepで検索1秒未満
572 :
デフォルトの名無しさん :04/04/09 18:15
結論 Grepが一番高機能
この下あたりにつっかえ棒入れてくれんかね?
>2000ファイルを連結して一つのファイルにする。 っていう前処理をするんだったら、インデックスを作る手間とたいして変わらないじゃん。 実用するんだったら、その連結したファイルにメタデータも付与せにゃならんだろうし。
そして索引つきファイルシステムの復活
576 :
デフォルトの名無しさん :04/04/11 20:03
>>574 まったく違います。
インデックスを使ってgrepと同じ効果を出すのは難しいです。
577 :
デフォルトの名無しさん :04/04/22 08:42
grep age
”©2004 Google - 4,285,199,774ウェブページから検索” が0xffffffff(4,294,967,295)近くで止まってるのがちょと気になる。
583 :
デフォルトの名無しさん :04/06/15 11:41
age
検索類語分子検索
585 :
デフォルトの名無しさん :04/06/27 03:24
age
586 :
デフォルトの名無しさん :04/07/04 17:59
c2004 Google - 4,285,199,774ウェブページから検索
ヽ、.三 ミニ、_ ___ _,. ‐'´//-─=====-、ヾ /ヽ
,.‐'´ `''‐- 、._ヽ /.i ∠,. -─;==:- 、ゝ‐;----// ヾ.、
[ |、! /' ̄r'bゝ}二. {`´ '´__ (_Y_),. |.r-'‐┬‐l l⌒ | }
゙l |`} ..:ヽ--゙‐´リ ̄ヽd、 ''''  ̄ ̄ |l !ニ! !⌒ //
. i.! l .::::: ソ;;:.. ヽ、._ _,ノ' ゞ)ノ./
` ー==--‐'´(__,. ..、  ̄ ̄ ̄ i/‐'/
i .:::ト、  ̄ ´ l、_/::|
! |: |
ヽ ー‐==:ニニニ⊃ !:: ト、
おれたちはとんでもない思い違いをしていたようだ。これを見てみろ。
まず「クソスレ」を英字で表記する
『KUSOSURE』
これを逆にすると、
『ERUSOSUK』
そしてこれを更に日本語に直すと
『エルソサク』
スレを立てたのが
>>1 と言う事を考えれば末尾に『クソスレ』を加えるのが当然だ。
すると導き出される解は
『エルソサククソスレ』
そして最後の仕上げに意味不明な文字『エルソサク』
これはノイズと考えられるので削除し残りの文字を取り出す。
するとできあがる言葉は・・・・・・『クソスレ』。
つまり!『クソスレ』とは『まさにこのスレッド』を表す言葉だったのだ!!
> まず「クソスレ」を英字で表記する > 『KUSOSURE』 いや、ここから間違ってるし・・・
590 :
デフォルトの名無しさん :04/08/01 02:53
382
591 :
デフォルトの名無しさん :04/08/01 05:46
©2004 Google - 4,285,199,774ウェブページから検索 もう半年ぐらいになるね。実態に合わない数字なら載せなきゃいいのに。
592 :
デフォルトの名無しさん :04/08/18 15:21
age
593 :
デフォルトの名無しさん :04/08/30 03:02
最近のestraierかなりパワーアップしてることない?
594 :
デフォルトの名無しさん :04/09/27 04:16:53
age
どんなによいエンジンを作ろうと、使用者がヘタクソだったら意味がない
Google本家はLinuxのクラスタを4000台以上使ってるだろう。 1台のPCでLinux4000台と同程度の処理が同じ時間でできるようになったら その技術を使ってGoogleは1台でLinuxクラスタ4000台のPCを4000台つないで使うわけで(略
クラスタは「台」で数えるものなのか? とか GoogleのLinuxというのはPCとは違う特定の機械を指すのか? とか
>>597 GoogleはLinux10000台以上じゃなかったっけ?全世界でかもしれないけど。
602 :
名無しさん :04/10/07 23:04:23
どうでもいいけど、このスレは「高性能」じゃなくて「高機能」を模索するとこなんでしょ?
結果がでるのに1年もかかるんじゃどんな機能も高機能とは言われない気がするぞ。 とくに検索においては。
まだ言うのは早いが いくら高精度な検索できても、待ち時間は1分が限界だなー。 検索ボタンをポチッと押したらパッと出るくらいじゃないと厳しい
607 :
( ゚д゚)ポカーン :04/11/27 20:01:52
そんな感じ
c2004 Google - 8,058,044,651ウェブページから検索 気づいたら、倍になっていた。
609 :
デフォルトの名無しさん :05/01/05 12:53:10
だれかJavaのSen使ってる人いる? RedHat9で動かしてみたところ動かんのだが、 情報が全然無いので最近のバージョンが動いた人が いれば修正なしで動いたかどうかでも教えてもらえるとうれしい [root@analyze01 bin]# ./sen.sh done.促nPlease input Japanese sentence: [INFO] Dictionary - token file = /usr/local/sen/dic/token.sen java.lang.IllegalArgumentException: Tokenizer Class: net.java.sen.ja.JapaneseTokenizer is invalid. at net.java.sen.StringTagger.init(StringTagger.java:159) at net.java.sen.StringTagger.<init>(StringTagger.java:97) at net.java.sen.StringTagger.getInstance(StringTagger.java:135) at net.java.sen.StringTagger.getInstance(StringTagger.java:102) at StringTaggerDemo.main(StringTaggerDemo.java:33)
610 :
デフォルトの名無しさん :05/01/31 13:53:06
僕も同じ状況です。 Redhat9と相性悪いのかもしれません。 antの中を調べたのですが、 token.senを作るはずなのに、出来ていませんでした。
612 :
デフォルトの名無しさん :05/02/17 13:36:32
613 :
デフォルトの名無しさん :2005/05/10(火) 01:43:46
Jwordの将来性は?? 中国では人気あるみたいけど
あれはスパイウェアだろ?
「超高機能」ということであれば、とりあえず ・活用の処理(「行く」で「行った」「行こう」「行かない」等がヒットする) ・表記のゆらぎ(「ゆらぎ」で「ゆらぎ」「揺らぎ」の両方がヒットするとか、 「独壇場」で「独壇場」「独擅場」の両方がヒットするとか) くらいは実装してくれると嬉しい。 あとは、「もみじ」で「もみじ」「モミジ」「紅葉」がヒットして、しかも 「こうよう」と読みそうな「紅葉」はある程度排除してくれるとか (少なくとも「尾崎紅葉」はハネてほすい)いった機能なんかは、わりと (技術的に)いけそうに思うが。
前者はずいぶん控え目な要求だな。 後者はちとずうずうしい要求だな。
> 前者はずいぶん控え目な要求だな。 > 後者はちとずうずうしい要求だな。 じつは前者は今日 Java で実装できてしまったのだが、 後者はサーチエンジンというものの通念から見直す必要がありそうなので ちと困っているのだ。 現在のサーチエンジンの鍵語は基本的に「マッチする文字列」なのだが、 意図としては、「検索したいページ」のイメージがあって、それに 現れそうな語を鍵語として入力しているハズなのである。 で、この「イメージ」って奴ぁとんでもなく高次元の空間上の領域で 表わされるようなシロモノなワケだが、その空間上に一様に分布して いるわけではなくて、ごく薄っぺらい(つーても二次元じゃ ないんだろうが)じつは因子分析とかで篩ってやったら、せいぜい 四次元とか五次元に落ちるようなモノでありそうな気がする。 そこで、対象ページのインデクスを鍵語じゃなくて、(四次元とか 五次元とかの制限された空間に射影された)意味空間上の 座標で作り、ユーザと対話するような形で鍵語じゃなくて 「狙いたい意味の(制限意味空間上の)位置」として得て、 マハラノビス距離かなんかの順に提示するとかいったネタを 考えたのだがどうだろうかどうだろうかどうだろうか。
618 :
デフォルトの名無しさん :2005/11/25(金) 15:42:26
バッキアゲ
619 :
デフォルトの名無しさん :2005/12/07(水) 20:32:18
で、何か進展あった?
620 :
デフォルトの名無しさん :2005/12/07(水) 21:14:16
621 :
デフォルトの名無しさん :
2006/02/12(日) 18:32:56 age