検索エンジンをつくりたい

このエントリーをはてなブックマークに追加
226nobodyさん:2005/06/01(水) 15:53:26 ID:???
>>225まんまお前に当てはまるのなw
223-224は221で意見述べてるだけお前よりはマシw
227nobodyさん:2005/06/01(水) 18:56:17 ID:???
バイト探しの方が100倍建設的だろうが。脳味噌膿んでんのか?
228nobodyさん:2005/06/01(水) 18:58:15 ID:???
>>227
いいからたまには外に出ろ
229nobodyさん:2005/06/01(水) 19:04:14 ID:???
おいおい、もうオウム返しかよw 早すぎww
230nobodyさん:2005/06/01(水) 19:05:29 ID:???
>>229
オウム返しの意味もわからないで使うなよw
231nobodyさん:2005/06/03(金) 19:34:02 ID:vAHoocN8
要はブレストの段階で議論を始めると話が進まないという事かね。
つー訳で、とりあえずドンドンと意見を出して行こうぜ。素人考えだろうが
何だろうが、まずは案を挙げまくって、それから議論という事だ。

非アダルトの情報を欲して検索をかけても、アダルトの類のページが
検索にかかる割合が高い。オプション指定するだけで、キレイに検索から
アダルトを排除できる仕組みが欲しい。
逆に、アダルト検索用のオプションも欲しい。アダルトを検索にかけようと
思っても、検索にかかるアダルトサイトは殆どがクリックで目当ての小銭稼ぎ
サイトなのが現状だ。

検索の精度や抽出されるページの量を落とさずに、これらを実現できれば
嬉しい。ぬるぽ。
232nobodyさん:2005/06/04(土) 01:31:08 ID:??? BE:22589322-##
逆に、アダルトを主体的にデータ化していき、
そこにない差分データはとりあえず非アダルトということに
233nobodyさん:2005/06/05(日) 09:34:25 ID:???
>>231-232
とりあえず、俺はこの板に来たらなんか書くようにするから
他のみんなもどんどん意見を出して欲しいと思う。

んで、231の方法はmetaとかページのテキストから
アダルト関連のワードを拾うことで、アダルトサイトを
ほぼ完全排除出来ないかな?
最近のサイト制作の傾向として、1つの検索エンジンのみを
対象とした作り方はしないし、どうせYAHOO!やGoogle相手
なんだから、アダルトサイトがアダルト関連のキーワードを
はずせないし。なら、それらのキーワードを禁止指定すると
割と容易にアダルトサイトは排除出来ると思う。
234nobodyさん:2005/06/05(日) 09:38:35 ID:???
それで次のアイディアだけど、よくあるかもしれないが
それでいて大手検索エンジンで使われていないのだが
ランダム検索と、ソート機能ってあれば面白いと思う。

ランダム検索機能はテキストボックスにキーワードを入れて
「ランダム検索」のボタンをクリックすると、ランダムな
検索結果を表示する。これで下位に埋もれるサイトを
見られる可能性が増える。

次にソート機能は主にタイトルからソートをかける機能。
タイトル以外にも登録日・更新日を昇順・降順出来ることで
タイムリーな記事やサイトを表示させることが出来る。

上記の2機能はディレクトリ型の検索エンジンでも
割と容易に出来る気がする。けど、あまり見かけない。
235nobodyさん:2005/06/05(日) 10:29:47 ID:???
>>233
まぁ、言っていることは妥当だと思われ
ただ、問題なのはどうやってアダルト関連のキーワードを判断するかだね
人手で作ってちゃ馬鹿だし

ベイジアンフィルタなんてのもあるから
その応用なんだろうけど
236nobodyさん:2005/06/05(日) 16:15:38 ID:???
>>235
アダルト関連のワードってめちゃくちゃ細かいのも排除するの?
例えば、AV女優の名前とか。

とりあえず、「アダルト」「風俗」「AV」とかそういうおなじみの
ワードを省くだけで良いと思う。管理者が入力するタイプでも。
237nobodyさん:2005/06/05(日) 22:44:18 ID:???
>>236
っていうか、どこまでをアダルトと認識するかによって異なる
例えば、アダルト:アダルトチルドレンなんて様に
特定のキーワードを含む=アダルトサイト
ってわけにはいかないからね

子供向けのフィルタを作る or 特定の分野に特化する
なら話は違ってくるけどさ

ベイジアンフィルタ=めちゃめちゃ細かいものを排除する
って言うわけではないってことね
238nobodyさん:2005/06/06(月) 00:20:28 ID:???
>>237
そう言われればそうだよね。AVでもAV機器ってあるしな・・。

とりあえず、+で含まれるワードはどうだろ?
「ホームページ」「制作」でホームページ制作をフィルタするように
「アダルト」+「AV女優」とか加えてフィルタにするとか。

でも、なかなか難しそうだな。なんか騙しリンクとか
そういうのを完全排除出来る、フィルタリング対応検索エンジン
があれば、割と受けると思うんだけどな。
239nobodyさん:2005/06/06(月) 12:46:54 ID:???
>>238
まぁ、その辺を考えるんなら
既存のフィルタリング技術とかアプリケーションを
調べてみても面白いかも

有害コンテンツを子供に閲覧させないためのフィルタとかね
色んなサービスなんかあるし
240nobodyさん:2005/06/06(月) 16:24:02 ID:???
とりあえず2ch.netも全カットだなw
241nobodyさん:2005/06/07(火) 22:37:09 ID:???
参考スレ

超高機能なサーチエンジンを作りたいんだけど
http://pc8.2ch.net/test/read.cgi/tech/1048336478/
242nobodyさん:2005/06/13(月) 04:28:42 ID:???
スレが進んでるのにびっくりした。

>>223-224
企業的視点であり、自分の意見の欲しい形を言ってないとの事だが、
そうではなく企業ですでに目をつけてるものをやっても仕方ない
と思う反面で、企業体が研究している分野を否定して需要がない所を
掘り込むのもどうかと思う(企業的規模で成功するためにじゃなく、
使ってもらってフィードバックしてもらうってレベルでね)から、
注目されてる一例を出しただけであって、深いとか難しいと思わなかった。
企業的視点と読み取るのは、単語に騙されやすいのではないかと。

で、そこから「何をソースに」「どういう重み付けをするか」 について特色を
出したものが欲しいなってのが俺の意見なわけで、述べてないと読み取るのは
最初から述べて欲しい意見を想定していて、プロテクトしちゃってるから
読み取れないんじゃないだろうか。まあ、俺も>1が01年のスレで一気に具体案まで
提案するのはどうかと、大ざっぱな概念から振ったのは不親切だったと思う。
>231-233で、まずはブレストって事で決着しているが、とりあえずなにやら
へんな読み取られ方してると思ったので訂正しておきたい。

アダルト情報の排除か、それを極めると逆にアダルトの検索エンジンのコア
としても機能しそうだね。ただ、運用したらお役所に睨まれそうだがw
アダルト、アドウェアみたいなデータからNOTで弾くために、エロボットは
必要なのかも知れないな。
243nobodyさん:2005/06/14(火) 15:42:03 ID:???
>>242
すまん、「何が言いたいか分からない」
244nobodyさん:2005/06/15(水) 03:24:42 ID:???
みんなに謝らなきゃいけないことがある。

このスレのタイトルを見たとき俺は、、、、、、、






検索ニンジンをつくりたい

かと思ってしまったんだ。すまない。
245nobodyさん:2005/06/15(水) 03:46:17 ID:???
絶対に許さない
246nobodyさん:2005/06/15(水) 06:28:52 ID:???
検索エンジンにオークション的機能があっても面白いかも。
247nobodyさん:2005/06/15(水) 12:04:53 ID:???
>>246
詳しく。
248nobodyさん:2005/06/15(水) 19:00:23 ID:SDEIoMgZ
俺データベースが苦手で
エクセルのCSVを多様して検索システムをつくった
いまんとこ1000件データをいれてためしたが
結構早く検索する・・どれぐらいたえれるのだろうか・・・・
データベース俺のまえにたちはだかってやがる・・・
ショップサイトも検索サイトもすべてCSVで処理してる俺は首すんぜんだろうか・・・
249nobodyさん:2005/06/15(水) 22:08:01 ID:???
>>247
・評価機能
・指定日時が過ぎると表示されない
・ポイントに応じて表示順位が変わる(ランキング?)

>>248
DBを使ったら恐ろしく多大なデータを処理出来るよ。
PHPとMySQLが軽くて最高だと思う。

ただし、レスポンスの問題で言えば、やはりサーバと回線の
問題によるから、それらの充実が一番だとは思う。
250nobodyさん:2006/11/11(土) 21:19:03 ID:???
              緊急浮上!
          ○_○   
         ( ・(ェ)・)   < 天然記念スレをまもれ!
         /つ¶つ ¶    
     / ̄ ̄ ̄ ̄ ̄ ̄ヽ  //
人人  /       ●   ●、  ザバァ!!
   /     〇        ▼ l 人人人
  /     =      , 、_ _人_ノヾ 
人人             ノ 人人
   人人人  人人        

251nobodyさん:2006/12/01(金) 22:51:13 ID:???
Googleの検索コマンドを使いこなせば、
このスレに出てるほとんどのアイディアが実現できる気がする。
252たま:2007/02/02(金) 10:45:34 ID:QBCmJWsF

検索エンジンのPHPスクリプトを配布しているところを探しています。
どなたかご存じでしょうか??
宜しくお願い致します。
253nobodyさん:2007/02/02(金) 11:27:23 ID:???
yomi php
で検索しろ
254 ◆hb//x7qyug :2007/02/02(金) 12:12:18 ID:DuFcC87D
>>1
おもしろそう。協力しようか?
255nobodyさん:2007/02/03(土) 03:54:20 ID:???
おま・・いくらなんでも2001年の>>1にレスするのは・・・。
256nobodyさん:2007/02/07(水) 08:59:32 ID:CGn0u8gT
おまえらquery文字のパースってDBと連携してどうやってる?
googleライクに
"unko unko" -hogehoge (aaaa or "cc cc")
みたいなの
257nobodyさん:2007/02/08(木) 09:24:06 ID:???
実験でbisonで作ったパーサをモジュールの形でPHPに組み込んだことあるよ。
...めんどくさいけどね。でもPHPでパーサを書く場合でも.yの書き方は参考になる。

RubyならRacc
258nobodyさん:2007/02/13(火) 02:21:01 ID:???
ロボット検索自体を避けるように仕込んでなければ片っ端からサイトを拾ってくれるような
お行儀の悪い検索エンジンを使いたいです。
259nobodyさん:2007/02/20(火) 18:20:31 ID:???
ファイルを読み込んだ時にJavwScriptのコードを除外するいい方法はないですか?
フィルターとかあれば良いんですけど・・
260nobodyさん:2007/10/31(水) 21:21:23 ID:nkFoGGXY
259は新開発したか
261nobodyさん:2007/11/07(水) 06:37:03 ID:???
s/\<script.*\/script\>//gi;
262ギニア3世:2007/11/16(金) 21:23:24 ID:idEdN7T0
グーグルよりすごい?検索エンジン
http://www.quintura.com/
263nobodyさん:2008/06/08(日) 13:47:25 ID:oe9fgjbi
2003年から工藤智行氏が開発を続けている検索エンジン「FINDSPOT」
http://21news.cocolog-nifty.com/blog/2008/05/post_d828.html

連載:検索エンジンを作る|gihyo.jp … 技術評論社
http://gihyo.jp/dev/serial/01/make-findspot
264nobodyさん:2008/06/24(火) 02:01:34 ID:iHrl1LSI
>>5 バロスww
265nobodyさん:2008/06/27(金) 00:50:18 ID:gBJjjQVQ
携帯検索エンジン
携帯サイトおもちの方必見!
携帯で登録できるよ
http://search-k.net/jcom/
266nobodyさん:2008/12/07(日) 23:00:34 ID:WE1pXcYe
マーズフラグってなかなかいいかも
http://www.marsflag.com/
267nobodyさん:2008/12/20(土) 23:38:56 ID:WN7kdZGE
268nobodyさん:2008/12/22(月) 00:27:02 ID:9ZqbUAej
eltg33.no-ip.info
anonymouse:0123456789
Search script配布
269yamtoshi@hot .com:2008/12/31(水) 16:10:58 ID:???
検索結果にサムネを出すってアイデアも前スレにありましたが・・・

どうでしょう?
270nobodyさん:2008/12/31(水) 22:33:26 ID:MitumZi6
東京大学うぜーよ!!!!
てめーの研究室がクロールされろ!!!

crawl234.tkl.iis.u-tokyo.ac.jp
crawl234.tkl.iis.u-tokyo.ac.jp
crawl234.tkl.iis.u-tokyo.ac.jp
crawl234.tkl.iis.u-tokyo.ac.jp
crawl234.tkl.iis.u-tokyo.ac.jp

ttp://www.tkl.iis.u-tokyo.ac.jp/~crawler/
ttp://www.tkl.iis.u-tokyo.ac.jp/~crawler/
ttp://www.tkl.iis.u-tokyo.ac.jp/~crawler/
ttp://www.tkl.iis.u-tokyo.ac.jp/~crawler/
ttp://www.tkl.iis.u-tokyo.ac.jp/~crawler/
271nobodyさん:2008/12/31(水) 23:04:32 ID:???
池■田大■作の本名はソン・テチャク。小泉純一郎、小沢一朗は朝鮮人。
911では小型の水爆が使用されている。
http://ri■ch■ardkosh■im■izu.at.webry.info/
創価の保険金殺人事件。
オウム事件は、統一・創価.北朝鮮の共同犯行である。CIAが監修している。
http://www15.ocn.ne.jp/~oy■ako■don/kok_web■site/ir■iguc■hi.htm
与党も野党もメディアも全部朝鮮人だった。
http://jb■bs.li■vedo■or.jp/b■bs/read.cgi/news/20■92/115794■1306/

2ちゃんねるは統一■教会が個人情報を集めるための道具。運営には統一■教会がいる。
駅前で「手相を見せてください」と勧誘してるのが統一教■会。(カルト宗教)  
カルト宗教の下にいる人と上にいる奴を分けて考えないといけない。下にいる利用される人は上がどんなことをしてるか知らない。

ユダヤ権力の子分→2ちゃん運営=統一協会上層部=層化上層部=自民党清和会=野党の朝鮮人ハーフの政治家=
与党の朝鮮人ハーフの政治家=金 正日(キム・ジョンイル )=読売サンケイ=小沢十朗
ユダヤ人=ロックフェラー=ブッシュ=クリントン=ヒラリー=アドルフ・ヒトラー=オサマ・ビンラディン

毎日新聞スレを荒らしてる奴らも統■一教会の可能性が高い。
荒らしは洗脳するために「ネトウヨ」などのレッテル付けレスを何千回もする。
現実には「ネトウヨ」などは存在しない。
http://changi.2ch.net/test/read.cgi/ms/1230363385/
272 忍法帖【Lv=3,xxxP】 :2011/06/18(土) 02:06:04.51 ID:???
test
273 忍法帖【Lv=7,xxxP】 :2011/06/19(日) 12:32:30.89 ID:???
test
274名無しさん:2011/10/13(木) 00:52:05.66 ID:/EgVNFsq
取り越し苦労
275電脳プリオン 忍法帖【Lv=40,xxxPT】(3+0:8) 【14.6m】
          | | ガガガッ
          | |
          人
  ∧_∧   <  >_∧∩
  ( ・∀・)   人`Д´)/ ←>>53
 と    )  <  >_∧∩
   Y /ノ    .人`Д´)/ ←>>59
    / )    <  >_∧∩
  _/し' //. V`Д´)/ ←>>231
 (_フ彡        /