[クローラー]ロボット対策スレ[robots.txt]
msnbotもすごいやってきます。
ほかのロボットは一週間に一回ぐらいやってくるのですが、msnbotは一日一回は必ず来ます。
リンクがあるところは、更新されていないページも含めて全部。
CGIとか呼び出しまくりです(;´д⊂)
85 :
83:04/07/11 21:24 ID:???
>>84 おおっ、この記事は読み落としていました。
二回読んで更新がなかったページの取得頻度は下げて欲しいなぁ
あんなに激しく取りに来るわりには、技術プレビューの検索結果にも出てこないし (;´Д`)
msnbotはp2みたいなの動かしていると凄い勢いでスレ
を舐めていくし…
アクセスログの半分以上がmsnbotなのは勘弁してくれよ。
ひとまずrobots.txtを置く、UAを見て無効なデータを返す、
ルータでフィルタする等の対策をとってみるかな?
87 :
83:04/09/16 01:19:07 ID:???
SetEnvIf User-Agent "msnbot.*" nolog
CustomLog access_log.txt combined env=!nolog
わたしは、これで無視することにしました
>>88 /~ore/でアクセスしてきた時に404を返してやれば、そのうち来なくなるんじゃないの?
Yahoo! Slurp ってのがよく来るがヘ(゚д゚)ノ ナニコレ?
2ch型掲示板のcgiがあるディレクトリ(/test/)を禁止にしたら凄く減った。
93 :
92:04/10/29 00:15:47 ID:???
大失敗
94 :
DNS未登録さん:04/11/04 18:53:48 ID:KyJO56Ns
そうか
てす
96 :
DNS未登録さん:04/11/12 01:30:00 ID:Nh8fSwvV
ロボットは来ているのだが、Googleで検索して飛んでくる人が
最近とんと減ってしまった。なんでだろう?
YahooやMSNからの検索はそこそこ定常的にあるのに。
Googleからのもゼロって訳じゃないんだけどね。
うちのように小さなサイトは検索エンジンからのアクセスが
大切なアクセス源なのに。
原因がわかる人いる?
スパム認定かも。
あんまり同じ単語繰り返しても無視される傾向にある様な気がする。
98 :
96:04/11/13 16:16:27 ID:???
>>97 うーん、普通にいろんな日々の話題を扱ったブログを公開している程度で、
目を付けられるような動きじゃないはずなんですが…。
もしかしたら、IPアドレスの逆引きがISPのドメイン名になっている事が
まずいのかも知れないと思い、逆引き設定してくれるISPに引越し予定です。
うち、逆引きはプロバのドメイン名だけど、普通に登録されてるよ。
自分で検索してみて出てくる?
100 :
96:04/11/17 00:58:01 ID:???
自分で検索しても出てこんのです。(T_T)
そっか、逆引き不一致でも問題ないのかなぁ。とすると、原因は別のところか。
原因を探ってみます。
情報感謝です。
>>89 レスさんくす。亀レススマソ。
ずっと、/~ore/を403かえすようにしてたら、
2,3ヶ月経った今、検索結果も更新されてた。
しかし、本当に最近はmsnとyahooのbotがすごい勢いでくる。
そのせいか、更新頻度はyahooとかのほうが高い気がする。
保守
107 :
DNS未登録さん:2006/06/02(金) 00:20:19 ID:/2RXfUmf
あ
ほ
109 :
DNS未登録さん:2008/10/02(木) 01:57:54 ID:nEirrkI6
dissalowされたサイトだけ検索するエンジン作ったらヒットしそうだね!
誰か作って!
百度ひつこい
大体RFC化もされていない「紳士協定」に対して
目くじら立てるやつっておかしいと思わないか?
フリーオを問題視してる団体と完全に構図が一緒だ
112 :
DNS未登録さん:2008/11/08(土) 08:10:01 ID:oHYIhwg4
naver の Yeti というのは、naver しか使ってないのか ?
それなら、USER_AGENT で Yeti を丸ごと弾いてしまおうと思うが。
113 :
DNS未登録さん:2008/12/20(土) 20:11:22 ID:91fDHPXk
htaccessでBaiduspiderはrobots.txtだけにアクセス出来るように設定したなら、
他のファイルに1秒20回アクセスするという暴挙に至っている。
それだけでエラーログが巨大化しているw
こうなるとルータで弾くしかないのか。
114 :
DNS未登録さん:2008/12/23(火) 15:11:38 ID:aGiF1pXb
javascript使って、ブラウザアクセスでしか開けないようにしておけば良いんでない?
趣旨が違う?
俺、掲示板に広告書き込むスクリプトがウザくて使ったら、一切来なくなったよ。
こんな感じ↓
http://www.google.co.jp/ ←隠したいアドレス
-top.html-
<html><head>
<script type="text/javascript"><!--
function code(){add.innerHTML='<a href="
http://www.goog'+'le.co.jp/">隠したいアドレス</a>';}
//--></script></head>
<body onLoad="code();">
<span id="add"><a href="noscript.html">隠したいアドレスへのジャンプページ</a></span>
</body></html>
-noscript.html-
<html><head></head><body>
以下のアドレスをコピーして移動してください。<br>
http://www<span>.google</span>.co.jp/<br>
</body></html>
アドレスをブツ切りにして記載してやれば、単純にテキストを検索して来た時は見えないし。
トップページは隠すの無理だけど。
とんだ先にアフィ貼るとかそういう落ちに期待したい(^◇^;
117 :
DNS未登録さん:2010/09/27(月) 10:57:04 ID:9hieuaLl
robots.txtって、クローラはどこかのページにアクセスする際、
必ず見に来るものなのかな?
お行儀が良いクローラならね。
見る義務は無いし、見ても記述内容に従う義務は無い。
アクセスログを見ると、グーグルさんはちゃんとrobots.txtを見てくれてる
66.249.69.91 googlebotのIPらしいけど、
sshの辞書攻撃を毎日してくる。
なにそれ怖い
クレーム入れてみてくれ。
IP偽装してるだけだろ
どうやって偽装するんだ?
>>124 IPヘッダ書き換えりゃ偽装自体は出来る。
でもIPパケット送りつける事しか出来ない。
Ajaxばりばりのサイトでも突破できるクローラーってありますか?
127 :
126:2011/10/16(日) 13:33:18.84 ID:???
かんたんなDHTMLはいけても、
さすがに、GoogleMapも自動でリンクたどるとか無理ですよね?
yahooの検索結果に表示されては困る、でもgoogleやその他にはむしろガンガン表示して欲しいんだが、
そんな指定metaタグでできる?
無理ならブラウザ拡張のアドオンでもいいんだが。
教えてください。
今yahooの検索エンジンってgoogleのやつを使ってるんじゃなかった?
そこが問題なんだよなー。
なんかいい方法ないかな。
アドオン探してもgoogleのは見つかるが、yahooで検索結果から除外できるようなアドオンは無いみたいだし。
八巻正治さんについて思うこと。
いつもは宗教心あふれる教師面して"福祉とはかくあるべき"と講釈たれてるのに、
自分の気に食わないことを言われると個人的な感情全開にして、己の懐の狭さが露見するよね。
八巻正治さんは、他人には潔さを求めるのに、自身の発言には一切の責任を取らない。
これ程まで薄っぺらい人間を、他には知らない。
ニューポート大学大学院博士だけのことはあるね。
∧_∧
( ・∀・) 人 ガッ
( つ―-‐-‐-‐-‐-‐○ < >__Λ∩
人 Y ノ. V`Д´)/
し(_) / ←
>>59