専用ブラウザを助けるプロクシ作らね? [転載禁止]©2ch.net
1 :
名無しさん@お腹いっぱい。:
専用ブラウザを作る訳じゃないから問題なし
2 :
名無しさん@お腹いっぱい。:2015/02/17(火) 13:37:41.60 ID:FnpFJPOQ0
すべては終わりの始まりが始まってから
普通に「したらば用」のスクレイピングツールを作ればよくね
専用じゃなきゃいいっぽいし
2ch放棄した方がマシでは
>>1 もうすでに作っている人がいる件
ためしてないけど
それで解決するならscのクロールは止まらんだろ
HTMLは難読化されるやろなぁ
8 :
名無しさん@お腹いっぱい。:2015/02/17(火) 16:07:08.51 ID:acSeWK190
またいちだんと負荷が増えるねw
11 :
名無しさん@お腹いっぱい。:2015/02/17(火) 17:56:30.05 ID:K8XLGPeJ0
ここで言うのもなんだけど、専ブラをブラウザの振りをするように書き換えたほうが早くね?
プロトコルもフォーマットの元仕様も決まってるんだし。負荷は更にエライ事になるが。
あとはアレだな。そうなるとHTMLも時々変えて来るだろうからどうやって付いて行くかだな。
誰でも簡単に書き換えられるぐらいの手軽さがあれば良いんじゃないかな
作ってみようと思ったけど、HTML取得するとメールが"/cdn-cgi/l/email-protection#*****"になるんだけどどうすればいいんかね
今時目欄なんてほぼ機能してないし無視しても問題少なそうだけど
thx
js見てみる
17 :
名無しさん@お腹いっぱい。:2015/02/17(火) 20:15:20.15 ID:Tk0C/ZCM0
プロクシってわけじゃないが、Google Apps Scriptつかって
ちょっとしたREST APIは作ってみようかと思う。
これだったら、誰でもアカウント作れてスクリプト設置できるからな。
サーバはGoogleだから、耐久力は折り紙つき。2ch.netもブロックは
出来ないからな。
手順としては、仕込んだスクリプトで公開APIとする。APIにパラメータ
を渡してアクセスすると、UrlfetchAppで対象のスレッドをスクレイピング
する。
そして、解析した中身をDATにして返してくれるというわけだ。JSON形式
でも返せるぜ。こっちのほうがクライアント側は楽だと思うがね。このスクリプト
を配布して、使いたい奴は使えば良い。アクセス先はGoogle Apps Scriptで
公開したURLにPOSTパラメータで渡せば良い。
こんな所か。Triggerで自動巡回も出来るし、スクリプトに設定項目でも入れて
おけば、キモいウザいスレやレスはフィルタさせることも出来る。プロクシとは
言えないが、かなり便利なものになるんじゃないかね。
応用すると、互換のない掲示板でも同じようなDAT形式にコンバートしてやれば
読めるようになるという優れものにもなるかもしれないと夢見てる。まぁ、3/3
以降にまずは自分用として作ってみようとは思う。
Googleとわかってるならクローラー以外をブロックするだけで対策できるだろ
ログを集めるサーバと公開するサーバは別にした方がいい
>>19 まだ試してないけど、Fiddler使う方法で問題なく使えるだろうね
メール欄だけでなく本文のメルアドも弄られるのか・・
めんどくさいな
プロクシでやって規制きたら即あぼんしないかね?
それだけ心配
html2dat作って比較したけど完全じゃないな
書き込みする時に<br>の前後に\x20追加するけど
read.cgiは\x20\x20<br>→\x20<br>に変換して出力
HTML版への新規書き込みってすぐに反映されるの?
5分ごととかだったら、HTMLからDATに変換する方式で非公認専ブラを作ってもあまり役に立たなそう
今は即座に反映されてるのか
サーバ負荷が高そうだし、API導入のついでに遅延式に変更されたりするんじゃないか
>>32 ,......,___ アッー! ___ お前初めてかここは?
{ r-}"''; (,- ,_'',; 力抜けよ
__ノYv"-ァ'=;} ,_、 Y' リ''ー
ヽー-ハ '、 / キ}、 {"ー {⌒
ト ハ } ,. -ー─-- 、___ / ハノ`{ {
! ! !__! ,-、_ ,,( ,  ̄`ー、 /"''ー;ー'"
|___|! !ー-ニー、;、;'""ノ';{ iー ヽ=ニ=),..- '"
K \ヽ !`ーニ'-、{ (e 人 |' ̄ ̄/`ー! | / /⌒
\ヽ !、ヽ, "")ー-'"| ! | | /! |___{,、 / /
\"'ヽ'ー-" _! || } ー─| | / ヽ/ /
ニ=ー- `!!!' ''''ー'"{ | | / /`ー|\/
ーーーー' _ | ./ ヽ__ / | !
三`'/ `'""
一応それなりに動きそうなものが出来た
3月まではまだ時間あるしのんびりブラッシュアップしていこう
ID:YWZwatlC0はなんとか大百科とかその辺と勘違いしてるのではないか
遅延あったらWebブラウザで見れんだろ。実況とか。やる気しないけど
ブラウザで見てるようなライトユーザーなら、数秒前の最新のレスが数個見れなくても気にしないんじゃないの
最新レスを遅延なく見たければ専ブラを使ってねとでも表示しておけばいい
36 :
名無しさん@お腹いっぱい。:2015/02/18(水) 08:03:41.56 ID:dSMNbUaj0
>>32 2ちゃん読み書きしてたこと無いような奴までわいてるってどういうことww
いまどきの小中学生にとって2chは
LineやTwitterみたいなものとして認識されているらしい
スマホのアプリのスレとか小学生ばっかだぞ(知能レベルが…
htmlのdat化じゃなくて、山下Styleをハイジャックするのを作ってよ。
自分で使う分にはProxomitronでdatの取得先をscにするだけでいいかなという気がしてきた
専ブラ使っても打ってる間に数レス入るから気にならない
>>38 近頃は何ググってもアフィまとめブログが検索結果の上位に出てくるから
そこから流入してきてるんだろうね
>>40 オミトロンのフィルターでhtml2datできないかな?
GET
http://anago.2ch.net:80/software/dat/1424147714.dat HTTP/1.0
Cache-control: no-cache
Last-Modified: Wed, 18 Feb 2015 04:33:48 GMT
Pragma: no-cache
Proxy-Connection: keep-alive
Host: anago.2ch.net
User-Agent: Monazilla/1.00 gikoNavi/beta55/1.55.1.697
If-Modified-Since: Wed, 18 Feb 2015 04:33:48 +0900
Range: bytes=10849-
こんな感じのリクエストに対応しないと専用ブラウザの串は無理
さもないと2chのcloudflare移転直後にあった「あぼ〜ん検出して再取得する」を毎回やることになる
かちゅ〜しゃは -1 Byte (あぼーんされても最初が\x0Aの改行ならあぼ〜ん検出不可)
ギコナビは -16 Byte
>>45 変換後に必要な分だけ切り取ればokだから簡単
>>19なら対応してるな
>>44 できるとは思うけどスクレイピングはどうしてもいたちごっこになるんで
そこはscに任せちゃったほうが楽かなと思って
>>47 たしかにそうだね
専ブラからの書きこみはどうなるんだろう?bbs.cgiも変更されるんだろうか?