専用ブラウザを助けるプロクシ作らね? [転載禁止]©2ch.net

このエントリーをはてなブックマークに追加
1名無しさん@お腹いっぱい。
専用ブラウザを作る訳じゃないから問題なし
2名無しさん@お腹いっぱい。:2015/02/17(火) 13:37:41.60 ID:FnpFJPOQ0
すべては終わりの始まりが始まってから
3名無しさん@お腹いっぱい。:2015/02/17(火) 14:03:37.12 ID:41fzODbV0
普通に「したらば用」のスクレイピングツールを作ればよくね
専用じゃなきゃいいっぽいし
4名無しさん@お腹いっぱい。:2015/02/17(火) 14:06:10.39 ID:DkiqvBEU0
2ch放棄した方がマシでは
5名無しさん@お腹いっぱい。:2015/02/17(火) 15:22:27.10 ID:xNg1dS/z0
>>1
もうすでに作っている人がいる件
ためしてないけど
6名無しさん@お腹いっぱい。:2015/02/17(火) 15:39:29.55 ID:D7asMS8F0
7名無しさん@お腹いっぱい。:2015/02/17(火) 15:45:03.45 ID:98UwR0ug0
それで解決するならscのクロールは止まらんだろ
HTMLは難読化されるやろなぁ
8名無しさん@お腹いっぱい。:2015/02/17(火) 16:07:08.51 ID:acSeWK190
またいちだんと負荷が増えるねw
9名無しさん@お腹いっぱい。:2015/02/17(火) 16:28:46.24 ID:EdcJZYwk0
>>6
もうねえけど
10名無しさん@お腹いっぱい。:2015/02/17(火) 16:32:40.04 ID:HJ9WxDwH0
>>1
sc
11名無しさん@お腹いっぱい。:2015/02/17(火) 17:56:30.05 ID:K8XLGPeJ0
ここで言うのもなんだけど、専ブラをブラウザの振りをするように書き換えたほうが早くね?
プロトコルもフォーマットの元仕様も決まってるんだし。負荷は更にエライ事になるが。
あとはアレだな。そうなるとHTMLも時々変えて来るだろうからどうやって付いて行くかだな。
12名無しさん@お腹いっぱい。:2015/02/17(火) 18:29:47.31 ID:D7asMS8F0
誰でも簡単に書き換えられるぐらいの手軽さがあれば良いんじゃないかな
13名無しさん@お腹いっぱい。:2015/02/17(火) 18:55:29.36 ID:0gXITrNO0
>>7
これだろうな
いたちごっこになりそう
14名無しさん@お腹いっぱい。:2015/02/17(火) 19:37:30.57 ID:dgLHR73y0
作ってみようと思ったけど、HTML取得するとメールが"/cdn-cgi/l/email-protection#*****"になるんだけどどうすればいいんかね
今時目欄なんてほぼ機能してないし無視しても問題少なそうだけど
15名無しさん@お腹いっぱい。:2015/02/17(火) 19:41:56.52 ID:D7asMS8F0
>>14
http://pastebin.com/Mw0kSGHU C#
http://pastebin.com/b6RR21Rf perl
パースの見本があるので参考にすると良い

htmlの最後に書いてあるjsで復号化してるので
そっちを参考しても良い
16名無しさん@お腹いっぱい。:2015/02/17(火) 19:57:37.95 ID:dgLHR73y0
thx
js見てみる
17名無しさん@お腹いっぱい。:2015/02/17(火) 20:15:20.15 ID:Tk0C/ZCM0
プロクシってわけじゃないが、Google Apps Scriptつかって
ちょっとしたREST APIは作ってみようかと思う。

これだったら、誰でもアカウント作れてスクリプト設置できるからな。
サーバはGoogleだから、耐久力は折り紙つき。2ch.netもブロックは
出来ないからな。

手順としては、仕込んだスクリプトで公開APIとする。APIにパラメータ
を渡してアクセスすると、UrlfetchAppで対象のスレッドをスクレイピング
する。
そして、解析した中身をDATにして返してくれるというわけだ。JSON形式
でも返せるぜ。こっちのほうがクライアント側は楽だと思うがね。このスクリプト
を配布して、使いたい奴は使えば良い。アクセス先はGoogle Apps Scriptで
公開したURLにPOSTパラメータで渡せば良い。

こんな所か。Triggerで自動巡回も出来るし、スクリプトに設定項目でも入れて
おけば、キモいウザいスレやレスはフィルタさせることも出来る。プロクシとは
言えないが、かなり便利なものになるんじゃないかね。

応用すると、互換のない掲示板でも同じようなDAT形式にコンバートしてやれば
読めるようになるという優れものにもなるかもしれないと夢見てる。まぁ、3/3
以降にまずは自分用として作ってみようとは思う。
18名無しさん@お腹いっぱい。:2015/02/17(火) 20:37:26.45 ID:DkiqvBEU0
Googleとわかってるならクローラー以外をブロックするだけで対策できるだろ
ログを集めるサーバと公開するサーバは別にした方がいい
19名無しさん@お腹いっぱい。:2015/02/17(火) 20:42:02.72 ID:D7asMS8F0
俺もFiddler用のhtml2datスクリプト書いてみた
http://www.telerik.com/download/fiddler
インストールしてRule→Customize Ruleで下記のコード張り付けて保存して、専ブラのプロクシにfiddlerのアドレス設定するだけ
http://pastebin.com/Zpa7KB4G
subject.txt dat(Range Header) に対応。Javascriptだから編集が簡単
どうよ?
20名無しさん@お腹いっぱい。:2015/02/17(火) 20:49:16.28 ID:D7asMS8F0
http://www.telerik.com/download/fiddler
Fiddler2インストールして(.net 2入ってなかったらそれも) Rules→Customize Rulesにコード入れて
専用ブラウザのプロクシのアドレスに127.0.0.1 portに設定した値を入れるだけ(Tools→Fiddler Option→Connectionsで設定可能)
21名無しさん@お腹いっぱい。:2015/02/17(火) 20:58:23.70 ID:5zOTXyTM0
>>9
多分その人の作ったやつの最新版
http://anago.2ch.net/test/read.cgi/software/1424083075/34
22名無しさん@お腹いっぱい。:2015/02/17(火) 21:51:59.81 ID:DUyFDFY30
>>19
まだ試してないけど、Fiddler使う方法で問題なく使えるだろうね
23名無しさん@お腹いっぱい。:2015/02/17(火) 22:27:40.70 ID:u2yEjtuw0
Google Apps Script
http://pastebin.com/LbG5Mipe
24名無しさん@お腹いっぱい。:2015/02/17(火) 23:52:38.35 ID:u2yEjtuw0
25名無しさん@お腹いっぱい。:2015/02/18(水) 01:17:29.92 ID:xTfkwUyQ0
26名無しさん@お腹いっぱい。:2015/02/18(水) 01:18:20.56 ID:xTfkwUyQ0
メール欄だけでなく本文のメルアドも弄られるのか・・
めんどくさいな
27名無しさん@お腹いっぱい。:2015/02/18(水) 02:18:30.96 ID:AySZKwjc0
プロクシでやって規制きたら即あぼんしないかね?
それだけ心配
28名無しさん@お腹いっぱい。:2015/02/18(水) 04:13:20.61 ID:UWjXV+NY0
html2dat作って比較したけど完全じゃないな

書き込みする時に<br>の前後に\x20追加するけど
read.cgiは\x20\x20<br>→\x20<br>に変換して出力
29名無しさん@お腹いっぱい。:2015/02/18(水) 04:21:42.91 ID:YWZwatlC0
HTML版への新規書き込みってすぐに反映されるの?
5分ごととかだったら、HTMLからDATに変換する方式で非公認専ブラを作ってもあまり役に立たなそう
30名無しさん@お腹いっぱい。:2015/02/18(水) 04:29:32.75 ID:2cQG25Mz0
>>29
2ch初めてか?
31名無しさん@お腹いっぱい。:2015/02/18(水) 04:31:03.86 ID:aUJWB+hV0
>>29
SC民ですか?
32名無しさん@お腹いっぱい。:2015/02/18(水) 05:32:52.94 ID:YWZwatlC0
今は即座に反映されてるのか
サーバ負荷が高そうだし、API導入のついでに遅延式に変更されたりするんじゃないか
33名無しさん@お腹いっぱい。:2015/02/18(水) 05:40:52.66 ID:UWjXV+NY0
>>32
  ,......,___        アッー!         ___  お前初めてかここは?
  {  r-}"'';                    (,- ,_'',;  力抜けよ
__ノYv"-ァ'=;}                  ,_、 Y' リ''ー
  ヽー-ハ '、                 / キ}、 {"ー {⌒
  ト ハ  }      ,. -ー─-- 、___ /   ハノ`{  {
 ! ! !__! ,-、_    ,,( ,        ̄`ー、 /"''ー;ー'"
 |___|! !ー-ニー、;、;'""ノ';{  iー       ヽ=ニ=),..- '"
 K \ヽ !`ーニ'-、{  (e 人  |' ̄ ̄/`ー!  | /   /⌒
  \ヽ !、ヽ, "")ー-'"| !  |   |  /!  |___{,、  /  /
    \"'ヽ'ー-"  _! ||  }   ー─|  | / ヽ/  /
ニ=ー- `!!!'     ''''ー'"{  |     |  /  /`ー|\/
ーーーー'        _ | ./      ヽ__ /  | !
             三`'/             `'""
34名無しさん@お腹いっぱい。:2015/02/18(水) 05:47:31.31 ID:WV6qU0cI0
一応それなりに動きそうなものが出来た
3月まではまだ時間あるしのんびりブラッシュアップしていこう

ID:YWZwatlC0はなんとか大百科とかその辺と勘違いしてるのではないか
遅延あったらWebブラウザで見れんだろ。実況とか。やる気しないけど
35名無しさん@お腹いっぱい。:2015/02/18(水) 06:26:59.97 ID:YWZwatlC0
ブラウザで見てるようなライトユーザーなら、数秒前の最新のレスが数個見れなくても気にしないんじゃないの
最新レスを遅延なく見たければ専ブラを使ってねとでも表示しておけばいい
36名無しさん@お腹いっぱい。:2015/02/18(水) 08:03:41.56 ID:dSMNbUaj0
Jane Style 山下くん OpenJaneのコード使用規約違反
http://anago.2ch.net/test/read.cgi/software/1424213277/
37名無しさん@お腹いっぱい。:2015/02/18(水) 08:32:26.56 ID:TeUPniaB0
>>32
2ちゃん読み書きしてたこと無いような奴までわいてるってどういうことww
38名無しさん@お腹いっぱい。:2015/02/18(水) 09:43:47.94 ID:4bPdOLng0
いまどきの小中学生にとって2chは
LineやTwitterみたいなものとして認識されているらしい

スマホのアプリのスレとか小学生ばっかだぞ(知能レベルが…
39名無しさん@お腹いっぱい。:2015/02/18(水) 09:58:49.64 ID:R2v4g1090
htmlのdat化じゃなくて、山下Styleをハイジャックするのを作ってよ。
40名無しさん@お腹いっぱい。:2015/02/18(水) 10:14:33.79 ID:t7UYXdmo0
自分で使う分にはProxomitronでdatの取得先をscにするだけでいいかなという気がしてきた
41名無しさん@お腹いっぱい。:2015/02/18(水) 11:30:34.83 ID:9o5r9w9j0
専ブラ使っても打ってる間に数レス入るから気にならない
42名無しさん@お腹いっぱい。:2015/02/18(水) 12:12:12.94 ID:ddFRF3bU0
>>38
近頃は何ググってもアフィまとめブログが検索結果の上位に出てくるから
そこから流入してきてるんだろうね
43名無しさん@お腹いっぱい。:2015/02/18(水) 12:26:26.94 ID:5qaOceEJ0
>>39
自分でやれよ
44名無しさん@お腹いっぱい。:2015/02/18(水) 13:33:47.81 ID:4P6T/tc40
>>40
オミトロンのフィルターでhtml2datできないかな?
45名無しさん@お腹いっぱい。:2015/02/18(水) 13:50:04.68 ID:Xq3E4E/z0
GET http://anago.2ch.net:80/software/dat/1424147714.dat HTTP/1.0
Cache-control: no-cache
Last-Modified: Wed, 18 Feb 2015 04:33:48 GMT
Pragma: no-cache
Proxy-Connection: keep-alive
Host: anago.2ch.net
User-Agent: Monazilla/1.00 gikoNavi/beta55/1.55.1.697
If-Modified-Since: Wed, 18 Feb 2015 04:33:48 +0900
Range: bytes=10849-

こんな感じのリクエストに対応しないと専用ブラウザの串は無理
さもないと2chのcloudflare移転直後にあった「あぼ〜ん検出して再取得する」を毎回やることになる

かちゅ〜しゃは -1 Byte (あぼーんされても最初が\x0Aの改行ならあぼ〜ん検出不可)
ギコナビは -16 Byte
46名無しさん@お腹いっぱい。:2015/02/18(水) 13:55:15.04 ID:xTfkwUyQ0
>>45
変換後に必要な分だけ切り取ればokだから簡単
>>19なら対応してるな
47名無しさん@お腹いっぱい。:2015/02/18(水) 14:04:09.43 ID:t7UYXdmo0
>>44
できるとは思うけどスクレイピングはどうしてもいたちごっこになるんで
そこはscに任せちゃったほうが楽かなと思って
48名無しさん@お腹いっぱい。:2015/02/18(水) 14:26:08.98 ID:4P6T/tc40
>>47
たしかにそうだね

専ブラからの書きこみはどうなるんだろう?bbs.cgiも変更されるんだろうか?
49名無しさん@お腹いっぱい。:2015/02/18(水) 14:33:40.26 ID:+ZaK+Xru0
>>48
>33
50名無しさん@お腹いっぱい。:2015/02/18(水) 16:30:46.13 ID:rHZJfdCo0
http://www.sapporoworks.ne.jp/spw/?page_id=361
コレを改造してproxy作ればいいのだな