読めないdat落ちスレのhtmlミラー避難所

このエントリーをはてなブックマークに追加
940659 ◆659BBSUzlk :2006/11/23(木) 10:58:48 ID:ocVSqFdS0 BE:163633128-2BP(111)
Janeの外部コマンドを使ってる人って、実際そんなにいるんですかね
私も一応Jane使いですけど、あれ何がなにやらわけがわからないんですね
よっぽどmirrorhenkanで手動保管した方が話が早いような気がします
941水先案名無い人:2006/11/23(木) 21:23:10 ID:TL/VGLcb0
http://makimo.to/cgi-bin/bbs/Bbs.cgi

[991] (無題) 投稿者:makimo.to(ぴ) 投稿日:2006/11/23(Thu) 03:39

ログやアクセスの増加については、サーバー負荷の増大という物理的な問題だけではなく、
ログの増加≒有害な投稿も増加・アクセスの増加≒被害の増加という面での問題もあり、
企業などからはログを消すだけでは許さないという警告も出てきています。
サーバーはお金で増強すればなんとかなるとしても、人間が対応する部分での限界もあるので、
今のままでの続行は難しくなりつつあります。

将来P2Pで共有をするとしても、技術よりも人間(削除・スパム・データ改竄など)が
ネックになるかもしれません。
942水先案名無い人:2006/11/24(金) 19:38:15 ID:huZpfN920 BE:609780285-2BP(1)
こういうのも作ってみたです

http://www.geocities.jp/mirrorhenkan/others/mirrorget/

板を指定して実行すると
各ミラーサイトにアクセスしてログが蓄積されると。

例えばガイドライン板を指定すると

http://www.geocities.jp/mirrorhenkan/mirrorhokan.html?u=http://ex13.2ch.net/test/read.cgi/gline/1118753283/

等のように全てのスレッドを巡回アクセスすると思うです。
で、全てのスレにアクセスしたら
またsubject.txtを拾い直して最初からまた順々にアクセスすると。

試して頂けると有り難いです
943水先案名無い人:2006/11/24(金) 21:01:50 ID:dw5xRr9w0
あいかわらず強制終了しか手段がないんだね
944水先案名無い人:2006/11/25(土) 12:30:08 ID:0hURH43j0 BE:121956342-2BP(1)
>>943
まあそんなもんです

ただ、xpや2000ならタスクマネージャーを使う手があるみたいです。
使ってないので判りませんが。

また、エクスプローラでstart.vbsを右クリックして
「スクリプト」→「スクリプト実行時間を秒単位で指定する」で
終了させたい時間を秒数で入力(1時間後なら60×60で「3600」と入力)
してOKすると
start.wshが生成されるので、それを実行するとか。


スクリプトそのものに手を入れるなら
ループしたい回数を指定する命令を追加しておくとか
ループ直前に続けるかどうか確認メッセージを出すようにするとか。
どちらもうざったくなるような。


という所ですか。
「日本語でおk」で別に構いませんです
945水先案名無い人:2006/11/25(土) 15:50:21 ID:zJmPLuN90
>>818の続き

944 名前:水先案名無い人 投稿日:2006/11/25(土) 12:30:08 ID:0hURH43j0 ?2BP(1)
>>943
まあそんなもんです

ただ、xpや2000ならタスクマネージャーを使う手があるみたいです。
使ってないので判りませんが。
946水先案名無い人:2006/11/25(土) 15:54:25 ID:zJmPLuN90
ミス誤爆…
947659@トリップ無くした:2006/11/26(日) 15:54:51 ID:3avexjxl0 BE:102270252-2BP(111)
>>944
どこかのスレで読んだ表現ですが
タスクマネージャーのプロセスから落とすのは行儀の悪いソフトを落とすための
「おしおき」だといった人がいるんですね

私は、まだ独身(というか童ry)だけど、常に怒ってる親にはなりたくないのですね
「おしおき」っていうのは、あくまでも仕方ない場合の手段だと思っています
毎晩毎晩「おしおき」をするのであれば、それはDVと解釈するのが自然ではないでしょうか

技術的な問題がなかったとしてもそういうイメージが
使う側にとって敬遠の理由になることは十分に考えられることで
>>943さんは、そういうことをいいたかったのではないのかなと深読みしてしまうわけです
948水先案名無い人:2006/11/27(月) 00:07:10 ID:EAdCOMcp0
「datファイルを共有するP2Pソフト」の開発にひろゆきの許可がおりた
http://alfalfa.livedoor.biz/archives/50714952.html
949水先案名無い人:2006/11/27(月) 01:01:42 ID:KFcoBBeZ0
普通にそのスレ見てて運用情報の質雑スレも見てた…
950水先案名無い人:2006/11/29(水) 12:29:45 ID:CtRKHo2C0
ttp://makimo.to/close.html
「にくちゃんねる」休止について
2001年12月頃から過去ログの公開を続けてきましたが、
最近はログ全体とアクセス数の急激な増加に伴い、安定した運用が難しくなってきましたので、
2006年12月31日をもって、公開を休止することにしました。
今後の再開は未定です。

休止後も、スレッドタイトル検索・DAT2HTMLの更新は続けていきます。

既存のリンクから ttp://makimo.to/2ch/hoge_fuga/1234/1234567890.htmlへのアクセスがあった場合は
ttp://hoge.2ch.net/test/read.cgi/fuga/1234567890/へリダイレクトさせる予定です


2006/11/22

951水先案名無い人:2006/11/29(水) 12:37:00 ID:T90/YX4x0
952水先案名無い人:2006/11/29(水) 20:01:37 ID:nbOj6vp50 BE:137201033-2BP(1)
makimo.toさんの所のdatをDLするwshを作ってみたです
良かったらどうぞです

http://www.geocities.jp/mirrorhenkan/others/makimotoforever/
953水先案名無い人:2006/11/30(木) 00:05:21 ID:JSR2HiJD0
>>952
乙です。>>928ともども使わせてもらいます。
954水先案名無い人:2006/11/30(木) 18:55:54 ID:KR5k+L7g0
にくちゃんの変わりに取得するサイトがスナップショット以外にも
3つほどあったと思うのですが教えて下さい
955水先案名無い人:2006/11/30(木) 19:01:15 ID:P5GZGjcG0 BE:276128993-2BP(111)
>>954
マジレスすると手動保管のところをクリックすればいいんじゃないですかね
956水先案名無い人:2006/12/01(金) 00:40:24 ID:/bLr0jq40
957水先案名無い人:2006/12/01(金) 19:55:32 ID:ssHvBWVx0 BE:411601493-2BP(1)
>>952のスクリプトですが
バグがあったので修正したです。

ところで

皆さんで
makimo.toさんの所のログを保管しませんか?
800板くらいある訳ですが
板を分担してやれば出来なくはないと思うのですが。

自分のPCは空き容量200メガくらいしかないので
無理なんですが・・。
958水先案名無い人:2006/12/01(金) 20:20:34 ID:9wHgyAxn0 BE:429534667-2BP(111)
じゃあ僕はWeb制作板ー

といいたいところなんですけど、自分の掲示板で書いたように
20メガ超えると落ちるので名乗り出ることは難しいですね

溜まったログは、オンラインストレージにでもageてもらえばいいですかね?
959水先案名無い人:2006/12/01(金) 22:21:33 ID:TdaGs9nF0
>>952でラウンジクラシック@sports2を試してみたけど
2300件くらいあると書いてあるのに
datを900個くらいダウンロードしたところで止まっちゃう。
プロセス止めてやり直して見てもダウン済みのdatを上書きするだけ。

XPSP2 IE7
960水先案名無い人:2006/12/01(金) 22:45:52 ID:RrG42oH60
多人数で一気大量に落としたら氏ぬかもです><
961水先案名無い人:2006/12/02(土) 11:33:37 ID:2lf4ENLR0 BE:1234805099-2BP(2)
makimo.toさん html2dat.cgiを落とされたようで
何とも申し訳ない感じがするのですが
どうしたものでしょう。。

htmlファイルをDLして
htmltodatでdat化するというのはどうでしょう

出しておくです

http://www.geocities.jp/mirrorhenkan/others/makimotoforever/html.html

今までは なりゆきで他板のスレにも書いていたですが
とりあえずここだけに書いておくです


>>958
どうしたものでしょう。。

>>958 >>959
自分の所や他スレでの書き込みをみると問題なく出来ているので
どうしたものでしょう。。

途中から再開出来るようなものとか考えてみるです

>>960
どうしたものでしょう。。
962水先案名無い人:2006/12/02(土) 11:54:21 ID:2lf4ENLR0 BE:365868364-2BP(2)
あと要望なのですが

htmlで落とされる方
各板のごみ箱やsports2サーバ等
なるべく 本家のほうに残っていないものからDLして頂いたほうが
後々の為になるかもです
963水先案名無い人:2006/12/02(土) 18:21:14 ID:StO5H7q50
>>961
>htmlファイルをDLして
>htmltodatでdat化するというのはどうでしょう
htmltodatだと完全に元のdatと同じにするのは無理
964水先案名無い人:2006/12/02(土) 18:27:14 ID:qw0Ba7Pe0 BE:245448083-2BP(111)
>>963
>完全に
とはどういうことですか?
できれば詳しくお願いします
965水先案名無い人:2006/12/02(土) 18:42:33 ID:StO5H7q50
>>964
例えばここのテンプレの>>4の場合

>前スレ 読めないdat落ちスレのhtmlミラー作ります [87]
> http://that3.2ch.net/test/read.cgi/gline/1115213835/

が正しい形
それがにくちゃんねるのクソ仕様のhtmlの場合

>前スレ 読めないdat落ちスレのhtmlミラー作ります [87]
> ../../that3_gline/1115/1115213835.html

こんな形式になってやがる
これを現行のhtmltodatで戻すのは無理
(厳密に言うと無理ではないが非常に面倒↓を参照)
http://jbbs.livedoor.jp/bbs/read.cgi/computer/1929/1038588508/355-356

htmltodatのVerUpを待つかhtml2dat.cgiの再開を待つしかない
966水先案名無い人:2006/12/02(土) 18:44:58 ID:IfRyt2KO0
にくちゃんねる内で完結している分には優れた形なんですけどね。
その代わりに汎用では無いと。
967水先案名無い人:2006/12/02(土) 18:48:46 ID:qw0Ba7Pe0 BE:460215959-2BP(111)
>>965
素早く的確なレスをありがとうございます
なるほど、それですか…
確かに29chユーザーが随分悩まされてきた部分ですよね
968水先案名無い人:2006/12/02(土) 18:52:16 ID:2lf4ENLR0 BE:686003459-2BP(2)
>>965
下のを試してみて下さい。
スレッドURLやbeも変換出来たと思うのですが。

正規表現(改行を取り除いて)
m#<dt>([0-9]+) 名前:<span .*?>(?:<span tit
le="(.*?)" class=sage>|<a href="mail
to:(.*?)" class=mailto>)? ?(.*) (?:</a>|</sp
an>)?</span> ?(.*?) <br><dd> *?(.*?) <br> *?<b
r> *?(<a name.*?>|</tl>|</dl>)#mi

前処理(「変換オプション」から行けます)
s#<a href="JavaScript:be\((\d+)\)">\?(\#*)</a>#BE:$1-$2#gi
s#(>)\.\./\d+?/(\d+?)\.html(</a>)#$1http://ex13\.2ch\.net/test/read\.cgi/gline/$2/$3#ig
s#(>)\.\./\.\./(.+?)_(.+?)/\d+?/(\d+?)\.html(</a>)#$1http://$2\.2ch\.net/test/read\.cgi/$3/$4/$5#ig

変換結果式
$4<>$2$3<>$5<>$6<>

以上の方法で
http://makimo.to/2ch/qa_nandemo/index.html
にある10スレのhtmlをローカル保存して
一括変換してみたものを
http://user.ftth100.com/mirrorhenkan/xml/
に上げてみました。
beと他スレのURLはうまくいっているようです。
969水先案名無い人:2006/12/02(土) 18:58:39 ID:2lf4ENLR0 BE:320135437-2BP(2)
で htmltodatサポ板の書き込みで聞いたのは
前処理中の

s#(>)\.\./\.\./(.+?)_(.+?)/\d+?/(\d+?)\.html(</a>)#$1http://$2\.2ch\.net/test/read\.cgi/$3/$4/$5#ig

の箇所です。
ここの「ex13」「gline」だけは欠落しているので補うしかない訳ですが
そこを半自動化出来たらいいな、と。

ただ
同じ板同じスレのhtmlを一括dat化するなら
それほど面倒でもないかもと思うですが
やはり半自動化出来ればいいな と。
970水先案名無い人:2006/12/02(土) 19:00:00 ID:2lf4ENLR0 BE:182934634-2BP(2)
間違い
3行目ではなく2行目でした
s#(>)\.\./\d+?/(\d+?)\.html(</a>)#$1http://ex13\.2ch\.net/test/read\.cgi/gline/$2/$3#ig
971水先案名無い人:2006/12/02(土) 19:48:49 ID:wrOGDRuq0
「2ch DAT落ちスレ ミラー変換機 ver.4」を作動した結果の「専用ブラウザ用 datファイル」の下のほうで、
にくちゃんねるのdatを右クリックで落とそうとしても、うまくDLできなくなりますた。
(makimo.to 220.254.5.211 :8000 いずれも)

ぬるぽの俺には原因がわかりません。
教えてエロい人!
972水先案名無い人:2006/12/02(土) 19:56:18 ID:2lf4ENLR0 BE:411601493-2BP(2)
>>971
・・えーと

スレッドのURLを教えて頂ければ
dat化したものをアップするです
973水先案名無い人:2006/12/02(土) 19:58:48 ID:qw0Ba7Pe0 BE:245448083-2BP(111)
>>971
そりゃもう無理みたいなので
htmltodatを使っちゃってください
正規表現とオプションは>>968ですかね
974水先案名無い人:2006/12/02(土) 20:23:07 ID:qrBkW9yD0
肉はどうか知らないけど、html化の際trimしてたらどう頑張っても2chと同一のdatは復元できないよ
975水先案名無い人:2006/12/02(土) 20:28:00 ID:Ec/zcph40
ただ、連続空白の長さが違おうがブラウザの表示は変わらない。バグってなければw
なので自分で読むだけならtrimによる差異は気にする事はないと思う。
976水先案名無い人:2006/12/02(土) 20:35:29 ID:StO5H7q50
>>968
レスありがとうございます。
早速、いくつかのスレで試してみたのですが、
若干変換がおかしい所がありました。

http://makimo.to/2ch/ex13_gline/1120/1120002213.html
http://ex13.2ch.net/test/read.cgi/gline/1120002213/408

>../1125/1125943726.html#6nを参考にdatを落として
みたいな形の場合は正常に変換できてないようです。

正常に変換できたら↓こうなるはずなのですが
http://ex13.2ch.net/test/read.cgi/gline/1125943726/6nを参考にdatを落として

んで2行目を↓にしたらうまく変換できました。
s#(>)\.\./\d+?/(\d+?)\.html(?:\#)?([^<]+?)?(</a>)#$1http://ex13\.2ch\.net/test/read\.cgi/gline/$2/$3$4#ig

あと元が ttp://〜 となってる場合
makimo.toのを変換すると #http://
となってしまいます。

後処理で整形すればいいだけですが・・・(というか気にしすぎかな?)
s#\#http#ttp#

これでほぼ元のdatにもどせました。どうもありがとうございました。
977水先案名無い人:2006/12/02(土) 21:01:51 ID:StO5H7q50
あと ttp://〜 で始まる2chの過去ログ形式のURLも正常に変換できてないみたいです。
(makimo.toのhtmlの時点で既に .html.html とおかしな事になってるのが原因)

http://makimo.to/2ch/ex13_gline/1162/1162145766.html
http://ex13.2ch.net/test/read.cgi/gline/1162145766/14-16

>73ぬるぽ:#../1158/1158680051.html.html
とか

これが元の形です
>73ぬるぽ:ttp://ex13.2ch.net/gline/kako/1158/11586/1158680051.html

s#(>)\.\./\d+?/(\d+?)\.html(?:\.html)?(?:\#)?([^<]+?)?(</a>)#$1http://ex13\.2ch\.net/test/read\.cgi/gline/$2/$3$4#ig
で一応↓のように変換できました(なんか泥縄ですみません。スマートなやり方があればお願いします。)

>73ぬるぽ:#http://ex13.2ch.net/test/read.cgi/gline/1158680051/
978水先案名無い人:2006/12/03(日) 10:51:56 ID:gY0uYykg0
3行目も変えないと駄目なのもあった。

s#(>)\.\./\.\./(.+?)_(.+?)/\d+?/(\d+?)\.html(?:\.html)?(?:\#)?([^<]+?)?(</a>)#$1http://$2\.2ch\.net/test/read\.cgi/$3/$4/$5#ig

後処理は
s#\#http#ttp#ig

で、これでようやくdatが復元できたと思ったら
クソmakimo.toはAA等に :// が含まれてるのを
#http:// に変換しやがってた。

こればかりは手動じゃないと直せない、最悪。
979水先案名無い人:2006/12/03(日) 12:05:26 ID:CDUosIpL0
makimo.toがないとマリョーワールドがプレイできないし
過去ログ見れないしレンジ氏ねも見れないし…
orz
980水先案名無い人:2006/12/03(日) 12:32:47 ID:82UJZQB10
>>979
そこで●購入かモリタポ購入ですよw
981水先案名無い人:2006/12/03(日) 12:35:55 ID:joog81WP0
>>980
全然笑えない。
みんなそれを鼻白んでるからこそ、
無料で過去ログを手軽に見られるための
手段を必死に話してんだろ。
982水先案名無い人:2006/12/03(日) 16:06:51 ID:EBoOkM+U0 BE:228667853-2BP(2)
ついさっき プログラム板のhtmlを全部DLしたです
1ギガまで使えるサーバにリンクをつけてアップしたら
864メガになったですが
公開した途端に消えて後悔しても何なので暫く様子を見るです
消えるかもしれないですし。

UNIX板にもにくちゃんねる休止スレがあり、
倉庫を見ると300メガくらいなのですぐできると思うですが
この前散々叩かれたし別にいいや。
「UNIX板でwshって言われてもなぁ」とかいうのはともかく
UNIXとかわかんないですし。
以上チラシ裏

という訳で
htmlをDLすると共にindexファイルを作成して
アップしたらそのままログ倉庫になるようなスクリプトに改造したので
後でこのスレに出してみるです。

それにしても、あちこちに自分の書き込みがコピペされてて
もううんざりです。
実際 ではどうすればいいんだか。
手をこまねいて 何もしないほうがいいのかな
これまたチラシ裏

>>976-978
後はスレタイ修正とあぼーん処理くらいかなと
>>979
とっておきたい板のログを保存したらどうでしょう
神になるチャンスですぞ
983水先案名無い人:2006/12/03(日) 19:12:41 ID:gY0uYykg0
AAに紛れ込んだttp://は
後処理に
s#([^h])ttp(://[^a-z0-9])#$1$2#igk
を追加すればほぼ修正できました。

>>982
>後はスレタイ修正とあぼーん処理くらいかなと
とはどういうことですか?
スレタイは2chの元のままだと思うのですが。
984水先案名無い人:2006/12/03(日) 19:38:12 ID:2FypoXxX0
>>956
そこの魚拓みたいなサイトってもっとないですか?
スクショみたいにしておければ、肉のログを残せると思うんですが
985水先案名無い人:2006/12/03(日) 19:43:40 ID:2kwjUIUH0 BE:357945757-2BP(111)
>>984
それ、大変じゃないですかね?
いちいちクリックしていくのは面倒な気がします
986水先案名無い人:2006/12/03(日) 21:31:36 ID:EBoOkM+U0 BE:228667853-2BP(2)
改造したので出しておくです

http://www.geocities.jp/mirrorhenkan/others/makimotoforever/html.html

生成したサンプルはこちら
最低限のリンクだけしか生成していませんが。
リンクをクリックすると、各板のスレ一覧に飛びます。

http://mirror.sarashi.com/makimotoforever/

makimoto_htmlget_2.vbsを実行して倉庫を指定すれば
上のようなindex.htmlと各スレッドへのリンクが生成されますので
ローカルで見てもいいですし、
サイトとしてアップも出来るのではないかと。

で、dat化したいスレッドが見つかったら
htmltodatを使ってdat化すればいいのかなと思うです。
htmltodatも更新して下さいましたし。

http://mukiyu.hp.infoseek.co.jp/


>>983
今ちょっとみつけられないですが
「あぼーん」された場合
プレーンテキストでメール欄も出ていたです。
だったかその前スレだったか。

http://makimo.to/2ch/ex13_gline/1163/1163808196.html
987水先案名無い人:2006/12/03(日) 22:56:06 ID:t/IpCnlZ0
>>986
<a href="../1157/1157602927.html">http://comic6.2ch.net/test/read.cgi/comic/1157602927/</a>

(鯖内リンクが絶対パスじゃない)とか

<br>  #<a href="http://jbbs.livedoor.com/movie/1649/21stcentury.html">http://jbbs.livedoor.com/movie/1649/21stcentury.html</a> <br> 年表・人物紹介等  ウィキペディア <br>

(httpの前に#がついたりつかなかったり)とか

><a href="#2" onmouseover="popup(this,2,10);" onfocus="this.onmouseover();">>2-10</a>

>>2-10 の最初の>がリンクしてない。"-10"が入ってない。鯖内リンクが絶対パスじゃない。javascript使っている。)
とかいうのは仕様ですか?(変換後の半角スペースが大杉な気も・・)

正規表現
m#<dt>([0-9]+) 名前:<span .*?>(?:<span title="(.*?)" class=sage>|<a href="mailto:(.*?)" class=mailto>)? ?(.*) (?:</a>|</span>)?</sp
an> ?(.*?) <br><dd> *?(.*?) <br> *?<br> *?(<a name.*?>|</tl>|</dl>)#mi

前処理(2行目を鯖・板ごとに変える)
s#<a href="JavaScript:be\((\d+)\)">\?(\#*)</a>#BE:$1-$2#gi
s#(>)\.\./\d+?/(\d+?)\.html(?:\.html)?(?:\#)?([^<]+?)?(</a>)#$1http://comic6\.2ch\.net/test/read\.cgi/comic/$2/$3$4#ig
s#(>)\.\./\.\./(.+?)_(.+?)/\d+?/(\d+?)\.html(</a>)#$1http://$2\.2ch\.net/test/read\.cgi/$3/$4/$5#ig

変換結果式
$4<>$2$3<>$5<>$6<>

後処理
s#\#http#ttp#ig
s#([^h])ttp(://[^a-z0-9])#$1$2#igk

つか、バージョンアップするなら「にくちゃんねる」の変換式を正規表現・一覧表示に入れてくれればいいのに・・
※変換対象は個人的趣味でhttp://makimo.to/2ch/comic6_comic/1162/1162158438.html
988水先案名無い人:2006/12/03(日) 23:46:45 ID:axxDL9dz0
makimo.toがインターネットアーカイブに残ってれば、
転送量の問題も軽減できたり、消滅後も何とかなっただろうに、
インターネットアーカイブのクロールを拒否してたんかいな。
989水先案名無い人
makimo.toダソ・・・html2dat.cgi停止の代わりにdatの直読みさせてくれんかなぁ(´・ω・`)ショボーン