読めないdat落ちスレのhtmlミラー避難所

このエントリーをはてなブックマークに追加
968水先案名無い人
>>965
下のを試してみて下さい。
スレッドURLやbeも変換出来たと思うのですが。

正規表現(改行を取り除いて)
m#<dt>([0-9]+) 名前:<span .*?>(?:<span tit
le="(.*?)" class=sage>|<a href="mail
to:(.*?)" class=mailto>)? ?(.*) (?:</a>|</sp
an>)?</span> ?(.*?) <br><dd> *?(.*?) <br> *?<b
r> *?(<a name.*?>|</tl>|</dl>)#mi

前処理(「変換オプション」から行けます)
s#<a href="JavaScript:be\((\d+)\)">\?(\#*)</a>#BE:$1-$2#gi
s#(>)\.\./\d+?/(\d+?)\.html(</a>)#$1http://ex13\.2ch\.net/test/read\.cgi/gline/$2/$3#ig
s#(>)\.\./\.\./(.+?)_(.+?)/\d+?/(\d+?)\.html(</a>)#$1http://$2\.2ch\.net/test/read\.cgi/$3/$4/$5#ig

変換結果式
$4<>$2$3<>$5<>$6<>

以上の方法で
http://makimo.to/2ch/qa_nandemo/index.html
にある10スレのhtmlをローカル保存して
一括変換してみたものを
http://user.ftth100.com/mirrorhenkan/xml/
に上げてみました。
beと他スレのURLはうまくいっているようです。
969水先案名無い人:2006/12/02(土) 18:58:39 ID:2lf4ENLR0 BE:320135437-2BP(2)
で htmltodatサポ板の書き込みで聞いたのは
前処理中の

s#(>)\.\./\.\./(.+?)_(.+?)/\d+?/(\d+?)\.html(</a>)#$1http://$2\.2ch\.net/test/read\.cgi/$3/$4/$5#ig

の箇所です。
ここの「ex13」「gline」だけは欠落しているので補うしかない訳ですが
そこを半自動化出来たらいいな、と。

ただ
同じ板同じスレのhtmlを一括dat化するなら
それほど面倒でもないかもと思うですが
やはり半自動化出来ればいいな と。
970水先案名無い人:2006/12/02(土) 19:00:00 ID:2lf4ENLR0 BE:182934634-2BP(2)
間違い
3行目ではなく2行目でした
s#(>)\.\./\d+?/(\d+?)\.html(</a>)#$1http://ex13\.2ch\.net/test/read\.cgi/gline/$2/$3#ig
971水先案名無い人:2006/12/02(土) 19:48:49 ID:wrOGDRuq0
「2ch DAT落ちスレ ミラー変換機 ver.4」を作動した結果の「専用ブラウザ用 datファイル」の下のほうで、
にくちゃんねるのdatを右クリックで落とそうとしても、うまくDLできなくなりますた。
(makimo.to 220.254.5.211 :8000 いずれも)

ぬるぽの俺には原因がわかりません。
教えてエロい人!
972水先案名無い人:2006/12/02(土) 19:56:18 ID:2lf4ENLR0 BE:411601493-2BP(2)
>>971
・・えーと

スレッドのURLを教えて頂ければ
dat化したものをアップするです
973水先案名無い人:2006/12/02(土) 19:58:48 ID:qw0Ba7Pe0 BE:245448083-2BP(111)
>>971
そりゃもう無理みたいなので
htmltodatを使っちゃってください
正規表現とオプションは>>968ですかね
974水先案名無い人:2006/12/02(土) 20:23:07 ID:qrBkW9yD0
肉はどうか知らないけど、html化の際trimしてたらどう頑張っても2chと同一のdatは復元できないよ
975水先案名無い人:2006/12/02(土) 20:28:00 ID:Ec/zcph40
ただ、連続空白の長さが違おうがブラウザの表示は変わらない。バグってなければw
なので自分で読むだけならtrimによる差異は気にする事はないと思う。
976水先案名無い人:2006/12/02(土) 20:35:29 ID:StO5H7q50
>>968
レスありがとうございます。
早速、いくつかのスレで試してみたのですが、
若干変換がおかしい所がありました。

http://makimo.to/2ch/ex13_gline/1120/1120002213.html
http://ex13.2ch.net/test/read.cgi/gline/1120002213/408

>../1125/1125943726.html#6nを参考にdatを落として
みたいな形の場合は正常に変換できてないようです。

正常に変換できたら↓こうなるはずなのですが
http://ex13.2ch.net/test/read.cgi/gline/1125943726/6nを参考にdatを落として

んで2行目を↓にしたらうまく変換できました。
s#(>)\.\./\d+?/(\d+?)\.html(?:\#)?([^<]+?)?(</a>)#$1http://ex13\.2ch\.net/test/read\.cgi/gline/$2/$3$4#ig

あと元が ttp://〜 となってる場合
makimo.toのを変換すると #http://
となってしまいます。

後処理で整形すればいいだけですが・・・(というか気にしすぎかな?)
s#\#http#ttp#

これでほぼ元のdatにもどせました。どうもありがとうございました。
977水先案名無い人:2006/12/02(土) 21:01:51 ID:StO5H7q50
あと ttp://〜 で始まる2chの過去ログ形式のURLも正常に変換できてないみたいです。
(makimo.toのhtmlの時点で既に .html.html とおかしな事になってるのが原因)

http://makimo.to/2ch/ex13_gline/1162/1162145766.html
http://ex13.2ch.net/test/read.cgi/gline/1162145766/14-16

>73ぬるぽ:#../1158/1158680051.html.html
とか

これが元の形です
>73ぬるぽ:ttp://ex13.2ch.net/gline/kako/1158/11586/1158680051.html

s#(>)\.\./\d+?/(\d+?)\.html(?:\.html)?(?:\#)?([^<]+?)?(</a>)#$1http://ex13\.2ch\.net/test/read\.cgi/gline/$2/$3$4#ig
で一応↓のように変換できました(なんか泥縄ですみません。スマートなやり方があればお願いします。)

>73ぬるぽ:#http://ex13.2ch.net/test/read.cgi/gline/1158680051/
978水先案名無い人:2006/12/03(日) 10:51:56 ID:gY0uYykg0
3行目も変えないと駄目なのもあった。

s#(>)\.\./\.\./(.+?)_(.+?)/\d+?/(\d+?)\.html(?:\.html)?(?:\#)?([^<]+?)?(</a>)#$1http://$2\.2ch\.net/test/read\.cgi/$3/$4/$5#ig

後処理は
s#\#http#ttp#ig

で、これでようやくdatが復元できたと思ったら
クソmakimo.toはAA等に :// が含まれてるのを
#http:// に変換しやがってた。

こればかりは手動じゃないと直せない、最悪。
979水先案名無い人:2006/12/03(日) 12:05:26 ID:CDUosIpL0
makimo.toがないとマリョーワールドがプレイできないし
過去ログ見れないしレンジ氏ねも見れないし…
orz
980水先案名無い人:2006/12/03(日) 12:32:47 ID:82UJZQB10
>>979
そこで●購入かモリタポ購入ですよw
981水先案名無い人:2006/12/03(日) 12:35:55 ID:joog81WP0
>>980
全然笑えない。
みんなそれを鼻白んでるからこそ、
無料で過去ログを手軽に見られるための
手段を必死に話してんだろ。
982水先案名無い人:2006/12/03(日) 16:06:51 ID:EBoOkM+U0 BE:228667853-2BP(2)
ついさっき プログラム板のhtmlを全部DLしたです
1ギガまで使えるサーバにリンクをつけてアップしたら
864メガになったですが
公開した途端に消えて後悔しても何なので暫く様子を見るです
消えるかもしれないですし。

UNIX板にもにくちゃんねる休止スレがあり、
倉庫を見ると300メガくらいなのですぐできると思うですが
この前散々叩かれたし別にいいや。
「UNIX板でwshって言われてもなぁ」とかいうのはともかく
UNIXとかわかんないですし。
以上チラシ裏

という訳で
htmlをDLすると共にindexファイルを作成して
アップしたらそのままログ倉庫になるようなスクリプトに改造したので
後でこのスレに出してみるです。

それにしても、あちこちに自分の書き込みがコピペされてて
もううんざりです。
実際 ではどうすればいいんだか。
手をこまねいて 何もしないほうがいいのかな
これまたチラシ裏

>>976-978
後はスレタイ修正とあぼーん処理くらいかなと
>>979
とっておきたい板のログを保存したらどうでしょう
神になるチャンスですぞ
983水先案名無い人:2006/12/03(日) 19:12:41 ID:gY0uYykg0
AAに紛れ込んだttp://は
後処理に
s#([^h])ttp(://[^a-z0-9])#$1$2#igk
を追加すればほぼ修正できました。

>>982
>後はスレタイ修正とあぼーん処理くらいかなと
とはどういうことですか?
スレタイは2chの元のままだと思うのですが。
984水先案名無い人:2006/12/03(日) 19:38:12 ID:2FypoXxX0
>>956
そこの魚拓みたいなサイトってもっとないですか?
スクショみたいにしておければ、肉のログを残せると思うんですが
985水先案名無い人:2006/12/03(日) 19:43:40 ID:2kwjUIUH0 BE:357945757-2BP(111)
>>984
それ、大変じゃないですかね?
いちいちクリックしていくのは面倒な気がします
986水先案名無い人:2006/12/03(日) 21:31:36 ID:EBoOkM+U0 BE:228667853-2BP(2)
改造したので出しておくです

http://www.geocities.jp/mirrorhenkan/others/makimotoforever/html.html

生成したサンプルはこちら
最低限のリンクだけしか生成していませんが。
リンクをクリックすると、各板のスレ一覧に飛びます。

http://mirror.sarashi.com/makimotoforever/

makimoto_htmlget_2.vbsを実行して倉庫を指定すれば
上のようなindex.htmlと各スレッドへのリンクが生成されますので
ローカルで見てもいいですし、
サイトとしてアップも出来るのではないかと。

で、dat化したいスレッドが見つかったら
htmltodatを使ってdat化すればいいのかなと思うです。
htmltodatも更新して下さいましたし。

http://mukiyu.hp.infoseek.co.jp/


>>983
今ちょっとみつけられないですが
「あぼーん」された場合
プレーンテキストでメール欄も出ていたです。
だったかその前スレだったか。

http://makimo.to/2ch/ex13_gline/1163/1163808196.html
987水先案名無い人:2006/12/03(日) 22:56:06 ID:t/IpCnlZ0
>>986
<a href="../1157/1157602927.html">http://comic6.2ch.net/test/read.cgi/comic/1157602927/</a>

(鯖内リンクが絶対パスじゃない)とか

<br>  #<a href="http://jbbs.livedoor.com/movie/1649/21stcentury.html">http://jbbs.livedoor.com/movie/1649/21stcentury.html</a> <br> 年表・人物紹介等  ウィキペディア <br>

(httpの前に#がついたりつかなかったり)とか

><a href="#2" onmouseover="popup(this,2,10);" onfocus="this.onmouseover();">>2-10</a>

>>2-10 の最初の>がリンクしてない。"-10"が入ってない。鯖内リンクが絶対パスじゃない。javascript使っている。)
とかいうのは仕様ですか?(変換後の半角スペースが大杉な気も・・)

正規表現
m#<dt>([0-9]+) 名前:<span .*?>(?:<span title="(.*?)" class=sage>|<a href="mailto:(.*?)" class=mailto>)? ?(.*) (?:</a>|</span>)?</sp
an> ?(.*?) <br><dd> *?(.*?) <br> *?<br> *?(<a name.*?>|</tl>|</dl>)#mi

前処理(2行目を鯖・板ごとに変える)
s#<a href="JavaScript:be\((\d+)\)">\?(\#*)</a>#BE:$1-$2#gi
s#(>)\.\./\d+?/(\d+?)\.html(?:\.html)?(?:\#)?([^<]+?)?(</a>)#$1http://comic6\.2ch\.net/test/read\.cgi/comic/$2/$3$4#ig
s#(>)\.\./\.\./(.+?)_(.+?)/\d+?/(\d+?)\.html(</a>)#$1http://$2\.2ch\.net/test/read\.cgi/$3/$4/$5#ig

変換結果式
$4<>$2$3<>$5<>$6<>

後処理
s#\#http#ttp#ig
s#([^h])ttp(://[^a-z0-9])#$1$2#igk

つか、バージョンアップするなら「にくちゃんねる」の変換式を正規表現・一覧表示に入れてくれればいいのに・・
※変換対象は個人的趣味でhttp://makimo.to/2ch/comic6_comic/1162/1162158438.html
988水先案名無い人:2006/12/03(日) 23:46:45 ID:axxDL9dz0
makimo.toがインターネットアーカイブに残ってれば、
転送量の問題も軽減できたり、消滅後も何とかなっただろうに、
インターネットアーカイブのクロールを拒否してたんかいな。
989水先案名無い人
makimo.toダソ・・・html2dat.cgi停止の代わりにdatの直読みさせてくれんかなぁ(´・ω・`)ショボーン