２ちゃん画像落としまくりスクリプト

1 ：1：01/10/23 19:39

２ちゃんねるに貼ってある画像リンクを追い、
jpgをかき集めるスクリプトを作ってみました。

http://www.ninnin.net/

※perlとwgetが必要です。
※Windows,Macでは動きません。

2 ：名無しさん＠お腹いっぱい。：01/10/23 19:49

windows で perl も wget も動くはずだが。

3 ：1：01/10/23 19:50

fork 使ってるからActive perlでは動かないのですよ。
cygwin上なら動くかも（ためしてないけど）

4 ：1：01/10/23 19:53

追記：
MacOS Xなら動きますよ
（10.1ならwgetを入れなきゃだめだけど）

5 ：名無しさん＠お腹いっぱい。：01/10/23 19:56

ｸﾞﾛ画像ｺﾜｲﾖ(；´д｀)

6 ：1：01/10/23 20:03

例えばモー娘板で
一回スクリプトを実行すると
約８００枚の画像が収集できます。

7 ：名無しさん＠お腹いっぱい。：01/10/23 21:11

UNIX板的にはどうかと思うがサンクス１

8 ：ソースコード読まずにカキコ：01/10/23 21:15

Σ（ﾟдﾟｌｌｌ）ｶﾞｰﾝ
アイドル画像板でやったら最初の画像が葉っぱ隊だった
しかも何かループしてて同じ画像だけ取ってるっぽい。
42枚しか収集できなかった。

9 ：UNIX すごい。：01/10/23 21:21

MacOS X ですがやってみました。
こんなこともできるんですね。目からウロコです。
中にはとても重たいサーバーがあるので、可能であれば
タイムアウトのパラメータも追加されるとうれしいです。
（３０秒以上反応が無かったらスキップして次、など）
perl スクリプトとか詳しくないのに勝手言っちゃってすいません。

10 ：名無しさん＠お腹いっぱい。：01/10/23 21:27

cygwinのperlでも動いた。

ただ $down デフォルトは、せめて2くらいに
しておいた方が良くないかい? もしくは固定とか。
サーバに申し訳なくて5は指定出来ん。

11 ：名無しさん＠お腹いっぱい。：01/10/23 21:34

mpegも落としたいが....
醤油みたけど直すのメンドイな

12 ：名無しさん＠お腹いっぱい。：01/10/23 22:19

こういうのは自分で書いた方が良さげ。

13 ：1：01/10/23 23:39

1です。

>>8
アイドル版ならもっと集まるはず。取得スレ数リミットをもっとあげてみよう。

>>9
wgetのパラメータをいじればできます。現在の設定は２分です。
今後調整します。スクリプトの１５３行目をいじれば変更もできますよ。

>>10
その通りですね。次回のバージョンから少し下げます。

>>11
73,74,84行目の.jpgを.mpgに変更すればＯＫなはずです。

14 ：名無しさん＠お腹いっぱい。：01/10/23 23:44

ｶﾞ━━(ﾟДﾟ;)━━ｿ!
よろこびいさんで半角板いったらなんもなかった

15 ：名無しさん＠お腹いっぱい。：01/10/23 23:47

おおお、すごいね。ガンガン落とせるよ。でも鯖の負荷がすごそう
なのでsage進行の方が良いかな…。

ところで、これで落とした画像を閲覧するスクリプトとか、
どうやって作るんだろう？　手動でeeで見てるんだけど、再帰的に
.jpgファイルを見るスプリプト？とかありそうなんですが。

16 ：名無しさん＠ＸＥｍａｃｓ：01/10/24 01:00

やっぱ wget を fork して…ってのはみんな書くのね(笑)
ウチの環境だと wget は 2 個くらい fork するのが一番
効率が良かったかなぁ。
# fork しすぎると timeout して、
# まともに取れなかったりして…

>15
find ./ -name '*.jpg' -exec display \{\} \;
とか?
XEmacs の dired も、よく使いますけど。。。

17 ：名無しさん＠お腹いっぱい。：01/10/24 01:08

迷惑画像URLリストとか、どこかにないでしょうか。
フィルタリングしたいですよね。

18 ：名無しさん＠お腹いっぱい。：01/10/24 01:26

find ./ -name '*.jpg' |xargs ElectoricEyes

19 ：名無しさん＠お腹いっぱい。：01/10/24 01:36

半角板のDATってどこにあるす？つーか何もないのはおかしいよね。

20 ：名無しさん＠お腹いっぱい。：01/10/24 01:41

>>15
スクリプトじゃないけどgqviewとかpicviewとかじゃだめなん？

21 ：124：01/10/24 03:03

こんなことができるのは常時接続の人たちですか?

22 ：うひひ：01/10/24 09:28

>>21
情事切実な人だな。

23 ：名無しさん＠お腹いっぱい。：01/10/24 10:38

>>19
半角板だと
$ita = http://okazu.bbspink.com/ascii/
の設定でＯＫなはず

24 ：名無しさん＠お腹いっぱい。：01/10/24 13:07

ｈｔｔｐ://とか
ttp://
みたいにあえてコピペ用になってる物も
落とせる？

25 ：名無しさん＠お腹いっぱい。：01/10/24 13:28

>>17
同意．

でも，迷惑画像っつーのは人によって異なるからね，一概には．．．
画像分析して妙に赤が多いのはハネるとかは欲しいかも．

26 ：1：01/10/24 13:59

>>24
むろんＯＫです。
"ttp://"でひっかけてます。

27 ：1：01/10/24 14:01

>>25
その機能はつけたいんですけどね・・・
でも赤くない死体画像もあるし・・・

こういう時に１ｃｈのレス評価システムは
使い勝手があるんだな、と感じます

28 ：名無しさん＠ＸＥｍａｃｓ：01/10/24 14:16

半角っていえば、天使とか鳥とかの半角用語？を含むURLをサポートしたスクリ
プト書いた人居る？漏れは諦めた(w
これ、できたら結構凄いよな…

29 ：名無しさん＠お腹いっぱい。：01/10/24 23:33

>>28
同意。ぜひ1にはがんばってもらいたい。

30 ：名無しさん@Ｖｉ：01/10/25 01:42

たしかに画像フィルタは便利かもしれませんが、
個人的にはこのスクリプトは画像をダイジェストできることに
特化して欲しいです。

できれば追加して欲しい機能
1.URL は違うけどファイル名が同じ場合のファイル処理
2. キーワードを追加( tp:// とかｈｔｔｐ:// など)
3.スレッドのスキップ（先頭から５０個目のスレッドから開始など）
4. いっそのこと MPEG ファイルも対象に。

スレッドのスキップはスクリプトに追加して作ってみました。
もし希望があれば送ります。>1

31 ：名無しさん＠お腹いっぱい。：01/10/25 01:59

スレをどこまで読んだか記憶して、次回はそれ以降だけを読むとか、
落としたファイルのアドレスを記録しておいてそのファイルは二度と落とさないとか
そういう機能がないと、毎日同じファイルをダウンしてきてしまうと思うのですが
どうよ？

32 ：1：01/10/25 11:38

>>30
ご意見ありがとうございます。
検討して次期バージョンに反映します。

>>31
んーと現在の仕様では、同じファイルの画像が
ローカルにあればダウンしないようになっていますので、
毎日同じファイルをダウンしてしまうというのはないです。
ただ落としたファイルのアドレスを記憶とかしてたほうが、
２回目以降の効率は良いですね。

33 ：名無しさん＠お腹いっぱい。：01/10/26 00:26

コレ使うとスレの荒れ度がわかるね
荒れてるスレは死体画像多い。
あとなぜかペットの画像も多いＮＥ！

34 ：名無しさん＠お腹いっぱい。：01/10/26 05:38

wgetでいいじゃん。

35 ：名無しさん＠お腹いっぱい。：01/10/26 11:16

>>34
そういう説もある。
ttp://追えないけどね

36 ：名無しさん＠お腹いっぱい。：01/10/26 16:55

OSXにwget入れるのに小1時間かかりました。
でも成功、すごいぞUNIX、ありがとう＞1

37 ：名無しさん＠お腹いっぱい。：01/10/27 01:20

>32

そっか、俺は落としてきたファイルを
別ディレクトリに移動して整理していたんだが、
そうすると、また同じやつを落としてきてしまうんだな。
死体画像とかも残しておかないと、
また同じ死体画像を落としてきてしまうのだな。

38 ：名無しさん＠お腹いっぱい。：01/10/27 10:54

>>28 その辺の隠語は限られているから、単純置換じゃダメかな…

39 ：1：01/10/27 17:44

>>37
死体画像は同じファイル名でダミーのファイルとかを
置くとかすると良いかも・・・

面倒なのでそのうちその辺もなんとかしたいですね

40 ：名無しさん＠ＸＥｍａｃｓ：01/10/27 20:34

>38
単純置換は無理っぽいですね。隠語はちょこちょこ増えてるみたいですし、
URLは省略されたりクイズで記述されたりもするので(w

41 ：名無しさん＠お腹いっぱい。：01/10/27 20:49

おいおいおいおいおい、2ch内とはいえ下手なスパイダー
動かすのはやめてくれ。転送量も鯖の負荷も増える。
やりたいやつは公開なんかしないで、自分で作ってひっそりと
やってくれ。

42 ：名無しさん＠お腹いっぱい。：01/10/29 19:56

>>41
すいてる時間帯でもダメ？

43 ：名無しさん＠ほっとぞぬ：01/10/29 23:13

>>42
まず、datファイルをgetして、それを元にすればよいかと思われ。

44 ：名無しさん＠お腹いっぱい。：01/10/29 23:57

MacOSXの人って結構いるんだなぁ。
そういう漏れも。

45 ：名無しさん＠お腹いっぱい。：01/10/30 00:12

>>44

俺もMacOS X
最近多いよね。

厨房UNIX使い気取りが増えてここの板の人は迷惑だろうけど・・

46 ：名無しさん＠お腹いっぱい。：01/10/30 00:27

>>44 >>45

コンソール使う頻度はどれくらいよ?
あんまり多いのも、それはそれで考えもんだけど。
一応Macだし。

47 ：名無しさん＠お腹いっぱい。：01/10/30 02:34

>>44-46
スレ違い。

48 ：名無しさん＠お腹いっぱい。：01/10/30 22:21

同名のファイルがあった場合、ファイルサイズを調べて一致しなかったら
後ろに_01とか付けて保存するのは出来ませんか？

49 ：1：01/10/31 10:28

>>48
できます。
その方法も考えたのですが、結局やりませんでした。
いらないかな？と思って。
同じような要望が多ければ導入を検討します。

wgetのオプションの中にそんな機能があった気がしますので、
ご自分で改造してみてはいかがでしょう。
$optionsにオプションを突っ込んでwget実行サブルーチンを
呼んでるだけですので。

50 ：名無しさん＠お腹いっぱい。：01/10/31 13:46

試しにやってみたけどいい感じだぁよ、ありがとう。>1
要望とか考えると結局Iria先生みたくなるんだろうけど期待しちゃうよ。
なにってcronで動かしておけるから昼間だけの時限モノとか拾える可能性
あるってだけでピンコたんピキーンなれるし。

ただこの板でやるなら負荷、転送量減らしは最初に考慮する必要あるかと。
引っ越し間際のスレなんて生データで300kb以上になるのを毎回引っ張る
のはやはり問題だと思うので、ツモって来たdat fileはローカルに保存して
再利用する方向で進めてはどうか。

同名異URI処理は取り敢えず後にしないと、考え無し厨房が全開で走らせる
と思われ。

51 ：名無しさん＠お腹いっぱい。：01/11/01 19:49

ねぇねぇ、これからもいじる気ある？>1
マジでcronで走らせてグロ画像getterになろうと思うだけどいぢっていい？
perl なんてしばらくいじってないから思い出すとこからはじめるけど。

52 ：名無しさん＠お腹いっぱい。：01/11/03 08:14

途中で切れちゃう画像とかあるんですが、どこをいじればいいですか？
$limit = 3
$down = 2
で使ってますが。

53 ：1：01/11/03 20:54

>>50
datのタイムスタンプをチェックして再利用するようにしようかなぁ
ご意見ありがとう。転送量軽減を目指します。

>>51
ぜひいぢってください

>>52
117行目のwgetのオプション設定で調整できると思います。
-t や -w の値を調整すると良いかも。参考ページはこちらあたりをどうぞ
http://seagull.cs.uec.ac.jp/~horiuc-m/wget.html

54 ：名無しさん＠お腹いっぱい。：01/11/03 21:44

自分でSocket開いてRange: bytesヘッダとか使ってくれ。
つーかこういうもんはまともになってから公開してくれ

55 ：名無しさん＠お腹いっぱい。：01/11/03 22:17

FreeBSDでこのソフト使いました。
jpg/以下にたくさんのファイルがきましたが、
この中から、最適なファイルを絞り込むのはむづかしいですね。

タグ情報等から、分類できないのかなあ？
もしくわ、winみたいに、一つ一つのファイルを簡単に表示
できたらまだいいかも。(サムネーム表示？)

今gimp使って、いっこいっこ開いてるけど、
もっと楽にファイル情報しらべれないかな？

56 ：名無しさん＠お腹いっぱい。：01/11/03 22:17

今のままじゃ、ファイル名による絞り込み
しかできないよ。

57 ：名無しさん＠お腹いっぱい。：01/11/03 22:23

・・・ここは本当にUNIX板なのか・・・鬱

58 ：名無しさん＠お腹いっぱい。：01/11/03 23:42

Gimp…… 絶句

59 ：名無しさん＠お腹いっぱい。：01/11/03 23:52

つーか誰かがこのスクリプトをcronで定期的に実行して
作成されたjpglistをどっかで公開すりゃいいんだよね

それを元にiriaなりwgetなりで落とせばいい
そうすりゃ負荷はかからんし

60 ：名無しさん@XEｍａｃｓ：01/11/04 00:35

>59
それおもろいね。

っつーか、 jpg をある程度の大きさごとにアーカイブしといてくれ(w
ってコレはアクセスが集中してダメかにゃ。

61 ：XV：01/11/04 00:42

A.ディレクトリ毎にサムネイル表示

xv [-dir 画像があるディレクトリ]
^v
^n .xvpics
^u

B.一気にサムネイル作成

cd ベースのディレクトリ
find [こっちで書いてもいいし] -type d -exec mkdir {}/.xvpics \;
xv [そしたらこっちもか、やっぱやめ]
^v
^e

C.見ているファイルを消す

見る
^d
^d

D.ファイルを移動する

^v
フォーカス戻す
^v
好きなようにDnDする

E.マスク外す

適当に範囲選択
f
アローキーで位置変更
Shift+アローキーで範囲伸縮
拡大は Ctrl+マウス
Alt+j
Shift押しながらパス入力

62 ：名無しさん＠お腹いっぱい。：01/11/04 00:55

>>59
2chはそれでいいかもしれんが、リスト配布はヤメとけ。
厨房に凶器与えるのと一緒だ。

63 ：55：01/11/04 14:10

>>58
さんに絶句されたんですが、
みなさんは、どうやって画像みてるのですか？
マジで教えてください。
厨房なんで、すみません。

64 ：名無しさん＠お腹いっぱい。：01/11/04 14:36

>>63
>>61

65 ：55：01/11/04 14:52

すばらしい。感動した！有難う。

66 ：名無しさん＠お腹いっぱい。：01/11/04 16:27

グロ画像多すぎ。ホモ画像思わみてしまいかなりへこんだ。

67 ：名無しさん＠お腹いっぱい。：01/11/04 18:24

Listアップするためのサーバーでも借りましょうかね。

68 ：名無しさん＠Ｅｍａｃｓ：01/11/05 06:42

Navi2chで取得したdatを使うようにできたらうれしいな

69 ：68：01/11/05 06:48

あ,Navi2chで m a m i して,awkで抜いて,wgetすればいいだけか…

70 ：名無しさん＠お腹いっぱい。：01/11/05 13:34

>>55
XV の Visual Schnauzer とか使うのが一般的なんじゃないの？もっとも最近
の Linux の distribution なんかには XV の入っていない例もあるようだけ
ど。ちなみにわたくしは xv 3.10a に各種 patch を当てて、FLMASK とかの復
元もできるようにしたのを使ってる。Linux でも *BSD でも特に問題なくコン
パイルできると思うけど？

71 ：名無しさん@XEｍａｃｓ：01/11/05 22:35

XV って未だに使い方よくわかんない…
メンドーなので、なんでもかんでも ImageMagick …

72 ：名無しさん＠Ｅｍａｃｓ：01/11/05 23:28

>>70
既出

73 ：名無しさん＠お腹いっぱい。：01/11/06 03:17

GQviewとか。

74 ：名無しさん＠お腹いっぱい。：01/11/06 03:33

キーボードマクロで+mamiするのをcronでまわしておくと、
便利というか迷惑というか。

75 ：名無しさん＠お腹いっぱい。：01/11/14 09:04

便利と思うがなんであがらないのかな？
ということで定期あげ。

76 ：名無しさん＠Ｅｍａｃｓ：01/11/15 02:08

ところで、画像集めた後の話だが、
同じ様な画像がたーくさんディスクの肥しになって
欝にならないか？

そんな時は、dupmerge
http://people.qualcomm.com/karn/code/dupmerge/
(QualcommのPhilip Karn作)

洩れは、
find . -name "*.[GgJj][IiPp][FfEeGg]*" -o -name "*.[Mm][Pp][EeGg]*" | dupmerge
みたいにして使ってるよ。

77 ：名無しさん＠お腹いっぱい。：01/11/15 02:20

>>76
sambaでwinにmountしているんだけれども、
この手のツールはwinのほうが充実していないでしょうか。

78 ：名無しさん＠Ｅｍａｃｓ：01/11/15 02:58

shell で書けるからね。

79 ：名無しさん＠Ｅｍａｃｓ：01/11/15 03:02

>> 76
どうせなら iname 使え

80 ：名無しさん＠Ｅｍａｃｓ：01/11/15 21:01

そりでは修正
find . -iname "*.[gjm][ip][feg]*" | dupmerge

81 ：名無しさん＠Ｅｍａｃｓ：01/11/16 17:46

>>77
最近のwindowsは、ハードリンク出来るの？
消すんじゃなくてハードリンクする所が
ミソなんだけど

82 ：名無しさん＠お腹いっぱい。：01/11/16 22:21

>>81
使えるわけないじゃん

83 ：名無しさん＠Ｅｍａｃｓ：01/11/18 13:04

>>82 >> 77
じゃ、充実してないじゃん

84 ：名無しさん＠Ｅｍａｃｓ：01/11/19 00:45

どうせ焼く時は使わない

85 ：名無しさん＠お腹いっぱい。：01/12/03 07:38

あげます、あげます

86 ：名無しさん＠お腹いっぱい。：01/12/08 08:12

お前ら、最近どうですか？

87 ：名無しさん＠お腹いっぱい。：01/12/08 09:57

どの板も、途中でＤＬが止まってしまうのだよ。なんでだ？？

88 ：名無しさん＠お腹いっぱい。：01/12/08 16:50

>>81-82
Windowsでもハードリンク使えるみたい

CreateHardLink
これをMSDNかなんかでしらべれ

Unixと全く関係ないが、サゲたら忘れそうなのでｱｹﾞ

89 ：名無しさん＠お腹いっぱい。：01/12/08 17:22

FAT でどうやって hardlink 作るんだ?

90 ：名無しさん＠お腹いっぱい。：01/12/08 17:24

確か2000以降だっけかな、忘れた

91 ：名無しさん＠お腹いっぱい。：01/12/08 17:25

NTFSならhard linkもsymbolic linkもできるよ。
あんまり使われてないのはFATだと使えないからかも。

92 ：名無しさん＠お腹いっぱい。：01/12/08 20:07

symbolic linkをjunctionという、らしい。
ただこいつを使うと、WindowsのExplorerでさえ
摩訶不思議な挙動を示すことがあるというくらい、
ろくに使われてない機能。

93 ：名無しさん＠お腹いっぱい。：01/12/09 18:33

思いつきとしか思えない機能追加が多いからな。
だったら DOS のころから linkfile をサポートしといてほしい。

94 ：名無しさん＠お腹いっぱい。：01/12/09 20:30

DOSでFATでもハードリンク作れるYO!
ただし、chkdsk.exeにクロスリンクと言われてしまう、諸刃の剣。
素人にはお勧めできない。ってやつだ。

95 ：名無しさん＠お腹いっぱい。：01/12/14 22:52

こえーーー

96 ：名無しさん＠お腹いっぱい。：01/12/28 12:45

>>94
確かに間違いでは無いな(笑)

97 ：名無しさん＠お腹いっぱい。：02/01/03 22:48

age てみた

98 ：名無しさん＠お腹いっぱい。：02/01/16 18:24

やっぱり前回履歴に対応して欲しいなぁ。
毎日cronで走らせたいヨ。

99 ：名無しさん＠お腹いっぱい。：02/01/16 19:50

>>92
俺使ってる。でもあれってsymlinkというのは詐欺だろう。
join(DOS)とかFreeBSDのunion fs & mountみたいのと言った方が正確
かな。で、俺が見つけてる不具合は

1.Explorerやインストーラの空き容量計算がmountに対応できてないので、
　インストーラで(空きがあっても)「ねーよ」と弾かれたりする
2.MoveFile() APIがmountを考慮してないので、src/destが同じドライブ
　名だけど別ボリュームの場合、ファイル移動に失敗する(API直/cmd.exe
　Explorer全滅)

だな。
一応どっちも回避方法があるし、従来アプリは1.に対応できんというのは
仕方がない所でもあるんだが、2.はどう考えても(仕様変更への)追従ミス。

# 同一ボリューム内の移動の場合、ディレクトリエントリだけの書き換え
# で高速化してるんだが、同一ボリュームかどうかの判定にsrc/destの
# ドライブ文字しか見てないという。アホ。

100 ：名無しさん＠お腹いっぱい。：02/01/17 20:29

100

101 ：名無しさん＠お腹いっぱい。：02/01/17 20:52

ある板のある日の<a href="...">を一括表示してくれるようなサイトない？
つくろうかな…。

102 ：名無しさん＠お腹いっぱい。：02/01/17 21:41

>>101
作って！

103 ：名無しさん＠お腹いっぱい。：02/01/18 09:50

>102
つくりはじめた。rawmodeを使おうかとも思ったけど、index.htmlをtidyでXHTMLに
変換してからXSLTで加工(XHTML to XML)して、XMLで日別にサーバ側に蓄積して、
CGIでXML選んでXSLTかまして(XML to HTML4)出力、みたいな感じにすることにした。
なんとなく。

とりあえず最初のXSLTまで書けましたわ。

104 ：名無しさん＠お腹いっぱい。：02/01/21 06:03

age

105 ：名無しさん＠お腹いっぱい。：02/01/24 01:14

>103
すばらしいあげ

106 ：101：02/01/24 01:24

>>105
ども。マ板でもちょっと書いたんだけど、できました。
2ちゃんねるの技術系/ニュース系板の、URL流し読みサイト。

これ http://moso.borogrammers.net/newlin/ なんだけどどうかしら?

表示例↓
http://moso.borogrammers.net/newlin/read.cgi?board=news&yyyy=2002&mm=01&dd=23

107 ：名無しさん＠お腹いっぱい。：02/01/28 19:58

祭り監視に良いNE >>106

108 ：名無しさん＠お腹いっぱい。：02/01/29 00:24

>>106
面白いね
ちょっと遊んでみるよ

でもsage

109 ：名無しさん＠お腹いっぱい。：02/02/05 14:13

スレがばらばらに表示されるので、日付順、スレ順などのソートがあると嬉しいです。

110 ：109：02/02/05 14:29

あと、大量のリストを眺める作業になるので、スレタイトルは左揃えにしたほうが
視点の移動が少なくて良いんじゃないかと思います。

111 ：名無しさん＠お腹いっぱい。：02/02/13 16:26

.datの形式変わった？

112 ：106：02/02/21 05:48

本業でヘロヘロになってました。109さんご意見どうも。

>スレがばらばらに表示されるので、日付順、スレ順などのソートがあると嬉しいです。
トップ画面に「発言日が最近のURLほど上に表示する」と「スレッド番号+発言番号
でソートして表示する」というラジオボタンをつけました。

>あと、大量のリストを眺める作業になるので、スレタイトルは左揃えにしたほうが
>視点の移動が少なくて良いんじゃないかと思います。
確かにそうですね。左揃えにしました。スレッドでソートした場合、かなり見易くなったの
ではないかと思います。

URLは相変わらず http://moso.borogrammers.net/newlin/ です。

113 ：106：02/02/21 05:50

新しい表示例:
http://moso.borogrammers.net/newlin/read.cgi?board=newsplus&yyyy=2002&mm=02&dd=21&abone=on&exclude=on&exclude_text=2ch.net%2F&ext_text=swf&thr_sort=yes

114 ：名無しさん＠お腹いっぱい。：02/02/22 18:48

>>113のURLはなんか妙な表示になる気もするけど、良くなったと思います。
てーか誰か画面のデザインしてやれ。地味すぎるよ

115 ：名無しさん＠お腹いっぱい。：02/02/22 19:20

>>111
datは>>106のviewerには無関係と思われ

116 ：名無しさん＠お腹いっぱい。：02/02/28 00:07

>>1のスクリプトは、いまや改造しないとそのままでは使えないですね。

117 ：名無しさん＠お腹いっぱい。：02/03/01 20:10

>>116
改造キボンヌ

118 ：：02/03/01 23:30

>>116,117
2ch のシステムはよく知らないんだけど現在では subject.txt と .dat
は直接見れないんだよね？ read.cgi から raw モードで取得するのかな。
その辺りを書き換えればオッケー。

119 ：名無しさん＠お腹いっぱい。：02/03/02 11:08

monazilla ML 入るが吉。

120 ：名無しさん＠お腹いっぱい。：02/03/03 19:05

使えなくなってるね…

121 ：116：02/03/04 00:04

>>117
118が書いてるように、今は $ita/subject.txt が見られないようだから、
まずオリジナルスクリプトの subject.txt は subback.html にでも
しないといけない。
また、subback.html を参照するようにしたら、データナンバーの取り出し方も
変えないといけないね。いろいろなやり方があるだろうが、例えば
http://love.2ch.net/morningcoffee/subback.html
だったら
<a href="1014421686/l50">6: 中澤裕子ファン倶楽部 96 (977)</a>
みたいなスレッドのリストが得られて、要はこの中の 1014421686 を
切り出したいわけだから、38行目と60行目
($data_no) = split /\<\>/ , $_;
は、
@data = split /\//;
$data_no = $data[0];
$data_no =~ s%\D%%g;
とでもすれば $data_no に 1014421686 が入って、
あと、40行目の $target は、conf.txt に
$host = 'http://love.2ch.net/';
$categ = '/morningcoffee/';
を追加しといて
$target = "$host"."test/read.cgi"."$categ"."$data_no";
として使っているが、もっとエレガントなやり方があったら誰か教えて著。

122 ：名無しさん＠お腹いっぱい。：02/03/06 22:47

>>1 のサイト、アクセスできなかったんですけど
件のスクリプトを落とせるところは他にありませんか

123 ：名無しさん＠お腹いっぱい。：02/04/12 23:09

124 ：名無しさん＠お腹いっぱい。：02/04/12 23:18

wgetでダウンロードしたファイルを
ダウンロードしたYYYYMMDDという形式で
保存するにはどうすればいいのでしょう。

同じ名前でファイルが毎週更新されるので
cronでそのままで回すのでは上書きされて
しまいます。

125 ：名無しさん＠Ｅｍａｃｓ：02/04/12 23:53

% wget http://xxx.xxx.xxx/???.jpg -P `date +%y%m%d`
ってのはダメ？
大量に引っこ抜くならこれでいいと思うけど。

126 ：login:Penguin：02/04/13 00:12

-O --output-document=FILE FILE に文書を出力します。

127 ：名無しさん＠お腹いっぱい。：02/04/13 00:25

>>125
> ってのはダメ？

それでもかまわないのですがファイルは1つなので
ディレクトリは作らずYYYYMMDD.jpgというファイル名
で保存したいのですが。

128 ：名無しさん＠Ｅｍａｃｓ：02/04/13 01:00

>>128

% wget http://xxx.xxx.xxx/???.jpg -O `date +%Y%m%d`.jpg

(´-`).｡ｏＯ(>>127 がすでに答えてくれているけど…なんでだろう？)

129 ：名無しさん＠お腹いっぱい。：02/04/13 08:00

>>128

> (´-`).｡ｏＯ(>>127 がすでに答えてくれているけど…なんでだろう？)

あの書き込みはヒントだったのですね。
ドキュメントと書いてあったので他の事かと思っていました。
ありがとう。>>ALL

130 ：名無しさん＠お腹いっぱい。：02/04/20 06:10

ほしゅ

131 ：名無しさん＠お腹いっぱい。：02/04/23 23:12

捕手

132 ：名無しさん＠お腹いっぱい。：02/05/18 17:53

なんとなく

133 ：名無しさん＠お腹いっぱい。：02/06/07 18:24

ほしゅ

134 ：名無しさん＠お腹いっぱい。：02/06/28 02:33

どるどれい？

135 ：名無しさん＠お腹いっぱい。：02/08/04 21:09

sage

136 ：名無しさん＠お腹いっぱい。：02/08/20 04:23

おーい

137 ：名無しさん＠お腹いっぱい。：02/09/18 00:15

ある日付以降の書きこみに書かれているURLのみを
落としたいとかできるでしょうか？

138 ：名無しさん＠お腹いっぱい。：02/09/22 00:52

あげとこう

139 ：名無しさん＠お腹いっぱい。：02/09/22 01:29

さげとこう

140 ：名無しさん＠お腹いっぱい。：02/09/23 04:14

一個のディレクトリに画像ファイル１４００個置いてますが
gimvでみるときに極端に速度が遅いです
数が多いとよくないんですね
どーにかなりませんか？

141 ：名無しさん＠お腹いっぱい。：02/09/23 04:40

何が悪いかをつきとめて、それを直す。

142 ：名無しさん＠お腹いっぱい。：02/09/24 19:52

>>140
UNIXのファイルシステムは
一つのディレクトリにファイルがいっぱいあると遅いと
聞いたことがあるな
（だからメールキューは複数のディレクトリに分かれてるらしい）

1400個くらいなら関係ないのかもしれんけどね
詳しい人フォローレスたのむ

143 ：名無しさん＠お腹いっぱい。：02/09/26 07:34

>142
(だから2chのスレッドは足切り制限があるらしい)
(1つの板に数千のスレがあった時代は重かったなぁ…)
脱線ｽﾏｿ

144 ：名無しさん＠お腹いっぱい。：02/12/26 04:11

age

145 ：名無しさん＠お腹いっぱい。：02/12/29 07:42

うーん、誰も保守しようとか言う気はないの？

ないよね。

146 ：名無しさん＠お腹いっぱい。：02/12/29 13:31

>>142
ext2fsやオリジナルのufsは遅いが、たとえばufsでもUFS_DIRHASH入りものなら速い。
xfsあたりなら、なんもせんと速い。

結論: OSと、選んだファイルシステムによる。

147 ：名無しさん＠お腹いっぱい。：02/12/31 08:23

ﾁｮﾄおしえてください。
IEからなら
http://pc.2ch.net/test/read.cgi/unix/1003833552/
が見えるんですけど、wgetを使ってこのページをダウンロードしようとしても、
できないんです。どうやればいいんですか？

148 ：名無しさん＠お腹いっぱい。：02/12/31 12:33

wget http://pc.2ch.net/test/read.cgi/unix/1003833552/
でできるが…？

149 ：名無しさん＠お腹いっぱい。：03/01/01 12:43

て優香、wget使わなくても、httpget使えば便利じゃない？
と思って、httpget落とそうとしたけど、内部エラーで落とせない・・・
http://www.onicos.com/staff/iz/release/

150 ：名無しさん＠お腹いっぱい。：03/01/04 16:37

>>1さんが作ったやつをちと効率的に収集できるように改造したけど、
どっかにうｐしようかな？

151 ：名無しさん＠お腹いっぱい。：03/01/05 05:23

どうせやるなら、以前にもちょっと話出てたけど、一人が落としたファイルをどっかの鯖に
キャッシュしといて他の人はそっちから落とせるようなの作ろうよ。そうすれば２ちゃんの
負荷も減るし、うｐろだの負荷も減るし、ソッコーで消されたファイルもキャッシュに残って
るしで、うっはうはーじゃん。

152 ：名無しさん＠お腹いっぱい。：03/01/05 07:33

どうせなら落としたファイルがP2Pで共有されるようにするとか

153 ：名無しさん＠お腹いっぱい。：03/01/05 18:40

>>147
普通はdatファイルを直接落とそうとするのでは無いの？

>>151
それやろうかな...
今はdatファイルを貯めているんだけど。

154 ：名無しさん＠お腹いっぱい。：03/01/06 00:20

>>150

複数ファイル(.mpgとか.rmとかの動画)も同時に落せるヤシキモンヌ

155 ：名無しさん＠お腹いっぱい。：03/01/06 01:01

>>154
もちろんそういう仕様にしてあるよ。てかできたけど。
けどrm,ramはすっかりわすれてたというか、そんなのにちゃんで見たことないのだが。

156 ：名無しさん＠お腹いっぱい。：03/01/06 03:14

>>153
て優香、datファイルを落とせるならそうしたいんだけど、やりかた
教えてーな。
たしかどっかでdatファイルは落とせなくなったとか聞いたような気がしたんで、
htmlをそのまま落としてマッチングしてるんだけど・・・

157 ：153：03/01/06 14:02

>>156
http://pc.2ch.net/test/read.cgi/unix/1003833552/
だったら
http://pc.2ch.net/unix/dat/1003833552.dat
でいけるのではないと？

>たしかどっかでdatファイルは落とせなくなったとか聞いたような気がしたんで、
>htmlをそのまま落としてマッチングしてるんだけど・・・
これは俺も聞いたことあるけど、閉鎖騒動の時あたりじゃないの？
俺はそれよりあとに2ch来たからよく知らないけど、
read.cgiにアクセスするより、datファイルに直接アクセスしたほうが、負荷は減るらしい、と聞いたこともある。

158 ：153：03/01/06 14:51

>>156
とりあえず、俺の作ったdatファイルだけ落とすスクリプトも張っておこう。
粗末なシェルスクリプトだが...

#!/bin/sh

PATH=/usr/local/bin:/usr/bin:/bin:/usr/local/sbin:/usr/sbin:/sbin
DATE=`date +%Y%m%d_%H%M%S`

if [ "$1" ] && [ "$2" ] && [ "$3" ] && [ "$4" ] ;then
:
else
echo "useage: ./get.sh [dat|subject] [dir] [host] [ita] [waittime] [wget-flag]"
exit
fi

HOMEDIR=/home/hoge/documents/data
TARGET=$1
DIR=$2
HOST=$3
ITA=$4
LOGFILE=./wget_log.txt

if [ "$5" ];then
WAIT=$5
else
WAIT=3
fi

159 ：153：03/01/06 14:52

# -c tuchuukara
# -N time stamp
WGETFLAG="-t 3 -a${LOGFILE} -P./dat -U "Hogella/1.0" -nd $6"

if ! [ -d ${HOMEDIR}/${DIR} ] ;then
echo ${HOMEDIR}/${DIR} no such directry\!
exit
fi
/bin/test -d ${HOMEDIR}/${DIR}/dat || mkdir ${HOMEDIR}/${DIR}/dat
/bin/test -d ${HOMEDIR}/${DIR}/old_dat || mkdir ${HOMEDIR}/${DIR}/old_dat
/bin/test -d ${HOMEDIR}/${DIR}/subject || mkdir ${HOMEDIR}/${DIR}/subject

cd ${HOMEDIR}/${DIR}
test -f ${LOGFILE} || touch ${LOGFILE}
printf "###\n###\n### DATE=${DATE} \n### args=$* \n###\n###\n" >> ${LOGFILE}

if [ ${TARGET} = subject ];then

rm -f subject.txt
wget -a${LOGFILE} -U "Hogella/1.0" http://${HOST}/${ITA}/subject.txt
cp subject.txt ./subject/subject.${DATE}.txt

160 ：153：03/01/06 14:52

elif [ ${TARGET} = dat ];then
echo "---> DATE = ${DATE}"
mkdir old_dat/${DATE}

rm -f subject.txt
wget -a${LOGFILE} http://${HOST}/${ITA}/subject.txt
echo "---> got subject file"
sleep 1

echo -n "---> dat file... "
for DAT in `cat ./subject.txt | cut -f1 -d.` ;do
echo "--->TARGET is ${DAT}" >> ${LOGFILE}
echo -n "${DAT}"
wget ${WGETFLAG} http://${HOST}/${ITA}/dat/${DAT}.dat
if [ -f ./dat/${DAT}.dat.1 ];then
echo "---> file moved to old_dat dir" >> ${LOGFILE}
mv ./dat/${DAT}.dat ./old_dat/${DATE}
mv ./dat/${DAT}.dat.1 ./dat/${DAT}.dat
echo -n "_ "
elif [ -f ./dat/${DAT}.dat ];then
echo -n ". "
else
echo -n "X "
fi
sleep ${WAIT}
done
echo " "
echo "---> all done" >>${LOGFILE}
echo "---> all done"
fi

161 ：153：03/01/06 14:55

HOMEDIR=/home/hoge/documents/data
を適当に書き換えて
mkdir $HOMEDIR/test-dir
./get.sh dat test-dir pc.2ch.net unix 3
で使えると思う(freebsd以外は不明)。
２度目からは
./get.sh dat test-dir pc.2ch.net unix 3 -c
で差分だけとってこれる。

162 ：名無しさん＠お腹いっぱい。：03/01/06 15:20

あらほんと。
で、にちゃんの鯖に負担かけないように、前回収得した所からの差分だけ
拾いたいんだけど、どうやるの？

163 ：名無しさん＠お腹いっぱい。：03/01/06 15:24

うーん、
cgiから差分だけ拾うのと、datを全部拾って差分を調べるのとではどっちがいいんだろ？
てか、dat拾う方がいいんだろうなぁ。作りなおしてみるか。

164 ：153：03/01/06 15:42

>>162
wgetのオプションで俺が使えると思うのは。
-c 　　　　　　ファイルサイズを見て、増加分だけダウンロードする。
-N 　　　　　　タイムスタンプを見て、ファイルが更新されていたら、（ファイルすべて）をダウンロードする。
-nc 　　　　　　ファイルが存在したら、ダウンロードしない。（接続もしない）
-t 3 　　　　　　失敗したときの再トライ回数(デフォルトは２０なので、３ぐらいに設定したほうがよいと思う)
-x　　　　　　　ディレクトリを作って、URLを再現する
　　　　　　　　　（例 http://pc.2ch.net/unix/dat/0000000.dat → ./pc.2ch.net/unix/dat/000000.dat ）
-nd　　　　　　-xの逆、ディレクトリを作らない。（-rは同時に-xが有効になるけど、-ndをつけるとディレクトリを作らない）
-i link.txt　　ファイルからURLを読み込んでダウンロードする。　　　　　
-nv　　　　　　ダウンロードメッセージをいくらか静かにする。
-A acclist,
--accept=acclist　acclistで指定した拡張子(?)のみダウンロードする。,で区切る(?)
-U "Mozilla/4.0"　ユーザーエージェントをちょろまかす。
-P PREFIX

--progress=dot ダウンロード中のメッセージスタイルを変更。
-o hoge.txt 　　ログファイル（上書きしてしまう）
-a hoge.txt 　　ログファイル（追加から書く）

-r　　　　　　　　リンクをたどり、再起的に取る（ただし、別のホストはダウンロードしない）
-w 3　　　　　　再起的にとる場合のダウンロードしたときの待ち時間
--no-parent 　再起的にダウンロードする際、親ディレクトリから上はダウンロードしない。

-nd

165 ：153：03/01/06 15:44

>>164
失敗。

wgetのオプションで俺が使えると思うのは。
-c 　　　　　　ファイルサイズを見て、増加分だけダウンロードする。
-N 　　　　　　タイムスタンプを見て、ファイルが更新されていたら、（ファイルすべて）をダウンロードする。
-nc 　　　　　　ファイルが存在したら、ダウンロードしない。（接続もしない）
-t 3 　　　　　　失敗したときの再トライ回数(デフォルトは２０なので、３ぐらいに設定したほうがよいと思う)
-x　　　　　　　ディレクトリを作って、URLを再現する
　　　　　　　　　（例 http://pc.2ch.net/unix/dat/0000000.dat → ./pc.2ch.net/unix/dat/000000.dat ）
-nd　　　　　　-xの逆、ディレクトリを作らない。（-rは同時に-xが有効になるけど、-ndをつけるとディレクトリを作らない）
-i link.txt　　ファイルからURLを読み込んでダウンロードする。　　　　　
-nv　　　　　　ダウンロードメッセージをいくらか静かにする。
-A acclist,
--accept=acclist　acclistで指定した拡張子(?)のみダウンロードする。,で区切る(?)
-U "Mozilla/4.0"　ユーザーエージェントをちょろまかす。
-P PATH　　PATHを基準にファイルを保存

--progress=dot ダウンロード中のメッセージスタイルを変更。
-o hoge.txt 　　ログファイル（上書きしてしまう）
-a hoge.txt 　　ログファイル（追加から書く）

-r　　　　　　　　リンクをたどり、再起的に取る（ただし、別のホストはダウンロードしない）
-w 3　　　　　　再起的にとる場合のダウンロードしたときの待ち時間
--no-parent 　再起的にダウンロードする際、親ディレクトリから上はダウンロードしない。

166 ：153：03/01/06 15:55

WINDOWSのiriaとか見たいに、帯域制限してダウンロードすることができないか、
は調べたことあるけど、方法が見つからなかった。wgetではできないのでは無いかと思う。
代わりには、-wで制限するか、スクリプトの中にsleepを入れる方法があると思う。

あと画像ファイルを落とすとき、-x と -nc を組み合わせて使ったら、同一のファイルをダウンロードする問題はなくなると思う。

>>158-160の欠点は、あぼーんでlogが詰まったら、不適切なところから、ダウンロードを開始してしまうため、
変なdatファイルを作ってしまう。これは-Nですべてをダウンロードしなおせばいいけど、負荷が増える。

>>163
うーん、-nc -x オプションで、すでにダウンロードしてあるファイルをダウンロードしないようにするか、
もしくはwgetで何バイト目からを指定して、別ファイルにダウンロードすることができるような、オプションがあるかも..

167 ：153：03/01/06 15:59

>>162
wget -c で増加分をダウンロードできるらしいです。
これは、ダウンロード途中でコネクションが切れたりして、
あとからその続きからダウンロードしたい場合にも使えるようです。
遠くのftpサーバとかに使えます。

168 ：名無しさん＠お腹いっぱい。：03/01/06 16:45

>>167
さんくすこ。
スレログとらなくても、リンクさえ拾えれば大丈夫だからねぇ、
あぼーんされても大丈夫だと思う。
というわけで、増分だけ拾うようにしますわ。

169 ：名無しさん＠お腹いっぱい。：03/01/06 18:57

このスレでやるな。

170 ：名無しさん＠お腹いっぱい。：03/01/06 18:59

>>169
何を？なぜ？

171 ：1：03/01/06 19:18

dat落ちするかとおもったけど
なんかまたあがってきてるんで
ひさびさにバージョンアップしようかな

というか、つかってる人（使う人）とかいるんでしょうか？

172 ：名無しさん＠お腹いっぱい。：03/01/06 21:10

つくった。
けど、htmlから拾ってるから効率悪いよ。
http://homepage3.nifty.com/wahya/

173 ：名無しさん＠お腹いっぱい。：03/01/06 21:15

>>172
君のPCの時計ずれてない？

174 ：名無しさん＠お腹いっぱい。：03/01/06 21:18

>>173
え？どこ？
さっき作ったばかりだからおかしいところあったら指摘して～

>>171
>>1さんｷﾀ━━━━━━(ﾟ∀ﾟ)━━━━━━━!!!!!

175 ：名無しさん＠お腹いっぱい。：03/01/06 21:19

>>171
つか、使うかどうかより、自分で作ってみるのも楽しいのかも。
１さんのも参考にしたいのでオネガイシマス。

176 ：名無しさん＠お腹いっぱい。：03/01/06 21:21

>>174
いやこんなんでたから。
ゴミレススマソ。
---
get2ch_v006/get2ch.pl
tar: get2ch_v006/get2ch.pl: time stamp Jan 7 21:00 2003 is 85213 s in the future
get2ch_v006/get2chrc.txt
tar: get2ch_v006/get2chrc.txt: time stamp Jan 7 21:00 2003 is 85213 s in the future
get2ch_v006/readme.txt
tar: get2ch_v006/readme.txt: time stamp Jan 7 21:00 2003 is 85213 s in the future
get2ch_v006/subback2subhash.pl
tar: get2ch_v006/subback2subhash.pl: time stamp Jan 7 21:00 2003 is 85213 s in the future

177 ：名無しさん＠お腹いっぱい。：03/01/06 21:24

>>176
・・・なんかちょうど1日ずれてるような。

178 ：名無しさん＠お腹いっぱい。：03/01/06 23:34

て優香、wget使わなければforkしなくていいからActivePerlでも使えるようになるし、
Irvineでも使えばwgetよりはるかに効率的に収集できるし。

あーあ、UNIX板で気付いちゃいけないことに気付いちゃったよ。

179 ：名無しさん＠お腹いっぱい。：03/01/07 10:03

萌え板を監視するスクリプトも(　ﾟдﾟ)ﾎｽｨ…

180 ：名無しさん＠お腹いっぱい。：03/01/07 11:41

>>179
萌え板を監視、って具体的に何できればいいんだ？
と優香、萌え板って何？ファイヤーウォールのこと？

181 ：名無しさん＠お腹いっぱい。：03/01/07 12:52

>>178
soretteCUI?

182 ：179：03/01/07 13:06

説明不足でした。

こんな感じの掲示板です。
http://www9.xdsl.ne.jp/~w2web/moe/moelinks.html

萌々ぼ～どって言うのかな？
ソノテの人の画像アップ掲示板として広く使われてるみたいです。

欲しいのは画像をいっきに落とす・・ですが
できたら全てのページをログも含めてHDに保存できるのが好ましいです。

183 ：名無しさん＠お腹いっぱい。：03/01/07 13:32

>>182
そうか、wgetの-rオプションだけでは画像アップローダーの
２ページ目以降のがとってこれないのか...
うーむ

184 ：名無しさん＠お腹いっぱい。：03/01/07 14:57

>>182
なるほど。理解した。
VBスクリプトなら、次のページをめくるボタンを押すスクリプトが簡単に書けるけど、
Perlとかだとどうやってやるんだろ？

185 ：名無しさん＠お腹いっぱい。：03/01/07 14:58

wgetでpostできるようにするパッチあるよ
ttp://pluto.im.uec.ac.jp/~sekita-n/prog/
CGIを激しく呼び出してアク禁喰らっても知らないけど

186 ：名無しさん＠お腹いっぱい。：03/01/07 15:03

>>184
cgiを読んだら、POSTを送ることでページをめくるようになってた。
perlだったら直接サーバと繋いで、POSTを直接送ればできるのでは？
またはhttp://hoghoge/moemoe.cgi?page=3でページを直接指定して(GETでも)ページを開けるらしい。

ところでwgetでPOSTを送ることってできないよね？（wget厨ですまそ）

187 ：186：03/01/07 15:05

>>185
リロードしたらみました。
すまそ。試してみます。

wget以外でPOSTを簡単に送れるツールを以前どこかで見たことあったけど。。

188 ：名無しさん＠お腹いっぱい。：03/01/07 15:57

curl使え

189 ：名無しさん＠お腹いっぱい。：03/01/07 17:03

>>181
Irvineもコマンドラインから使えるけど。
irvine list.txt　で、URLリストを入れられる。
cronで回すのでなければ、Win上でやったほうが簡単かも。

190 ：名無しさん＠お腹いっぱい。：03/01/07 19:44

⊂⌒~⊃｡Д｡）⊃

191 ：名無しさん＠お腹いっぱい。：03/01/07 21:57

その萌え萌えなんちゃらってやつな、moemoe.htmlと同じディレクトリにある
moemoe.logってのがログファイルだからそれ落とせ。画像のURLも載ってるから。
CGI叩くのやめれ。

192 ：名無しさん＠お腹いっぱい。：03/01/08 01:46

>>172
なんかデリられてるみたいなんで差異うpキボンヌ、クレクレ君でスマソ

193 ：名無しさん＠お腹いっぱい。：03/01/08 01:51

>>187 w3m

194 ：名無しさん＠お腹いっぱい。：03/01/08 09:32

>>192
ゴメソ。
cgiからｹﾞﾄｰしてるので下手するとアク禁になっちゃうから今消してる。
もうすぐ次バージョンうｐするからまってて～(;´Д`)

195 ：名無しさん＠お腹いっぱい。：03/01/08 14:37

>>193
それだ！

196 ：名無しさん＠お腹いっぱい。：03/01/08 21:35

>>192
うｐしたよ～
急いで書いたからちゃんと動くかわからないけど。

197 ：名無しさん＠お腹いっぱい。：03/01/08 21:49

>>196
さっきの動かなかったから、差し替えますた。

198 ：名無しさん＠お腹いっぱい。：03/01/08 22:46

>>197
まだ時計がずれてない？（ｗ
勘違いだったらスマソ。

ちょっと読んで気になったのは、
スレッドの差分を取ってくるときのwgetのオプションで-cと-ncの両方を指定しているけど、
これって両方あったらまずくないの？>>165
あと、datファイルを連続してダウンロードしたら、2chの負荷が大きくなってまずいと思うけど..

199 ：名無しさん＠お腹いっぱい。：03/01/08 22:50

>>198
あらほんと。
-cと-nc一緒に書いちゃってるけど、一応動いてるし、ダウンロードの
速さからして差分だけ落としてるように思ふ。
て優香、汚いソースを丁寧に読んでくれてありが㌧
datは差分だけ落としてるから連続ダウソも大丈夫かと思ったが、
やっぱヤバイかね？間隔あけた方がいいかな？

200 ：名無しさん＠お腹いっぱい。：03/01/08 22:52

あと、wgetのダウンロード速度が遅くていらつくんだけど、なんか解決方法
ありませんか？

201 ：名無しさん＠お腹いっぱい。：03/01/08 23:02

>>199
いや、ちょっとmonazilla関係のスレをよんでたら、
いかにサーバの負荷を減らすかいろいろ考えられていて、
この、datファイルを総ざらいするのも極力避けた方がいいかと思ってきた。
やるとしても、負荷の低い時間帯にかなり間隔を開けて行った方が良いかと...

>ダウンロードの
>速さからして差分だけ落としてるように思ふ。
-ncはすでにファイルが存在したら、ダウンロードしないので、ダウンロードされていない可能性は？

202 ：名無しさん＠お腹いっぱい。：03/01/08 23:16

>>201
今 -nc消したやつをうｐしたよ。
だけど、-nc消したらなんだか速度が遅くなったような・・・
あと、日時がバグってるのはアーカイバーがおかしいらしいことが分かったよ。
だからｷﾆｼﾅｰｲ

>datファイルを総ざらいするのも極力避けた方がいいかと思ってきた。
なるほど。一応スレのレス数見て更新されてるか確認してから各スレの差分をダウソ
するようにしてるけど。もっと負荷を減らす方法ないでつかね？
cronで回すなら、10秒おきに更新されてるスレを1スレずつ巡回みたいなことも考えられるけど。

>-ncはすでにファイルが存在したら、ダウンロードしないので、ダウンロードされていない可能性は？
一応ダウンロードされてるようだが・・・謎。
まぁ直したし。

203 ：名無しさん＠お腹いっぱい。：03/01/08 23:19

>>202
速度で判断するより、wgetのログをちゃんと見た方がはっきりするかと...

204 ：名無しさん＠お腹いっぱい。：03/01/08 23:27

>>203
-ncつけてるやつはログが消えちゃったけど、-nc消したやつのログみたら
全部落としてるみたい・・・鬱

205 ：名無しさん＠お腹いっぱい。：03/01/09 01:58

(´-`).｡oO（画像掲示板から落とした方が簡単なのに、なんでだろう…）

206 ：名無しさん＠お腹いっぱい。：03/01/09 16:19

こんなのもあったり
http://j2ch.free-city.net/

207 ：名無しさん＠お腹いっぱい。：03/01/09 19:32

>>205
ｿﾚﾀﾞ━━━━━━(ﾟ∀ﾟ)━━━━━━━!!!!!
にちゃんねらがよく利用している画像掲示板を巡回すれば、良質なｼﾞｪｲﾍﾟｰｸﾞが
集まるよな。
>>206
同一のアドレスがたくさん・・・sortしてuniq通せよな～、と。

208 ：名無しさん＠お腹いっぱい。：03/01/09 20:05

>>206
さらに１時間更新とか...
どんなシステムか気になる。

>>207
Windowsでは画像掲示板を巡回して画像をダウンロードするソフトを聞いたことあるけど、
人参収穫か大根収穫とか名前だったか...
まあ、crontabで自動で回してみたい

209 ：名無しさん＠お腹いっぱい。：03/01/09 21:08

>>208
これか？
人参自動収穫機
http://ninjinclub.tripod.co.jp/

210 ：名無しさん＠お腹いっぱい。：03/01/09 23:41

この画像掲示板はPOSTじゃないと見れないみたいなんですが、w3m等の
POSTがしゃべれるツールで画像をダウンロードする方法が分からないのですが、
分かる方いらっしゃいませんか？

ttp://sss.direct.ne.jp/nuke/bbs.cgi

211 ：名無しさん＠お腹いっぱい。：03/01/10 01:23

>>210
とりあえず>>191の様にログが保存されていないか探してみるとか？
imgboardはデフォルトではfile.dat、fileback.datって名前だったような...
ただ、ログファイル名変えてたり、アクセス権を切っている可能性があるので（俺もだけど）
このばあいは>>209を試してみるとか？
下手にperlでPOSTを送ったりするのはやめた方がいいと思う

212 ：名無しさん＠お腹いっぱい。：03/01/10 01:25

>>210
てか、右クリック→名前を付けて保存ではいけないのか？
もしくはman w3m

213 ：名無しさん＠お腹いっぱい。：03/01/10 02:00

ぷ

214 ：名無しさん＠お腹いっぱい。：03/01/12 14:20

>>210
上のほうで出てるパッチを当てたwgetだとこんな感じ？

#!/bin/bash
url="http://hoge.com/hoge/imgboard.cgi??page="
img="/hoge/img-box/"
lastpage=10
i=0

while [ $i -lt $lastpage ]
do
i=`expr $i + 1`
echo $url$i >> list.txt
done

wget -r -w 1 -I $img -i list.txt -o wget.log
rm -f list.txt

215 ：age2ch.pl 0.03.28：03/01/12 16:20

保守

216 ：名無しさん＠お腹いっぱい。：03/01/12 23:06

>>241
普通に
wget "http://hoge.com/hoge/imgboard.cgi?page=2"
でもいけない？

>>215
それはやめとけ。
下手したら悪禁になるかもしれないらしい

217 ：山崎渉：03/01/15 12:59

（＾＾）

218 ：名無しさん＠お腹いっぱい。：03/01/24 15:59

java版を作ってみますた。

http://gobo.free-city.net/

※javaの実行環境が必要です。
※Windows、Macでも動くかも。

219 ：あぼーん：あぼーん

あぼーん

220 ：あぼーん：あぼーん

あぼーん

221 ：名無しさん＠お腹いっぱい。：03/01/25 17:42

>>218
ネタでつか？
鯖がみつかりませぬ・・・

222 ：218：03/01/26 00:18

あれ？確かに見つかりませんね...。
って、鯖ごと落ちてる？

昨日まではアクセスできたのにな。今日話題になってるSQLPの影響かなぁ？

223 ：名無しさん＠お腹いっぱい。：03/01/26 00:43

>>222
ここでは話題になってないのかな・・

ttp://dailynews.yahoo.co.jp/fc/computer/internet/

224 ：218：03/01/26 09:12

>>221
たった今、鯖が復帰していることを確認しますた。よろしくおながいします。
いちお、間借りしたところは、

The site gobo.free-city.net is running Apache/1.3.27 (Unix) on FreeBSD

なので今回の騒ぎで落ちちゃったわけではなさそうですが。

225 ：名無しさん＠お腹いっぱい。：03/01/31 10:59

どうやらUAをいじらないとdatファイルを直接getできなくなったらしいが

226 ：山崎渉：03/04/17 12:33

（＾＾）

227 ：あぼーん：あぼーん

あぼーん

228 ：名無しさん＠お腹いっぱい。：03/04/21 02:09

↑山崎、必死だな(笑

229 ：名無しさん＠お腹いっぱい。：03/04/28 15:53

UNIX コマンドだと標準で巡回コマンド付いてきますが、何か？

230 ：名無しさん＠お腹いっぱい。：03/05/06 16:55

Mac OS 10.2 のターミナルで実行しました
そしたら、
pl {-input <binary_file>} {-output <binary_file>}
Reads ASCII PL from stdin (or serialized file if -input specified)
and writes ASCII PL to stdout (or serialized file if -output)
なんて出ちゃって、もうわかりませぬ
どうかおしえてください。。。
おながいします。。。

231 ：あぼーん：あぼーん

あぼーん

232 ：名無しさん＠お腹いっぱい。：03/06/08 23:39

おお！
このスレまだ存在してたのか。
息が長いな。
山崎先生のおかげですね。

233 ：名無しさん＠お腹いっぱい。：03/07/08 00:31

>>185 のページ見れないんですが、引越し先知ってる人います？

234 ：名無しさん＠お腹いっぱい。：03/07/13 19:27

>>233
とりあえずWayBack Machineで拾えた

235 ：あぼーん：あぼーん

あぼーん

236 ：名無しさん＠お腹いっぱい。：03/08/10 04:45

age?

237 ：あぼーん：あぼーん

あぼーん

238 ：あぼーん：あぼーん

あぼーん

239 ：あぼーん：03/11/13 20:55

あぼーん

240 ：名無しさん＠お腹いっぱい。：03/12/17 05:13

ﾎｯｼｭ

241 ：名無しさん＠お腹いっぱい。：03/12/31 10:54

242 ：名無しさん＠お腹いっぱい。：04/01/08 02:45

あけましたおめでとう

243 ：名無しさん＠お腹いっぱい。：04/01/09 20:08

このスクリプト使ってみたよ。
板一枚で 7500 くらい画像がとれた。終わるのに丸一日かかったけど…。

244 ：名無しさん＠お腹いっぱい。：04/01/10 03:55

濃淡分布や周波数分布なんか使って、グロ画像や
虹板に紛れ込んだ三次元画像(これもグロ画像か…)を取り除きたいなぁ。
グロ画像は「怖くてみられないグロ画像を鑑定するスレ」があったね、
それを学習データにして……

マンドクセ

245 ：名無しさん＠お腹いっぱい。：04/01/14 21:43

>>244
一度やってみたいな。グロ画像はともかく、3次元(or2次元)排除なら
フーリエ解析+自動学習で割と精度がでるような気がするのだが。
例のベイジアンフィルタな感じで。さて…

246 ：名無しさん＠お腹いっぱい。：04/01/23 06:04

...

247 ：名無しさん＠お腹いっぱい。：04/02/13 19:29

248 ：名無しさん＠お腹いっぱい。：04/02/14 11:06

>>246 >>247 なんだよ保守か？何か書けよ！

249 ：名無しさん＠お腹いっぱい。：04/03/28 18:33

保守。

>>244みたいな感じで2次元画像の属性分けできればいいな。
濃淡分布や周波数分布の勉強にいいホームページor本教えてください。

250 ：名無しさん＠お腹いっぱい。：04/04/16 21:20

保守

251 ：名無しさん＠お腹いっぱい。：04/07/02 22:30

http://akinafreak.zive.net/imageThumbnail/showGazoKanList.action
2ちゃんから集めた画像を会員制にして公開

おまいら、これってどうよ

252 ：名無しさん＠お腹いっぱい。：04/07/02 23:46

>>251
責任を負っかぶることをものともしない猛者。

253 ：名無しさん＠お腹いっぱい。：04/11/13 08:59:12

エロエロage

254 ：pd34d81.tkyoac00.ap.so-net.ne.jp：04/12/16 11:13:43

（＾＾）

255 ：名無しさん＠お腹いっぱい。：04/12/16 11:25:24

何だ山崎渉か

256 ：名無しさん＠お腹いっぱい。：2005/04/05(火) 17:11:38

umu

257 ：login:root ◆GrsqjXpGxE ：2005/04/17(日) 22:09:41

>>1
とりあえず、使ってみる...
これはCGIか？ブラウザで実行しろと?

まぁ、Linuxしかインストールしていない漏れのPCにはありがたいがな。
鯖にうpしてみる。分からない事があると思うから、>>1教えてな!

258 ：login:root ◆GrsqjXpGxE ：2005/04/17(日) 22:15:48

ｳﾜｰｰｰｰｰﾝ
早速だが>>1よ。質問がある!
ディレクトリにある conf.txt は変更する必要があるのか?

$ita = 'http://choco.2ch.net/ainotane/';
$dir = './jpg';
$limit = 999;
$down = 2;

$ita は、２ちゃんの板のアドレスでおkなんだな？

259 ：名無しさん＠お腹いっぱい。：2005/04/17(日) 22:34:37

>>258
1じゃないけど、おｋだ

260 ：名無しさん＠通りすがり ◆.q7T9q3bHY ：2005/04/18(月) 01:11:41 BE:113184364-

クローラー＆過剰リロード対策スレ2【新バーボン】
http://qb5.2ch.net/test/read.cgi/operate/1113647422/

delayと差分はちゃんとね。

261 ：名無しさん＠お腹いっぱい。：2005/07/09(土) 14:24:53

test

262 ：名無しさん＠お腹いっぱい。：2005/07/09(土) 21:05:19

このスレまだあったのか。。。
懐かしい

263 ：名無しさん＠お腹いっぱい。：2005/07/17(日) 01:12:01

ああ、ずっとあるぜ

264 ：名無しさん＠お腹いっぱい。：2005/08/15(月) 02:33:24

イメージサーチャーモナー?

ttp://www.abars.biz/search/

265 ：名無しさん＠お腹いっぱい。：2005/11/13(日) 22:53:23

一度でもdownloadしたファイルをmd5sumしてsum値のリストどっかテキスト
に保存しといて、同じsum値のファイルを二度とdownloadしないように
してくれる重複避け機能を追加してください。

266 ： ◆9Xm6zmxuk. ：2006/11/06(月) 22:12:55

つ

267 ：名無しさん＠お腹いっぱい。：2007/11/13(火) 23:55:48

vdvdvdv

nfdfdnfdn

fhffhh

jrtyjr

yteryery

yeryer

268 ：名無しさん＠お腹いっぱい。：2008/02/22(金) 11:12:57

保守する必要ある？

269 ：名無しさん＠お腹いっぱい。：2009/08/01(土) 09:16:08

何だこのスレw

270 ：名無しさん＠お腹いっぱい。：2010/11/18(木) 21:04:12

よし！！

271 ：忍法帖【Lv=3,xxxP】：2011/06/09(木) 22:47:57.83

???

272 ：忍法帖【Lv=3,xxxP】：2011/06/16(木) 00:56:59.34

test

273 ：忍法帖【Lv=13,xxxPT】：2011/07/02(土) 19:27:11.02

test

274 ：忍法帖【Lv=4,xxxP】：2011/07/06(水) 23:00:24.79

test

275 ：忍法帖【Lv=13,xxxPT】：2011/07/09(土) 15:57:54.67

test

276 ：忍法帖【Lv=3,xxxP】：2011/08/16(火) 17:34:25.85

どどとどと

277 ：名無しさん＠お腹いっぱい。：2011/08/27(土) 20:43:51.62

渋の画像ぶっこ抜きスクリプト、要る？

278 ：忍法帖【Lv=38,xxxPT】：2011/08/28(日) 09:52:34.12

test

279 ：名無しさん＠お腹いっぱい。：2011/09/09(金) 20:42:51.45

てーすと

280 ：名無しさん＠お腹いっぱい。：2011/10/06(木) 00:30:03.20

てｓｔ

281 ：電脳プリオン忍法帖【Lv=40,xxxPT】(3+0：8) 【28m】：2013/02/11(月) 23:44:32.85 BE:820951799-PLT(12080)

10年以上更新してたのか

282 ：名無しさん＠お腹いっぱい。：2013/02/13(水) 15:50:37.06

>>265
ソース公開されてるんだから自分でヤレ。
ってすげー前のレスだった・・・。

283 ：名無しさん＠お腹いっぱい。：2013/03/22(金) 21:42:30.18

　　　　　 _
　　　　　 |O＼
　　　　　 |　　＼　ｷﾘｷﾘ
　　　　∧|∧ 　　＼　ｷﾘｷﾘ
ｸﾞｸﾞｩ>（；⌒ヽ　　　＼
　　　　∪　　|　　　　(~)
　　　　　∪∪　　 γ´⌒｀ヽ
　　　　　）　）　　　{i:i:i:i:i:i:i:i:}
　　　　（　（　　　　(　´･ω･)、
　　　　　　　　　　　(O ⌒　)O
　　　　　　　　　　⊂＿)∪

284 ：名無しさん＠お腹いっぱい。：2013/10/13(日) 00:05:36.16

懐かしい

285 ：名無しさん＠お腹いっぱい。：2014/07/14(月) 17:55:10.21

http://imgur.com/roeuS4F.jpg

286 ：島本町で凄惨なイジメを受けて廃人になった方へ：2014/08/06(水) 20:02:47.91

＞大阪府三島郡島本町の小学校や中学校は、暴力イジメ学校や。
島本町の学校でいじめ・暴力・脅迫・恐喝などを受け続けて廃人になってしもうた僕が言うんやから、
まちがいないで。僕のほかにも、イジメが原因で精神病になったりひきこもりになったりした子が何人もおる。
教師も校長も、暴力やいじめがあっても見て見ぬフリ。イジメに加担する教師すらおった。
誰かがイジメを苦にして自殺しても、「本校にイジメはなかった」と言うて逃げるんやろうなあ。
島本町の学校の関係者は、僕を捜し出して口封じをするな

＞島本町って町は、暴力といじめと口裏合わせと口封じの町なんだな

子供の時に受けた酷いイジメの体験は、一生癒えない深い傷になるなあ

「暴力とイジメと口裏合わせと口封じ」の町やそういう町に巣食うヤクザ・チンピラ・ゴロツキ・不良・
いじめっ子・ダニ・ノミ・シラミなどを監視して非難するのは暮らしやすい町を作るのに必要だ