ここに触発されて、新入社員の教育(3日連続)のシメに 某エロサイトのhtmlから直リンクを生成せよっていう課題を出した。 最初は誰もその真意を理解せずにノホホンとスクリプト組んでたが、 暇つぶしに利用法を語りだすとだんだん真剣にキーを叩くように。 時間が終わった後も、応用例や疑問点等、最初の2日間適当に流して 理解しなかった点についてもしっかりと押さえようと彼等は真剣に 質問してきた。 また、もし時間が余った場合に備えてもう2本ほどhtmlを用意してた が、それらは彼等への自習用としてあげたら喜んで残業してスクリプト を組んでいた。 来年もこれでやろ。
>>287 新人が喜んでるならいいんだけどね。
そうでないとまずいかもね。
たとえ新人が男でも。
ああ確かにこういうの、男でもイヤがるひといるね。 2ちゃんねらーなら、ヤなものは無視するだけだろうが(w
マジメな課題も用意してたんよ、糞つまらんけど半日かかる奴いくつか。 さすがに女性参加だとやらんかったけど、男ばっかで新入社員ってノリ 良いし。 んで、演習に使ったのはhtmlファイルだけで、職場自体がモロ画像を手に 入れることのできるネットワーク環境じゃないんで、「会社で作って寮か ツレのところへ持ち込め!」ってやったら気合入れてやってたよ。 んで、さらに一人残業してた奴は 「いや、これ後30分で持っていくってインターネットやってるツレに電話 したからどうしてもやんないと!」 そいつ、今、俺の弟子やってます(笑)。
293 :
名無しさん@お腹いっぱい。 :02/04/07 16:09
294 :
名無しさん@お腹いっぱい。 :02/04/07 16:32
社会人になったら
>>286 みたいな先輩がほしいなぁ。
295 :
名無しさん@お腹いっぱい。 :02/04/07 17:13
おれも新人研修やるんだけど.. 新入社員に女子がいるし、人事の女にもチェックされるんだヨウ... 女性用にホモ画像サイトも用意してやるか..
若い子には猫の写真とか。
>>295 ホモは奥が深くて難しい。安全にショタ系にすれ。
>>293 ちょっと前までサーバ上に名作、迷作の回答あったんだけど、弟子にUNIXの
バックアップ・リストアの実演やらかした時に消しちゃったい。
各自で保存しているらしいから、そのうちちょっと聞いてみるけど。
結構面白いのもあったんだけどね。
ただ、特に仕様らしい仕様も出さなくて、「とにかく直リンクがコマンド一発で
抜き出せればOK」だったので、そのhtmlファイル依存しまくりのスクリプト
だらけだったよ(当然か)。
でも、その某サイトは同じ格好のhtmlが数百本あるから、スクリプトを時間
かけて作成するだけの価値が彼らにはあったと信じる(笑)。
>>296 安全牌としてそのテも考えていたんだけど、スクリプトを使って大量
ダウンロードできるだけのボリュームがあるサイトを見つけられなかった。
今後の安全牌として、どこか紹介していただけるとありがたいです。
>299 お、まとまったサイト紹介、ありがとさんです。 細切れになってるからリンクマジメに辿るとかだと大変かも。 でも安牌にさせてもらいます。
301 :
名無しさん@お腹いっぱい。 :02/04/14 12:36
#!/usr/bin/perl # # index.pl # ネスケで一覧するのを提案します。 # ノーチラス使えない環境の人には良いかも。 # このスレひととおりみたけどこういうのはまだ出てないみたいだったので。 # 小さくすればグロ画像もこわくないですし。 # file:/home/ero/wget/index.html とかして使用すます。 # # 画像のたまったディレクトリで ./index.pl > side.html # index.html として下のを用意 # body.html は無くて良い # #index.html #<HTML> #<FRAMESET COLS='20%,*'> #<FRAME SRC='side.html' NAME='side' SCROLLING='auto'> #<FRAME SRC='body.html' NAME='body' SCROLLING='auto'> #</FRAMESET> #</HTML> # print '<html><body>'; @_=`ls -t`; # `ls -S ` などもよろしいかと $dir=`pwd`; # chomp してももちろん可 foreach ( `ls` ){ chomp; print "<a href='file:$dir/$_' target='body'><img src='$dir/$_' hight='100' width='100'><br>\n"; } print "</body></html>\n";
`ls` は @_ のまちがいです。 今はじめて気がついたよ。。。
Perl使わなくても、プロンプトから ls *.jpg|sed 's/\(.*\)/<a href="\1" alt="\1"><img src="$1" height=100 width=100></a>'>hoge.html とする程度でいいんじゃない?
しまった。こうだな。 ls *.jpg | sed 's%\(.*\)%<a href="\1" alt="\1"><img src="$1" height=100 width=100></a>%' > hoge.html
画像の下にダウンロード元の URL 表示できるようにしたりとか、 機能拡張を予定しているので。。。 またそれがここに載せた理由です
がんばれ301さん。 あげ
307 :
名無しさん@そうだドライブへ行こう :02/04/14 20:27
>>304 typoかな?
ls *.jpg | sed 's%\(.*\)%<a href="\1" alt="\1"><img src="\1" height=100 width=100></a>%' > hoge.html
^^^
ずれてる。 鬱氏。 img src のとこね。
309 :
名無しさん@お腹いっぱい。 :02/04/14 21:09
ぽこにゃん方式の詳細どこかにありませんか? 復元するソフト書こうと思ってるんだけど。
310 :
名無しさん@お腹いっぱい。 :02/04/15 02:48
>309 ぽこにゃんの仕様は公開されていませんが、作者に請求すれば手に入ります。 作者が生きていれば。 3年ほど前、そうやって作られたUNIX用の実装がありましたが配布元は死んでいました。 BBSが動いていたのには驚きました。(^_^;)マァヴ
この遊びをはじめて今日で3日。 やはりグロ画像が怖い、怖すぎる。 小さくしてもやっぱ厭だ。 だが、どうやら種類はそれほど多くないらしい、毎回同じ奴が出る。 @exceptionurls とかして、予め登録するやり方が有効かもしれない、 とコメントだらけの 2ch.pl と index.pl を覗く夜。 ...abortion.mpg いります?
>>1 ありがとさん。
バッチかけて大量の画像集めてみました。
FLASH集めにも使えそうですね。
しかし、ツールのせいじゃないんだけど2chて怖い画像多すぎだな。
313 :
名無しさん@お腹いっぱい。 :02/04/23 17:40
age
314 :
名無しさん@お腹いっぱい。 :02/04/30 00:41
age
315 :
名無しさん@お腹いっぱい。 :02/04/30 01:37
俺はこの時だけのためにzshをいれている。 もち、 ふだんtcsh,シェルスクリプトsh
>315 奇遇だな、俺もだよ。
wget でさ 302 に反応するの止められないかな
恥ずかしい動機でパッチ作る漏れ
しごく無理矢理に。 #!/bin/sh prefix=`echo $1 | sed 's/\[.*//'` suffix=`echo $1 | sed 's/.*[0-9]*\]//'` area=`echo $1 | sed 's/[^\[]*\[//' | sed 's/\].*//'` start=`echo $area | sed "s/-.*//"` finish=`echo $area | sed "s/.*-//"` figure=`echo $finish | wc -c` figure=`expr $figure - 1` get_filename() { num=$1 num_fig=`expr $num | wc -c` num_fig=`expr $num_fig - 1` zero="" if [ $num_fig -lt $figure ] then pre0=`expr $figure - $num_fig` #zero="" while [ $pre0 -gt 0 ] do zero=`echo 0$zero` pre0=`expr $pre0 - 1` done fi echo $prefix$zero$num$suffix } while [ $start -le $finish ] do wget `get_filename $start` start=`expr $start + 1` done
月イチくらいでこのスレチェキするの、実は楽しみ。 保守sage
age
322 :
名無しさん@お腹いっぱい。 :02/05/19 14:25
>309 wine Pokonyan.exe で十分。
スプールディレクトリにファイルのリストを書いたファイルをぶちこむと 勝手に読みこんでwgetしてくれるデーモンがあれば便利なような気がした。
>>323 それくらいチョチョイと作れよという気がした。
スクリプトで定期的に回すだけでも十分な気もした。
#!/bin/sh savedir="save" listdir=~/spool/ wgetopt="-q" list=$listdir`ls $listdir | head -qn 1` while [ $listdir != $list ] do if [ -s $list ] ; then file=`head -qn 1 $list` wget $wgetopt -P $savedir $file echo -e '1d\nwq' | ed -s $list else rm $list list=$listdir`ls $listdir | head -qn 1` fi done #回す内容だけ作ってみたが、定期的に回すやり方が分からんかった
最後に自分自身をatする
>>326 さんくす
こんなかんじでいいのかな?
echo $0 | at now + 1 minutes
at使う方法もあるってだけ。 cronのほうがいいでしょ。
329 :
名無しさん@Emacs :02/05/24 15:57
zshで数字の場合は{00..99}とかすればいいけど {a..z}みたいにアルファベットの場合はどうすればいいの?
ruby -e '("a".."z").each{|i| puts i}' とか? Ruby使うのは反則気味かな。
ていうか ruby でダウンローダ書くべし。。。
http://susume.free-city.net/ 以下のファイルがwgetでどうしても落とせません。
htmlファイルもです。
refererの設定をしてもエラーのhtmlファイルを拾ってくるだけで
目当てのファイルが落とせないのです。
ariaでやるとrefererありでもなしでも落とせました。
どうやればwgetで落とせますか?
>>332 朝っぱらから同人誌かよ (w
さらに `-r -A jpg ' で何ごとも無く落とせるじゃ~ないか
free-cityはRefererがhtmlで終わっていないとエラーになる仕様。 ディレクトリやhtmでは駄目。
free-city、面倒だからたまに referer に落としたい画像そのもの(.jpg)を指定するけど、大丈夫だよ。
要は指定した拡張子しか置けなくて、置けるものがRefererになっていないと駄目ということかな。
ついでに、 wget [オプション]... [URL]... だな。 wget [URL]... [オプション]... じゃなくて。 -m とか -r とか、その辺りもちゃんと調べるように。
こういうことやるには、HTTP とか CGI とか Javascript とか HTML にも精通していると 困ったときに色々と助けになる。 ダウンロードばっかりしてないで、せっかくの良い機会だから RFC とかも読んでみるといい。
>>341 =332
339さんの記事、読んでるのか?
少し落ち着けよ。
∧∧ (゚Д゚ ) ⊂ ヽ / ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ 〉 ノノ~ < それは1.8。 ∪∪ \______________ >332 >Refererが送られないバグがあるバージョンがあったそうだが、、、
344 :
名無しさん@お腹いっぱい。 :02/05/30 17:51
ぐ、sageるべき記事だった。
一応事後報告。 Wget/1.4.5ではどうあがこうが、単体で落とせなかった。 が、 最新バージョンをためしたら、refererなしで難なく落とせました。 原因は今だ不明。 アドバイスくれた人に感謝。
332は逝ってよし
349 :
名無しさん@Emacs :02/06/11 23:31
zshで wget
http://www.aaaa.com/{01..12}.mpg とやるとURLが展開されファイルを落ちてくるのですが、このURLをテキストに書いて
wget -i hoge.list
としてもURLが展開されないです。
こういう物なのでしょうか?
リストを展開する方法を教えてくれたら動画プレゼント。
>>349 {01..12}.mpgを展開しているのは、zshです。
ちなみに複数のURLがあった場合一発でするには?
>>354 なるほど。↑なスクリプト書くより簡単ですね。
書いた本人が言うのもなんだけど、この動画あんまりよくないね。 今度はもっといいのを教えたる
シェルスクリプト勉強するのにエロ動画は最適。
いやはや、勉強になりマスタ、、、thx
正月そうそう、しかも21世紀の門出に
PGFのコレクションを思い立った
>>1 に感謝
>>363 1です。お褒めいただきありがとうございます。
365 :
名無しさん@お腹いっぱい。 :02/06/30 15:48
最近は yahoo で手古摺ってる。 どうにかならんもんかな?
画像ビューアで、 サイズを画面に合わせて表示してくれるときに ディザ (っていうの?) かけてくれるのってない? 縮小表示のときにぶさいくな顔になって萎えるときがあるんだけど。
367 :
名無しさん@お腹いっぱい。 :02/06/30 18:22
enfle
>>367 試してみたけど、縮小表示のときは
smoothing してくれないような。
|| Λ||Λ ( / ⌒ヽ | | | ∪ 亅| | | | ∪∪ : : ‐ニ三ニ‐
GQviewは?
同じように見えるなあ。
>>371 うん。
ImageMagick の display はリサイズすると smoothing してくれた。
でも「画面より大きい画像を縮小表示」機能が見つからない。
いちいち縮小率打ちこむのは緊急時には非現実的だ。
>>372 > 緊急時
ワラタ
ところで gqview は option で dithering の
具合を変えられるよ.
>>373 Image → Quality だね。
ヤター、ありがとう!
スライドショウのときは先読み (?) してくれるっぽいね。
画質優先にしてもあんまり遅くない。
よーし、今夜はがんばっちゃうぞー。
細かいこと考えないで
wget
http://hoge.jp/images/ero{0,1,2,3,4,5,6,7,8,9}{0,1,2,3,4,5,6,7,8,9}.jpg とか
たまにするよ
それ以上はperl のワンライナーでだいたい事足りるような
昔、レイトレーシングのプログラム組んでて知ったけど ディザリングとアンチエイリアスって考え方としては 別物なんだよね。 少ない色数で擬似的に多くの色を見せるのが (黄色と赤色を交互に並べて橙色に見せたりするのが) ディザで、 小さい物体を描く時にドット間に距離の差がでて 画像がガタガタに見える時に中間の色を混ぜて なめらかにするのがアンチエイリアスなんだよな。 似てるといえば似ているかな
神崎じゅりが今何やってるか知ってる人いない? 好きなんだけど…
vmware→win→irvine
382 :
名無しさん@お腹いっぱい。 :02/07/03 22:08
vmware→win→cygwin→wget
>311 >やはりグロ画像が怖い、怖すぎる。 1)いやな画像のcksum(1)やmd5(1)をリストに取っておいて、 2)落とした画像とコンペアして一致したらあぼーん てなロジック追加すればいいんじゃないの? cksumとか動作遅いけど、通信速度よりかは早いと思うからあんまし問題 にならんと思うけど。
グロはもう慣れた エロ画像じゃなかったという落胆しかなくなった でも最近初めて見るのだとちょっとうれしい
夢に出ないか?うなされないか?
>>378 ディザリングは高い解像度で擬似的に色数を増やす。
アンチエイリアスは多い色数で擬似的に解像度をあげる。
387 :
名無しさん@お腹いっぱい。 :02/07/05 13:39
しかし、wgetの逆ってないもんかしらねぇ。wgetしたエロエロを一気にFreeHPに放り込むのに使いたい。
PGFらしきの大量のリンクを発見したんだけど多すぎて挫折。
link のせてくれ!
>389 linkのせてくれ! まだコンプリートできないんだ… あとPGFのオリジナルは画像が綺麗でサイズも大きいらしいね。 俺が持ってるのは再配布版ばかりで、画像がキチャナイ。
>392 やったー 51番目、よっつめのリンクが質が良い。
逃げろーをハメた奴はすごく勇気あるな
403.phpがでけるのって何故?
おもいっきり既出のrefererですた スレ汚しスマソ
とりあえず、俺もw3mをコアとしてcsh(苦笑)で直リンを2chの半角板から 吸い出す奴作ってみました。 (ソース?4行しかないしパイプつなぎまくりで恥ずいので非公開) そいつでダウンロード始めたんだけど、グロ怖いし画面小さいしでNetBSD 上じゃあやってられないってんで、WinXPのエクスプローラの縮小表示で 見ながら、今作業中です。 グロ耐性無いんで、もっとも安全パイっぽかった半角2次元板でテスト(W 今のところ100ファイル程度だけど、グロはまだ無いなー。
さらに、過去落としたURLと入手したURLとを比較するCのコードも書き、 重複したダウンロードも避けるように環境もだんだんと整えつつあります。まだ4日目なんでいい加減ですが、だいたい半角2次元板で300~500枚程度 の新規画像の投稿があるみたいです。#想像以上の新規投稿枚数...よくネタが続くもんだ。
401 :
名無しさん@お腹いっぱい。 :02/07/19 06:36
403 :
名無しさん@お腹いっぱい。 :02/07/29 22:29
dirs=`find . -type d` とかしたあとに、 $dirsの中のディレクトリをランダムに並びかえるにはどうしたら良いでしょうか? qivでエロ画像を見るのに必要なんです。(;´Д`)ハァハァ
405 :
名無しさん@お腹いっぱい。 :02/07/29 22:38
素直にインターネットニンジャ使ってます 画像も縮小表示されるしDL失敗したら指定回数リトライしてくれるしラクチン
>>403 qiv の --random とか --shuffle オプションは
使っちゃだめなの?
>>404 fehが susieに似ているらしいと聞いたので使ってみましたが、
ダメダメでした。(なんでダメダメだったのかは忘れた。)
>>406 私の場合はディレクトリで被写体(?)を分けているので、
そのオプションはこの場合使えません。
'find . -name "*.jpg"'の結果を qivしてもいいんだけど、
被写体がごちゃごちゃになっちゃうでしょ?
↓この時、qivに渡すディレクトリをランダムにしたいのさ。(;´Д`)ハァハァ
dirs=`find . -type d`
for dir in $1; do
echo $dir/* | xargs qiv -f -s -d 5
done
>>407 ミスった。
for dir in `find . -type d`; do
echo $dir/* | xargs qiv -f -s -d 5
done
漏れはInternet Ninjaの連番取込でやってるよ。ちょうかんたん。 UNIXと関係ないのでsage
410 :
名無しさん@お腹いっぱい :02/08/01 03:41
最近はエロ動画をダウンロードするスクリプトでがんばっています。 スクリプトほしい?
411 :
名無しさん@お腹いっぱい。 :02/08/01 03:48
スクリプトの出来次第だな。 とりあえずさらしてみそ。
長く、細く続くスレ
>>411 dogaloというHなサイトから最新動画を取り込むスクリプトです。
zshって知らないのですけど、これ使うともっと楽になるんでしょうね。
ご指導ください
----- get_dogalo.sh ----
#! /bin/sh -v
#
HPDIR=
http://www.hentaiplay.com HP=newdogalo.html
LIST=dogalo.list
SAVE_DIR=dogalo.d
touch $SAVE_DIR
/bin/rm -f $HP
wget -o /dev/null $HPDIR/$HP
getext gif $HP > $LIST
getext png $HP >> $LIST
getext jpg $HP >> $LIST
cd $SAVE_DIR; /bin/ls | sed -e 's,\(.*.\),g/\1$/s/.*//,' > ../ed.cmd; cd ..
echo w >> ed.cmd
echo "g/^$/d" >> ed.cmd
echo w >> ed.cmd
echo q >> ed.cmd
ed $LIST < ed.cmd
cd $SAVE_DIR; wget -o dogalo.log -D members.aol.com -c -t 0 -i ../$LIST
----- getext -------------
#! /bin/sh -v
EXT=$1
tr '<' "\012" < $2 | tr '>' "\012" | grep href | \
tr = "\012" | grep http | grep $EXT | sed -e "s/.*\(http.*$EXT\).*/\1/"
415 :
名無しさん@お腹いっぱい。 :02/08/01 14:51
416 :
名無しさん@お腹いっぱい。 :02/08/01 16:06
>414 perl とか zsh を使うとそういうのはとても簡単に処理できるけど、 とりあえず、シェルスクリプトで自分の知っているコマンドの組み合わせで 処理を書いてみるのも、きっかけは何であれ、いろいろと勉強にはなるな。 次の課題は、もう少しいろいろなサイト用にも応用ができるようにするのと、 処理をもう少し洗練させてみると良いのでは。 そのうち、JavaScript 使って変なことしているのや、Referer とか Useragent 見てアクセス制限しているサイトへの対応も簡単だからチャレンジしてみるといい。 さらにスキルがついたら、クリッカブルマップとCGI使って画像を直接見えない ようにしているサイトとか、ヤフブリみたいに変なことしているサイトは 個別対応になるけど、それなりにやり応えはあるだろう。 まあ、先は長い。がんばれ。
418 :
bash (linux厨だから) :02/08/02 12:04
>>413 'gcc shuffle.c'すると、以下のエラーが出ます。
getprogname()はいいとして、fgetln()ってどこにあるんでしょうか?
RedHat7.2、gcc-3.0.4 です。
shuffle.c: In function `get_lines':
shuffle.c:161: warning: assignment makes pointer from integer without a cast
/tmp/ccyouD03.o: In function `usage':
/tmp/ccyouD03.o(.text+0x145): undefined reference to `getprogname'
/tmp/ccyouD03.o: In function `get_lines':
/tmp/ccyouD03.o(.text+0x1f7): undefined reference to `fgetln'
collect2: ld returned 1 exit status
420 :
名無しさん@お腹いっぱい。 :02/08/03 01:33
>>417 $ grep ^http girls_list.html | while read i; do wget $i; done
グロ画像多過ぎて鬱。
>>421 虹板のリストを使ってみた。
6415のURLがリストアップされていて、実際にゲトできたのが2368。
うち、画像ファイルが2339、グロ画像(自分基準)が15。
容量は249746KB、所要時間が72分、平均転送レートが57.8KB/sでほぼ帯域いっぱい。
% du -sk * | sort -rn | head
68814 www.angelfire.com
20252 www.floralia.org
11720 www.42ch.net
7478 members15.tsukaeru.net
5375 www.moemoe.gr.jp
4640 www.momo-bbs.com
4637 210.153.100.60
NAT箱のテーブルがあふれるかと思った(w
424 :
名無しさん@Emacs :02/08/04 15:46
>>421 よさげだと思って半角板のリスト使ってみたが、ろくなもんないなあ。
ってかグロ多すぎ。
NNTPからごそっと落してきた方がいいや。
てか、そういう用途にはみなさん何使ってます?
FreeBSDのportsでいくつか探してるけど、
「これっ」ていうやつがない....
>424 努力を惜しむ奴には、いいところその程度だろう。
>424 「これっ」 世間一般に出回ってるのって、大抵リンクを追いかける奴だからねぇ。 漏れは手作りでcsh使ってやってたけど、質が揃わないため最近やる気が 失せた。 やっぱり>425の言うと降り、努力した方がいい物揃うというのは確かで、 URL生成するだけでは絶対たどり着けない鉱脈があちこちにあるから、 それ考えるとまぁスクリプトでの遊びだな、って思いますね。
>424 (A): URL だけ抜き出すスクリプト (B): 行をランダムで並べ返るスクリプト (C): fork & exec で 10 個くらい並列で D するスクリプト (D): wget or /usr/bin/fetch(FreeBSD) A-C を Perl で前に自作したんだけど、B がどっかいっちゃった。 >421 やる時に B 作り直そうと思ったら無限再帰 fork して... 面倒なのでさじなげますた。
で、端子さわって壊れる
>427 の (C) つくった。 OS によっては waitpid(PID, WNOHANG) ができないかも、 と perlfunc(1) に書いてありますた。 どなたか採点してもらえると幸せです。 #!/usr/bin/perl use strict; # FreeBSD -CURRENT の場合。他は知らん。 use POSIX ":sys_wait_h"; my $fetch_cmd = "wget -x"; my $max = 10; main(); sub main { my($pid, @slot); while(!eof()){ for(0..($max-1)){ if($slot[$_] != 0 and waitpid($slot[$_], &WNOHANG)!=0){ $slot[$_] = 0; } } for(0..($max-1)){ if($slot[$_] == 0){ my $url = <>; last unless defined $url; chomp($url); $pid = fork(); if($pid==0){ exec("$fetch_cmd $url"); } else { printf("Proc %d(%10d) fetching %s\n", $_, $pid, $url); $slot[$_] = $pid; } } } sleep(1); } for(0..($max-1)){ waitpid($slot[$_], 0); } }
430 :
名無しさん@お腹いっぱい。 :02/08/06 08:37
>429 常に10並列にはならずに、 10個まとめて起動しては、それらが全部終わるのを待ってから 次の10個を起動するというのは効率が悪いので、 空いたところからどんどん次のプロセスを起動するようにしてはいかがか。 私は、逆に、フリーのサーバにアップされた画像だと、 サーバーに負担をかけるとすぐに消されてしまうので、 wget -w 5 -i url-list みたいなのを、異なるサーバーの分を並列に走らせるのを好む。
すまん、前半は私の誤解だった。 WNOHANG とはそういうものなのね。
ちなみにfhjp.net上のはrefererが必要かな。
434 :
名無しさん@お腹いっぱい。 :02/08/07 01:19
wgetで女、食べれますか?
>>426 > 世間一般に出回ってるのって、大抵リンクを追いかける奴だからねぇ。
> 漏れは手作りでcsh使ってやってたけど、質が揃わないため最近やる気が
> 失せた。
半角で話題になる画像掲示板をまわっていたら、適当に話題の画像
が切れ切れながら、あつまってきませんか? script で画像データの
URI 拾ってきて、それを wget に喰わせておくとかすると、なんか見
もしない data がわさわさと…。
>>427 の(B)は、perlfaq4の"How do I shuffle an array randomly?"を
参照されたし。
管理者にスクリプト使ってるの気が付かれてアク禁くらうのもいやだし、
鯖の負荷を無駄にあげないためにもURLは必ずシャッフルすべきと思うんだがどうだろう。
連番で落す場合であっても、いかにも人間が見てるかのように
wget --random-waitを使うとか。
いや、ちと考え過ぎか。そんなマメな管理者もいないだろうし…
>>437 しーっつ、しー。
というわけでみなさんちゃんとエスケープしましょう。
きちんとエスケープするのって面倒くさいので、 my $fetch_cmd = "wget -x"; を my @fetch_cmd = qw(wget -x); exec("$fetch_cmd $url"); を shift(@fetch_cmd, $url); exec(@fetch_cmd); とやってる。 シェルのメタ文字を一切気にしなくていいので気分は楽だけど、 リダイレクトを自分でしなければならなくなる。
おっと、 shift(@fetch_cmd, $url); じゃなくて push(@fetch_cmd, $url); ね。
"wget -i -" で動かして URI はパイプで突っ込めば?
>>441 パラレルに落さなくていいのなら…
まあ、あらかじめURLのリストを等分しておいて、
wget -iを並行実行すればいいんだけどね。
ご意見サンクス。エスケープは >429 書いた直後に気づきました。
"exec" と書く前に気づかなきゃだめか...
>430
$ while read url; do t=${url#
http://}; echo "$url" >> ${t%/*}.list; done
$ echo *.list | 429を $fetch_cmd = "wget option -i"; に変更
で、できるかな。シェルスクリプト大好き。
>436
>437
やってみた。shuffle はパイプに繋げてたけど、一緒にしても大したこと無いね。
my($pid, @slot, @url);
@slot = (0) x $max;
chomp(@url = <>);
outloop:
for (;;) {
foreach (@slot) {
if ($_ != 0 and waitpid($_, &WNOHANG)!=0) {
$_ = 0;
}
}
foreach (@slot) {
last outloop unless @url;
if ($_ == 0) {
my $url = splice(@url, int(rand(@url)), 1);
$url =~ s/'/%27/g;
$pid = fork();
if ($pid==0) {
exec("$fetch_cmd '$url'");
} else {
$_ = $pid;
}
}
}
sleep(1);
}
foreach (@slot) {
waitpid($_, 0);
}
M-x indent-region したら条件文の丸括弧にスペースがぁ...
>443
うげ。echo じゃだめだ
$ while read url; do t=${url#
http://}; echo "$url" >> ${t%/*}.list; done
$ ls -1 *.list | 429を $fetch_cmd = "wget option -i"; に変更
>>435 最初は結構ジャンル固まってるけどね。
ただ、その後が問題で、重複しないように過去のURLとコンペア
しながら日々ダウンロードしてると、どうしても最新の画像を
全ジャンルまんべんなく、という状態でのダウンロードになるんだわ。てなもんで、最近はURLの処理に時間がかかる(Mobile Gear)割に
実入りが少ないこともあって、やってないっす。
まぁ、現在は努力を惜しまずディープなURLを辿って集めてます。
そういえば、最近の虹板って、いわゆる2バイト文字でURL書くのが
流行ってるのか我々への嫌がらせなのか、目につくね。
http://ティンコ.co.jpみたいな 。
>>443 $urlの最後の文字が\だったら?
全てのシェルのメタ文字をURLエンコーディングしないとダメだと思う。
まぁ、置換すりゃあいいんだけどね。 漏れの場合は、過去のコンペアは件数が膨大になっててcshで回せなくなって いた関係もあって、文字列置換というかURL文字列補正もCでロジック組んで 捌いていたよ。 ファイルの偽装、ZIPについては最初っからあきらめてるから無問題(;_;)。 対応策は面倒というか、かなり困難。 分割してひとつひとつGIFファイルに偽装する奴とか、フォーマット 調べると偽装くらいはなんとか判定できそうな気もするけど、結局 結合したらzipファイルだろうからパスワード無いとどうしようもない。 パスワードなんて今のところ収集対象外だしねぇ。 でも、パスワードだけ何らかの規則に基づいて収集して、ソレでZIPファイル に対して総当りするというのも結構面白いかも。
449 :
名無しさん@お腹いっぱい。 :02/08/10 12:47
ぽこにゃん、ラブマ、ぶったぎりあたりは wine でOK。rez は cat。
>>447 sh のシングルクォート中のメタ文字は ' のみ。
$ echo '\'
\
# いまWindowsなので確認してないけどあってるはず
パスワードつながりで。 某ホームページではパスワードがhtmlの中に含まれてるとかで、 そのページに含まれるキャラクタの全組み合わせを生成する ロジックを作って、その生成データを基に早速総当りをカマして みたところ、全部外した(・_・) ひょっとしてUNIX版unzipのパスワードって、8bit通らないのかな。 その某ホームページではパスワードがいわゆる2バイト文字の可能性 もあるから、それなら納得・・・できないぞ。
>>451 大丈夫。
# むしろWin用の解凍ソフトの方が
# 普通には日本語が入らないことが多い罠。
文字コードを確認しれ。
大抵はSJISでないとダメでそ。
>>452 あんがと。
とりあえずs-jisで取り込んでから処理はしてるけどね。
パス付きでzipした奴、テスト的に作ってみて検証しますわ。
ちなみに、日本語のパスワードが入るWin版のunzipって
どういったのがあるのでしょうか?てスレ違いか。
454 :
名無しさん@お腹いっぱい。 :02/08/30 06:29
www.gaultier-x.com/bbs/board1.htm ここって優秀な画像があつまってるけど、 どうやって攻略する? bbsに貼られている画像だけを取得するうまい方法が 思いつかなくて、手動でwget動かしちゃってるんだが。
referer
たいていはreferer。 まれにUA名で蹴ってるところも。 どっちもwgetのオプションでつけられる。 man wget httpの勉強もしる。
458 :
名無しさん@お腹いっぱい。 :02/09/07 13:48
man wget もいいけど、wget --help の方が安易なので最初はそれを読むといい。 うちの wget 1.8.2 だと全部日本語ででてくるし。 http 勉強せよ、といのは同意。 実験用の httpd をあげて自分でいろいろ嬲ってみるのも勉強になるよ。 もちろん、いきなりサーバーをインターネットに晒したりしないでね。 ついでなので、あんなさんも全部貰っときました。
--refererをどこにすればイイか分からなかった…修行が足りないな…俺。
460 :
名無しさん@お腹いっぱい。 :02/09/07 14:53
基本はブツのあるディレクトリだよ。 まあぶっちゃけあそこはドメインしか見ていないけど。
referer なんて、たいていはその画像自体を指定しておけば問題ない。
>>459 みんなはじめはそうだよ。
みんなそこから、獲ろパワー(二つの意味)で大きくなった。
さ、1から読みなおそう。
あー…やっと落せた…(もちろん、仕事はチャンとしたぞ!)。 RefererじゃなくてUser-Agentで引っかかってました…(笑)。
464 :
C_sugar :02/09/08 02:39
>>457-458 今時、manやhelpなんてしなくてもググったほうが使用例が見つかるので速い。
それに鯖の公開は別問題。
>468 サーバー立ち上げる話は、 apache の設定とか cgi の動作とかを自分で体験してみると、 怪しいアクセスを制限しようとする側の気持ちもちょっとわかって、 それに対抗する手段も見つけやすいし、HTTPの理解もできるよ、という話ね。 別に公開せよというつもりは全くない。 man や help じゃなくて google といのは、 自分で情報を見つけられるようなら別に何でも構わんよ。 せっかくUNIX版にあるんだから、ノウハウだけじゃなくて ちとは技術も身に付けて欲しいのよ。
UNIX版じゃなくてUNIX板ね。すまそ。
とりあえず089までいただいておきました。 でも、本当は生身の方がいいです。
refererチェックもUAチェックしてないやん! …って真っ先に思った漏れはもうダメですか?
>>471 どこがあずまんがだゴリュア!!!
ハァハァ言いながら3回もコピペミスっただろうが!!!
連番のH画像じゃないのですが pl09_1.zip pl09_2.zip これを展開すると pl09.001 pl09.002 CF_M.bat が出てきます。DOS 用の bat ファイル は無視して cat すればいいのですが 1度に 展開 → cat → rm 残骸 とできるように奮闘中
476 :
名無しさん@お腹いっぱい。 :02/09/14 10:10
おれさ、厨だからさ、パールなんてわかんないんですよ。 だからいつもページのソースを見て、連番のURLをみつけては wget -i url.list してるんです。 で、url.listを作る際に一所懸命 sed を使って整えて いるんです。そこで hoge.sed なるもを作ってみたんだが、 これって、url.listの1行ごとに hoge.sed が実行されるのか、 それとも hoge.sedが1行ずつurl.listに実行されるのか、 どっちなのか教えて下さい。 自分で読み返してみましたが、かなり日本語がおかしいかも しれませんが、みなさん想像力豊かにして教えて下さい。
>>476 かなり日本語がおかしいです。
hoge.sed ってどんななの?
>>476 >>url.listの1行ごとに hoge.sed が実行される
こっち。
おなじく、使わせていただきました(なにに
522 名前:名無しさん@お腹いっぱい。 投稿日:02/09/06 14:56 ID:??? #include <iostream> using namespace std; int main(void) { int hajime, owari, i; string url; cout << "ルートディレクトリのURLを入力してください: "; cin >> url; cout << "最初の番号を入力してください:"; cin >> hajime; cout << "最後のの番号を入力してください:"; cin >> owari; for (i=hajime; i<=owari; i++) { if (i < 10) cout << url << "0" << i << ".jpg" << endl; else cout << url << i << ".jpg" << endl; } return 0; } 貼ってみるテスト
そんなことをして何に役立つんだよ、と言ってみるテスト。
485 :
名無しさん@お腹いっぱい。 :02/10/11 15:49
ほしゅあげ
487 :
名無しさん@お腹いっぱい。 :02/10/13 00:02
がんばれage
488 :
名無しさん@お腹いっぱい。 :02/10/28 02:28
#!/bin/sh while true do echo "hoshu age" done 貼ってみるテスト
>>488 どうでもイイけど、
while true; do
echo "hoshu age"
done
と書く派なので、そういう書き方だと式の後のコロンを省けるのを知らなかった…。
490 :
名無しさん@お腹いっぱい。 :02/10/28 16:46
>>488 shell script使わなくても
yes "hoshu age"
保守でageる方はDQNでございます
494 :
名無しさん@お腹いっぱい。 :02/11/16 04:29
>492 っていうか場所によって仕掛けが違うから「あくまでも例えば」とかいう偽URIじゃ意味ないよ。 そのものズバリを書きなって。 フツーはその「へんなhtml」を読めば済むことも多いし。
wgetの書式をいじるのもいいけど、リジュムとかラブマみたいな分割偽装 ツールが欲しいところだね。Wineでやるのもいいけど、エロ動画を結合 するだけのためにCPUにムチ打つのはつらい。
フォーマット公開されてたら偽装じゃないと思う…
リジュム(漢字わすれた)って本体のfileはcatでくっつくよね。 .rez fileはファイル名とCRCが入ってるだけっぽいし… フォーマット誰かしらべてないかな?
>>498 ああ、リジュムの場合はlonginus.dll(他にもあるのかな)で偽装して
あるとだめだろう。
*BSDのpeaceって、*BSDのプログラムからWin32 DLLの関数を呼んだりは
できないのかな。
>>491 このスレのローカルルールとして、
保守ageするやつはついでにエロ画像へのリンクを貼る
てのはどうですか
すみませんでした。激しく自分がミスを犯してました。(;´Д`)
URLが間違ってました。つーか、とくに自分が手を加えていないから、
リンク切れだったようです。
>>492 の訂正
s/missnuts555/missnuts5555/g
s/missnuts666/missnuts6666/g
s/missnuts777/missnuts7777/g
502 :
このスレの1 :02/11/24 04:09
ttp://www.scghun.com/main.htm 上記のようなサイトにある画像を全て、簡単に落すテクニックってなんかありませんか。
とりあえず、ここで鍛えたテクニックを使って連番のリストファイルを一つ作り、それを
パターンにそって少しずつ変形させるスクリプトなぞを作り、最後にwgetで一挙に落そ
うという手で攻めてみたが、何分、微妙にパターンが変えられていたりして、四苦八苦し
てしまった。そのためAmateur Schoolgirls Gallery とAmateur Teens Galleryの画像を全
て落すための手はずを整えるのだけで週末を使いきってしまったよ。トホホ。
識者の方々、よい知恵をお貸しくだされ。
いやーどう見ても、というかちょっとしか見ていないが、 SchoolgirlsでもなければTeensでもないような気が…。 そういうもんなのか?
>>502 wget -N -q -O /dev/fd/1 "$url" \
| nantoka "$url" \
| grep hogehoge \
| sort -u \
| while read tmp; do
wget -N -q --referer="$url" -O /dev/fd/1 "$tmp" \
| nantoka "$tmp"
done \
| grep '\.jpg$' \
| sort -u \
> list
ちなみに、nantoka は、argv[1]をbase url として標準入力から
リンクを抜き出すフィルタね。
nantoka を、lex か何かで作っとくと便利だよ。
506 :
名無しさん@Emacs :02/11/25 00:24
>>502 $url が与えられてるとして、
wget --accept=jpg -c -t 0 -r -l 1 --span-hosts \
-nd --user-agent=Mozilla --referer=$url $url
とかで落とせないかい?
Yahoo! Groupsからファイル落とせるようにできないかなあ。 ユーザー認証ディレクトリの中にあるからダメかなあ。
508 :
名無しさん@お腹いっぱい。 :02/12/24 02:54
俺はいつもHTMLをwgetでとってきて、sed かましてwgetに流してる。楽だし。 このスレを見てると、なんか職人魂を感じるな。 それはそうと、このスレは画像限定?rezファイルも連番になってるけど…アリかね? // 誰か、Unixでラブマを結合する方法教えてくれ。
wine Lovema.exe
ついでに、takehost が最近 cookie を見るようになった。 wget で --save-cookies, --load-cookies 初めて使ったよ。
ここで一句 元旦にエンジン全開エロパワー
>>507 ふつーにできるだろ、と思って今ちょっとやってみたができんな(w
514 :
ftr223 :03/01/03 15:44
でででででぇぇーっ!
515 :
名無しさん@お腹いっぱい。 :03/01/04 01:00
半角文字列/アップローダーはここだ!6 【半角板】
http://okazu.bbspink.com/test/read.cgi/ascii/1039936366/163 From: [163] 名無しさん@Emacs <>
Date: 02/12/30 00:06 ID:U6t76zEY
2chのためのアップローダだったら、2ch自身をアップローダとして使えばいいのでは?
帯域も十分だし、他のアップローダや回線に要らぬ迷惑もかけないし、、
アップロード時は、gzipとかbzip2で圧縮した後、base64とかでencodeしたも
のを、1スレに収まるように分割し、それらを適当な板とスレッドにランダム
に分散して投稿する。ただ、前の分割ファイルがわかるようにそのURLを各レ
スの最初に埋め込む。最後のレスには復元後のファイル名とチェックサム、ファ
イルの説明を書くようにする。
ダウンロード時は、最後のレスから次のレス、その次のレスと追っていき、最
初のレスまで辿り着いたら、全部のデータ部を結合、decode、解凍をする。
もちろん、以上の動作は専用プログラムを使う。もしくは、2ch専用ブラウザ
にそういった機能を組み込んでもらう。
まあ、こういった使い方が2ch側からabuseだったらあぼんですが、、
516 :
名無しさん@お腹いっぱい。 :03/01/07 03:55
最近、AOLのサーバーってデリが早くないか? あとラブマ偽装も増えたなぁ・・・
ラブマ偽装はもうしょうがないだろうねー 海外にガンガン晒される様になって来てるらしいし そのうちcgiに日本語パスワードとかになるんじゃねーの?
パラパラマンガみたいに、微妙に動いている写真を、 アニメーション表示させるプログラムを書いてみた。 使う?
wineで動く猫缶偽装解除ソフトあったら教えて!! Melt it!は駄目みたい.
age
あぼーん
(^^)
526 :
名無しさん@お腹いっぱい。 :03/01/16 17:28
wgetでpostってできないですか?
wpost: Command not found.
528 :
名無しさん@お腹いっぱい。 :03/01/19 18:58
クッキーもSSLもつかってる会員制サイトの画像を落とすにはどうすればいいんだろう・・・ スクリプトじゃもうだめな域か?
なんていいスレなんだ!!!感動した。
rezがcatでできるなんて、しらんかった...
よく考えてみればあたりまえだな
おれも昔延々とbinaryのぞいてました。
rez fileは、crc16だったような、source perlで作ったようなきが
すんですけど、defualtのuni* commandじゃ作れなかったようなきがします...
fread(),fwrite(),dirent.h使ってた俺って一体何?
>>498 フォーマット調べずとも、wine APIでdll直接叩くってのはどでしょうか?
>>528 最近の wget なら HTTPS も Cookie も喋れるよ。
がんがればなんとかなるっしょ。
>>530 そうなんですか・・・
でもWebMailのような方式(Web上でIDとパスワードを打ち込む方式)だと太刀打ちできなさそうで???
>>531 telnetで打ち込むとかLynxで自動に打ち込むのはどーよ
>>531 curl なら POST 使えるんでない?
534 :
名無しさん@お腹いっぱい。 :03/01/21 22:58
相手のサーバが anonymous-ftp だったりすると、単純に wget を
ループさせるのはよろしくねいですよね。コネクションの都合上。
その辺りは考慮しますか? 漏れの場合には、
lftp
ftp://server/path/to/ mget ero[0-9]*.jpg
です。って外出ですね。
/dev/urandom を使って、とってきた画像をランダムスライドショー Linux以外のOSで動くかどうか知らん。 * #!/bin/sh * set -x * * case "$1" in * start) * PHOTOS=$(wc -l `pwd`/ero.list | awk '{ print $1; }') * if [ "$PHOTOS" -lt "1" ]; then * echo "エロ画像がない"; exit 1; * fi * * if [ -x $(which wmsetbg) ]; then * PROG="wmsetbg -a"; * elif [ -x $(wich display) ]; then * PROG="display -window root -geometry $(xdpyinfo | grep dimensions | awk '{ print $2}')"; * elif [ -x $(which xloadimage) ]; then * PROG="xloadimage -onroot -fullscreen"; * else * echo "ビューアがない"; exit 1; * fi * * find `pwd` -type f | egrep "jpg$|JPG$" | nl -n ln > `pwd`/ero.list * * while [ $0 ]; do * RAND=$(cat /dev/urandom | od -t uS | head -n 1 | awk '{print $2;}'); * if [ "$RAND" -le "$PHOTOS" ]; then * ERO=$(egrep "^$RAND " `pwd`/ero.list | awk '{print $2;}'); * $($PROG $ERO); sleep 5s; * fi * done * ;;
* stop) * xsetroot -solid black; * if [ -e `pwd`/ero.list ]; then * rm -f `pwd`/ero.list; * fi * ps aux | grep "/ero.sh" | awk '{ print $2; }' | xargs kill -KILL * ;; * *) * echo "あぼん" * exit 1 * ;; * esac
find `pwd` -type f | egrep "jpg$|JPG$" | nl -n ln > `pwd`/ero.list の行を start) の直後にもってこないと動かないですね。 どうも失礼しました。
- ps aux | grep "/ero.sh" | awk '{ print $2; }' | xargs kill -KILL + ps aux | grep $0 | awk '{ print $2; }' | xargs kill -KILL 蛸スクリプト荒しでした。ではさようなら。
クッキー・REFERER・エージェント名チェック対策から始まり、 ベーシック認証・SSLといった障害を乗り越え、再帰探索ロボット化。 更新チェック機能を設け、MIMEチェックで無駄なデータを排除したり、 サイズチェックでサムネイル画像を捨てたり、連続アクセスに対して 帯域制限で反撃してくるサーバのためにインターバル調節やリトライ機能を追加し、 無限階層地獄なサーバ対策機能を追加し、効率を追求するためにマルチプロセス化したら、 某社が結構な値段で買ってくれました。 もちろん、開発動機がアダルト画像ダウンロードだったのは企業秘密です。
アメリケンかなんかのYahoo! Briefcase のファイルを すかっと落とすスクリプト誰か作ってないかなぁ? うぃん用のNetDupeExなんてのは見つけたんだけど loginとpass入れないとファイルのURL抜けないんだけど 抜けちゃえばwgetでとれる スクリプトあんま良くわかんないんだよなぁ
542 :
名無しさん@お腹いっぱい。 :03/01/31 12:18
UNIX はこんなことをやらないと連番画像すら落とせないのですか。 悲惨ですね。unixは。普及しないわけだ。
まあね。でも楽しいからいいんよ。
マジレスしていい? 専用統合ツールもないことないです。Aria とか。ただ Windows ものの方が、数とユーザが多いぶん洗練され てる感じはする(見ただけなのでなんとも言えんけど) まぁ毎日に使うもんじゃないし、汎用的に使える wget ですませちゃえ ってのは自然な発想じゃないかと。
aolってファイル消えるの早すぎ YahooのBriefcaseって1KB/秒以下で全然落ちてこん・・・ 最近はiijとかのモザイク入り巨乳動画で我慢してるが。 以上、愚痴でした。
>>546 どうでもいいが,すごい URI だな。
思わずアクセスしてしまったじゃないか(w
>>546 例示にはアクセスできるURIを示してください。
でないと抜けない。
>>547-8 すまんこってす。
本物のlogin,passwdとページのほうが情報が集まるとは思ったんだけど
アレの元はAVじゃなくておねーちゃんのPVなのよ。つまんないだろ?
丁寧に1M分割で4アカウント100ファイル以上だったので
結局ブラウザからLoginしてソース落としてsedしてみたいな
>>550 漏れもそこで少し悩んだ
結局、RefererとCookieだけでよかった
552 :
名無しさん@お腹いっぱい。 :03/03/18 02:59
連番で集めた裏本やPGFをディレクトリーごとに整理していても、増えていくと どんな奴の写真だったかわからなくなってしまう。で、各ディレクトリから一 枚目だけを抜き出して、ブラウザーで表示するためのlist.html作成スクリプト を書いてみたよ。評価してくれ。 #!/bin/sh DIR=`pwd` FN=`basename $PWD` echo "<html><head><title>$FN</title><head><body>" > list.html for i in `ls` do if [ -d $i ] ; then cd $i n=`ls | grep "[jJ][pP][gG]" | head -1` cd $DIR echo "<IMG SRC=\"$i/$n\" HEIGHT=\"120\" WIDTH=\"80\"><a href=\"file:///$DIR/$i/\" target=\"_blank\"><font size=1>$i</font></a>" >> list.html fi done echo "</body></html>" >> list.html
それにしても、勉強になるスレだ(w
ファイルの保管で悩んでるのよ。長いけど聞いてくれ。 たまった画像および動画を外部メディアに保存する。でその時に、暗号化… というか、めくらましをしときたい。また、取得は Unix、鑑賞は Win の パターンが多いので、両方で使えるのが望ましい。 win and unix>手軽さ>速度>>>>暗号強度(>圧縮) で、なるべく透過型なのがいい。ふつーのファイルみたいに見えるやつ。 PGP disk (仮想ファイルシステム)はほとんど理想なんだけど、残念な ことに RO media からの mount ができない。DVD-R への保存ができない。 # でもこれはこれでいい。万人に薦める。 zip による暗号化はファイル名がばっちりなので意味がない。また、伸長 処理が一段階入っちゃうのがとても気に入らない。 君たちはどうしてるかね。つーか Win で loop device が使えればばっちり なのだがー。意見求む。
>>554 暗号化うんぬんとズレるけど、ファイル名を機械的に変更するのはどう?
実は漏れ、ファイルの整理の為に、md5 の結果をファイル名にしてるのだ。
#! /bin/sh
IFS="
"
for i in `find $1 -type f -print`; do
mv "$i" `dirname "$i"`/`md5sum.exe $i | sed -e "s/ \*.*$//"`.`echo $i | sed -e "s/^.*\.//"`
done
cygwin 上で動かしてるので md5sum.exe になってたりするが気にしないようにw。 後、md5 の表示形式によって微妙にスクリプト変えないといけないのも注意。
透過型というか、先頭32K部分とかに XOR でもかけて、
% xor 32000 <ファイル名> | mediaplayer とかできるとありがたい。
もしくは先頭部分にダミー放りこんで、32K後から読み込むようにするとか。
これと
>>555 の md5 作戦を組み合わせれば DVD そこらに置きっ
ぱなしにしたりしても(まぁ)安全。扱いも楽。
しかし、 Unix ならまだしも Windows でこゆことできるのかな。
子供さんがおられるひととかいない? お父さんなにこれ、とか言われ
る前に備えが必要では? などと不安を煽ってさらにアイデア募集。
(^^)
いつのまにか*nixでラブマ結合出来るソフト公開されてるのね。 感謝感謝。
560 :
名無しさん@お腹いっぱい。 :03/04/18 09:13
あぼーん
誤爆しちまったい。これでどないだ
perl -ne 'chop; ($base, $first, $last, $ext) = m@(
http://.+ )/\[(\d+)-(\d+)\]\.(\S+)@; for($first..$last){printf "$base/$_.$ext\n"}' list
>>564 誤爆先を見つけてしまったよ……
ていうかなんであんなところに誤爆してるんだYO!(w
unix でラブマ教えてプリーズ
unlov を使いたまえ
569 :
名無しさん@お腹いっぱい。 :03/04/23 22:46
Linuxバイナリかよ。 unixじゃないじゃn
偽装の仕様は公開してくれないの? あれば自分で作りたいんだけど。
>>570 「偽装」の目的を考えれば、公開する訳がない気がする…
偽装の目的ってなんなのかな。 jpg ファイルに埋め込めればいいとかじゃなくて? 結合ツールが出回ってるのに公開しない理由とわ?
>>563 これじゃだめなのか?
#!/bin/sh
len=2
fmt="%s%0${len}d%s\\n"
IFS='[]-
'
cat list | while read base beg end sfx; do
i=$beg
while [ $i -le $end ]; do
printf $fmt $base $i $sfx
i=`expr $i + 1`
done
done >newlist
ハックの大事なものを知ってるよ 友達どうしの約束と涙の止まるおまじない
579 :
名無しさん@お腹いっぱい。 :03/04/26 06:19
このスレは素晴らしいですね! ところで、上の方でもつぶやいていた方がいましたが、 yahoo groops(eGroup)の記事や画像を自動ダウンすることは可能なのでしょうか? winのオートパイロットソフトなども試したのですが、認証が越えられずダメでした・・。 wgetでもダメならば、cygwinのlynxならば認証を受けることができるので、 lynxをスクリプトで自動で操作してダウンする、などということは可能なのでしょうか? wgetはwinのIEのクッキーではダメなんですよね?
あぼーん
581 :
名無しさん@お腹いっぱい。 :03/04/26 06:45
$ wget --help|grep cookie --cookies=off don't use cookies. --load-cookies=FILE load cookies from FILE before session. --save-cookies=FILE save cookies to FILE after session.
>552
このスレのちょっと前に出てた、ディレクトリ以下のインデックス一覧表示を
追加して使わせて貰ってます。
ディレクトリの中に.jpgがない場合のエラー処理が要るような気もするけど
まぁいいや。
#ソースの折り返しとかについては勘弁ね。
#!/bin/sh
DIR=`pwd`
FN=`basename $PWD`
URL_HEAD='
http://www.漏れのティンコ.co.jp '
echo "<html><head><title>$FN</title><head><body>" > index.html
echo "<div align=center><font size=4>$FN</font></div>" >> index.html
for i in `ls`
do
if [ -d $i ] ; then
cd $i
ls |grep "[jJ][pP][gG]"| sed 's%\(.*\)%<a href="\1" alt="\1"><im
g src="\1" height=120 width=80></a>%' > index.html
n=`ls | grep "[jJ][pP][gG]" | head -1`
cd $DIR
echo "<IMG SRC=\"$URL_HEAD/$i/$n\" HEIGHT=\"120\" WIDTH=\"80\"><
a href=\"$URL_HEAD/$i/\" target=\"_blank\"><font size=1>$i</font></a>" >> index.
html
fi
done
echo "</body></html>" >> index.html
うーむ。 index.html あたりからリストを生成して、wget を 10 個くらいで一気に fetch してくる perl スクリプトってない?
何を取ってきたいのか判らんのにどうしろと
HTML::LinkExtor URI::URL LWP::UserAgent
HTTP::Request でリスト作って、2chJpgGetter の wget_down を回してやればいいことに
気がついて、ほぼ実装完了。
>>582 grep -i .jpg を使わない理由があるんだろうか
ヘタレな index 作るより、thumbnail_index を回せば 何も苦労しなくていいわけだが。
Yahoo! Groupsにコマンドラインからログインする方法を試行錯誤してたら ログイン失敗しすぎてアカウント一時停止された…半日おあずけ。 もしかしてhttpsでコマンドラインからLynxとかでpostするときは コマンドラインに渡す文字列の時点で暗号化されてないとダメだったんだろうか… いや、そんなことしなくてもいちどLynxでSSLログインして そのクッキーをwgetに流用すればよかったんではないだろーか… とか(w
ヤフーグループのことを質問したものです。 おぉ!いろいろ試してくださったんですね!!情報をくださった方まで! 超感謝です! アルバムはgethttpというプロクシサーバーを立てて、 スライドショーにすると、そんなに手間がかからず保存できます。 ファイルはなぜかダウンロードマネージャーでダウンできることも多いんですよ。 それなんで、一番大きな問題はメッセージだったのです。 紹介していただいたスクリプトを使ってみます。
うーん・・。なぜかダウンロードが始まらない・・。 0kbのファイルができるだけで・・。
>586 >grep -i .jpg を使わない理由があるんだろうか いや、grep -i の方が正しいと思いやす。
593 :
名無しさん@お腹いっぱい。 :03/05/06 04:06
あぼーん
あぼーん
自分にとっては、今までのスクリプトのなかで
>>578 が実用度が一番高い。
単純な割にいいね
質問があります。javaなどのScriptがアクセスするページの画像をダウンロードできるソフトって ありますか? できれば連番で・・・
↑無理?
>>589 市販のオートパイロットではエラーがでちゃうんです
603 :
名無しさん@お腹いっぱい。 :03/06/14 22:39
ごぶさたあげ
外出かもしれんが、ワードのマクロで連番のアドレス書いているのは俺だけだろうか? www.xxxx.001.jpg なら←×4・BS・数を入力を繰り返して・・・・で、100位までつくってあるんだが そしてIriaにはりつけ
連番生成・・・cygwin上でシェルスクリプト ダウンロード・・・Irvine POSTを喋らしたりcookie食わせるなら、perlでUAつかって書く やっぱWindows上じゃないとねこーいうのは。
連番生成 : jot ダウンロード : wget POST や Cookie : Perl でも Ruby でも Python でも何でも なんで Windows?
>>606 >>607 >>605 の方法が漏れには一番簡単に見えるんだが。
というか,プログラムを書く必要ってあるのか?
Cookie を食べる必要があるなら w3m でやればいいし。
unlov が Google から消えた…誰か詳細きぼんぬ。
Googleから消えた理由は知らんが、サイトはまだあるよ。
jot って BSD 用なの?
takehost が Accept-Language: も見るようになったような気配を感じる。
615 :
名無しさん@お腹いっぱい。 :03/07/07 08:14
>614 拙者の記憶によると日本時間で4日の昼間からでござる。 入れ替わりにcookieを見なくなったように思わるれ。
あぼーん
.
誰か教えてくれぇ~(´Д`)
>>610 まず誠意をみせろ。おれが自宅に戻れる22:00以降に。
話はそれからだ。
623 :
名無しさん@お腹いっぱい。 :03/07/27 23:48
こんなん動ナビとか動画普及委員会チェックしてれば毎日ゲットできるぞ。
動ナビ死んでませんか
動ナビは死んでないが、iij を使った結構な数のエロサイトから ファイルが落とせなくなっているな
∧_∧ ∧_∧ ピュ.ー ( ・3・) ( ^^ ) <これからも僕たちを応援して下さいね(^^)。 =〔~∪ ̄ ̄ ̄∪ ̄ ̄〕 = ◎――――――◎ 山崎渉&ぼるじょあ
wget の --timeout って、 相手がファイアウォールでパケットを捨ててるときには機能しないような気がする。 というか、そもそもそういう目的で使うオプションではないのか? まあ、squidを経由すれば問題ないんだけど。
634 :
名無しさん@お腹いっぱい。 :03/08/13 12:19
2ちゃんで話題になった「みーほ」女子○学生 B86 W57 H88(○5歳)
がこのHP内のギャラリーで何を考えているんだか、衝撃的なセルフのヌードを晒してます!!
削除される前に早めに見ておいた方がいいとおもいます!マジでやば過ぎ!!
http://neeez.com/~miho-room/
不覚にもワロタ
あぼーん
あぼーん
{from..to}
{10..20,30..40} みたいにはできないの?
>639 zsh: {{10..20},{30..40}}
( ・∀・)つ〃∩ ヘェーヘェーヘェー
そろそろ2ヶ月もカキコがない…。 おまえら満足してますか?
>おまえら満足してますか? してねぇっす・・・。 ダウンロード成果物をいかにユニークに保存するかってトコロで 頭痛めてたりする。 とりあえず、ファイルのMD5をpostgres上のテーブルにinsertしといて、 ダウンロード成果物をそいつとチェックして適宜ハネるって運用してるん だけど、どうしても明らかに重複する奴が出てくる。 理由はいくつかあるんだけど、この辺が泥臭くかつ難しいね・・・。 最終的には画像の類似性をうんぬんって世界にしないと仕方ないのか? 誰か「漏れはコレだ!」って奴を教えてくれぃ。
>>644 > 最終的には画像の類似性をうんぬんって世界にしないと仕方ないのか?
> 誰か「漏れはコレだ!」って奴を教えてくれぃ。
今まで何を試したか書いてくれ。
例示した後で「それはもう使ってみた」って言われるのはやだ。
おれは単純に時間とディレクトリで分類してる。 ファイルのタイムスタンプとユニークなID,簡単なメモを 名前に付けてリネームするスクリプト書いて、 適当なディレクトリにとりあえず放り込む。ここまではほぼ自動。 あとは実際に見てる時に必要なら分類し直す。 おれ的にはファイル名がユニークであれば、それで足りてる。 全ての画像に等しい価値がある訳でないので、 必要な時の手作業の分類で間に合う。
俺はディレクトリと連番だな。もちろんスクリプトで。
>>644 wget -x で URL のまま保存してる。
>今まで何を試したか書いてくれ。 少しずつ積み重ねてるから、そんないろいろな方法試してるわけでも ないんだわ。 で、今のところこんな仕組み。 前提:ファイルはすべて.jpg。 対象は、ディレクトリごとにファイルがまとまっていると想定。 (ディレクトリひとつに1ファイルは無視) -- 日々。 (1) wget -x でディレクトリごとdownload (2) jpeginfoで壊れたファイルを削除 -- 月次。 (3) ディレクトリ階層をn階層 -> 2階層へ変換 (4) 指定バイト数以下のファイルやディレクトリを削除 (サムネイル対策) (5) 過去にダウンロードしたファイルのmd5と比較し、新規ファイルが 含まれているディレクトリは保存用ディレクトリへ移動。 (6) 保存用ディレクトリへ移動したものは、md5をpostgres上のテーブルへ insertする。 (次からのダウンロード重複チェック用) --適当なタイミングで。 (6) そこそこたまってきたら、CD-Rを使ってお掃除。 上記(6)以外はすべて自動実行。 で、こうやってて素朴に思うのが、「ここまでやらないかんのか?」てところ。 これという方法も無いような気がするんだけどね。
続き。 重複する理由ってのが、だいたい (a) jpgファイルが壊れてて、md5が違ってる。 (b) 見た目おんなじ画像で壊れてもいないjpgファイルだけど、何故かmd5が違う。 (c) 素材はおんなじだけど、画像ファイル化したヒトが違うヒト といったところかなと。 んで、(a)はjpeginfoでどうにかなるとして(といっても再度ダウンロードで補うことが できればだけどね)、(b),(c)はどうしたものかなと。 完全自動化を目指してるんで、この辺クリアできないかなと考えてます。
そこまでしてローカルにあらゆる画像を保存したいの? 画像の類似性を判別するソフトがあったような気もするけど。
GQview とか
>>644 素人考えなんだが
同じエロ画像でも大きさっていうか画質とかが違ってたりすんじゃん
例えばイメージマジックとかで同じ様な仕様になるように
小さくサムネイルのように同じファイルサイズとかにフィルタしてから
binary diffみたいのを使って差分をとって差分比率を読みとりながら
画像を比較できないのかなぁ?
レスありがとさんです。 >GQview とか フリーでこのテのツールがあるとは知りませんでした。 別のツールでは、作者が「コマンド実行で類推するようにしたいな」って 書いてたんで、もう少し様子見かなと。 もしくは、これらツールから該当コードをぶっこぬいて、コマンドラインで 実行できるようデッチ上げるのも手かなと。 >binary diffみたいのを使って差分をとって差分比率を読みとりながら >画像を比較できないのかなぁ? #漏れも画像関係まったくの素人なんですが・・・。 jpegを一度bitmapか何かに展開してからゴリゴリ比較って動きかな? 暇を見てちょっと試してみます。 時間を見つけて、いずれかの方法をちょっとやってみます。 ありがとうございやした。
俺は半角板を自動巡回して URI 拾って wget のリクエスト作る Ruby スクリプト書いた
落ちてきた画像は一通り見てお気に入りの奴はお気に入りディレクトリに入れて
それ以外は全部ファイル名を MD5 にリネームするスクリプトで変換してから
画像置き場ディレクトリに放り込んでる
画像的には同一なんだけどデータとしては違うというケースはうちでも発生してるな
ちゃんと判定する方法なんて無いような気がしてたから諦めてたけど
ここらへん研究してみると面白いかもな
>>652 (b)(c)のケースなんだけど、もし画像サイズが同じなら、
jpeg のエンコード時の特性の違いがあるのかもな
もしそうなら jpeg のエンコードに特化した画像判別があればいいのかも
>>660 JPEGは符号化時のクオリティ設定で出力がまったく違います。
また、どこかのwebで拾った同じJPEGファイルに端を発した画像でも
デコード・エンコードを繰り返して劣化したもの、コメントが変わった
・取り除かれたもの、huffmanコードを最適化したものなどいくらでも
バリエーションがありますので、結局デコード後の画像として比較する
しかないのではないかと。
665 :
名無しさん@お腹いっぱい。 :03/11/25 15:58
wgetを使ってあるディレクトリ以下にある(cgiソース含)ファイルを無差別にDLする方法ありませんかね。
man wget
667 :
名無しさん@お腹いっぱい。 :03/11/25 16:08
>>666 やったけど詳しく書いてないみたいだけど、、、
wget -r --ignore-length <URL/>
で良いかな?
info wget
669 :
名無しさん@お腹いっぱい。 :03/11/25 17:19
cgiファイルらしきもんはダウンロードできたけれど、やっぱソースが見れないです。 ソースの形でまるごとやりたいんですけど。
ソースが見れないように設定してあるHTTP鯖から、 ソースを落とすことはできませんヨ。当たり前だろ。
671 :
名無しさん@お腹いっぱい。 :03/11/25 17:31
やっぱ、そうだったか。 たまたま、ソースもまるごと落せたこともあったけど、それはそこの管理者が 物凄くアホだったってわけね。 俺もな、、、涙;
そもそも、読み出し権限無いかもしれないし。
>>671 というかCGIとして実行されるように設定されてるファイルは、絶対にGETできんよ。
そのファイルを指定したリクエストが来たらCGIとして実行するようになってる
訳だから、(そのWebサーバ経由では)ファイルを取りようが無い。
ソースを落とせたことがあるんなら、多分それは、CGI実行設定されてない
ディレクトリに物置のように置いて有ったのだろう。逆に言うとそれは
「動いていない」プログラムだから、正しいという保証はどこにも無い。
jpeginfo でこわれているjpegファイルの判定を十分にできますか? なんか、xv で表示できないファイルがだいぶ残るのですが。
XVの設定が古いせいではないかと… ImageMagickとかなら表示できたりしない?
そうですか。もうすこしいろいろためしてみます。
% perl slodziutka.erospace.pl ドゾー
678 :
名無しさん@お腹いっぱい。 :03/12/17 20:51
最新のwgetって~を%7Eに変換しないのか…
679 :
名無しさん@お腹いっぱい。 :04/01/02 16:41
「げっとぴっく」ってやつ使ってるんだが 「指定のURLには画像が存在しません」とかいうエラーが出てきてdlできん
>>681 あんま好きなおなごじゃないな
wget --user-agent=Mozilla --referer
http://gallery3.pure-angel.net/kasumi_nakane/01/ http://gallery3.pure-angel.net/kasumi_nakane/01/nakane_kasumi_0{0,1,2,3,4,5,6,7,8,9}{0,1,2,3,4,5,6,7,8,9}.jpg
> wget --user-agent=Mozilla --referer
http://gallery3.pure-angel.net/kasumi_nakane/01/ http://gallery3.pure-angel.net/kasumi_nakane/01/nakane_kasumi_0{0,1,2,3,4,5,6,7,8,9}{0,1,2,3,4,5,6,7,8,9}.jpg ありがとうございます!!
--refererの使用まで思い至りませんでした。
>>578 の方法につての質問です。
ディレクトリが同じでその中のファイルの例が
img20031113192714.jpg 13 Nov 03 19:27 6.2Kb
img20031113210116.jpg 13 Nov 03 21:01 7.4Kb
img20031113210157.jpg 13 Nov 03 21:01 22.1Kb
・・・
こんな感じになってます。これを一気に落としたいのですが
いかんせん時分秒まで回してたらやばいことになりそうなので
wget
http://~ の~部分だけループできたらと思います。
で,その場所がディレクトリサービスONだったので
starsuiteで上のようなファイルリストを作りました。
でもシェルスクリプトの動作がイマイチわかりません。
cat<<END |wget
http://nanntokakanntoka/ 2003xxxxxxxx.jpg
...
END
の足りない部分を埋めていただきたく思います。
Solaris9でインストールしたときのsh使ってます。
それ以前にwgetでディレクトリサービスONの
アドレスから.jpg .png .gifの絶対パス取って
まとめてゲット~なんて出来ればなお良いんですけど
私にはさっぱりひらめきがないのでもし良かったら
ご教示願います
何が最悪なんだ?
684がhelpもinfoも読まずにカキコしちゃった自身の ソコツさ加減を最悪と称しているのでせう
688 :
名無しさん@お腹いっぱい。 :04/01/09 02:37
あの、awkでしかも汚いですが一応動きます。
baseurl と files 変えたら他の女の子のもいけます。
よければ添削してやってください。
BEGIN{
baseurl="
http://www.tokyo-247.net/image/37_maya/maya1/t2_maya001.jpg "
files = 55
split(baseurl,url,"1/")
url[2] = substr(url[2],1,index(url[2],"0"))
for(i=1; i<=files; i++){
path = url[1] int((i-1)/15)+1 "/"
if(i<10){ number = "0" i }else{ number = i}
file = url[2] number ".jpg"
print file
wgetcmd = "wget -nc " path file
system(wgetcmd)
}
}
691 :
名無しさん@お腹いっぱい。 :04/01/18 00:35
wgetのオプションでquotaを指定すると取得するファイルの上限をきめられるそうですが 逆に下限を決める事はできないのでしょうか? HDDがすげー遅いので、ディスクアクセスをできるだけ減らしたいっす
>>690 わざわざ変なスクリプトかいて暇ですな。
>>690 ファイルごとに wget を起動するんでなく
URL を一括で wget に食わせてやる方がよいと思う。
あとせっかく wget 使うなら便利なオプションがいろいろあるので調べるが吉。
ご意見ありが㌧。 >692 九段のサイトでは画像を小出しにしてまして 定期的に巡回して、うp分を一括ダウソする必要があり まぁ暇だったこともあってこうなりまつた。 >693 その向きでまたチャレンジしまつ。
> ご意見ありが??。 まともなunixerならまず使おうとは思わん記号だな
>>695 というか、入力方法がわからんよ
emacsでctrl-q hoge fuga とかするの?
そういえば、どこかのスレに 「(・∀・)イラネ」って書いてあったのを見たことあるよ
>695 わざわざ使おうとは思わんけど、 unixでは読めないのがあたりまえみたいな 書きかたをされると( ´゚д゚`)
699 :
名無しさん@お腹いっぱい。 :04/02/08 02:27
"あれこれ"やったことを書け。
リンクを解析して辿り、目的の拡張子だけをダウソするPerlスクリプトを書いたんですが・・・再発明ですか? 個人的には十分楽しんだからウマーだけど。
あぼーん
HTML::LinkExtor とか使えばいいのに。 出力は、fork しまくって wget を同時に走らすスクリプトに渡すと。 まあ、手元にあるんだが、希望者がいれば公開してあげます。
今痔が出来て痛くてたまらないからAA貼り付けようかな
僕もがんばってみた。「はじめてのC言語」とそれから「関数の使いかた」少しよんだ。 #include <stdio.h> #include <string.h> #include <math.h> #define MAXSTRING 255 struct address{ char preaddr[MAXSTRING]; char scope[MAXSTRING]; char aftaddr[MAXSTRING]; int statnum; int endnum; int digit; }; /* 続く */
void numaddr( struct address *p ) { char cset[] = "-"; p->digit = strcspn( p->scope, cset ); p->statnum = atoi( strtok( p->scope, cset )); p->endnum = atoi( strtok( NULL, cset )); } void printaddr( struct address *p ) { int i, n, t; for ( n = p->statnum; n <= p->endnum; n++ ) { fprintf( stdout, "%s", p->preaddr ); if ( n == 0 ) i = 0; else i = log10(n); for ( t = i; t < p->digit - 1; t++ ) fprintf( stdout, "0"); fprintf( stdout, "%d%s\n", n, p->aftaddr ); } } /* 続く */
int main( int argc, char *argv[] ) { int i; char cset[] = "[]"; struct address multiaddr[argc]; if ( argc <= 1 ) fprintf( stdout, "%s [word]...\n", argv[0] ); else { for ( i = 1; i < argc; i++ ) { strcpy ( multiaddr[i].preaddr, strtok( argv[i], cset )); strcpy ( multiaddr[i].scope, strtok( NULL, cset )); strcpy ( multiaddr[i].aftaddr, strtok( NULL, cset )); numaddr(&multiaddr[i]); printaddr(&multiaddr[i]); } } return 0; } /* おしまい */
math.h をつかうと #gcc -o getopai getopai.c -lm と -lm つけるのなんでだろ?
>>709 やっぱこう↓しとく
"s/\[word\]/opai\[001-100\].jpg/"
714 :
名無しさん@お腹いっぱい。 :04/02/09 13:03
>>712 動画ウィンドウの表示にはJavaScriptを利用してるみたいなので
wgetだけでは無理かと
うん どうやってするのがスマートな解決なんでしょうか。 僕には皆目検討もつきません。 やっぱ 一つ一つ落すしかないのかな。
--user-agentの指定ってどういうとき必要になるの?
偽装したい時
アクセスログ読んでる奴に嫌がらせしたいとき。
>>718 --user-agentを指定しアクセス制限を回避することは
不正アクセス禁止法の第3条2項2号に違反するため、
一年以下の懲役又は五十万円以下の罰金に処されます。
>>720 user agentは不正アクセス禁止法の識別符号には該当しない。
詳しい人100人集めたら90人くらいまではそう言うと思うけど、裁判所的にはどうだろね。 URLと一緒で意図絡んでるからトチ狂った判断出される可能性はなきにしもあらずげ。
もしかして、厳密にいうと違反なわけ?
>>725 誰かがUA偽装のみで訴えられて裁判所が何らかの判断下すまで違反だとは誰も断言できない。
条文にアクセス方法についてもうちょい具体的に書いておいてくれりゃよかったんだけどね。
telnetしたり自分でUA組んだ時、 打ち間違えたりリテラル書き間違えてたらタイーフォか。ありえねー。 標準で偽装可能な Opera はタイーフォだな。(w 大体、クライアント側が偽装してるかどうかを立証する方法がないわな。 ただ裁判官はこの手の知識は絶無だし、腐った弁護士は少なくないからなぁ。 やな世の中だ。
なんか変な人が。
>>727 UserAgentを普段書き換えることや書き換え機能がついてること自体は問題ない。
* UserAgentでアクセスの制限をしているサイト * へ、UserAgentを書き換えて
アクセスしたことが問題(になるかもしれないのはやだなあ)という話。
なる可能性はあるな。国内の法律では不正アクセス行為の禁止等に関する法律の 第3条3項に以下の記述がある >三 電気通信回線を介して接続された他の特定電子計算機が有するアクセス制御機能に >よりその特定利用を制限されている特定電子計算機に電気通信回線を通じてその >制限を免れることができる情報又は指令を入力して当該特定電子計算機を作動させ、 >その制限されている特定利用をし得る状態にさせる行為 ここの「制限を免れることが出来る情報」にuseragentが含まれるかどうかが争点だろう。 俺としてはUAはそもそも信憑性にないものだし,UAによるアクセス制御自体が 無効だと思ってる。ケータイのサイトなんかでよくあるけど,CDMAなんかopenwave.com からブラウザ拾ってきて使えばPCでMobile Browserのagentが出せる。 この場合は有罪?無罪? アクセス制御にはIPアドレスなどを使うべきだろう。 俺の結論 合法と解釈する。
アクセス制限とは認証のことであり、UAのチェックは認証としての要件を満たさない 以上終了
もまえら暇だなぁ。
そんなことより違法なエロ画像の URL 下さい。
「うらぼん」でぐぐればいいのでは?
おお、これは本当にありがたい。ありがたやありがたや (一人一) ナムー
user-agentだろどうせ
cookie利用の可能性も
740 :
名無しさん@お腹いっぱい。 :04/02/13 12:40
連番の蓮画像を一気にダウンロードする スレに見えた。
ようするに見る側の問題ってこった。
>740 ありがとぉ
745 :
名無しさん@お腹いっぱい。 :04/02/14 00:51
746 :
名無しさん@お腹いっぱい。 :04/02/14 03:58
よ~するに、M$IEもMozillaを騙っているので偽装であると...φ(.. )
urlがpcnewsでは開いて見る気もせんが、 AAは良い出来だから今回だけは許してやろう。
pcnewsに飛ばすならせめて ネットで公開して本人補導とかそういうのにしてくれないとな。
あんまりサーバに負荷かけちゃ駄目だよ。
#!/bin/bash
if [ ! -d ./OUT ]; then
mkdir OUT
fi
URL="
http://thebbs.jp "
GETNUM="1024"
UA="Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; .NET CLR 1.1.4322)"
wget -U "$UA" -N "${URL}/up1/"
LIST=$(cat index.html | egrep '[0-9]+\.html' | sed 's/.*href=\"\([0-9][0-9]*\.html\)\".*/\1/g')
PAGES=$(for name in ${LIST} ; do echo "${URL}/up1/${name}" ; done )
wget -U "$UA" -N -nv -w 1 --random-wait ${PAGES}
for name in $(grep 'href=/sum.html\?' 1[0-9]*.html \
| sed 's+.*href=.*/\([0-9][0-9]*\.\(jpg\|png\|bmp\|gif\)\) .*+\1+g'\
| sort | tail -n ${GETNUM} )
do
wget -N -nv -U "$UA" -w 4 --random-wait -O ./OUT/${name} "
http://thebbs.jp/up1/img/${name} "
done
でもここから選別するのが大変な罠。
あ、そうそう。 急に変なアクセス増えて何かの対策とられたりしないように次の事くらいは守って使って。 UAは絶対変える。 GETNUMは増やさない。 -w は減らさない。 --random-waitは外さない。 管理者に迷惑かからないようにしてな。まじで。 一晩くらいかけてマターリ落して細く長く楽しむのが吉だべよ。 つっても楽しめる画像があんまり無いんだけど。
自分で生HDDをつけるということは、少なくてもパーティションの作成から ファイルシステムやswapの作成というところから始めなきゃいけない訳だし unix未経験者にはハードル高いんじゃないかな、少なくてもvi使えないと話にならんし。 でもこれから勉強したい人には良いかもね。
↑なかなか上品なレスだけど、頭の中ではエロエロなことばかり考えているんですね。
誤爆かと思った罠
エロは*習熟の源です
759 :
名無しさん@お腹いっぱい。 :04/03/12 00:34
760 :
名無しさん@お腹いっぱい。 :04/03/15 03:48
ほしゅ
ほしゅほしゅ
hosyu
hosyu
なんかネタ無いの? wgetで複数ファイルの同時ダウンロードするシェルスクリプト書いてたまに使ってるけど、 curlを使うperl,ruby,python等のスクリプトの方がよくない? shは遅いし、wgetは終了時のエラーコードとか細かい部分がダメぽい。
エロには飽きた。
画像に飽きた奴が小説に流れるパターンだな
もう一度、エロのパワーを!!!
保守
誰か俺が使ってるスクリプト見たい人いる?汚いけど。
参考にしてみたいな
こんなかんじ。 urlをテキストに並べておいて、ファイル名を引き数に指定して使ってます。 urlにリンクされているjpgを勝手にフォルダ掘ってそこにdlしていきます。 フォルダ名はurlから拾ってます。 #!/usr/bin/perl use LWP::UserAgent; use HTML::LinkExtor; use URI::URL; use strict; use POSIX ":sys_wait_h"; $| = 1;#OUTPUT_AUTOFLUSH my $iframe_ref=''; my $base_tag = '';
while(!eof()) { my $url = <>; $iframe_ref = ''; my %downloads = (); chomp $url; next unless $url; print "Checking $url¥n"; if ( map{ $downloads{$_} = 0 } getlinks($url) ) { $url = $iframe_ref if $iframe_ref; dl2( $url,[sort keys %downloads] ); print "¥n"; } else { print "there are no JPG¥n"; } }
my @imgs = (); my $iframe = ''; sub callback { my($tag, %attr) = @_; $iframe = $attr{"src"} if $tag eq 'iframe'; $base_tag = $attr{"href"} if $tag eq 'base'; return if $tag ne 'a'; push(@imgs, $attr{"href"}); }
sub getlinks
{
$base_tag = '';
@imgs = ();
$iframe = '';
my $url = $_[0];
my $ua = LWP::UserAgent->new( Agent => "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;)");
my $p = HTML::LinkExtor->new(¥&callback);
my $res = $ua->request(
HTTP::Request- >new(GET => $url),
sub {$p->parse($_[0])});
my $base = $base_tag || $res->base;
if ($iframe and !@imgs) {
print "Found iframe. recheck >> $iframe¥n";
$_ = url($iframe,$base)->abs;
$iframe_ref = $_;
$iframe = '';
return getlinks($_);
}
@imgs = map { $_ = url($_, $base)->abs; } @imgs;
@imgs = grep{/.[jJ][pP][gG]$/} @imgs;
return @imgs;
}
sub dl { my $uri = $_[0]; my $ref = $_[1]; my ($dummy,$dir) = ($uri =~ /.*¥/([^¥/]+)¥/([^¥/]+)¥/[^¥/]*$/); opendir(A,$dir) || mkdir $dir; closedir A; chdir $dir; `curl -s -O $uri -e $ref`; chdir "../"; }
sub dl2 { my $max = 4;#プロセス数 my $ref = shift; my @str = @{shift(@_)}; my($pid, @slot); my $tick=0; while(@str){ for(0..($max-1)){ if($slot[$_] != 0 and waitpid($slot[$_], &WNOHANG)!=0){ $slot[$_] = 0; } }
for(0..($max-1)){ if($slot[$_] == 0){ my $url = shift(@str); last unless defined $url; chomp($url); if($pid=fork()){ $slot[$_] = $pid; } elsif (defined $pid) { print "Start Download >> $url¥r"; dl($url,$ref); exit; } else { die "Can't fork: $!¥n"; } } } sleep(1); } for(0..($max-1)){ waitpid($slot[$_], 0); } }
以上です。
余計なのはいってた; my $tick; を削除してください; バーが回るヤツつけようと書き換えている最中の貼ってしまいました;
wget -r -A .jpg に URL を渡して回せば良いのでは? と言ってみるテスト。
wgetの--page-requisitesを使ってお絵かき掲示板の絵をコメントごと収集しようと思ってます。
しかし、しぃアプレットを使っている掲示板からは--page-requisitesで画像を持って来れませんでした。
例として、どこでもいいんですが思い切り無関係なところでこことか↓
ttp://www15.big.or.jp/~baroque/nharuna/oekaki/bbsnote.cgi 1) wgetの設定がまずい
2) こっちのネットワークの何かがまずい
3) CGI側で何かしてるのでwgetでは無理
なにがよろしくないんでしょう。wgetがHTMLを解析してくれてない感じなんですが。
>>782 1) -p option ついたの最近よ? あと実装始めのころのはバグってた気もした
2) これっぽい。君のサイトが撥ねられてるとか、proxy とか
3) んなこたー、ない
% wget --page-requisites
http://www15.big.or.jp/~baroque/nharuna/oekaki/bbsnote.cgi (略)
% ls www15.big.or.jp/~baroque/nharuna/oekaki/data/
IMG_003579.jpg IMG_003582.jpg IMG_003585.jpg IMG_003587_2.jpg
IMG_003581.jpg IMG_003584.jpg IMG_003586.jpg IMG_003588.jpg
% wget --version
GNU Wget 1.9.1
>>782-783 漏れも画像のダウンロードができなかった
-m -l1オプションでもダメだった
% wget --version
GNU Wget 1.8.2
wget 1.9は~の処理が変わったので使ってない
>781 おお。スマートだし。自分が恥ずかしくなってきた。 でもこれ、サムネールとか広告まで保存しちゃいますね。 保存先も深くなっちゃうし。
>782 wget --page-requisites --follow-tags=IMG でいけました。 あと自己レスなんですが wget -r -A.jpg -nd -np -I 1 -H --ignore-tags=img -P dir でやりたかった通りに出来ました。
>>788 でもあんま根本的な原因究明にはなってないな(w
解析が難しいHTMLの書き方にでもなってるのか?
wgetよりcURLの方が便利だ。
使い方キボン.
>789 CGIが吐くHTMLの最初の方に <META name="ROBOTS" content="NOINDEX,NOFOLLOW"> とあり、wgetがこのタグのNOFOLLOWを理解して探索をやめてしまうから。
がーん。wget って --timestamping と --no-clobber を同時指定ってできないんだ… 「ローカルより新しいファイルならサーバからダウンロードするが ファイルは上書きせずに通し番号などをつけて区別して保存する」 という芸はできないのか。
>>793 サーバー上のファイルと比較すべきローカルのファイルを
どれにするのが適当なのかがよくわからない、というのが原因なんだろうね。
--timestampingで更新ダウンロードした時に
スクリプトでリネーム退避しておく、という手くらいしか思いつかないや。
…wgetが更新ダウンロードしたことを検知する方法ってなんかあるっけ。
ログを書き出す設定にしてgrepする以外にあるかな?
795 :
名無しさん@お腹いっぱい。 :04/07/04 16:58
優秀なポマエラに質問でつ
このサイトの画像を自動で保存するにはどうすればいいでつか?
http://www.sweetnote.com/board/chidle/hoshiinanase/ ページの最後にCSSで隠した画像があって、
その画像にアクセスするとアクセス禁止になってしまうので
wgetだと保存できません
ちなみに、巡回ソフト対策みたいなのですが、
CSSに対応してないブラウザで見ると表示されてしまうし、
Operaでスペース押していくと画像を順番に表示していくので
CSSで隠した画像にもアクセスしてしまいます
そういえば、昔作ったスクリプトには grep -v BBLhGdTS 何ていうのが入っていたな。
ん? えーと、コレは単に ……。しまった。CSS云々ってコレか。繋ぎ変えよう
>>797 面倒なことさせてしまってすみません
FirefoxなどでCSSを無効にすると
一番下に同じサムネイルが2枚表示されていて
その下の画像のリンクにアクセスするとアクセス禁止になってしまいます
う、うまく書けない。まあいいや。 えーとね、Lynxかなにかで全リンクを抽出して、grepで/images/を含む行を取り出す。 これは「1行目は本物画像リンク、2行目はCSSで隠された罠リンク」の順番になってるので 偶数行目だけ削除するフィルタを何かで書いて(初心者が急いでるので挫折)、 そのURLリストをUserAgentがIEでrefererが当該ページなwgetで回せばいい。はず。たぶん。
wget --load-cookies --save-cookies .... でOKでは。
適当に書いてみた。LynxだとIEのフリができずアクセス解析でバレそうなのでHTMLソースをwgetして解析。
>>799 の「リンクを抽出した1行目は本物画像リンク、2行目はCSSで隠された罠リンク」の仕様が崩れるとアウト。
#/bin/sh
wget $1 -q -nv --user-agent=="Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)" -O - |\
sed -n 's/<a href="\(..*\)" target="_blank">.*/
http:\/\/www.sweetnote.com\1/p ' |\
awk 'NR%2 == 1' | wget --user-agent="Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)" \
--referer=$1 -nv -P ${2:-gazou} -i -
上記の5行をget.shとかで保存して適当に実行可能にして
$ ./get.sh
http://www.sweetnote.com/board/chidle/hoshiinanase/ とするとカレントディレクトリにgazouディレクトリを勝手に掘って画像を保存。
(5行目の -P ${2:-gazou} を消すとデフォルトでカレントに保存するようになる)
$ ./get.sh
http://www.sweetnote.com/board/chidle/hoshiinanase/ test
とするとカレントディレクトリの下にtestという指定ディレクトリを勝手に掘って画像を保存。
IEだと思わせてるので画像の更新はあえて見てない(毎回6ファイルを強制ダウンロード)。
鯖負荷のかけすぎで気取られないように注意。
>>802 ありがとうございます
ダミーのリンクは最初と最後の画像だけみたいなので
偶数行を削除という発想をヒントに2行目と最後の行を削除したらいけました
sed -e '2 d' | tac | tail +2
> 仕様が崩れるとアウト。
以前は各画像のあとにコメントアウトされた
ダミーの画像がふたつずつありました
> (毎回6ファイルを強制ダウンロード)。
いつもはwgetに-xオプションをつけてダウンロードしています
あとは "`echo url | cut -d/ -f3-`" というファイルが
存在するかどうかでダウンロード済みかどうかを判断しています
URLエンコードが必要な場合は適当に処理してます
IEでもHEAD投げてサイズを見てダウンロードするかどうかを決めるってのはやってるんじゃないかな。 別にそれでバレることはないと思うぞ(w
>>801 いやね、
>>800 は半角板に張ってあったりすると、URI中のセッションIDとcookieのセッションIDが一致しないとダメなのよ。
そのサイトから直で落とすなら問題ないんだけどね。
806 :
名無しさん@お腹いっぱい。 :04/08/14 11:43
保守
807 :
名無しさん@お腹いっぱい。 :04/08/22 21:52
wget使ってdlするスクリプトを書いてるんだけど、どうもcookieの処理が上手く出来 ないんだけど、だれか解決方法知らない? index取得時にUIDとSIDをsetされるので、imageをgetする際にその両方を送れば いいだけなんだけど、なぜかwgetだとUIDしか送ってくれない。
>>807 指定するときにセミコロンでパラメータをセパレートするんじゃないの?
ひょっとしたらwgetの場合cookieなんかだと、複数のパラメータセットが
あった場合、全部追加されるのかもしれないけど。
#まあキャプチャすれば直ぐ判ることだが。
811 :
名無しさん@お腹いっぱい。 :04/09/09 01:30
保守
>>812 --header=REFERER:と等価な--refererが最近のヤツだと使えるようになってる。
{}の展開、以前上手く動かなくて使ってないのだが、俺の勘違いだったのかな。
今度試してみよう。
>>813 cshが勝手にはぎ取っているという落ちでないの?
echo {01..18}
の結果は?
>>814 ああ、やっぱりシェルの展開機能なのね。
普通にsh(bash)でした。
このスレのあちこちで、しつこく zsh って書いてあるのに…
curlにはそういうiriaライクな構文があるよね。
>>816 いや、zshに展開機能があるのは知ってるんだけど
wget自身にパラメータの展開機能が盛り込まれたのかと思ったんだよ。
シェルにあるような機能を取り込む必要もないのかもしれんが、
ある意味zshって特殊(スタンダードではない)だから。
まあログインシェルぐらい時々で変えれば、つう考えもあるな。
>818 展開は shell が面倒見てその結果をアプリケーションに渡すのが Unix 的思想。
>>819 んじゃ、もう一方のUnix的な思想で
展開機能のないシェルで展開させるために使うフィルタで
お勧めなのは何かある?今はawkでやってるんだけど。
(zshのスクリプトでというのは取りあえず無しで)
>>821 多分指摘のとおりアホなんだと思うけど、
アホ故に、どの辺りをもってしてアホなのかが判らん。
ズバっと明確に切ってくれ。
zshのスクリプトでいいじゃん。 車輪の再発明はイラネ
url を切り出すスクリプトと wget を 50 個くらい平行して走らせるスクリプトだけで オナニーするには困ってない.
>>820 まったくスレ読まないで書くから外してるかもしれないけど。
curlは自前で展開してくれる。そっち使えば?
えっと、aria は4系でも動かないの?
被写体が♂だったらやったんだけどな・・・
工エエェェ(´д`)ェェエエ工
苺きんたまの画像をゲットした時は
#!/bin/sh
cat input |grep "
http://v.isp.2ch.net/up/ " >output
sed 's/http/ttp/' output > tmp
sed 's/ttp/http/' tmp > tmp2
sed 's/JPG/jpg/' tmp2 > tmp3
awk '
{print "wget " $1}' tmp3 >temp
chmod 700 temp
./temp
mv *.jpg images
こんな感じ。お好みでwhileして?p=1・・・p25までゲットとか。
無限roopで問題なかった。1つのcgi落とすのに10分以上かかったから。
sedが冗長な感じだが足りない頭じゃこんなものしか書けなかった。
誰かもっと簡潔な「よい見本」きぼんぬ。
あーごめん。これじゃなかった。
#!/bin/csh
@ i = 1
while ($i <= 2)
date >>history
wget "
http://up.isp.2ch.net/upload/c=03okari/index.cgi? "
cat "index.cgi" |grep jpg >list
awk -F\" '{print "wget -U hiroyuki
http://v.isp.2ch.net " $2}' list >test
cat test |grep jpg >test2
chmod 770 test2
./test2
awk '{print $4}' test2 >>listtmp
sort -i listtmp |uniq >getlist
mv *.jpg jpg3
rm "index.cgi"
@ i = 1
end
こんなん。これも良い見本きぼんぬ。
832 :
名無しさん@お腹いっぱい。 :04/10/22 13:36:38
age
833 :
名無しさん@お腹いっぱい。 :04/11/05 19:21:13
保守!
なんて息の長い祖レッドなんだ。
見つけてしまいました、こんなスレ。今からzsh入れます!
すげー。ありがとみなさん!ノシ
このスレ21世紀の始まりから生きてるのか
838 :
名無しさん@お腹いっぱい。 :04/11/11 21:10:37
エロは性器を超える
839 :
名無しさん@お腹いっぱい。 :04/11/11 21:37:36
wgetに画像だけ-ncの動作をするオプションを追加して使ってる。 時間の入った連番画像が主の時には、-N使うよりは動作は速いし鯖負荷も多少は減るんじゃ無いかな。 wget --no-clobber-imageで。 begin-base64 644 - H4sIAN3lpUEAA7VXaW/bRhD9LP2KqYDakiXRJHXLMGoHkQsjTh04aYECAViK XInbkLsEd+kDaf57Zw8dtCTXCVDBMMXZ92aPeTM7iuliAd2iBMc5fVgS2fWc ieOdiiI6TaTMnQj2Wuvdbvcgpea7bq/ruV1vAO542vOn3sBxVx9ouxPXrbfb 7f2uFbvf9byuPwDfnw5GU7fvjPqD0WCLfXEBXW/Y9zpDaOunN4GLizqYT0Fk WTC4m326u313Zqzf6lBvA9AFNHkuHcajlM/npKBZuCRwdARJKAL9EohysaCP QQ7Nk0TIUDopj8I0WNCUtBRSfQnIIxVS7Ae11EwAX80D4PQErhdQmRaoALVI EgNnELJYe4UwLUgYP4Hx3oGYA+Oy3q6pPRWU3BOQCTHYk9OV/5Qv84IyiXu7 uf01+GN29+b246wDQbPxud6+1jv862dxvHaPPgrSgQeapsr/2rnzmTVaHdjd 0Vl1K+s1qF1YXwREmedcoFEei7XLGG7fObC12JNYwj/nNjhX6Hg1cHU3mwXv L/98M4NmXGbZ02bWZwFtm4C2VWRLQQIp4BxcHehVfCXNCG4iyylbtowCvtbj w2KnjMpdsRvrAbGbwY3YPStXz3uN2DdsI3YPvOHUH0y9oTMcDP0dsY98rXV8 jKzSv0Ijo0XBi0anVvvt95sbfNSiLA5ETqLADMG3joUyjEekkEdah+qtY+Bz
zlMSsi3oSqQIP6qodpfRrjJ0Au3QtLVzaLI8LAiTm6XxwFgOLy8v+ONThaAM Fn9PIlnZeJkpJYoNXhYrLI7h8gLKFohHacckL0gUShKjXl9QSxZStqsWYz2g FjP4o2rZsLfVMpz2Rs544hq5bKnFH0+UWtRjtK6LeBZ0yXhBuilhS5k0Opj7 QVgsy0ydNmgJgdcb27OrKGwf9Dg73oYy3l3rZq/nvmcV8wzetarZSxp7z+aI aaEjrEO6f57RM0rChXwNb7yPl3L+pcwPUAauoqgjH/aG6siHvVHHXEW1KMRa 6I3dKX4HEESi+O7DFJqNiDOGa1E1ipeofHU1oGusdwo5xxr9BYvcyoE3VfW/ 4uB5vkGDY+E+0zhLt/MfXx7vzh9GEckPzfuC7BFOORNO8lye64ED4l+P/6j+ Kw62u4Ph1HWd/mS3OxgMVDjw/9gmAN6PEMZxoIKKWjir1TDh33J1caEZlJmF GYGVTp5+UZeWJa4P3NKoCOcpEbAKA1sCX5hbG7/jceIHqXEoQ8fefRU3Om6v 89W2vjTFsWuKkrDAm5QWWPoINivG1Se8ljHKir7eBciCkAorVTe32qoh3fAl rCwVHGV5KYMq+FrZKvAX5FJKmordMmnNB6RiR9dC8Xvge1NV7V4llC16VSa9 seP6owpdyWTi9ZVO1MNfKcV2G6qh0F0jRq7e3tceYh4LaU9roQ4EGz/d9BkT Am17o7qSJr5im2LY0DT4Fpyf61piW8bN1Jb1k8CLGhM5ynA+5GKq/50vG60q 3nsZT/5nQs6+D7+ki+/Cz7N8P37ruHQ7iAq9wwYXQkgpwxa14BlcfdDttYWq zjXnGFFswSVHBBFJ+oSNsWp28d7X5V9g4uhk0xll30DkYaQ7Xj6XeB1jZyuT gpfLBDJNb7b0RCLhZWr8zNUSCAIfqEz0V8Q8JIRhi6wcMY6tO1viUhiiSOz8 dzbtlF5rfjGbfrjsbtG3+g78c7FLNT1qJZvGOpnwv0mlui56KnMSmaWbxPlw eXf5/iOmxHYCtdQ1pJNt30+xgxSMunlRv2yChwSbxUAHf824ur6ZWfcorTIy 9SvISKbKo+HpHzOHl3XPqVKQBQYqkhv0PqeK9S+tiE0GWw8AAA== ====
hoshu
ちょっと保守しますよ。
ほっしゅっしゅ
845 :
名無しさん@お腹いっぱい。 :04/12/26 03:27:28
847 :
名無しさん@お腹いっぱい。 :04/12/26 03:49:49
zsh、wgetはどこでインストールできますか? あの・・・zsh、wgetって何ですか? ほんとにすみません。
850 :
名無しさん@お腹いっぱい。 :04/12/26 04:30:24
>>848 ありがとうございます。
>>849 ありがとうございます。地道にやってみます。
ちなみに同時押しって何ですか?
>851 それだとシェルが展開しようとして変なことが起きるから、適当にクォートすべきだな。
854 :
名無しさん@お腹いっぱい。 :05/01/05 01:31:19
856 :
名無しさん@お腹いっぱい。 :05/01/29 14:47:08
857 :
名無しさん@お腹いっぱい。 :05/01/29 16:18:15
>>856 デムパ キタ━━━━━━(゚∀゚)━━━━━━ !!!!!
phpとか使われるとわけわからん。落とせん
perlスクリプト使え
860 :
名無しさん@お腹いっぱい。 :05/02/02 16:27:08
( ゚д゚)ポカーン
862 :
名無しさん@お腹いっぱい。 :05/02/03 16:27:47
ネトラン厨(・∀・)カエレ!!
ネトラン厨じゃないのに・・・ (つД`)・゚・
>866 ちょっとは自分で勉強することも覚えてはいかがですか。
403喰らう悪寒。-Uでしっかりと騙るのがベターかも。。。 二次元には興味なし。でも
2次元か
while(<>){
m/num=([0-9]+)&type=([a-zA-Z]+)[^0-9]*([0-9]+)/ and system "wget".
" --output-document='$3.$1.$2'".
" --header='Cookie:num=$1;type=$2'".
"
http://nylon.hostfuck.com/nylon.php ".
"\n";
}
×& ○&
Perl?
無駄が多いな、このサイト。
l l J l J さわったら負けかなと思ってる。
成功した?
セルフプレジャー保守
初心者スレから誘導されてきました。 連番のzipファイルを一気に解凍する方法はありますか? 001.zip 002.zip 003.zip 今はひとつひとつunzipしてます。既出だったらすみません。 教えてくれたら、こころを入れ替えてスクリプト勉強します。
unzip {001..100}.zip
for i in *.zip; do unzip $i; done でもいいんでないかい?
echo *.zip | xargs -n1 unzip
unzip は自前でワイルドカードを処理するのでほかに zip ファイルがなければ unzip \*.zip でどうでしょう。
884 :
名無しさん@お腹いっぱい。 :2005/05/30(月) 16:25:28
うほ
885 :
名無しさん@お腹いっぱい。 :2005/06/14(火) 20:55:22
wget -m --cookies=on --user-agent="Mozilla/4.0 (compatible; MSIE 6.0; Windows 98)" とかじゃだめなの?
>>886 UAとrefererは指定してもだめです
cookieはためしてないけど、w3mでさえページを開けないってことはcookieじゃなくて
JavaScriptが効いてないとだめなのかもしれない希ガス
888 :
名無しさん@お腹いっぱい。 :2005/06/14(火) 21:45:27
>>888 そうすか?
私のところでは、w3mでもwgetでも、特定のバイト数を読み込んだところで
ブロック状態になります。で、しょうがないからctrl-Cで終了させると、
IEで取得可能な全てのファイルは落とせていない。
そっからもぐってたどれる画像に関してはまったく無理です。
> IEで取得可能な全てのファイルは落とせていない。 わかりにくい言い方でした。 当然ですが割り込みで入力を停止させてるので、partialなファイルに なっちゃってるってことです。
>>891 え??
それで、ちゃんと最後までおちますか?
私のところではブロックしてしまうのですが。
何が悪いんだろう。
893 :
853 :2005/06/15(水) 01:38:59
wgetばーじょんうpあげ
>>885 uname -v および wget --version を晒してみ
>>895 FreeBSD 4.7-RELEASE
GNU Wget 1.8.2
897 :
895 :2005/06/16(木) 22:21:11
thx. とりあえずニューwgetで試してみることにしますわ。
% ls .thumbnails/normal | wc 3643 3643 134791 % du .thumbnails/normal 84000 .thumbnails/normal ('A`)
900 :
900 :2005/06/26(日) 09:34:26
900
お前は基本がわかってないから無理
>>901 ヒント: wget --header="Cookie: kokoni hairu mojiretu wo nanntoka shutoku shiro"
>>901 日本語も学びなおしたほうがよかろ
学問でも技芸でもなく、単なる方法を知りたいのなら
×教授ください
○教示ください
>>903 それはヒントどころか答えでは・・・w
空気を読んだ方がよかろ 単なる抜く画像を知りたいなら ×助教授ください ○女教授ください
906 :
名無しさん@お腹いっぱい。 :2005/06/30(木) 07:07:50
10秒に1アクセスの制限もあるな。
908 :
名無しさん@お腹いっぱい。 :2005/07/02(土) 19:04:53
なんか最近は DCGA ってのばっかりでスルーばっかりだよ。
909 :
901 :2005/07/03(日) 00:05:10
>>909 つ Firefox + Live HTTP headers
911 :
906 :2005/07/03(日) 09:29:12
>>909 そのままの意味。連続アクセスするとjpegの代わりに「10秒まてこの早漏」と返してくる。
hint: wget --load-cookies=foo --save-cookies=foo --keep-session-cookies
912 :
901 :2005/07/03(日) 15:47:34
お騒がせしてすみません、解決できました。
wget -r --header="cookie: Cookie: PHP_DAYCOUNT2=<省略>; lf=<省略>"
http://loface.com/pic_sum.php?p=kakyu2 で出来ました。今まで出来なかったのは『PHP_DAYCOUNT2』が抜けてただけみたいですorz
>>910 さんが指摘した『Live HTTP headers』で気がつきました。
どうも有難うございました。
>>911 レスしてくれて有難うございます。
913 :
名無しさん@お腹いっぱい。 :2005/07/17(日) 01:12:56
age
まだあったのな、このスレ。
UNIX板での良スレ
エロいおまいら 画像ビューワ のお勧め教えれ。 xv? gimageview? gqview? 他? ディレクトリ一覧の時に、そのディレクトリの中の画像が アイコン一覧みたいに見えるやつキボンヌ。
またこいつか。
>918 ports には見当たらないね。 ぐぐってもどれがどれやらワカラン。 >917 ?
ネタにマジレスか こりゃヒドイ
kuickshow つかってまつ
paint
>>919 C:\Windows\system32\explorer.exe
gthumbかな?
例えば、リストの内容が
http://www.unko.jp/~chinko/[000-026].jpg http://www.manco.jp/anal/gay[00-26].jpg みたいなファイルがあったとしてこれを展開してwgetなりに渡すにはどんなスクリプト書きます?
自分が深く考えないで書いてみたのは
cat < list | sed 's/\(.*[^0-9]\)\[\([0-9].*\)-\([0-9].*\)\].*\.\([^.]*\)$/\1 \2 \3 \4/g' | awk '{printf("echo %s\{%s..%s\}.%s\n", $1, $2, $3, $4)}' | zsh -s | tr ' ' '\n'
で、最初のsedでアドレス、開始の番号、終わりの番号、拡張子を分けて、awkでzshのスクリプト書いて最期にtrで改行入れてるんだけど、どうかな?
添削よろしくです。
やりたいことがよくわからんが、 スカトロでホモって事はわかった。
928 :
名無しさん@お腹いっぱい。 :2005/09/02(金) 22:40:51
>添削 読めない
zsh知らんけど、添削するなら sed 's/¥[¥([0-9]*¥)-¥([0-9]*¥)¥]/{¥1..¥2}/g; s/^/echo /' とか? ただ自分なら、zsh使うくらいなら perlとかで、置き換えながらぐるぐる再帰使って回すかなぁ。
>>929 アーナルほどsedで開始と終わりの番号を別のフィールドにわけないでzshの{..}の形にすればいいのか。。。
坂本文のたのしいUNIXで勉強したてなんでsedとawkくらいしか知らないのでできればperlで
書いていただけませんか?
932 :
名無しさん@お腹いっぱい。 :2005/09/03(土) 02:07:02
wgetなりってことなので curl 使ってもいいんですよね
>931 雑だけど。 #!/usr/bin/perl -n sub ren { $_ = shift; if (/¥[(¥d+)-(¥d+)¥]/) { my ($a,$b,$fst) = ($`,$',$1); foreach $i ($fst..$2) { ren($a . sprintf("%0*d",length($fst),$i) . $b); } } else { print; } } ren($_);
Perlの場合、マジックインクリメントに頼れば #!/usr/bin/perl -n if (/^(.*)\[(\d+)-(\d+)\](.*)$/) { for ($2..$3) { print "$1$_$4\n"; } } else { print; } でいい気がするけど
936 :
934 :2005/09/06(火) 19:48:05
ついでにbash shopt -s extglob function ren { case $1 in *¥[+([0-9])-+([0-9])¥]*) set -- $( echo "$1" | sed 's/¥[¥([0-9]*¥)-¥([0-9]*¥)¥]/ ¥1 ¥2 /' ) for i in $( jot -w"%0$(echo -n $2|wc -c|tr -d ' ')d" - $2 $3 1 ) do ren $1$i$4 done ;; *) echo $1 ;; esac } while read s do ren $s done >935 Perlまかせにすると、[00-10]とかができなかった。
>>936 ちょっと試した感じだと、00みたいに偽値と判断されるやつがダメみたいね。
01-10とかだとオッケーなんだけど。
連番のH画像を諦める勇気ってのも僕には必要なんだ。 エロ画像 いくら取っても 無くならず 取るだけ取って それでおしまい お世話になりました。
今度は、ため込んだ画像を削除する勇気だな。
画像から動画へステップアップする勇気も必要だ。
取り敢えず200MくらいのHDDを6個くらい買ってくる勇気
200Gの間違いじゃないのか
200Gを6個買うのよりも200Mを6個買う方が勇気いると思う。
ワロタ
アルテミスでGNU使ったら、串刺してたのに生IPごと弾かれたorz
↑今年最初に見た馬鹿
このスレのまとめサイト作っていいですか?
よろしく
952 :
950 :2005/11/05(土) 18:30:02
だよもん..
このスレで tp://www.464.jp の連番ダウンロードできた人いる?
>954 さっき試してみたけどできたよ しかしこれ画質悪いな
今このスレのノウハウを生かしてVOAのスクリプトとmp3をダウンロード中…。
voaって何かね
Vagina or Anus
edなり perlなりで、ばっと<span class="articleheadline"~</P></span>あたり抜き出して、html2txtみたいな処理かけて、余計なの削るとか。 そういうことではない?
>>960 perl で $html =~ s!!!sig; を何度も繰り返すスクリプト書いて、なんとか読めるHTMLに加工しました。
今は mp3 を wget してます。
このサイト、mp3 は mp3 で命名規則皆無という腐りっぷりです。うへぇ。
ところで質問です。
ちょっと確認してみたところ GNU Wget 1.10.1 のデフォルトのリクエストは
GET /index.htm HTTP/1.0
User-Agent: Wget/1.10.1
Accept: */*
Host: localhost
Connection: Keep-Alive
という内容でした。で、プロトコルを HTTP/1.1 に切り替えるか、
または強制的に HTTP/1.1 と申請してリクエストすることはできますか?
curl使ってみるとか
>>961 どーせPerl使うんならHTML::TokeParserとかその辺のライブラリ使えばいいのに。
高速ではないけどそれなりに便利だよ。
964 :
名無しさん@お腹いっぱい。 :2005/11/28(月) 22:50:25
次スレどうしますか?
次 ス レ 頼 ま な い
頼みcom
>>980 今度のスレタイは↓こうしてくれ
「連番のH画像/動画を一気にダウンロードする」
これは言わない約束なのかもしれんが 「H」は外さないうわなにするやめろqあwせdrftgyふじこlp:[
じゃあ 連番のURIから一気にダウンロードする /2 でよろしかったでしょうか?
てか連番ている?
ネタ出つくしたみたいだし、 次スレなしでもいいかと。
最近動画落とすのにパスワードが必要だったりするので 自動化は無理そうだと思ったり思わなかったり
975 :
名無しさん@お腹いっぱい。 :2005/12/07(水) 08:43:36
977 :
FM :2005/12/18(日) 21:28:53
>>952 ここまでスレが進んでるのにまとめにcurlが載ってないのは信じられない
979 :
名無しさん@お腹いっぱい。 :2005/12/21(水) 03:21:09
>>977 レスありがとうございます
私はlunascapeというタブブラウザを使っていてそれで画像のurlを抜き取り
連続ダウンローダで連番のを落としてみたのですが見てみると画像情報がなくすべて見れないファイルでしたorz
jpegファイルなのに見れないんですよね。。
ちなみに私が試したのはドラ●もんで
ttp://comic104でしたができませんでした 。。
噂によるとダウンロードできないようにしてるサーバーとかあるようです.....(´・ω・`)
980 :
名無しさん@お腹いっぱい。 :2005/12/21(水) 09:33:01
どざ氏ね
ダインロードってなんかかっこええな
スキルでなく、クンフーの問題
984 :
名無しさん@お腹いっぱい。 :2005/12/22(木) 03:59:39
>>981 ホントですか・・・(゚Д゚)一体何が原因なんでしょうか・・・・
私もダウンロード自体はできてるのですがフォルダにダウンロードされた
画像ファイルを見てみると表示されませんorz ソフトやURLなどいろいろ確認しましたが。。orz
今は結局freemacroでダウソしてるんですが時間かかりまくりんぐ・・・orz
985 :
名無しさん@お腹いっぱい。 :2005/12/24(土) 10:06:45
>>984 ヒント:連番ダウンローダはrefereを使ってくれない。
ここがunix板だと気づいていないんじゃないのか。
来年の1月10日で5周年だな
今まで誰も出していないが,emacs 上でウェブブラウザ(w3m とか)を走らせて, 画像をダウソロードする手順をキーボードマクロで登録しておけば, 特に何も考えなくてもほとんどのサイトでダウソロードできます.
>>990 具体的に書かないのは宗教上の問題かなんか?
キーボードマクロの手順を具体的に書くの?w
インタラクティブってアホじゃありません?
(゚д゚)ウメー
(゚д゚)ウメー
(゚д゚)ウメー
まんこ
(゚д゚)ウメー
(゚д゚)ウメー
1001 :
1001 :
Over 1000 Thread このスレッドは1000を超えました。 もう書けないので、新しいスレッドを立ててくださいです。。。