takehost が Accept-Language: も見るようになったような気配を感じる。
615 :
名無しさん@お腹いっぱい。 :03/07/07 08:14
>614 拙者の記憶によると日本時間で4日の昼間からでござる。 入れ替わりにcookieを見なくなったように思わるれ。
あぼーん
.
誰か教えてくれぇ〜(´Д`)
>>610 まず誠意をみせろ。おれが自宅に戻れる22:00以降に。
話はそれからだ。
623 :
名無しさん@お腹いっぱい。 :03/07/27 23:48
こんなん動ナビとか動画普及委員会チェックしてれば毎日ゲットできるぞ。
動ナビ死んでませんか
動ナビは死んでないが、iij を使った結構な数のエロサイトから ファイルが落とせなくなっているな
∧_∧ ∧_∧ ピュ.ー ( ・3・) ( ^^ ) <これからも僕たちを応援して下さいね(^^)。 =〔~∪ ̄ ̄ ̄∪ ̄ ̄〕 = ◎――――――◎ 山崎渉&ぼるじょあ
wget の --timeout って、 相手がファイアウォールでパケットを捨ててるときには機能しないような気がする。 というか、そもそもそういう目的で使うオプションではないのか? まあ、squidを経由すれば問題ないんだけど。
634 :
名無しさん@お腹いっぱい。 :03/08/13 12:19
2ちゃんで話題になった「みーほ」女子○学生 B86 W57 H88(○5歳)
がこのHP内のギャラリーで何を考えているんだか、衝撃的なセルフのヌードを晒してます!!
削除される前に早めに見ておいた方がいいとおもいます!マジでやば過ぎ!!
http://neeez.com/~miho-room/
不覚にもワロタ
あぼーん
あぼーん
{from..to}
{10..20,30..40} みたいにはできないの?
>639 zsh: {{10..20},{30..40}}
( ・∀・)つ〃∩ ヘェーヘェーヘェー
そろそろ2ヶ月もカキコがない…。 おまえら満足してますか?
>おまえら満足してますか? してねぇっす・・・。 ダウンロード成果物をいかにユニークに保存するかってトコロで 頭痛めてたりする。 とりあえず、ファイルのMD5をpostgres上のテーブルにinsertしといて、 ダウンロード成果物をそいつとチェックして適宜ハネるって運用してるん だけど、どうしても明らかに重複する奴が出てくる。 理由はいくつかあるんだけど、この辺が泥臭くかつ難しいね・・・。 最終的には画像の類似性をうんぬんって世界にしないと仕方ないのか? 誰か「漏れはコレだ!」って奴を教えてくれぃ。
>>644 > 最終的には画像の類似性をうんぬんって世界にしないと仕方ないのか?
> 誰か「漏れはコレだ!」って奴を教えてくれぃ。
今まで何を試したか書いてくれ。
例示した後で「それはもう使ってみた」って言われるのはやだ。
おれは単純に時間とディレクトリで分類してる。 ファイルのタイムスタンプとユニークなID,簡単なメモを 名前に付けてリネームするスクリプト書いて、 適当なディレクトリにとりあえず放り込む。ここまではほぼ自動。 あとは実際に見てる時に必要なら分類し直す。 おれ的にはファイル名がユニークであれば、それで足りてる。 全ての画像に等しい価値がある訳でないので、 必要な時の手作業の分類で間に合う。
俺はディレクトリと連番だな。もちろんスクリプトで。
>>644 wget -x で URL のまま保存してる。
>今まで何を試したか書いてくれ。 少しずつ積み重ねてるから、そんないろいろな方法試してるわけでも ないんだわ。 で、今のところこんな仕組み。 前提:ファイルはすべて.jpg。 対象は、ディレクトリごとにファイルがまとまっていると想定。 (ディレクトリひとつに1ファイルは無視) -- 日々。 (1) wget -x でディレクトリごとdownload (2) jpeginfoで壊れたファイルを削除 -- 月次。 (3) ディレクトリ階層をn階層 -> 2階層へ変換 (4) 指定バイト数以下のファイルやディレクトリを削除 (サムネイル対策) (5) 過去にダウンロードしたファイルのmd5と比較し、新規ファイルが 含まれているディレクトリは保存用ディレクトリへ移動。 (6) 保存用ディレクトリへ移動したものは、md5をpostgres上のテーブルへ insertする。 (次からのダウンロード重複チェック用) --適当なタイミングで。 (6) そこそこたまってきたら、CD-Rを使ってお掃除。 上記(6)以外はすべて自動実行。 で、こうやってて素朴に思うのが、「ここまでやらないかんのか?」てところ。 これという方法も無いような気がするんだけどね。
続き。 重複する理由ってのが、だいたい (a) jpgファイルが壊れてて、md5が違ってる。 (b) 見た目おんなじ画像で壊れてもいないjpgファイルだけど、何故かmd5が違う。 (c) 素材はおんなじだけど、画像ファイル化したヒトが違うヒト といったところかなと。 んで、(a)はjpeginfoでどうにかなるとして(といっても再度ダウンロードで補うことが できればだけどね)、(b),(c)はどうしたものかなと。 完全自動化を目指してるんで、この辺クリアできないかなと考えてます。
そこまでしてローカルにあらゆる画像を保存したいの? 画像の類似性を判別するソフトがあったような気もするけど。
GQview とか
>>644 素人考えなんだが
同じエロ画像でも大きさっていうか画質とかが違ってたりすんじゃん
例えばイメージマジックとかで同じ様な仕様になるように
小さくサムネイルのように同じファイルサイズとかにフィルタしてから
binary diffみたいのを使って差分をとって差分比率を読みとりながら
画像を比較できないのかなぁ?
レスありがとさんです。 >GQview とか フリーでこのテのツールがあるとは知りませんでした。 別のツールでは、作者が「コマンド実行で類推するようにしたいな」って 書いてたんで、もう少し様子見かなと。 もしくは、これらツールから該当コードをぶっこぬいて、コマンドラインで 実行できるようデッチ上げるのも手かなと。 >binary diffみたいのを使って差分をとって差分比率を読みとりながら >画像を比較できないのかなぁ? #漏れも画像関係まったくの素人なんですが・・・。 jpegを一度bitmapか何かに展開してからゴリゴリ比較って動きかな? 暇を見てちょっと試してみます。 時間を見つけて、いずれかの方法をちょっとやってみます。 ありがとうございやした。
俺は半角板を自動巡回して URI 拾って wget のリクエスト作る Ruby スクリプト書いた
落ちてきた画像は一通り見てお気に入りの奴はお気に入りディレクトリに入れて
それ以外は全部ファイル名を MD5 にリネームするスクリプトで変換してから
画像置き場ディレクトリに放り込んでる
画像的には同一なんだけどデータとしては違うというケースはうちでも発生してるな
ちゃんと判定する方法なんて無いような気がしてたから諦めてたけど
ここらへん研究してみると面白いかもな
>>652 (b)(c)のケースなんだけど、もし画像サイズが同じなら、
jpeg のエンコード時の特性の違いがあるのかもな
もしそうなら jpeg のエンコードに特化した画像判別があればいいのかも
>>660 JPEGは符号化時のクオリティ設定で出力がまったく違います。
また、どこかのwebで拾った同じJPEGファイルに端を発した画像でも
デコード・エンコードを繰り返して劣化したもの、コメントが変わった
・取り除かれたもの、huffmanコードを最適化したものなどいくらでも
バリエーションがありますので、結局デコード後の画像として比較する
しかないのではないかと。
665 :
名無しさん@お腹いっぱい。 :03/11/25 15:58
wgetを使ってあるディレクトリ以下にある(cgiソース含)ファイルを無差別にDLする方法ありませんかね。
man wget
667 :
名無しさん@お腹いっぱい。 :03/11/25 16:08
>>666 やったけど詳しく書いてないみたいだけど、、、
wget -r --ignore-length <URL/>
で良いかな?
info wget
669 :
名無しさん@お腹いっぱい。 :03/11/25 17:19
cgiファイルらしきもんはダウンロードできたけれど、やっぱソースが見れないです。 ソースの形でまるごとやりたいんですけど。
ソースが見れないように設定してあるHTTP鯖から、 ソースを落とすことはできませんヨ。当たり前だろ。
671 :
名無しさん@お腹いっぱい。 :03/11/25 17:31
やっぱ、そうだったか。 たまたま、ソースもまるごと落せたこともあったけど、それはそこの管理者が 物凄くアホだったってわけね。 俺もな、、、涙;
そもそも、読み出し権限無いかもしれないし。
>>671 というかCGIとして実行されるように設定されてるファイルは、絶対にGETできんよ。
そのファイルを指定したリクエストが来たらCGIとして実行するようになってる
訳だから、(そのWebサーバ経由では)ファイルを取りようが無い。
ソースを落とせたことがあるんなら、多分それは、CGI実行設定されてない
ディレクトリに物置のように置いて有ったのだろう。逆に言うとそれは
「動いていない」プログラムだから、正しいという保証はどこにも無い。
jpeginfo でこわれているjpegファイルの判定を十分にできますか? なんか、xv で表示できないファイルがだいぶ残るのですが。
XVの設定が古いせいではないかと… ImageMagickとかなら表示できたりしない?
そうですか。もうすこしいろいろためしてみます。
% perl slodziutka.erospace.pl ドゾー
678 :
名無しさん@お腹いっぱい。 :03/12/17 20:51
最新のwgetって~を%7Eに変換しないのか…
679 :
名無しさん@お腹いっぱい。 :04/01/02 16:41
「げっとぴっく」ってやつ使ってるんだが 「指定のURLには画像が存在しません」とかいうエラーが出てきてdlできん
>>681 あんま好きなおなごじゃないな
wget --user-agent=Mozilla --referer
http://gallery3.pure-angel.net/kasumi_nakane/01/ http://gallery3.pure-angel.net/kasumi_nakane/01/nakane_kasumi_0{0,1,2,3,4,5,6,7,8,9}{0,1,2,3,4,5,6,7,8,9}.jpg
> wget --user-agent=Mozilla --referer
http://gallery3.pure-angel.net/kasumi_nakane/01/ http://gallery3.pure-angel.net/kasumi_nakane/01/nakane_kasumi_0{0,1,2,3,4,5,6,7,8,9}{0,1,2,3,4,5,6,7,8,9}.jpg ありがとうございます!!
--refererの使用まで思い至りませんでした。
>>578 の方法につての質問です。
ディレクトリが同じでその中のファイルの例が
img20031113192714.jpg 13 Nov 03 19:27 6.2Kb
img20031113210116.jpg 13 Nov 03 21:01 7.4Kb
img20031113210157.jpg 13 Nov 03 21:01 22.1Kb
・・・
こんな感じになってます。これを一気に落としたいのですが
いかんせん時分秒まで回してたらやばいことになりそうなので
wget
http://~ の~部分だけループできたらと思います。
で,その場所がディレクトリサービスONだったので
starsuiteで上のようなファイルリストを作りました。
でもシェルスクリプトの動作がイマイチわかりません。
cat<<END |wget
http://nanntokakanntoka/ 2003xxxxxxxx.jpg
...
END
の足りない部分を埋めていただきたく思います。
Solaris9でインストールしたときのsh使ってます。
それ以前にwgetでディレクトリサービスONの
アドレスから.jpg .png .gifの絶対パス取って
まとめてゲット~なんて出来ればなお良いんですけど
私にはさっぱりひらめきがないのでもし良かったら
ご教示願います
何が最悪なんだ?
684がhelpもinfoも読まずにカキコしちゃった自身の ソコツさ加減を最悪と称しているのでせう
688 :
名無しさん@お腹いっぱい。 :04/01/09 02:37
あの、awkでしかも汚いですが一応動きます。
baseurl と files 変えたら他の女の子のもいけます。
よければ添削してやってください。
BEGIN{
baseurl="
http://www.tokyo-247.net/image/37_maya/maya1/t2_maya001.jpg "
files = 55
split(baseurl,url,"1/")
url[2] = substr(url[2],1,index(url[2],"0"))
for(i=1; i<=files; i++){
path = url[1] int((i-1)/15)+1 "/"
if(i<10){ number = "0" i }else{ number = i}
file = url[2] number ".jpg"
print file
wgetcmd = "wget -nc " path file
system(wgetcmd)
}
}
691 :
名無しさん@お腹いっぱい。 :04/01/18 00:35
wgetのオプションでquotaを指定すると取得するファイルの上限をきめられるそうですが 逆に下限を決める事はできないのでしょうか? HDDがすげー遅いので、ディスクアクセスをできるだけ減らしたいっす
>>690 わざわざ変なスクリプトかいて暇ですな。
>>690 ファイルごとに wget を起動するんでなく
URL を一括で wget に食わせてやる方がよいと思う。
あとせっかく wget 使うなら便利なオプションがいろいろあるので調べるが吉。
ご意見ありがd。 >692 九段のサイトでは画像を小出しにしてまして 定期的に巡回して、うp分を一括ダウソする必要があり まぁ暇だったこともあってこうなりまつた。 >693 その向きでまたチャレンジしまつ。
> ご意見ありが??。 まともなunixerならまず使おうとは思わん記号だな
>>695 というか、入力方法がわからんよ
emacsでctrl-q hoge fuga とかするの?
そういえば、どこかのスレに 「(・∀・)イラネ」って書いてあったのを見たことあるよ
>695 わざわざ使おうとは思わんけど、 unixでは読めないのがあたりまえみたいな 書きかたをされると( ´゚д゚`)
699 :
名無しさん@お腹いっぱい。 :04/02/08 02:27
"あれこれ"やったことを書け。
リンクを解析して辿り、目的の拡張子だけをダウソするPerlスクリプトを書いたんですが・・・再発明ですか? 個人的には十分楽しんだからウマーだけど。
あぼーん
HTML::LinkExtor とか使えばいいのに。 出力は、fork しまくって wget を同時に走らすスクリプトに渡すと。 まあ、手元にあるんだが、希望者がいれば公開してあげます。
今痔が出来て痛くてたまらないからAA貼り付けようかな
僕もがんばってみた。「はじめてのC言語」とそれから「関数の使いかた」少しよんだ。 #include <stdio.h> #include <string.h> #include <math.h> #define MAXSTRING 255 struct address{ char preaddr[MAXSTRING]; char scope[MAXSTRING]; char aftaddr[MAXSTRING]; int statnum; int endnum; int digit; }; /* 続く */
void numaddr( struct address *p ) { char cset[] = "-"; p->digit = strcspn( p->scope, cset ); p->statnum = atoi( strtok( p->scope, cset )); p->endnum = atoi( strtok( NULL, cset )); } void printaddr( struct address *p ) { int i, n, t; for ( n = p->statnum; n <= p->endnum; n++ ) { fprintf( stdout, "%s", p->preaddr ); if ( n == 0 ) i = 0; else i = log10(n); for ( t = i; t < p->digit - 1; t++ ) fprintf( stdout, "0"); fprintf( stdout, "%d%s\n", n, p->aftaddr ); } } /* 続く */
int main( int argc, char *argv[] ) { int i; char cset[] = "[]"; struct address multiaddr[argc]; if ( argc <= 1 ) fprintf( stdout, "%s [word]...\n", argv[0] ); else { for ( i = 1; i < argc; i++ ) { strcpy ( multiaddr[i].preaddr, strtok( argv[i], cset )); strcpy ( multiaddr[i].scope, strtok( NULL, cset )); strcpy ( multiaddr[i].aftaddr, strtok( NULL, cset )); numaddr(&multiaddr[i]); printaddr(&multiaddr[i]); } } return 0; } /* おしまい */
math.h をつかうと #gcc -o getopai getopai.c -lm と -lm つけるのなんでだろ?
>>709 やっぱこう↓しとく
"s/\[word\]/opai\[001-100\].jpg/"
714 :
名無しさん@お腹いっぱい。 :04/02/09 13:03
>>712 動画ウィンドウの表示にはJavaScriptを利用してるみたいなので
wgetだけでは無理かと
うん どうやってするのがスマートな解決なんでしょうか。 僕には皆目検討もつきません。 やっぱ 一つ一つ落すしかないのかな。
--user-agentの指定ってどういうとき必要になるの?
偽装したい時
アクセスログ読んでる奴に嫌がらせしたいとき。
>>718 --user-agentを指定しアクセス制限を回避することは
不正アクセス禁止法の第3条2項2号に違反するため、
一年以下の懲役又は五十万円以下の罰金に処されます。
>>720 user agentは不正アクセス禁止法の識別符号には該当しない。
詳しい人100人集めたら90人くらいまではそう言うと思うけど、裁判所的にはどうだろね。 URLと一緒で意図絡んでるからトチ狂った判断出される可能性はなきにしもあらずげ。
もしかして、厳密にいうと違反なわけ?
>>725 誰かがUA偽装のみで訴えられて裁判所が何らかの判断下すまで違反だとは誰も断言できない。
条文にアクセス方法についてもうちょい具体的に書いておいてくれりゃよかったんだけどね。
telnetしたり自分でUA組んだ時、 打ち間違えたりリテラル書き間違えてたらタイーフォか。ありえねー。 標準で偽装可能な Opera はタイーフォだな。(w 大体、クライアント側が偽装してるかどうかを立証する方法がないわな。 ただ裁判官はこの手の知識は絶無だし、腐った弁護士は少なくないからなぁ。 やな世の中だ。
なんか変な人が。
>>727 UserAgentを普段書き換えることや書き換え機能がついてること自体は問題ない。
* UserAgentでアクセスの制限をしているサイト * へ、UserAgentを書き換えて
アクセスしたことが問題(になるかもしれないのはやだなあ)という話。
なる可能性はあるな。国内の法律では不正アクセス行為の禁止等に関する法律の 第3条3項に以下の記述がある >三 電気通信回線を介して接続された他の特定電子計算機が有するアクセス制御機能に >よりその特定利用を制限されている特定電子計算機に電気通信回線を通じてその >制限を免れることができる情報又は指令を入力して当該特定電子計算機を作動させ、 >その制限されている特定利用をし得る状態にさせる行為 ここの「制限を免れることが出来る情報」にuseragentが含まれるかどうかが争点だろう。 俺としてはUAはそもそも信憑性にないものだし,UAによるアクセス制御自体が 無効だと思ってる。ケータイのサイトなんかでよくあるけど,CDMAなんかopenwave.com からブラウザ拾ってきて使えばPCでMobile Browserのagentが出せる。 この場合は有罪?無罪? アクセス制御にはIPアドレスなどを使うべきだろう。 俺の結論 合法と解釈する。
アクセス制限とは認証のことであり、UAのチェックは認証としての要件を満たさない 以上終了
もまえら暇だなぁ。
そんなことより違法なエロ画像の URL 下さい。
「うらぼん」でぐぐればいいのでは?
おお、これは本当にありがたい。ありがたやありがたや (一人一) ナムー
user-agentだろどうせ
cookie利用の可能性も
740 :
名無しさん@お腹いっぱい。 :04/02/13 12:40
連番の蓮画像を一気にダウンロードする スレに見えた。
ようするに見る側の問題ってこった。
>740 ありがとぉ
745 :
名無しさん@お腹いっぱい。 :04/02/14 00:51
746 :
名無しさん@お腹いっぱい。 :04/02/14 03:58
よ〜するに、M$IEもMozillaを騙っているので偽装であると...φ(.. )
urlがpcnewsでは開いて見る気もせんが、 AAは良い出来だから今回だけは許してやろう。
pcnewsに飛ばすならせめて ネットで公開して本人補導とかそういうのにしてくれないとな。
あんまりサーバに負荷かけちゃ駄目だよ。
#!/bin/bash
if [ ! -d ./OUT ]; then
mkdir OUT
fi
URL="
http://thebbs.jp "
GETNUM="1024"
UA="Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; .NET CLR 1.1.4322)"
wget -U "$UA" -N "${URL}/up1/"
LIST=$(cat index.html | egrep '[0-9]+\.html' | sed 's/.*href=\"\([0-9][0-9]*\.html\)\".*/\1/g')
PAGES=$(for name in ${LIST} ; do echo "${URL}/up1/${name}" ; done )
wget -U "$UA" -N -nv -w 1 --random-wait ${PAGES}
for name in $(grep 'href=/sum.html\?' 1[0-9]*.html \
| sed 's+.*href=.*/\([0-9][0-9]*\.\(jpg\|png\|bmp\|gif\)\) .*+\1+g'\
| sort | tail -n ${GETNUM} )
do
wget -N -nv -U "$UA" -w 4 --random-wait -O ./OUT/${name} "
http://thebbs.jp/up1/img/${name} "
done
でもここから選別するのが大変な罠。
あ、そうそう。 急に変なアクセス増えて何かの対策とられたりしないように次の事くらいは守って使って。 UAは絶対変える。 GETNUMは増やさない。 -w は減らさない。 --random-waitは外さない。 管理者に迷惑かからないようにしてな。まじで。 一晩くらいかけてマターリ落して細く長く楽しむのが吉だべよ。 つっても楽しめる画像があんまり無いんだけど。
自分で生HDDをつけるということは、少なくてもパーティションの作成から ファイルシステムやswapの作成というところから始めなきゃいけない訳だし unix未経験者にはハードル高いんじゃないかな、少なくてもvi使えないと話にならんし。 でもこれから勉強したい人には良いかもね。
↑なかなか上品なレスだけど、頭の中ではエロエロなことばかり考えているんですね。
誤爆かと思った罠
エロは*習熟の源です
759 :
名無しさん@お腹いっぱい。 :04/03/12 00:34
760 :
名無しさん@お腹いっぱい。 :04/03/15 03:48
ほしゅ
ほしゅほしゅ
hosyu
hosyu
なんかネタ無いの? wgetで複数ファイルの同時ダウンロードするシェルスクリプト書いてたまに使ってるけど、 curlを使うperl,ruby,python等のスクリプトの方がよくない? shは遅いし、wgetは終了時のエラーコードとか細かい部分がダメぽい。
エロには飽きた。
画像に飽きた奴が小説に流れるパターンだな
もう一度、エロのパワーを!!!
保守
誰か俺が使ってるスクリプト見たい人いる?汚いけど。
参考にしてみたいな
こんなかんじ。 urlをテキストに並べておいて、ファイル名を引き数に指定して使ってます。 urlにリンクされているjpgを勝手にフォルダ掘ってそこにdlしていきます。 フォルダ名はurlから拾ってます。 #!/usr/bin/perl use LWP::UserAgent; use HTML::LinkExtor; use URI::URL; use strict; use POSIX ":sys_wait_h"; $| = 1;#OUTPUT_AUTOFLUSH my $iframe_ref=''; my $base_tag = '';
while(!eof()) { my $url = <>; $iframe_ref = ''; my %downloads = (); chomp $url; next unless $url; print "Checking $url¥n"; if ( map{ $downloads{$_} = 0 } getlinks($url) ) { $url = $iframe_ref if $iframe_ref; dl2( $url,[sort keys %downloads] ); print "¥n"; } else { print "there are no JPG¥n"; } }
my @imgs = (); my $iframe = ''; sub callback { my($tag, %attr) = @_; $iframe = $attr{"src"} if $tag eq 'iframe'; $base_tag = $attr{"href"} if $tag eq 'base'; return if $tag ne 'a'; push(@imgs, $attr{"href"}); }
sub getlinks
{
$base_tag = '';
@imgs = ();
$iframe = '';
my $url = $_[0];
my $ua = LWP::UserAgent->new( Agent => "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;)");
my $p = HTML::LinkExtor->new(¥&callback);
my $res = $ua->request(
HTTP::Request- >new(GET => $url),
sub {$p->parse($_[0])});
my $base = $base_tag || $res->base;
if ($iframe and !@imgs) {
print "Found iframe. recheck >> $iframe¥n";
$_ = url($iframe,$base)->abs;
$iframe_ref = $_;
$iframe = '';
return getlinks($_);
}
@imgs = map { $_ = url($_, $base)->abs; } @imgs;
@imgs = grep{/.[jJ][pP][gG]$/} @imgs;
return @imgs;
}
sub dl { my $uri = $_[0]; my $ref = $_[1]; my ($dummy,$dir) = ($uri =~ /.*¥/([^¥/]+)¥/([^¥/]+)¥/[^¥/]*$/); opendir(A,$dir) || mkdir $dir; closedir A; chdir $dir; `curl -s -O $uri -e $ref`; chdir "../"; }
sub dl2 { my $max = 4;#プロセス数 my $ref = shift; my @str = @{shift(@_)}; my($pid, @slot); my $tick=0; while(@str){ for(0..($max-1)){ if($slot[$_] != 0 and waitpid($slot[$_], &WNOHANG)!=0){ $slot[$_] = 0; } }
for(0..($max-1)){ if($slot[$_] == 0){ my $url = shift(@str); last unless defined $url; chomp($url); if($pid=fork()){ $slot[$_] = $pid; } elsif (defined $pid) { print "Start Download >> $url¥r"; dl($url,$ref); exit; } else { die "Can't fork: $!¥n"; } } } sleep(1); } for(0..($max-1)){ waitpid($slot[$_], 0); } }
以上です。
余計なのはいってた; my $tick; を削除してください; バーが回るヤツつけようと書き換えている最中の貼ってしまいました;
wget -r -A .jpg に URL を渡して回せば良いのでは? と言ってみるテスト。
wgetの--page-requisitesを使ってお絵かき掲示板の絵をコメントごと収集しようと思ってます。
しかし、しぃアプレットを使っている掲示板からは--page-requisitesで画像を持って来れませんでした。
例として、どこでもいいんですが思い切り無関係なところでこことか↓
ttp://www15.big.or.jp/~baroque/nharuna/oekaki/bbsnote.cgi 1) wgetの設定がまずい
2) こっちのネットワークの何かがまずい
3) CGI側で何かしてるのでwgetでは無理
なにがよろしくないんでしょう。wgetがHTMLを解析してくれてない感じなんですが。
>>782 1) -p option ついたの最近よ? あと実装始めのころのはバグってた気もした
2) これっぽい。君のサイトが撥ねられてるとか、proxy とか
3) んなこたー、ない
% wget --page-requisites
http://www15.big.or.jp/~baroque/nharuna/oekaki/bbsnote.cgi (略)
% ls www15.big.or.jp/~baroque/nharuna/oekaki/data/
IMG_003579.jpg IMG_003582.jpg IMG_003585.jpg IMG_003587_2.jpg
IMG_003581.jpg IMG_003584.jpg IMG_003586.jpg IMG_003588.jpg
% wget --version
GNU Wget 1.9.1
>>782-783 漏れも画像のダウンロードができなかった
-m -l1オプションでもダメだった
% wget --version
GNU Wget 1.8.2
wget 1.9は~の処理が変わったので使ってない
>781 おお。スマートだし。自分が恥ずかしくなってきた。 でもこれ、サムネールとか広告まで保存しちゃいますね。 保存先も深くなっちゃうし。
>782 wget --page-requisites --follow-tags=IMG でいけました。 あと自己レスなんですが wget -r -A.jpg -nd -np -I 1 -H --ignore-tags=img -P dir でやりたかった通りに出来ました。
>>788 でもあんま根本的な原因究明にはなってないな(w
解析が難しいHTMLの書き方にでもなってるのか?
wgetよりcURLの方が便利だ。
使い方キボン.
>789 CGIが吐くHTMLの最初の方に <META name="ROBOTS" content="NOINDEX,NOFOLLOW"> とあり、wgetがこのタグのNOFOLLOWを理解して探索をやめてしまうから。
がーん。wget って --timestamping と --no-clobber を同時指定ってできないんだ… 「ローカルより新しいファイルならサーバからダウンロードするが ファイルは上書きせずに通し番号などをつけて区別して保存する」 という芸はできないのか。
>>793 サーバー上のファイルと比較すべきローカルのファイルを
どれにするのが適当なのかがよくわからない、というのが原因なんだろうね。
--timestampingで更新ダウンロードした時に
スクリプトでリネーム退避しておく、という手くらいしか思いつかないや。
…wgetが更新ダウンロードしたことを検知する方法ってなんかあるっけ。
ログを書き出す設定にしてgrepする以外にあるかな?
795 :
名無しさん@お腹いっぱい。 :04/07/04 16:58
優秀なポマエラに質問でつ
このサイトの画像を自動で保存するにはどうすればいいでつか?
http://www.sweetnote.com/board/chidle/hoshiinanase/ ページの最後にCSSで隠した画像があって、
その画像にアクセスするとアクセス禁止になってしまうので
wgetだと保存できません
ちなみに、巡回ソフト対策みたいなのですが、
CSSに対応してないブラウザで見ると表示されてしまうし、
Operaでスペース押していくと画像を順番に表示していくので
CSSで隠した画像にもアクセスしてしまいます
そういえば、昔作ったスクリプトには grep -v BBLhGdTS 何ていうのが入っていたな。
ん? えーと、コレは単に ……。しまった。CSS云々ってコレか。繋ぎ変えよう
>>797 面倒なことさせてしまってすみません
FirefoxなどでCSSを無効にすると
一番下に同じサムネイルが2枚表示されていて
その下の画像のリンクにアクセスするとアクセス禁止になってしまいます
う、うまく書けない。まあいいや。 えーとね、Lynxかなにかで全リンクを抽出して、grepで/images/を含む行を取り出す。 これは「1行目は本物画像リンク、2行目はCSSで隠された罠リンク」の順番になってるので 偶数行目だけ削除するフィルタを何かで書いて(初心者が急いでるので挫折)、 そのURLリストをUserAgentがIEでrefererが当該ページなwgetで回せばいい。はず。たぶん。
wget --load-cookies --save-cookies .... でOKでは。
適当に書いてみた。LynxだとIEのフリができずアクセス解析でバレそうなのでHTMLソースをwgetして解析。
>>799 の「リンクを抽出した1行目は本物画像リンク、2行目はCSSで隠された罠リンク」の仕様が崩れるとアウト。
#/bin/sh
wget $1 -q -nv --user-agent=="Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)" -O - |\
sed -n 's/<a href="\(..*\)" target="_blank">.*/
http:\/\/www.sweetnote.com\1/p ' |\
awk 'NR%2 == 1' | wget --user-agent="Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)" \
--referer=$1 -nv -P ${2:-gazou} -i -
上記の5行をget.shとかで保存して適当に実行可能にして
$ ./get.sh
http://www.sweetnote.com/board/chidle/hoshiinanase/ とするとカレントディレクトリにgazouディレクトリを勝手に掘って画像を保存。
(5行目の -P ${2:-gazou} を消すとデフォルトでカレントに保存するようになる)
$ ./get.sh
http://www.sweetnote.com/board/chidle/hoshiinanase/ test
とするとカレントディレクトリの下にtestという指定ディレクトリを勝手に掘って画像を保存。
IEだと思わせてるので画像の更新はあえて見てない(毎回6ファイルを強制ダウンロード)。
鯖負荷のかけすぎで気取られないように注意。
>>802 ありがとうございます
ダミーのリンクは最初と最後の画像だけみたいなので
偶数行を削除という発想をヒントに2行目と最後の行を削除したらいけました
sed -e '2 d' | tac | tail +2
> 仕様が崩れるとアウト。
以前は各画像のあとにコメントアウトされた
ダミーの画像がふたつずつありました
> (毎回6ファイルを強制ダウンロード)。
いつもはwgetに-xオプションをつけてダウンロードしています
あとは "`echo url | cut -d/ -f3-`" というファイルが
存在するかどうかでダウンロード済みかどうかを判断しています
URLエンコードが必要な場合は適当に処理してます
IEでもHEAD投げてサイズを見てダウンロードするかどうかを決めるってのはやってるんじゃないかな。 別にそれでバレることはないと思うぞ(w
>>801 いやね、
>>800 は半角板に張ってあったりすると、URI中のセッションIDとcookieのセッションIDが一致しないとダメなのよ。
そのサイトから直で落とすなら問題ないんだけどね。
806 :
名無しさん@お腹いっぱい。 :04/08/14 11:43
保守
807 :
名無しさん@お腹いっぱい。 :04/08/22 21:52
wget使ってdlするスクリプトを書いてるんだけど、どうもcookieの処理が上手く出来 ないんだけど、だれか解決方法知らない? index取得時にUIDとSIDをsetされるので、imageをgetする際にその両方を送れば いいだけなんだけど、なぜかwgetだとUIDしか送ってくれない。
>>807 指定するときにセミコロンでパラメータをセパレートするんじゃないの?
ひょっとしたらwgetの場合cookieなんかだと、複数のパラメータセットが
あった場合、全部追加されるのかもしれないけど。
#まあキャプチャすれば直ぐ判ることだが。
811 :
名無しさん@お腹いっぱい。 :04/09/09 01:30
保守
>>812 --header=REFERER:と等価な--refererが最近のヤツだと使えるようになってる。
{}の展開、以前上手く動かなくて使ってないのだが、俺の勘違いだったのかな。
今度試してみよう。
>>813 cshが勝手にはぎ取っているという落ちでないの?
echo {01..18}
の結果は?
>>814 ああ、やっぱりシェルの展開機能なのね。
普通にsh(bash)でした。
このスレのあちこちで、しつこく zsh って書いてあるのに…
curlにはそういうiriaライクな構文があるよね。
>>816 いや、zshに展開機能があるのは知ってるんだけど
wget自身にパラメータの展開機能が盛り込まれたのかと思ったんだよ。
シェルにあるような機能を取り込む必要もないのかもしれんが、
ある意味zshって特殊(スタンダードではない)だから。
まあログインシェルぐらい時々で変えれば、つう考えもあるな。
>818 展開は shell が面倒見てその結果をアプリケーションに渡すのが Unix 的思想。
>>819 んじゃ、もう一方のUnix的な思想で
展開機能のないシェルで展開させるために使うフィルタで
お勧めなのは何かある?今はawkでやってるんだけど。
(zshのスクリプトでというのは取りあえず無しで)
>>821 多分指摘のとおりアホなんだと思うけど、
アホ故に、どの辺りをもってしてアホなのかが判らん。
ズバっと明確に切ってくれ。
zshのスクリプトでいいじゃん。 車輪の再発明はイラネ
url を切り出すスクリプトと wget を 50 個くらい平行して走らせるスクリプトだけで オナニーするには困ってない.
>>820 まったくスレ読まないで書くから外してるかもしれないけど。
curlは自前で展開してくれる。そっち使えば?
えっと、aria は4系でも動かないの?
被写体が♂だったらやったんだけどな・・・
工エエェェ(´д`)ェェエエ工
苺きんたまの画像をゲットした時は
#!/bin/sh
cat input |grep "
http://v.isp.2ch.net/up/ " >output
sed 's/http/ttp/' output > tmp
sed 's/ttp/http/' tmp > tmp2
sed 's/JPG/jpg/' tmp2 > tmp3
awk '
{print "wget " $1}' tmp3 >temp
chmod 700 temp
./temp
mv *.jpg images
こんな感じ。お好みでwhileして?p=1・・・p25までゲットとか。
無限roopで問題なかった。1つのcgi落とすのに10分以上かかったから。
sedが冗長な感じだが足りない頭じゃこんなものしか書けなかった。
誰かもっと簡潔な「よい見本」きぼんぬ。
あーごめん。これじゃなかった。
#!/bin/csh
@ i = 1
while ($i <= 2)
date >>history
wget "
http://up.isp.2ch.net/upload/c=03okari/index.cgi? "
cat "index.cgi" |grep jpg >list
awk -F\" '{print "wget -U hiroyuki
http://v.isp.2ch.net " $2}' list >test
cat test |grep jpg >test2
chmod 770 test2
./test2
awk '{print $4}' test2 >>listtmp
sort -i listtmp |uniq >getlist
mv *.jpg jpg3
rm "index.cgi"
@ i = 1
end
こんなん。これも良い見本きぼんぬ。
832 :
名無しさん@お腹いっぱい。 :04/10/22 13:36:38
age
833 :
名無しさん@お腹いっぱい。 :04/11/05 19:21:13
保守!
なんて息の長い祖レッドなんだ。
見つけてしまいました、こんなスレ。今からzsh入れます!
すげー。ありがとみなさん!ノシ
このスレ21世紀の始まりから生きてるのか
838 :
名無しさん@お腹いっぱい。 :04/11/11 21:10:37
エロは性器を超える
839 :
名無しさん@お腹いっぱい。 :04/11/11 21:37:36
wgetに画像だけ-ncの動作をするオプションを追加して使ってる。 時間の入った連番画像が主の時には、-N使うよりは動作は速いし鯖負荷も多少は減るんじゃ無いかな。 wget --no-clobber-imageで。 begin-base64 644 - H4sIAN3lpUEAA7VXaW/bRhD9LP2KqYDakiXRJHXLMGoHkQsjTh04aYECAViK XInbkLsEd+kDaf57Zw8dtCTXCVDBMMXZ92aPeTM7iuliAd2iBMc5fVgS2fWc ieOdiiI6TaTMnQj2Wuvdbvcgpea7bq/ruV1vAO542vOn3sBxVx9ouxPXrbfb 7f2uFbvf9byuPwDfnw5GU7fvjPqD0WCLfXEBXW/Y9zpDaOunN4GLizqYT0Fk WTC4m326u313Zqzf6lBvA9AFNHkuHcajlM/npKBZuCRwdARJKAL9EohysaCP QQ7Nk0TIUDopj8I0WNCUtBRSfQnIIxVS7Ae11EwAX80D4PQErhdQmRaoALVI EgNnELJYe4UwLUgYP4Hx3oGYA+Oy3q6pPRWU3BOQCTHYk9OV/5Qv84IyiXu7 uf01+GN29+b246wDQbPxud6+1jv862dxvHaPPgrSgQeapsr/2rnzmTVaHdjd 0Vl1K+s1qF1YXwREmedcoFEei7XLGG7fObC12JNYwj/nNjhX6Hg1cHU3mwXv L/98M4NmXGbZ02bWZwFtm4C2VWRLQQIp4BxcHehVfCXNCG4iyylbtowCvtbj w2KnjMpdsRvrAbGbwY3YPStXz3uN2DdsI3YPvOHUH0y9oTMcDP0dsY98rXV8 jKzSv0Ijo0XBi0anVvvt95sbfNSiLA5ETqLADMG3joUyjEekkEdah+qtY+Bz
zlMSsi3oSqQIP6qodpfRrjJ0Au3QtLVzaLI8LAiTm6XxwFgOLy8v+ONThaAM Fn9PIlnZeJkpJYoNXhYrLI7h8gLKFohHacckL0gUShKjXl9QSxZStqsWYz2g FjP4o2rZsLfVMpz2Rs544hq5bKnFH0+UWtRjtK6LeBZ0yXhBuilhS5k0Opj7 QVgsy0ydNmgJgdcb27OrKGwf9Dg73oYy3l3rZq/nvmcV8wzetarZSxp7z+aI aaEjrEO6f57RM0rChXwNb7yPl3L+pcwPUAauoqgjH/aG6siHvVHHXEW1KMRa 6I3dKX4HEESi+O7DFJqNiDOGa1E1ipeofHU1oGusdwo5xxr9BYvcyoE3VfW/ 4uB5vkGDY+E+0zhLt/MfXx7vzh9GEckPzfuC7BFOORNO8lye64ED4l+P/6j+ Kw62u4Ph1HWd/mS3OxgMVDjw/9gmAN6PEMZxoIKKWjir1TDh33J1caEZlJmF GYGVTp5+UZeWJa4P3NKoCOcpEbAKA1sCX5hbG7/jceIHqXEoQ8fefRU3Om6v 89W2vjTFsWuKkrDAm5QWWPoINivG1Se8ljHKir7eBciCkAorVTe32qoh3fAl rCwVHGV5KYMq+FrZKvAX5FJKmordMmnNB6RiR9dC8Xvge1NV7V4llC16VSa9 seP6owpdyWTi9ZVO1MNfKcV2G6qh0F0jRq7e3tceYh4LaU9roQ4EGz/d9BkT Am17o7qSJr5im2LY0DT4Fpyf61piW8bN1Jb1k8CLGhM5ynA+5GKq/50vG60q 3nsZT/5nQs6+D7+ki+/Cz7N8P37ruHQ7iAq9wwYXQkgpwxa14BlcfdDttYWq zjXnGFFswSVHBBFJ+oSNsWp28d7X5V9g4uhk0xll30DkYaQ7Xj6XeB1jZyuT gpfLBDJNb7b0RCLhZWr8zNUSCAIfqEz0V8Q8JIRhi6wcMY6tO1viUhiiSOz8 dzbtlF5rfjGbfrjsbtG3+g78c7FLNT1qJZvGOpnwv0mlui56KnMSmaWbxPlw eXf5/iOmxHYCtdQ1pJNt30+xgxSMunlRv2yChwSbxUAHf824ur6ZWfcorTIy 9SvISKbKo+HpHzOHl3XPqVKQBQYqkhv0PqeK9S+tiE0GWw8AAA== ====
hoshu
ちょっと保守しますよ。
ほっしゅっしゅ
845 :
名無しさん@お腹いっぱい。 :04/12/26 03:27:28
847 :
名無しさん@お腹いっぱい。 :04/12/26 03:49:49
zsh、wgetはどこでインストールできますか? あの・・・zsh、wgetって何ですか? ほんとにすみません。
850 :
名無しさん@お腹いっぱい。 :04/12/26 04:30:24
>>848 ありがとうございます。
>>849 ありがとうございます。地道にやってみます。
ちなみに同時押しって何ですか?
>851 それだとシェルが展開しようとして変なことが起きるから、適当にクォートすべきだな。
854 :
名無しさん@お腹いっぱい。 :05/01/05 01:31:19
856 :
名無しさん@お腹いっぱい。 :05/01/29 14:47:08
857 :
名無しさん@お腹いっぱい。 :05/01/29 16:18:15
>>856 デムパ キタ━━━━━━(゚∀゚)━━━━━━ !!!!!
phpとか使われるとわけわからん。落とせん
perlスクリプト使え
860 :
名無しさん@お腹いっぱい。 :05/02/02 16:27:08
( ゚д゚)ポカーン
862 :
名無しさん@お腹いっぱい。 :05/02/03 16:27:47
ネトラン厨(・∀・)カエレ!!
ネトラン厨じゃないのに・・・ (つД`)・゚・
>866 ちょっとは自分で勉強することも覚えてはいかがですか。
403喰らう悪寒。-Uでしっかりと騙るのがベターかも。。。 二次元には興味なし。でも
2次元か
while(<>){
m/num=([0-9]+)&type=([a-zA-Z]+)[^0-9]*([0-9]+)/ and system "wget".
" --output-document='$3.$1.$2'".
" --header='Cookie:num=$1;type=$2'".
"
http://nylon.hostfuck.com/nylon.php ".
"\n";
}
×& ○&
Perl?
無駄が多いな、このサイト。
l l J l J さわったら負けかなと思ってる。
成功した?
セルフプレジャー保守
初心者スレから誘導されてきました。 連番のzipファイルを一気に解凍する方法はありますか? 001.zip 002.zip 003.zip 今はひとつひとつunzipしてます。既出だったらすみません。 教えてくれたら、こころを入れ替えてスクリプト勉強します。
unzip {001..100}.zip
for i in *.zip; do unzip $i; done でもいいんでないかい?
echo *.zip | xargs -n1 unzip
unzip は自前でワイルドカードを処理するのでほかに zip ファイルがなければ unzip \*.zip でどうでしょう。
884 :
名無しさん@お腹いっぱい。 :2005/05/30(月) 16:25:28
うほ
885 :
名無しさん@お腹いっぱい。 :2005/06/14(火) 20:55:22
wget -m --cookies=on --user-agent="Mozilla/4.0 (compatible; MSIE 6.0; Windows 98)" とかじゃだめなの?
>>886 UAとrefererは指定してもだめです
cookieはためしてないけど、w3mでさえページを開けないってことはcookieじゃなくて
JavaScriptが効いてないとだめなのかもしれない希ガス
888 :
名無しさん@お腹いっぱい。 :2005/06/14(火) 21:45:27
>>888 そうすか?
私のところでは、w3mでもwgetでも、特定のバイト数を読み込んだところで
ブロック状態になります。で、しょうがないからctrl-Cで終了させると、
IEで取得可能な全てのファイルは落とせていない。
そっからもぐってたどれる画像に関してはまったく無理です。
> IEで取得可能な全てのファイルは落とせていない。 わかりにくい言い方でした。 当然ですが割り込みで入力を停止させてるので、partialなファイルに なっちゃってるってことです。
>>891 え??
それで、ちゃんと最後までおちますか?
私のところではブロックしてしまうのですが。
何が悪いんだろう。
893 :
853 :2005/06/15(水) 01:38:59
wgetばーじょんうpあげ
>>885 uname -v および wget --version を晒してみ
>>895 FreeBSD 4.7-RELEASE
GNU Wget 1.8.2
897 :
895 :2005/06/16(木) 22:21:11
thx. とりあえずニューwgetで試してみることにしますわ。
% ls .thumbnails/normal | wc 3643 3643 134791 % du .thumbnails/normal 84000 .thumbnails/normal ('A`)
900 :
900 :2005/06/26(日) 09:34:26
900
お前は基本がわかってないから無理
>>901 ヒント: wget --header="Cookie: kokoni hairu mojiretu wo nanntoka shutoku shiro"
>>901 日本語も学びなおしたほうがよかろ
学問でも技芸でもなく、単なる方法を知りたいのなら
×教授ください
○教示ください
>>903 それはヒントどころか答えでは・・・w
空気を読んだ方がよかろ 単なる抜く画像を知りたいなら ×助教授ください ○女教授ください
906 :
名無しさん@お腹いっぱい。 :2005/06/30(木) 07:07:50
10秒に1アクセスの制限もあるな。
908 :
名無しさん@お腹いっぱい。 :2005/07/02(土) 19:04:53
なんか最近は DCGA ってのばっかりでスルーばっかりだよ。
909 :
901 :2005/07/03(日) 00:05:10
>>909 つ Firefox + Live HTTP headers
911 :
906 :2005/07/03(日) 09:29:12
>>909 そのままの意味。連続アクセスするとjpegの代わりに「10秒まてこの早漏」と返してくる。
hint: wget --load-cookies=foo --save-cookies=foo --keep-session-cookies
912 :
901 :2005/07/03(日) 15:47:34
お騒がせしてすみません、解決できました。
wget -r --header="cookie: Cookie: PHP_DAYCOUNT2=<省略>; lf=<省略>"
http://loface.com/pic_sum.php?p=kakyu2 で出来ました。今まで出来なかったのは『PHP_DAYCOUNT2』が抜けてただけみたいですorz
>>910 さんが指摘した『Live HTTP headers』で気がつきました。
どうも有難うございました。
>>911 レスしてくれて有難うございます。
913 :
名無しさん@お腹いっぱい。 :2005/07/17(日) 01:12:56
age
まだあったのな、このスレ。
UNIX板での良スレ
エロいおまいら 画像ビューワ のお勧め教えれ。 xv? gimageview? gqview? 他? ディレクトリ一覧の時に、そのディレクトリの中の画像が アイコン一覧みたいに見えるやつキボンヌ。
またこいつか。
>918 ports には見当たらないね。 ぐぐってもどれがどれやらワカラン。 >917 ?
ネタにマジレスか こりゃヒドイ
kuickshow つかってまつ
paint
>>919 C:\Windows\system32\explorer.exe
gthumbかな?
例えば、リストの内容が
http://www.unko.jp/~chinko/[000-026].jpg http://www.manco.jp/anal/gay[00-26].jpg みたいなファイルがあったとしてこれを展開してwgetなりに渡すにはどんなスクリプト書きます?
自分が深く考えないで書いてみたのは
cat < list | sed 's/\(.*[^0-9]\)\[\([0-9].*\)-\([0-9].*\)\].*\.\([^.]*\)$/\1 \2 \3 \4/g' | awk '{printf("echo %s\{%s..%s\}.%s\n", $1, $2, $3, $4)}' | zsh -s | tr ' ' '\n'
で、最初のsedでアドレス、開始の番号、終わりの番号、拡張子を分けて、awkでzshのスクリプト書いて最期にtrで改行入れてるんだけど、どうかな?
添削よろしくです。
やりたいことがよくわからんが、 スカトロでホモって事はわかった。
928 :
名無しさん@お腹いっぱい。 :2005/09/02(金) 22:40:51
>添削 読めない
zsh知らんけど、添削するなら sed 's/¥[¥([0-9]*¥)-¥([0-9]*¥)¥]/{¥1..¥2}/g; s/^/echo /' とか? ただ自分なら、zsh使うくらいなら perlとかで、置き換えながらぐるぐる再帰使って回すかなぁ。
>>929 アーナルほどsedで開始と終わりの番号を別のフィールドにわけないでzshの{..}の形にすればいいのか。。。
坂本文のたのしいUNIXで勉強したてなんでsedとawkくらいしか知らないのでできればperlで
書いていただけませんか?
932 :
名無しさん@お腹いっぱい。 :2005/09/03(土) 02:07:02
wgetなりってことなので curl 使ってもいいんですよね
>931 雑だけど。 #!/usr/bin/perl -n sub ren { $_ = shift; if (/¥[(¥d+)-(¥d+)¥]/) { my ($a,$b,$fst) = ($`,$',$1); foreach $i ($fst..$2) { ren($a . sprintf("%0*d",length($fst),$i) . $b); } } else { print; } } ren($_);
Perlの場合、マジックインクリメントに頼れば #!/usr/bin/perl -n if (/^(.*)\[(\d+)-(\d+)\](.*)$/) { for ($2..$3) { print "$1$_$4\n"; } } else { print; } でいい気がするけど
936 :
934 :2005/09/06(火) 19:48:05
ついでにbash shopt -s extglob function ren { case $1 in *¥[+([0-9])-+([0-9])¥]*) set -- $( echo "$1" | sed 's/¥[¥([0-9]*¥)-¥([0-9]*¥)¥]/ ¥1 ¥2 /' ) for i in $( jot -w"%0$(echo -n $2|wc -c|tr -d ' ')d" - $2 $3 1 ) do ren $1$i$4 done ;; *) echo $1 ;; esac } while read s do ren $s done >935 Perlまかせにすると、[00-10]とかができなかった。
>>936 ちょっと試した感じだと、00みたいに偽値と判断されるやつがダメみたいね。
01-10とかだとオッケーなんだけど。
連番のH画像を諦める勇気ってのも僕には必要なんだ。 エロ画像 いくら取っても 無くならず 取るだけ取って それでおしまい お世話になりました。
今度は、ため込んだ画像を削除する勇気だな。
画像から動画へステップアップする勇気も必要だ。
取り敢えず200MくらいのHDDを6個くらい買ってくる勇気
200Gの間違いじゃないのか
200Gを6個買うのよりも200Mを6個買う方が勇気いると思う。
ワロタ
アルテミスでGNU使ったら、串刺してたのに生IPごと弾かれたorz
↑今年最初に見た馬鹿
このスレのまとめサイト作っていいですか?
よろしく
952 :
950 :2005/11/05(土) 18:30:02
だよもん..
このスレで tp://www.464.jp の連番ダウンロードできた人いる?
>954 さっき試してみたけどできたよ しかしこれ画質悪いな
今このスレのノウハウを生かしてVOAのスクリプトとmp3をダウンロード中…。
voaって何かね
Vagina or Anus
edなり perlなりで、ばっと<span class="articleheadline"〜</P></span>あたり抜き出して、html2txtみたいな処理かけて、余計なの削るとか。 そういうことではない?
>>960 perl で $html =~ s!!!sig; を何度も繰り返すスクリプト書いて、なんとか読めるHTMLに加工しました。
今は mp3 を wget してます。
このサイト、mp3 は mp3 で命名規則皆無という腐りっぷりです。うへぇ。
ところで質問です。
ちょっと確認してみたところ GNU Wget 1.10.1 のデフォルトのリクエストは
GET /index.htm HTTP/1.0
User-Agent: Wget/1.10.1
Accept: */*
Host: localhost
Connection: Keep-Alive
という内容でした。で、プロトコルを HTTP/1.1 に切り替えるか、
または強制的に HTTP/1.1 と申請してリクエストすることはできますか?
curl使ってみるとか
>>961 どーせPerl使うんならHTML::TokeParserとかその辺のライブラリ使えばいいのに。
高速ではないけどそれなりに便利だよ。
964 :
名無しさん@お腹いっぱい。 :2005/11/28(月) 22:50:25
次スレどうしますか?
次 ス レ 頼 ま な い
頼みcom
>>980 今度のスレタイは↓こうしてくれ
「連番のH画像/動画を一気にダウンロードする」
これは言わない約束なのかもしれんが 「H」は外さないうわなにするやめろqあwせdrftgyふじこlp:[
じゃあ 連番のURIから一気にダウンロードする /2 でよろしかったでしょうか?
てか連番ている?
ネタ出つくしたみたいだし、 次スレなしでもいいかと。
最近動画落とすのにパスワードが必要だったりするので 自動化は無理そうだと思ったり思わなかったり
975 :
名無しさん@お腹いっぱい。 :2005/12/07(水) 08:43:36
977 :
FM :2005/12/18(日) 21:28:53
>>952 ここまでスレが進んでるのにまとめにcurlが載ってないのは信じられない
979 :
名無しさん@お腹いっぱい。 :2005/12/21(水) 03:21:09
>>977 レスありがとうございます
私はlunascapeというタブブラウザを使っていてそれで画像のurlを抜き取り
連続ダウンローダで連番のを落としてみたのですが見てみると画像情報がなくすべて見れないファイルでしたorz
jpegファイルなのに見れないんですよね。。
ちなみに私が試したのはドラ●もんで
ttp://comic104でしたができませんでした 。。
噂によるとダウンロードできないようにしてるサーバーとかあるようです.....(´・ω・`)
980 :
名無しさん@お腹いっぱい。 :2005/12/21(水) 09:33:01
どざ氏ね
ダインロードってなんかかっこええな
スキルでなく、クンフーの問題
984 :
名無しさん@お腹いっぱい。 :2005/12/22(木) 03:59:39
>>981 ホントですか・・・(゚Д゚)一体何が原因なんでしょうか・・・・
私もダウンロード自体はできてるのですがフォルダにダウンロードされた
画像ファイルを見てみると表示されませんorz ソフトやURLなどいろいろ確認しましたが。。orz
今は結局freemacroでダウソしてるんですが時間かかりまくりんぐ・・・orz
985 :
名無しさん@お腹いっぱい。 :2005/12/24(土) 10:06:45
>>984 ヒント:連番ダウンローダはrefereを使ってくれない。
ここがunix板だと気づいていないんじゃないのか。
来年の1月10日で5周年だな
今まで誰も出していないが,emacs 上でウェブブラウザ(w3m とか)を走らせて, 画像をダウソロードする手順をキーボードマクロで登録しておけば, 特に何も考えなくてもほとんどのサイトでダウソロードできます.
>>990 具体的に書かないのは宗教上の問題かなんか?
キーボードマクロの手順を具体的に書くの?w
インタラクティブってアホじゃありません?
(゚д゚)ウメー
(゚д゚)ウメー
(゚д゚)ウメー
まんこ
(゚д゚)ウメー
(゚д゚)ウメー
1001 :
1001 :
Over 1000 Thread このスレッドは1000を超えました。 もう書けないので、新しいスレッドを立ててくださいです。。。