awk ファンクラブ

このエントリーをはてなブックマークに追加
1login:Penguin
おーくについて語りましょう
2login:Penguin:2008/07/07(月) 20:52:18 ID:7N4CeYxI
awkは言わねえ、たった一行・・・
3login:Penguin:2008/07/07(月) 20:55:08 ID:64cKGfca
オークは便利だオーク
4login:Penguin:2008/07/07(月) 21:21:04 ID:Bjq85S2V
sedファンクラブからきました。
5login:Penguin:2008/07/07(月) 21:35:44 ID:rSMtL5cT
ls -ltr | awk '{print $8}'
6login:Penguin:2008/07/07(月) 21:50:35 ID:XFLIMsgD
aho
wainberg
kernihan
7login:Penguin:2008/07/07(月) 22:39:16 ID:/5MnC3tB
awkでなんでもやるのって年がバレそうだなあ。ちょっと下の世代だとperlだろうし。
8login:Penguin:2008/07/08(火) 00:19:21 ID:9/fi698j
9login:Penguin:2008/07/08(火) 01:19:20 ID:yAMbUEpf
しばらくしたら,perlでなんでもやるのって年がバレそうだなあ。ちょっと下の世代だとpythonだろうし。ってなるんだろうな
10login:Penguin:2008/07/08(火) 10:32:21 ID:YEHCkTi1
下の世代はpythonよりrubyじゃないか?

自分の場合、全部シェルスクリプトだけどw
11login:Penguin:2008/07/08(火) 12:50:38 ID:6brAoz3h
perl->pythonときてawkの便利さに気付いた。
12login:Penguin:2008/07/08(火) 16:47:52 ID:TJw2Mlna
awk, perlユーザだが次はpythonとやらをいじってみるかね
13login:Penguin:2008/07/09(水) 19:51:11 ID:r1P6Mjit
awkを256倍はみなさん持ってます?ここがすべての始まりだったなあ
14login:Penguin:2008/07/09(水) 19:52:45 ID:+TY8Gpg6
オライリーのsed&awkがはじまりだったなあ・・・
んでもってx68kで遊んでいたw
15login:Penguin:2008/07/09(水) 19:55:00 ID:0dhBqlXX
俺はrubyとpython両方使ってる。
rubyはワンライナー〜十数行のスクリプト。
pythonは数十行〜数百行のスクリプト。
16login:Penguin:2008/07/09(水) 20:03:27 ID:Glf+LFW9
そんな昔にawkとかと出会えた人が羨ましい
17login:Penguin:2008/07/09(水) 20:09:52 ID:r1P6Mjit
awk gawk jgawk やっぱり魅力はデータなめさせた時のスピード感
18login:Penguin:2008/07/09(水) 21:59:50 ID:2WqtvhnN
適当なデータをSQLにして流すときとかに使ってる。
BEGIN/ENDのおかげでトランザクション使うのも簡単。
19login:Penguin:2008/07/09(水) 23:40:46 ID:ro47ZQt4
>>14
「プログラミング言語AWK」が絶版になると聞いてあわてて確保したが、すぐ再版された。
20login:Penguin:2008/07/20(日) 12:21:50 ID:j9YcHbCn
awk がなくなると困る・・・・・
Perlで$3 を表示しる!とかどーすんよ

awk '{print $3}'
21login:Penguin:2008/07/20(日) 12:31:10 ID:/rTvaqQG
オークについて、おおくは語らねぇ
22login:Penguin:2008/07/20(日) 13:45:48 ID:ysRQGfiQ
>>20
perl -ane 'print $F[2], "\n"'でいいんじゃね?
23login:Penguin:2008/07/20(日) 22:40:15 ID:3uxKU7IE
>>22
なんかこう、Perlってスクリプトにエレガントさを感じないんだよな。つぎはぎが多い
というか。

awkの場合、cに近いスタイルでありながらパターンマッチングとか連想配列の実装が
エレガントだからコードを見ててきれいに感じる。
24login:Penguin:2008/07/20(日) 23:32:42 ID:j9YcHbCn
>>22 マジレス dd ちょっとやってみる(ヲイ
25login:Penguin:2008/07/21(月) 04:31:14 ID:RBm9osMs
perl の -n は各行に対しての処理、-e はスクリプトをファイルでなくその場でワンライナー書く為のものだが
-a オプションはやっぱり awk の名に由来するのかねぇ
26login:Penguin:2008/07/21(月) 10:22:28 ID:m3jpUYR9
>>25
autosplit modeってusageに書いてあるじゃん。
27login:Penguin:2008/07/22(火) 11:02:10 ID:oOCbPgMu
>26
いや名目上はそうだけどさ。
スクリプトでauto〜なんて言い出したらキリが無いワケじゃん。
ぶっちゃけ -n だって自動ループと言っちゃえばそうだし。

そこで -s や -p みたいな名前じゃなくて
わざわざ -a にしたのは、やっぱ awk の名を意識したからなのかな、と
思ったんだよ。
28login:Penguin:2008/08/17(日) 18:47:40 ID:AZ0h4M4q
ruby -ne 'puts split[2]'のほうが楽、と思ったけど
空行とかでの扱い考えると
ruby -ne 'puts split[2] || ""'
になるのか。やっぱawkが楽だな。
29login:Penguin:2008/12/03(水) 10:54:22 ID:QXJz0hBL
sedのスレとかあったので、思わず「なんでawkを使わない?」って突っ込んでしまったけど、
実はおれも長らくsedからawkへ行けなかった。田中さん(緑のSerrow)が月刊asciiに書いた
記事を読んで使えるようになったのだった。

いまではperlも使うが、やはりawkが楽だなぁ。16進→10進変換の関数作ったり、
バイナリデータ読むためのコードをCで作ったりして無理やり使ってたころが
懐かしい。
30login:Penguin:2008/12/03(水) 23:47:03 ID:Thw8Gp7O
2年くらい前からLinuxを本格的に使い始めたけど
awk(gawk)とsedには特に力を入れて勉強してる
gawkは機能が洗練されて美しいし直感的で使いやすい
リファレンスもとてもしっかりしてる
31login:Penguin:2008/12/09(火) 16:01:43 ID:NHdcSNGH
おれが一番よく使うのは連想配列。

gawk '{w[$1]++;}END{for(i in w)print i,w[i];}' xxxx.txt | sort

みたいなことを何百回やったことか。
32login:Penguin:2009/04/21(火) 01:25:03 ID:8RfnrYFS
わらうw
ttp://awk.info/?doc/dsl/awkplusplus.html

object_variable = class_name.new[(optional parameters)]
object_variable.method_name(parameters)
object_variable.delete
33login:Penguin:2009/04/21(火) 17:02:32 ID:CHFddJcj
みなさん教えて下さい。

一行毎に読み込み@<と@>で囲まれた部分を
ランダムなアルファベット10文字に置換し、
元々@<@>に囲まれた部分の文字列と置換したランダムな文字列の対応を
別ファイルに書き出し

っていうのをやりたいです。
awkとsedでできるの?

pythonで書くべき?
34login:Penguin:2009/04/21(火) 18:09:12 ID:68A2ZTzG
できるっちゃーできるが、おすすめはしない。

BEGIN {
output = "hoge.txt"
chars = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz"
len = length(chars)
srand()
}
{
if(match($0, /@<.*@>/)){
t = substr($0, RSTART+2, RLENGTH-4)
if(!(t in m)) m[t] = rndstr(10)
$0 = substr($0, 1, RSTART+1) m[t] substr($0, RSTART+RLENGTH-2)
}
print
}
END {
for(i in m) print i, m[i] > output
}
function rndstr(n, s){
while(n--) s = s substr(chars, int(rand()*len)+1, 1)
return s
}
35login:Penguin:2009/05/08(金) 21:56:17 ID:uniCaTc9
まじぽかのUMAちゃんは最高にかわいいNE!
36login:Penguin:2009/07/08(水) 17:12:37 ID:nwzD2hQJ
printfと$ / $がうまく両立できない・・・
文型向け授業でわざわざlinux使わせるなよ・・・
37login:Penguin:2009/07/14(火) 15:14:45 ID:OYRFUc74
やっぱAWKいいよねー
「プログラミング言語AWK」は買い逃してたんで再販速攻で買ったよ。
Excelなんてやってられねーっつーの
38login:Penguin:2009/07/14(火) 15:45:04 ID:ZhPQ90qn
>>37
Excelのvlookupみたいなリレーショナルな事がやりたい場合ってどーしてる?
39login:Penguin:2009/07/16(木) 23:17:47 ID:up+KJ4E4
連想配列でいいんちゃうん?
40login:Penguin:2009/07/18(土) 04:58:19 ID:p/gu39Bx
いやさ、複数のシートから引っ張ってくるような感じで、複数のテキストファイルを対象にしたい時。
41login:Penguin:2009/07/18(土) 15:26:29 ID:VCKoFo8D
そんなん普通に複数ファイル処理すればいいやん。
42login:Penguin:2009/07/18(土) 16:20:59 ID:p/gu39Bx
>>41
> そんなん普通に複数ファイル処理すればいいやん。

「普通に」の所kwsk
43login:Penguin:2009/07/18(土) 21:51:54 ID:VCKoFo8D
getlineすりゃえーやろ
44login:Penguin:2009/07/19(日) 04:55:45 ID:TalGZSOR
awk初心者です。質問させてください。
awkでアクセスカウンタを作ろうと思い、
以下のようなスクリプトを書いたのですが、
最後のhtmlへの出力(表示)の方法がわかりません。
どうしたらいいのでしょうか?
4544:2009/07/19(日) 04:57:30 ID:TalGZSOR
BEGIN{
#プロセスロック
lock()

#カウント数の読み込み
while (getline < count.dat > 0){
before_count = $1;
}
close(count.dat);

#カウントを1進める
new_count = before_count + 1;

#数字の置換を行う
sub(before_count, new_count, $1);

#プロセスロック解除
unlock()
}
4644:2009/07/19(日) 04:58:33 ID:TalGZSOR
print "Context-Type: text/text";
print "\r";

END{
#表示テンプレートの読み込み
while (getline < count.txt > 0){
txt_file[++i] = $0;
}
close(count.txt);

#あらかじめセットしてあるテンプレート上の文字列を置換
gsub("<!--#count.cgi--!>", new_count, $0);

print $0;
}
47login:Penguin:2009/07/19(日) 11:16:35 ID:xa/YVpR4
>>43
getline知らなかったわ。
難しそうだな・・・
48login:Penguin:2009/07/19(日) 15:13:23 ID:Ge8Nt7Pt
>>44
SSIの仕組みは理解できていますか。
ttp://httpd.apache.org/docs/2.0/ja/howto/ssi.html
49hogehoge:2009/07/21(火) 14:50:51 ID:PUGBjRE4
getline は毎回リファレンス見に行ってるなぁ
頭が劣化しとるわー
50login:Penguin:2009/08/01(土) 15:31:08 ID:z6H8O5Sr
51login:Penguin:2009/08/15(土) 20:33:21 ID:7GY0b2Yy
Mac OS X Leopard 10.5.8でjgawkを使いたいのです。
ターミナルでawk '{print $0}' filenameですと日本語が悲しいです。
お使いのみなさん、使用法等教えて下さい。
52login:Penguin:2009/08/19(水) 18:02:30 ID:GJ3CGMhT
板違い。
53login:Penguin:2009/08/22(土) 09:19:23 ID:rmix/tng
Mac OS XをUnixとして使ってる人の為のスレ その15
http://pc11.2ch.net/test/read.cgi/mac/1247059597/

こっちのが詳しいかもね
54正月前:2009/12/29(火) 22:19:45 ID:UAwxD9+5
awk初心者です。
awkにはperlのjoinみたいの関数ありますか?
perl:
print join(":",$_);
55login:Penguin:2009/12/30(水) 01:06:12 ID:Q1gMau4C
データ集計に便利
56login:Penguin:2009/12/30(水) 01:44:22 ID:jMgIWDpO
>>54
BEGIN {OFS=":"}{$1=$1;print}
57正月前:2009/12/31(木) 16:45:37 ID:z/pUNj8p
重複を削除するBASHスクリプトに、perlの部分はawkの連想配列で書き換えたいんですが、splitした後の処理方法が分かりません
教えて頂ければ幸いです。

-----------------------------
hoge='a:b:c:d:a:b:c:d:a'
echo -n $hoge | perl -F: -ane 'chop;foreach(@F){$s{$_}++ or push(@b,$_)}print join(":",@b)'
-----------------------------
58login:Penguin:2010/01/05(火) 11:48:18 ID:iQ1ypvd/
素人なりですけど
echo -n $hoge | awk 'BEGIN{OFS=":"}{n=split($0,a,":");m=1;for(i=1;i<=n;i++){if(!(a[i]in b)){$m=a[i];b[$m]++;m++}}print}'
59login:Penguin:2010/01/05(火) 12:34:43 ID:APedkSZb
echo -n $hoge | awk 'a[$0]++<1{printf(NR>1?RS:_)$0}' RS=:
60login:Penguin:2010/01/05(火) 12:50:31 ID:APedkSZb
a[$0]++<1 じゃなくて
!a[$0]++ とした方が1バイト短くなるな

って、そういう趣旨じゃないか
61login:Penguin:2010/01/08(金) 21:03:31 ID:pPQjxZAI
プログラミングAWK 3度目の復刊
http://www.fukkan.com/fk/CartSearchDetail?i_no=68313239&tr=t
62正月前:2010/01/11(月) 22:20:00 ID:jx5sxsA2
>>58,59,60
ご回答、誠に有難うございました!
まだawkの部分理解してないけど、期待通りの動作が確認できました!
63login:Penguin:2010/03/16(火) 14:08:38 ID:hRXCRI1I
Linuxじゃないんですが、Gawk on Windowsだと、
 gawk '{print $1;}' data.txt
ていうのは、クォーテーションはダブルにしないといけないんですね。。。
64login:Penguin:2010/03/16(火) 14:27:11 ID:OV90ZKd/
うん、引数文字列をどう解釈するかは awk じゃなくてシェルだから。
cmd.exe の仕様の問題であって、awk の側では対応しようにもできない。
65login:Penguin:2010/05/14(金) 13:36:36 ID:XjQaHos9
BEGIN {

printf "256倍のコードが提供されてる\n"
printf "ttp://books.ascii.jp にアクセス\n"
printf "本には4756101623なんてのがついてるけど、本の通りに入れるとnot found\n"

}

END {
print "昔と本の内容が変わってるみたいだな"
}
66login:Penguin:2010/05/14(金) 21:49:15 ID:KfNsslph
END {
  print "まだ始まってもねーよっ!"
}

BEGIN {
  printf "・・・ごめ・・・\n"
}

67login:Penguin:2010/07/22(木) 10:04:21 ID:PFu3TuWN
{
if ($0 == "aka") print "red"
else print "blue"
}
の最も変態的な記法を教えて下さい。
68login:Penguin:2010/07/22(木) 10:29:55 ID:YKIn4IAK
$0=/aka/?"red":"blue"
69login:Penguin:2010/07/28(水) 10:04:53 ID:ZsEEtYoL
END {
system("echo " + $0 + " | perl -ne 'if(/"aka"/){print \"red\";}else{print \"blue\";}'")
}
70初心者:2010/11/04(木) 22:16:05 ID:UUOsCvwd
awkでシェルのPATH変数をマッチさせるときにスラッシュ//を使わない方法を教えていただけませんか?
perlだと##で行けますが
71login:Penguin:2010/11/04(木) 23:15:07 ID:mFaq3KZr
>>70はマルチ
72初心者:2010/11/05(金) 06:33:50 ID:HLS9uc8i
ごめんなさい!
マルチがだめとは知りませんでした。
73login:Penguin:2011/02/03(木) 07:43:56 ID:S25iv8qF
アルフレッド・V・恵方
74login:Penguin:2011/02/11(金) 03:51:35 ID:9907NRVa
awk で宛名書きだそう

AWK Users JP :: OSC2011 Kagawa 特設サイト
http://gauc.no-ip.org/awk-users-jp/blis.cgi/OSC2011_Kagawa
75login:Penguin:2011/02/11(金) 21:58:36 ID:W6G44msP
awkって今時オブジェクト指向もサポートしてねぇのか。
だせぇ・・・

とか思ってたらこんなのもあるんだな。
http://awk.info/?doc/dsl/awkplusplus.html
76login:Penguin:2011/05/24(火) 19:21:38.77 ID:iwctpm7O
awkの処理についてアドバイスを下さい。
スペースで区切られたテキストファイルがあります。

例(フィールド数も文字数も全部異なります)

abc efg hij http://www.example.com/index.html xyz
123 http://www.example.org/ she good love look good
4edi http://www.example.net/test/test.html

こんな感じのテキストファイルからURLだけを抽出したい
場合、どう言った処理を行うと良いでしょうか?

printなどは使えそうにないし頭を抱えています。
是非お助け下さい。
77login:Penguin:2011/05/24(火) 19:44:33.96 ID:Z14Fpx2c
>>76
{for(i=0;i<=NF;i++)if($i ~ /^http:\/\/.+$/)print $i}
78login:Penguin:2011/05/24(火) 19:52:09.13 ID:WxByEtFQ
自分は
match($0, /http:\/\/[^ ]+/, f)
を使う気がする。
79login:Penguin:2011/05/24(火) 20:22:38.00 ID:jzDVjDvh
#!/bin/sh
cat 入力ファイル | tr ' \t' '\n' | awk '/^http:/'

…まで書きかけて、あれ、これawkじゃなくてgrepで良くね、と思ってしまった俺
80login:Penguin:2011/05/24(火) 20:49:07.88 ID:WxByEtFQ
/bin/shでもやはり自分は
expr 文字列 : '.*\(http:\/\/[^ ]*\).*'
を使う気がする。
81login:Penguin:2011/05/24(火) 23:22:37.43 ID:Rb7jhN0u
うちは>>77の条件を index($i, "http:") == 1 で書くだろうなぁ
でも、処理内容がそれだけなら sed -n 's/^.*\(http:[^ ]*\).*$/\1/p' だなぁ
避けられるなら正規表現は避けたほうが速いんじゃないかと思ってる
8276:2011/05/25(水) 00:02:32.97 ID:bOPlpFb7
まだどうしてそういう結果になるのか…が全然解らないのですが
一つ一つひもといて自分のものにしていきたいです。

みなさん本当に色々ありがとうございます。
83login:Penguin:2011/05/25(水) 02:29:57.15 ID:RCLD3Ghq
こういうのもpythonで書くようになってしまった俺は駄目なやつですか
84login:Penguin:2011/05/25(水) 03:14:46.21 ID:zyb8WUrO
流石にPythonはこういうサクッとしたテキスト処理には冗長すぎないか?
awk以外でならperl、さもなくばrubyあたりまでが俺は限度だなあ
85login:Penguin:2011/05/27(金) 01:08:18.13 ID:4uJpaTLS
BEGIN{ FS="http://"; }{ split($2, item, / /); print FS item[1]; }

とか
86login:Penguin:2011/06/02(木) 03:19:02.91 ID:LRv8LU2q
入力からランダムで1行表示する
awk '{ l[i++]=$0 }; END{ srand(); print l[int(i*rand())] }'

シェルスクリプトの方が短いか?
87login:Penguin:2011/06/02(木) 09:37:16.89 ID:Z7QDCEkg
こう書くと1行しかメモリに保存しないので入力行が多くとも平気です

BEGIN { srand() }
rand() * NR < 1 { x = $0 }
END { print x }
88login:Penguin:2011/06/02(木) 20:42:21.58 ID:ud/fx+Py
>>87
それだと行数が多いと後半の表示が少なくなっちゃう
89login:Penguin:2011/06/02(木) 21:02:20.14 ID:Z7QDCEkg
>>88
2行のときは
1/1の確率で1行目が選ばれる
→1/2%の確率で2行目が選ばれる

3行のときは
1/1の確率で1行目が選ばれる
→1/2の確率で2行目が選ばれる(この時点で1行目、2行目の確率はともに1/2)
→1/3の確率で3行目が選ばれる(2/3の確率で1or2行目が残り両者1/2なので全て1/3)

のように、基本的に確率は等しいはずですが……
浮動小数点演算の精度が問題になるような行数の話でしょうか?
9086:2011/06/02(木) 22:17:12.88 ID:jvZfUiPL
>>87
お、これはすごい!考えたなー。ぱっと思いついた奴は、天才だ。こんな風になりたいわ。

> 浮動小数点演算の精度が問題になるような行数の話でしょうか?
これは初め見たとき思ったけど、それが問題になるなら、
私の書いた方法でもメモリが逼迫してまずい気がします。
ただ、精度やrand()の性能で、実際に統計取ったら88の言うようになるのかもしれません。

あとは、rand()が1を返す実装はないよね?gawkのマニュアル読んで書くのだけど、
関数の説明が簡単に書き過ぎていて、ちょっと不安。
91login:Penguin:2011/06/02(木) 22:37:43.51 ID:jvZfUiPL
不要な部分を全部削って87の方が2バイト短いか。
mawkだとsrand()を省けるから、もっと短い。エレガント!

それにしても、4ヶ月ぶりに上がったんだ。ほんと人居ない。
92login:Penguin:2011/06/02(木) 22:45:23.28 ID:twwaY/QA
ワタスは監視してますよ。
93login:Penguin:2011/06/03(金) 00:28:36.43 ID:lUf7A9Qj
俺も。
94login:Penguin:2011/06/03(金) 00:49:49.88 ID:cydHNqeK
じゃあ、暫く書く
95login:Penguin:2011/06/03(金) 01:07:11.81 ID:cydHNqeK
空行を削除する
awk 1 RS=

sedだと、
sed /^$/d
かな?同じ9文字か。
96login:Penguin:2011/06/03(金) 09:20:27.26 ID:5n/j2qmP
>>89
rand()を全行で実行しているから、
1行目には2行目以降が x を上書きする確率が加わり、
2行目には3行目以降が x を上書きする確率が加わり、
ってことになるんじゃないのかな。

全4行の場合
1行目が表示される確率 1/1*1/2*1/3*1/4
2行目が表示される確率 1/2*1/3*1/4
3行目が表示される確率 1/3*1/4
4行目が表示される確率 1/4
って感じで、最終行が表示される確率が一番大きい気かします。
rand()をBEGINの中に入れてしまえば全部同じだけど。
97login:Penguin:2011/06/03(金) 09:45:41.12 ID:TAmMFFcQ
>>96
1/1*1/2*1/3*1/4 + 1/2*1/3*1/4 + 1/3*1/4 + 1/4 = 5/12 (≠ 1)
なので、それが誤りなのは、すぐに分かるはずですが……
それらの確率を足したら1になっていないといけません
ここは高校数学の確率統計のお話をするスレではありませんが、
以下のように考えたらお分かりでしょうか?

1行目が表示される確率は 1/1*1/2*2/3*3/4 = 1/4
(1行目が選ばれる確率 * 2行目が選ばれない確率 * 3行目が選ばれない確率 * 4行目が選ばれない確率)
2行目が表示される確率は 1/2*2/3*3/4 = 1/4
(2行目が選ばれる確率 * 3行目が選ばれない確率 * 4行目が選ばれない確率)
3行目が表示される確率は 1/3*3/4 = 1/4
(3行目が選ばれる確率 * 4行目が選ばれない確率)
4行目が表示される確率は 1/4
(4行目が選ばれる確率)
98login:Penguin:2011/06/03(金) 12:56:40.94 ID:yy0ffQt3
>>97
そうでした。電車の中で気が付きました。
x が上書きされる確率じゃなくて、上書きされない確率を掛けないといけませんでした。
納得。
99login:Penguin:2011/06/03(金) 22:11:19.49 ID:cydHNqeK
なんか利点が無いように見えるので、sedじゃなくawkを使う理由を探してみた。

tar xf linux-2.6.39.1.tar.bz2 --wildcards '*.c' -O >src.txt
time cat src.txt |awk 1 RS= >/dev/null
real 0m3.172s
user 0m2.786s
sys 0m0.757s

time cat src.txt |sed /^$/d >/dev/null
real 0m32.503s
user 0m31.465s
sys 0m0.882s

※参考
time cat src.txt |cat >/dev/null
real 0m0.606s
user 0m0.036s
sys 0m0.586s

おー。sedより、ずっとはやーい
やったね、awk!
100login:Penguin:2011/06/03(金) 22:26:22.52 ID:lSuFEE/Z
うむ。grep よりも awk の方が速かった記憶がある。
101login:Penguin:2011/06/04(土) 12:42:54.20 ID:HzZByxDX
複数のtimeコマンドの出力から平均を求める
awk -Fm '{ a[$1]+=$2; a[0,$1]++ }; END{ for(i in a) if(i~/^[rus]/) printf "%sm%.3fs\n",i,a[i]/a[0,i] }'

昨日の時間計測のために書いた。
いろいろ問題あり。これ以上短くかけなかった、残念だわ。

sedがすっごい遅いので全部メモリに読み込んで処理させてみた。
time cat src.txt |sed -n '1x;1!H;${x;s/\n\n\+/\n/gp}' >/dev/null
real 0m24.515s
user 0m18.584s
sys 0m2.005s
# ちなみに、昨日のも含めて3回試した結果を平均した

…やっぱ遅い。GNU sedが悪いの?スレ的に満足な結果だけど。
便利で速くてシンプルなのに、あまり使われない紹介されない、消え行くawk、カワイソス
102login:Penguin:2011/06/04(土) 13:21:18.28 ID:El9DLlK0
フィールドを抜き出すワンライナーはやっぱawkでしょ
perl -pae'$_=$F[8].$/'
ruby -nae'puts$F[8]'
awk 'print$9'
103login:Penguin:2011/06/05(日) 00:51:57.16 ID:kp3qNbsC
>>95の表記初めて見た
このスレの住民にはこれくらい当たり前なのか…
104login:Penguin:2011/06/05(日) 05:45:10.75 ID:jNueNt7Q
それってどういう構造なんだ?
1番目の引数である「1」は「パターンは常に成り立つ、アクションは指定しない(=レコードを加工せずに出力)」というawkコードだろうけど
その次の引数って入力ファイルになるはずじゃ?
105login:Penguin:2011/06/05(日) 07:57:57.27 ID:k4Gl3aKk
わかんねー。なんでこれをコマンドプロンプトに打ち込んで、うまくいくのか。
gawk 1 RS= testfile.txt
106login:Penguin:2011/06/05(日) 08:10:41.12 ID:SucWQMoo
RSが空だとRS=\n+として解釈されるんじゃまいか
107login:Penguin:2011/06/05(日) 08:50:42.42 ID:jNueNt7Q
だとしても、何故にRS=\n+がコードとして実行されるの?
コードは1で終わってね?
108login:Penguin:2011/06/05(日) 09:34:08.07 ID:jNueNt7Q
自己解決、assignment optionsなんて仕様があったのか
109login:Penguin:2011/06/05(日) 09:55:54.81 ID:Tq0aYVo2
おー、いっぱい居るね!まだまだやれるぞ、awk!

一応説明すると、プログラム自体は>>104の解釈の通りです。

また、RS=""なら、RS="\n\n+"とほぼ同じです。
違いは、RS=""はファイルの先頭に改行が続くとき、それを無視します。

ついでに、POSIXではRSに2文字以上設定すると、結果は不定とされています。
gawkでは、正規表現を使える拡張がされていますけど。

引数ですが、ここに代入文を書くとBEGINの後に処理されます。
まあ、ああ書いたのは-vオプションを使うと3文字コマンドが増えるからなんですが、
こういう変数の設定方法もあるということで。
110login:Penguin:2011/06/05(日) 10:44:14.22 ID:3GXVErWF
awk /./

の7文字だけでOK
RSは初期値が入ってるんだから
111login:Penguin:2011/06/05(日) 14:48:51.10 ID:jNueNt7Q
そうか、sed /^$/d って grep . で良かったんだな
112login:Penguin:2011/06/05(日) 19:30:13.18 ID:Tq0aYVo2
>>109
書き忘れ。
RS=""のとき、ファイルの末尾の改行も無視する。
あと、FSが"\n"に設定されているように振舞う。
元々複数行を一気に処理したい場合に使うことを想定してたのだろう。

>>110
ああ、すごい、これは短い!頭柔らかいねえ、スマートだわ。
夢の中でも考えたのに…無能過ぎワラタ

>>111
grep最強伝説はっじまっ…らないぞ。同じ方法で時間計測したら2時間半たっても終わらない。
grep捨ててawkを使おう!
113login:Penguin:2011/06/05(日) 20:13:50.57 ID:k4Gl3aKk
awkはじまったなw
114login:Penguin:2011/06/07(火) 23:28:39.30 ID:pixJYa/G
改行をWindows向けに置き換える
awk '{ print $0 "\r" }'

こっちの方が速くて短いか。
awk 1 ORS='\r\n'
115login:Penguin:2011/06/08(水) 00:28:22.25 ID:AGBbsX8a
速くて短いし、そっちのがコードと意味が一致するかと
116login:Penguin:2011/06/08(水) 01:01:03.76 ID:48mfCmU6
そっかー、分かり易さは、上の方だと思ったのですよ。
下のは、awkがどう動くかを知ってないと気持ち悪い感じ。
101みたいなsedスクリプトを、初めて見たときのような。
117login:Penguin:2011/06/08(水) 06:42:33.45 ID:3juXEiES
上だと\n\rになっちゃうけど
CRLFの\r\nとは違うから
Windowsでは認識しないのでは?
118login:Penguin:2011/06/08(水) 12:16:04.61 ID:AGBbsX8a
>>117
いや、上のコードは\rが先に出力されるからあってるよ、改行じゃなくて普通の可読文字でためしてみ
119login:Penguin:2011/06/09(木) 23:01:35.59 ID:b4gs0WW2
Windows向けの改行をUnix向けに置き換える
awk 1 RS=\\r ORS=

改行弄ったら戻したいよね。一文字多い別解。
awk 'sub(/\r/,"")'

>>117
$0にRSは含まれない。print文での出力のときにORSが付けられる。
だから、114のような書き方ができるのです。

え?素直にnkfとかtr使うべきだって?ごめんちゃい。
tr -d \\r
nkf -d
短いねえ…そして速そう…
120login:Penguin:2011/06/12(日) 23:20:31.21 ID:8N8UbY4v
正規表現にマッチした部分を全て置換し、その行を表示する
awk 'gsub(/foo/,"bar")'

sedで書くとこうか。
sed -n 's/foo/bar/gp'
こういう処理はsedの方が楽に書けるのかな、うーん。

>>119
awk 'sub(/\r/,"")+1'
下はこの方が良かった。うっかりファイルの内容を消してしまいそうだ。
121login:Penguin:2011/06/13(月) 19:11:34.42 ID:NkVjy07h
だいたい置換はsedで書いたほうが素直に読みやすいと思う
逆にそれ以外のツールでもスクリプトでもなく、awkで書きたくなるのはフィールドを使うものかな
122login:Penguin:2011/06/13(月) 22:57:31.80 ID:0YRj9/YK
いや、しかし最近目から鱗落ちまくりです。沢山の書き込みに感謝感謝。
123login:Penguin:2011/06/14(火) 21:28:05.61 ID:ODOs6IfG
中身の検索はgrep
置換はsedとかtr
結合はcatとかpaste
計算はexprとか場合によりwc
多少組み合わせる必要があるならshでシェルスクリプトwhile、for、read、shiftみたいな

大抵やりたいことに対応するコマンドがある。awkでプログラム風に書くのは人を選ぶのかもね。
このスレが太古の昔に沈んでしまったのも、そのせいか。
実際、プログラム板にもあるけど、あちらはそこそこ書き込みがある。

Linuxも既にGUI全盛、バッチ処理もGUIでという流れか、シェルスクリプト総合スレもなくなってしまったし。
板全体がほとんど動作報告中心になって、Linuxやシステム全体のコアな部分、プログラミングの話題を
話す場所が消えてしまったような気がする。気がするだけ。
124login:Penguin:2011/06/14(火) 23:04:41.82 ID:CILjaNiq
シェルスクリプトはUnix板で話せばいいしな
Linuxでメジャーなシェルは大概BSDとかでも使えるし
125login:Penguin:2011/06/15(水) 21:26:33.76 ID:QLTzRiMx
HTMLファイルからタイトル(title要素の持つ文字列)を取得する
awk '/<title>/{ b=1 }; b{ s=s $0 RS }; /<\/title>/{ gsub(/.*<title>|<\/title>.*/,"",s); print s; exit }'

分かりやすさと効率を無視、短さを優先した別解。
awk '{ s=t=s $0 RS }; gsub(/.*<title>|<\/title>.*/,"",t)>1{ print t; exit }'

どっかのスレにて、出遅れ、荒れ気味なので。
改行も保存してるけど、必要ないならRSを除けばいい。
perlの無いシステムでもawkはある!はず。

いつの間にかUnix板のシェルスクリプトスレまで無くなってやがる…
126login:Penguin:2011/06/15(水) 22:50:13.28 ID:QFQ0PbYI
ホントだ、何でだろ
127login:Penguin:2011/06/16(木) 00:11:48.62 ID:oqM9OV4C
980超えたからだな
128login:Penguin:2011/06/16(木) 00:29:05.98 ID:G4IIl/GQ
ああ、そうだったのかー。でもまだ次スレ建ってないね。
スレ建てた事無いから分からないけど、最近建て難いようだし、そのせいかな。

112で諦めたgrepで空行を削除する処理の時間計測の結果。
time cat src.txt |grep . >/dev/null

real 342m52.646s
user 337m34.249s
sys 0m7.174s

grep -V
GNU grep 2.6.3

寝て起きたら終わっていた。余程grepを必要とするときくらいしか、使うべきじゃない。
# 一つのケースでしかないのだけどね。ただ、これほど遅いとは…
129login:Penguin:2011/06/16(木) 09:39:38.00 ID:iftKRWTE
>>125
それ、xgawkで書くとどんなになるの?
130login:Penguin:2011/06/16(木) 10:18:36.69 ID:x2P5GNsY
>>129
gawk '$0=gensub("</?title>", "", "g", RT)' RS='<title>.*</title>' IGNORECASE=1
131login:Penguin:2011/06/19(日) 18:13:12.21 ID:O1oYVV5e
>>128
待てよ…awkでもパターン検索だけなら遜色なく書けて
かつawkのが速いんじゃ、grepの存在価値って…

ああ、複数ファイルからの検索があるか
つーても、これもawkでFILENAMEとFNR明示したら書けちゃうか…
132login:Penguin:2011/06/20(月) 00:28:57.29 ID:rO0fE487
>>131
まあgrepで済む物は記述が簡単なわけで。
133login:Penguin:2011/07/01(金) 01:20:48.84 ID:NsJJwAAV
xgawkは使ってないなぁ。使ってる鳥には無いし。XHTMLが対象ならもっと短く書けるのだろうか。

>>130
おー!これはクール。
gawkは大文字小文字無視する処理書くの楽だね。流石だ。

>>131
前後の行を表示させたりが楽かも。まあ、滅多にお世話になることないけど…
rm -r *でデータ飛ばしたから、そのサルベージに役立つとは…orz
134login:Penguin:2011/07/01(金) 02:00:56.40 ID:NsJJwAAV
コマンド`grep -C N regex'を真似する
awk 'BEGIN{ L=N; b=L+1; n=L+2; i=j=0; s=2 };
    /regex/{ if (L&&s==1) print "--"; while (i!=j) { print a[i++]; if (i==b) i=0 } n=s=0 };
    n>L{ a[j++]=$0; if (j==b) j=0; if (i==j) { i++; if (i==b) i=0; if (!s) s++ } next }; n++<=L'

書けた!!データ飛ばすは、アク禁に巻き込まれるは散々だった。よく見たら凄い遅レスだ…
データのサルベージに使ったgrep -Cを書いてみた。流石にワンライナーとは言い難い。
効率はもう少し良くできそうだけど、これ以上短くするのは無理だった。実力が足りない;_;

あまりに読み辛いので、pastebinに整形版を置いておきます。
ttp://pastebin.com/PJ2VfqN4
135login:Penguin:2011/07/01(金) 23:56:01.08 ID:NsJJwAAV
時間計測の結果を追記。

time grep -C 500 'public class\|jar cf\|javac\|\.java' <strings_a.txt >/dev/null
real 0m2.112s
user 0m1.528s
sys 0m0.311s

time awk 'BEGIN{ L=500;(略)}; /public class|jar cf|javac|\.java/{(略)}; n++<=L' <strings_a.txt >/dev/null
real 1m20.089s
user 1m15.426s
sys 0m0.389s

一回計測。約50倍くらい遅いか。ネイティブとスクリプトだから、まあこうなる、と言ったところだと思う。
短い処理なら有利な場合もあるんだろうけど。
136login:Penguin:2011/07/04(月) 00:51:55.26 ID:Zh/tRXtG
指定された正規表現を含むファイルの名前を表示する
awk 'f!=FILENAME && /regex/{ print f=FILENAME }'

gawkならこう書ける。
awk '/regex/{ print FILENAME; nextfile }'

>>131に近い。FNRも使って検索結果を表示するスクリプトも、あまり複雑にはならなそう。
下の方が速いけど、mawkだとnextfileをサポートしてなかった。
grep -lと同じ結果で、指定する正規表現によってawkの方が速く動くこともあるよ。
137login:Penguin:2011/07/05(火) 00:27:00.04 ID:iZUKjs1P
AwkのGNU実装、「Gawk 4.0」が登場
http://sourceforge.jp/magazine/11/07/04/0459223
138login:Penguin:2011/07/06(水) 07:36:41.51 ID:Q5KmFo/I
dgawk便利だね。
139login:Penguin:2011/07/07(木) 02:54:29.78 ID:bHkfWT8R
md5sumコマンドの出力から重複するMD5チェックサムを持つファイルを列挙する
awk '{ i=++a[$1,0]; a[$1,i]=$0 }; END{ for (i in a) if (!k[split(i,k,SUBSEP)] && a[i]>1) for (j=1; j<=a[i]; j++) print a[k[1],j] }'

まだ短く書けそうかな?
あるディレクトリ以下を調べるなら、こんな感じでMD5チェックサムを計算する。
find sda6.photorec -type f -exec md5sum '{}' +
この出力をパイプか何かで食わせればいい。

gawkの4.0が出たか。いろんな亜種を使う機会があるから、なかなか依存したプログラムは書けないね。
よく使うのはgawkとmawkだけど、皆何をよく使ってるのだろう?使用者が少ないから余計に気になる。

デバッガって使いやすい?いまだにprintで表示してやってるなぁ。
140login:Penguin:2011/07/07(木) 11:14:47.64 ID:WpiH6Omg
gdbやpythonデバッガやらと似てるのでとっつきやすくはあると思う。
141login:Penguin:2011/07/08(金) 00:37:18.45 ID:gfdD9pMC
fileコマンドの出力からテキストファイル(表示可能なファイル)だけ取得する
awk '{ q=$1; $1="" }; /text/{ print q }' -F:

FSは-Fオプションを使って1文字短く書く。使い方は次のようにパイプでつなぐ。
find sda6.photorec -type f -exec file '{}' + |awk '{ q="'\''" $1 "'\''"; $1="" }; /text/{ print q }' -F: |xargs -i cp -v "{}" sda6.photorec.text/

xargsに渡すためクォートしてる。ワンラインにシングルクォーテーション入ると書きづらい。
でも、こういう処理はawkが一番楽だね。

>>140
へー、それは良いね!って思ったけど自分が書くような短いスクリプトには不要かも…
今、awkでデバッガが重宝するような長いスクリプトって、どれほど書かれてるんだろう?
142login:Penguin:2011/07/08(金) 17:00:09.91 ID:Iqd7ejAo
gawkだけでurlエンコードできますか?
143login:Penguin:2011/07/08(金) 17:42:07.69 ID:baIcylwh
>>142
BEGIN{for(;i<256;++i)c[t=sprintf("%c",i)]= i==32?"+":t~/[0-9A-Za-z]/?t:"%"sprintf("%x",i)}
{for(s=i="";i++<length;s=s c[substr($0,i,1)]); print s}

マルチバイト対応してて length() とか substr() とかが
バイト数ではなく文字数を数えて動作するような小賢しい awk だと逆に動かない。
144login:Penguin:2011/07/08(金) 19:08:55.72 ID:gwMiQJC1
Gawk4.0の新オプションはそういう時のためにある訳か。
145login:Penguin:2011/07/08(金) 19:46:11.33 ID:CbA9+OJF
>>141
ファイル名には : も使えるから汎用じゃないね。
あとショートコードを意識してるようなのに不必要なセミコロンとカッコ内側のスペースが
あるのはスタイルとして一貫してないな。
146login:Penguin:2011/07/08(金) 20:31:15.76 ID:bJ65EBT8
昨日はこのスレの3周年だったのです。
147login:Penguin:2011/07/09(土) 07:11:28.80 ID:OcQSMVqG
このスレ七夕に立ってたのか。3周年って言われると、まだ3年かと思ってしまう。
3年前といえばLLが盛り上がってた頃だから、もう少し前に立ってればここももっと盛り上がっていたかもね。
gawkは新しくなったけど、確実に他のLLに流れてるよなぁ…
148login:Penguin:2011/07/09(土) 07:34:21.50 ID:OcQSMVqG
>>145
どこぞのOSでは使えない文字をわざわざファイル名に使わないよねって思い、楽してます。
ただパスに含まれる可能性はあるので、そういった場合は file -F; のようにして
fileコマンドの使うセパレータを(使われていない)任意の文字に設定して下さい。

スタイルに関しては全くその通りで、自分でも冗長だと思いつつ残しています。以下言い訳…

スペースは読み辛くなると思う所にだけ残すようにしています。また、ここに貼ると、
表示がプロポーショナルフォントになって、幅が狭い文字の隣から一部分コピペする操作をよくミスるため、
そういった幅の狭い文字(}とか;)の後には残しています。
ifやwhileの後、print $1 や "a" b "c" に含まれるものも省略できますが、違和感が物凄いので残しています。

セミコロンは(POSIXの仕様で)必要なものだけを残しているつもりです。
過去の互換性のために省略可能なものは、残すようにしています。
149login:Penguin:2011/07/09(土) 11:49:25.24 ID:Ne909y4H
>>147
他のLLに比べて、Windowsで使われる頻度が滅法低いのも一因かなあと思う
コマンドプロンプトで awk がやれることって、BEGIN{ } に何か書くぐらいしか無いのよね
だったらPerlとかでいいじゃん、って話になっちゃう
150login:Penguin:2011/07/09(土) 15:37:05.06 ID:Q3LPccup
awkオンリーってのがムズイので、Cygwin上でsh他外部コマンドと組み合わせて使う事が多い
151login:Penguin:2011/07/09(土) 17:09:11.40 ID:Ne909y4H
結局awkはプログラミング言語というより「ちょっとややこしいことも出来るUnix系テキストツール」としての性格が強いんだと思う。
152login:Penguin:2011/07/09(土) 17:38:27.04 ID:OcQSMVqG
そうか、Windowsでの使用率は考えたことなかったわ。そっちで今何が流行ってるのかは知らないけど、
GUI扱うライブラリを持つLLが使われてそうだ。こればかりは厳しい。そもそも、ライブラリって概念がないのが避けられてるのかな。
153login:Penguin:2011/07/09(土) 17:45:48.05 ID:Ne909y4H
>>152
いやGUIはほとんどVisualStudio、Java、Delphi辺りで喰われてるよ
その他のGUIツールもあるにはあるんだけど

LLの主な出番は向こうでもテキストフィルタだったりはするんだけど
Windowsにはそもそも組み合わせるような小物のコマンド群が無いから
やりたい処理の1から10まで全部を1個(もしくは一連)のスクリプトで済ませるのが主流

だからたとえLLであっても、1言語で最初から最後までを完結できる大きめの言語が好まれるのよ
awkは単品で使うより、組み合わせで威力を発揮する言語だからか、あまり使われない
154login:Penguin:2011/07/09(土) 17:49:54.27 ID:Ne909y4H
あ、いやテキストフィルタよりもCGIとかのWebでの出番のが多いか?
155login:Penguin:2011/07/09(土) 18:38:35.83 ID:Q3LPccup
cgiでawk使う事って、珍しくないの?
156login:Penguin:2011/07/09(土) 18:59:11.34 ID:wbKjo2Ly
awkでcgiも出来なくもないだろうけど、っていうかそれでblog作ろうとしてた人もいたな
157login:Penguin:2011/07/09(土) 19:07:48.49 ID:OcQSMVqG
>>153
ホント?Delphiなんて懐かしいなぁ。GUIでなく、Webでの利用なら、もはやOSあまり関係ないような気も。よく分からん。

>>155
聞いたことはあるけど、見たことはない程度には珍しいかと。gawkはネットに対応してるから頑張ればサーバにもなれるかな?
158login:Penguin:2011/07/09(土) 19:58:21.74 ID:Ne909y4H
>>157
いやまあDelphiは新規としては瀕死で、過去遺産の保守で使われるのが主だけどね。
159login:Penguin:2011/07/09(土) 20:14:45.59 ID:Q3LPccup
やっぱawkでcgiってマイナーか。しかしblogつーか、CMS作ろうとするのは凄いなw

ちなみにgawkのhttpdって、どっかで見たなあ。
160login:Penguin:2011/07/09(土) 20:57:21.04 ID:CG+O7ik7
httプロトコルでなく、俺プロトコル用サーバならawkスクリプトでやってる。
httpに例えるなら、ファイルか404を返すだけの簡単なやつ。
しかもgawkのソケットでなく、inetdから呼ばれるだけの低機能。
161login:Penguin:2011/07/10(日) 16:44:29.85 ID:nBMv6TVB
私はエンバカになっても応援してるよ!>Delphi

>>160
今更inetdって思ってて、ろくに調べてなかったけど、socatみたいな機能もあるんだね。
ポート監視→サーバ起動って機能しかないと思ってたよ。

これならネット非対応なawkでもhttpdくらい実装できる?…バイナリまともに扱えそうなのはgawkしかねー。
テキストオンリーまでなら何とかできそうだけど、画像も転送できないか。厳しい制限だ。
162login:Penguin:2011/07/11(月) 00:10:26.11 ID:ShNAK0f0
個人的にはawkは今まで通りシェルのお供でいいと思う
perlとかでもそりゃ書けんことは無いが
シェルのお供として使うには微妙に違和感あるんだよな〜
163login:Penguin:2011/07/14(木) 01:48:17.88 ID:I04Pjvnw
>>134
これを使って正規表現によって grep とどれだけ実行速度に差が出るのか計ってみた。
ttp://pastebin.com/bpXZ5pg8

数字だけではよく分からないので、ユーザ時間のグラフを描いた。
ttp://i53.tinypic.com/303a4iv.jpg
赤がawk、青がgrep
こっちじゃないと見れないかも → ttp://tinypic.com/r/303a4iv/7

awk もばらつきがあるけど、grep ほどではない。
どちらも、マッチする可能性が高い正規表現は遅くなる傾向があるのかなぁ?
164login:Penguin:2011/07/14(木) 23:45:53.76 ID:I04Pjvnw
引数で与えられたファイルをメモリに読み込み繰り返し検索する
awk 'BEGIN{f=ARGV[1];while((getline<f)>0)a[n++]=$0;close(f);ARGV=1};{for(i=0;i<n;++i)if(a[i]~$0)print a[i]}'

最近、用途が限られているもの中心だったので使えそうなワンライナーにしてみたよ。きっと。
指摘を受けたので、スペースは削ることにしました。ちっと見づらい?

↓は大文字小文字を無視するもの。こうするとdmesgの出力を何回も検索できる。
awk 'BEGIN{f=ARGV[1];while((getline<f)>0)l[n++]=tolower(a[+n]=$0);close(f);ARGC=1};{for(i=0;i<n;++i)if(l[i]~tolower($0))print a[i]}' <(dmesg)
165login:Penguin:2011/07/15(金) 08:26:42.31 ID:ZNSgasJH
見にくいので、セミコロンで改行して欲しい。
166login:Penguin:2011/07/16(土) 01:01:45.88 ID:bjjWiIZ6
凄く長くなりそう><
167login:Penguin:2011/07/16(土) 08:37:16.54 ID:n6+rd2ar
長過ぎるone-linerを見易く改行するone-linerを書きなさい
168login:Penguin:2011/07/18(月) 15:25:02.07 ID:7hj9vKr7
しまったー!書き込む前にちょろっと書き換えたところがバグってました。mawkで動きません。

>>164の下のスクリプトは次に書き換えてください。
awk 'BEGIN{f=ARGV[1];while((getline<f)>0)a[n++]=$0;close(f);ARGC=1};{for(i=0;i<n;++i)if(tolower(a[i])~tolower($0))print a[i]}'
awkのシーケンスポイントってC言語と同じなのかな…痛いミス。

おまけ。使ってるやつ。エスケープシーケンスを使って見つかった文字列に色を付けた。
awk 'BEGIN{f=ARGV[1];while((getline<f)>0)a[n++]=$0;close(f);ARGC=1};
    {for(i=j=0;i<n;++i)if(k=match(tolower(a[i]),tolower($0)))print C(j=!j)I(I(a[i],C(39),k+RLENGTH),C(31),k);print C()};
    function C(n){return"\033["n"m"};function I(x,y,z){return substr(x,1,z-1)y substr(x,z)}'
パターンごとに改行を入れた。少し見やすいか?

>>164の上のスクリプトに色を付ける機能を追加。ずっと分かりやすいと思う。
awk 'BEGIN{f=ARGV[1];while((getline<f)>0)a[n++]=$0;close(f);ARGC=1};
    {for(i=j=0;i<n;++i){l=a[i];if(sub($0,C(31)"&"C(39),l))print C(j=!j)l}print C()};
    function C(n){return"\033["n"m"}'
subをgsubにするとマッチする全ての文字列に色を付けられるよ。

gawkならgensub使ってもう少し短く書けるかもしれない。IGNORECASE=1で簡単に大文字小文字無視できるし。
169login:Penguin:2011/08/15(月) 19:41:00.75 ID:yTTHvZyj
classは使えるようになりましたか? > gawk4
170login:Penguin:2011/08/16(火) 15:17:21.28 ID:Tuhp+s5y
171login:Penguin:2011/08/16(火) 15:27:51.45 ID:2FR0TK0E
ちゃんとご自分で読んだものを「つ」されてますか?
172login:Penguin:2011/08/21(日) 15:15:49.17 ID:EL3rN3cw
ふるいけや "かわず とびこむ" みずのおと
といったレコードを、
field[1]=ふるいけや
field[2]=かわず とびこむ
field[3]=みずのおと
number_of_field = 3
とフィールド分割するすっりした方法を教えて下さい。
173login:Penguin:2011/08/21(日) 16:45:12.36 ID:iSpKRH15
" で split すればいい
174login:Penguin:2011/08/21(日) 18:45:31.99 ID:EL3rN3cw
やはり2chでは馬鹿レスしかつかんか。
175login:Penguin:2011/08/21(日) 18:56:18.08 ID:Fst2eXVD
>>172
それ、CSVとかでもよく語られることだけど、意外と面倒なのよ。
例えば「"」自体を文字列に入れたい場合はどうするのか、とか色々決めなきゃならんし。
176170:2011/08/21(日) 19:12:48.13 ID:yoctsNv6
177login:Penguin:2011/08/21(日) 19:24:48.22 ID:yoctsNv6
>172
素直に区切り文字を変えるしか...

ふるいけや,かわず とびこむ,みずのおと

FS=","
178172:2011/08/21(日) 22:01:39.45 ID:Mb9j323G
自己レスです。
BEGIN { FPAT = "([^" FS "]+)|(\"[^\"]+\")" }
みたいな事をしました。
179login:Penguin:2011/08/22(月) 10:27:15.81 ID:bf5ta6rs
awk にわけわかんな機能を増やすよりも、
RFC4180 互換なフィールド分割オプションを実装すればいいのにといつも思う。
180login:Penguin:2011/08/22(月) 10:33:38.59 ID:uwcmdhh8
馬鹿の巣窟にわざわざ書き込むな馬鹿
181login:Penguin:2011/08/22(月) 11:11:08.80 ID:4smqF+KA
見事に馬鹿の巣窟と化したねえ
182login:Penguin:2011/11/28(月) 19:46:48.89 ID:NIKBR+N1
perl -e 'print $1 if /href="(¥d¥d¥d¥d-¥d¥d¥-¥d¥d)"/'
と同じことをawkでやろうとしているのですがわかりません。
awk -e '/href="(¥d¥d¥d¥d-¥d¥d¥-¥d¥d)"/ { print ??? }'
グルーピングしたあとにそれを取り出す方法を探したのですが、わかりませんでした。
awkまたはsedでのやり方を教えて下さい。

183login:Penguin:2011/11/28(月) 20:46:46.52 ID:skmC2JM9
>>181
馬鹿じゃないあなたに是非>>182の回答をしてもらおうか。
184login:Penguin:2011/11/28(月) 21:15:52.48 ID:Oo5SGhpX
>>182
perl がわからないから求めるものがよくわからないけれど、こんな感じ?

awk '/href=\"[0-9][0-9][0-9][0-9]-[0-9][0-9]-[0-9][0-9]\"/ {print $1}' input.html

awk '/href=\"\([0-9][0-9][0-9][0-9]-[0-9][0-9]-[0-9][0-9]\)\"/ {print $1}' input.html

BEGIN とか使ったほうがいいのかもしれないけれど
awk '/href=\"[0-9][0-9][0-9][0-9]-[0-9][0-9]-[0-9][0-9]\"/ {print $1} BEGIN { 何か書く }' input.html
185login:Penguin:2011/11/28(月) 23:48:15.14 ID:mynsjW2o
>>182
どのawk使っているか分からないし、入力の仕様も分からないけど、どこでも動くのはこんな感じ
awk -F\" '/href=/ { for (i=1; i<=NF; i++) if ($i ~ /href=$/ && $(i+1) ~ /[0-9][0-9][0-9][0-9]-[0-9][0-9]-[0-9][0-9]/) print $++i }'
gawkでも正規表現パターンのグループを保存している組み込み変数はなかった気がする
186login:Penguin:2011/11/29(火) 00:49:47.68 ID:6tCpTQmb
gawk4.0なら
awk '{if (match($0,"href=([0-9]{4}-[0-9][0-9]-[0-9][0-9])",a)) print a[1]}'
じゃ駄目?
187login:Penguin:2011/11/29(火) 01:04:03.02 ID:6tCpTQmb
ごめん、
awk '{if (match($0,"href=\"([0-9]{4}-[0-9][0-9]-[0-9][0-9])\"",a)) print a[1]}'
188login:Penguin:2011/11/29(火) 16:01:19.31 ID:vLvhB/JG
>>184-186
うーん、あまりわかりやすい方法ではないですね。
メンテナンスしにくいコードになってしまうので、perlが使えるよう上司に交渉したほうがよさそうです。
回答いただいた方、ありがとうございました。
189login:Penguin:2011/11/29(火) 16:28:12.31 ID:MmS6Zrem
>>185はともかく>>186-187の方がPerlみたいにグローバル変数にマッチ結果を入れるより分かりやすいと思うのって俺だけ?
190login:Penguin:2011/11/29(火) 17:00:24.97 ID:vLvhB/JG
>>189
186は、単にgawk独自の拡張機能を知ってないとわかりにくいというだけであり、
マッチした結果を明示的に変数に代入するのはいいことだと思います。
なお個人的には
match(string, rexp, matched)
はmatchedがいわゆるout変数になるため分かりにくいです。
matched = match(string, rexp)
のほうがよかったです。
191login:Penguin:2011/11/29(火) 17:27:04.96 ID:8ESv/UnH
>>190
何言っているのかちょっと分からん。言語仕様上awkは配列を返せないだろ
192login:Penguin:2011/11/30(水) 00:16:56.92 ID:CRejWMLU
gawk独自の実装はどうも…という話がよく出てくるけど、
gawk/mawk/true awk相互で運用する必要ってよくあるものなの?
またはbusyboxのawkで使いたいとか?
193login:Penguin:2011/11/30(水) 02:39:57.37 ID:TGbwU425
gawkは最早awkと呼ぶには拡張され過ぎている感じがある
よくあるかは知らないけど、少なくとも手元の環境には3種類のawkがあって、gawkの拡張が使えない
mawkはnextfileにも対応してないし、awkは実装の差がかなり大きいと思うよ
194login:Penguin:2011/12/01(木) 00:38:55.88 ID:cIbdY7f8
gawkが拡張されてるのは承知だが、gawk依存だとメンテが大変だから
perlというロジックが分かりにくい。

195login:Penguin:2011/12/03(土) 01:06:16.24 ID:0aRpOAWF
gawkで

(ああ(いい((うう)(ええ))))

この行の「ああ」「いい」「うう」「ええ」を変数に入れたい時、
何か定番な書き方はありますか?
196login:Penguin:2011/12/03(土) 01:56:31.82 ID:ivCb+cNz
何を期待しているのか分からん
括弧を区切りにして分けたいだけならFS="[()]+"で
配列に入れたいならsplitでどう?
197login:Penguin:2011/12/03(土) 01:59:50.51 ID:ivCb+cNz
もしかして括弧の対応をとりながら分けたいってことなら
gawkに詳しい別の誰かに期待してくれ。拡張正規表現でも無理じゃなかったか
198login:Penguin:2013/03/07(木) 06:45:54.68 ID:4D+kiInZ
str = "(ああ(いい((うう)(ええ))))"
while (match(str,/([^()]*)/)) {
v = substr(str,RSTART+1,RLENGTH-2)
str = substr(str,1,RSTART-1) substr(str,RSTART+RLENGTH)
if (v != "") {
# 取り出した v をなんかする
}
}
とかじゃ駄目なの?
ちゃんと構文解析するなら yacc (bison) を使わないと駄目だよ
199login:Penguin:2013/03/12(火) 12:42:06.70 ID:qyuXfAO9
      _
      |O\
      |   \ キリキリ
    ∧|∧   \ キリキリ
ググゥ>(;⌒ヽ    \
    ∪  |     (~)
     ∪∪   γ´⌒`ヽ
     ) )    {i:i:i:i:i:i:i:i:}
     ( (    ( ´・ω・)、
           (O ⌒ )O
            ⊂_)∪
200login:Penguin:2013/03/20(水) 12:52:31.89 ID:YjhinaPB
しつもん
http://gauc.no-ip.org/awk-users-jp/blis.cgi/DoukakuAWK_050 のスクリプトの35行目

for (++day;;) {

の意味と動作がよくわからんです
which で等価なループを書くとどんな感じになるの? カコイイ先輩おしえてplz
201login:Penguin:2013/03/20(水) 20:01:52.34 ID:BDkPT9MX
>>200
++day; while (1) {
202login:Penguin:2013/03/20(水) 22:53:22.42 ID:YjhinaPB
>>201
先輩ありがとう
++day を最初に持ってくるのはオイラも考えたんですが、break の条件式も反転して持ってくればおkかなと思って

$ diff time.awk time2.awk
34,35c34,35
<
< for (++day;;) {
---
> ++day;
> while (day >= year_days) {
49,52d48
< }
<
< if (day < year_days) {
< break;

てやったら1日ズレちゃったんだけどこれってどこがマズいんでしょうか (・ω・` )
203login:Penguin:2013/03/22(金) 01:16:43.88 ID:Jmj0m+XB
>>202
そのbreakの後にも続きの処理があるだろ。年もズレるんじゃない?
204200:2013/03/24(日) 14:19:31.22 ID:UI34mYpn
>>203
day の値を追っかけてみたら元のfor、変更後のwhileともに同じ値で終了してたので頭抱えてたんですが
もう少し調べてみたら leap の値がズレてました
break の前の処理が1回分少なかったということで、落ち着いて考えれば当たり前の結論でした (;´Д`)

結局この処理の場合は元々のスクリプトや >>201 のように無限ループ使うのが一番シンプルに
書けるんだなーと確認して納得しました。先輩方ありがとう
205login:Penguin:2014/03/21(金) 06:08:21.56 ID:+P5ZN4Ej
AWKを256倍使うための本が読みたいのですが
どうにかして入手できないでしょうか?
206login:Penguin:2014/03/21(金) 07:35:13.02 ID:TlIvqwz8
207login:Penguin:2014/03/21(金) 13:50:53.67 ID:2joEzm1b
たけえわ!
こういう本こそ電子版にしてくれねえかなあ
208login:Penguin:2014/03/21(金) 22:38:59.40 ID:+P5ZN4Ej
レスありがとうございます
高いけどあるといえばあるんですね
どうしようかな
20976:2014/03/21(金) 23:39:07.83 ID:UPcdeELD
ブックオフで先週見たぞ
210login:Penguin:2015/01/24(土) 09:55:38.14 ID:gAuUge45
持ってたけどいつの間にか捨てていた
211login:Penguin:2015/01/24(土) 12:11:48.77 ID:4AXaMrRk
紙質が悪くてボロボロになった
212login:Penguin
Linuxも電子版出してほしいな(´・ω・`)