1 :
nobodyさん :
2007/01/11(木) 02:40:43 ID:uW7xEbZY 【正規表現道場の掟】 ・言語不問 ・質問も大歓迎。使用言語を書くのを忘れずに。 正規表現と関係ない話・質問は他スレへどうぞ。
3 :
1 :2007/01/15(月) 00:57:08 ID:/DToo9Jn
勝手に終了すんなデブ ここはここでやればいい 再開あげ
7 :
()と(?:)の違い :2007/01/21(日) 14:23:29 ID:HARdTCVv
対象文字列 //abca 正規表現 ^(/([a-z]*))*$ → マッチ 正規表現 ^(/(?:[a-z]*))*$ → マッチしない 後方参照を許す括弧かそうでないかで結果が違うのはなぜでしょうか? 処理系は PHP 5.2.0-8、OS は Debian GNU/Linux etch 使用した関数は preg_match() です。 具体的には preg_match('"^(/(?:[a-z]*))*$"', "//abca", &$m); var_dump($m); とすると $m[0] が空文字列になります。 すなわちマッチしません。
>>7 preg_matchに与える正規表現は/で括る必要があるけど、原因はそれじゃない?
正規表現reをpreg_matchに与えるときは
preg_match("/re/", $baka);
とかやるんだけども。
9 :
()と(?:)の違い :2007/01/21(日) 15:25:20 ID:HARdTCVv
>>8 いちおう '@^(/(?:[a-z]*))*$@' などとして区切り文字を
@ にするなど気をつけているのですが・・・
()と(?:)により挙動が違うというのが解せません・・・
もう少し実験してみます。ereg 系で試すとまた
結果が違ってくるかも知れないので。
これは…PCREのバグを踏んじゃった可能性が結構高そうな… echo preg_match('{^(?:/(?:[a-z]*))*$}', "//abca"); => 0 Perl互換正規表現と言うくらいなのでPerlとの比較をしてみても勿論このとおり $ perl -e 'print scalar "//abca" =~ m{^(?:/(?:[a-z]*))*$};' => 1 後で念のためPCRE直接叩いてみよう
11 :
()と(?:)の違い :2007/01/21(日) 21:20:40 ID:HARdTCVv
>>10 ふぅむ、バグの可能性もあるんですか〜
//abca じゃなくて /abca/abca とかならマッチするんですよね。
実はパスをディレクトリに分解しようとおもいまして、
その途中に // が入っているようなケースで挙動がおかしいので調べてました。
//abcde は / と /abcde に分解したかったんです。
12 :
10 :2007/01/21(日) 23:05:47 ID:???
ふう、PCRE付属のpcretestでバージョン別検証。 [PCRE version 6.6 06-Feb-2006] re> /^(?:a(?:b*))*$/ data> aa 0: aa [PCRE version 6.7 04-Jul-2006] re> /^(?:a(?:b*))*$/ data> aa No match [PCRE version 7.0 18-Dec-2006] re> /^(?:a(?:b*))*$/ data> aa 0: aa ver6.7のみ上手くマッチしないと言う結果になった。 changelogの7.0をみてもそれっぽいのが見つけられないけれど、38辺りかなぁ… ちなみにPHPで使ってるPCREのバージョンは、 phpinfoのpcreのPCRE Library Versionで確認できる
ちょっといいかな。
>>12 の結果に疑問はないのだけど、
>>7 の
> preg_match('"^(/(?:[a-z]*))*$"', "//abca", &$m);
は空文字列にマッチで正解じゃないの?
だって、対象文字列には // と行頭に二つスラッシュが並んでいるけど、
正規表現は ^/ と一個しかないよ?
後ろに $ が置かれちゃってるから、
//hogehoge というパターンには空以外マッチしようがないと思うんだけど
俺、何か勘違いしてる?
>>13 多分、中のアルファベットに対する量指定子を考慮に入れてないんでないかい?
^ # 文字列の最初
(
/(?:[a-z]*) # /の後に[a-z]が0文字以上
)* # の0回以上繰り返し
$ # 文字列(行)の最後
//abcaは、<スラッシュ、[a-z]が"0文字"、スラッシュ、[a-z]が4文字>となってマッチしなければならない。はず。
>>11 その目的だとpreg_matchじゃ駄目だと思う。
一個目のキャプチャが繰り返しを全て記録することを期待したんだと思うが、毎回上書きされてしまう。
パス文字列が妥当なものかをマッチングで検証するためにpreg_matchを用いて、
実際の切り分けはexplode等を使ったほうがいいんじゃないかな。スレ違いになるが。
マッチングで切り分けるとするならpreg_match_allを用いて
preg_match_all('{\G/[a-z]*}', "//abca", $m)
といった感じか
>>12 ビンゴのようです。
手元の二つのLinuxマシンで試してみました。
preg_match('"^(/(?:[a-z]*))*$"', "//abca", &$m);
Debian GNU/Linux etch
PHP 5.2.0-8 PCRE 6.7 04-Jul-2006
マッチしない。
Fedora Core 4
PHP 5.1.6 PCRE 6.3 15-Aug-2005
マッチする。
>>12 TurboLinux Server 8.0 (Viper) での挙動も調べてみました。
preg_match('"^(/(?:[a-z]*))*$"', "//abca", &$m);
preg_match('"^(/(?:[a-z]*))*$"', "/a/abca", &$m);
いずれもマッチします。
PHP 4.2.3 PCRE 3.4 22-Aug-2000 です。
やはり Debian GNU/Linux etch の PHP5 5.2.0-8 だけが
PCRE 6.7 04-Jul-2006 を使っていて挙動が変みたいなんで、
Debian GNU/Linux の BTS (バグ報告)に挙げようとおもうんですが、
>>12 の結果も引用させてもらって構いませんでしょうか?
17 :
13 :2007/01/22(月) 11:21:28 ID:???
>>14 ありがとう。指摘通り誤読していた。
拡張表記をみてわかったよ。
やっぱLarryは偉いな。
ところでかっこの内と外で繰り返し指定が
連続するパターンは組み合わせの爆発が
怖くて自分はできるなら使わないように
しているんだけど、みんなはそんなこと
気にしない?
>>17 DFAだからとりあえずえらいことにならないうちに停止するだろう、
とか自分では思い込んでるんですが、NFAなら延々とバックトラック
しながらはまり込むとかあるんですかね。
19 :
10 :2007/01/22(月) 21:04:29 ID:???
>>16 どうぞお使いください。
でも、phpのソースにpcreが同梱されてるようだけれど報告先ディストリでいいのかな…
>>19 ありがとうございます。
むしろ PHP のバージョンごとあげてもらえればと。
って、最新バージョンのソースに入ってるのか orz
ちょっと PHP のソース眺めながら思案してみます。
21 :
20 :2007/01/23(火) 00:05:58 ID:???
22 :
20 :2007/01/23(火) 07:47:35 ID:???
Nuno Lopes さんからリプライがあり、修正対象となりました。
[22 Jan 9:43pm UTC]
[email protected] I confirm this is a bug in pcre. so let's ask Andrei to
upgrade PCRE to version 7, maybe for PHP 5.2.2
(assign back to me if you want me to do it).
24 :
nobodyさん :2007/01/23(火) 21:15:28 ID:EGIjqz4P
perl質問厨よろしくです。 @array = split(/(hoge(.))\2/, $line); この2番目の括弧だけ@arrayに含めないことはできますか? '----hoge11-----' ↓ ('----', 'hoge1', '-----') という風に取り出したいのです。
すいません。別の方法で解決しました。
27 :
20 :2007/02/14(水) 08:22:19 ID:???
マルチで宣伝か?
質問よろしくお願いします ABCと続く場合を除くABという文字列を指定したい場合は どのように書いたらよいでしょうか・・・
正規表現ってどんなメリットあるの? 覚えなくても良いんでしょ? よく、書く行数が減る⇒デバッグの時に楽って言うけど、 ロジック設計を完璧にするほうが大事じゃないかなーなどと思ってしまいます(ドシロウトですが) そんなのとうに完璧って人がチャレンジすることなんですかねー
>>30 Rubyでは(おそらくPerlやPHPのpreg_*系でも)
AB(?!C)
>>31 文字列のパターンを記述するために特化した言語なので、
覚えれば非常に楽ができる。
ロジックで100行とか費やすようなパターンを、
正規表現では1行で表すことも可能(かもしれない)。
覚えなくてもいいが、覚えた方がはるかに楽ができるよ。
>>31 ロジック組めないやつが楽をするためだよ
文字列から数字の部分だけ抜き出して表示とか正規表現なら簡単に出来るが
使わないでやれとかいわれたら時間がかかる。おまけにバグる。
数字だけ抜き出すのが何かものすごい魔法のような技術のように思っているらしいw
あるいは「おれってすげえ気の利いたこと言った?」とか思ってるのかなwww
【心の】旦那には絶対言えない過去4【奥に】既婚女性板
http://human6.2ch.net/test/read.cgi/ms/1168957905/ 7 名前:可愛い奥様[] 投稿日:2007/01/18(木) 03:03:54 ID:iE8GVdnP
援交10回、中絶2回、デリヘル、ソープ1年、整形2か所
12 名前:可愛い奥様[] 投稿日:2007/01/19(金) 22:43:01 ID:s7dkuHKN0
高校生の頃から喫煙。不倫経験あり。
旦那は私にとって7人目の彼氏。(旦那には3人目と嘘ついた)
酒に酔った勢いでワンナイトラブの経験あり。
25 名前:可愛い奥様[] 投稿日:2007/01/26(金) 04:08:25 ID:IfNo5kNWO
中絶4回、イメクラ一年、二重整形、大学中退、性病2回、同棲3回。
45 名前:可愛い奥様[sage] 投稿日:2007/02/04(日) 14:24:40 ID:PBhJa6V+0
自分の預金が旦那の年収の7倍くらいあること。
学生のとき、ちょっとした事業起こして大成功w そのことも話してない。
47 名前:可愛い奥様[] 投稿日:2007/02/04(日) 17:16:59 ID:CaAW9Ko50
うーん。堕胎。母子手帳に記載しないといけないから…そこは糊で貼付けた。
義母にはバレているだろう。でも回数が…1回多いとは…永遠の秘密。
92 名前:可愛い奥様[] 投稿日:2007/02/09(金) 23:46:04 ID:QRXcETQYO
セクキャバでバイト経験あり。援交しまくり時代もあり。ヤッた数は100人くらい。
私バツイチで今の旦那には元夫の浮気が原因で離婚したの。とか言ったけどほんとは逆。
好きな人できて夫捨ててのりかえた。浮気しまくりだった。
すごくいい夫だったのにすごく最低な事したって思う。
106 名前:可愛い奥様[] 投稿日:2007/02/18(日) 09:56:13 ID:wIf/65Md0
半年前、万引きして捕まった事。嘘泣きして逃がしてもらった(^^v
38 :
nobodyさん :2007/02/20(火) 19:16:13 ID:W7lgDSO2
/tatakanamk/ と言う文字列があって/から/までの検出をするにはどう書けばよいでしょうか? /と/も含めて12文字を検出したいのです。 超初歩的ですがよろしくお願いします。
>>1 の
>使用言語を書くのを忘れずに。
くらいは守ってくれ。処理系によって正規表現は千差万別だからな。
エスパー見習いの漏れが使用言語は Perl と推測。 バックスラッシュを前置してエスケープする。 /\/tatakanamk\//
>>40 m{/tatakanamk/} みたいにやたらとエスケープ連発しないですむ方法を教えろよ…
エスケープを知らないのも問題だから両方教えるべきだとおも
44 :
40 :2007/02/21(水) 10:00:30 ID:???
だってもし他の言語だったとしても応用が一番効きそうじゃん。 と言い訳。
45 :
42 :2007/02/22(木) 01:40:37 ID:???
>>43 そりゃ確かにそうだね。
必要のないところまでエスケープしているような正規表現見てると
腹が立ってくるんだよw
>>44 わかった、わかったw
保守
47 :
nobodyさん :2007/03/10(土) 16:03:45 ID:VXyj5Dh3
49 :
nobodyさん :2007/03/12(月) 12:20:51 ID:DmSqMrCU
php使ってます。 文字列中の?を抽出するにはどう記述したらいいのでしょう? ¥? じゃだめなことはわかりましたorz
バックスラッシュを前に置く。
51 :
nobodyさん :2007/03/12(月) 14:27:04 ID:DmSqMrCU
ばっちですた!
52 :
nobodyさん :2007/03/18(日) 21:25:07 ID:7HFdTRo7
教えてください。 $in=ユーザーからの入力 $str='abc%ghi'; $str=preg_replace('/(\w+)%(\w+)/',"\1$in\2",$str); ユーザーからの入力を'def'にしておくと、abcdefghiになります。 ですがユーザーからの入力が'123'の場合、ghiになります。 たぶん、置換後の文字列が「\1123\2」と、繋がって解釈されているからだと思います。 {\1}のように囲むとか、なにか繋がらないように解釈してもらう方法はないですか? 二段階に分けて置換するとかすれば回避できなくはないですがスマートではなさそうなので。
53 :
52 :2007/03/18(日) 21:25:46 ID:???
すいませんphp4です。
こうしたらこうなるって結果を一行にまとめて
>>52 "\\1" . $in . "\\2"
"\\1{$in}\\2"
というか普通に\\1と\1を間違えてるだけじゃない?
56 :
52 :2007/03/20(火) 00:34:39 ID:???
>55 >普通に\\1と\1を すいません間違いでした。(ここに貼ったあと直しましたが動作変わらず。) そのうえ↓を書いてて解決しました。手間取らせてすいません。 $in='123'; $str=preg_replace('/(abc)%(def)/',"\\1$in\\2",$str); //これが $str=preg_replace('/(abc)%(def)/',"\\1123\\2",$str); //こうなってしまうので $str=preg_replace('/(abc)%(def)/',"def",$str); //\\1123はないので消えて\\2だけ置換され print $str; //defが出力される と思うので、{$in}でくくっても結果は同じでした。 一番いいのは\\1側を{\\1}くくる方法だと思うのですが。 →phpだと\\1は\$1でもいいので、"\${1}$in\$2"で解決しますた。ほんとすいません。
57 :
nobodyさん :2007/03/23(金) 00:39:31 ID:P+rVOV8A
$str = "foo@=barfoo@=bar"; $str = preg_replace('/foo.*(=)bar/', "a\\1b", $str); を実行した場合の結果をa=ba=bにしたいのですが、 実際はa=bになってしまいます。 どこが間違っているのでしょうか?
>>57 .* が何にマッチしているのか確かめてみ。
59 :
57 :2007/03/23(金) 10:16:39 ID:P+rVOV8A
>>58 .*を bar と続く文字列以外の任意の文字列に変えればいいというのはわかるのですが、
$str = preg_replace('/foo[^(bar)]*(=)bar/', "a\\2b", $str);
としてもうまくいきません。
エロイ人よろしくお願いします。
「ある文字列を含まない文字列」の正規表現はめんどいので最短マッチ .*? で。
61 :
57 :2007/03/23(金) 16:57:03 ID:???
>>60 おお!それでできました。
ありがとうございます。
>>59 foo[^(bar)]*(=)bar
ブラケットの中とかどこでこんな書き方覚えてくるんだよ…
今回の場合、barまで見ないでも = までみりゃあいいんじゃないの?
不用意に最短マッチ使ってるとパフォーマンスで泣くよ?
foo[^=]*=bar を a=b に置換でいいじゃん。
=をキャプチャするのも意図がわからん。
63 :
nobodyさん :2007/03/24(土) 12:15:47 ID:yU007f6l
<html> <head> <title>テスト</title> </head> <body> <!-- ここから --> あああああああああああ<br /> あああああああああああ<br /> あああああああああああ<br /> あああああああああああ<br /> あああああああああああ <!-- ここまで --> </body> </html> このようなhtmlをPHP5のfile_get_contentsで読み込んで <!-- ここから -->〜<!-- ここまで -->を取得したいのですが どうすれば良いですか? "/<!-- ここから -->(.*)<!-- ここまで -->/" で読めませんでした
>>62 > 不用意に最短マッチ使ってるとパフォーマンスで泣くよ?
kwsk
$text = file_get_contents(なんちゃらかんちゃら); mb_ereg("<!-- ここから -->(.*)<!-- ここまで -->", $text, $data); echo $data[1]; 改行に邪魔されてるんだろう
>>65 その記述だとパターンの部分でエラーがでない?
67 :
nobodyさん :2007/04/07(土) 00:58:14 ID:YCq54Nw2
始めまして。 C#で、正規表現でyyyy/mm/dd書式をどう表現するのでしょうか? ちなみに、.NETの正規表現はPerl互換だそうです。
>>67 Datteクラスかなんかに文字列食わせて、例外飛ぶかどうかで
判定したら?
正規表現でやると 9999年13月35日をうけつけてもいいってのなら
\d{4}/\d{2}/\d{2}
かな。
月と日は頑張ればなんとかできるけどめんどくさいからやらない。
69 :
nobodyさん :2007/04/08(日) 02:12:40 ID:EVMLEL7f
>>68 ありがとうございます。
実は、正規表現Validatorを使っているのです。
>>68 ああ、そういうことなのね。
一応注意しておくけど、C#の文字列のエスケープも\を使うので
プログラムに書くときは
"\\d{4}..."
のように\を重ねるか、
@"\d{4}.."
のような\が特別扱いされない形式にしてね。
71 :
nobodyさん :2007/04/15(日) 02:12:22 ID:v7Ys668x
php5です。ファイルのフルパスをディレクトリ,ファイル名,拡張子に分割してその配列を返したくてこう書きました。 $pattern1 = '`^(.*)(?:[/\\\](.*)){1}$`'; preg_match($pattern1, $fullpath, $match1); $pos = strpos($match1[2], '.'); if($pos === false){ return array($match1[1], $match1[2]); }else{ $pattern2='`^(.*?)\.(.*)$`'; preg_match($pattern2, $match1[2], $match2); return array($match1[1], $match2[1], $match2[2]); } 必ず拡張子があるなら一度のpreg_matchでキャプチャ出来たのですが 拡張子無しファイル混じりだった場合の正規表現がうまく思いつかずに二段階(三段階?)になってしまいました でもpreg_matchやってその中で'.'探して、あったらさらにpreg_matchというのはまわりくどいように思います この処理を一度にこなす正規表現の考え方のヒントをください
ああ半角空白の連続ダメなんだっけ インデント消えちゃた
74 :
73 :2007/04/15(日) 03:04:35 ID:???
あ、ごめん。正規表現スレだったね。無視して。
75 :
73 :2007/04/15(日) 03:10:35 ID:???
で、考えてみたんだけど、 $path = '/abc/def.g/eee.txt'; preg_match('/(.*?)¥/([^¥/]*)¥.([^¥/.]*$)/', $path, $match); print_r($match); こんな感じでどう?
76 :
73 :2007/04/15(日) 03:17:28 ID:???
これじゃ拡張子のない場合に対応できないか。 /(.*?)¥/([^¥/]*?)(¥.[^¥/.]*)?$/ でどうかな。スレを汚してしまってすまん。
PHPなら、dirnameとbasenameつかえば正規表現なんか使う必要一切ないだろ
79 :
71 :2007/04/15(日) 11:28:41 ID:???
正規表現無しだとこんな感じでした
$p = pathinfo($fullpath);
$temp = explode('.',$p['basename'],2);
$p['name'] = $temp[0];
if(isset($temp[1])){
$p['ext'] = $temp[1];
}
>>76 を参考にして正規表現で書けました
$pattern = '`^(.*)[/\\\]([^.]*?)(?:\.(.*))?$`';
preg_match($pattern, $fullpath, $match);
ありがとうございました
80 :
nobodyさん :2007/05/03(木) 19:11:49 ID:meD6A7ah
phpで携帯電話の絵文字を取り除くようpreg_replaceを使っているのですが、 絵文字が複数含まれた文字列?などでうまく取り除けません。 こんな感じにしているのですが原因やおかしな点などご教示ください。お願いします。 $str = '絵文字が含まれる文字列'; $emojiSjisChars = '(?:[\x00-\x7F\xA1-\xDF]|(?:[\x81-\x9F\xE0-\xFC][\x40-\x7E\x80-\xFC]))'; #DoCoMoの場合 $str = preg_replace('/\G(' .$emojiSjisChars. '*?)(?:\xF8[\x9F-\xFC]|\xF9[\x40-\x49\x50-\x52\x55-\x57\x5B-\x5E\x72-\x7E\x80-\xB0])|(?:\xF9[\xB1-\xFC])/', '$1', $str); #AUの場合 $str = preg_replace('/\G(' .$emojiSjisChars. '*?)(?:[\xf3\xf6\xf7][\x40-\xfc]|\xf4[\x40-\x8d])/', '$1', $str); #Softbankの場合 $str = preg_replace('/\G(' .$emojiSjisChars. '*?)\x1B\x24[E-G].*?\x0F/', '$1', $str);
81 :
80 :2007/05/03(木) 19:17:55 ID:meD6A7ah
すいません。↑の$emojiSjisCharsは$sjisCharsの命名間違えです。
ちゃんと読んでないけど (?:絵文字のコード) な部分を (?:絵文字のコード)+ にするだけではないの?
83 :
80 :2007/05/03(木) 20:24:41 ID:meD6A7ah
>>82 レスありがとうございます。
下のように+を入れましたがダメでした。
色々考えているとどんどん分からなくなってきました...
おかしな点があれば引き続きご教示お願いします。
#DoCoMoの場合 ※見にくいので表示上改行します。
$str = preg_replace(
'/\G(' .$emojiSjisChars.'*?)
(?:\xF8[\x9F-\xFC]|\xF9[\x40-\x49\x50-\x52\x55-\x57\x5B-\x5E\x72-\x7E\x80-\xB0])+|
(?:\xF9[\xB1-\xFC])+/', '$1', $str);
オライリーの詳細正規表現の本って 通常のと第2版ってのがあるけどどっちがいいのよ?
>>84 通常のって初版のことかい?
そりゃあ新しい方が。
具体的にどう変わったか覚えてないのでオライリーのサイトを見たけど、
Perlの対象が5.8にあがっているのと、.JAVAとNETの説明が増えたとからしい。
php4.3.11です --------------------------------- $str = <<< DOC_END あああああ いいいいい <html_start> ううううう えええええ <html_end> おおおおお DOC_END; $pattern = "/<html_start>(.*)<html_end>/"; $replacement = 'aaaabbbb'; $res = preg_replace($pattern, $replacement, $str); print_r($res); --------------------------------- と出力してみましたが何も表示されませんでした。 ホントは「あああああいいいいいaaaabbbbおおおおお」と出て欲しかったのですが…。 最終的には<html_start><html_end>で囲まれた範囲に PHPのhtmlspecialchars()やnl2br()関数を適用して出力したいです。
>>86 > $pattern = "/<html_start>(.*)<html_end>/";
「 ^ や $ があるってことは正規表現って行単位?複数行の場合は?」とか思いながら
$pattern = "/<html_start>(.*)<html_end>/s";
にして試す。で、「s って何だよ、こんにゃろ」と思いながらマニュアルの「パターン修飾子」のとこを読む。
うちのPHP5さんでは元のコードでも「何も表示されない」にはならなかったな。
ブラウザ出力: あああああいいいいい うううううえええええ おおおおお
ソース: print_r($str) な感じ
案外この手の質問したい人もいるんだね
90 :
86 :2007/05/14(月) 15:45:03 ID:???
後方置換する時に関数かましたくマニュアル眺めてたら「e修飾子」をみつけたのですが
>>87 の「S修飾子」と同時に使おうと
$pattern = "/(.*?)<html_start>(.*)<html_end>(.*?)/se";
$replacement = "'\\2''\\1''\\3'";
こんなコードを書いてみた所
Parse error: syntax error, unexpected T_CONSTANT_ENCAPSED_STRING
Failed evaluating code:
といった感じで怒られます
修飾子2個は同時に使えないのでしょうか…?
91 :
86 :2007/05/14(月) 17:55:10 ID:???
>>86 ですが
自分で見返してたらこれは既に正規表現でなくPHPの質問な気がしてきましたので該当スレに
移動しますです。
スレ違、申し訳ありませんでした。
IPを正規表現でチェックしたいのですが 210.000.111.1〜210.000.111.255 215.100.000.1〜215.100.000.255 の2つに当てはまる場合、TRUE(int1)をかえすにはどうすればいいでしょうか? 以下のようにやってみたのですが他のIPでもint(1)がかえってきます。 preg_match('/^210\.000\.111\.([0-9]{2}|1[0-9]{2}|2[0-4][0-9]|25[0-5])$ || ^215\.100\.000\.([0-9]{2}|1[0-9]{2}|2[0-4][0-9]|25[0-5])$/', $_SERVER['REMOTE_ADDR'])
>>92 正規表現で foo || bar みたいなのはないっしょ。
/^(210...(中略)...|215...(中略)...)$/ みたいな。
アドレスの範囲のチェックをするなら正規表現使わない方が良いと思うけどね。
94 :
おながいします :2007/06/06(水) 13:28:10 ID:iKhV2zih
すみませんが、価格にマッチする正規表現を教えていただけないでしょうか。 例 \1,000,000,000 \12,345 \1,230 \200 \10 数字3つごとに、カンマが入り、先頭に円マーク(\)のくるものです。 判らないためググッたのですが、正規表現に関する本ばかり検索結果として出てきまして…。
95 :
おながいします :2007/06/06(水) 13:29:35 ID:iKhV2zih
それは、「\12,1232,32」みたいなのははじきたいの?
「正規表現 カンマ」とかでぐぐってみると・・・
>>98 穴だらけだけどこんなんのこと?
$hoge = "\1,000";
if(ereg(".*[0-9,\\]",$hoge)):
echo "ok";
else:
echo "ng";
endif;
100 :
94 :2007/06/06(水) 17:22:28 ID:???
(?:pattern),および(?>=pattern)が認識されないエディタにおいて、 $obj->method();の「method」のみにマッチさせるにはどうすればいいでしょうか。 ちなみに(?=pattern)は使えます。
102 :
nobodyさん :2007/07/09(月) 23:51:58 ID:jN4+J6ks
VB.NETで正規表現を書いています。 条件としては、「A0123」のように、先頭がアルファベットのAでその他が数字4桁という正規表現と、 「01234」のような数字5桁という二種類のどちらかにマッチする正規表現を作っています。 正規表現は苦手で困っています。 どなたかご教授下さい。 よろしくお願いします。
>>012 [A\d]\d{4}
とか。
あと「教示」な。
104 :
nobodyさん :2007/07/13(金) 17:31:53 ID:lsKPRG81
phpで文中の郵便番号の部分を置き換える正規表現を書いているのですが 電話番号(携帯など)も引っかかってしまいます どのように直せばいいのでしょうか? mb_ereg_replace('([0-90-9]{3}[\-−ー‐]+[0-90-9]{4}|[0-90-9]{7})',"郵便番号",$data)
mb_ereg って戻り読み使えなかったんだっけ? (\D)\d{3}-\d{4}(\d{3})?(?!\D) を \1郵便番号 で置換。でどう? 面倒くさいので全角数字とかハイフンの類は自分で調整して。
106 :
nobodyさん :2007/07/20(金) 05:15:36 ID:wp5plGkY
$textにHTMLタグを含んだ文字列が入っていて、 <>外部の< > " をそれぞれ < > " に置換したい(<>内部はそのまま) のです。以下のように、まず全ての<>"を置換し、HTMLタグの<>だけを 元に戻してみましたが、うまくいきません。どなたかご教授願います。 言語はあとでPHPでも同様のものを作成する予定ですが、今はPerlです。 $text = "tt\"tt<3bbb\nst<a gg&tg;gg href=\"aaa\">bbb<\n"; print "before=\n"; print $text."\n\n"; $text =~ s/</</g; $text =~ s/>/>/g; $text =~ s/\"/"/g; $text =~ s/<([^(>)]*)>/<$1>/g; while ($text =~ /<([^>]*)\"\;([^>]*)>/) { $text =~ s/<([^>]*)\"\;([^>]*)>/<$1\"$2>/g; } print "after=\n"; print $text."\n"; ↓このように置換されることを想定しています。 tt"tt<3bbb st<a gg&tg;gg href="aaa">bbb<
久しぶりに実体参照の地雷を踏みまくってる投稿を見た。
108 :
106 :2007/07/20(金) 05:38:28 ID:wp5plGkY
「このように置換されることを想定しています。 」の部分で 実体参照の部分がそのまま表示されてしまったので全角で修正します。 よろしくお願いします。 tt&quot;tt&lt;3bbb st<a gg&tg;gg href="aaa">bbb&lt;
何がやりたいのかさっぱりだ。 どこまでがタグか解析してタグ以外のタグ文字を実体参照化したいということ? それ元のテキストを生成してる時点で何か間違ってるだろ
何かの内側と外側を判定するのは結構面倒だよなぁ。こないだ<a 〜>から</a>までの 間だけを操作しようと3分考えて、ネストがありえることに気付いて挫折した。
って
>>106 読んでなかった。
>>109 に同感。
それじゃあどこからどこまで切れば良いのかわからない。
xxx<abcd<ddeg<eee<g<fhg>degh><qq>zzz
の時、何が保証されていて、どこからどこまでをタグと見なせばいいの。
112 :
106 :2007/07/21(土) 01:21:27 ID:VYWED9XA
ごめんなさい。説明が足りませんでした。
掲示板で投稿された書き込みに対して、上記のような処理をしたいと考えています。
>>106 のスクリプトは処理を掲示板に組み込む前に処理の部分だけテストするために作成したものです。
$textは書き込み内容と想定しています。
一番内側の<>をタグと見なしたいです。
xxx<abcd<ddeg<eee<g<fhg>degh><qq>zzz
この場合ですと、<fhg>と<qq>をタグとみなし、他は実体参照化したいと考えています。
つまりタグの定義は <[^>]*> ということですね。
114 :
106 :2007/07/21(土) 08:55:35 ID:VYWED9XA
違うだろ、<[^<]*?>だろ、112の定義なら。 それ以前に106はエスケープ、エンコード、サニタイズ処理で何か間違ってる use HTML::Entities; $tag_re = qr/<[^<]*?>/; $text =~ s/($tag_re)|(.)/$1||encode_entities($2)/eg; print $text;
116 :
nobodyさん :2007/07/21(土) 13:10:23 ID:7GHIEbSO
117 :
たけもー :2007/07/27(金) 23:18:07 ID:boPeFaxI
PHPです。 就職率−6月(この全角−を)半角に変えたいです。 $a = ereg_replace("[−]", "-", $a); どうしたらいいでしょうか?
118 :
nobodyさん :2007/07/28(土) 02:31:21 ID:k6nESKD8
ereg_* はマルチバイト文字(全角文字)に対応していない。 mb_ereg_* か preg_* を使うといい。 ただしpreg_*のほうはUTF-8でないとダメだったと思う。
119 :
たけもー :2007/07/28(土) 15:25:04 ID:9w1k0jgB
PHPです。 就職率−6月(この全角−を)半角に変えたいです。 $a = mb_ereg_replace("[−]", "-", $a); mb_でもだめでした。 どうしたらいいでしょうか?
文字コードとかどうなっとるん?
121 :
たけもー :2007/07/28(土) 16:32:13 ID:9w1k0jgB
文字コードの意味がいまいちわからないんです、テキストディタは Shift-JISです、
PHPは本職じゃないんで良く知らんのだが、PHP自体がデフォルトの エンコーディングを持っていて、何も指定しないとそれ使うはずだから、 自分がSJIS指定しているつもりでも、そうでない可能性があるってこと。 <?php echo mb_internal_encoding() . "\n"; echo mb_regex_encoding() . "\n"; $v = "就職率−6月"; mb_regex_encoding("sjis"); echo mb_regex_encoding() . "\n"; $v = mb_ereg_replace("[−]", "-", $v); echo $v; こんなんで置換はできたっぽい。 echo しているのは確認のためなんで気にしないでいい。 いずれにしろ mb_regex_encodingで設定しないとダメだった。
123 :
たけもー :2007/07/30(月) 07:40:51 ID:DqqhKvmn
解決いたしましたw ありがとうございますw
124 :
たけもー :2007/07/30(月) 21:23:25 ID:TD8Lc2Id
解決したはずが・・・
file(
http:// )で取得した文字列がUTF-8で
UTF-8からsjisにしたら全角マイナスが消えてしまいます。
消えて、改行されています・・・
テストソースですので
mb_ereg_replace
などで置き換えなどは一切してません。
どうしてでしょうか?
原因知ってるけど正規表現に何の関係が
>>125 誘導してやってくれ。(PHPわからん)
ちなみにPerlも同じだから。正規表現は関係ないけどね。
130 :
nobodyさん :2007/08/10(金) 10:21:28 ID:dRcI3VfS
PHPとか全く知らない者なのですが、利用しているBBSのアクセス禁止設定が 正規表現で指定しろと言うんです。勿論正規表現は知らないどころか初めて耳にしました。 a00abcd1.kngwnt01.ap.so-net.ne.jp 123.123.123.123.ap.yournet.ne.jp 前者のIPが何らかのコード1つに変換されるタイプと後者のIPがそのまま出るタイプの リモホをそれぞれホスト単位で全て「正規表現で指定」するとずばりどういう表記になるのでしょう?
ホスト数が少ないなら列挙すりゃいいんじゃね。 (xxx.example1.jp|xxx.example2.jp|xxx.example3.jp)
ありがとうございます なるほど…ひとつをピンポイントで指定する場合は 正規表現というのを使わなくても良いという事なのでしょうか… 130の前者だけなら a00abcd1.kngwnt01.ap.so-net.ne.jp と、そのまま指定、両方の二つなら (a00abcd1.kngwnt01.ap.so-net.ne.jp|123.123.123.123.ap.yournet.ne.jp) となるんでしょうか?
>>132 そのものずばりというのも正規表現の一種だよ。
a00abcd1.kngwnt01.ap.so-net.ne.jp
というのも正規表現だよ。
あと細かい話を言うと、ピリオド「.」は正規表現において任意の1文字にマッチするメタ文字なので、
ピリオドそのものにマッチさせたい(他の文字にはマッチさせたくない)ときには「.」の代わりに「¥.」を使う。
a00abcd1¥.kngwnt01¥.ap.so-net¥.ne¥.jp
んでも、この場合はそこまでしなくても問題はなさそうだけどね。
>>133 どうもありがとうございました!大変参考になりました
というかこれを機会にちょっと勉強してみます…
ありがとうございました
135 :
nobodyさん :2007/08/11(土) 01:30:22 ID:2Sf3pkhN
.* と .+ は、完全に同じ意味と考えてもOKですか? それとも、何か挙動が変わってくることはありえますか?
.+ 1文字以上の任意の文字列 .* 0文字以上の任意の文字列 で最初から違ってましたね ナハハ…
a
perl互換のPHP正規表現を勉強し始めたのですが、 3.3以上に該当するの文字列っていうのは、できますでしょうか? たとえば3.3.4や3.5、9.0などです。 バージョンのようなものです。 やはり数値型でないと難しいのでしょうか。
バージョン番号文字列って数値型にしてもめんどくさいんだよね。 3.10.0 とかね、真面目にやろうとすると、 '.' で split して、上の桁から順に整数値として比較していく、 みたいにやらないといけなかったりして。
>>139 3.3以上っていう決まりだけならどうかけますかね?
3.2があてはまらなければ大丈夫なんですが。
/\A(?:(?:[1-9]\d+|[4-9])(?:\.(?:[1-9]\d*|0))*|3\.(?:[3-9](?:\.(?:[1-9]\d*|0))*))\z/
3.10 も 3.20 も蹴っていいの?
143 :
141 :2007/08/15(水) 01:17:11 ID:???
うわボケてたアルよ。 /\A(?:(?:[1-9]\d+|[4-9])(?:\.(?:[1-9]\d*|0))*|3\.(?:(?:[1-9]\d+|[3-9])(?:\.(?:[1-9]\d*|0))*))\z/
>>141 ありがとー!ちょっと見てみます!
>>142 厳密にどういった値があり得るのかも分からないのでそこまで細かくしなくてもいいかなという感じです。
バージョンというか、ユーザーエージェントの後によくついている数値なんですが。
145 :
nobodyさん :2007/09/01(土) 14:16:44 ID:tMwZKBAJ
"*"をWebで調べると「直前の文字0回以上の繰り返しにマッチ」とでてくる。 UNIXで % ls a0/ a1/ a2/ のとき % cd *1 ができるけど*は何の繰り返し??? *は何でもマッチと思っていたのは間違いですか???
146 :
nobodyさん :2007/09/01(土) 15:26:18 ID:epTGamb+
>>145 Perl互換の正規表現では 「*」 は量指定子というものの一種でありまして、 文字、 文字クラス、 グループの直後に付き、
それらに0回以上の繰り返しという意味を持たせるのですが、 正規表現体系が違えば 「*」 が違うことを意味することもありましょう。
147 :
nobodyさん :2007/09/01(土) 15:34:18 ID:epTGamb+
要するに、 正規表現体系が違えば記号の意味も異なるということです。
148 :
nobodyさん :2007/09/01(土) 15:58:40 ID:tMwZKBAJ
149 :
nobodyさん :2007/09/01(土) 16:54:59 ID:fGUplrri
>>150 どっちも「それは正規表現じゃねえよ」からグダグダと書いても仕方ないから
待たせなくてよい。
152 :
nobodyさん :2007/09/02(日) 09:50:38 ID:RtluGpKC
192.168.50.5 //OK 192.168.*.* //OK 1000.1000.1000.1000/OK *.168.50.5 //NG (\d+)(\.([*(\d+)])){3} なぜこれでダメ?
153 :
nobodyさん :2007/09/02(日) 11:04:51 ID:tGLa/mAn
>>150-151 正規表現とは文字列の集合を表現する手段でありますから、
ワイルドカードを用いた表現も正規表現の一種であります。
154 :
nobodyさん :2007/09/02(日) 11:20:25 ID:tGLa/mAn
>>152 > (\d+)(\.([*(\d+)])){3}
これは数字があり、 その後ピリオドと 「*」、 「(」、 数字、 「)」、 「+」 のどれかの組が3回繰り返す文字列群の表現です。
> *.168.50.5
これは数字の後、 ピリオドと 「*」、 「(」、 数字、 「)」、 「+」 のどれかの組が2回しか繰り返していないので、
先ほどの正規表現にマッチしません。
155 :
nobodyさん :2007/09/02(日) 11:40:01 ID:tGLa/mAn
いや、 待ってください。 > (\d+)(\.([*(\d+)])){3} だと、 > 192.168.50.5 > 192.168.*.* > 1000.1000.1000.1000 > *.168.50.5 のすべてにマッチしないはずです。 先ほど > これは数字があり、 その後ピリオドと 「*」、 「(」、 数字、 「)」、 「+」 のどれかの組が3回繰り返す文字列群の表現です。 と申しましたが、 より正確には、 ・ 数字が1つ以上あり、 その後ピリオドと 「*」、 「(」、 数字1つ、 「)」、 「+」 のどれかの組が3回繰り返す文字列群の表現 でありまして、 > 192.168.50.5 > 192.168.*.* > 1000.1000.1000.1000 > *.168.50.5 のどれもそのような文字列ではないからです。
\.
どうせ1000がいやんって話なんだろうけど、0から255までの 数字だけがマッチする正規表現ってむずくね? [0-9]|[12][0-2]?[0-9]|[12]?[34][0-9]|1?[5-9][0-9]|25[0-5] とか [0-9]|1[0-9][0-9]?|2[0-4]?[0-9]|[3-9][0-9]|25[0-5] とか
PHPのPerl互換の正規表現のことで質問です。 次のような文章があったとします。 左のは行番号で、実際の文章中にはありません。 01.<div> 02.text 03.<img> 04.</div> 05. 06.<div> 07.text1 08.text2 09.</div> 10. 11.<div> 12.hoge 13.<img> 14.</div> ちなみにドットは改行にもマッチするようにしておきます。 これに対してパターン「<div>\n(.+)\n</div>」を最小マッチさせると、 サブパターンで02,03と07,08と12,13と17,18,19,20行目がそれぞれきちんとマッチしてくれるんですが、 今度は<img>を含むdivだけをマッチさせようとして、「<div>\n(.+\n<img>)\n<div>」で最小マッチをさせると、 02,03と07,08,09,10,11,12,13行目にマッチしてしまいます。 ここで02,03と12,13行目だけにマッチさせるにはどうすればいいのでしょうか? いろいろ考えたのですがよくわかりません。 どなたかよろしくお願いします。
159 :
nobodyさん :2007/09/02(日) 19:35:53 ID:/HflMMhV
↑ すいません 「02,03と07,08と12,13と17,18,19,20行目がそれぞれきちんとマッチしてくれる」は 02,03と07,08と12,13の間違いですね
すいません自己解決しました 「<div>\n((?:[^<]|<(?!div))+\n<img>)\n<div>」 これでいけるんですね
161 :
nobodyさん :2007/09/04(火) 05:14:07 ID:p30GnV0e
IPアドレスの正規表現についてやっぱりわからなかったです。 2オクテッド目以降は*が来てもOKとするにはどうすればよいでしょうか? 192.168.50.* 192.168.*.* 192.*.*.* 192.168.50.5 1000.1000.1000.1000 これらはすべてOKとします。
>>161 > 2オクテッド目以降は*が来てもOKとするにはどうすればよいでしょうか?
それ先に言えよ!
どういう結果が欲しくて、どう書いたら、どうダメだったか、を具体的に書かんと。
あと、使用してる処理系 (言語やソフトウェア) も。
で、ダメだった正規表現中の [*(\d+)] だけど、
[] は「文字クラス」の正規表現なので、
>>154 の言っているように * ( 数字 + ) のいずれかの「文字」を表す。
「* または数字」を表現したいのであれば、 (\*|\d+) みたいにする。
ので、こうかな。
(\d+)(\.(\*|\d+)){3}
163 :
nobodyさん :2007/09/04(火) 11:21:03 ID:/G1gxUUQ
$` (マッチした文字列の前にあるすべての文字列 ) ↑これの使い方を教えてください。言語はPerlです。
>>163 "hoge" =~ /og/;
print join(",", $`, $&, $'), "\n";
↑こんな感じで、この場合は "hoge" に対して "og" がマッチするので、
$`, $&, $' にはそれぞれ "og" の前の "h", "og", "og" の後ろの "e" が格納される。
165 :
nobodyさん :2007/09/04(火) 11:54:02 ID:/G1gxUUQ
***.com([0-9]もしくは[a-z]の文字が3つ並び、その後に.com)の表記方法を教えてください
167 :
nobodyさん :2007/09/10(月) 21:26:12 ID:lrmAiBXN
>>166 Perl互換の正規表現だと
[0-9a-z]{3}\.com
169 :
nobodyさん :2007/09/12(水) 11:22:48 ID:DkIOyoGe
>>168 それだと大文字とアンダースコアにもマッチしてしまいます。
<title>ほげほげ</title> の「ほげほげ」だけを抜き出すのにはどう表記すればいいのでしょうか?
/<title>([^<]+)<\/title>/
173 :
nobodyさん :2007/09/16(日) 01:35:56 ID:6P4HpCmY
PHP 4.4.7で hoge hage 123.txt の中から 123 を抜き出したいんだけど "/^(.+?).txt/" だと当然 hoge hage 123 がマッチしてしまう。 hoge や hage は任意の文字列で数字が入る可能性もあるのだけど、どうやって抽出したらいいんでしょう。
174 :
173 :2007/09/16(日) 02:11:14 ID:???
マッチした文字列を strrev() で逆順にして、今度は txt. で再度マッチングさせたらとりあえず抽出できました。それをもう一度逆順に。 こんな力業じゃなくて他に方法があるんだろうな……。
^^
176 :
nobodyさん :2007/09/16(日) 03:52:16 ID:vOvwrq99
>>173 前後にデリミタ (「/」) が付いているという事はPerl互換の正規表現関数を使うのでありましょうが、
そうであれば 「.」 はs修飾子がない限り改行にマッチせず、 よって
/^(.+?).txt/
は
hoge
hage
123.txt
にマッチせず、 したがって
hoge
hage
123
がキャプチャされることはないはずです。
>>173 まあとにかく「マッチしてしまう」とかいうそのコードを晒してみ。
178 :
nobodyさん :2007/09/16(日) 13:59:22 ID:G/qusHMm
$bairitsu = 0.5;という風に$bairitsuに倍率を入れておいて height:244pt を height:122pt… height:244pt を height="150"に といった具合にheight:●●ptやheight="●●"の数値部分を $bairitsu倍して置換するにはどのようにすればいいですかね? やろうとしてることは、エクセルで作ってHTMLで保存したものを、 A4サイズの用紙に合うようにHTMLの中にあるサイズ指定を変更したいです。 使用言語はPerlです。よろしくお願いします。
179 :
173 :2007/09/16(日) 15:18:36 ID:6P4HpCmY
>>175 それは……ヒント? それともAA?
>>176 失礼。パターンを行頭にしたり行末にしたり改行文字にしたりしてるうちにこんがらかってしまったみたい。
正確には
"/^(.+?).txt/"
でマッチしました。
>>177 コード的にはこんな感じ。
$string = "
hoge
hage
123.txt
";
preg_match("/^(.+?).txt/", $string, $matches);
preg_match("/txt.(.*?)\r/", strrev($matches[0]), $matches);
echo strrev($matches[1]);
// 結果 123
PHPも正規表現も初心者なので変な書き方してるかもだけど……。
180 :
173 :2007/09/16(日) 15:27:38 ID:???
あれ?正確にはも何も最初に書いたのであってるなあ。 なんで「マッチしてしまう」のだろう。
181 :
nobodyさん :2007/09/16(日) 21:38:24 ID:YMkvDZNb
>>179 ああ、 改行コードをCRにしているのですね。
私は
> 「.」 はs修飾子がない限り改行にマッチせず
と申しましたが、 正確には 「LFにマッチせず」 でありまして、 CRにはマッチします。
普通はスクリプトの内部では文字列の改行コードをLFにするものですが、
何か理由があってCRにしているのですか。
182 :
nobodyさん :2007/09/16(日) 21:48:57 ID:YMkvDZNb
改行コードがLFなら、 m修飾子を使うことにより 「^」 が行頭にマッチするようになるのです。
183 :
173 :2007/09/17(月) 00:37:12 ID:/5o1hJUZ
>>181 > と申しましたが、 正確には 「LFにマッチせず」 でありまして、 CRにはマッチします。
あー、そういう事なのか……。
勉強になります。
> 何か理由があってCRにしているのですか。
実はいつも決まった形式で入稿されるテキスト原稿を決まった形式のHTMLにするだけの仕事が定期で入ってくるんです。
で、毎回毎回コピペにつぐコピペで対応し続けるのもバカくさいので極力自動化しようと思い、PHPでシコシコ書いている次第。
そのプログラムに食わせるお客さんからの入稿原稿を元に作ってたのでCRになってました。
試しに改行コードをLFにしてm修飾子というのを試したらうまくいきました。
なるほどもらった原稿をLFに変換してから使えばいいわけだな。
ありがとーございました!
184 :
nobodyさん :2007/09/17(月) 01:05:58 ID:T68tRmUw
あと1つ指摘しますと、 「.txt」 は 「\.txt」 にすべきですね。
185 :
173 :2007/09/17(月) 15:37:44 ID:/5o1hJUZ
> あと1つ指摘しますと、 「.txt」 は 「\.txt」 にすべきですね。 おーなるほど。ありがとうございます。
186 :
nobodyさん :2007/09/18(火) 14:10:13 ID:hpuf++fz
Perlを使って、アフィリエイトのコードやJavaScriptなどを含むコメントタグがなぜか削除できません。 例) <!-- コード ・ ・ --> HTMLタグは s/<.*?>//sg; とすれば削除できますが なぜかコメントタグだけが残ってしまいます。 コメントタグの開始「<」と終了「>」以外の全ての文字列・記号・改行コードを削除したうえで s/<>//g; としてみましたが削除することができません。 s/<//g; s/>//g; とするとなぜか削除できます。 うまく削除できる方法をご存知の方がいたら教えて下さい。
前処理としてまず s/<!--.*?-->//gs やってみたら? コメントタグのネストはないだろうし(JavaScriptとかで書き出してたら別だけど・・)
>>187 レスどうもありがとう。
s/<!--.*?-->//gsでもなぜかうまくいかないので
コメント行が現れたらif文でスルーするようにしました。
PHPで正規表現勉強したいんですが、オライリーのふくろう本を読めるでしょうか? もちろん本人の技量にもよると思いますが、Perlをまったく知らない人間がという解釈でお願いします。 逆に文字列処理をしたいなら、Perlを一からやっとけみたいなのもありです。
>>189 preg_.*系関数ならPerl互換なのでふくろう本の記述が使えると思う。
というかね、ふくろう本のキモは処理系にほとんど依存しない3章と4章で、
それ以外はおまけだ。熟読すべし。
ありがとう。時期を見計らって購入するよ。第三版出るみたいだし
193 :
nobodyさん :2007/09/20(木) 13:36:17 ID:KlmMrt1+
<TD width="52" height="25" bordercolor="#CCCCCC" valign="middle"> <div align="center">F8FA</div> </TD> これの 「F8FA」の部分をpreg_match_all取得したいのですが、 '/<TD .*><div .*>(.*)</div><\/TD>/Ums' としたのですが、何も取得されません。 どのように表記すれば良いのでしょうか?
/<TD.*?><div.*?>(.*)?</div><\/TD>/ こんな感じ?
試してないけどひとまずパッと見でおかしそうなのを直すとこう? '/<TD .*>\s*<div .*>(.*)<\/div>\s*<\/TD>/Ums'
196 :
nobodyさん :2007/09/20(木) 17:00:54 ID:SqIRO2nC
'#<TD(?:\s[^>]*)?>\s*<div(?:\s[^>]*)?>(.*)</div>\s*</TD>#ms'
>>193 正規表現は二作出てるから次も一年たった今頃出るかなという予想込みだけど出なかったら出ないのもタイミングかなと。
201 :
nobodyさん :2007/10/02(火) 19:12:55 ID:DsttFroa
PHPの正規表現でユーザーエージェント(IE限定)から ブラウザバージョンとOSのバージョンを取得するため 以下を作成しました preg_match('/Mozilla\/.*(MSIE [0-9\.]+);.*(Win[^;\)]+|Mac[^;\)]+).*/i', $lua, $match) ほぼ間違いなく取得できるのですが唯一以下形式のエージェントのみ 失敗します Mozilla/4.0 (compatible; MSIE 5.0; Windows 98; Yahoo! JAPAN Version Windows 95/NT CD-ROM Edition 1.0.; DigExt) 古いバージョンなので切り捨てても良いとは思うのですが悔しいので どうすれば正しく取得できるか教えていただけないでしょうか? 上記の正規表現では MSIE 5.0 Windows 95/NT CD-ROM Edition 1.0. ほしいのは以下 MSIE 5.0 Windows 98
m#(MSIE\D*[\d\.]+).*?((?:Win|Mac)\D+\d+)# こんな風でどう?
203 :
nobodyさん :2007/10/02(火) 19:34:02 ID:DsttFroa
>>202 ありがとうございます
おかげ様でできました
比較検証して勉強させてもらいます
204 :
nobodyさん :2007/10/05(金) 23:08:47 ID:ivRnBDKk
質問です
$text = "第41条 [国会]は、[国権]の最高機関であつて、国の唯一の[立法機関]である。";
というテキストで[]でくくられた部分を検索エンジンに飛ばすためのリンクに書き換えるための置換処理を行いたいと考えています。
そこで下のように組んでみたところ
$text =~ s/\[(.*)\]/(<a href=\/
http:\/\/foo.bar?query=\ "$1\">$1<\/a>)/;
置換の対象となるカッコは行の先頭の[から行の最後の]までが対象となってしまい。上手く機能しません。
この置換処理はどうかけば、いいのでしょうか?
>>204 * や + は、そのままだと最長の文字列でマッチしてしまうので、
最短マッチにするために .*? みたいにすると良い。
あと、繰り返し処理させるために、 g オプション (/.../g みたいな) を付けるよろし。
$text=~ s#\[(.*?)\]#my$r=$1;(my$s=$1)=~s/([^\w ])/'%'.unpack('H2',$1)/ge;
$s=~tr/ /+/;'[<a href="
http://foo.bar?query= '.$s."\">$r</a>]"#ges;
こんな風でどう?
207 :
nobodyさん :2007/10/06(土) 00:35:40 ID:1+GhnPpX
208 :
nobodyさん :2007/10/06(土) 16:42:21 ID:kTx5Crj6
普通の文字として\を表現するにはどうすればいいですか? C言語風には、'\\'みたいなやつです
まずはそれを試してみてください
210 :
nobodyさん :2007/10/06(土) 17:50:21 ID:kTx5Crj6
ためしたけど、駄目でした。 \\\ってかいたら一個認識した。 でも\\って連続する文字列は、\\\\\\だと駄目だった。 謎 検索に使ってるエディタは、UnEditorです
211 :
nobodyさん :2007/10/06(土) 18:29:58 ID:C0xnGICK
>>210 「\\\\」 というエスケープシーケンスが解釈されて文字列 「\\」 になり、 文字列 「\\」 が正規表現として解釈されて 「\」 を表すと見た。
その推測からすると、 「\\」 を表すには 「\\\\\\\\」 と打てばよい。
212 :
nobodyさん :2007/10/06(土) 18:34:59 ID:kTx5Crj6
>>211 なんという\
いけました。ありがとうございます。
213 :
nobodyさん :2007/10/07(日) 17:23:56 ID:bdyGFUK8
半角英数文字だと
>>205 の方法でOKなんすですが、日本語の文字列の場合、エンコードする必要があるので
>>206 のようにしなければならないわけですね。今、気がつきましたよ。
phpで、変数にファイル名を入れて処理したいんですが 正規表現で文字制限をかける場合どのように書けばよいでしょうか? 日本語を含まなければ簡単そうですが、、、、
(愛うえお) [下記kuけこ] saし素せそ [07.07.07] ↑の様にファイルに名前をつけているのですが、これを下のようにリネームしたいのです。 (愛うえお) [07.07.07] [下記kuけこ] saし素せそ [07.07.07]は日付です。2006/10/15なら[06.10.15]となります。 正規表現でどのように表現したら一括変換できるでしょうか? どなたか御教示ください。
218 :
nobodyさん :2007/11/05(月) 12:38:12 ID:EztAcqYR
もしスレ違いでしたら案内していただけると助かります
220 :
217 :2007/11/05(月) 13:09:25 ID:EztAcqYR
「連続置換・マクロ」にチェックして、こんなんでどう? s/^(\(.+?\))( \[.+?\] .+?)( \[.+?\])/\1\3\2/ 空白の処理とか適当なので、あとは自分で調べていろいろいじってみてちょ。
222 :
nobodyさん :2007/11/05(月) 14:37:50 ID:EztAcqYR
>>221 バッチリできました!ありがとうございました
しかし依頼するカタチを間違えていましたorz
gomennnasaigomennnasaigomennnasai
(愛うえお) [07.07.07] [下記kuけこ] saし素せそ
↑ではなく↓にするにはどうすれば・・・
(愛うえお) [下記kuけこ] [07.07.07] saし素せそ
223 :
nobodyさん :2007/11/05(月) 14:41:33 ID:EztAcqYR
間違えた
>>222 は無視してください
はぁゆとりすぎて面目ない
224 :
nobodyさん :2007/11/12(月) 05:47:51 ID:Kg6xKnVX
「あいうえおABC+F481ABC+F485かきくけこABC+F7A5さしすせそABC+F3F0ABC+F39EたちつてとABC+F65AなにぬねのABC+F485ABC+F7A5はひふへほABC+F7A5ABC+F39Eまみむめも」 上記の中に、「ABC+16進数x2回」がいくつ含まれているかをPHPの正規表現で表すにはどうかけばよろしいでしょうか? ご鞭撻よろしくお願いいたします。
>>224 正規表現はいまひとつなのでもっと上手いやり方があるかもしれないが・・・
$input_str = "あいうえおABC+F481ABC+F485かきくけこABC+F7A5さしすせそABC+F3F0ABC+F39EたちつてとABC+F65AなにぬねのABC+F485ABC+F7A5はひふへほABC+F7A5ABC+F39Eまみむめも";
echo preg_match_all("/ABC\+[A-F\d]{4}/",$input_str,$out_ary);
※$out_aryは無いとエラーになるので消さないで
226 :
nobodyさん :2007/11/13(火) 16:45:36 ID:KDxCSN/c
質問です PHPスクリプトでpreg_match("/^[^@]+@[^.]+\..+/", $superunkoman)) という正規表現があったのですが ^[^@]+ ←最初の文字が@以外の文字の一回以上の繰り返し @ ←で、@が入り [^.] ←この部分が理解できません。 教えてください
>>226 ドット以外の文字列が1つ以上
hoge@.ドメイン.ne.jp
だとか画駄目ってことじゃないの?
>>227 ありがとうございました。そのとおりですね
質問です phpスクリプトで $str = ereg_replace( "(https?|ftp)(://[[:alnum:]\+\$\;\?\.%,!#~*/:@&=_-]+)", "<a href=\"\\1\\2\">\\1\\2</a>", $str); この正規表現の(://[[:alnum:]\+\$\;\?\.%,!#~*/:@&=_-]+)の部分とhref=\"\\1\\2\">\\1\\2</a>この部分は 何を表しているのか教えてくれませんか?
230 :
nobodyさん :2007/11/14(水) 12:22:47 ID:E8xVrSo0
あげわすれ
>>230 次回からはまずマニュアル嫁
PHPマニュアルより引用
string ereg_replace ( string pattern, string replacement, string string )
pattern の中に括弧でくくられた部分 文字列が含まれている場合、
replacement の中に \\数字 のような部分文字列を埋め込むことも
できます。この部分は、 「数字」番目の括弧でくくられた部分文字列に
マッチする文字列に 置き換えられます。また、\\0 は文字列全体を
指します。9 個までの部分文字列を使うことができます。括弧は
入れ子になっていても構いません。この場合は開き括弧 '(' が
最大 9 個まで使用可能です。
232 :
nobodyさん :2007/11/23(金) 11:29:24 ID:OIbrK2sw
正規表現を先輩から教えてもらったのですが、 文字列 [全ての文字] を 正規表現 [[]([^\]]+)] で 全ての文字 を取り出 すことができますが、 文字列 {全ての文字} で 全ての文字 を取り出す正規表現を教えてください。
234 :
nobodyさん :2007/11/23(金) 20:53:35 ID:tvqFA7ba
それは無理ですよ すべての文字 を取り出す事は
235 :
nobodyさん :2007/11/27(火) 18:05:34 ID:fIXcwnBh
Dカップ以上の25歳以下で抽出したいです PHP5です
[D-Z]カップ.*(1?[0-9]|2[0-5])歳
237 :
nobodyさん :2007/11/28(水) 13:29:18 ID:fpWBgokp
PHPで正規表現であれやこれやと苦戦してます。
で、正規表現チェッカー
ttp://www.asterworld.com/ja/soft/regexchk.html という物をみつけて、こりゃ便利だ!と思ってたのですが
作成した正規表現を preg_replace に設定してもマッチしてくれません。
そんなに方言があるとも思えないのですが...
C#2005の正規表現のようなのですがPerlの正規表現と何がちがうのでしょうか。
C#2005の正規表現をPerlの正規表現に変更するには無理なのでしょうか。
Perlの正規表現を作成するようなソフトはあるのでしょうか?
恐れ入りますがどなたか教えてください 頭がゴチャゴチャしてきて..
もっとかなり基本的なところで勘違いしているんではないかと想像。 まずは、これ以上ないってくらい単純な正規表現で挙動を比較してみて、 そこから順次複雑な正規表現にしていって差異を見てみては。
239 :
237 :2007/11/28(水) 15:41:05 ID:???
ネットで調べても、どの言語の正規表現なのか今ひとつ判らないので 取り合えずアマゾンで本を注文しました。 言語ごとの差が判るようなものがあれば...
240 :
238 :2007/11/28(水) 15:48:56 ID:???
C# なら .NET なんだろうけど、「詳説 正規表現 (第2版)」には差異などが載ってる。 それで、ぱっと見で、基本的なところは Perl と .NET とで大した差は無いと思う。
241 :
237 :2007/11/29(木) 13:36:57 ID:???
「正規表現の達人」って本を手にして今、読んでますが、 お昼食べた後なんで眠くて眠くて フワァァ(/ 0 ̄)~゜ がんばってみます。。
すみません、ヘルプをお願いします。 PHPにて、特定の画像ファイル名を持つ<IMG>タグを抽出するという正規表現を作りたいのですが 上手く行かなくて困っております。 どなたか、お助けください。。。
>>242 もちっとくわしく。src属性以外に属性をもつのかとか。
多分alt属性がついていそうだけど。
preg_match('/<img .*?src=(["¥'])特定のファイル名を表す正規表現¥¥1 .*?>/', src);
とかか。今適当に作ったのでうまく動くかどうかはわからんけど
244 :
nobodyさん :2007/12/19(水) 16:38:31 ID:H15tWjcK
PHPのpreg_replaceなんですが、おたたすけ願います。 特定の文字列で囲まれた文字列を変換しない正規表現を教えてください。 たとえば preg_replace("/aaa/", "[\1]", "aaa aaa aaa aaa aaa") だと結果は "[aaa] [aaa] [aaa] [aaa] [aaa]" になりますが preg_replace("/aaa/", "[\1]", "aaa{{{aaa aaa aaa}}}aaa") となっていたときに "[aaa]{{{aaa aaa aaa}}}[aaa]" という結果を取得したいんですが 思うように出来ません。 答えを直接出なくてもいいのでヒントだけでも教えてください。
>>244 後読み表明は量指定子を含められないから、もしpreg_replaceだけでやろうとするなら、
それ以外の部分を食わせておいて置き直すという、やや気持ち悪いことになると思う。
例えばこんなふうに
preg_replace('/(.*?(?:\\Q{{{\\E.*?\\Q}}}\\E.*?)*)(aaa)/', '$1[$2]', "aaa{{{aaa aaa aaa}}}aaa");
分解してから対象の部分だけ処理する等の方法も検討した方が宜しいかと。
大田区ホームページ:職員の不祥事について(処分の公表)
http://www.city.ota.tokyo.jp/oshirase/mokutekibetsu/other/fusyouji_syobun/index.html 当区職員が傷害の容疑で逮捕されるという事件につきましては、新聞等での報道やホームーページで公表したところですが、今回、事実関係が明らかになり、以下のとおり懲戒処分を行いましたので公表いたします。
区民の皆様の信頼を裏切ることとなり、誠に申し訳ありません。あらためて、お詫びいたします。
懲戒処分とは
職員が一定の義務違反を犯した場合に、公務の規律と秩序を維持することを目的として、その責任を追及するために制裁として行う処分です。
大田区では懲戒処分の公表基準に基づき、免職処分をした場合や特に区民の関心が大きい事案又は社会的影響が大きい事案について、個別の懲戒処分を公表します。
(懲戒処分の制度の詳細は、大田区人事白書をご参照ください。)
処分発令日
平成19年12月19日
被処分者氏名
建築調整課 吉原 幸光
処分の内容
停職3月
処分の理由
一般非行関係(法令に違反し、全体の奉仕者たるにふさわしくない非行があったため)
事件の概要
この職員は、平成19年11月16日(金曜日)、勤務時間終了後、東神奈川駅周辺で飲食した後、帰宅途中のJR京浜東北線川崎―蒲田間の電車内において、乗客男性に全治4週間の怪我を負わせる暴行を働き、傷害の容疑により蒲田警察署に現行犯逮捕されました。
同職員は、東京簡易裁判所に起訴され、罰金刑を申し渡されています。
247 :
nobodyさん :2007/12/22(土) 08:43:52 ID:KKfYoqPi
すみません、教えてください。 PHPで携帯電話に文字列を表示する際に、 電話番号の部分をteltoリンクにしたいと思い以下のように書きました。 $bodySTR = preg_replace('/([-0123456789]+)/', '<a href="tel:\\1">\\1</a>',$bodySTR); 当然ながらこれだと、「100円」や「〒123-4567」にも反応してしまいます。 そこで、 「03-1234-5678」「090-1234-5678」「03−1234−5678」等にマッチして 「100」や「123-4567」にはマッチしない正規表現は可能でしょうか?
可能です
/(0¥d+-¥d{1,4}-¥d{4})/ でどうよ
250 :
nobodyさん :2007/12/22(土) 17:39:05 ID:6MoMAQ1+
perlの正規表現について質問です。
>>244 の方と同じ様なものなのですが
"test <a href="
http://test.jp "> test"
の様な文字列があった場合、タグ内のtestは変更せずに
"[test]<a href="
http://test.jp ">[test]"
という形にしたいのですが、どのようにすれば宜しいでしょうか。
一度置換した後、<>タグ内の物は[]を外す方法も考えてはみたのですが、
思うように動作させる事が出来ず。ご教授の程、宜しくお願い致します。
s/(<.*?>|test)/$1?$1:"[$2]"/ges
252 :
250 :2007/12/22(土) 18:04:13 ID:???
253 :
nobodyさん :2008/01/14(月) 12:16:38 ID:6AXqvVgD
時間(13:00:00〜18:00:00)までを正規表現であらわしたいのですが、 1[3-8]:[0-5][0-9]:[0-5][0-9] という感じに今なっています 誰が見てもわかりやすいしこれでもいいのですが、もっと短い書き方はないものでしょうか? [0-5][0-9]ここが反復なので、([0-5][0-9]:?){2}とか思いつくのですが、 これだと最後にコロンが入っててもマッチしてしまうので回避できるような書き方はないものかなぁと。
1[3-8](?::[0-5]\d){2}
255 :
nobodyさん :2008/01/15(火) 02:35:00 ID:HyHnFj45
私が小学生の頃、
日本中でノストラダムスの予言が大流行していた。
「1999年の7月に人類は滅亡する!」
という例のお騒がせ終末予言である。
大人になって社会に出て働きだして、
あくせくと忙しく日々を過ごしながら、
1999年は、
ありふれた日常の中であっさりと過ぎていった。
人類は滅ばなかった。
これからここで、
1999年に起こるかもしれなかった人類の壊滅的破局を、
誰にも知られずにこっそりと回避させた人たちがいた...
という設定で、
荒唐無稽なストーリーを描いてみたい。
無論、100%完全なフィクションである。
http://www5.diary.ne.jp/logdisp.cgi?user=532063&log=200705
256 :
nobodyさん :2008/01/20(日) 11:20:53 ID:TPbCvsXG
/([^>|\+|\s]+)\s*([>|\+]?)\s*/g この正規表現はどういうことでしょう? 何にマッチさせようとしているのでしょうか。 JavaScriptです。
[]の中で|を使ってOR条件にしてるから書いた人は勘違いしてる
258 :
nobodyさん :2008/01/20(日) 12:50:55 ID:TPbCvsXG
本来なにをしたかったんでしょうか・・・。
PHPの正規表現についての質問です。 2chのdatを各要素毎にキャプチャしたいのですが、 preg_math_all('/((.*)<>)*/', $dat, $match); と書いて実行すると全体が丸々$matchへ格納されます。 $datへは「 要素1<>要素2<>要素3<>要素4<>要素5 」という形式のデータが入っており要素5は1行目にのみ存在します。 また、各要素は空欄の場合もあります。 初歩的な質問で申し訳ありませんが、よろしくお願いします。
>>258 こちとらお前さんにそれを聞きてえぐらいだよ。
>>259 preg_split で "<>" で配列にばらした方が扱いやすいかも。
262 :
259 :2008/01/21(月) 16:15:53 ID:???
>>261 レスありがとうございます。
確かにphpには要素を分解する為の便利な関数が始めから用意されておりますが、今回はあえてpreg_matchを用いて自身で分解してみたく思います。
自分にはハードルが高い気もするので、手始めに要素5だけを取り出そうと挑戦してみたのですが、
/<>(.+)$/ と書くと要素3<>要素4<>要素5がキャプチャされてしまいます。
やはり当方の正規表現に対する解釈が根本的に間違っているのでしょうか。
連投になり大変申し訳ないのですが、こちらの質問へのみご回答お願いいたします。
(
>>259 は回答を得ましても自分には理解の範疇を超えていると判断しましたので)
[^<>]
264 :
259 :2008/01/21(月) 20:27:24 ID:???
自己解決しました
>>264 どう解決したかくらいは書いてもバチは当たらなくってよ。
perlのgrepで大文字小文字の区別をつけて検索したいです。 @hitlist = grep(/$search_word/i, @search_list); これを、 @hitlist = grep(/$search_word/$serch_option, @search_list); ($serch_optionにはiやgを事前に設定) こんな感じにしたいのですが、なんかいい案はありますか? if文で分岐させるしかないですか?
大小文字区別つけて検索したいならオプションなしで固定でいいでしょ そこでgオプション使うケースなんてないでしょ
>>266 質問が要領を得てないんだろうけど、
大文字小文字区別つけるかつけないかを切り替えたい、って話ではないかと。
どうすれば良いのかは知らないけど。
269 :
266 :2008/01/30(水) 17:01:36 ID:???
質問の要領が悪くて申し訳ありません。 正規表現のオプションをうまいこと制御できないかなと思いまして。 特に大文字小文字にこだわってるわけではないです。
>>269 大小文字の違いを無視して検索したいときに、パターンの先頭に (?i) 埋めときゃいい。
$pat = ($icase ? "(?i)" : "") . $search_word;
@hitlist = grep /$pat/, @search_list;
とか
proxomitron の正規表現(?)が独自過ぎて、イライラしてくるんだが…
272 :
nobodyさん :2008/02/25(月) 06:25:28 ID:PeKKba69
2008-03 発売(予定) 「詳説 正規表現 第3版」 (Jeffrey E.F. Friedl 著 / 長尾高弘 訳) ISBN 978-4-87311-359-3 定価 5,040円
高いね。今は Web で検索すればいいからねぇ…今更そんなの出して売れるのか。
274 :
nobodyさん :2008/03/03(月) 22:23:33 ID:3LUWkmBW
質問です! PHP 5.2.5で、<br>以外のタグ削除を下記のようにしたところ do { $res = str_replace( $result_tag[1], '', $res ); } while ( mb_ereg( '(<[a/][^>]+>)', $res, $result_tag ) ); 所々で効いてません。 前のサーバー(PHP 4.4.4)では正常に動いていました。 よろしく御指南ください。
>>274 初心者なので間違ってたらごめんなさい。
strip_tagsで、タグ除去と除外タグ指定が可能なはずです。
>>275 ありがとう!
思い通りになりました。
感謝です。
>>277 実装言語が Perl と仮定して (Perl でなければ
>>1 を読んでちょ) 、こんなかんじ?
s/<a href=".+?">(.+?)<\/a>/$1/g;
ありがとうございます
PHPの正規表現はバグバグなのでバージョンが違えば動作が変わる上に、難しいパターンになるとすぐ落ちる。
嘘書くなよ。
パターン修飾子にパラメータを渡して、長い文字列を検索するとボロボロ落ちる。常識だよ。
rubyのutf-8判定とかもやばそうだね
285 :
nobodyさん :2008/03/19(水) 14:02:11 ID:6LA3ff9b
初めて書き込みさせていただきます。 たとえば文字列が {if(a)} あああ {if(b)} いいい {/if} {/if} と入れ子があったときはどのようにマッチさせたらいいでしょうか? PHPでお願いします。
入れ子のマッチは正規表現 (だけ) では無理。と憶えておくと良いことがあるらしい。
287 :
ジョアン :2008/03/28(金) 16:46:01 ID:FsCFbn2K
perl の正規表現をPHPに書き直しているのですが、どうしてもわかりません。 Perlではマッチした前後を $` $' で取得できますがPHPではどうして取得するのでしょうか?
つマニュアル
見 れる
age
オライリーの正規表現三版 ほしいけど高いね
phpでhoge("****","*****");の****と*****を[1][2]に入れたいのですがどうすればいいでしょうか?
AGE
AGE
296 :
nobodyさん :2008/06/05(木) 16:44:59 ID:0yepAPED
すみません、FC2ブログのIPブロック条件のために、正規表現を書かなければならなくなりました。 そこで、合っているか教えてくださいー。 IP 61.78.0.0〜61.85.225.225 をブロックしたいのです。 このための表現として、私のつたない知識を使って書いてみると ^61\.[78-85]\.[0-9]+\.[0-9]+ なのかなと思ってますが、あってますか? どうぞよろしくお願いします。
^61\.(?:7[89]|8[0-5])\. こうじゃないかな
298 :
nobodyさん :2008/06/05(木) 18:12:26 ID:0yepAPED
>>297 ありがとうございます。
^61\.[78-85]\. のところが、^61\.(?:7[89]|8[0-5])\.
って言う意味ですよね?
なるほど。78-85じゃダメなんですね。ありがとうございます!
これが一番わかりやすい。以上 ^61\.(78|79|80|81|82|83|84|85)\..*
PHPで、1ページ分のHTMLのソースが$sに入っているとします。 ここで、この$sから特定のタグだけを削除したいのですが、うまくいきません。 例えば<meta 〜〜〜 />というタグが複数あったとして、これをすべて取り除いたソースを作りたいのです。 $s = eregi_replace("<meta.*?>", "", $s); とやってみたのですが、$sが空になってしまうのです。 ご指南ください。
2過去ログぐらい嫁という言葉は一見突き放しているように見えて その質問の答えはこのスレの中にあるよという、ヒントを出しているわけで まぁ、ツンデレなわけです。
>>300 ereg は最短マッチの芸当はできない。
pregでもつかっとけ。
300です。 ありがとうございます! そうなんです、最短マッチが動かないなぁと思っていて、まさかeregが 最短マッチできないとは思いませんでした。 pregでやって解決しました!!
300と似てるかもしれないのですが <a href="aa">11</a><a href="bb">22</a> こういう文字列があるとき 11と22だけを取り出したいと思い preg_match_all("/<a(.*)>(.*)<\/a>/", 元, $test) とやってみたところ、取り出せたのが href="aa">11</a><a href="bb"と22になってしまいました。 ?をつけてみてもうまくいきませんでした。 意図したように取り出したい場合どのように記述すればいいのでしょうか? 使用している言語はphpです。
>>305 色々間違えてる。
まず、Aタグで囲んでる部分だけ抜き出すなら( )のペアは一個でいいはず。
次に?を使ってみたと言うが多分何か勘違いしてる。
300はわかってて最短マッチさせてるが305わかってないだろう?
*を?に置き換えたりしてないか?
307 :
nobodyさん :2008/06/12(木) 00:47:05 ID:Hj50XmAm
JavaScriptで下記のようなデータを取得したいです。 hogehoge[1]→1 hogehoge[123]→123 hogehoge[1243][]→1243 []の中身を取得したく、[]が2つあった場合は最初の[]の中身を取得します。 (ただし、2個目の[]は常に空です。) hogehogeは任意の文字列で、[]の中身は何桁か分からない数字の繰り返しです。 以上ご鞭撻の程お願いします。
/\[([1234]+)\]/
GJ
311 :
nobodyさん :2008/06/28(土) 08:39:36 ID:9QUTsyON
PHP質問スレから誘導されてきました。 使用言語はPHPです。 以下のような変数があります。 $str = <<<EOM あああ<br /> いいい<br /> ううう<br /> <!--S--> えええ<br /> おおお<br /> <!--E--> EOM; このうち<!--S-->と<!--E-->で囲まれている<br />だけを削除したいのですが、 正規表現を使って綺麗に書けるでしょうか? 以下のように試したのですが、<!--S-->と<!--E-->が消えるだけでした。 $str = preg_replace("/<!--S-->([\W\w]+)<!--E-->/",str_replace("<br />","","\\1"),$str); また、<!--S(E)-->で囲まれている部分は改行や半角英数字などが含まれる場合があります。 どなたかご教示いただけますでしょうか。よろしくお願いいたします。
substr_replaceとstrposでできそうな気がするが
313 :
311 :2008/06/28(土) 12:26:16 ID:???
>>312 ありがとうございます、おかげで解決しました!
,"/web/sendmail.php","10","10","2000" こういう感じの文章の ,"2000" のみ抽出したいんですが、どう書けばいいんでしょうか? ",".*[0-9]"$ だと"10","10","2000"まで拾っちゃうんです・・・。
,\"[0-9]{4}\"
316 :
314 :2008/07/03(木) 15:40:28 ID:???
>>315 ありがとうございます。
確かに、それで例は拾えましたが、10と2000の部分は変動するんです。
桁も4桁だったり5桁だったりと様々なので、どうしたもんかなと・・・。
,\"[1-9][0-9]*\"
318 :
314 :2008/07/03(木) 15:53:01 ID:???
>>317 ありがとうございます。
それだと ,"10","10","2000" まで拾ってしまいます・・・。
書き忘れていましたが、秀丸を使って一括選択しています。
> 10と2000の部分は変動するんです どう変動するんだよ とり出したい場所の条件を日本語で書いてみ >315を5桁にも対応させるだけなら ,\"[0-9]{4,5}\"
321 :
314 :2008/07/03(木) 16:14:35 ID:???
>>320 ありがとうございます!!!出来ました!!!
ありがとうございましたー。
>>319 ありがとうございます。
>>320 で解決しましたが、極端な話1〜99999999の間で変動します。
314 は情報小出し厨という事が解ったから、はやく死ね
そもそも正規表現スレで「こういう感じの文章」なんて質問する時点で(ry
抽象的な表現の質問はスルー
326 :
PHP :2008/07/04(金) 18:37:34 ID:DM0Om0jz
PHP 正規表現 PHPの正規表現を勉強しているのですが、どうもうまくいきません。今回は一番簡単な正規表現をつくったのですが、どうやったらよいのでしょうか。 $h = '(名前)様の会員IDは(abc12)で、(5)番目に偉い方です。'; とあったら、名前、会員ID、番号を抜き出すには、どのようにしたらよいのでしょうか? 実際に()は使用しません。 また、$1 や $2 などを使いたいのですが、解説までできればお願いしたいです。 一応自分なりに考えました。 preg_match('/^*.([a-zA-Z0-9]){2}([0-9]+)','名前$2.ID$1 $3 番目に偉い'); ()を使えば、2つマッチさせたいときなどに分けることができるのでしょうか? (名前)様は(数字) 例:太郎様は5 このとき太郎様という日本語の文字を取得するには/^(+.)([0-9])$/ ここで名前は$1になり、数字は$2になるのでしょうか? どのような時に$1や$2がどっちがどっちなのかは、どのようにしたらわかるのでしょうか? 長々した質問すいません。わかるかた教えてください。
328 :
nobodyさん :2008/07/15(火) 00:11:32 ID:PMHjKbcP
質問させて下さい。 PHP5を使っています。 PHPの正規表現関数を使ってデータを取得しようと思っているのですが上手くいきません <INPUT maxLength=20 name=id value=""> このような文字列を対象に、文字列「type」が含まれていない場合、後方の「maxLength=20 name=id value=""」 を取得したいのです。 全文に対して繰り返し取得したいのでpreg_match_allを使っています。 preg_match_all( "/<input (^type)[^<](.*?)>/is", $data, $matchs ) このように書いたのですがヒットしてくれません。 ドキュメントを見ると、特定文字に関しては[^a-z]のような書き方で対応できるのですが 文字列に関してはどのようにすればよいのでしょうか? アドバイス頂ければ幸いです。 宜しくお願い致します。
>>328 悪いこたいわないから二段階で抽出しとけ。
先読みを使えば書けないこともないけど、メンテできなくなるぞw
330 :
328 :2008/07/15(火) 03:07:47 ID:PMHjKbcP
>>329 レス有り難う御座います。
一段階目は
preg_match_all( "/(<input 「typeを含まない文字列にマッチするような正規表現」[^<]>)/is", $data, $matchs )
となると思うのですが、この部分はどのようにして書けばよいのでしょうか?
はじめ、二段階抽出も考えたのですが、結局
「typeを含まない文字列にマッチするような正規表現」がどうしてもわからずでした。
331 :
328 :2008/07/15(火) 08:05:16 ID:???
自己レスですが、夜通し色々試していたらいけました。 お騒がせしました。 取りあえず、該当範囲をpreg_match_allで取得後、preg_matchでtypeがあるか判定して二段回抽出しました。
332 :
nobodyさん :2008/07/17(木) 17:35:14 ID:LcfXPY+p
<<が出てきて、その後初めて<br><br>が出るところまでのマッチ方法を教えてください。 pregです。 例えば、 hogehoge<<hogehogeh<br>oge<br><br>hogehoge<br><br>hoge<<hoge の ~~~~~~~~~~~~~~~~~~~~~~~~~~~~ の部分です。
<<.*?<br><br>
334 :
332 :2008/07/19(土) 19:22:36 ID:???
>>333 333おめです
なぜか、
hoge<<hogehog
eh<br>oge<br><br>hoge
だとマッチしないのですが。
<<【¥S¥s】*?<br><br>
できました。スマソ
携帯絵文字をすべて 「絵」に置き換えすることはできないのでしょうか? preg_replace("/[ - ]/","絵",$hoge);
338 :
nobodyさん :2008/07/20(日) 12:01:15 ID:LU799vx+
>>338 SoftBankです。
余裕があればau,DoCoMoもですが。。。
>>337 置き換える事はできるけど、正規表現だけでは無理
>>340 では、正規表現以外のものもOKなので、
教えていただきたいです。
絵文字 変換 preg とかでググればいくらでも出てくるだろ。。。 ここで聞くより100倍速い。
343 :
nobodyさん :2008/07/24(木) 00:50:31 ID:/c2OsNI4
example.htmlに書かれた <table>
344 :
nobodyさん :2008/07/24(木) 00:58:57 ID:/c2OsNI4
>>343 誤爆した。。申し訳ない。。
example.htmlに書かれた
<table>
<tr><th>2ちゃんねる</th><td>WebProg板</td></tr>
</table>
をphpのfopen, fgetsで1行ずつ読み取っています。
<tr>から始まった行の「2ちゃんねる」とWebProg板「WebProg」部分のみ抽出したいので
preg_replace("/^<tr><th>(.*?)</th><td>([a-zA-Z])</td>/i","$1$2",$str);
としたのですが、うまく抽出できません。
アドバイスをいただければありがたいです
/^<tr><th>(.*?)</th><td>([a-zA-Z])</td>/i 正規表現が / で始まってるから / で終わることになるわけだけど、途中に</th>ってのがあるわけよ m#<t[dh][^>]*>(.*?)</t[dh]><t[dh][^>]*>(\w+)#i こんな感じになるかな
デリミタの問題だけじゃないの? preg_replace("/^<tr><th>(.*?)<\/th><td>([a-zA-Z])<\/td>/i","$1$2",$str);
これって[a-zA-Z]、[a-zA-Z]+こうしなくてもいいの?
348 :
nobodyさん :2008/07/27(日) 01:11:32 ID:sEx2Pn85
一番最初に出てきた「=」だけ反応するにはどうしたらいいでしょうか。 C#です。
行頭の=という意味なら /^=/m だけどC#での正規表現の使い方は知らんので応えられん。
351 :
nobodyさん :2008/08/06(水) 01:01:06 ID:hVakYDWk
PHP5覚えたての初心者です スレ冒頭に()と(?:)の違いについて質問されてましたが ?:の意味ってなんですか? わかりやすい解説ページなどもあれば教えてください。
google
>>351 ?:じゃ?と:だよ。
(?:〜)で意味をなす。
354 :
nobodyさん :2008/08/21(木) 14:34:46 ID:wSsr/o3s
質問させて下さい。 PHP5を使用しています。 文字列内にマルチバイト文字が一つでも含まれていれば真と言う正規表現を行いたいのですが どのようにすればよいでしょうか? ドキュメント等から調べてみて、 mb_ereg("[0-9a−zA−Zあ−んア−ン]", $str ) のようにしてみたのですが、これでは漢字にヒットしません。 アドバイス頂ければ幸いです。 宜しくお願い致します。
単純に先頭ビットがおったってるかどうか見ればよくない? [\x80-\xff]
>>355 ありがとうございます。
やってみます。
>>354 1バイト文字を列挙したのを否定すれば?
あと、文字コードによっては半角カナがマルチバイトだったり
そうじゃなかったりするんだけど、どうするのかな?
358 :
nobodyさん :2008/08/25(月) 10:35:16 ID:P/JycA8t
htmlのタグを削除するのに、ふつうは $line =~ s/<\/?[^>]+>//g; ----(1) だと思うけど、どこかで見た方法では、 $line =~ s/<[^>]*(>|$)//g; ----(2) となってた。これ動作は同じなのかな?(2)の意味がイマイチ分からない。
(1)の \/? は書いても意味ない(/は[^>]に含まれるから) (2)の (>|$)は、$lineという変数名から推測するに行単位で読み込んで逐次処理した 場合に、タグの途中で改行されていて>が見つからなくても行末まで削除する為? でもそうしたら次の行で処理がうまく行われないしよくわからん 行単位だとタグ途中で改行される場合もあるから全部読み込んで一気に処理がいい s/<.*?>//g; s/<[^>]*>//g; などなど・・
360 :
359 :2008/08/25(月) 21:09:55 ID:???
間違った、s/<.*?>//g;だと改行に対応できないから s/<[\s\S]*?>//;みたいになるね
いや、s使うだろ、普通。
363 :
358 :2008/08/25(月) 23:08:43 ID:???
ありがとうございました。 改行文字の件とか、勉強になりました。 プログラム上では、どちらも同じ動作なので、気になってたもので。
364 :
nobodyさん :2008/08/27(水) 15:31:16 ID:j0h2/LpG
正規表現で悩んでいます。 preg_match_all( "/((aaa|bbb|ccc).*?)(aaa|bbb|ccc|$)/is", $str, $maches ) このような形にて以下のような内容の繰り返し文を部分的に抜き出そうとしているのですが一部上手くいきません --------------------- aaa あいうえお bbb かきくけこ ccc さしすせそ --------------------- 上記正規表現では aaa あいうえお bb かきくけこ cc さしすせそ と言うように一つ目以降のパターンマッチ文字列の先頭がbbやccとして一文字かけてしまいます。 本来はbbb、cccとちゃんとヒットさせたいのですが、これが行えません。 マッチ後の文字列ポインタを「三歩歩いて二歩下がる」のようにずらす事をするか、何か他のパターンマッチ構文を 書けばいけそうだと思うのですが、どうにもよい方法が思いつきません。 お力添え頂ければ幸いです。
テストしてあげるからそのままコピペできるコードに書き換えてここに載せて
366 :
nobodyさん :2008/08/28(木) 18:14:41 ID:Gzy07epa
あいうえお かきくけこ さしすせ そたちつてと なに ぬねの はひふへほ この 「あいうえお」「さしすせ」「なに」 を太字に置き換えるにはどうすればいいですか? (PHP) $hoge = preg_replace("/^([^ ]+)/m","<b>\\1</b>",$hoge); じゃうまくいきません。。。
367 :
366 :2008/08/28(木) 18:25:55 ID:???
すいません。 自己解決しました。
解決策を書いて下さい。
いやぁ $hoge = preg_replace("/^([^ ]+)/m","<b>\\1</b>",$hoge); $hoge = str_replace("<br>","<br>\n",$hoge); って書いてましたwww
370 :
364 :2008/08/29(金) 11:10:56 ID:rNMP0NTC
>>365 レスありがとうございます。
もう一度考え直してみて書き直すとこのようなコードになりましたPHP5になります。
// 対象文字列
$str = "ABCDaaaEFGaaaaHIJKaaaaa";
// 正規表現
preg_match_all( "/([A-Z]+?aaa.*?)([A-Z]|$)/is", $str, $maches );
// 結果表示
$c = count( $maches[1] );
for ( $i = 0; $i < $c; $i++ ) {
print "=> {$maches[1][$i]}\n";
}
=> ABCDaaa
=> FGaaa
=> HIJKaaa
これを
=> ABCDaaa
=> FGaaaa
=> HIJKaaaaa
と表示させたいのです。
どうか宜しくお願い致します。
以前と仕様変わってるようだけど・・・ 詳しい仕様を書いてないからわからんけど 先頭が一つ以上の?英大文字がつづくだけマッチして 次にa小文字が3つ以上?つづくだけマッチ を繰り返すってこと? isオプションがあるのはどういうことかわからんが /([A-Z]+aaa+)/
372 :
364 :2008/08/29(金) 12:11:28 ID:???
>>371 ・・・!申し訳ありません。
色々考えて試している内に頭が混乱して有らぬ方向になってしまっていたみたいです。
ちゃんともう一度考えて仕様も伝えられるようにしてから書き込ませて頂きます。
お手間をおかけいたしましてすみません><
新入社員の研修みたいでほほえましい。
374 :
nobodyさん :2008/09/01(月) 15:52:31 ID:ME+mffWY
使用言語はPHP4です。 PHPスレから誘導されて来ました。よろしくお願いします。 $str = '<a href="entry-1-18.html">りんご</a> <br /><a href="entry-2-18.html">バナナ</a> <br /><a href="entry-3-18.html">パイナップル</a> <br />'; この文字列の中からリンク先の特定の数字とリンクテキストを抽出したく preg_match_all ( "/"."<a href=\"entry-(.*)-18\.html\">(.*)<\/a>"."/i", $str, $match ); このような正規表現を書いたのですが、実行結果は [0] => Array ( [0] => <a href="entry-1-18.html">りんご</a> <br /><a href="entry-2-18.html">バナナ</a> <br /><a href="entry-3-18.html">パイナップル</a> ) [1] => Array ( [0] => 1-18.html">りんご</a> <br /><a href="entry-2-18.html">バナナ</a> <br /><a href="entry-3 ) [2] => Array ( [0] => パイナップル ) となります。
375 :
nobodyさん :2008/09/01(月) 15:53:28 ID:ME+mffWY
下記のような実行結果にしたいのですが、正規表現の書き方を教えて下さい。よろしくお願いします。 [0] => Array ( [0] => <a href="entry-1-18.html">りんご</a> <br /><a href="entry-2-18.html">バナナ</a> <br /><a href="entry-3-18.html">パイナップル</a> ) [1] => Array ( [0] => 1 [1] => 2 [2] => 3 ) [2] => Array ( [0] => りんご [1] => バナナ [2] => パイナップル )
<a href="entry-(\d+)-18.html">(.*?)</a>
377 :
nobodyさん :2008/09/02(火) 09:20:23 ID:gwaiq/Cc
>>376 うまく動きました
ありがとうございました
378 :
nobodyさん :2008/09/02(火) 17:55:54 ID:IiWNBMxF
バイオインフォマティックスに詳しい方いらっしゃいますか?perlを使って突然変異前後における終止コドンのカウントをしたいんですが、初心者なのでまったく分かりません・・・(涙)
先頭にhttpまたはttpを含まない という正規表現はどう書けばいいでしょうか
!/^h?ttp/
^([^ht]|h([^t]|t([^t]|t[^p]))|t([^t]|t[^p])))
^([^ht]|h([^t]|t([^t]|t[^p]))|t([^t]|t[^p]))) だとhとかttにマッチしない罠。 ^($|[^ht]|h($|[^t]|t($|[^t]|t($|[^p])))|t($|[^t]|t($|[^p])))) 普通は380のようにするけどな。
^p^
^w^
386 :
nobodyさん :2008/09/04(木) 19:48:29 ID:ZxHTo/La
387 :
nobodyさん :2008/09/04(木) 21:53:09 ID:AVvRqwBM
$が肯定先読みというのは目から鱗。
388 :
nobodyさん :2008/09/17(水) 17:44:57 ID:TGrFERMS
質問させてください。 OSはubuntu8.04で正規表現を勉強し始めの者です。 電話番号と郵便番号が混在しているテキストファイルから郵便番号だけ 抽出するという条件なんですが、 郵便番号はxxx-xxxx(xは0-9の数字)、電話番号はxx-xxxx-xxxx(xは0-9の数字) で、grep -E [0-9]\{3\}-[0-9]\{4\} とやっても電話番号も全て抽出されてしまいます。 どこが間違っているのでしょうか。
その正規表現だと電話番号にもマッチしちゃうからね。 具体的には、 xx-xXXX-XXXX の大文字Xであらわしたところ まあ宿題なんだろうからもうすこし良く考えましょう。
>>389 grep -E ^[0-9]{3}-?[0-9]{4}$
でうまくいきました。ヒント有難うございます。
質問です。 下記のような配列の中から、 (2)〜(4)までのみを抽出したいと思っています。 (1) testa@hoge (2) _testb@hage (3) _testc@noge (4) _testd@nage (5) _teste@n_ge ルールとしては、 ・頭に[_]が付いている事、 ・@の後ろに[n_]が付いていない事 です。上記前提で下記のように書いたのですが、 これですと(2)しか抽出されませんでした。 $test =~ /^_.*@[^(n_)]/ @の後ろの正規表現が悪いのだと思うんですが、 この場合どのように書けばいいんでしょうか。 ご教示お願いしますm(_ _)m
>>391 それじゃ文字クラスだよ。こういうときは否定先読みだろ。
/^_\w*\@\w+$/ and !/\@n_/ 先頭_と@の間はどんな文字でもいいのか、@以降はどんな文字でもいいのかとか 詳しいルールはわからないが、素直に分けたほうがいいと思う
>>392-393 ありがとうございます!
とりあえず、
>>392 さんの方法で抽出できました。
$test =~ /^_.*@(?!n_)./
ありがとうございました。
395 :
nobodyさん :2008/09/25(木) 14:22:28 ID:bEreCYy4
使用言語はPHP5です html内のimgタグの記述部分をxhtmlにするために最後にスペースとスラッシュを付け加えたいと思い 以下の置き換えを行い成功したのですが、 $html = preg_replace('{<img (.*?)>}' ,'<img $1 />' ,$html); 元々imgタグ内にスペースとスラッシュが最後に入っているのもありますので、それ以外ということで $html = preg_replace('{<img (.*?)^\/>}' ,'<img $1 />' ,$html); このように記述してみましたが、これですと全部のimgタグに置き換えが効かなくなりました どういう記述をすればよいのでしょうか?
/<img (.*?[^\/])>/
397 :
nobodyさん :2008/09/25(木) 14:38:21 ID:bEreCYy4
>>396 動きました
素早い回答ありがとうございました
対象が
<a href="test/index.html">あああ</a>
<a href="
http://hogehoge1.com " target="_blank">いいい</a>
のような文字列から
test/index.html
http://hogehoge1.com だけを取り出すにはどうすればよいのでしょうか?
使用言語はPHP5です。
preg_match("/<a href=\"(.*)\"\>.*/",$str,$m);
ではtarget="_blank"が残ってしまい期待通りの結果が得られません。
最短一致というのが原因かとおもい
preg_match("/<a href=\"(.*)\"{1}?\>.*/",$str,$m);
としましたが駄目でした。
アドバイスよろしくお願いいたします。
/<a\s.*?href=\"(.*?)\"/is
>>399 無事期待通りの結果が得られました!
ありがとございました!
PHP5で使います $numには、 +数字 -数字 数字 というようなパターンの時のみマッチさせたいです 数字のところは 0〜999999999までの値が入ってきますが、0以外の時に頭に0がある場合0123とかは除外したいです 試行錯誤して下記のようにしてみましたが、思った結果が得られません。エラー出まくりでなみだ目です どうかよろしくお願いします preg_match('/^(([^+]*)*(++[^-][^+]*)*)*?[^0-9]*$/',$num)
[\+\-]?(?:0|[1-9]\d*)
403 :
402 :2008/10/09(木) 19:33:52 ID:???
不十分か。。 ^[\+\-]?(?:0|[1-9]\d*)$
>>403 ありがとうございます
動作を確認したところ
0のみの場合と数字の部分が9桁以上でもマッチしてしまうので、
^([^0]|[\+\-]?)(?:0|[1-9]\d{1, 9}?)$
試行錯誤してこのようにしてみましたが、全くもってマッチしなくなってしまいました
どのように書けばよろしいのでしょうか?
^[\+\-]?(?:0|[1-9]\d{0,8})$
407 :
たまちゃん ◆ExGQrDul2E :2008/11/02(日) 16:02:00 ID:wDYsJgfV
URLが、変数$urlにいくつ使われているか調べるために
preg_match_allを使いましたが、動きません。
どのようにしたらよいか教えてください。
<?php
$url = <<< URL
a
http://x.x http:// http://google.jp/ URL;
preg_match_all ("|(https?|ftp)(://[[:alnum:]\+\$\;\?\.%,!#~*/:@&=_-]+)|",$url,$out, PREG_SET_ORDER);
echo count($out);
?>
実行結果:
Warning: preg_match_all() [function.preg-match-all]: Unknown modifier 'f' in /match.php on line 8
0
別の正規表現構文を探してきてコピペする
デリミタ|で始めたならm|にする必要があるっしょ で、途中にORの意味で|使ってるから別のデリミタにしちゃいなよ
410 :
たまちゃん ◆ExGQrDul2E :2008/11/02(日) 21:36:24 ID:0rYlog69
>>409 回答ありがとうございます
\(・∀・)/
途中で
https?|ftp
で使っているのですが、
最初を
||
//
以外に、何を使えばよいのでしょうか?
それとも
\(エスケープ)させればよいのでしょうか?
411 :
nobodyさん :2008/11/03(月) 20:39:21 ID:XFsZ1V0e
文字クラス外部の?について。 URLの最短マッチさせる正規表現 (https?) について、 この場合なら、 http https 両方にマッチします。 (https) これなら、 https にしかマッチしません。 ここで、?の意味を調べたら、『(の意味を拡張。0回または1回の繰り返し最短マッチ』と書いてありました。なぜ (https?) これをすることによって、httpとhttpsをマッチさせられるのでしょうか?最短マッチなら、httでもいいのじゃないですか?
https? なら ?は直前のsに対して0回か1回かだからね^^
>>411 最短マッチではなく最長マッチじゃないの。
http までマッチしていることを前提にして、さらに s に対して 0 回または 1 回の
「より長い方」に優先してマッチする。
最短マッチて言葉は*?とか量指定子のあとにくるときの 解説文でよく使われるからそれとごっちゃになっちゃったんじゃないかな
415 :
nobodyさん :2008/11/08(土) 14:37:01 ID:Ln3BC38n
>>415 正規表現がらみのスレにそのリンクはりまくってんな。
関係者?
ヤター 近所の図書館に詳説正規表現が入荷したお まともなオライリ本は詳説イーサネットしかないとこだから嬉しい 以前は電子メールプロトコルがあったけど、 除籍されてリサイクルコーナーから旅に出てしまったよ
2つの正規表現を1つにまとめる方法はありますか? A→か 7→イ という2ステップ手作業でやっていることを1ステップで済ませたいのです。
PHPです。 $search="/^(.+?)<>(.*?)<>(.+)ID:(.+?)<>(.+)<>(.*)/"; preg_match($search,$res[$i],$match); $id[$i]=$match[4]; $resは2chのdatファイルを一行ごとに配列に入れた物です。 Notice: Undefined offset: 4 (略) on 47 というエラーが出てしまいます。 47行目は$id[$i]=$match[4];です。
>>419 ですが、自己解決しました。
1001の場合には、IDがないからでした。
正規表現の先生方、phpで質問させて頂きます。 $str = '[db]name[/db] たべたり [db]email[/db]'; preg_match_all('/\[db\].*?\[\/db\]/s',$str,$match); print_r($match); で [db]name[/db] と [db]email[/db] が抜き出されるのですが、 この [db] [/db] を無しで name と email だけを抜き出すにはどう書けばよいでしょうか。 ご教示のほどよろしくお願いします。
\](.*?)\[\/
>>422 ありがとうございます!
このご恩忘れません。
もう忘れてるだろw
425 :
nobodyさん :2008/12/22(月) 00:30:52 ID:EdTiga+3
Jeditで 【あいう】を【6あいう】 【かき】を【4かき】 のように【 】でははさまれた文字列の頭に文字数×2の数値を追加したいのですが どのように検索してどのように置換すればよいでしょうか? 【 】ではさまれた文字数はまちまちです。 よろしくお願いします。
>>425 無理だろ。
マッチした部分の長さを得る手段がない。
427 :
425 :2008/12/22(月) 15:22:20 ID:???
orz
マクロ組み合わせれば
429 :
425 :2008/12/22(月) 17:01:35 ID:???
>>427 マクロですね!
ありがとうございます。
マクロ使ってよかったのかよっ!w
失礼します 使用言語はperl5です 配列に、前からマッチしたところまでの文字列を繰り返し入れようとしています ($str = 'hogehugahage'; という文字列があって、hでマッチさせたら @data = ['h', 'hogeh', 'hogehugah'] という配列になることを想定しています) @data = $str =~ m/h/g; のときは予想どおり @data = ['h', 'h', 'h'] となったのですが、 @data = $str =~ m/^.*h/g の場合は @data = ['hogehugah'] となって1回最大マッチするだけのようです どうすれば予想通りの結果になるでしょうか?
$str = 'hogehugahage'; $c= substr($str, 0, 1); while ($str=~ /$c/go){ push(@data, substr($str, 0, pos($str))); } for (@data){print $_,"\n";} 正規表現使わないとダメなの?
433 :
431 :2008/12/28(日) 13:37:57 ID:???
>>432 ありがとうございます
それでいけそうです
実は正規表現を必ず使わなきゃいけないというわけではなく、
もっと簡潔にかけるならなんでも大丈夫です
先達のみなさま、Perl5+EUC環境で質問させてください 文字列の中で、漢字をのぞいた全角文字(全角数字、全角アルファベット、全角カタカナ)と 一部記号(丸括弧や全角スペースなど)以外が入っていたらマッチさせる、という処理をやろうとしています 文字クラスに許可する文字コードを細かく書いて、その否定で取れるかと思ったんですが $txt =~ /[^xA3\xB0-\xB9]/ のような書き方まで来て、詰まってしまいました $txt =~ /[^a-zA-Z0-1!#$ @]/ みたいな感じで、複数の文字コードを書くにはどうしたらいいんでしょうか? ご教示お願いいたします
>>434 どうしたらいいってがんばって列挙するよりないと思うよ。
2byteのならびのあるパターンを除外したいという話だろうから、^ を使った形では
そう簡単にはかけないと思うけど。
436 :
434 :2009/01/03(土) 20:08:16 ID:???
>>435 ありがとうございます
何とか地道にがんばります
PHP5を使用しています。 <pre>タグで囲まれた文字列の中の<br />を削除したいのですが、どのようになりますでしょうか。 例) 置換前 <pre> aaa<br /> bbbb<br /> </pre> 置換後 <pre> aaa bbbb </pre> 宜しくお願いします。
$s= <<<EOT 置換前 <pre> aaa<br /> bbbb<br /> </pre> 置換後 <pre> aaa bbbb </pre> EOT; echo preg_replace("#(<pre>.*?</pre>)#es", "str_replace('<br />', '', '$1')", $s);
439 :
438 :2009/01/15(木) 23:45:12 ID:???
preg_replace("#<pre>.*?</pre>#es", "str_replace('<br />', '', '$0')", $s); 括弧は要らないか
440 :
437 :2009/01/16(金) 00:04:22 ID:???
出来ました!すっげ。
>>441 回答とは全然関係ないですけど、
hから
ttp://とつなげて書くと 、
検索エンジン等のクローラがそれら
>>441 のリンクを全てなめるので、
ネットワークリソース的にあまりよろしくないです…
今後そのように例示される際には
hを抜いたり大文字にしたり等、
リンクにならないよう工夫をご検討いただけると、
一インターネット利用者としては嬉しい限りです
あまりよろしくないって数字で言うとどれくらい?
サァン!
445 :
nobodyさん :2009/01/19(月) 04:50:02 ID:cs1ls7yv
ググったのですが、分からなかったので質問させてください。 align=left>1234567891011121345 上記を align=left>1011121345 こう置換したいのですが left>.*?1011121345 こうしてみたのですが、出来ませんでした。 どう置換すれば、良いのでしょうか、よろしくお願いします。
s/>\d*1011121345//
448 :
441 :2009/01/19(月) 14:17:19 ID:???
なんだかオープンソースだったようで自己解決しました。
>>442 いまだにh抜きを強要する人っているんだね。
見ず知らずの他人一人一人を啓蒙していくよりも
管理者へ[
http:// 」をNGワードに追加してくれるよう説得した方がいいんじゃないの?
有益であれば受け入れてくれるはず。
キミは自分さえよければ他はどうでもいいんだね。 まあがんばってよ。
451 :
nobodyさん :2009/01/20(火) 03:53:44 ID:TjAtrikI
ざっと眺めた感じだと http〜リンクを見るたび指摘(要望)してしまう442 その指摘(要望)が強要に見えてしまう441 どちらも2chに向かないタイプではあるが 頻度の度合いからして苦労するのは441の方が上だな 公衆便所のトイレットペーパーが三角に折れてなかったらイラっとしちゃうタイプでそ
あ〜ハイハイ自治厨vs爆笑田中の構図ね スレ違いだから他でやってくれ
453 :
nobodyさん :2009/01/22(木) 00:53:40 ID:2qACQkO/
正規表現で$文字を含む検索や置換ってど〜してます?
お前は何を言ってるんだ
>>453 $は海外の通貨記号なのでうまくいかない。
\$のようにローカルな通貨記号を重ねればうまくいく。
<br>*********** ----- 上記のような文字列で「*」には日本語と英語が混ざっています。 そこで、、<br>から-までの間から、英語文字だけを削除するような正規表現って無いでしょうか? <br>から-の部分は改行が入ってます。 ご存知の方居られましたら、よろしくお願いします。
>>457 >無いでしょうか?
そりゃつくりゃあるだろ
>>458 すみません。言葉足らずでした。
普段Speeeeedをいうソフトを使っているのですが、これで
>>457 は可能でしょうか?
>>459 ここ正規表現のスレ
ソフトの使い方はスレ違い、ソフトウェア板へどうぞ
461 :
OraOra :2009/02/01(日) 01:57:15 ID:2VNzjYUZ
検索文字の中であるパターンの検索の仕方が 分からず困っています。 どなたか御教授お願いします。 プラットフォームはOracleのPL/SQLです。 検索対象は以下の日付書式の文字です。 'yyyymmdd hh24:mi:ss' 以下のように正規表現の結果を関数で受取り その結果をチェックしています。 bool_result := regexp_like('20080230 11:20:22','(20)[0-9]{2}(0[1-9])|1[0-2])(0[1-9]|[12][0-9]|3[01]) (0[0-9]|1[0-9]|2[0-4]):([0-5][0-9]):([0-5][0-9])'); if bool_result then dbms_output.put_line('OK'); else dbms_output.put_line('NG'); end if; 現状では上記の正規表現で'0230'、'0231'のチェックが出来ず困っています。 上記の正規表現の中で'0230'、'0231'も含めてチェックする方法を ご存知の方いましたらどなたか御教授お願いします。
462 :
nobodyさん :2009/02/02(月) 21:43:16 ID:H9hEncfV
「id="72157612930889935" primary="3224910389" secret="be0cf48b4f" server="3468" farm="4" photos="131" videos="0"」という文字列から、
「id=""」の数字を抜きたいのですが(この例であれば「72157612930889935」が欲しいです)
$patern = 'id="(.*)" ?';
ereg($patern,$line,$id);
echo $id[1]."<br />\n";
では最後のvideosの終わりのダブルコーテーションまで入ってしまいました。
>>421 に近いと思うのですが?で最短マッチ?になるような気もしますし
>>412 にあるように?は0か1回の繰り返しのようにも思うし…。
OSはCent4系、PHP4.1.3、関数はeregを使いました。どなたか助けて下さい
id="([0-9]*) とか・・
464 :
462 :2009/02/02(月) 21:55:09 ID:H9hEncfV
>>463 神!ありがとうございました。
?は結局使わず終いでしたが?とか難しいのを使うよかよっぽどスマートす。
?と*の意味を知ってたら難しいとかの発言にはならない
だよね。 {0,1}か{0,1,2,3...}かの違いだけだ。
質問する人は最低限基本は知ってて欲しいと思う今日この頃
F, f, t, S, P が正規表現のとき、 FtSPPP または FfSPPPP は F(tS|fSP)P{3} より短くなりますか? PPP と PPPP ではなく X と Y (Fの直後に来るものによってSの後に来るべきものがまったく違う場合) には応用可能でしょうか?
F(tS|fSP)PPP
470 :
nobodyさん :2009/02/23(月) 09:51:32 ID:0L52Pp6H
.*? これの意味を教えて下さい。
「.」はカニだな 「*」は0匹以上の生息してるやつ最後まで つまり、「.*」でカニがいるだけ全部を捕り尽くすという意味(昨今の乱獲問題) そこで捕り尽くしたら絶滅するという問題を受けて「.*?」という思想が考え出された 意味は、最初にカニがいたらその一匹を捕まえて漁を止めるということ
472 :
nobodyさん :2009/02/23(月) 15:41:23 ID:0L52Pp6H
>>471 では、 .*? と .? の違いを教えて下さい。
>>472 「.」はカニだな
「?」は捕れるかとれないか分らないがとりあえず努力するという意味
つまり、「.?」で幻のカニ探索するという意味
474 :
nobodyさん :2009/03/02(月) 19:46:41 ID:/g2x4kDh
httpから始まり、半角英数字と.?&%が含んでるか見ればおk
>>471 先生 ノシ
「.*?」で最初の一匹目のカニも取れませんでした。
でも幻のカニは取れたみたいです。
>>477 "{^https?://[0-9a-zA-Z]*\.2ch\.net/[0-9a-zA-Z]*/test/bbs\.cgi[0-9a-zA-Z/_-]*$}"
phpのクラスファイルの特定の関数を正規表現で抜き出したいのですが可能でしょうか? 例 class.test.php から public function test($a){ 本文 } スケルトンコードの場合簡単に抜き出せるのですが、 本文中にif,swichなどで } が存在した場合どうすれば良いのか悩んでいます。
{が出たら探す}を1つ増やせばいいじゃん
言語は BoostライブラリBoost.Xpressiveか、Boost.Regexか、Boost.Spirit です。(標準C++,コンパイラg++。) 括弧の対応のバランスがとれているならマッチさせるという正規表現はどう書けますか? boost::xpressive::sregex parens; parens = *( '(' >> by_ref(parens) >> ')' ); だと ()→マッチ ()()→マッチ ()(()((()))())→マッチ (()))))→マッチしない です。 私としては(1+3)*(4+(8-9))の様に括弧以外の文字が含まれていても括弧のバランスがとれているか判定できるようにしたいのですが。 ただし括弧としては ( か ) だけを想定し、{}[]などは判定の対象にはせず、数式として成り立っているかどうかなども判定せず、あくまで ( と ) のバランスだけを見たいです。
>>481 できました、ありがとうございました。
こんな感じで、簡単でしたね、、、
/function test.*?\{.*? (\{.*?\}.*?)*? \}/s
echo内の { } にも対応してみました。 これでほぼ完璧かなぁ、、、 /public\sfunction\stest_if_text.*?\{.*?(\{.*?("(.*?\{*?.*?|.*?\}*?.*?)*?".*?)*?\}.*?)*?\}/s
センスねえな ムダがおおい
関数名だけで対応すると /[public|private|protected]+\s+[static]?\s?function\s+関数名.*?\{.*?(\{.*?("(.*?\{*?.*?|.*?\}*?.*?)*?".*?)*?\}.*?)*?\}/s こんな感じかなw 読みやすさ優先で記述してるからセンスは勘弁してくださいw
>>482 正規表現じゃ数学的に不可能。有限状態オートマトンなので閉じられてない
開きカッコの数を高々状態数までしか憶えられないからそれを越えた時点で
アウト。
Perlの正規表現みたいに再帰的なパターンが書けるように拡張されてると
別だけどね。
489 :
487 :2009/03/24(火) 10:07:28 ID:???
>>482 BoostのXpressiveならby_ref()があるから再帰的に書けないこともないハズ。
でもよーわからん。
Spiritが使えるならそっちのが楽そうじゃね?
「高々状態数」の意味がわかりません。
数学じゃよくでてくるけどね、「高々」とか「状態数」とか
>>491 俺は初めて聞いたぞ。
たかだかはよく出て来るけど(例:たかだかn次の〜)
状態数は物理学の用語じゃね?
お前ら正規表現スレにいて有限状態オートマトンもわからんのか... いくらなんでもゆとりすぎるだろ
文字xが10個以上である場合にマッチさせるのに x{9}x+ と x{10}x* は共に等価でOKだとおもうが、 一般論で言うとどちらが速い動作になる?
どっちも同じ動作なんだから同じじゃね それよりももう少し改良できると思うんだがな
実装次第で一般論ではなんともいえないと思われる。 どっちを食わせても全く同じオートマトンに変換してから実行するの でぴったり同じになる実装、なんてのもあるかもしれないし、 逆になぜか+が不得意な実装とか*が不得意な実装とかあるかも しれない。モノによっては{..}が不得意でxを並べたほうがいいと いうことも考えられるな。
497 :
494 :2009/03/25(水) 15:11:33 ID:???
498 :
中山 :2009/03/29(日) 09:39:01 ID:MqxV8vA3
PHP 正規表現について $str = 'test1?test2/test3;test4'; この文字の test1 test2 test3 test4 を取り出すにはどうしたらよいでしょうか? この価を data1=test1&data2=test2&data3=test3&data4=test4 と変換したいです preg_replaceを使っています $str = preg_replace("・^([a-zA-Z0-9]+\?+[a-zA-Z0-9]+)\/+[a-zA-Z0-9];+[a-zA-Z0-9)$・","data1=$1&data2=$2&data3=$3&data4=$4",$str)); これではダメみたいです
どーゆークエリだそりゃ
$str = 'test1?test2/test3;test4'; この内容がどういうパターンで変動し得るかがわからん 書かれている正規表現見てみると ? / ; の順に区切り文字があることは固定で決まってる?
501 :
中山 :2009/03/29(日) 19:51:10 ID:MqxV8vA3
はい。固定できまってます。 ただし、 test1 などの文字列は半角英数字限定です。
>>498 data1,data2,data3・・・きめえwww
以下のような文字列を置換ですべて削除したいのですが どうかけばいいのでしょうか onMouseOver="refPopUp(1,event)" onMouseOut="hidePop()" onMouseOver="refPopUp(23,event)" onMouseOut="hidePop()" onMouseOver="refPopUp(345,event)" onMouseOut="hidePop()" ↓ 3行すべて削除 試した正規表現 onMouseOver="refPopUp(\d+{1,3}.,event)" onMouseOut="hidePop()"
3}.,の.ってなによ
>>504 すまんこ
一応自力解決しました。さくらエディタの正規表現オンで動作確認
onMouseOver="refPopUp\(\d{1,3},event\)" onMouseOut="hidePop\(\)"
下記の2文にあるfontタグを消したいです。 正規表現を用いた1度の置換で消せますか? <dd><font style="font-size:;color:;"> テスト <br> テスト </font><br><br></dd> <dd><font style="font-size:;color:;"> テスト2 <br> テスト2 </font><br><br></dd> 考え方として <dd><font style="font-size:;color:;">がある行のうち</font>を削除し、そのあと<font style="font-size:;color:;">を削除 これで行けそうかと思ったのですが、●●がある行のうち○○を削除、という正規表現がわかりませんでした・・・
>>506 (.*)<font style="font-size:;color:;">(.*)<\/font>(.*)
$1$2$3
とすればいいんじゃない。
どこの正規表現を使うかによりできないかもしれないけど。
$nはn番目の括弧に該当するから<font style="font-size:;color:;">と</font>が消える。
<font></font>がネスとしているなど複数あったら駄目かもしれないけど。
>>507 サクラエディタで正常に動作することを確認しました。
ありがとうございます!
ヽ('A`)ノ ○○表現! ( ) ノω|
チカンしまくり
12?34 12??34 違いが出るときはどんなときか答えなさい
$txt = aaa(’12165; のような、固定文字列aaaの後ろに『(’nnnnn;』(nの部分は必ず半角数字で値と文字数は可変。’は全角)となる箇所がうじゃうじゃあり、 この文字列の数字を挟んでいる記号だけを全て削除したいのですが、しっくりくる正規表現が浮かびません 妙案ないでしょうか php5 or 4
aaaの後ろにうじゃうじゃって $txt = aaa(’12165; $txt = aaa(’5445; $txt = aba(’13; $txt = aaa(’99999; こうなんか? 結果 = preg_replace('/’(\d+);/', '$1', 入力); 結果 $txt = 12165 $txt = 5445 $txt = aba(’13; $txt = 99999
514 :
nobodyさん :2009/05/21(木) 08:03:14 ID:bdo2M1uu
すみません、質問させてください。 曲名のリストを一括置換しようとしています。具体的には"〜 by"が 入る丸括弧だけ四角括弧"[ ]"に置き換えたいのです。 例 This is me (talk) (Composed by Johan) ↓ This is me (talk) [Composed by Johan] どのような書式にすればいいかご教示お願いします。
$s= "This is me (talk) (Composed by Johan)"; $s=~ s/\(([^\)]*\bby\b[^\)]*)\)/[$1]/gi;
>>515-516 ありがとうございます。
STEPというタグエディタで100曲ほど一括置換しようと
目論んでます。
教えていただいたサイトとスクリプトを手がかりに
現在悪戦苦闘中です。ちょっと頑張ってみます。
こういうときにこまるわけか special days(arranged by hor version.) (Composed by Ellic)
質問させて下さい。 ABC …LMNO……… ……LMNO…… ………LMNO… XYZ というような文章があったとします。 「LMNO」の前後(「…」)には文字(日本語や英数字)があります。 Perl5互換の正規表現が使えるテキストエディタや、BREGEXP.DLLが使える置換えソフトを使用し、 「ABC」から「XYZ」までにある「LMNO」を「OOOO」に置換えすることは可能でしょうか? 特定の範囲内の文字だけを置換えする正規表現がわからず、検索文字列と置換え文字列の指定で困っています。 どのようにすれば良いのか教えて頂けると助かります。よろしくお願いします。
s/(ABC.*)LMNO(.*XYZ)/$1OOOO$2/g ってことか?
521 :
519 :2009/05/29(金) 23:05:57 ID:???
>>520 具体的な指定を教えて頂いてありがとうございました。
早速試したのですが置換えできませんでした。
「Speeeeed」という置換えソフトではBREGEXP.DLLも使えるのですが、それでも置換え結果がゼロのままです。
こちらのスレをもう一度読み返してもっと正規表現を勉強したいと思います。
s/(?>ABC)(.*)LMNO(.*)(?<=XYZ)/${1}0000$2/ これを何回もかけるとか? なんか知らんけどgオプションつけても無駄だったんだよなぁ
sed でも使えばー?
525 :
nobodyさん :2009/06/13(土) 23:07:31 ID:56/XckFT
Perlの正規表現で質問させて下さい。 yyyy/mm/entry-basename/index.php ↑はどのように記述すればいいのか、お手数ですがご教授願います<(_ _)>
正規表現で表すには前提条件がないと答えられない yyyy部分が4桁数字の西暦? mm部分が2桁数字の月(ゼロサプレス)? m#^\d{4}/\d\d/entry-basename/index\.php$#
527 :
525 :2009/06/14(日) 17:21:47 ID:Ycy68Wtw
>>526 さん解凍有り難う御座います。
素人で質問が下手くそで申し訳有りません
↓の場合だと
"/diary/archives/yyyy/mm/entry_basename.php"
"/^\/diary\/archives\/\d{4}\/\d{2}\/(\w+)\.php/"
↑のように置き換えるみたいなのですが、
同様に↓の場合だと
"yyyy/mm/entry-basename/index.php"
どのように置き換えるのかが分からなくて、お手数ですがご教授下さい。
分かりにくくて申し訳ないです。
ちなみにゼロで桁を埋めるのは「ゼロパディング」ね。 > ↑のように置き換えるみたいなのですが、 「置き換える」って、いわゆる正規表現による置換処理の意味じゃなくて 「検索表現に翻訳する」って意味なのか。凄まじく紛らわしい。 さておき…、 で、どの単語が可変部分なのかがさっぱり分かんないんだよね。 "index.php" は固定なの? それと、上の置き換え例では "entry_basename" になっているけど お尋ねの件は "entry-basename" だよね。単なる typo かな? "\w" を使う上では、検索対象文字列の "_" と "-" との違いは本質的だよ。 要するに、質問するにしては不備が多過ぎます。
529 :
525 :2009/06/14(日) 23:33:00 ID:Ycy68Wtw
>>525 です
「検索表現に翻訳する」という意味です。失礼しました
そして"index.php"は固定で、"entry-basename"が正解です。
http://www.magicvox.net/archive/2005/05261744/ ここのページにあるランキングが利用したいのですが、
「ランキング集計したいファイル名にマッチするよう Perl の正規表現
を修正してください。」
ここの意味が分からなくて困っています。他のサイトなどを見てみると、
当方の個別エントリーパスは"/diary/archives/yyyy/mm/entry_basename.php"なわけですので、
"/^\/diary\/archives\/\d{4}\/\d{2}\/(\w+)\.php/"としました。
とあります。
私の場合、エントリーパスは"yyyy/mm/entry-basename/index.php"です。
これを"/^\/diary\/archives\/\d{4}\/\d{2}\/(\w+)\.php/"のように記述
するにはどうすればいいのでしょうか?
長文失礼しました。
'/\d{4}\/\d{2}\/(\w+)\/index\.php/' 謎すぎるけど PHP の preg 使って entry_basename を $1 に入れるんだと 思い込んでみた
で、その "entry-basename" ってのはその文字列そのものではなくて 「ここにいろんな文字列が入ります」っつーダミーなんだろうけど、 どういった文字で構成されるの?
perlでテキストデータ内の日付部分を、 2009/1/1 ↓ 2009/01/01 に一行で置換したいのですが。 s|/([0-9][^0-9])|/0$1|gm; だと、2回同じ処理が必要になってしまいます。 いい方法ありますか?
splitとsprintf
>>532 後ろの1文字ってマッチする?
マッチするなら
1 while $str =~ s|/([0-9][^0-9])|/0$1|gm;
でいけるんじゃない
m はなくてもよさそうに見える
たぶんgもいらないよ
$str =~ s{/([0-9])(?![0-9])}{/0$1}g;
秀丸で、CSSの : までの部分を強調表示したいのですが、 どう表現すればいいのでしょうか。 以下の例だと、font-size:の部分です。 h1 { font-size: 150% !important; }
>>539 CSSに数字って出るんだっけ?
[\-a-za-z0-9]+[ \t]*:
ありがとうございます。 見やすくなりました! :first-childや:notのセレクタで誤爆していたので [\-a-za-z0-9]+[ \t]*:(?!\first|last|not) としました。 また以下のようなものだと誤爆するみたいですが これはほとんど使わないので目をつむろうと思いますw BODY[style="width: 100%; height: 100%;"] { font-size: 150% !important; }
良く考えたらもっと一杯あった [\-a-za-z0-9]+[ \t]*:(?!first|last|not|hover|focas|active|visited|link|lang|after|before)
543 :
nobodyさん :2009/07/15(水) 23:25:43 ID:2a7dmfqp
/(^-^;)/w(^o^)vv(-_-;)vv[^-^](^_^;)/
すみません質問させてください。 正規表現初心者です。 秀丸で、正規表現を使って文字列の置換をしようとしています。 例) abcd,efag), これを最初の[,]だけを[',]に置換したいと思っています。 検索文字列: [^)], 置換文字列: ', とすると、 abc',efag), のように文字列の後ろの1文字まで消えてしまいます。 文字列が消えないように、最後尾でない[,]だけを置換するにはどのように指定すればいいでしょうか。 教えてください。
秀丸でサポートされている正規表現の機能がどれだけのものか分からんからなあ。 候補 1(質問者の方針参考) 検索文字列: ([^)]), 置換文字列: $1', 候補 2 検索文字列: ,(?!$) 置換文字列: ', 無理なら一旦「,\n」を「,」を含まない別の適当な文字列に変換して、 全ての「,」を「',」に変換してから元に戻すとか。
候補 3 検索文字列: |-^)v!! 置換文字列: (^o^)/~~
PHP5で、$txtに格納された <a href="javascript:userid('123456');">テキスト</a> ※「123456」と「テキスト」は変化します といった並びの文字列からタグをぬいて 123456,テキスト, とカンマ区切りにしたいのですが、何か良い方法はないでしょうか
自己解決しました お騒がせして申し訳ありますん
550 :
nobodyさん :2009/09/03(木) 12:19:35 ID:54RqrMPZ
552 :
nobodyさん :2009/09/03(木) 12:47:58 ID:54RqrMPZ
率直に言って「スレ違い」って程のことか? と思ったので礼などは書かなかった。 どっちかというとこっちの方が適切とは思うが、 【.htaccessファイル(「分散設定ファイル」)の書き方・使い方などに関するスレです。 】 って説明のスレに書いても別に間違ってないと思う。
PHPでPerl互換のpreg_replace関数を使った置換を行おうとしているのですが、 やりたいことがうまく実現できません。 やりたいことは、 ・<tagA>という文字列と</tagA>のあいだに<tagInsert>という文字列を挿入したい ・ただし、<tagA>の中に<tagB>という文字列がある場合は、その<tagB>の下に挿入したい <失敗した正規表現> $new_str = preg_replace("/<tagA(.*?)>(.*?)(<(?!tagB).)*/", '<tagA\\1>\\2<tagInsert>\\3', $str); <実現したい例> <tagA> <tagB> <tagB> <tagC> </tagA> ↓置換実行 <tagA> <tagB> <tagB> <tagInsert> <tagC> </tagA>
/身長:(\d+)\n体重:(\d+)/ という正規表現に対し、例えば "身長:175\n体重:67" という文字列がきたら "身長:<font color="red">175</font>\n体重:<font color="blue">67</font>" のようにHTMLタグを追加したい。 ただし "身長:100\n体重:100" のように身長と体重が同じ場合も身長は赤、体重は青にしたい。 もっと欲をいえば正規表現は身長・体重だけでなく /年齢:(\d+)\n好きな食べ物:(\S+)/ のように可変にしたい。
そうですか
557 :
555 :2009/09/27(日) 15:20:08 ID:???
どうやればいいか知恵を貸してください
環境は?
perlでもrubyでも できるだけトリッキーでなくて普通の正規表現のパターンマッチと置換でできる範囲で
絶対正規表現だけで書かなきゃだめなの? 普通に関数作る方が現実的だと思うけど
if使って分岐させれば
正規表現をかじったけどちゃんと理解するにいたってない人は 正規表現でやるとかえって面倒な事までさせようとしていらない 苦労をする傾向があるね。理解しちゃえば使った方がいいかどうか 判断つくようになるんだが。
>>555 こんなのとか?
html = str.sub(/(.+?)(:)(\d+)\n(.+?)(:)(\S+)/) {
"#{$1}#{$2}<font color=\"red\">#{$3}</font>\n#{$4}#{$5}<font color=\"blue\">#{$6}</font>"
}
565 :
nobodyさん :2009/10/13(火) 11:08:03 ID:8X+N74J6
phpで、いくつか特定の拡張子を持つファイルをマッチさせたいのですが、 最後を意味する$は下記のように最終的に1つでよいですか if (preg_match("/\.html|\.php|\.txt$/",$value)) { $chk = 1; } それともこのように全部に$が必要ですか? if (preg_match("/\.html$|\.php$|\.txt$/",$value)) { $chk = 1; }
>>564 parse_url使うか"/(.*)\//"
>>565 やってみればわかることだけど当然全部に必要
だから\.(html|php|txt)$みたいに括弧でくくるのが常套だけどマッチした値を取得する必要ないなら
\.(?:html|php|txt)$と書いて少し軽くできる
567 :
565 :2009/10/13(火) 12:34:51 ID:8X+N74J6
perl で, 「<と>で囲まれた文字列内の abc を def に全て置換する」 というのは正規表現でどう書けばよいでしょうか。 マッチだけならば "<asaabcasalaabca>" =~ /\<(.*?)(abc(.*?))*?\>/ のようにしてマッチさせられるのですが,繰り返しがあるので後方参照で取得できません。
>>568 せっかくperlでプログラム書けるんだから、
1. 「<」と「>」に囲まれた文字列を取り出す
2. 1で取り出した文字列のabcをdefに置換
3. 2の結果を「<」「>」で挟む
とやれば難しいことは何もない。
570 :
568 :2009/10/14(水) 10:26:28 ID:6OWMkMrw
>>569 いや,確かにおっしゃるとおりなのですが,
Perl互換の正規表現を採用しているエディタで文章を打っているときに,
いちいち使い捨てのPerlスクリプトを作るのが面倒で,
せっかくエディタに内蔵されている正規表現置換機能で置換できれば便利なのにな……と思った次第です。
そりゃそのエディタの説明書に書いてあるだろ
「< と > で囲まれた文字列内のある一つの abc を def に置換する」を、 そのエディタのキーボードマクロ機能で繰り返し適用すればよくね?
いや、そのエディタに正規表現での置換機能もあるだろ、普通
置換というか補完じゃね?
575 :
572 :2009/10/14(水) 18:34:24 ID:???
>>573 エディタの置換機能だと複雑なことができない (この場合 < と > の間を繰り返し置換)
からどうすればいいの?っていう質問だと思ったんだが、違うのかな?
どのエディタ使ってるとか晒してくれるともっと的確に答えれる香具師がいそうだが。
576 :
568 :2009/10/14(水) 23:09:15 ID:???
>>571-574 いえ,ですから,エディタ(Mac OS X の Jedit X です)に正規表現置換機能が備わっていることは分かっています。
その正規表現の書き方を知りたいのです。
「< と > の間の繰り返し置換」は正規表現では実現不可能,ということであれば,
やむを得ずスクリプトを組みます(Perl あるいは Jedit X のマクロ言語である AppleScript)が,
可能であれば正規表現置換で実現したいのです。
やはりエディタウィンドウ内で完結するのは手軽ですので。
先読み・後読みや再帰を利用した超絶技巧的正規表現でも構いません。アイデアを求めています。
>>576 Perlでしてみた。
そのエディタは後方参照はできるんかな?
my $str = "<asaabcasalaabca>";
print $str, "\n";
$str =~ s/((?:<|\G).*?)abc(?=.*?>)/\1def/g;
print $str, "\n";
579 :
578 :2009/10/15(木) 13:19:37 ID:???
>>568 のケースだけなら大丈夫だけど、汎用的には不具合がありそうなので取り消し
580 :
578 :2009/10/15(木) 13:37:10 ID:???
試行錯誤した結果、以下でいけそうな感じだけど、どうだろう? $str =~ s/((?:<|\G)[^<>]*?)abc(?=[^<>]*>)/\1def/g;
utf-8の文字コード内にない文字を探すにはどんな感じにすればいいんでしょうか? javascriptです。
>>568 Perlだったら。
s/<(.*?)>/(my $s = $1) =~ s{abc}{def}g; "<$s>"/ges;
エディタのマクロでやるのがいいかなと思うけど、ちょっと面倒。
583 :
nobodyさん :2009/10/19(月) 23:25:42 ID:/Zspq1xO
PHPでとあるファイルを読み込んで、読み込んだファイルの中に下記の記述
があれば正規表現(preg_replace等)で空白に置き換えたいと考えています。
正規表現で正規表現を消す記述の仕方がわかりませんorz
どのような正規表現を記載すればよいでしょうか。
すみませんがお分かりになられる方が居られましたらご教授よろしくお願いいたします。
↓↓↓消したい記述その1↓↓↓
if ( /^(To|Cc): admin@admin\.com$/:h || /^(To|Cc): .*\<admin@admin\.com\>/:h )
{
cc \"| /usr/bin/nextbb -c ISO-2022-JP -s 'xxxxx' -A 'From:yyyyy <
[email protected] >' -t
/home/sendmail -t\"
}
↓↓↓消したい記述その2↓↓↓
/^[a-zA-Z0-9\-\.\/\[\]\(\)\{\}\|@`:<>,!?\"'#\$%&*+;\\=^_~ ]*?$/"
Linuxコマンドが入力されるインプットボックスの入力チェック処理を 正規表現でやりたいのですが、どのようなチェックを行えばいいでしょうか?
それはキミがどのような入力を許可したいかがわからないから答えようがない
それを聞いているんじゃないのか
Linuxコマンドとか、インプットボックスって何?
<input>で何か入れてsubmitすると、それが実行されるのか? なんか巧妙にうまくごまかして危険なコマンド実行されそうだな。 正直俺の知識では知らん。 どんなコマンドも受け付けたくないな。 そもそもコマンドによってチェック内容は変わるんじゃないの?
<input name="cmd" type="text" value="rm -rf ." />
>>584 俺はこれからどのように生きていけばいいでしょうか?
くらいに漠然とした質問だなこりゃ。
構文的に shell が受理可能かどうかなら Perl なら shellwords.pl 使うとかな。
まだ正規表現が素人なので教えてください。 たとえば以下のように四行の文章があって それら文章の最初(一番目)の空白文字だけを検索するには どうすればいいのですか? The environment of contents industries is so drastically changing, though Japan has not fully. taken advantage of the changes to develop. its presence in the global market. The とenvironmentの間の空白文字 、though と Japanの間 taken とadvantage の間の空白文などなどです
Perlで関数の括弧をドンドン入れ子にしていく正規表現書いてるだけと (\([^()]*(((\([^()]*\)[^()]*))*\)[^()]*)*)*\) ↑これに穴は無いよな!? どんなに入れ子にしても、エラーはでないかな 初めて作った正規表現なんだが。ご指南、よろ
593 :
nobodyさん :2009/12/20(日) 20:33:27 ID:fe9ijwb+
0*(\d+) これの意味を教えてください ()の中はわかるのですが前がよくわかりません
数字の並びから先頭の0を取り除いてる
595 :
nobodyさん :2009/12/20(日) 20:44:43 ID:fe9ijwb+
なるほど 00200 とかの前の0を無視して検索できるという感じですか
>> 0*(\d+) 0が0個以上並んだ後に、0〜9が1個以上並ぶ。
>>592 見てないけど無理
(??{})あたり使えばいける
598 :
nobodyさん :2009/12/23(水) 22:25:52 ID:Hajqsr0G
HTMLタグの <ul> <li> について、入れ子構造になっていた場合も考慮しつつ Pukiwiki等の記法に変換しようと考えています <ul> <li>1行目@1段目 <li>2行目@1段目 <ul> <li>3行目@2段目 <li>4行目@2段目 </ul> <li>5行目@1段目 </ul> これを - 1行目@1段目 - 2行目@1段目 -- 3行目@2段目 -- 4行目@2段目 - 5行目@1段目 こんな感じにしようと四苦八苦しているのですがどうにも難しく… ヒントだけでも良いのでアドバイスをお願いします。 今は、<ul>が存在する限り <ul>( <ul>以外 )<\/ul> を抜き出して その中を /<li>(.*?)<\/li>/s で置き換えて、抜き出し元と差し替えて 最初に見つかった<ul>(.*?)<\/ul>について <ul> と </ul>を削除、と考えていますが 最初の <ul>以外 の時点で既につまづいている始末です。
$head= ''; $s=~ s/(<ul>)\s*|(<\/ul>)\s*|<li>(.*)(?:<\/li>)?\s*/$1?scalar($head.='-',''):$2?scalar(($head=substr($head,1)),''):"$head $3\n"/gei; print $s;
600 :
nobodyさん :2009/12/29(火) 00:08:08 ID:F3P1tBWB
文字列の中にある¥を除去したかったのですが、preg_replace('/¥/')や preg_replace('/¥¥/')では削除できなかったのですが、preg_replace('/¥¥¥/')だと削除できました・・・ これはなぜでしょうか。 ¥は次に有る文字をエスケープするわけですから、preg_replace('/¥¥/')でいけそうな気がするのですが。。。 正規表現初心者につき、低レベルですがご教授よろしくお願いいたします。 (上記は、あえて半角ではなく、全角の¥で説明しています。)
やりたいこと自体はstr_replaceでできるだろうけどphpの正規表現がなんかおかしいな。 perlならそれで通るはずだけど。
文字列としてのエスケープと正規表現としてのエスケープは別。 '/\\/' は /\/ '/\\\/' は /\\/ '/\\\\/' も /\\/
603 :
600 :2009/12/29(火) 22:52:30 ID:F3P1tBWB
ああそうか、phpだとシングルクオートで囲んでも\はエスケープに解釈されるのか。
<a href="test.php?id=0001">あいうえお</a> <div class="id">0001</div> <div class="time">20100101010101</div> <div class="name">なまえ</div> <div class="body">コメント</div> 上記のタグがあったとして、 preg_match_all("/<a href=\"test.php\?id=0001\">(.*)/<\/div>\" style=\"display: none;\">/", $hoge, $data); のように書くと、指定したIDのaタグ内の文字がとれるのですが、その下の<div class="id">から<div class="body">の後の</div>までのタグ、 もしくはそのタグ内の文字列を抽出したいのですがうまくいきません。 それぞれのタグは1行でつながってるものとして、複数タグの範囲内を取るのは可能なのでしょうか?
複数ならpreg_match_all()使うけど一つならpreg_match()で以下のように preg_match('/\bid=(\d+)[^>]+>([^<]*)<\/a>.*?"id">\1<.*?"time">(\d+)<.*?"name">([^<]*)<.*?"body">([^<]*)</is', $s, $match);
有難うございます。 IDが0001以外のコメントもひろっちゃっていますが、かなり希望するのに近づいてきました。 もう少し細かく書くべきでしたが、複数のIDがあり、同じIDでのコメントも複数あった場合です。 上記のタグが一つのセットとして、いくつかある中の <a href="test.php?id=0001">あいうえお</a>のタグとコメント部分をまとめて表示させたいと思っています。 id=の部分を改変して直接0001を指定したらだめだった・・・
試行錯誤したらなんとか希望通りのものができました。 正規表現だけに囚われててプログラムがよろしくなかった…
先生質問です Rewriteで動的URLを静的URLにしたいのです やりたいことは6つのクエリを書き換えたいのですが 6つのうち1つのとき、2つのとき、・・・6つのときというように組み合わせがかなりの数になってしまうと思うのですが 順列で 6P1 + 6P2 + 6P3 + 6P4 + 6P5 + 6P6 と考えてよいのでしょうか? 6つも書き換えなんてやっぱ無理でしょうか?
ちょw
test
MySQLダンプ内の /*------------------ここから--------------------*/ DROP TABLE IF EXISTS `table100`; /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `table100` ( `code1` varchar(5) default NULL, `zip1` varchar(7) default NULL, `address1` varchar(250) default NULL, `address2` varchar(250) default NULL, `div_1` varchar(1) default NULL, `div_2` varchar(1) default NULL, `import_date` timestamp NULL default NULL, `rec_key1` int(10) unsigned NOT NULL auto_increment, PRIMARY KEY (`rec_key1`) ) ENGINE=InnoDB AUTO_INCREMENT=121471 DEFAULT CHARSET=eucjpms; /*!40101 SET character_set_client = @saved_cs_client */; /*------------------ここまで--------------------*/ `table100` → `TABLE100` `code1` → `CODE1` など逆クォートで囲まれた小文字→大文字変換を一括で行いたいです。。 できればlinux コマンドライン、perl などでお願いします。。
たぶんs/`(\w+)`/`\U$1`/g
eregで半角記号のみをマッチさせてfalseを返す処理を組んでいるのですが、 何故か一部の漢字が引っ掛かってしまいます…確認した所では夕焼けの「夕」の 文字などです。 if(ereg ("[[:punct:]]",$_POST['名前'])) こんな感じです。今までは普通に機能していたんですが… どなたかアドバイス頂けないでしょうか?
>>615 ereg って多バイト文字に対応してないんじゃないか?
eregはPHP5.3.0から非推奨になってるので新しく書くプログラムでは 使わないほうがいいよ。perl互換正規表現(PCRE)をお使いください。
:wink:, :lol:, :cry:, :evil:, :twisted:, :roll:, :idea:, :arrow:, :mrgreen:, :), :-(, :!:, :?:, :oops:, :-o,:-D,8-|,8-), :??, :x:, :-P, :ase:, =:[, :ahhh:, :star0.0:, :star0.0:, :star0.5:, :star1.0:, :!!!:, :**:, :heart:, :!!:, :hahaha:, :chin:, :[], :| こんな感じのスマイリーコードをマッチさせるのに、 $string = '{[:\*8=][(^:|*|a-zA-Z\-!?_\.\d\[)]*[(.*:)(.*\*)(.?)(:*[)(\])PoD\|]}; こんな感じのコードにしてみたけど、もっとスマートに出来ますか? しかし、正規表現はパズルみたいで面白いね。
>>618 スマートさではこっちのが上だね :P
(:(wink|lol|cry|evil|twisted|roll|idea|arrow|mrgreen|\!|\?|oops|x|ase|ahhh|star0.0|star0.5|star1.0|\!\!\!|\*\*|heart|\!\!|hahaha|chin):)
|(:)|:-(|:-o|:-D|8-\||8-)|:??|:-P|=:[|:[]|:\|)
>>619 色々バグってた
my @g = $str =~ /(
(?: \:
(?: ahhh | arrow | ase | chin | cry | evil | hahaha | heart | idea | lol | mrgreen | oops | roll | star0\.0 | star0\.0 | star0\.5 | star1\.0 | twisted | wink | x | \!\!\! | \!\! | \! | \*\* | \? )
\:)
|
(?: \:-\) | \:\-\( | \:\-D | \:\-P | \:\-o | \:\?\? | \:\[\] | 8\-\| | 8\-\) | \=\:\[ )
)/gx;
>>618 のだと:aaaaa:とか存在しないものまでマッチしちゃうよ?
((?:\:(?:(?:ahhh|arrow|ase|chin|cry|evil|hahaha|heart|idea|lol|mrgreen|oops|roll|star(?:0\.[05]|1\.0)|twisted|wink|x|\!{1,3}|\*{2})\:|\?[:?]|(?:\)|\[\]|\||\-[(oDP])))|(?:8\-[|)])|=\:\[)
>>619-621 そうか、未来の拡張を考えて緩くしたけど、
2バイト文字以外のブログじゃ広くマッチしすぎるって事か。。。
それじゃスマイリーコードの方に厳格なルールを...
なんって考えるのもユーザーに優しくないし。
折り合いつけるの難しいね :|
>>622 厳格さが必要でない処理が行われるというのがイメージできんのだけど、
マッチさせてどうしたいんだ?
>>623 とあるCMSで、
引用表示の時は、リンクとか画像とか取っ払う追加プログラム書いてるから。
>>624 文から推測すると、前提として普通の記事の場合はスマイリーコードとやらが画像に変換されるということがあって、
その記事が引用されてる場合はそれらを除去したいということか?
前提が正しいならスマイリーコードを画像に変換する時に使ってるルールを厳格に使うべきだし、
正しくないならリンクでも画像でもないスマイリーコードを除去する必要がないと思うんだが
>>625 正解です。
通常記事ではスマイリーコードが画像に変換されます。
で、引用時には、それら(改行,スペース,タブ,画像,リンク等)を除去して
コンパクトにしたいのです。
引用文にスマイリーが入ってもいいんですが、
記事を丸める過程で<img>タグが邪魔したので、除去するを仕様としました。
>>626 一度img要素に置換したものをベースにするというのがそもそもおかしいのでは?
もしかして表示する直前に置換してるんじゃなくて、DBに突っ込む段階で置換しちゃってるとか?
それだったら設計を見直したほうがいいと思うんだけど
>>626 じゃあやっぱり >スマイリーコードを画像に変換する時に使ってるルールを厳格に使う が一番スマートなんじゃないか
それができないなら一旦引用されていない記事として処理して、そこからimgタグを除去するとか
正規表現の話からはだいぶそれたので俺はこれ以上何も言わないことにするよ :P
>>627-628 スマイリーコードが置換されるのはDBから引っ張ってからですが、
追加プログラムの導入IDによって優先順位があるので単純ではないんです。。。
で、私も正規表現から脱線しすぎなのでこれが最後。
脱線ついでに、タイムズスクウェアで爆発物を積んでた車って。。。
家の車も正規表現でマッチしちゃうwww
630 :
nobodyさん :2010/05/19(水) 16:47:15 ID:t/z/xcK5
質問させてください! ああああああ @ ABCD @ abcd という文字を <b>ああああああ</b> @ ABCD @ <em>abcd</em> のように置換したい時はどういう正規表現を使えばいいのでしょうか? よろしくお願いいたします
その例にするための条件って何? スペース @ スペース が区切りとか?
632 :
nobodyさん :2010/05/20(木) 19:43:15 ID:avs5qFDL
質問させてください。 <table> <tr> <th>名称1</th> <td> 値1 </td> </tr> <tr> <th>名称2</th> <td> 値2 </td> </tr> </table> のようなHTMLがあります。 実際には全ての改行とインデントはトリムされてます。 この値1の部分をとるにはどのような正規表現を使えば良いでしょうか? <th>名称1</th><td>([^<]*)</td> のように考えてましたが値1には<img>タグが入る場合があります。 <table>や<td>が入ることはありません。
633 :
632 :2010/05/20(木) 19:44:24 ID:???
途中で投稿してしまいました。 お手数ですがご教授よろしくお願いします。 なお、当方18歳女子になります。
<th>名称1</th><td>(.*?)</td>
635 :
nobodyさん :2010/05/20(木) 20:40:36 ID:a5arSWsA
<th>名称1</th><td>(値1|<img>)</td>
637 :
632 :2010/05/21(金) 22:05:20 ID:E8tDrX2s
ありがとうございました。 無事に解決できました。 これより踊りに行くのでこれにて失礼致します。
便乗だけど <table> <tr> <th>名称1</th> <td class="abc"> 値1 </td> </tr> <tr> <th>名称2</th> <td class="def"> 値2 </td> </tr> ...あと何個か続く この場合 <th>名称1</th><td .*>(.*?)</td> にしたのですが 何故かうまく 値1 だけ取得できません どうも .*で余計なものも取得しているようです どう書けばいいでしょうか 当方JKです。
<th>名称1</th><td .*?>(.*?)</td>
現在、HTMLのimgタグを使って「/img/jpg/」ディレクトリにある画像ファイルを複数表示しています。
例)
<img src="/img/jpg/1111.jpg" >
<img src="/img/jpg/mm2222.jpg" >
<img src="/img/jpg/kkkkk3333.jpg" >
これをそれぞれ、以下のように置換したいと考えています。
例)
<a href="
http://www.xxxxx.jp/1111.jpg "><img src="/img/jpg/1111.jpg" width="240px"></a>
<a href="
http://www.xxxxx.jp/mm2222.jpg "><img src="/img/jpg/mm2222.jpg" width="240px"></a>
<a href="
http://www.xxxxx.jp/kkkkk3333.jpg "><img src="/img/jpg/kkkkk3333.jpg" width="240px"></a>
imgタグをリンクタグで囲むのですが、リンク先URLには元々の画像ファイル名が使われています。また、imgタグには「width="240px"」が付加されています。
このような置換をPHP5で行うには、どのような正規表現を使用したらよろしいでしょうか。
宜しくお願い致します。
素人です。
s/<img src="\/img\/jpg\/(.+)\.jpg" >/<a href="
http:\/\/www\.xxxxx\.jp\/\1\.jpg "><img src="\/img\/jpg\/\1\.jpg" width="240px"><\/a>/;
こんな感じになるのかと思いますがどうでしょうか?
642 :
nobodyさん :2010/07/01(木) 16:19:28 ID:qVVuQ4W9
Perl 5.8 /5.10で使用します。
HTMLソースの中のimgタグのファイル名を正規表現などで一括で変えたいです。
<img src="
http://www.hoge.com/aaa/bb/ccc/ddd.jpg " alt="sss">
<img src="/xxx/yyy.png">
<img src="../aaa/fff/xxx/ccc.gif" width="32" height="16">
↓
<img src="/images/ddd.jpg" alt="sss">
<img src="/images/yyy.png">
<img src="/images/ccc.gif" width="32" height="16">
こんな感じです。どの様にしたらよいでしょうか。
>>642 s|(<img[^>]* src=")[^"]*/([^/"]+"[^>]*>)|$1/images/$2|ig
644 :
nobodyさん :2010/09/13(月) 00:25:36 ID:BUnMGSIw
php5.3です。 %でかこまれた(%test%)文字をpreg_matchでヒットさせたいんですが、どういう文字列にすればいいんでしょうか? ちなみに、'/%%([^%])%%/'ではだめでした。
間違えた。 '/%%([^%]*)%%/'です。
%%test%% と書かれてたら %test% がキャプチャするようにしたいのか %test% と書かれてたら test をキャプチャするのかどっち? 後者だと勝手に決め付ける。'/%([^%]+)%/'
find . -type f -iregex ".*[^html|htm|gif|jpg|jpeg|png|css|js|swf|xml]" -print でウェブ関連以外のファイルを抜き出しいのだけれど、 なぜか在るはずの【*.pdf】が出てきません・・・。 書き方が不味いのでしょうか。
[^html|htm|gif|jpg|jpeg|png|css|js|swf|xml] = [^cefghijlmnpstwx|]
649 :
647 :2010/09/24(金) 20:33:46 ID:???
>648 find . -type f ! \( -name \*.html -o -name \*.htm -o -name \*.css -o -name \*.js -o -name \*.gif -o -name \*.jpg -o -name \*.png -o -name \*.swf -o -name \*.xml -o -name \*.pdf \) -print を、-iregex使って短くするにはどう書けばいいんのでしょうか。
650 :
nobodyさん :2010/09/26(日) 06:42:01 ID:JLVe9rj0
Firebugで"aaaaaaaaaaaaaaaaaaaa".match(/(a)/)とすると2つしかヒットしないんですが、 全部のaをヒットさせるにはどうしたらいいんでしょうか?
>>650 コールバック使うときは1つめの引数は全体だよ
"aaaaaaaaaaaaaa".match(/(a)/g);
これでいいと思う
『a*a/a/*/a*a/a/*/a*a/a*a/a/*/a*a/a/*/a*a/a*a/a/*/a*a/a/*/a*a/a*a/a/*/a*a/a/*/a*a/a』 この文字列の /* ~~~ */ で囲まれた部分それぞれを全て正規表現で抜き出せるのですか?
653 :
652 :2010/10/03(日) 17:28:53 ID:???
すいません。使用言語はPHP5.1.6です。
654 :
652 :2010/10/03(日) 17:53:37 ID:???
事故解決しました。
「/index.php/blog/new/id/17」 から、phpファイル名(/index.php)のみ削除するにはどうすればいいでしょうか? ファイル名は変わることがあります。
s{/[^/]+?\.php}{}
657 :
655 :2010/10/21(木) 01:50:09 ID:???
PHPのpreg_replace()に渡してみたのですが、 >Warning: preg_replace() [function.preg-replace]: Delimiter must not be alphanumeric or backslash in と言われてしまいます。。。
658 :
656 :2010/10/21(木) 02:29:25 ID:???
どういう引数を渡したのかちょっと知りたい。 <?php $str = '/index.php/blog/new/id/17'; // $pattern = '/\/[^\/]+?\.php/'; // デリミタが / のときはエスケープ $pattern = '{/[^/]+?\.php}'; // デリミタは { と } $replace = ''; echo preg_replace($pattern, $replace, $str); ?>
659 :
nobodyさん :2010/11/13(土) 19:09:08 ID:peMm7xtt
PHPで、例えば こう言った文章を考えるのは、たのしい。 わたしは、「こんにちは」と言いました。 「この文章は、なかなか面白いですね。とても正確な正規表現を考える必要があるんです。」 「では、そんな正規表現をどうやって見つけるのでしょうか?そうだ、質問してみましょうよ!。」 「なるほど?。それは面白いアイディアだ。」と、もう一人は言った。 という文章があったときに、 "こう言った文章を考えるのは、たのしい。", "わたしは、","「こんにちは」","と言いました。", "「この文章は、なかなか面白いですね。","とても正確な正規表現を考える必要があるんです。」", "「では、そんな正規表現をどうやって見つけるのでしょうか?","そうだ、質問してみましょうよ!。」", "「なるほど?。","それは面白いアイディアだ。」","と、もう一人は言った。" という感じに分割して配列にしたいと思っています。 現在使っている正規表現は $contents = array(); preg_match_all('/.*?。|.*?「/m',$content,$contents); という感じで書いてみました。 $contentがもとの文章で、$contentsが新しく得る配列です。 どうも複雑でどうしたら良いのかわからないので質問させていただきます。よろしくお願いします。
一度にやろうとしないで分けてやればいいと思うよ
661 :
nobodyさん :2010/11/14(日) 22:54:16 ID:xJLLsuw0
正規表現での重複行の削除について 質問させてください みかん みかん みかん (空白行) りんご → りんご なし なし なし (空白行) なし (空白行) かき かき というかんじで 重複行は空白のままで残したいのですが どうすべきでしょうか?
スクリプト言語でやったほうが楽じゃね?
663 :
nobodyさん :2010/11/14(日) 23:35:35 ID:xJLLsuw0
でこぽん みかん りんご りんご みかん みかん りんご でこぽん こんな風に離れた行に重複がある場合はどうすんだろ?ソート済みなのかな。
665 :
nobodyさん :2010/11/15(月) 00:48:49 ID:AfSBC14n
エクセルでソートしてあるます
666 :
nobodyさん :2010/12/06(月) 23:51:24 ID:k5Tua1Td
メールアドレスが正しいかマッチング。 ただし、@gmail.com、@googlemail.com、@livedoor.comの場合は @の前に「+」「.」が含まれている場合は除外する。 これって正規表現1発でできたりしますか?
yes
メールアドレスの妥当性の判定はどのぐらい厳密にやるのだろう
669 :
nobodyさん :2010/12/20(月) 16:51:11 ID:Qb400/Ia
php5で、tableタグ内の改行(<br />)を全て削除したいのです。 どうしたら良いんでしょう。 ●置換前 <table border="1" cellpadding="5" cellspacing="0" class="xx" id="xx"><br /> <tbody><br /> <tr><br /> <td><br /> </td><br /> </tr><br /> </tbody><br /> </table> ●置換後 <table border="1" cellpadding="5" cellspacing="0" class="xx" id="xx"> <tbody> <tr> <td> </td> </tr> </tbody> </table>
普通はstrip_tagsじゃね?
テーブル外のbrは削除したくないんだろ
この手のことをやりたい人は沢山いると思うので 散々既出の可能性がありますが、 参考ページでも構いませんので教えてください UWSCのコードを書くのにK2Editorを使っています 仕上げたコードの可読性をあげるために 演算子の前後にスペースを入れたいです 例 x+y=z x + y = z K2Editorの正規表現はBREGEXP.DLLを使っています 以下の置換をマクロで行います "([^ ])([\+\-\*<])","$1 $2" "([^ <])>","$1 >" "([\+\-\*=])([^ ])","$1 $2" "([^ <>])=","$1 =" "<([^ =>])","< $1" ">([^ =])","> $1" "([^ \/])\/([^\/])","$1 /$3" "([^\/])\/([^ \/])","$1/ $3" " "," " " +"," " "([,=\+\-\*\/\(<>]|mod|and|or|xor) - ","$1 -" 正規表現はド素人でネットで検索しながら書いたので まずい部分も多いと思いますがそれは置いといて、 本題はダブルコーテーションで括られた文字列内は 置換したくないのですが、何か方法はありますか?
性器表現難しいよね
675 :
nobodyさん :2011/01/06(木) 22:08:59 ID:y0rS3N6j
質問です。PHP5.3でpreg_matchを使っているのですが、例えば 「次章(第20条の3、第1節の3、・・・除き、建築基準法第80条の2にあっては・・・」 という文章より法律名称や条などをwhileループで拾い上げたいのですが、 /([第]*)([1-9]+[0-9]*)([条項号]+)[の]*([1-9]+[0-9]*)*[の]*([1-9]+[0-9]*)*(.*)/ で拾い上げると、法律名称(上の文章だと「建築基準法」)が抜けてしまうので /([建築基準法|建築基準法施行令]*)([第]*)([1-9]+[0-9]*)([条項号]+)[の]*([1-9]+[0-9]*)*[の]*([1-9]+[0-9]*)*(.*)/ と言う形で拾うと、なぜかpreg_match($match, $text, $arr)の$arrの中に、なぜか「第」という文字が拾われてきません。 これは何故なんでしょうか?? もし理由が分かる方がいらっしゃったら、お教え願います。
性器表現で痴漢する
$text = '次章(第20条の3、第1節の3、・・・除き、建築基準法第80条の2にあっては'; $pat1 = '/([第]*)([1-9]+[0-9]*)([条項号]+)[の]*([1-9]+[0-9]*)*[の]*([1-9]+[0-9]*)*(.*)/'; $pat2 = '/([建築基準法|建築基準法施行令]*)([第]*)([1-9]+[0-9]*)([条項号]+)[の]*([1-9]+[0-9]*)*[の]*([1-9]+[0-9]*)*(.*)/'; preg_match($pat1, $text, $arr); var_dump($arr); preg_match($pat2, $text, $arr); var_dump($arr); array(7) { [0]=> string(62) "第20条の3、第1節の3、・・・除き、建築基準法第80条の2にあっては" [1]=> string(2) "第" [2]=> string(2) "20" [3]=> string(2) "条" [4]=> string(1) "3" [5]=> string(0) "" [6]=> string(53) "、第1節の3、・・・除き、建築基準法第80条の2にあっては" } array(8) { [0]=> string(62) "第20条の3、第1節の3、・・・除き、建築基準法第80条の2にあっては" [1]=> string(0) "" [2]=> string(2) "第" [3]=> string(2) "20" [4]=> string(2) "条" [5]=> string(1) "3" [6]=> string(0) "" [7]=> string(53) "、第1節の3、・・・除き、建築基準法第80条の2にあっては" } 第が拾われないってどこの話? あと関係ないけど複数拾いたいならpreg_match_all
[マルチバイト] この時点でおかしいやろ
u 修飾子つきじゃないのかな? [第]* は量指定子も含めてどうかと思うけどね。
PHPのPerl互換正規表現で、連続した文字を判定したい(3文字以上) 下のではだめ? preg_match("/(.)\1{3,}/", $hoge) 例→AAA、bbb、111、あああ他なら引っかかるようにしたい、ということ
>>680 考え方はいいけど、最初の(.)で1文字食われるから繰り返し回数が
1回多い。それじゃ4文字以上になっちゃうぞ。
>>681 4文字以上連続した文字だとしても、想定したように動かない・・・
↓OK(Perl)
my $hoge = 'aaaa'; if ($hoge =~ /(.)\1{3,}/) { print 'OK'; } else { print 'NG'; }
↓NG(PHP)
$hoge = 'aaaa'; if (preg_match("/(.)\1{3,}/", $hoge)) { echo 'OK'; } else { echo 'NG'; }
PHPは\1って表現できない?
"..."の中だから¥¥1と書かないと駄目だろ。
$hoge = 'aaaa'; echo preg_match('/(.)\1{3,}/', $hoge) ? 'OK' : 'NG'; // OK "\\1" か '\1' だよね。
685 :
680 :2011/01/07(金) 14:21:39 ID:???
あたしばかよね・・・ ありがとうございました uも付けて完動です
686 :
675 :2011/01/08(土) 22:00:49 ID:GTa36OYO
返事遅くなりまして申し訳ありません。 /uを追加したら見事に機能しました。 というか、今までさんざん正規表現を日本語に適用していたのですが、/uのことを全く知りませんでした。 お恥ずかしい限りです。 お教えいただき、ありがとうございました。
687 :
675 :2011/01/17(月) 22:15:13 ID:Br3WLX+O
更に質問です。 「...にあっては国土交通大臣が定めた安全上必要な技術的のうちその指定するに係る部分に限る。)、第119条、第5章の4(第129条の2の5第1項の2第6号...」 という文章から、第○○条の○○の○○などを抜き取り、かつその前後の文章も取得したいと考えています。 そこで 「/^(.+)*([第])([1-9]+[0-9]*)*([条]+)[の]*([1-9]+[0-9]*)*[の]*([1-9]+[0-9]*)*(.*)/u」 というパターンでpreg_matchで拾いだそうと思うのですが、全く思うように拾いだせません。 何が問題なのでしょうか?? プログラムとしては、 <?php $text = 'にあっては国土交通大臣が定めた安全上必要な技術的のうちその指定するに係る部分に限る。)、第119条、第5章の4(第129条の2の5第1項の2第6号の文章'; print 'text : ' . $text . '<br>'; $match = '/^(.+)*([第])([1-9]+[0-9]*)*([条]+)[の]*([1-9]+[0-9]*)*[の]*([1-9]+[0-9]*)*(.*)/u'; print 'match : ' . $match . '<br>'; preg_match($match,$text,$arr); print 'arr : '; print_r($arr); print '<br>'; ?> こんな感じです。 もし分かる方がいらっしゃったら、お教え願います。
問題を切り分けてから質問してくれ
689 :
マッチした文字列を小文字にしたい :2011/01/17(月) 22:59:46 ID:e71m2/yA
PHPにおける正規表現に関する質問です。
下のサンプルプログラムでは$3が両方とも大文字の「US」になりますが、
最初の$3だけを小文字の「us」にする方法があれば教えてください。
OSはWindows、PHPは5.3です。
元の文字列の例
Country: US
変換後に得たい文字列の例
Country: <a href="
http://ja.wikipedia.org/wiki/.us ">US</a>
サンプルプログラム
<?php
$result = '';
$text = 'Country: US';
$pattern = '/(Country):(\s+)([A-Z]{2})/i';
$replace = "$1:$2<a href=\"
http://ja.wikipedia.org/wiki/.$3\ ">$3</a>";
$result = preg_replace($pattern, $replace, $text);
echo $result;
?>
手元のエディタでは\Lでできるんだけどな PHPで使える置換パターンが良く分からない e修飾子つけちゃうとか
691 :
689 :2011/01/18(火) 01:02:24 ID:???
そうですね。Perlだと\lで次の文字が小文字になるとかあるみたいですが、 PHPにはないんですかね? ほかの方法でもかまいませんので、 引き続き、回答をお待ちしております。
693 :
nobodyさん :2011/01/18(火) 19:32:41 ID:sm74ERjN
あの正規表現ですが、今までうまくつかえていないというか下手 です。で、勉強しようと思うのですが、 反復学習ソフト付き 正規表現書き方ドリル これいいですかね? オライリーとどっちがいいかなって思うんですけど。
>>693 良いと思うよ。
オライリーも良い本だけど、ひととおり基礎ができてからで良いと思う。
696 :
689 :2011/01/19(水) 21:20:53 ID:???
>>692 できました。
ただ、「DO」というドミニカの国別コードの時、予約語と重なってエラーになったので、
ダブルクォートにしました。
$pattern = '/(Country):(\s+)([A-Z]{2})/ie';
$replace = '"$1:$2<a href=\"
http://ja.wikipedia.org/wiki/. " .strtolower("$3"). "\">$3</a>"';
どうもありがとうございました。
698 :
nobodyさん :2011/01/19(水) 23:40:21 ID:zqG6AlFK
抽象的な質問で申し訳ないんですが、本の話が出たのでついでに伺いたいんですが。 今まで表計算ソフトやデータベースソフトなど普通に習得し、 更に興味が出てきたのでMySQLとPHPを使ってプログラミングしたり、 apacheやPostFixなども何とか使えるようになり、何となく分かってきた感じがしてるのですが、 正規表現に関しては、未だに「どうにか使っているけど、理解は出来ていない感じ」がします。 とりあえずやってみて、だめで違う手を試してみたりして.... まるで別種類な考え方が必要な気がします。 なので質問なのですが、正規表現を理解するのに一番良い本とか、 正規表現について「目から鱗が落ちた!!一皮むけた!!理解が深まった」 って思えるような本とかあったら、紹介いただけないでしょうか?? それとも忍耐強く、失敗しては考える繰り返しでなければ、習得できない物なのでしょうか?? 当方今年で三十路なので、頭が固くなってきてるのかもしれませんが、いまいち頭にしみ込みにくくなってるような気がしてます。 もしよろしければお教え願います。
>>698 何となく分かった気になっている時は何も分かってないからもっと簡単なのからやれ
700 :
693 :2011/01/20(木) 01:01:52 ID:973KUxXQ
>>695 ありがとうございます。
基礎から勉強したいので、買います。
正規表現のスレ (プログラム板や UNIX 板にもある) のログを見て、 質問のお題を片っ端から解いていくと、結構良い練習になると思う。
702 :
nobodyさん :2011/01/20(木) 23:13:37 ID:LxK6uyro
/hoge/(.*)〜にすればいいじゃん
>>698 頭の良い人だとまた違うのかもしれないけど、
我々のような凡人は繰り返しやって経験値を積むしかないかなあ、って気がする。
で、何か読んで一つ山を越えたいなら、現状ではオライリー本の一択しか無いと思う。
対象の文字列にハングル文字が含まれるかどうかを判断したいのですが よい方法が思い浮かびません。 javascriptです。
706 :
nobodyさん :2011/02/27(日) 08:37:54.94 ID:GexZY7hJ
1. preg_match('/[\(]{2}?(.*?)\:(.*?)[\)]{2}?/', $text, $match) この変換を変数展開で実行したいのですが、 正規表現で使える記号の変数展開のやりかたを教えてください。 2.$exprString = '/[\(]{2}?(.*?)\:(.*?)[\)]{2}?/'; preg_match("/$exprString/", $text, $match); これだとうまく行きません。
"/$exprString/"を展開したら"//[\(]{2}?(.*?)\:(.*?)[\)]{2}?//"になるぜ?
708 :
706 :2011/02/27(日) 09:23:38.46 ID:???
>>707 解決しました。全く気がつかずに悩んでました。ありがとうございます。
709 :
nobodyさん :2011/02/27(日) 16:36:06.93 ID:KOnmSusx
反復学習ソフト付き 正規表現書き方ドリル やりました。 非常に勉強になりました。楽しかったし、なんかパズルをといている みたいで、ただ残念ながらソフトはうごきませんでした。
710 :
nobodyさん :2011/03/03(木) 19:14:51.88 ID:v/2VFVai
以下はqdmail_receiver.phpというメール受信のプログラムの一部で、 添付ファイルのファイル名を取得している部分になります。 しかし、ファイル名に半角スペースがあると、半角スペースで文字列が切れてしまう という現象があります。 半角スペースで途切れないようにするのはどのようにすればよいのでしょうか? preg_match('/name\s*=\s*"?([^"\s\r\n]+)"?\r?\n?/is',$header['content-type'] , $matches ) よろしくお願いします。
[^"\s\r\n]+ "でもスペースでも改行でもない文字が続く限り〜 って自分で書いてるやん
ここで聞いてるくらいだから [^"\r\n]+ こう書き換えれって教えないと
713 :
710 :2011/03/04(金) 13:32:58.16 ID:8WvXj1g+
>>712 ありがとうございます。
うまくいきました。
<(_ _)>
714 :
712 :2011/03/04(金) 16:50:29.72 ID:???
うまくいったならいいけど、ファイル名抜き出し部分の後続がすべて?だから もし"で囲まれてないのが来たらアウトだけどな /name=(?:"([^"\r\n]+)"|([^\s\r\n]+))/i でマッチさせて if (empty($matches[1])) $matches[1] = $matches[2]; みたいにしたほうが手堅いかもな
【言語】PHP5.3
【OS】XP
自前のBBSをもっていますが、最近、レス番号にリンクをつけたく思い、「
>>1 」のようなレスをpreg_matchでリンクタグ生成しようと試みました。
preg_match('/>>[0-9]+/',$text,$link);
preg_replace('/>>[0-9]+/','<a href="#">'.$link[$n].'</a>',$text);
この関数では最初にマッチするレスしか変換できませんでした。
何かよい案がありましたらお願いします。
preg_match_all 使えば?
717 :
nobodyさん :2011/06/04(土) 18:19:07.23 ID:GeFi3irL
2段階に分けるべし
>>717 なんでそれを正規表現でやろうとするのかがわからん。視野狭窄か。
質問者が言語を指定していない時点でお察し下さいレベル。
preg_match_all は PHP の関数
723 :
nobodyさん :2011/06/05(日) 14:02:49.98 ID:uEzVCQDA
>>717 正規表現一発でできそうな気がするんですが、無理ですか?
固定単語--- この中を検索 ---固定単語
こんな場面てよくあるような
725 :
nobodyさん :2011/06/16(木) 23:36:27.10 ID:SYj2PUn3
phpでpreg使っています。 あるファイル内の <td width="71%" valign="top" align="center"><div align = "center"> を <td width="71%" valign="top" align="center"> だけに変換したいとおもい $regTxt = "/<td ([a-z0-9\"=\s\%]+)><div ([a-z0-9\"=\s\%]+)>/is"; preg_match($regTxt,$x,$exchangeArr); で$exchangeArr[1]を削除するため、preg_replaceを使おうと思っています。 ただ、最初のpreg_matchでマッチしません。 どうしたら出来るのでしょうか?? どなたかお教えください。お願いします。
preg_matchで$exchangeArr[1]を削除するためpreg_replace? 日本語でおk
727 :
nobodyさん :2011/06/16(木) 23:44:03.44 ID:SYj2PUn3
<div align = "center"> を削除するため でお願いします。
preg_matchとpreg_replaceを併用する必要があんの?
729 :
nobodyさん :2011/06/16(木) 23:52:34.42 ID:SYj2PUn3
<td....>が様々な形をとっているため、まずはそれらを取り出す必要があるかと思い、そうしてます。 <td....><div...>という形で、<td...>も<div...>のそれぞれの...が、様々な形をとっているけど、<td...>だけをきれいに残したいのです。 ただ、<div...>だけのもの(前に<td...>がついていない)は変換したくないのです。 こんな説明でわかります?
正規表現を細分化して問題の切り分けしてみるといいと思うよ
>>725 ,729
その様々な形を正規表現で指定すればいいと思うけどね。
$string = '<td width="71%" valign="top" align="center"><div align = "center">';
$string = preg_replace('/(<td [^>]+><div) [^>]+/', '$1', $string);
閉じタグのことは無視かい
733 :
731 :2011/06/18(土) 17:07:20.38 ID:???
>>732 それは俺も思った。
divがネストしていたら対応関係がおかしくなるはずなんで開始タグは残すべきだと思うな。
734 :
nobodyさん :2011/06/30(木) 00:52:32.34 ID:hWRw8zI0
PHP5.3のpreg_replaceで /<td[^>]+><div[^>]+/とかで正規表現をやっても、全く変更されません。 preg_matchでやってみると<td[^>]+>までならmatchするけど、「<」以降を入れると、全く引っかかってきません。 何か思い当たること、ないでしょうか?
対象としている文字列にその正規表現にマッチする部分が存在しない
何か勘違いしているとか見落としているとしか思えない
量指定子を'+'から'*'にしてみたらマッチしました、みたいな話な気がしてならない。
738 :
734 :2011/07/03(日) 22:32:36.09 ID:8QAPbG3u
どうやら正規表現は問題なかったみたいです。 phpでファイルをfopenで読み込んで、 while ($x = fgets($fp,1092)) {...}で変換をさせているんだけど、 <td..>部分と<div..>部分の間に改行が入っているから、変換できないらしい。 どうしたらいいでしょう??
工夫すれば?
740 :
nobodyさん :2011/07/03(日) 23:37:07.72 ID:ypX399q3
$string = preg_replace('/<div align = \"center\"> /', '', $string); $string = preg_replace('/<\/div>/', '', $string); か、 $string = preg_replace('/<div(.*?)> /', '', $string); $string = preg_replace('/<\/div>/', '', $string); じゃねえの
741 :
734 :2011/07/03(日) 23:45:10.46 ID:8QAPbG3u
全てのdivを削除したい訳でなく、<td....></td>間にある<div></div>を削除したいのです。 <td....></td>間にあるものは削除して、それ以外は改行したいのです。
preg_replaceを連打して取りたいのだけ取ればええやん
745 :
nobodyさん :2011/07/23(土) 20:12:09.44 ID:lXdqpzgT
Aの繰り返しはA+とかA{m,n}でマッチできますが、 繰り返された個数を元にAAAAAをA*5などに置換する「うまい」方法はあるでしょうか。 言語はとりあえずJavaScriptで考えています。 replace(/A+/g, 'A*'); //←ここから進まない。
>>745 正規表現にはないのでJavaScriptスレへ
747 :
nobodyさん :2011/07/23(土) 20:34:12.11 ID:lXdqpzgT
748 :
nobodyさん :2011/07/24(日) 19:06:14.31 ID:/DoWXp9n
「次の人」または「前の人」という文字列を文章内から拾う場合、どの様な書き方が良いのでしょうか?? [次の人 | 前の人] だと「の」一文字だけでも拾ってしまいます…
"[abc]"は「『a』か『b』か『c』にマッチ」だぞ…。 君の書いた正規表現は「『次』か『前』か『の』か『人』か『|』か『 』にマッチ」だ。 多分"(次の人|前の人)"みたいなことがしたかったんだろうけど、 "[次前]の人"でいいと思う。
あと、似たようなのでありがちなのが "[^hogehoge]"で文字列の否定を指定したつもりになっちゃう人。 もちろん間違い。念の為。
751 :
nobodyさん :2011/07/24(日) 22:38:19.38 ID:X7IDpmYo
あ、とんちんかんだった。 文字列の否定は (?!.*文字列.*).* みたいのかなぁ
754 :
nobodyさん :2011/07/25(月) 21:55:36.12 ID:RVWZInKC
formからの情報を編集しているんですがケータイ絵文字(5社の)が入ったら消すというのはできますか? PHP5です。
756 :
nobodyさん :2011/07/25(月) 23:06:55.26 ID:RVWZInKC
757 :
nobodyさん :2011/07/27(水) 20:41:33.29 ID:PkulA4Dr
40過ぎたオッサンが、訓練校出てWebで独立するとか寝言いってますwwwwww
サラリーマンに、無理だと指摘され発狂中wwww
Webデザインの基金訓練を受講してる人 Part2
http://yuzuru.2ch.net/test/read.cgi/dame/1308059991 >>505 俺は40代で基金訓練受けて、これから独立しようと考えてるがな。
まぁ若干経験あるからその方面での話だけど。
基金訓練は単に「バナーくらい作れますよ」って言うだけのために受けた。
30代ならデジハリにもいっぱいいるぞ、余裕だろ。
ちゃんとした社会人経験があればだが。
^(\d{3},)*\d{3}$ 上記正規表現で123がヒットする理由が分かりません カンマがなくても何故ヒットするんですか? *の前が()だからであってますか? <対象文字列> 123 123,456 987,654,321 123,789,456,012 9876,543 123,456, <HIT文字列> 123 123,456 987,654,321 123,789,456,012
* → + で解決しない? *はゼロ個以上でマッチだから。
762 :
759 :2011/08/01(月) 08:58:25.47 ID:???
>>760 調べなくても分かってますが()*も同様なのかと思いまして
>>761 いえ、nnnの場合もヒットさせたかったので*でいいのです
仕様というか動きの確認だけが目的で書き込んだので
763 :
nobodyさん :2011/08/01(月) 09:39:13.59 ID:3IgNAOvk
>>759 の意図がいまいちよくわからんが、
「a*」の時と「(abc)*」の時とで*の機能が変わらないことを確認したかったの?
あと若干言葉遣いに波風が立つ雰囲気を感じてしまうのはオレだけ(笑)?
ヒント:ID隠し
俺もちょっとイラッときた
(\d{3},)* 関係ないじゃんw
>>763 >
>>759 の意図がいまいちよくわからんが、
> 「a*」の時と「(abc)*」の時とで*の機能が変わらないことを確認したかったの?
はい
> あと若干言葉遣いに波風が立つ雰囲気を感じてしまうのはオレだけ(笑)?
イラッ☆
機能が変わらない事の確認なのに質問内容が >ヒットする理由がわかりません っておかしいだろw
>>766 どう言う事でしょうか?
もっとスマートな方法があるのであれば是非ご教示願います
>>767 何がいけないのかさっぱりです
直近文字の0回以上のhitって事でないの?
>>769 そんなおかしいですかね
でも、確かに表現が悪くて申し訳ないです
772 :
nobodyさん :2011/08/01(月) 18:11:52.38 ID:3IgNAOvk
根はいいやつそうでよかった(´ω`)…。
直近「文字」とは限らないだよ。 (お題のこんなのとか)*(?:ほかにもこんなのとか)*[いろ]*あるでしょう。
>>770 123がヒットしたのは
\d{3}の部分だけといえば分かるだろうか
(\d{3},)*は0回ってことで
>>774 超絶完全理解感謝激励歓迎降臨!
謝謝!!
伝わり難い文章で多レスしてしまってすいませんでした
776 :
nobodyさん :2011/08/01(月) 22:37:10.25 ID:3IgNAOvk
>>774 の指摘がそこまで的確なものだったってのもいまいちピンと来ない件(笑)
まあよかったな( ´∀`)
わろた
結局わかってなかったんじゃんw
762 名前: 759 [sage] 投稿日: 2011/08/01(月) 08:58:25.47 ID:???
>>760 調べなくても分かってますが()*も同様なのかと思いまして
>>761 いえ、nnnの場合もヒットさせたかったので*でいいのです
仕様というか動きの確認だけが目的で書き込んだので
動きの確認ならパターン出してテストすりゃいいだけじゃん なんかイラッとするな
test
ttp//aaa.co.jp:8888 http//bbb.com:9999/ を除外しつつ 他の h?ttp//○○○.△△△.□□□:☆☆☆/? ↑ここから ここまで↑ をヒットさせたいのですが色々試したのですが出来ませんでした 何か方法がありますでしょうか?
h?
ttp:\/\/ (?!aaa.co.jp:8888|bbb.com:9999)(\w+\.)+\w+(:\d+)?\/?
>>785 レスありがとうございます
助かりました
2chのdatの1(1行目)のレス内にトリップ(10桁以上でも10〜12桁でもok)が 含まれてる場合にヒットさせたいのですが、一部除外したいトリップあります ◆(?!5s5hPZiJeU|ozOtJW9BFA).{10} まではできたような気がするのですが1行目にマッチさせるにはどうしたら良いでしょうか SJISです。
>>789 ありがとうございます
よく分からなかったので調べてみると複数行の行頭、文末にマッチさせることができるのですね
残念ながら行頭、文末にトリップがあるわけでないのでうまくないようです。。
>>790 789ではないが、mフラグをつけたら駄目だ
^ を利用すれば一行目のトリップにマッチできる
mフラグをつけたら破綻する
処理系を書かないからでしょ。
>>789 のいうmオプションは「改行文字を無視する単一行モード」の意味
(Ruby等の流儀)で書いていて、
>>790 はそれを「複数行モード」の意味(Perl等の流儀)に取っている。
>>790 先頭から、最初に改行コードが出てくるまでが1行目だよ
794 :
nobodyさん :2011/10/02(日) 19:26:42.05 ID:Tnal10Vi
abcdefgfedcba という文字列から defという文字列を消すこと出来るのですが、 def以外を消すにはどうすればいいのでしょうか?
795 :
nobodyさん :2011/10/02(日) 20:09:22.37 ID:zbShr9jh
漠然としすぎ
>>794 よくわからんが否定はめんどくさいぞ。
([^def]|d(?!ef)|(?<!d)e(?!f)|(?<!de)f)
でdefの一部であるd,e,f以外の任意の1文字にマッチするから
これでなんとかなるだろう。
>>794 環境によるけど、(def)ですべてにマッチさせて、あとから取得した$1的なものに置換すればいいのでは
>>794 /def|[\s\S]/ でcallbackして def 以外は全て削除
PHPにてHTMLタグ以外の全ての文字について、全角・半角の統一などの処理を したいと思うのですが、例えば英字を全角で統一したい場合、素人考えでは 最も単純に作業をするには「全ての英字を全角に」→「タグのみ半角に」という 2回に分けた処理がベストかと思うのですが、もっと効率の良い処理の方法は ありますでしょうか?
PHPなら効率にこだわるより、メンテナンス性を重視した方がいいと思う。
801 :
nobodyさん :2011/10/10(月) 16:07:33.02 ID:gughiUX1
"<"に続く文字(">"が来たら終了)は全部半角化 それ以外はどしどし全角化 でおk それはさておき、やんごとなき理由さえなければ統一するなら全角じゃなく半角にしとけ。
>>801 <input type="button" value="zenkaku">
>>800 メンテナンス性にこだわるとどんな感じになるか……まるでイメージできません……orz
>>801 すいません、やんごとなき理由で全角化せねばならないのです…。
ところでその方法は正規表現は特に使わず、1文字ずつチェックしていく感じでしょうか?
>>802 DOMを使うというと……やはりこれも正規表現は使わない感じですか?
>>803 今回は特にタグの中身まではいじらない予定なので全角valueでもokです。
>>801 すいません、スレ違いになってしまいましたが、ひとまずその方法を試してみました。
が、実体参照(&anpとか)が出てきたときにややこしいことになりそうです…orz
この場合だけ力技で切り抜けるか、もしくはやはりある程度正規表現で処理を
した方が良さそうな気がしますがどうでしょうか。
あるいはDOMの方が簡単なのでしょうか…?
どう回せばタグの中身が取り出せるのかいまひとつわからないです。。。
あー…後から全角&XXX;を半角にするって方法もありますねえ…。 うーん。
807 :
nobodyさん :2011/10/14(金) 09:47:43.56 ID:+/AP5o7r
htmlのソースからタグを除外するのに挑戦してて以下のようにしたんですが もっと効率いいやり方あるでしょうか? \<[a-zA-Z0-9\"\<\>\ \=\;\:\/\.\_\-\(\)\#\!\'\&\%]+
どんだけ円がすきなのかとw
809 :
nobodyさん :2011/10/14(金) 15:26:32.18 ID:i4T0D1ix
>>807 ↓だと「Hello」ごと消えていかないか?
<p>Hello</p>
↓だと「…alt="」で止まってしまわないか?
<img src="hello.png" alt="こんにちは">
↓というわけでこれでいいんじゃないの。
<[^>]>
810 :
nobodyさん :2011/10/14(金) 15:28:56.11 ID:i4T0D1ix
失礼「+」が抜けてた <[^>]+>
811 :
nobodyさん :2011/10/15(土) 02:18:16.86 ID:pl58b8lQ
フジテレビデモ 花王デモ 要チェック
いいってことよ
814 :
809 :2011/10/15(土) 18:11:07.01 ID:5td5CFAR
行単位をダブルクオートで囲む正規表現で ああああ文字列ああああ いいいい文字列いいいい 検索 /^.*$/m 置き換え "$0" とした場合に "ああああ文字列ああああ " "いいいい文字列いいいい " となってしまいます。"ああああ文字列ああああ"としたいのですが、どのようにすれば良いでしょうか PHPのpreg_replaceを使っています。よろしくお願いします。
マッチするないように改行が含まれてるから。
>>818 >>816 の
> マッチするないように改行が含まれてるから。
ではなくて
マッチするないように改行が含まれていなくても\x0Dが付加されるから
無視ではありません。
>>819 言い方が悪かったのかな。CRが含まれてるから。
別にCRは付加されたりしないよ。
preg_replace("/^([^\r]*)\r?$/m", "\\1", $text);
とするか、LFのみに変換してから処理するか。
住所と番地の間にある空白を削除する場合どうやればいいですか? 「見附市 見附 123番地」この文字列を 「見附市 見附123番地」としたいです 「見附市」と「見附」の間の空白はそのままという条件付です
数字が必ずある前提で、 \s[\d]
(?!市).\s
>>823 町や村にもヒットさせろよw
群はいらないか
(東京都|北海道|(?:京都|大阪)府|[県市区群])\s+ ↓ \1
郡、な。
しゅくちょく
>>827 空白にマッチしたいんだから↓の間違いだよね。
(?<![市区町村])\s+
831 :
nobodyさん :2011/11/23(水) 06:53:59.84 ID:V5f5mApl
![[ 文字列 ![[別の文字]] ![[ほげほげ]] ]] ![[何か]]←これが1単位で、↑こんなの中から最短マッチで抽出したく、以下のようにしました。 $pattern = '/!\[\[([^\[\]]+)\]{2,2}?/'; しかしこの場合、ブラケットが使えないので困っています。 ![[ この中に[←とか]←があると使えない ]] 最短マッチさせるにはどう書けばいいでしょうか?
$pattern = '/!\[\[.+?]]{2,2}?/';
833 :
nobodyさん :2011/11/23(水) 09:23:16.47 ID:V5f5mApl
>>832 ありがとうございます。
ちなみに↓こうでしょうか?
$pattern = '/!\[\[.+?\]{2,2}?/';
しかしながら、やはり最長マッチになってしまいます。
うっかり書き忘れたのですが、PHPのpreg_matchで行なっています。
PCRE準拠(Prel互換)らしいです。
834 :
nobodyさん :2011/11/23(水) 09:52:54.59 ID:V5f5mApl
あ、すみません、できました! が、1行だといけるのですが、複数行にまたがった場合失敗しました。 ↓このような場合 ![[ 文[字]列 ![[別の文字]] ![[ほげほげ]] ]] オプションにmやsを付けてみましたがダメです。
>>834 入れ子の対応とりつつマッチするには
Subroutine Referencesを使えば良いよ。
<?php
$re = '/(?:!\[\[(?:(?!!\[\[)(?!\]\]).|(?R))*\]\])/s';
$text = "![[
文[字]列
![[別の文字]]
![[ほげほげ]]
]]";
$position = array();
for ($i = 0; $i < strlen($text); $i++) {
$pos = strpos($text, '!', $i);
if (end($position) !== $pos)
$position[] = $pos;
}
foreach ($position as $pos) {
$t = substr($text, $pos);
if (($pos === 0 || $pos) && preg_match_all($re, $t, $match, PREG_SET_ORDER)) {
var_dump($pos); var_dump($t); var_dump($match); print "----\n";
}
}
?>
836 :
nobodyさん :2011/11/25(金) 00:51:55.86 ID:7pZprZ8q
>>835 おーこれでいけそうです!
なるほど、こんなやり方がありましたか。とても勉強になりました!
838 :
nobodyさん :2011/11/27(日) 21:48:09.61 ID:ZbhJICcu
jsonの形式を配列に変換することは出来ないでしょうか? phpのjson_decodeだと、どうやら変換エラーが出るようで、正規表現で解決できればと思うのですが。 {"xType":{"0":"main","1":"main","2":"main","3":"main","4":"main"},"xNum":{"0":"6","1":"6","2":"5","3":"5","4":"6"},"yType":{"0":"main","1":"main","2":"main","3":"main","4":"main"},"yNum":{"0":"5","1":"4","2":"4","3":"5","4":"5"}} を[xType][0]=main,[xType][1]=main・・・・・的な感じなんですが。 どなたかお願いいたします。
>>838 json_decodeでエラーが出ないんだけど
840 :
nobodyさん :2011/11/28(月) 08:12:12.66 ID:NxvSoLFs
つーかエラーになるようなjsonモドキを吐く方をなんとかしろよ。
>>840 なぜエラーの原因を特定しないのですか...
あと、json形式でないものを、json形式だと思い込んで正規表現書いても結局うまくいかないとおもう。
844 :
nobodyさん :2011/11/28(月) 20:38:17.18 ID:cgQZB7ih
{"1":{"0":{"n":{"xType":{"0":"main","1":"main","2":"main","3":"main","4":"main"},"xNum":{"0":"3","1":"5","2":"5","3":"3","4":"3"},"yType":{"0":"main","1":"main","2":"main","3":"main","4":"main"}, "yNum":{"0":"5","1":"5","2":"3","3":"3","4":"5"}}},"1":{"b":{"xType":{"0":"main","1":"main","2":"main","3":"main","4":"main"},"xNum":{"0":"5","1":"6","2":"6","3":"5","4":"5"},"yType":{"0":"main","1":"main","2":"main","3":"main","4":"main"}, "yNum":{"0":"5","1":"5","2":"4","3":"4","4":"5"}}},"2":{"l":{"xType":{"0":"main","1":"main","2":"main","3":"main","4":"main"},"xNum":{"0":"4","1":"5","2":"5","3":"4","4":"4"},"yType":{"0":"main","1":"main","2":"main","3":"main","4":"main"}, "yNum":{"0":"5","1":"5","2":"4","3":"4","4":"5"}}}}} 一応こんな感じのデータです。 json形式だと思うんですが、phpのほうでは Syntax error, malformed JSON とつれない回答です。
>>844 デコードできたよ(PHP 5.3.2)
846 :
nobodyさん :2011/11/28(月) 21:16:33.29 ID:cgQZB7ih
マジっすか?? デコードの仕方が悪いのでしょうか?? できればやり方を教えてください。
こうならないためにもどんなデータをどうやったらエラーになったかを書くのが重要なんだけど。
連レスすまんが、
>>838 をデコードするのとやり方は変えてないよ。
>>838 はデコードできるんだろうから、環境面かもしれないよ
849 :
846 :2011/11/28(月) 22:41:14.25 ID:NxvSoLFs
単純にjavascriptの配列をjsonに変換させてからhidden属性に入力。 それをPOSTで送ったPHPファイルで json_decode($_POST['hidden']) って形でやってます。hiddenで送ること自体が間違い?? それともhiddenを何かに変換しなければいけないの??
hidden属性とか$_POST['hidden']とか胡散臭そうなのが混ざってるし。 問題の切り分けの仕方について続けたいなら、くだ質とか、超初心者スレみたいなところでどうぞ
851 :
nobodyさん :2011/11/29(火) 23:04:45.51 ID:gKGxmzY9
838は出来たけど、844は出来なかった。 同一ファイル上で変数を入れてみた結果として。
852 :
nobodyさん :2012/01/01(日) 16:05:26.90 ID:vpch3S2x
整数の桁数上限なし、小数点以下2位までの少数をマッチさせたいのですがうまくいきません。 str.match(/[0-9]*.[0-9][1-9]/g) どこが間違っているのか教えていただけますでしょうか。 PHP Version 5.2.16です 宜しくお願い致します。
それはJavaScriptにしか見えないけど
854 :
nobodyさん :2012/01/01(日) 18:04:13.68 ID:Zget/7Sh
>>852 本当にPHPだとすれば、あってるところのほうが少ない件
preg_match_all('/[0-9]*\.[0-9][0-9]/');
1/100の位は積極的にゼロを省かなきゃならないの?[0-9]でよくね?
あと、単なる整数とか、小数点以下3位以上の数字をどう扱いたいのかによっても変わってくる。
そもそも実際のところは「PHPで出力するHTMLに書かれたJavaScript」あたりかな?
>>852 マッチさせる文字列が数値のみであれば、
数値判定をした方がいいのでは?
文字であっても強制的に数値に変換する等が可能であれば、
かなり楽です。
856 :
852 :2012/01/01(日) 23:42:04.11 ID:???
>853,854,855 大変失礼しました。 854さんのおっしゃる通り、「PHPで出力するHTMLに書かれたJavaScript」でした。 その理解すら不十分でした。申し訳ございませんでした。
>>852 // 1 of 2
// 例として円周率pi
var value = "3.1415926";
var target = value;
// 小数部が無ければ、追加する
if (target.indexOf(".") < 0) {
target = target.concat(".00");
}
var integral_part_1 = 0;
if (target > 0){
integral_part_1 = Math.floor(target);
}else{
integral_part_1 = Math.ceil(target);
}
//document.write(value," の整数部は ", integral_part_1, "<br>");
>>852 // 2 of 2
// 小数第1位を取得
target = target - integral_part_1;
target = target * 10;
var integral_part_2 = 0;
if (target > 0){
integral_part_2 = Math.floor(target);
}else{
integral_part_2 = Math.ceil(target);
}
//document.write(value," の小数第1位部分は ", integral_part_2, "<br>");
// 小数第2位を取得
target = target - integral_part_2;
target = target * 10;
var integral_part_3 = 0;
if (target > 0){
integral_part_3 = Math.floor(target);
}else{
integral_part_3 = Math.ceil(target);
}
document.write(value," の小数第2位部分は ", integral_part_3, "<br>");
859 :
nobodyさん :2012/01/06(金) 21:48:56.02 ID:b1y0AA6H
ここの皆さんのレベルでは簡単すぎるのかもわかりませんが教えてください Firefoxブラウザのスクリプトで「Google Reader NG Filter」というものがあります これはRSS文中に特定のキーワードが一致していれば自動的に削除するものです サンプルとしてADとPRを消す正規表現がはじめから入っています ^\W?(?:ADV?|PR)\b こういうものです 先頭にADやPRがあれば広告を見なくてもすむわけです これを応用して見たくないキーワードが含まれているものを消すべく 自分なりに試行錯誤しているのですが上手くいきません 文中のキーワードなので当然^は不要ですし、正規表現のサイトで勉強して改変しても 動かないのです iPhoneとAndroidというキーワードが含まれていたら削除するという表現をお願いします
860 :
nobodyさん :2012/01/06(金) 23:01:27.07 ID:pwr91DzE
(?:iPhone|Android)でいいだろ。 上記にマッチした上で、本文を削除する部分もサンプルからコピペしないとダメだぞ。
.*(iPhone|Android).*
>>860 それやったけど、ダメでした…
普通はこれにしますよね
863 :
nobodyさん :2012/01/07(土) 00:03:18.47 ID:n5aAiFGN
>>862 いや少なくとも
>>860 の正規表現はマッチするはずなので、たとえば
1. マッチさせる対象が本文ではなくタイトルになっている
2. 削除する処理がどうにかなっている
3. その他
>ここの皆さんのレベルでは簡単すぎるのかもわかりませんが教えてください こんな枕詞はいらん。
866 :
nobodyさん :2012/01/13(金) 15:32:24.50 ID:QW0sWV6a
まず<a hrefがないというのが何処にないのか、土台をはっきりさせないと
>>866 preg_match_all('|<img src="([^"]*)">(?!</a>)|')
>>866 xhtmlが想定できるなら、正規表現よりxpath使った方が良いよ。
php.netにある例を改変すれば、$stringに文書が文字列化されてるとして、
$xml = new SimpleXMLElement($string);
$result = $xml->xpath('//img[name(..)!="a"]/@src');
while(list( , $node) = each($result)) {
echo $node,"\n";
}
この場合だと親要素がaではないimg要素のsrc属性ってことが
直接表現できるからね。
こちらのスレッドにはじめて投降します。よろしくお願いします。 ・使用言語:java ・質問内容:漢字を余すことなく拾いたい。 ※漢字を拾い出す正規表現をネットで調べていたのですが、 なにが新しくて、なにが不十分で、なにが正解なのかわからなくなってしまいました。
漢字以外
[\p{InCJKUnifiedIdeographs} こういうのをみつけたのですが、これで網羅されているのでしょうか。
>>873 面倒。。。という意味ではなく、漢字を含む文章を取り上げる正規表現を探していたのですが、
調べれば調べるほど種類があり、何を明記すれば過不足なく満足な結果を得られるのか分からなくなったので
質問した次第です。
>>875 ありがとうございます。[亜-腕弌-熙]に加えて[\-K]もあるようですが、
\p{InCJKUnifiedIdeographs} または[一-龠]とは比べて量が異なるのか否か
使ってはいけないのかどうなのか、教えていただけると嬉しいです。
ちなみにwindows7、Microsoft(R) Office IME 2007 辞書ツール を使っています。
>>876 コード表から検索すればすぐわかると思うんだけど…。
"一" で検索すれば 4e00 にあり、"龠" で検索すれば 9fa0 にあることがわかる。
\p{InCJKUnifiedIdeographs} は実装に依存するからJavaの仕様書を読んで、としか。
使ってはいけない、なんて判断指標もなしに判断できるわけがない。
>>877 >>878 返答、誠にありがとうございました。
自分の出した結論としては、\p{InCJKUnifiedIdeographs}がクラス Patternにはないこと、
亜は4E9C、Kは9ED1にあり、一と龠の位置よりも狭いことから(並びの順序が違うので一概には言えませんが)、
[一-龠]を使うのが一番妥当と判断しました。
皆様、本当にありがとうございました。
質問です。ABCDEと5つの文字があり、複数の文中・文末に点在しています。 文中・文末にあるABCDEをマッチさせる正規表現を教えてください。 文頭はのぞきたいです。 ネットで調べたりしたのですが、どの言葉を用いると自分の要求する答えが 見つかるのか分からなかったので書き込みしました。 また自分で調べるためにも自己解決できるようなHPを教えていただけると嬉しいです。 よろしくお願いします。 JAVAを用いています。
>>880 文頭は ^ か \n
マルチラインモードで動作しているかによって変わる
>>881 マルチラインモードONだと思います。
それぞれの文章ごとに適用したいと思っています。
追記なのですが、
ABCDEが含まれていない文章も除きたいと考えています。
よろしくお願いします。
>>882 もう答えは出ていると思うんだが…。
否定先読みと ^ を組み合わせればいい。
URLは
>>878
質問です。javaをしようしています。 ひらがな・カタカナ・アルファベット・記号で、連続ではない必ずまじりあった4文字以上の文章 を抜き出す正規表現を教えて頂けないでしょうか。よろしくお願いします。
連続ではないまじりあった状態がどういうことなんだろう。 その4種を用いていればまじりあいそうな。 あアs# はどうなの。
>>886 連続ではない必ず混じりあった4文字以上の文章とは
「ああああ」「アアアア」「aaaa」「◎◎◎◎」等連続した文章ではなく
「あアアa」とか「aaaの」とか「◎あアア」等の文章のことです。
分かりづらくすいません。
>>887 それだけじゃ分かりにくい
例えば「アあアa」はどうなんの?
>>888 「ひらがなだけ」「カタカナだけ」「アルファベットだけ」「記号だけ」の文章ではないのでマッチします。
「あいうえお」はひらがなが連続しているのでマッチしないようにお願いします。
>>889 こんな感じ?
^(?:[a-zA-Zぁ-ゞァ-ヾ、-◯].{4,}|[a-zA-Zぁ-ゞァ-ヾ].{4,}|[a-zA-Zぁ-ゞ].{4,}|[ぁ-ゞァ-ヾ、-◯].{4,}|[ぁ-ゞァ-ヾ].{4,}|[ァ-ヾ、-◯].{4,})$
>>890 表現していただき、本当にありがとうございました。
さっそく活用したいと思います。感謝します。
>>891 ごめん890は流してくれ
なんか頓珍漢なこと書いてたわ
1つの文字種だけでないならどこかに異なる2つの文字種が並ぶところがある筈 なので、あとは4文字以上の条件を満たすにはその並ぶところの前に2文字以上 あるか、前と後ろに1文字以上ずつあるか、後ろに2文字以上あるかのいずれか である。 文字クラスをいちいち書くのはだるいのであ,ア,a,○で代表させると [あアa○]{2,}あア[あアa○]* みたいのを真ん中の文字種の順列×前と後ろの繰り返し数のパターン分だけ つくって|で並べればOK
>>894 「[あアa○]{2,}あア[あアa○]*」の真ん中の「あア」の部分を
「あア」「あa」「あ○」「アあ」「アa」「ア○」「aあ」「aア」「a○」
「○あ」「○ア」「○a」の12通り作って|で並べると解釈しましたがよろしかったでしょうか。
制作本当にありがとうございました。
さらに前後の繰り返し数の場合わけで [あアa○]{2,}あア[あアa○]* [あアa○]{1,}あア[あアa○]{1,} [あアa○]*あア[あアa○]{2,} … も必要だから12×3=36通り作って並べる
真ん中だけ違うんだから [あアa○]{2,}(あア|あa|….)[あアa○]* [あアa○]{1,}(あア|あa|….)[あアa○]{1,} [あアa○]*(あア|あa|….)[あアa○]{2,} とした方が楽だな
>>899 検索対象
index\.php[\?]+.+$
置換文字列
index.html
URLに含まれるphpファイルが複数存在する場合、GET変数(?以降の文字列)を強制的に除去したい場合
ただし、文中のあらゆる「?」から始まる単語が検索対象となってしまう。
検索対象
[\?]+.+$
置換文字列
index.html
javascriptです。 検索文字列が"manga_index[0-9]+\.html"と"manga_ban_index[0-9]+\.html" (例:manga_index52342.htmlとmanga_ban_index2.htmlでヒット) manga_index[0-9]+\.htmlの場合はmanga_ban_index[0-9]+\.htmlとban_を追加し manga_ban_index[0-9]+\.htmlの場合はmanga_ban_index[0-9]+\.htmlとそのままにしたいのですがどうすればいいのでしょうか?
manga_index を manga_ban_index に置換すればいいんじゃないの
使用言語問わず(?:foo|bar)と(foo|bar)の違いが判りません 自分が読むスクリプト言語の参考書では特に注釈もなしにfooかbarかどちらかに当てはまるものは(?:foo|bar)と書かれますが 初心者向けの正規表現についてのサンプルなど見ると(foo|bar)が多い気がします どういう違いなのでしょう?初歩的な質問ですがよろしくお願いします
>>903 ()で囲むとあとから\1などで参照できます。
(?:)とするとその参照を切ることができます。
()でグループ分けをしたいけど参照はしない、というときにその設定をすると無駄がなくなります。
>>904 今までよくわからないで()を使っていたので
これからはもっと良いものが書けそうです、ありがとうございます
phpの正規表現で、特殊文字、こんなの→(?????)を区別したいんですが、どうすればよいでしょうか。 ざっくりした質問ですので、参考になるサイトを教えてくださる程度でも構いません。
907 :
906 :2012/03/05(月) 00:47:40.35 ID:???
文字化けしてますね。すみません。 特殊文字というのは、ミリとかリットルとか、特殊顔文字(読み方がわかりません。ハートとか。)で使われるものです。
全部並べて文字クラスにすりゃいいだろ。正規表現以前の問題だな。
479 名前:nobodyさん[] 投稿日:2012/03/10(土) 02:34:43.14 ID:/aJUja8G 文字列の正規表現で 「数値と英語と . と / と hoge 以外にマッチ」 というのをやりたいのですがどうも失敗してしまいます。一発での解決方法とかあるのでしょうか? \Dやったあとまた\Wでマッチング、その後ドットでマッチングと物凄く効率悪い方法しか思いつかなかったのですが
裏を返せば「数値か英語か . か / か hoge にマッチ」 したらnotマッチ
>>911 貼ったの自分じゃないですがありがとうございます!
そういう考え方でいけばいいんですね
913 :
nobodyさん :2012/03/20(火) 19:40:54.01 ID:Z+BjIxhL
javaの表現方法で Bがあれば削除、ただし直前がAなら削除しない、かつB単体でも削除 という表現方法はありますか? ^[A]Bだと全体で2文字あることが前提のように解釈していますが間違っていますでしょうか。
915 :
nobodyさん :2012/03/20(火) 20:10:18.04 ID:Z+BjIxhL
>>914 マッチしました。ありがとうございます。
[^A] ↑ 少し横向きの人が答えてるようで和んだ
ああ、なるほど。と思ったけど ?があるから「はあ?」って言われてるとこ想像してしまい凹んだ [^A]?
「あいうえお」のいずれかが3回以上連続したらマッチってどうやればいいんでしょう? [あいうえお]{3,}だと「あいう」とかにもマッチしちゃって駄目だった。
>>919 ありがとうございます!
解決してすっきりしました。
すいません・・・。
>>913-
>>917 の件にて、結果的にどのように表現すればよい結論になったのでしょうか。
925 :
nobodyさん :2012/03/29(木) 12:43:34.53 ID:UbmjoR9L
926 :
925 :2012/03/29(木) 19:25:30.17 ID:UbmjoR9L
なんか大変そうだなぁ。 俺なら?で分割して、2個になったら2個目を&で分割して、q=とtbm=を取り出して終わるわ
素直にライブラリ使った方が。 see HttpUtility.ParseQueryString()
929 :
925 :2012/03/30(金) 13:55:15.20 ID:Wpf4JXLP
>>927-928 の言うとおりという気もしてきましたが、どうやら上手くいったのでご報告します。
C#:
text = Regex.Replace(text, @"(https?://[a-z.]+\.google\.[a-z.]+/[a-z]+)(?(?=\?tbm=)(\?(tbm=[^&\s]*).*?(&q=[^&\s]*))|((?=.*?[?&](q=[^&\s]*))(?=.*?(&tbm=[^&\s]*))?))[a-zA-Z0-9-_./~*%$@:;,!?&=+#]*", "$1?$2$3$5$6");
キャプチャ結果ではなく正規表現のほうに条件式を入れてどうにかできました。
ただし条件が複雑になると書き方がどんどん煩雑になるので拡張性はないかもしれません。
あと、どうも条件式をくくった部分で$4と$7をキャプチャ(両方とも常に空)しているようですが、
そこに(?:を足すと入れ子のカッコ内が全部キャプチャされなくなってしまったので、とりあえずこのまま。
正規表現でがんばらなければだめな理由があるに違いないとそっと放置されるコード片が今まさに生まれたのである。
931 :
nobodyさん :2012/04/12(木) 15:38:18.00 ID:nr7fN3uJ
個人の小さいメールマガジンスタンドをやっているのですが
秀丸エディタの正規表現を利用して帰ってきたエラーメールリストから
アドレスだけを抜き出したいのですがどうすればいいでしょうか?
具体的には
---------------------------
メールヘッダー
<
[email protected] >
---------------------------
というテキストがあって
<
[email protected] >の部分の
[email protected] のみを取り出したいと思っています
よろしくお願い致します
>>931 秀丸の正規表現スタイル判らないけど、
エディタの検索欄で特定の場所だけ抜き出すって結構大変だよ。
いっそ、perl、php、javascriptで書いた方が良いと思う
934 :
ゼッケン774さん@ラストコール :2012/05/09(水) 21:57:54.68 ID:BzXqVbz5
不明
935 :
nobodyさん :2012/05/10(木) 11:31:59.11 ID:uA0oypVx
質問です。javaを使用しています。 (?:[\((][一-龠]+[\))]*) という正規表現をした際、括弧内にひらがなが含まれてしまうのですが、 含まれない漢字のみ括弧内に存在する表現方法を教えていただけないでしょうか。 お願いします。
[\((](?!.*[ぁ-んァ-ヶヲ-゚0-9a-zA-Za-zA-Z0-9])はどうだろう。 しかし、「(笑)www」とかだめだよなあ。
誘導されて来たんですけど、 こんなスレあったのね。
>>936 いえいえありがとうです。
大事に使わせていたきます。
正規表現でよく見かける↓のコードのうち [L] ってどういう意味なんでしょうか? RewriteRule (.*) app/webroot/$1 [L]
940 :
nobodyさん :2012/05/15(火) 09:36:17.08 ID:CSpkYc1K
941 :
nobodyさん :2012/05/27(日) 23:18:00.45 ID:HwDNoFBJ
linuxのgrepでgreenとつく単語を検索したいのですが、どういう正規表現を使えばよいのでしょうか
釣りですか?
同一の連続するwを除外し、単体のwをマッチさせたいのですが上手くいきません。 [w|w|W]$(?![w|w|W]) では文末が必ずマッチしてしまいます。 同一文字は無理なのでしょうか。
(?<![W|w|W|w])[W|w|W|w](?![W|w|W|w])
単芝が滅びした!ありがとうございました。
947 :
nobodyさん :2012/06/01(金) 11:21:23.01 ID:5OXqp69a
www.とかどうすんの
$
950 :
nobodyさん :2012/06/03(日) 15:01:25.61 ID:+b3NOtvy
>>944-945 文字クラスの[]内で、|を使ってもor検索の意味にはならずに
|という文字にもマッチする正規表現になってしまうと思うんだけど
>>950 いままで誰も突っ込まなかったのが面白いよね
javaをしようしています。 同一の連続する3つの文字のつながりが2種以上、 あああいいいううう、や あああいいいあああいいい、などにマッチする正規表現を教えてください。 よろしくお願いします。
((.)\2\2){2,} でどう?
>>953 ありがとうございます!
しっかりマッチすることができました!
>>953 954です。
>>953 をつかうと、一種6文字以上になると3の倍数ごとにとそれもマッチ
してしまうのですが、それを避けることができますでしょうか。
たびたびご迷惑かけてすいません。
よろしくお願いします。
((.)\2\2(?!\2)){2,} 求めてる条件があってるのか分かんないけど
>>956 求めているそのものでした。本当にありがとうございました!
../../../../aaa ../../aaa ../////bbb /asdaii/daia/aaaa の場合に一番右の/から左側を検出するようにするにはどうすればいいですか? ../../../../ ../../ ..///// /asdaii/daia/
959 :
nobodyさん :2012/06/07(木) 23:56:12.45 ID:WHczB1bW
(.*\/)[^\/]*$
単純に .*/ ( 環境によっては .*\/ ) じゃ駄目なの?
961 :
959 :2012/06/08(金) 11:55:23.48 ID:+g+yLQod
そんな気がしてきたwwwww
★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ GMOインターネット よしかわ たくお まじでうざいんですけど。 ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ GMOインターネット よしかわ たくお まじでうざいんですけど。 ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ GMOインターネット よしかわ たくお まじでうざいんですけど。 ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ GMOインターネット よしかわ たくお まじでうざいんですけど。 ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★
>>943 grep -e "*+green+*"
tes
PHPのpreg_matchかreplaceで ABCDEっていう文字列かFGHIJっていう文字列が最初にあって、 後ろに数字がいくつか並んでいるという正規表現はどう書けばいいでしょうか? orは | であらわすと思ったのですが文字列になるとどう書けばいいのかわからなかったので。。 よろしくお願い致します。
>>966 '/\A(ABCDE|FGHIJ)\d+/'
>>967 ありがとうございます。
\Aってどういう意味があるんでしょう?
それと()ってキャプチャする時にしか使わないと思ったんですが他に意味があるんですか?
>>968 >>5 に正規表現関連のサイトへのリンクがあるよ。
\A 文字列先頭位置にマッチ
^ 行頭にマッチ
複行修飾子mを使ってないときは同じ意味だけど、複行マッチでは違う。
複行マッチでの改行直後で^はマッチするけど、\Aはマッチしない。
で、防衛的に文字列先頭という意味の時は\Aの方が好ましい。
カッコについてはその通りで、キャプチャするという機能もあるんだけど、
もうひとつグループ化という機能もある。例えば、(AB)+とか。これは
AB、ABAB、ABABAB、…にマッチする。ただ、キャプチャ保存の分オーバー
ヘッドとかメモリ使用量が多くなるとか効率面で問題あるのかも。
その場合、グループ化だけの機能を持つ(?:〜)が使える。なので、
>>967 は、
\A(?:ABCDE|FGHIJ)\d+
の方が良いのかも。
>>969 なるほど!
詳しく説明していただいてありがとうございました!
わかりやすかったです!
971 :
nobodyさん :2012/08/01(水) 23:55:05.65 ID:7jlH6jTD
すみません、PHPスレから誘導されてきました PHP Version 5.3.14を使っています preg_match(正規表現, $text)で$textが全角文字または半角英数字で構成されていることを チェックしたいのですが、どうしたら良いでしょうか 記号は一切排除したいと思っています よろしくお願いします (以前やっていた方法 preg_match('/^w+$/u', $text)があるときから全角文字をエラーで返すようになってしまい 対応できなくなってしまいました)
>>971 以前やっていた方法って、
/^w+$/u
じゃなくて
/^\w+$/u
だよな?
ある時からエスケープシーケンスはUnicodeプロパティを無視するように仕様変更したはず。
これはphpが利用しているPCREがそうなったからだったと思う。
全角文字ってのはひらがな・カタカナ・漢字ってことでOKだよな?
ならこれでうまく行くはず。
/^[0-9a-zA-Z\x{3040}-\x{309F}\x{30A0}-\x{30FF}\x{4E00}-\x{9FFF}]+$/u
>>972 うまくいきました!
前のやり方がダメになった理由の解説までしていただいてありがとうございます
急にそんな仕様が変更されるなんて恐ろしいんですが、教えていただいたように
丁寧に作った方がいいみたいですね
ありがとうございました
t
age
test
正規表現でやることを諦めるのは どういうお題が出た時ですか? 1.正規表現では不可能 例・・・○○ 2.正規表現で頑張ればやれるが、複雑になるからやらない。 例・・・○○ 1,2の例の部分を教えて下さい。
不可能かどうかは数学的にわかってるのでちゃんと勉強してください。 できるはずだけど複雑だからやらないのは条件に否定が入るとき。 実際には何が何でも使おうとしてある場合は諦めるって言うよりは、 使って簡単にできそうなときに使うって感じかなぁ。
!ninja
980 :
nobodyさん :2012/09/18(火) 03:34:48.70 ID:8HJfmbgZ
そろそろ次スレ?