Regular Expression(正規表現) Part12
1 :
デフォルトの名無しさん :
2013/12/17(火) 14:19:52.00
スルーされにくい質問のテンプレと例 ●Regular Expressionの使用環境 Java1.5 ●検索か置換か? 検索 ●説明 各行の1番目のAまでを検索したい ●対象データ ABCA BCAA CABA ●希望する結果 ABCA ^ BCAA ^^^ CABA ^^ ※ ^ はアンダーラインだそうな ^^;
乙
スレ建ておつ
8 :
デフォルトの名無しさん :2013/12/17(火) 20:55:54.43
APAスタイルで書かれた参考文献から各フィールドを抜き出したいんだけど、正規表現でやると楽? 著者不明や日付不明、その他タイトルがあったりなかったりするけども。 Perlで最終的にデータベースに流し込みたい。
APAスタイルってなに
10 :
デフォルトの名無しさん :2013/12/17(火) 21:33:24.69
江南スタイルのことです。
海外の論文読んだらAPAで書いてあるやつ結構あるだろ
なんだ。 論文読んだことのない奴には 分からない話か。
13 :
デフォルトの名無しさん :2013/12/17(火) 22:24:05.27
APAスタイル調べてみたけど難しそう 切り分けと判定は別にしたほうがいいような
14 :
デフォルトの名無しさん :2013/12/17(火) 22:41:19.96
●Regular Expressionの使用環境 Perl ●検索か置換か? 検索 ●説明 ミドルネームを含む名前も、ミドルネームを含まない名前も分解して抽出したい また、名前の区切りはスペースやドットなど色々なものに対応したい ●対象データ Edward Snowden Edward.Joseph.Snowden エドワード・スノーデン エドワード=ジョセフ=スノーデン ●希望する結果 (値を入れているわけではなく、$1〜$3に入っていて欲しいものです) $1 = "Edward" $2 = "" $3 = "Snowden" $1 = "Edward" $2 = "Joseph" $3 = "Snowden" $1 = "エドワード" $2 = "" $3 = "スノーデン" $1 = "エドワード" $2 = "ジョセフ" $3 = "スノーデン"
16 :
デフォルトの名無しさん :2013/12/18(水) 00:11:20.15
>>14 どうしても$1〜$3に入ってなきゃダメかね?
my $fname;
my $mname;
my $lname;
if ( $buf =~/([a-zA-Z]*)[\s\.・==]([a-zA-Z]*)[\s\.・==]*([a-zA-Z]*)/ ){
$fname = $1;
if (length($3)==0){
$lname = $2;
}else{
$mname = $2;
$lname = $3;
}
}
>>14 先ずは正規化して、どれかのルールに置き換えた方がいいと思う。
sub namechk{ $buf=shift; #引数として名前を受け取る if ($buf=~/(.+)(\s|\.|=|・)(.+)(\s|\.|=|・)(.+)/){ return ($1,$3,$5); }elsif ($buf=~/(.+)(\s|\.|=|・)(.+)/){ return ($1,"",$3); } } こっちのほうがいい。
20 :
デフォルトの名無しさん :2013/12/18(水) 00:58:54.76
正規化しろ
21 :
デフォルトの名無しさん :2013/12/18(水) 01:01:51.51
正規化しろ
正規表現縛りな奴って何考えて生きてんの?
正規化したら1行余計なものが増えるじゃん sub namechk{ $buf = shift; $buf =~s/(\s|\.|=|=|・)/"."/meg; if ( $buf =~/(.+)\.(.+)\.(.+)/ ){ return ( $1 , $2 , $3 ); }elsif ( $buf =~/(.+)\.(.+)/ ){ return ( $1 , "" , $2 ); } }
@namearr = split( /(\s|\.|=|=|・)/ , $name ); とかそういう話じゃなくて?
すいません、2chを普通のブラウザで開いたときみたいに リンク踏んだら確認画面が出て、確認画面のリンクをクリックしたら別ページに飛ぶ、 というのは正規表現でできるのでしょうか? PHPです
正規表現にもPHPにもクリックなんて概念はない エスパーするとHTMLの勉強から始めるべき。
27 :
25 :2013/12/18(水) 22:54:58.53
>>26 いえ、HTMLのリンクタグがあるじゃないですか
投稿のときはHTMLのリンクタグを書いてなくてもURLを投稿するだけでリンクタグが適用されるじゃないですか
28 :
デフォルトの名無しさん :2013/12/18(水) 23:15:24.49
要はurlをリンクタグにすればいいだけか?
釣りなのか本当にバカなのかわからん質問が多い板だぜまったく
>>27 リンクじゃなくてアンカーだと思うが。
それなら、置換対象となる文字列と、置換後の期待するアンカー要素を提示すれば答えられるのでは。
ということが
>>2 に書いてある。
PHPの正規表現を知らないからPerlで
$txt=~s/(
http:[a-z] )/"<a href='$1'>$1</a>"/;
33 :
デフォルトの名無しさん :2013/12/19(木) 19:00:10.10
http ttp https ttps ftp 辺りかな
>>31 mailtoもあるし、geoとかtelとか独自っぽいものもあったりなかったり。
35 :
デフォルトの名無しさん :2013/12/19(木) 19:44:40.19
mailtoはリンクタグの中にしか書かないからURL文字列のリンク化には必要なくない?
URLとメールアドレスの違いってなんだっけ 文章に含まれてるURLっぽい部分が URLかメールアドレスか判別するのって 正規表現でできるかね
書けないわけじゃないだろ。 メールの署名とかに書くぞ。 単にURLと見做す補完機能が仕様にないだけ。それは正規表現の問題ではない。
38 :
デフォルトの名無しさん :2013/12/19(木) 20:03:41.12
$line =~s/((http|ttp|https|ttps|ftp|url|mailto):[a-zA-Z0-9\$\-\_\@\.\&\+\!\*\"\'\(\)\=\;\/\#\?\s])/"<a href='$1'>$1</a>"/eg;
39 :
デフォルトの名無しさん :2013/12/19(木) 20:25:27.40
+が抜けてるんだろ $line =~s/((http|ttp|https|ttps|ftp|url|mailto):[a-zA-Z0-9\$\-\_\@\.\&\+\!\*\"\'\(\)\=\;\/\#\?\s]+)/"<a href='$1'>$1</a>"/eg;
[]の中はエスケープ不要なんじゃなかった。言語の方のエスケープなのかな。
42 :
デフォルトの名無しさん :2013/12/19(木) 20:41:06.60
試してみたけどエスケープないとエラーが出た。 Perlの仕様だと思われ。
\sが余計なんだろ $line =~s/((http|ttp|https|ttps|ftp|url|mailto):[a-zA-Z0-9\$\-\_\@\.\&\+\!\*\"\'\(\)\=\;\/\#\?]+)/"<a href='$1'>$1</a>"/eg;
45 :
デフォルトの名無しさん :2013/12/19(木) 21:57:08.85
>>44 こういう正規表現って毎回書くの?
それとも関数作って関数の中にこれ一行だけ書くの?
>>45 どちらがわかりやすいかで考えれば
答えは自ずと出てくるだろ。
ここってUnEditorの正規表現の質問もOK?
>>45 「こういう」が何を指してるか知らんけど、今はサブルーチンにしてしまうのが一般的。
サブルーチン作ると重くなるとか言ってたマシンスペックの低い時代ならマシンスペックと相談だろうね。
今はマシンスペックがかなり高いから、余程のことがない限り可読性重視。
あと、保守性の問題もある。
例えば
>>44 の正規表現からftpを外そうと思ったときに、あちこちに同じ正規表現があったら全部変更していく必要がある。
サブルーチンにしておけば1箇所変更すればよい。
49 :
デフォルトの名無しさん :2013/12/19(木) 22:50:21.72
50 :
デフォルトの名無しさん :2013/12/19(木) 23:25:32.19
●Regular Expressionの使用環境 Perl 5.10.1 ●検索か置換か? 置換 ●説明 CSSにおいて、任意のクラスの任意の項目を変更したい ●対象データ ・・・ここまで他のクラス・・・ .test{ background-color: #ffffff; color: #000000; padding: 0px; margin: 0px; } ・・・ここから他のクラス・・・ ●希望する結果 例えば、testクラスのpaddingを4pxにしたい ・・・ここまで他のクラス・・・ .test{ background-color: #ffffff; color: #000000; padding: 4px; margin: 0px; } ・・・ここから他のクラス・・・ (クラス内部でインデントのために全角スペースを使っていますが、実際の運用ではタブ1つ分です) (クラスによって項目の数が違います)
52 :
デフォルトの名無しさん :2013/12/20(金) 03:47:57.61
s/(\.test\{[^}]*padding:\s*)[^;]+/$14px/g;
part10 1340383120.dat 2012/06/23(土) 01:38:40.22〜2013/03/12(火) 22:57:24.75
part11 1362913813.dat 2013/03/10(日) 20:10:13.34〜2013/12/19(木) 20:34:23.12
偽スレ 1363769640.dat 2013/03/20(水) 17:54:00.46〜
part11が立ってから10日遅れ
part10が埋まってからでも8日遅れ
もう重複とかいうレベルですらなく、ただの荒らしだな
何が嫌でこんな宣伝してるのか……part10終盤を再現したいとか?
http://toro.2ch.net/test/read.cgi/tech/1363769640/102 102 名前:デフォルトの名無しさん[sage] 投稿日:2013/12/17(火) 18:44:06.65
重複重複うるさいから確認してみたら、
正規の次スレが立って1週間以上経ってからこの偽物スレが立ってる。
どう考えても確信犯。
このスレを立てたのは恐らく本物のキチガイ。
>>54 スレタイを勝手に変えてしまったから、どちらとも言えないけどね。
なんとかスタンダードとやらで、こちらが正統でいいんじゃないの。
56 :
デフォルトの名無しさん :2013/12/20(金) 16:49:34.58
正規表現って環境依存のイメージだけど、いわゆる「正規表現」ってあるの? 例えばC言語でも、 コンパイラの独自拡張を除いたいわゆる「C言語」ってあるじゃん。 そういう意味でいわゆる「正規表現」ってあるの?
>>56 POSIXとかPCREのこと?
CもANSI C89とかいろいろあるでしょう。
58 :
デフォルトの名無しさん :2013/12/20(金) 19:07:50.28
>>56 Posix正規表現だけでもSRE、BRE、EREと3種あるくらいで所謂とか本家とかは
聞いたことないですね。
C++11でEcmascriptの正規表現もサポートとしていることや、利用者数、使い
やすさ等を鑑みてJSの正規表現を中心に考えてみてはどうでしょうか。
自分の製品に正規表現エンジンを組み込む場合は。
>>52 短くていいな。
俺も昨日ちょっと考えてたけど、もうちょい長くなった。
60 :
50 :2013/12/20(金) 22:57:20.64
>>52 ありがとうございます!
もう少しでCSSを解析してハッシュの配列にしてからやるところでした!
>>55 part10終盤の様相からしたら仕方ない。
スレタイ変えた程度であの手の馬鹿が引っ込むってのも不自然だが、
自演だとしても質問スレ系みたいに変なルール追加されたわけでもなさげだし。
パーサとかって内部では正規表現使ってパースしてんのかね? 何のパーサかにもよるだろうけど、RSSのパーサとか
正規表現も使っているが、 正規表現だけでは限界があるので 単語の判断ぐらいに使ってる。
>>62 RSSのパーサってか、XMLのパーサだな。
そもそも正規表現自体が形式言語理論畑の言葉・概念がパターンマッチに流用されたものだからなぁ… 正しい定義で言うといわゆる正規表現は正規表現と呼ぶべきではないとか言う事になりそうですらある 逆にいわゆる正規表現とは全く異なるBNFとかの方が元の定義で言う正規表現らしかったりすらする程 そしてXMLはExtended BNFで定義されてるから、Extended BNFを正規表現と呼ぶならXMLパーサ=正規表現処理エンジンという事に 真面目に実装の話に戻ると、何らかの正規表現言語で言語を定義してそれをパーサジェネレータに食わせてパーサ作ったりするはず ここで使う正規表現はいわゆる正規表現で無い事も多いが、正規表現を使っているといえば使っている 出力されたパーサには正規表現が含まれ・・・・・・ないんじゃないかなぁ・・・・・・
JScriptのエンジンって何?
68 :
デフォルトの名無しさん :2013/12/22(日) 00:37:07.32
質問です C言語のソースコードに以下の条件に従ってスペースを入れたいのですが正規表現でどう書けば良いでしょうか? 1. 関数のカッコの中では、カッコの前後、及びカンマの前後に半角スペースを1つ入れたい 2. 但し、関数の中で文字列が引数になっている場合、その文字列に含まれるカッコやカンマの前後には何も入れない 3. 但し、ソースコード全体では、既に希望通りの半角スペースの入っている部分と、まだ入っていない部分がある 鬼車5.9.2です よろしくお願いします
69 :
デフォルトの名無しさん :2013/12/22(日) 01:05:58.47
>>66 正規表現は文字列の集合を表すもの。
BNFは文脈自由文法を表すもの。
従って、正規表現で表現できるものはBNFでも表現可能だが、逆は真でない。
例えば、XMLの文法を表現するのにBNFが使えるが、正規表現では無理。
BNFは正規表現ではないの?
71 :
デフォルトの名無しさん :2013/12/22(日) 01:19:10.65
BNFが正規表現であると定義する世界ではORだけあれば全ての言語を記述できる。 可能なすべてのパターンをORでつなげばいいから。
>>69 あー、右正規文法か左正規文法を表現するのが正規表現で、
文脈自由文法は右正規文法と左正規文法を同時に含みうるのか。
ただどっちにしてもそこで言う正規表現ってこのスレで扱う正規表現じゃ無くてその元ネタの方だよね。
73 :
デフォルトの名無しさん :2013/12/22(日) 01:25:47.38
君は何が何でも自分が正しいと主張したい人のようだね。
74 :
デフォルトの名無しさん :2013/12/22(日) 01:26:53.77
でも結局のところ、Ajaxとかで取得したRSSをJSで加工するときは正規表現使うよな
76 :
デフォルトの名無しさん :2013/12/22(日) 01:48:18.97
>>67 JavaScriptの正規表現エンジンはブラウザ独自。
だからIEで挙動が違ったり、Chromeが正規表現のエンジンを高速化したりということがある。
何年か前からブラウザは動作速度合戦になって、各ブラウザ共色々テコ入れしてる。
JavaScriptとその中の正規表現エンジンもかなり動作速度に影響するから当然テコ入れ対象。
77 :
デフォルトの名無しさん :2013/12/22(日) 01:51:07.17
EMCAで規格が決まっています。
78 :
デフォルトの名無しさん :2013/12/22(日) 02:54:20.70
規格とエンジンは別だろ 規格に基づいてエンジン作るわけだから
79 :
デフォルトの名無しさん :2013/12/22(日) 02:57:41.75
Wikiって文法解析してHTML生成してるけど、あれは正規表現で解析してるの?
80 :
デフォルトの名無しさん :2013/12/22(日) 03:06:17.95
念のためにきくけど、正規表現で住所を切り分けるのって無理だよな
81 :
デフォルトの名無しさん :2013/12/22(日) 03:20:59.29
82 :
デフォルトの名無しさん :2013/12/22(日) 03:22:31.90
IEのJSの正規表現の挙動がおかしいのは昔話題になってなかったっけ。
84 :
デフォルトの名無しさん :2013/12/22(日) 10:09:35.44
>>79 全てがそうとは限りませんが、俺が見た範囲ではそうでした。
85 :
デフォルトの名無しさん :2013/12/22(日) 12:32:08.28
PHPです HTMLのIMGタグから、ファイル名と、 もし幅か高さが指定されていればそれも抽出したいです <img src="test.jpg"> <img src="test2.gif" width="200"> <img src="test3.png" width="200" height="160">
imgタグの仕様が分からなきゃ何とも言えないだろ widthはパーセント指定できるの?構文解析の仕様は?
>>85 HTMLパーサでパースしろ
そしてここには二度と来るな
88 :
デフォルトの名無しさん :2013/12/22(日) 13:00:48.21
>>68 鬼車知らんけど、
([\(,])([.\s]*?)([,\)])
かな。
89 :
デフォルトの名無しさん :2013/12/22(日) 13:25:48.13
UTF-8でマルチバイト文字にのみマッチさせる正規表現はありますか?
ASCIIの範囲以外ならマルチバイトだろ。
91 :
デフォルトの名無しさん :2013/12/22(日) 13:44:18.71
>>90 数字だったら\dで表せるけどそういう簡単なのないですか?
92 :
デフォルトの名無しさん :2013/12/22(日) 14:55:17.89
[^アスキー全文字]+
POSIX文字クラスでググレ
>>80 四日市市とかで切り分けに失敗する自信がある
廿日市市と八日市市、他に何があったかな? 仮に[^:ascii:]{1,6}市?市としても、市名の次に市が付く町名が来たら厄介だな。 POSIX使ってみた([^:ascii:]) 知らない人は「鬼車 正規表現」でググればわかる。 WSHとかでは使えないみたいだけど。
96 :
デフォルトの名無しさん :2013/12/22(日) 21:53:21.53
俺らの脳は市町村をどうやって切り分けてんだろ
>>95 四日市には市場町という地名があるようだ…
98 :
デフォルトの名無しさん :2013/12/22(日) 23:06:47.37
ワラタw
99 :
デフォルトの名無しさん :2013/12/22(日) 23:10:22.38
結局ブラウザごとにJSの正規表現エンジンって違うの?
>>80 >>95 もう既存の市町村名から正規表現生成するスクリプト作ってしまったほうが良い気が
>>101 既存の市町村名全部持って、普通にマッチングした方がいいだろ...
103 :
デフォルトの名無しさん :2013/12/23(月) 14:36:10.76
これだけ注意すればよさそうだな 四日市市 野々市市 廿日市市
104 :
デフォルトの名無しさん :2013/12/23(月) 14:39:25.15
プログラマを救うために住所表記に対する正規表現の使用を禁止する法律が求められている
107 :
デフォルトの名無しさん :2013/12/23(月) 19:50:41.11
108 :
デフォルトの名無しさん :2013/12/23(月) 23:14:24.79
引数になってる文字列のコンマを別のものに置き換えて、 それからやったらどうよ それでソースコードのコンマを処理し終わったらもとに戻す [[comma]]とか
109 :
デフォルトの名無しさん :2013/12/23(月) 23:53:19.75
文字列の中に[[comma]]があったらどうする気だ。
>>102 大差なくね?
ああまあ市町村名DBをそのまま食わせられるからメンテ楽ってのはあるか…
しかし一度regexp.exec(str)すれば即結果が得られるってのもそれはそれで楽
>>104 古い住所入れる奴が居るから・・・
>>108-109 メタ文字決めて先にメタ文字のエスケープしろよ、定番だろ。
111 :
デフォルトの名無しさん :2013/12/24(火) 15:37:26.19
クリスマス関連の文字列を見たくないからネットサーフィンの際に クリスマス関連の文字列でマッチしてクリスマス関連の文字列を含むウェブページをフィルタリングしたいのですが どういう正規表現で書けばいいでしょうか
ブラウザの設定をアラビア語とかペルシャ語にしたらどうだい
114 :
デフォルトの名無しさん :2013/12/25(水) 12:13:30.69
s/.*(クリスマス|X'mas).*/あぼーん/g
115 :
デフォルトの名無しさん :2013/12/25(水) 13:17:37.81
Perl 痴漢 $1200.00 \24980000 3桁ごとに「,」を入れたい $1,200.00 \24,980,000
116 :
デフォルトの名無しさん :2013/12/25(水) 18:08:29.45
s/(\d\d\d(\.|$))/,$1/
>>117 プログラミングの役に立たない無意味な正規表現を作る能力で何の能力を測るのかが不明。
正規表現を使ったただの遊びで、 何か測るとか 考えすぎっつーか余裕なさすぎ
>>117 ちゃんとマッチする物作って、点数が低いとかよくわからん。
マッチさせないギリギリを狙うゴルフなんだろか。
122 :
デフォルトの名無しさん :2013/12/26(木) 15:39:20.51
じゃあお前書いてみろよ
>>120 パターンの文字数が少ない方が点数が上がる
ドット使いまくり
124 :
デフォルトの名無しさん :2013/12/26(木) 16:07:49.11
Plain strings (205) Anchors (204) Ranges (202) Backrefs (197) Abba (183) A man, a plan (165) 素数の逆転がうまくいかねー
>>117 これ解析して正規表現を生成するプログラムは書くことできる?
>>123 なるほど、fooとか入れてくのね。
ありがd。
>>126 Prime(0) を生成するプログラムお願いします。
Plain strings (207) foo
>>124 ^(xx+?)\1+$
の逆だから素直に
^(?!(xx+)\1+$)
すいません。VBScriptで 抽出した文字列にダブりがあります。 例: AAA BBB AAA CCC BBB CCC これを AAA BBB CCC のように抽出し直すにはどうすればいいでしょうか?
>>131 cat text.txt | sort | uniq
>>132 重複を削れといっているようだが、整列し直せとは言っていない。
>>131 正規表現スレだぞ
根本的に勘違いしてる
死んで良いよ
137 :
デフォルトの名無しさん :2013/12/28(土) 12:31:59.03
>>133 cat text.txt | sort | uniq
uniqの部分をしっかり見ろよ
AAA AAA AAA AAA BBB BBB BBB BBB AAA CCC CCC CCC CCC BBB BBB CCC CCC CCC この方法だとuniqしたく無い場合に良い。
139 :
デフォルトの名無しさん :2013/12/28(土) 12:43:27.01
整列が要件に入っていないのに勝手に整列させるのはまずいって言いたいんじゃないの? するとsortが使えない、ゆえにuniqが使えないとなって破綻する。 UNIXのコマンドって微妙に使えないのが多くて、微妙に違うだけの同じ目的の コマンドが多くて困る。 解決案として要件の変更が必ず提示されるのも困る。 それでUNIXは廃れたんじゃないかな?
KISSの精神を体現したのがMac。
>>139 要件に入ってない範囲なら整列するもしないも自由なのが常識。
有るものを押し付けるのがUNIX、お客様の要望するものを用意するのが Windows。
>>139 それは使いこなせてないんだろ。
Unixのコマンドは90%の解決を目指してる。その方が使いやすい。
自分の要件に合わせた、それにしか使えないコマンドが欲しいならプログラムすればいい。
145 :
デフォルトの名無しさん :2013/12/28(土) 14:11:57.43
UNIXのコマンドは微妙に使えないのが使いやすい。 使わなくて済むからだ。 〜ジャーゴンニュースより抜粋〜
>>143 /d
この修飾子は、パターンマッチングの際にプラットフォーム固有のロケール(ASCIIなど)を使用するように指示する。
ただし、Unicodeを使うべき理由がある場合はこの設定はそちらが優先される。
この修飾子が具体的にパターンマッチングにどのような変化をもたらすかを以下のサンプルで示した。
/l
この修飾子は、パターンマッチングの際に現在のロケール設定を使用するように指示する。
このロケール設定はコンパイル時のロケールと同じであるとは限らず、
setlocale()を用いて任意のロケール設定を用いることができる。
/u
この修飾子は、パターンマッチングの際にUnicodeのルールを使用するように指示する。
>>141 すでに抽出した行と同じ行は除外するというのが最も自然な
アルゴリズムなので、それを期待している可能性が高いから
整列は避けるというのが一番自然。
148 :
143 :2013/12/28(土) 15:17:11.45
>>146 おお、ありがとうございます。マジで助かりました。
おかげ様でperl 5.14.1の正規表現ルールを全部覚えられました、感謝〜。
149 :
デフォルトの名無しさん :2013/12/28(土) 15:18:54.48
>>147 普通プログラムの問題だとsort()だけで重複が取れたりするから、 sortするのが当たり前だと思う。 ただ実務では300行に1行重複した行が紛れ込んでそれを削るという ケースがほとんどだから、絶対にsortを掛けたりしないもんだけど。
151 :
デフォルトの名無しさん :2013/12/28(土) 18:44:49.26
Regular Expressionと関係ねえからよそでやれ
そもそも要件に「VBScriptで」って入ってる段階でINIXコマンドは使えないって思うもんじゃね?
>>152 そこはまぁCygwinとかMinGW+MSYSとかgnuwin32とかの各コマンド入れればいいって話になるんじゃね。
まぁどのみち正規表現じゃないからVBScriptの相談できる場所で聞けよて終わりなんだけど。
>>152 「VBScriptで作ったデータの処理」であって「VBScript で処理しろ」とは書いてないけどな。
まあ、一回きりなら Excel でもいいかもしれないし、VBScript で完結させたいなら Dictionary 使うのが楽。
ひとこと、 「正規表現ではできません」でいいのでは。
perlならいろんなアクセスの仕方があって遊べる問題なんだけどなぁ。 VBSでやるとしたら正規表現の出番は ^.*$ くらいしか無いんじゃ・・これすら必要無いか・・
無理矢理正規表現でやるなら 1、最終行が1行目になるように順番を逆さまにする 2、s/^(.*)$(?=[\s\S]*^\1$)[\r\n]*//g; 3、1をする これで順番通りの結果になる。
158 :
デフォルトの名無しさん :2014/01/03(金) 02:42:43.46
Twitterの自分のツイートをデータベースに入れていきたいんだが 公式から正規表現で解析できる?
API叩けば?
160 :
デフォルトの名無しさん :2014/01/03(金) 19:20:28.19
英文の中から特定の単語を含むセンテンスを抽出する方法を教えてください 環境はPerlです
>>160 センテンスごとに特定の単語を表す正規表現がマッチするか調べる。
>>160 センテンスの開始と終了を正規表現で表し、「特定の単語」をその間に挟む
>>160 $text = '英文';
$keyword = '特定の単語';
$regex = qr/(?:\G|[.?!;])\s*((?=[^.?!;]*\b$keyword\b)[^.?!;]+(?:[.?!;]|\z))/;
while ($text =~ /$regex/g) {
print "$1\n";
}
() や "" などの中に文章が再帰的に書かれているようなものは考慮していない.
3.14
>>166 こういう計算方法って初めて見た。なんて名前の学問?なんだろう。
PowerShellスクリプトで仮想ドライブイメージのファイルパスを入力した後に、 パス文字列として正しいかどうかのチェックをしたくて次のようなコードを使ってみました。 Write-Host "マウントする仮想ディスクイメージのパスを入力" Write-Host "例: X:\VHD Images\example01.vhdx" $ImagePath = Read-Host "場所" $ImagePath = $ImagePath -Replace "`"","" Write-Host "入力したパス: "$ImagePath If($ImagePath -inotmatch "[a-z]`:`\[^/:*?`"<>|]+`.vhdx?") { 【TAB】 Write-Host "正しい形式のパスではありません。" } Else { 【TAB】 Write-Host "OK" } しかし、いくら正しいパスを入力しても「正しい形式のパスではありません。」が返されてしまいます。 コード中の正規表現部分はご覧のとおり [a-z]`:`\[^/:*?`"<>|]+`.vhdx? で、 一応ウェブ上の「PHP正規表現チェッカー」とJane用の「ReplaceStr Tool」では問題ありませんでした。 エスケープ文字が\ではなく`という点にも気を付けてチェックしました。 ここまでやってみましたが、問題点の洗い出しができすに困っています。 「OK」を返されるにはどうしたらいいのでしょうか? 尚、Test-Pathコマンドレットの利用はここでは扱わないものしてお願いします。
"[a-z]:\\[^/:*?`"<>|]+\.vhdx?"
>>170 あれ?エスケープ文字は`だってあっちこっちに書いてあるからその通りにしてたけど、それで動くんですね。
どうもありがとうございます。
最後に $ 付けないと誤爆しそう。 "例: X:\VHD Images\example01.vhdx.damy" あと 「ReplaceStr Tool」 は対象テキストの改行が無視される仕様なので 改行を含むテキストにマッチさせたいときはご注意を。
>>172 ありがとうございます。
自分用に使う分には誤爆の心配は一応無いのでいいのですが、きっちりやる時はそうですね。
おっしゃるとおり、ReplaceStr Toolは1行だけのテストにしか使えませんね。
まだ試してはないけど、ベクターにも何やらありますね。
174 :
デフォルトの名無しさん :2014/01/11(土) 20:59:48.36
C言語のプログラムのソースから宣言されてる全変数を抜き出す正規表現を教えてください
正規表現じゃ無理
>>174 変数宣言に関する言語の文法とあなたのコーディングルールを全て列挙できたら考えないこともない。
あとプリプロセッサとコメントは禁止で。
どぞっ。
int foo, *bar, baz[8]; char *tai_pei64, honkon32[32]; とりあえずこれだけで考えると int、charで始まる行で、a〜z、A〜Z、0〜9、_、*を含む部分か? 関数を除外するには"("を含んだ行なら無視するか。
目的が分からんけど ctagsとか使ったほうが現実的なんじゃないの
180 :
デフォルトの名無しさん :2014/01/16(木) 13:18:43.71
age
181 :
デフォルトの名無しさん :2014/01/16(木) 19:04:22.39
htmlファイルから、画像リンクの画像のディレクトリだけ取得する方法を教えてください
ターゲットのhtmlのソースを読む
定期的にHTMLのパースに関して質問してくる奴が居るが同一人物か?
・文字列を含まない正規表現 (先読みはNG) ・再起を使った正規表現 (??{code})はNG これ作って面白い正規表現のベスト1、2なんだけど使える人が少なすぎる。 もっと普及させようよ。というかまず使えるようになってくれよ。
上は機械的にやるだけだし、作成するのあるのでそれ使えばいいが、なんか本末転倒な気持ちがする。 再*帰* は、すべての正規表現環境で使えないし。
まぁ面白いと思う人がいれば..だね。ある種のゲームだと思うんだが。
●Regular Expressionの使用環境 ruby ●検索か置換か? 置換 ●説明 行中の改行を削除したい 以下でやると改行だけでなく改行の前の一文字も何故か消えてうまくいきません 対象データの場合は「元」が消えてしまいます ruby -e 'puts open("input.txt").read.gsub(/[^。¥n]¥n/,"")' > output.txt ●対象データ こんにちはお元 気ですか。 私は元気です。 ●希望する結果 こんにちはお元気ですか。 私は元気です。
190 :
デフォルトの名無しさん :2014/01/18(土) 03:14:41.62
何故か消えてじゃねえよ池沼かよ [^。\n]の意味考えてから投稿しろカス
>>189 「行中の改行を削除したい」は矛盾した表現。
「文字列中の改行を削除したい」か「行末の改行を削除してひとつの文字列にしたい」
だと思う。
「句点の直後にない改行を削除」だろうな (?<!。)\n
193 :
189 :2014/01/18(土) 10:19:24.32
[^。¥n]は句点のある改行以外の文字と一致することをようやく理解できました 勘違いしていました 192様のやり方でできました みなさまありがとうございました
194 :
デフォルトの名無しさん :2014/01/18(土) 10:42:29.07
理解できてねえな これはガチ池沼に見える
どう考えても、素人に対して、回答もせず難癖つけてるアホの方がそう呼ばれると思うがな。
196 :
デフォルトの名無しさん :2014/01/18(土) 11:25:24.11
池沼がそう思って自己満足していればいいんじゃね 誰も困らないしね
197 :
デフォルトの名無しさん :2014/01/18(土) 11:38:53.05
くやしいのう
199 :
デフォルトの名無しさん :2014/01/18(土) 14:10:17.09
煽れば教えて貰えると思うようじゃ死ぬまで無理だぞ(笑)
またオライリーの本が理解出来るほど頭良くない人が暴れてるのか。
>>195 難癖っつかツンデレだろ
190「[^。\n]がどういう意味を調べれがそうなった理由がわかるよ」
194「[^。\n]の意味を誤解している。もう一回ちゃんと理解してみよう」
実際[]の意味を適当な解説から丸写しするくらいしか説明する事ない。
俺はもうオートマトンの勉強始めたというのにおまえらは・・ 低レベルのダンジョンをいつまでもウロウロしてもしょうがなかろう。
204 :
デフォルトの名無しさん :2014/01/18(土) 18:30:16.63
オートマトン厨か
見なくていいように、
>>205 のタイトルはこれ
【クイズ】狼とヤギと野菜を川の向こうに無事に運ぶ方法を求めよ
今まで知らなかったってとこでお察し
俺が興味あるのは正規表現だけでそれ以外の技術にはまったく興味無いから。 perlの正規表現は誰も使わないようなメタ文字類まで使いこなせるがperlそのものはまるで知らない。
211 :
デフォルトの名無しさん :2014/01/19(日) 07:33:31.67
アッー
俺はもうポケモン卒業したというのにおまえらは・・
>>208 厨学生はお気楽でいいな
まあその餌では誰も釣れんが
・文字列を含まない正規表現 ・Ardenの規則 ネットには正しい解説が見当たらなかった2つ。どうやらこの辺がネット独学(笑)の限界らしい。 大学レベルの内容すら出てこないとはな、ネットのレベル低すぎる・・。
まあ、ネット使ってる大学生はないから仕方ないよw
んだね、さて、寝る。
海外のpdfが読めてないのがわかるなw ネットのレベルが低いだと? 井の中のカワズちゃんは、島国の中心で哀でも叫んでろ
最初に拾った棒切れで一晩子犬を叩いていたら 大人にうるさいと言われたでござるの巻
>>217 英文で何か書いてるサイトがあることは随分前から知ってるよ。
ただ英文なんて読んでらんねーからノーカウント。そんなん読むくらいなら普通に本買うわ。
インターネットのレベルの話からずれましたね
英文に関しては俺のレベルが低すぎるのを認めざるを得ない。あと数学も。 正規表現でぐぐると行列が出てくるサイトがあるんだがさっぱりだ。
鳥肌レベルで気持ち悪いわ
偏差値40無かったしな、許せ。
うお、雑技の中の人ありがとう!地味に嬉しい。
XXXXXfoo → XXXXX. XXXXXfoo → XXXXXfo. うーん。。 この説明はちょっとというか、かなり分かりにくい。最後のピリオドがメタ文字に見えたし・・。 読む人の中でこの説明を理解出来る人はほとんどいないと思う。
否定は、正規表現でやりたくない内容ランキングのトップクラスだよな。
"xyz" みたいに文字が被らない否定ならまだいいけど、"xyx" みたいに文字が被る場合の否定は 即答出来る人はほぼいないんじゃないかな。頭の体操としては面白いんだけどね。
雑技の中の人、わがまま聞いてくれてありがとう〜m(_ _)m
>>231 の答え ^(?:[^x]|x+y*[^xy])*(?:x+y*)?$
234 :
デフォルトの名無しさん :2014/01/22(水) 22:42:26.46
HTMLからタグや不要な部分を取り除いたら、 空白だけの行とか、虫食い状態になってしまったんですが、 どのようにすればいいでしょうか? 自分は、pythonですが、pattern = r"^\s*\t*(\r)?\n$" としてまずは空白行を取り除こうとしました しかし、失敗しました アドバイスいただけたらと思います
>>234 \n にマッチさせるなら $ を使う必要はないのでは。
$ は \n の直前にマッチする。
つまり $\n が本来の書き方。
236 :
デフォルトの名無しさん :2014/01/22(水) 22:50:17.11
俺なら[\s\n]+\nを\nに置き換える
>>234 \s*\t* は \s* と同じ意味。\s はタブにもマッチする。
>>236 それだとファイル先頭の行が空行だったら消せないね。
238 :
デフォルトの名無しさん :2014/01/22(水) 23:37:30.99
皆さん、アドバイスありがとうございました アドバイスを参考に、^[\s*(\r)?\n]+(\r)?\nとかを\nに変えてみました しかし、やはりダメでした 検索しても、いい情報が出てきませんでした 思っていたより難しいですね...
将棋のルール覚えるみたいに初めはちょっと大変だよ。 まずは a を b に置換出来るかどうかから始めたほうがいい。
240 :
デフォルトの名無しさん :2014/01/23(木) 09:57:52.30
あれ?wwwwww偽スレ削除されてたなw ざまぁwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww 誘導に対して荒らしだのNGだのほざいてたゴミ乙wwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww ああいう奴らが社会の底辺で足引っ張ってるんだろwwwwwwwwwwwwwww どうせプライドのかけらもない恥知らずだからこのスレになに食わぬ顔で書いてるんだろうなwwwwww 本当に思考回路歪んでるし生きてる価値がないんだから氏ねばいいのにwwwwwwwwwwwwwwwwww 偽スレの正統性を主張してたみたいに現実社会でも意味不明な狂った主張をしてるんだろwwwwwwwwwしかも自覚なしwwwwwwwwwwwwwww 迷惑だから早く芯でねwwwwwwwwwwwwwwwwwwwwwwww
242 :
デフォルトの名無しさん :2014/01/23(木) 14:11:58.39
ゴミゴミゴミゴミゴミゴミゴミゴミゴミゴミゴミゴミゴミゴミゴミゴミゴミゴミゴミゴミゴミwwwwwwww
ぶっちゃけ、あんなハッタリに引っ掛かって大人しくなるほどアホだとは思わなかった。 どんだけピュアハートなんだよ。
草生やす程楽しいか? 削除されることは最初から分かってただろうに。 削除されるべくして削除されただけ。
245 :
デフォルトの名無しさん :2014/01/23(木) 20:49:54.40
ゴミ
まぁここはキチガイ隔離スレだから我々はあちらで粛々とスキル向上に励みましょう。 このスレは糞質問の雨嵐を受ける傘スレ。
ワロタw 知らないままでいなさいな。
>>247 分かってないな
わざわざこっちに来てまで荒らすってことは
あっちを荒らしてくれってことだよ
初心者に分かりやすいのは単純な分岐。 (a\*|b\*|c\*|a|b|c) *付きのものを前に書かないといけません。(順番大事)
>>250 むこうのスレの90です。
勉強になります。ありがとうございます。
おそらく私の質問に関するレスだと判断しましたので
レスをさせていただきました。
いえいえ、次からはこちらで質問したほうが回答もらいやすいです。では。
DirectCast(12UI, UInt32Value) から 12UI を取り出す正規表現を教えてけろ。\( \)を使おうとしたのだが、 文字列の中にもともと入っている()があるのでうまく行かん。
>>253 どういう正規表現だとどういうのがうまく行かないのか書け
>>253 エスケープしろ、またはするな。
どちらかは環境による。
256 :
デフォルトの名無しさん :2014/01/27(月) 14:36:23.65
DirectCast\((12UI), UInt32Value\)
みなさんありがとうございます。
>>256 教えていただいた方法で出来たのですが、
例に挙げた12UIだけではなく、以下のように数字が一般の整数の場合、
DirectCast\(([0-9].UI), UInt32Value\)
のようにしてみたのですが、マッチしません。
DirectCast(14805UI, UInt32Value), _
DirectCast(8010UI, UInt32Value) _
DirectCast(1UI, UInt32Value), _
DirectCast(152511UI, UInt32Value)
どうしたらよいでしょうか?
環境はサクラエディタの置換コマンドです。
>>258 できました。数年ぶりに正規表現使ったので間違えていました。
ありがとうございました。
ヒントを与えると後は自力で頑張る良い質問者
261 :
デフォルトの名無しさん :2014/01/27(月) 20:51:42.26
正規表現のテクニックをマスターできるチュートリアルって無い? 手を動かすだけでできるようなやつ
手を動かすだけ 正規表現 でググると出てくるサイトがあるが、数回動かして終わりで意味なし。
●Regular Expressionの使用環境 Javascript ●検索か置換か? 置換 ●説明 '1'を含まないABCからDEFまでを削除したいです ●対象データ ABC 1 DEF ABC 2 DEF ABC 3 DEF ●希望する結果 ABC 1 DEF
s/Javascript/Dart/g
>>263 「'1'を含まないABCからDEF」というと対象データでは2パターン考えられる.
A) 2の前後,と,3の前後
B) 2の前のABCから3の後のDEFまで
おそらくAだとして,
str = str.replace(/ABC[^1]*?DEF/g, '');
「123」 を含まない場合 → ABC(?:(?!123|DEF).)*DEF 否定の中にもDEFを書くのがミソ。
>>266 最短一致を使えば否定の中にDEFを書く必要はなくなる.
ABC(?:(?!123).)*?DEF
この2つの違いが分からんかな、まぁめんどくさいからいいや。
右も左も分からん人は
>>266 推奨。予期せぬトラブルを未然に防げる。
予期せぬトラブルを説明してください
266はDEFを通り越す可能性が無いけど267は通り越す可能性を残す、と言えば分かるかな。 正規表現単体で使う分にはまったく問題ないが正規表現の一部として正規表現の中に 放り込むと問題が生じる可能性が出てくる。ある程度正規表現に慣れた人なら無意識に回避 出来るだろうが初心者の場合それが出来ないからね。
ちなみに266だと後ろを見ないマッチにしても問題ない。 分岐があると遅くなるがこれを最小限にする方法もある(詳説 正規表現参照) 上級者にもおすすめしたい書き方なのだ。
さて、向こうに帰ろう。
●Regular Expressionの使用環境 PHP ●検索か置換か? 検索 ● 文字コードを取得したい。 例) text/html;charset=ISO-8859-1 > ISO-8859-1 text/html;charset=utf-8 > utf-8 preg_match('/text\/html;charset=(.+?)/i' , $str); これだと先頭の1文字しか取れません。 自分なりに頑張ってここまでしたのでアドバイスください。
275 :
デフォルトの名無しさん :2014/02/01(土) 16:52:12.73
$
あ、なるほど行末をしめす$なわけか。 即答どうもです、助かりました。
最短マッチをやめろ
([^>]+)
カンマ付きの数値と、カンマ無しの数値の両方に対応する正規表現がほすぃ
いらね
やっぱいいや
>>42 すんごい亀だけど、-が真ん中にあるからエラーになったんじゃないの?
いくらなんでも亀すぎだろw
●Regular Expressionの使用環境 Notepad++.exe 6.53(Scintillaライブラリ,正規表現は複数行に対応してます) ●検索か置換か? 置換 ●説明 Movable Type形式にエクスポートしたブログのコメントだけを削除したいです。 "COMMENT:"で始めって"-----"で終わるのを""で置換したい ●対象データ AUTHOR: foo ----- BODY: あ ----- COMMENT: AUTHOR: bar か ----- -------- AUTHOR: foo ----- BODY: さ ----- --------
●希望する結果 AUTHOR: foo ----- BODY: あ ----- -------- AUTHOR: foo ----- BODY: さ ----- -------- 単純にCOMMENT:.*-----で検索すると最初の"COMMENT:"から"ファイル末尾の"--------"の最後の"-----"部分までが選択されてしまいます。 "COMMENT:"から最初に現れる"-----"までがヒットするようにしたいです。
>>283 すっごい久しぶりにスレひらいたから、ごめんね><
>>285 対応してるかどうかしらないけど、 .* → .*? にするといいよ
文字コードはutf-8やShift-JISのように英数字があり、一個だけ"-"が含まれていますが、 コレを正規表現で文字コードかどうかのvalidateを行うにはどのようにしたらいいですか? [a-zA-Z0-9-]+では、-----とかも通ってしまいます
290 :
デフォルトの名無しさん :2014/02/15(土) 02:03:36.42
何言ってるかよく分からないけどこれでいい? [a-zA-Z0-9]*-[a-zA-Z0-9]* ※真ん中のハイフンのエスケープは環境に合わせて
文字で出来たコードと文字を表現するコードは意味が全く違うぞ[a-zA-Z0-9]+-[a-zA-Z0-9]+
エスパーが結婚しとるw
チルドレンは俺の嫁
もじーず (きごー もじーず)* _の扱いに悩むな
面白くねー
単純に [a-zA-Z0-9]+(-|_|:)?[a-zA-Z0-9]+して、 例えばlen(str) <= 30 くらいにしとけばセキュリティ的にも大丈夫なんじゃないの? あ、正規表現の部分が全然ダメか
input="aa(?<id>でーた)aaa" →idグループを置換→ "aa置換aaa" 名前付きグループを置換する正規表現はどう書けばおk? グループ内にカッコが存在するパターンも考えると俺の頭じゃ思いつかなかった。
299 :
デフォルトの名無しさん :2014/02/19(水) 20:31:04.07
な、なんだって? ごめん、ちょっとよく聞こえなかった。 環境も聞き取れなかった。
$ echo 'input="aa(?<id>でーた)aaa"'|sed 's/(?<id>でーた)/痴漢/' input="aa痴漢aaa"
301 :
298 :2014/02/19(水) 21:50:47.96
対象:aa(?<id>でー()た )aa パターン:\(\?<id>.*?\) 結果:aa置換た )aa 対象:(aa(?<id>でーた )aa) パターン:\(\?<id>.*\) 結果:(aa置換 最短、最長使ってみたがダメだった。 不確定の正規表現のパターンを正規表現で置換は無理ゲーなのか。
正規表現の一部を正規表現でマッチさせて置換したいってことなんかな。 素の正規表現だと有限回数の入れ子しか書けないからムリだろう。 鬼車なら、 ^(?<文字集合>\[\^?(?:[^\\\[\]]|\\.)*\]) ^(?<基本表現>(?:[^\\()\[\]]|\g<文字集合>|\\.)*) これを ^(?<基本表現>(?:[^\\()\[\]]|\[\^?(?:[^\\\[\]]|\\.)*\]|\\.)*) こうして ^(?<正規表現>\(\g<正規表現>*\)|\g<基本表現>)* これを ^(?<正規表現>\(\g<正規表現>*\)|(?:[^\\()\[\]]|\[\^?(?:[^\\\[\]]|\\.)*\]|\\.)*)* こうして \(\?<id>(?<正規表現>\(\g<正規表現>*\)|(?:[^\\()\[\]]|\[\^?(?:[^\\\[\]]|\\.)*\]|\\.)*)*\) こうするとか。 基本表現のところがだいぶ適当だから場合によっては怪しい動きをするかも。 部分式呼び出しの使い方間違えててちょっと焦った。
「正規表現 再帰」 でぐぐれ。と言えば済む話。
304 :
デフォルトの名無しさん :2014/02/21(金) 06:53:06.58
フォームにurlを入力させる場合に不正かどうかを調べたいんですけど、 以下の正規表現で大丈夫でしょうか? urlは星の数だけあるので全てに適用できるか分かりません pattern = "/\b(?:(?:https?|ftp):\/\/|www\.)[-a-zA-Z0-9+&@#\/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#\/%=_|]/i"; 何かアドバイスあれば教えて欲しいのですが
RFCだか何だか見れば済む話のような
厳密なメールアドレスチェックとか正直やりたくないのう
>>298 厳密でないドコモとかのメールアドレス通らなくて文句言われるしな。
Internationalized Domain Nameでググれば絶望的な気分になれるぞ。
310 :
デフォルトの名無しさん :2014/02/21(金) 17:18:22.06
>>304 星の数ほどあっても1億か10億くらいのURLを一つ一つ試してみて、そのうちの99%以上パスすればOKとかにすればいいんじゃね?
99%未満ならパスしなかったURLを元に調整する感じで。
99%とかって具体的な値は自分で決めなきゃいけないけどな。
>>310 でFAだろ
10億もいらんな、1億で十分
まずスキームで3つしか挙げていないという。http,https,ftp
313 :
デフォルトの名無しさん :2014/02/21(金) 22:25:56.27
言いたいことは分かるけど ネットやっててその3つしか見たことがない
315 :
デフォルトの名無しさん :2014/02/21(金) 22:37:23.24
お名前.comもそういえば見たことないな 使ってる人いんの?
>>313 mailto:
file:
tel:
gopher:
javascript:
318 :
デフォルトの名無しさん :2014/02/21(金) 22:48:43.96
gopherって何? ゴップハー?
gopherか、20年前ぐらいに使ったことあるかも。
>>313 たぶん言いたいことを理解できていないと思うから、
RFC1738を100回音読してからまた来るといいよ
>>318 ゴーファー。
ブラウザのプロキシの設定で見かけることがある。
音読したけど、英語だったので意味がわからなかったとか
ゴーフルならおととい食ったが
1時間以上試しているけど、わからないので助けてくれ! ● PHP ● 検索(抽出) ● 「abc--'--'-"-"--」 から→ 「--------」を取り出す abc以降の -------- を取り出したい。 ただし '" は不要というパターン '/.*abc(.+[^"|\']*)/' /.*abc([^"|\']*)/ これでいけそうでいけないんだよねー
echo str_replace( "-","", "[abc--'--'-\"-\"--」"); 単純にこうじゃいかんの?
ああごめん寝ぼけてた、忘れてくれw
正規表現じゃなくて単なる文字列操作でいいんじゃないのか? 先頭のabcを捨てて、残った文字列からクォート文字を消すという2手順でいいだろ
つーか正規表現じゃムリじゃね? クォート文字の位置が固定ならばできるが、そういう要件じゃなさそうだし
s/[^-]//g
たぶんハイフンはプレースホルダーの意味で書いたのではないか
どうなんだ
>>324
v[^-^]v
>>329 は、取り出したいものを正規表現するのではなく、取り除きたいものを正規表現して置換するという意味で書いた。
>>324 それは「--」と「--」と「-」と「-」と「--」を抽出してから結合してる
正規表現でやるなら(結合を含むから)最低でも置換になる
「'"」の除去をしてから 「--------」を取り出すか
「--'--'-"-"--」を取り出してから「'"」の除去をすれば
抽出と置換の二段階になるけど多分楽に事が済む
>>333 もしかしてプログラム経験無い?テキストエディタの正規表現とは別世界だぞ。
>>334 どんだけショボいエディタ使ってんだよw
/(?<=abc)(.+)/で一度ふるいにかけて/['"]/でsplitなり/['"]/自体除去すりゃいいんじゃね 2段階に分けるほうが楽
この質問の回答に一度も\Gが出てこないのが寂しい。
>>334 飛び飛びの領域を単一のマッチ範囲や捕獲式集合として捕獲できる正規表現なんてあるの?
Perlのコードサブパターンとかで拡張すれば出来るかもしれないけど、
普通は複数のマッチ範囲や複数の捕獲式集合として得るしか無いと思うんだが
それと、まともなエディタならPerlとかの特殊極まりない拡張を除けば大体の機能が使えるだろ
>>334 >>337 正規表現でプリーズ
339 :
324 :2014/02/26(水) 22:44:02.26
返事が遅くなりましたが、色々アドバイスありがとうございました。 可能ならば正規表現で処理したかったのですが、 皆さんのアドバイス通り置換での2段階処理とします。 これの方が楽で確実みたいですしね。 ども、でした。
正規表現は機能でなくて表現。
機能だろ 黙ってろクズ
>>340 LispのS式でも勉強してみよう
(S式 Symbolic expression)
一応書いておくけど
表現=expression
>>342 elispで使ってるくらいであんま詳しくないけど、sexpは構造でそれが機能かどうかはcar次第では。
正規表現は検索や置換の対象となる文字集合を表すものですしょ。別に名前に表現が入ってるからとか気にしてなかった。
元々は論文などの学術的な用途で説明に使う純粋な表現だった それを元に正規表現による検索ルーチンが作られて普及した 今ではその検索ルーチンを正規表現エンジンと呼ぶようになってしまい、 正規表現エンジンが受け入れる検索パターンを正規表現と呼ぶようになってしまった なお、正規表現エンジンは元々の正規表現の意味では通常表現不可能なパターンすら検索する能力を持っている もはや別物
そう言えば折れも英単語解析のための正規表現みたいなものを作って使っていたなあ ま、その後いわゆる正規表現に折れも一本化したけどな
海外じゃもうregexと書くのが定着してる、というか定着させようとしてるね。
S-exだね。
>>348 じゃあ大文字とハイフンが必要ならReg-exだねって(オイ
>>346 さりげなくregexpをdisらないで
●Regular Expressionの使用環境 サクラエディタ ●検索か置換か? 置換 ●説明 Exampleの文字列を含まない行を削除したい ●対象データ ABCA Test BCAA Example CABA Abc ●希望する結果 BCAA Example ネットで検索して出てきた^(?!.*Example).+$や^((?!Example).)*$ で試したんですが空行が残ってしまいました
^(?!.*Example).+\r?\n?
$は改行の直前までしかマッチしないのがポイント
後から出てきてさも知ったかのような口を利くのは
>>354 の(チャーム)ポイント
誰も正規表現にツッコミ入れないけどみんなあえてスルーしてるんだろうな。
希望する結果が逆なのは分かったけど、 ツッコミが必要な正規表現が分からない…出来れば教えてくれ。
>Exampleの文字列を含まない行 空行もこれに該当するんじゃ?
サクラエディタとしては、該当するものを""で置換して消すしかないからこーなるわけよ。
後方参照の否定だっけ 否定の後方参照だっけ 後方参照をうまく使えると捗りそうだよね いまいちパッと使えないorz
空行が消せないという仕様かスキルか知らないけどそれのほうが恥ずかしいのでは。
今試してみたら普通に空行消せた。ということは・・(察し
相当悔しかったんだな
あれ?
>>352 で改行が消せるなら空行も消せるはずですね。
>>366 まだそんな間抜けな事を言っているの?
君だけだよ?
耳の聞こえないふりの人みたいに逆ギレですかそうですか。
掲示板なんだから耳が聴こえないかどうかは関係ないだろ 何言ってんだ
俺はチンポ立たない振りして女連れ込んでる 入れちゃうとだいたいオーケー
>>370 「みたいに」って書いてあるじゃん
この「耳の聞こえないふりの人」ってのは多分自称ベートーベンの痛い奴の事だよ
ゴーストライターに耳聞こえてることバラされて訴えるって意気込んでるらしいから
ゴーストライター以前にマスコミの取材中にも聞こえてる挙動してて今更なんだが
障害者手帳の不正入手の罪がバレるのはゴーストライターがバレるより怖いらしい
ID表示されるようになったらスレタイ変えたメンヘラ男子が困りそう。
うわぁー、たった!どうして? きみを、みてたら、心があつくなって 体があつくなって ,,,,,,よしこさん! とだきつく あとは、まずオッパイもみもみ 下にてをのばし あとは自分で判断しろ
●Regular Expressionの使用環境 秀丸 ●検索か置換か? 置換 ●説明 複数行の空行を1つの空行にしたい ●対象データ ●希望する結果
379 :
378 :2014/03/12(水) 17:19:09.32 ID:6zBbVI2I
検索 ^\n+ 置換 \n これだと置換されない。
>>379 その環境は知らないけど、^があるのに$がなくて\nって変じゃないか。
単に\n+じゃダメなの。
秀丸の改行へのマッチには制約があるよ。ググるか説明書読んで。
>>383 すいません。できませんでした。
htmlタグでもう一度作れますか?
できなければ諦めます
>>384 htmlタグって?
正規表現にチェック入れてないだろ。
/.*/ じゃダメ。誤爆する。
387 :
386 :2014/03/13(木) 07:15:45.44 ID:1OBNO3pg
ttp\:\/\/www\d+\.atwiki\.jp\/[\!\#-\&\(-\.0-\;\=\?-\[\]-\~]+\/ これでいいのかな?2chMateとやらの正規表現エンジンの仕様が 分からないから怪しい文字全部にエスケープ付けといた。 あと調べたところ古いバージョンでは正規表現の先頭に / を付ける必要があるらしい。 動かない場合は試してみて。
>>388 2chMate 0.8.6/SHARP/SH-13C/2.3.4/DR では問題なかった
>>386 NGなんだから、厳密にする必要もない。面倒だから適当にしただけ。
>>390 基本的なとこは包括されてるから、コピペミスってるか、ttpか、多分丸投げだからJavaの正規表現の解釈が変わったか。
アプリ開発してたけど、そういう話は知らないなぁ。
393 :
378 :2014/03/13(木) 08:41:19.60 ID:2EBFZUmq
>>380 \n+だけだと空行以外の文字列の最後にもヒットしてしまいます。
>>381 すみませんヘルプに書いていました。
ありがとうございます。
(?#maxlines:50)^\n+
で置換することができました。
>>392 おそらくh抜き。datには<aタグが入らない板もあるからね。
/.*/ のとこは無くてもいいくらいだね、ハッキング事件のセキュ対応なんだろうし。
>>388 >>393 ^−^b
●Regular Expressionの使用環境 JavaScript ●検索か置換か? 置換 ●説明 同じ文字の4回以上の繰り返しを3回にしたい ●対象データ ああああああああああああああああああいいいいいいいいいいいいいいいうえおおおおおおおおおおおおおお ●希望する結果 あああいいいうえおおお
検索 (.)\1{3,*} 置換 $1$1$1
397 :
395 :2014/03/14(金) 11:12:05.63 ID:zoiay4j6
>>396 (.)\1{3,*}だとなぜか上手くいかなかったけど(.)\1{3,}でできました
ありがとうございました
あ、{3,*} は別の環境(proxomitron)の書式だった。ごめんね。
399 :
デフォルトの名無しさん :2014/03/14(金) 23:51:23.33 ID:YZlgvtQG
正規表現の文字コード順について質問したいのですが 1行内に沢山文字があって、それを正規表現で検索ヒットさせるんですけど 正規表現は重いから、なるべく、あらかじめ文字コード順に直しておいたほうが良いという事を聞きました 数が膨大になっていけば、バカにならないので、一度全文文字コード順にソートしてみて、正規表現の検索の時間が どれくらい軽くなるのか試してみようと思うのですが そこで、文字コードにはShiftJIS等あるそうで、それらによって文字の並び方が違う、らしいのですが どれが良いのか全く分かりません、それに正規表現にも種類があるのでしょうか 稚拙な質問ですみません、何か質問自体に大きな間違いがあれば、それについても御指摘ください
> なるべく、あらかじめ文字コード順に直しておいたほうが良いという事を聞きました どこで? 文字コード順にソートできる事例なんて ほぼないだろ?
ヒット率でならわかるけど文字コード順てイミフ
>>399 もしかして特定の一文字を数えるのに正規表現を使おうとしてる?
そりゃあ正規表現は重すぎるだろうし一文字ずつソートしたほうが速いだろうね。
何がしたいの?
>>399 例文もなしに文字コード順とか言われてもイミフ
しかも文字コードの知識すらなさそうだけど、
\xnnnnや\unnnn(nは文字コード値)とかの
の文字コード直接指定の正規表現を使わない限りは
文字コードを意識する必要なんてほぼないよ
エスパーの俺が解説してあげよう。 配列の中からある値をサーチするときは 配列を文字コード順でソートしていれば速いんだよ。 ところでだな。正規表現は 文字をサーチするために使うんだよ
傘スレが役に立ってる
406 :
デフォルトの名無しさん :2014/03/15(土) 18:18:58.17 ID:uGEDgr8/
>>400-405 自分でも何言ってるのかさっぱり分かりません
それなのに質問してごめんなさい
> \xnnnnや\unnnn(nは文字コード値)とかの
> の文字コード直接指定の正規表現を使わない限りは
> 文字コードを意識する必要なんてほぼないよ
極単純な正規表現しか知らないものですから、一から勉強します
ありがとうございました
>正規表現は重いから、なるべく、あらかじめ文字コード順に直しておいたほうが良い こう言ってた人に真意を聞くのが筋でしょう。 たぶんこれを言った人も違う意味で言ったんだと思いますが。
>>403 いや[亜-熙]みたいな範囲指定する場合はモロに影響する
ちゃんとキャラクタクラスなどを使えば問題はないのだが、
今度は使えるクラスが文字コードによって異なるっていう…
てすてす
@abc にはマッチしないで @abcabc や @abcdef にはマッチさせるにはどのように記述したら良いでしょうか?
>>413 レスありがとうございます
後出し条件になってしまい大変申し訳ないですが
@abc の後に続く文字列は[0-9a-zA-Z]が連続したものです
例えば
@abcaaa @abcjoioho @abcvvvud
にはマッチして
@abc のみにはマッチしないように記述したいです
申し訳ありませんがもう一度ご教示頂きたいです。よろしくお願いします
更に追記させて下さい @defghij @jijoaa @hogehoge などの文字列にもマッチさせたいです 何度も投稿してしまい本当に申し訳ありません
>>414 > @abc の後に続く文字列は[0-9a-zA-Z]が連続したものです
そのまま書けばええやん
@abc[0-9a-zA-Z]+
>>415 何をしたいのかよくわからんけど、@[0-9a-zA-Z] として、アプリ側で @abc を弾いた方がいいんじゃね?
>>416 typo したわ
× @[0-9a-zA-Z] として
○ @[0-9a-zA-Z]+ として
.NET2.0 System.Text.RegularExpressions.Regex;
検索です。
<p><a href="
http://example.com "></p>
<a href="
http://example.com ">
このようなデータから、pタグに囲まれているexample.comのみを抜き出したいのですが、
一旦pタグごと抜き出してあとからreplaceするしかないのでしょうか?
>>418 xpathで一発。
と思ったが、a閉じてないし無理か。
その初めて見るデータの仕様がわからないと、どうしようもない。
>>419 これだと
@abcabc
@abcdef
にはマッチしないか
こっちに書いたらscにも反映されちゃうのか、こっちをちらしの裏にしようと思ったのに。
test
一番内側のインライン要素は別に閉じる必要ないんじゃないっけ
>>424 html はそこら辺アバウトだったから
xhtml では xml に合わせたから、解析しやすくなるはずなんだが、アバウトなままのサイトが一杯あるから苦労は変わらないままだったりする
>>426 省略可能な奴はちゃんと定義されててアバウトじゃないんだけど、
流通してるHTMLとWebブラウザの実装がアバウトってだけだよ。
最近話題になったやつだと2ch。scの告知画面tinyurl。com/pjstnp7
はbodyタグのオープンとか省略しているけどW3Cの検証機を通る。
# エンコーディング周りはHTTPヘッダで回答してればセーフだし。
どこでこの話聞いたんだっけ・・・
スラドで見かけた
どうみても ./ と 2ch は住民かぶってるだろ
ドッスラはカレントディレクトリなんだよなあ
/. の pyto やね
なんでそう何度も前後逆になるんだ? Intel厨?(little endian)
前後で考えるから逆だと思うわけで 高低で考えると逆じゃない
ひまわりの肥料って何がいいですか?
●Regular Expressionの使用環境 サクラエディタ 2.1.1.1 ●検索か置換か? 置換 ●説明 []内の文字だけにしたい ※ [ と ] と (半角スペース)の3つを消したい ●対象データ [あいうえお] ←最後に半角スペースあり(以下同じ) [カキクケコ] [AIUEO] [漢字等々] ●希望する結果 あいうえお←最後の半角スペースも消したい(以下同じ) カキクケコ AIUEO 漢字等々
>>435 置換対象
[(.*) ]
置換後
$1
すまんエスケープしないとダメだな あとスペースの位置まちがってた 『』の中 置換対象 『\[(.*)\] 』 置換後 『$1』
sakuraテキストエディタを使用しています。 20行くらいの文字列があります。 それぞれの行の、前後にabcとefgを追加したいです。 abc元の文字列efg 検索文字 (^*$) 置換え文字 abc\1efg これを実行すると、元の文字列abcefgと各行に追加されます。 どのように正規表現を書けばいいか教えてください。
検索文字 ^(.+)$ 置換 abc\1efg
サクラには始点挿入と終点追加の機能もあるんやで
>>439 できました!!
ありがとうございます。
>>440 そんな機能もあったんですね、調べてみます。
挿入! ヤラシイ
秀丸エディタの正規表現 「改行を含む0文字以上の任意の文字列」 を指定するにはどうしたら良いでしょうか? .+ だと改行が含まれません。 対処法を教えて下さい・・・・
\r\n
>>444 すいません上手く行きません。
[\.\n]+
[\s\S]+
これでもダメです。
訂正。 [.\n]+ これでもダメ。 [\S\s\n]+ これだとマッチしたりしなかったり。 挙動がよく分かりません。
ヘルプの 目次− 検索系コマンド− 正規表現− \nを使った複数行検索の際の制限について 秀丸で改行を含む正規表現はうまくいかないのであきらめよう
秀丸エディタスレに移動します。お邪魔しました。
Win7に入れたcygwinで、以下のようなテキストファイル いろんな文字Text11いろんな文字 いろんな文字Text215いろんな文字 いろんな文字Text351いろんな文字 ... から Text11 Text215 Text351 を取り出したいのです。 をgrepやsedでトライしたのですが、分りません。 よろしく。
>>450 てきとーだけど
sed 's/^.*\(Text[0-9]*\).*$/\1/'
grep -o Text[0-9]* の方が楽でない
>>453 ありがとうございます。こんな技があったとは。。。素晴らしい。
●Regular Expressionの使用環境 Emeditor(正規表現エンジン:Perl) ●検索か置換か? 検索 ●説明 各行の1番目のAまでを検索したい ●対象データ 評価良い 評価悪い 評価ふつう ●希望する結果 ”評価良い”の ”評価” と ”評価悪い”の ”評価” はヒットさせず、 ”評価ふつう”の ”評価” のみヒットさせたいです。
>>456 の続きです
下の検索ワードで個々に正規表現検索すると、
評価(?!良い)
評価(?!悪い)
評価(?!良い) で検索すると、
評価悪い
評価ふつう
上の行の”評価”がヒットし、
評価(?!悪い) で検索すると、
評価良い
評価ふつう
上の行の”評価”がヒットします。
評価(?!良い)|評価(?!悪い) で検索すると、
評価ふつうの”評価”のみヒットさせていたのですが、
評価良い
評価悪い
評価ふつう
上の3行全ての”評価”がヒットしてしまいます。
評価ふつうの”評価”のみヒットさせるにはどのようにすれば良いでしょうか。
お分かりの方おりましたら、アドバイス頂けるとうれしいです。よろしくお願いします。
>>457 評価(?!良い|悪い)
評価(?!良い)(?!悪い)
Perlって(?=)使えないの? それにしても説明文章ヘタクソだな
>Emeditor(正規表現エンジン:Perl) とか言ってる時点で・・・ Emeditorの正規表現はBoost Regex++や
>>458 さん
ありがとうございます。試させて頂いたところマッチしました。
そのような書き方になるのですね、とても参考になりました。
文章長くなってスミマセン。
"EmEditor は、Perl の正規表現構文に基づいています"と記載があったので今までPerlだと思ってました。。
確認しましたらBoost Regex++でした。。
否定先読みが使えて肯定先読みが使えない、なんて環境は有り得ないだろ 評価(?=ふつう) でええやん
>>459 ,462
すいません遅くなりました。そのような書き方もあったのですね。
試してみたところ正常に動作しました。とても参考になります、どうもありがとうございます。
●Regular Expressionの使用環境 Textmate ●検索か置換か? 置換 ●説明 行末尾から最初に現れるスペースまでを検索し、置換によって該当文字を削除したい ●対象データ A B C A B CA A CAB A ABC ●希望する結果(各行の末尾にスペースは存在しない) A B C B CA CAB ABC よろしくお願いします
466 :
デフォルトの名無しさん :2014/05/10(土) 16:22:48.29 ID:bpNAt6b2
>>455 バッチリでした!ありがとうございました!
>>464 置換前先頭には半角スペースあり
置換前:
[^ ]+?$
置換後:
空欄
●Regular Expressionの使用環境 sed、grep ●検索か置換か? 置換 ●説明 マッチした結果をそのまま置き換えるでなく、 1つ前に改行を入れたい。 ●対象データ 0ABC1DEF2GHI3JKL4MNO ●希望する結果 0ABC 1DEF 2GHI 3JKL 4MNO よろしくお願いします。
>>468 マッチ条件を書けよ
どうせ任意の4文字、じゃないんだろ?
想像するに、先頭が連番となる数字で始まるじゃないか? 単なる数字で始まるならまだしもだけど
>>468 sedはわかるけど、grepコマンドで置換ってどういうこと?
<検索> (検索キーワード) <置換> $1\n みたいな意味でないかな。ようは置換後に改行を入れるやり方が知りたいと。
C++である変数valでコメントにされていない箇所を検索したい マッチしてほしい val=0; // 〜〜〜〜 マッチしてほしくない // val=1; // val=1;
>>473 Visual Studio とかで検索した方がいいんじゃないか?
475 :
デフォルトの名無しさん :2014/05/12(月) 00:30:36.67 ID:7jCCFS46
C++である変数valでコメントにされていない箇所を検索したい マッチしてほしい val=0; // 〜〜〜〜 マッチしてほしくない // val=1; // val=1;
>>475 IDEを使って、変数の参照機能を利用すると良い。
こういう需要があるのは知ってるがスレチだろう 昔Cで書いたときは使い物にならなくて条件コンパイルの入れ子まで対応したw
俺も背面跳び逆さダブルコンパイルまで対応した。時間軸が合わないからここには貼れないけどね。
>>468 ふたつ疑問。
一つは既に出ているように検索条件。数字一文字でよいのか?
二つ目は文字列の先頭に現れる数字に対しては改行を挿入しないという解釈でよいのか。
>>475 みたいなのは正規表現でやるもんじゃないよね。
意味を知らないと正確にマッチできないのだから
意味を解釈できるツール、たいていはIDEになると思うけど
そういうのを使わなきゃ。
荒らすための質問はスルー
スルーの強要は荒らし
>>483 面白そう。DANより早いコード作ろうか。
ミスって.scでレスしちまった・・・
>>483 わざわざブラウザでしか見れないジャンプページ挟んで広告費稼ぐとか下衆くて不便な誘導はヤメレ
ttp://nozomi.2ch. sc/test/read.cgi/php/1348048723/
でいいだろ
女 「アフィなんてないよ!」 あれはジオが出してる広告。ソース見れば分かるよ。 そもそもこんな過疎スレでアフィなんてやっても年100円いくかどうかでは。
>>486 そうだったか、すまん。でもページランク稼ぎじみてて不便なのは変わらん。
ブラウザでないというと何で見てるの? クリックで辿り着けるほうが半角スペ消して繋げるより便利でね? 広告がうざかったらadblockとかで。jsで出さなくも出来るけどまんどくせ。 >ページランク それが狙いならそこら中にURL貼るわな。まぁそんなに警戒しないでくれよんぴる。
今の時点でscへ行く人まずいないんじゃあるまいか? なぜにscへ誘導?
>>488 > ブラウザでないというと何で見てるの?
Webブラウザと書くべきだったな。すまん。
> クリックで辿り着けるほうが半角スペ消して繋げるより便利でね?
それとドメイン名に半角スペースは使えないからJaneStyleとかだとスペース付きのままでも飛べるし、
半角スペース入れずにピリオドを句読点に変換しておいても国際化ドメインに対応してれば飛べる。
そもそも専ブラで読む気なら半角スペース消してすら、Webブラウザの応答待ってコピペするより速い。
> まぁそんなに警戒しないでくれよんぴる。
ゴメン無理。だってSEO意識しまくってるじゃんか。事ある毎に宣伝してるしそういう風にしか見えないよ。
>>
http://nozomi.2ch 。sc/test/read.cgi/php/1348048723/169
>> ググりやすさ重視の名前にしました。「正規表現」の書きにくさを回避。
>> 検索でも他サイトと被りそうにないし。
>>491 おk、専ブラで見てるってことか。
範囲選択 → 右クリ → 「選択範囲をURLとして開く」
・・DANE。 なるほど、半角スペ消さなくても飛べるね。
しかし普通のブラウザで見に来てる人にはそうはいかんのだよ。そういう人用のリンクなわけだが・・。
>SEO
ああ、それは他のサイトと被らない名前にすることで検索結果の一番上に出そうって話だよ。
1つしかヒットしない名前にすれば一番上になるだろって話。どうやら失敗したっぽいけどね・・orz
クルマメーカーが 「車」 で検索されたときの順位を一位にするべく行うSEO対策とは違う。
まぁそんなに警戒する人は無理に来なくてもいいよ、異常に怖がって足がすくんで先に進めないような人より
広告だろうがSEO対策に利用されようが気にすることなく貪欲に情報を求めにくる人に来て欲しい。
ちなみに
>>3 の正規表現パズルもジオだから同じ広告が出るのを確認出来る。
って、今年の3/1に更新されてるね。まだ現役だったのかw
1時間調べたけどギブアップ。 秀丸で 連続しない改行は★に置換。 連続する改行は何もしない。 どう記述すれば良いでしょうか! 検索文字列 → \n([^\n]) 置換文字列 → ★\1 これだと連続する改行の末尾でマッチしてしまうのでNGです。
(?<!\n)\n(?!\n) でダメなら知らね。
>>495 『HmJre.dllの正規表現での前方一致/不一致"(?<!xxx)","(?<=xxx)"では改行文字を使うことができません。
かまわずに続行しますか?』
こういう警告が出るけど、一応出来ました!
ありがと!
>>467 返事とても遅くなりました
助かりました
ありがとうございます
てs
501 :
デフォルトの名無しさん :2014/05/25(日) 01:32:03.34 ID:ILOCnL5n
ここにエジプト民の居場所なんかねえよ
ああ、もしかして sc = アフィ厨 と思われたのかな。アフィなんかに興味無いんで。 というか1日10アクセスのサイトでアフィなんかやってたらアホだわ。 おそらく正規表現メモや雑技たんのアフィでさえ雀の涙も儲かってないはず。 正規表現を調べに来たような奴がアフィ踏むわけないって。
503 :
デフォルトの名無しさん :2014/05/26(月) 11:23:37.93 ID:T5nGq6IH
こいつ馬鹿だ
「 2ch (ドット) sc 」 って書き込み出来ないワードなんだなω スペース空けてても拒否されたωωω
2ch. sc
2ch.sc open2ch.net machi.to sakura.ne.jp
●Regular Expressionの使用環境 秀丸 ●検索か置換か? 置換 ●説明 行の一番最後の全角文字から後を削除したい。 ●対象データ 東京 abc 大阪静岡 123 名古屋 apple orange ●希望する結果 東京 abc 大阪静岡 123 名古屋 宜しくお願いします。
検索文字 (.+[^ -゜]).+$ 置換 \1
>>508 望み通りの事が出来ました!! 有難うございます。
教えて頂いた書式の意味を勉強して、応用ができるようにしたいと思います。
本当に有難うございました。
●Regular Expressionの使用環境 .NET ●検索か置換か? 検索 ●説明 詳説正規表現第2版のCSV処理の正規表現 (?:^|,)(?:"((?>[^"]|"")*)"|([^",]*)) これでは一番目の値が空の場合、2番目の値が取得できなくなります。 後方のカンマでマッチさせるよう (?:^|,) を (?:$|,) にすると (?:"((?>[^"]|"")*)"|([^",]*))(?:$|,) となりますが、今度は最後に余計な空のマッチが発生してしまいます。 プログラムを使って解決はできるのですが、正規表現だけで両方の 問題を解決できる方法はありますでしょうか。
なんかどっちも正規表現じゃなくて正規表現の使い方で起きてる問題な気もするけど… どっちかというと""で括られた,区切りの部分に誤爆しかねない事の方が気になるわ。 とりま1回マッチ取る毎に検索再開位置を+1でもして、文字列超超えたら終了しとけ。
ああ、(?<=^|,)って書いてあるもんだと勘違いしてたわスマン。 (?:^|,)で、1項目目が0文字だと1項目目と2項目目の開始位置が同一になるならそりゃ駄目だわ。 だが開始位置が0文字目同士って扱いになるなら初回が最長マッチ(2項目目)にならないってのはどーなんだ…
>最長マッチにならない 詳説正規表現を読んでいればそういうセリフは出てこないはずなんですが・・。
515 :
510 :2014/06/06(金) 15:00:43.52 ID:fLlNLsWw
>>512 > .NETでは最初のマッチに成功したらミッションが1歩進んでしまうんだろうね。
こちらの仕様は言語を問わず0文字にマッチした場合、延々と0文字にマッチし続けないために1歩進むもの
だと思っていました。
> ここでは (?:^|(?<=,)) とすれば上手く動くようだ。
こちらのパターンでいろいろ試してみましたが、全て上手くいきました。ありがとうございました!
私も戻り読みは考えたのですが、後続のグループで消費されないカンマの処理が必要になるかと思い込んで
あきらめてしまいました。。。
>>515 1番目のマッチと2番目のマッチは同じ位置でも違う結果になるから
perlはループではないと判定する、というのをどこかで読んだような。
517 :
デフォルトの名無しさん :2014/06/06(金) 17:27:48.95 ID:IK3e9ito
よく読んでないけど名前付ければいいじゃん
>>510
te
>>514 すまん、読んでないから代わりにMSDNを読んだんだ
>>515 カンマ消費したいなら(?:^|(?<=,))にしてケツに「,?」つけときゃいい
詳説正規表現を読んだ人を相手にするならISDN読んだくらいの知識じゃダメ。 知ったかぶりしたいだけのアホみたいなレスしか付けられてない。完全スルーされてる理由がこれ。
やっぱし時代はB-ISDNか。。。
フレッツISDNでしょ
交換機の寿命がもったいないからって、このIP全盛の時代に、ISDNを2025年まで維持するって、 NTTって公務員気質だよな。こんなんで、経営がやばいって泣き付いて、グループ割引を認め させようとするの、おかしい気がする。
よろしくお願いします。 ●Regular Expressionの使用環境 javascript ●検索か置換か? 置換 ●説明 {{ と }} で囲まれた文字を削除したい 改行あり ●対象データ {{ABCA BCAA}} CABA {{ABCA}} ●希望する結果 CABA
525 :
デフォルトの名無しさん :2014/06/09(月) 00:27:18.65 ID:kYVhWaqv
っ[\s\S]
>>523 準専用線的な使い方されてたりするとサービス切り捨てられないんじゃないの?
>>523 遅くても、高くても、確実に接続できると言うことが重要な用途かあるんよ
Regular Exchange
誘導&転載
正規表現道場 Part2
http://nozomi.2ch.net/test/read.cgi/php/1348048723/208 208 名前:nobodyさん[] 投稿日:2014/06/09(月) 20:39:55.26 ID:Xlk9Lxk9
javascriptでhtmlタグ内以外での検索をしようとしていますが、上手く行きません。お助け下さい。
lat = 'あい';
body = '<a href="あい">あい</a>';
reg = new RegExp(">[^<][\s\S]*?" + lat + "[\s\S]*?<","m");
body.match(reg);
console.log(reg.index);
13が返って欲しいのですが、undifinedになります。
530 :
デフォルトの名無しさん :2014/06/10(火) 18:08:47.23 ID:VWf0ifMQ
何がしたいのか理解不能
>>529 色々と間違ってる
・文字列中に「\」を記述するなら、「\\」と書く必要がある
・RegExpオブジェクトとRegular Expression オブジェクトを混同している
indexはRegExpオブジェクトである(書くなら、re.indexではなく、RegExp.index)
・まず、先頭の^>[^<]だが、>の後に<でない1文字がくることを示しているので
「>あ」が相当するのでその後に「あい」はもうないのでマッチしない
532 :
デフォルトの名無しさん :2014/06/10(火) 19:00:17.77 ID:m0Hs+iOa
●Regular Expressionの使用環境
chromeの最新版(バージョン 35.0.1916.114 m)
のjavascript
●検索か置換か?
検索
●説明
htmlのタグ以外でのテキストを検索、位置を取得したい
●対象データ
<a href="あい">あい</a>
●希望する結果
13
以下のように書いて見ましたがダメでした。
13が返って欲しいのですが、undifinedになります。お助け下さい。
また、
http://nozomi.2ch.net/test/read.cgi/php/1348048723/208 より誘導されてきました。
lat = 'あい';
body = '<a href="あい">あい</a>';
reg = new RegExp(">[^<][\s\S]*?" + lat + "[\s\S]*?<","m");
body.match(reg);
console.log(reg.index);
533 :
デフォルトの名無しさん :2014/06/10(火) 19:06:10.17 ID:m0Hs+iOa
色々すいません…勉強してきます。
534 :
デフォルトの名無しさん :2014/06/10(火) 19:19:12.04 ID:m0Hs+iOa
以下でうまくいきました!皆さんありがとうございました! lat = 'あい'; body = '<a href="あい">あい</a>'; reg = new RegExp(">[\\s\\S]*?" + lat + "[\\s\\S]*?<","m"); var myArray = reg.exec(body); console.log( myArray.index);
>>534 勘違いしてるようだが、mフラグは、マルチラインで各行ごとに^$をマッチさせるもの
例 ">あ\r\nあいう\r\nえお" で、
re=/^あ/m だと2行目の「あ」が
re=/う$/mでも2行目の「う」でマッチする
あと余計なお世話かも知れんが、何を求めるのかにもよるが
<が\でエスケープされて使われてたりタグがネストされてたりした場合問題ないのか?
>>531 RegExpオブジェクトとRegular Expressionオブジェクトって何だ…って思ったが、
RegExpインスタンスとRegExpオブジェクトのことかな。
ただ、MDN見る限り、どっちのオブジェクトにもindexなんてプロパティは無い。
indexは文字列のmatchメソッドにgフラグなしのRegExpインスタンスを渡した場合か、
RegExpインスタンスのexecメソッドを使った場合に戻ってくる配列風オブジェクトのプロパティ。
537 :
524 :2014/06/11(水) 23:03:46.46 ID:lJHLCR0d
>>525 (お返事なのかな?)
使い方がわからなかったのですが[\s\S] ってどういう意味でしょうか?
.(ピリオド)と同じだと思うのですが違うのでしょうか?
538 :
デフォルトの名無しさん :2014/06/11(水) 23:48:25.28 ID:GYXfPDYR
.は改行文字にマッチしない かもね javascriptの挙動なんかしらね
改行考えるのめんどくさいし性能気にならないとか何回も繰り返すとかなら 事前に改行取っちゃうのが良いと思う replace(/\r\n/g,'')
540 :
524 :2014/06/12(木) 02:49:59.98 ID:rnw2O6YE
>>538 改行を含めるか含めないかですね。理解しました。
すみません。これだけだと524で書いた例が達成できませんでした。
{{ABCA
BCAA}}
CABA
{{ABCA}}
これにたいして/\{\{[\s\S]+\}\}/gで検索して空文字に置き換えようとすると
{{ABCA
^^^^^^
BCAA}}
^^^^^^
CABA
^^^^
{{ABCA}}
^^^^^^^^
と、一行目の先頭の {{ と 四行目の最後の }} までが範囲になってしまい、
三行目まで含まれてしまって三行目も消えてしまいます。
一行目の先頭の {{ と 二行目の最後の }}、四行目の先頭の {{ と 四行目の最後の }}
という風にマッチしてほしいです。
+の後ろに?つけれ。 行頭、行末って縛りも入れたいならmオプション足して^と$でパターン挟めばよかったかと。
知ったかぶりしたいだけのアホ って書いたそばから知ったかぶりか。 人間だからミスするのは仕方ない。が、これはミスじゃない。 ウソをついてるだけだ。愉快犯とかそういうレベル。
>>524 {{ }}を削除するのに、JSではそれに一致しないという、
否定形がないので難しい
否定形があれば、一致しない方を取り出せる
String.replaceで、ヌル文字に置換しようと思ったが、
これは全箇所ではなく、1つしか置換しない
結局、1文字ずつ処理した方が速いかも
1行ずつではなく、改行をまたいでも(複数行で)
一致させるには、m オプションを付ける
{, } は正規表現のメタキャラクタなので、
\(バックスラッシュ)でエスケープする。\{, \}
^ で行の始まり、$ で行の終わりを示す
例、^A, $A (行頭、行末のAに一致)
>>529-536 JQueryの、:contains で要素の内容に、
部分一致したすべてのものを取得できる
だが、text()を使うと、すべての文字列が連結されてしまうので、
map を使って、配列に格納する
そしてその後、その配列を処理すれば?
ttp://www.jquerystudy.info/reference/traversing/map.html
>>542 指摘はもうちょい具体的にやれや荒らしモドキ。せめてアンカー打て。
>>543 純粋な検索でパターン以外を探すのはだるいけど、要求は置換だからパターンでマッチさせて空文字列に置換すれば終わり。
JavaScriptの「m」フラグは「^」と「$」がマッチする場所を文字列全体から各行単位にするオプション(
>>535 )。
正規表現エンジンや実装によっては「.」が改行文字を含むかどうかが変化する場合もあったかな。
>>543 知らないなら黙ってりゃいいのに。ウソ教えて誰が得するんだ?
>>524 {{ABCA
BCAA}}
CABA
{{ABCA}}
をキミの仕様通りに置換すると
(空行)
CABA
(空行)
だろ。
それなら
txt.replace(/{{[^}]+}}/gm, "") == "\nCABA\n\n"
>>524 のとおりに}}の後の改行も削除したいなら
txt.replace(/{{[^}]+}}\n?/gm, "") == "CABA\n"
var txt = "{{ABCA\nBCAA}}\nCABA\n{{ABCA}}"; としたつもりだった。 "{{ABCA\nBCAA}}\nCABA\n{{ABCA}}".replace(/{{[^}]+}}\n?/gm, "") == "\n\CABA\n\n" "{{ABCA\nBCAA}}\nCABA\n{{ABCA}}".replace(/{{[^}]+}}\n?/gm, "") == "CABA\n"
Regular Expression オブジェクトって何を指してるのかな?
って検索してみたら
http://msdn.microsoft.com/ja-jp/library/cc427722.aspx 正規表現パターンとそのパターンの適用方法を識別するフラグを含むオブジェクトです。
re = new RegExp("Spain","i"); // Regular Expression オブジェクトを作成します。
解説
Regular Expression オブジェクトを RegExp オブジェクトと混同しないようにしてください。
名前は似ていますが、この 2 つのオブジェクトには明確な違いがあります。
Regular Expression オブジェクトのプロパティには特定の Regular Expression のインスタンスによる
一致に関する情報だけが格納されのに対し、グローバルな RegExp オブジェクトのプロパティロパティには
一致が検出されるたびに更新される情報が格納されます。
これを読むとRegExpオブジェクトとRegExpインスタンスの違いかな?って思うが
Regular Expression オブジェクトには、文字を組み合わせた文字列検索 (正規表現による検索) を行う場合
に使用するパターンを格納します。
Regular Expression オブジェクトを作成した後に検索を実行するには、このオブジェクトを文字列の
メソッドに渡すか、または文字列を Regular Expression オブジェクトのメソッドのどれかに渡します
この場合、Regular Expression オブジェクトの結果は match メソッドによって使用されます
てあるから、re = /pattern/[flags] がRegular Expression オブジェクトであることを言ってるんだと思う
他サイトでも、正規表現オブジェクトっていったらこれを指すようだ
http://www.tohoho-web.com/js/regexp.htm インスタンスによる一致に関する情報だけってのが、lastIndexプロパティのことを指すってことかな?
var lat = 'あい';
var str = '<a href="あい">あい</a>';
reg = new RegExp( ">[^<]*?" + lat );
var ans = str.match( reg );
console.log( ans.index );
>>531 は間違ってるとは言えないな。他の書き込みも正しいしちゃんと分かってる人だ。
訂正してお詫びします、申し訳ない。
550 :
536 :2014/06/13(金) 00:20:21.31 ID:OKMjmph6
>>548 あーJScriptとその他JavaScript実装で名前や仕様が違う部分だったのか。
でも普通にRegExpオブジェクトとRegExpインスタンスの違いってことでいいんじゃないかな。
変数名としてのRegExpと型としてのRegExpが紛らわしいから後者をRegular Expressionと呼んでるだけかと。
生成の方法もconstructorやinstanceofの出力も、他のJavaScriptの実装と大して変わらん。
一部互換性の無いプロパティが存在してる位だ。RegExpオブジェクトの型はFunction。
RegExp
typeof=function
instanceof=Object,Function
constructor=function Function()
RegExpオブジェクトとか、グローバルRegExpオブジェクトと呼ばれるもの。
lastIndexプロパティを持つ。JScriptではindexプロパティも持つ。
new RegExp()
typeof=object
instanceof=Object,RegExp
constructor=function RegExp()
RegExpインスタンスとか、Regular Expressionオブジェクトとか、Regular Expressionのインスタンスと呼ばれるもの。
lastIndexプロパティを持つ。
/^/.exec('')
typeof=object
instanceof=Object,Array
constructor=function Array()
マッチ結果とか配列とか呼ばれるもの。
indexプロパティを持つ。
551 :
536 :2014/06/13(金) 00:21:03.26 ID:OKMjmph6
>>531 というわけで、JScript以外ではダメっぽいけど「JScriptなら」それで正しかったわ…すまん
>>549 いや、JScriptの仕様に従うならconsole.log(RegExp.index);でいいよ。
console.log(ans.index);はJScript以外でも使えるやり方でRegExp.indexは関係ない。
ansは配列と互換性がある、固有の名前が示されていない配列系統のオブジェクトで、
RegExpオブジェクトでもRegular Expressionオブジェクトでも、それらのインスタンスでもない。
名称の違いについては於いておいて、
>>531 が「何」を言いたかったのかは明確で
誤解する人は皆無だったと思われる
そんなに避難することか?
それに正規表現オブジェクト(Regular Expression Objectの訳か?)、
RegExpオブジェクトって日本語はそれこそ山のように各サイトで使われてるよ?
Windowsは、IEが標準なんだし
>>552 名称は判り難いだけだしあの説明でも別にいいんだけど、
RegExp.indexはJScript専用だし注釈入れないとダメだろ。
>>529 の質問の時点ではJavaScriptとしか言われて無い。
イマドキはWindows欧州版はIEがデフォですらない筈だし、
IEのシェアも(統計に寄るが)既に6割切ってる状態だぞ?
>>553 注釈はあったほうが確かに親切だね
でもindexとかプロパティ名を自分から持ち出してくるぐらいだから
reのプロパティじゃ無いっていう一言ですぐ気が付くと俺は思うよ
それを何であんなにボロクソに言わなきゃならんのかそっちの方がわからん
>>553 ボロクソに言ったのは別人なのか、失礼
でも例えば、説明の単語の意味が間違ってて頓珍漢だったとしても、
言いたいことは万人に伝わるから感謝されることはあっても貶すのは何故だったのかな?
それともその意図が万人に伝わるって思うのは俺の贔屓目かな?
>>529 にはconsole.logが使われてる。この時点でJscriptは回答の選択肢から外すのが妥当では。
・・と思ったらいつの間にかIEもconsole.logに対応してた。
>>555 いや俺(ID:xZSwObig ID:19dxnqrT ID:OKMjmph6)は、
>>529 の質問をした奴ではないから感謝云々はイミフだし、
回答を貶したつもりは特に無いんだが…誰に言ってるの?
俺が
>>531 に対してレスしたのはMDNの基準で名称が違うって点と、
(これはMSDNの基準では正しい名称だから551で謝ってる)
RegExp.indexがJScript固有だから一般には使えないという指摘だけ。
まぁそろそろスレチだから謝罪要求ならそのへんにしとけよ。
>>557 別に謝ってくれなんていってないだろ
質問に間違ってる箇所を抜け無く指摘してて、質問者はすごく助かっただろうなって思ったところに
嫌なもん見ちゃって、しかもそれが君だと思ったんだよ
君が文句言ってたんじゃなかったんで、そこは俺の勘違いだ
それにちゃんと謝ってるレスも見てるから更に謝れっていうつもりは毛頭なかった
ただ、何故それほどの勢いでボロクソにいったのか、言った奴は何を思ってたんだろう?
って思っただけなのさ
559 :
543 :2014/06/13(金) 05:35:04.76 ID:hNNRznvy
>>543 自己レス
>String.replaceで、ヌル文字に置換しようと思ったが、
>これは全箇所ではなく、1つしか置換しない
gフラグを付けると、一度に複数箇所の置換ができるのか
そういう例を載せているサイトが、ほとんどなく、
MDNなどでも、簡単な例しか載せていないから、勘違いした
簡単な例しか載せていないサイトの作者は、
実際にプログラミングしたことないのかも。
一度に複数箇所の置換をするのは、当たり前なのに
>>547 >否定形があれば、一致しない方を取り出せる
{{ }}を削除するんだから、それら以外を取り出せばいいでしょ?
他の言語みたいに、一致する・しないを、
invertとかで反転できれば楽なのに、と思った
>>559 >簡単な例しか
/gを知らなくてもwhile文でなんとかなるという。
>invert
面白い考え方だなぁ、splitの区切りとして \{\{.*?\}\}\r?\n? を使えばそれっぽい動作に。
●Regular Expressionの使用環境 Perl ●検索か置換か? 検索 ●説明 前に指定したデータを含まない、「スケート」だけマッチさせたい ●対象データ アイススケート ローラースケート スケート (?<!アイス)(?<!ローラー)スケート 上記の正規表現文で、3行目のスケートだけマッチ出来るようになったのですが、もっと簡略化して書きたいです。 なにかよい書き方はないでしょうか。
「^スケート」 必要に応じてmフラグを追加すること。
フィギュアスケート がマッチするべきなのかそうでないのかが質問からでは分からないね。 質問するときはなるべく回答者から質問し返されないように書こう。 これが分からないと正規表現作れないので答えは保留。
あと、「スケート大会」は?データは1行につき1つ、ということでいいのかな。 文の中からマッチさせたいとなると書き方変わってくるよ。
レス頂いた皆さんありがとうございます。 失礼しました、言葉不足でした。 (?<!アイス)(?<!ローラー)スケート 前方で指定したアイスとローラー以外は一致させたいので、フィギュアスケートはマッチをさせたいです。 データは1行につき、複数あることもあり、文中に出てくる場所はランダムとなります。 (?<!アイス)(?<!ローラー)スケート を (?<!アイス|ローラー)スケート のように、上手く簡略化して書けないかなと思ったのですが、難しいでしょうか。 一応今の指定でもマッチさせることは出来るのですが、毎度 ?<! の指定でミスが出そうなので。。
>>566 (?<!アイス)(?<!ローラー)スケート
これで期待通りな動作になってるならこれがベストです。
後ろ読みには制限があって文字数の異なるものを分岐で一緒には出来ません。
後ろ読みを使わずに作る方法もあるけど複雑になるのでおすすめ出来ません。
568 :
563 :2014/06/19(木) 23:17:04.59 ID:a52+QUcr
まあこれくらいの題意の汲み取りはESPer能力の範疇だろう。
>>566 Perl 5.18.2では可変長の先読みは未対応というエラーが出るから、諦める。
5.20ではどうなっているのか知らない。
RegEx一発でどうにかしようとせずに、NGキーワード指定のところを変数化して
1. スケートを含む単語を抽出
2. NGキーワードを持つものを弾く
という単純な2種類の処理を組み合わせる
下のサンプルは1が終わったものとしてリストとして出発したもの
my @ngkeyword = qw(アイス ローラー);
my @target = qw(アイススケート ローラースケート スケート フィギュアスケート);
foreach my $target (@target) {
my $ok = 1;
foreach my $ngkeyword (@ngkeyword) {
$ok = 0 if $target =~ m/(?<=$ngkeyword)スケート/;
}
say $target if $ok;
}
先読みじゃなくて後読みだったね
戻り読みって呼び方のほうがわかりやすくて好き
>>566 >データは1行につき、複数あることもあり、文中に出てくる場所はランダムとなります。
1、"文章" の中にデータが複数回出てくることがある
2、1行につきデータが1つ以上あるCSVみたいな形式のデータ
どっちの意味なんだろうね?
ちなみにperl5.14以降なら (*SKIP)(*F) を使うことで後ろ読みを回避出来ます。
それ以前のperlでは \K と (?> ) を使って頑張って書くしかないので現実的ではありません。
やはり (?<!アイス)(?<!ローラー)スケート が一番簡潔で良いでしょうね。
すいません、お返事遅くなりました。 皆さんレスありがとうございます。 >1、"文章" の中にデータが複数回出てくることがある >2、1行につきデータが1つ以上あるCSVみたいな形式のデータ 失礼しました、1を指していました。 考えてみましたが、一番簡潔ということで当初の (?<!アイス)(?<!ローラー)スケート で実現させて頂こうと思います。 正規表現は難しいですね。。皆さんのご意見大変勉強になりました。 貴重なお時間ありがとうございます。
Visual Studio のC++の検索ダイアログで if( a==b ) ... と比較すべきところを、うっかり if( a=b ) ... と代入してしまっている行を検索する正規表現を教えてください。
そういう「うっかり」はo俺には有り得ない 君も有り得なくなる訓練したほうがよくね?
そもそもコンパイラが警告するだろ。
577 :
デフォルトの名無しさん :2014/06/28(土) 21:37:31.34 ID:JJOy/9cW
●Regular Expressionの使用環境 秀丸 ●検索か置換か? 置換 ●説明 行の末尾が「。」か「?」か「」」で終わってない時、その行の改行を消したい ●対象データ 〜だと 思われる。 ●希望する結果 〜だと思われる。
>>575 lintは使ったことがありません。
>>576 確かに警告レベルを上げるとこのうっかりミスを検出できるんですが、
他の警告も数百行くらい出て来て、その中に埋もれて探せません。
VisualStudioでなくて良いので、一般的な正規表現で良いので
if( a=b ) ...
の行を検出する記述教えてください。
>>578 > 他の警告も数百行くらい出て来て
VCなら警告を個別に抑制するオプションが有るし、
警告食らうようなコード書く癖を直したほうがバグは減る。
終わってる現場だなw
> if(a = b) の行を検出 はい \Qif(a = b)\E.+
どこの世界に 「if (a == b) をうっかり if (a = b)にしちゃった場合」 の対処を考えるとバカがいるんだ いるんだなあ 危ないからプログラミングなんかやめな
定数==a と書く癖をつければ 定数=a でコンパイルエラーになり半減する。
そんな癖より a == と書く癖を付けろw
>>579 > 警告食らうようなコード書く癖を直したほうがバグは減る。
マイクロソフトが提供してるヘッダーファイルが指摘されたりするんだが (w
全部消すとは言ってないように思うし そもそもワーニングメッセージが1000あろうが検索すれば問題ないと思うんだが?
セミコロンが後続しない代入文を探す方が楽なんじゃね?
strcpyとか使いながら_CRT_SECURE_NO_WARNINGSを付けてないとか、 衝突するような組み合わせでインクルードしてるって落ちじゃねぇだろうなぁ・・・?
ブラウザ上でドラッグで線を引いて正規表現をつなぎあわせて最適化するツールがあった気がするんだけどどこだっけ?
>>586 > そもそもワーニングメッセージが1000あろうが検索すれば問題ないと思うんだが?
ビルドの度に?
>>585 それは自分が書くコードに警告を残して良い理由にはならない。
そういう言い訳する派遣はその場で、契約解除だ。
>583は悪習だ。 定数を先行させる癖をつけても、左辺に代入可能な式が来てしまっては元も子もない。 例えば、class Foo に参照を返すmember()があったとして、 Foo.member() = a は警告対象にならない。 # そもそもconst参照を返せよって話になるのだが、const参照を返さない輩は多い。
俺もいろいろ試した結果、 定数を右辺にして、あとはIDEに丸投げといったところに落ち着いたなあ
文字列が英数字4文字の組み合わせかどうか調べるには、 echo "A2BS" | grep [0-9A-Z][0-9A-Z][0-9A-Z][0-9A-Z] で出来たのですが、100文字とかになると大変なのですが、 もっとスマートな書き方ありますか?
>>596 echo 'ABCDA' |grep '^[0-9a-zA-Z]\{4,4\}$'
>>596 間違えた。
echo 'ABCDA' |grep '^[0-9a-zA-Z]\{4\}$'
>>598 ありがとうございました。
出来ました。感謝です。
perlで $dataに以下の複数行の文字列が書いてあるのですが --------------はじめ-------------------------- ABC def { c { } } XYZ pqy { qwe 1 } ---------------おわり------------------------- ABC def { c { } } というのを抜き出したいため if ($content =~ /(ltm profile .*\n\})/sm){ print "$1\n"; } としたんですが全体が抜き出されてしまいます どなたかご教授下さい。
perlで $dataに以下の複数行の文字列が書いてあるのですが --------------はじめ-------------------------- ABC def { c { } } XYZ pqy { qwe 1 } ---------------おわり------------------------- ABC def { c { } } というのを抜き出したいため if ($content =~ /(ltm profile .*\n\})/sm){ print "$1\n"; } としたんですが全体が抜き出されてしまいます どなたかご教授下さい。
perlで $dataに以下の複数行の文字列が書いてあるのですが --------------はじめ-------------------------- ABC def { c { } } XYZ pqy { qwe 1 } ---------------おわり------------------------- ABC def { c { } } というのを抜き出したいため if ($content =~ /(ltm profile .*\n\})/sm){ print "$1\n"; } としたんですが全体が抜き出されてしまいます どなたかご教授下さい。
603 :
デフォルトの名無しさん :2014/07/03(木) 22:43:11.56 ID:j5QsBrGP
perlで $dataに以下の複数行の文字列が書いてあるのですが --------------はじめ-------------------------- ABC def { c { } } XYZ pqy { qwe 1 } ---------------おわり------------------------- ABC def { c { } } というのを抜き出したいため if ($content =~ /(ltm profile .*\n\})/sm){ print "$1\n"; } としたんですが全体が抜き出されてしまいます どなたかご教授下さい。
すいません。 IEが全然返ってこなくて、何回も書き込むことになってしまいました。
こういう質問する人はプログラミングに向いてないと思うなぁ。向いてたら自分で調べちゃうから。 学校の授業かなんかで嫌々やらされてんのかな。
606 :
デフォルトの名無しさん :2014/07/04(金) 02:49:59.75 ID:s7hbKy2B
/(ABC [^{]*{[^{}]*({[^{}]*}[^{}]*)*})/ な感じでいいのかな
言われた通りやったけど、正解にならなかったから、答え教えてって人だな。 テストで暗記して点数稼ぐタイプ。 言われたら何故そうやるのかを考え理解して、応用しないと。
これってキチンとしたものを作ろうと思ったら超難しいよ。 パーサーを作れと言ってるのと同じだからね。 例えばこんなのも想定する必要がある。 ABC def { c="{"; } $str = " ABC def { "; XYZ test { c{} } こういうイレギュラーなことに対応しなくても良いのなら 簡単に作れるけどね。 あ、もしかしたら 「そのデータ形式 パーサー perl」 で検索すれば 欲しいものが見つかるかもよ。
>>608 文法定義がBNFみたいなので明確に与えられていて、
部分式呼出し等の再帰構造を表現する機能が使えれば、
面倒くさいのは間違いないけどそこまででもない。
論点が超難しいかどうか、なレスだけど 誰から見て 難しいのかがあやふやだね。
質問者さんから見れば超難しいで正解だろう。
>>609 さんから見れば そうでもない で正解だろう。
こういうレスを付けるようじゃ合格点はやれないな。
611 :
デフォルトの名無しさん :2014/07/06(日) 12:23:27.02 ID:4c9hY2mY
連続したホワイトスペースは\s+で書くけど 毎回これ書くの辛いので ただのスペースをこれに読み替えてくれるオプションほしい
>>611 正規表現でそう言う変換すればいいんじゃね?
ワロタ
>>612 今までそうしてたけど
やっぱりパターンに変数入れるのはイヤ
>>614 > やっぱりパターンに変数入れるのはイヤ
意味がわからんが、とりあえず正規表現処理ルーチン書き換えればいいんじゃね?
JavaScriptならString.replaceとかを上書きすりゃ出来そうだな
617 :
デフォルトの名無しさん :2014/07/06(日) 16:23:24.16 ID:JKxWpx0K
頭の悪いフランス人が存在するせいで記号類も変換対象になるように事前に書き換えてる
>>617 お前そういう言い方したら、
英米人からしたら俺ら「頭の悪いCJK文字圏の連中」のせいで非ASCIIのUnicodeだとか面倒なうんたら……
って言われるのをお前自ら是認することを意味するぞ。
perlなら半角スペから\s+への変換をオーバーロードで書き換え可能。 詳しくは詳説 正規表現。 ただ、あまりおすすめしない・・。[ ] が [\s+] になるかも試練。
620 :
デフォルトの名無しさん :2014/07/06(日) 17:26:39.53 ID:JKxWpx0K
いやいやフランス人全体が馬鹿だとか言ってるのではなくてだな 「頭の悪いフランス人」がいるんだわ
頭の悪い日本人も目立つなあ
自己紹介乙
623 :
デフォルトの名無しさん :2014/07/06(日) 21:09:46.04 ID:JKxWpx0K
まあ馬鹿だなあと思う奴の方が多いのは事実だな 逆は片手で余裕だが
625 :
デフォルトの名無しさん :2014/07/06(日) 21:15:12.39 ID:JKxWpx0K
おおこんな殺伐としたスレに俺以外にもJKが
626 :
デフォルトの名無しさん :2014/07/06(日) 23:16:11.70 ID:ZNTkqHdO
正規表現でサクラエディタの色付け指定をやってるんだが、上手くできないので誰か教えてくれ… @command tag1.cmd1, tag2.cmd2, tag3.cmd3 こんな感じで、行頭に@command[SP]という文字列が存在する行で、 その後は 文字列.文字列,[SP]が繰り返されるようなテキストがあるとき、 (最後は,[SP]は無し) . と ,に囲まれた文字列をマッチさせたいのだが、どう指定してやればいいんだろう (上記例だと、cmd1 cmd2 cmd3をマッチさせたい) とりあえず、肯定先読みで (?<=^@command\s).+ としてやれば、 @command以後を取得することが出来ることまでは分かったんだが…
先読みじゃなくて戻り読みだけど戻り読みは固定長しか使えない制限がある。 ので\Kの保持を使うとこう書ける /(?<=^)@command +\w+\.\K\w+/k /(?<=^)@command +(?:\w+\.\w+, +){1}\w+\.\K\w+/k /(?<=^)@command +(?:\w+\.\w+, +){2}\w+\.\K\w+/k /(?<=^)@command +(?:\w+\.\w+, +){3}\w+\.\K\w+/k /(?<=^)@command +(?:\w+\.\w+, +){4}\w+\.\K\w+/k 個数分だけ定義を繰り返すのがみっともないなぁ… /^@command〜/kで始めると\Kが効かないっぽかったのでそこだけ戻り読み
ああなるほど、これでいいのか /(^@command|\G,) +\w+\.\K\w+/k
>>625 あんたの専ブラは類似ID強調機能でもあんのけ?
>>627 おお、ありがとうございます。助かった…
ちなみにライブラリの都合なのか、サクラエディタ1.6.6では上手く検索してくれないみたいだ
最新版にしたら動いたわ。
\Kの使い方は分かるけど\Gがよく分からないので勉強しないとな…
632 :
625 :2014/07/08(火) 00:03:42.93 ID:A7a/SfRX
スルーされにくい質問のテンプレと例 ●Regular Expressionの使用環境 サクラエディタ 2.0.5.0(bregonig.dll 3.02) ●検索か置換か? 置換 ●説明 Linuxでディレクトリのみのls -lコマンド結果からパーミッション、オーナー、グループ、ディレクトリ名(/から始まるフルパス表記)以外を置換して除去したい ハードリンク数やサイズや更新日時が除去できれば良いと思うのですが、 ls -lコマンド結果に例外的なものがあるのをご存知の方がいらっしゃれば、 それに対応頂きたいです。 よろしくお願いします。
>>633 「ls」が「ls --time-style="+%Y-%m-%d_%H:%M:%S" --color=auto」のエイリアスになってたりとか、
lsの例外は色々あるというかありうる例外の数が有限ではないから全対応とかは無理がある。
素のlsに限定してもロケールで振り回されることになるし、条件を絞って妥協した方がいいと思う。
・桁揃えが破綻してなければ矩形選択してバックスペースで済ます、正規表現は使わない
・桁数や書式を決め打ちした正規表現で済ます
・実行するコマンドを変えてそっちで必要な情報だけを出す
正規表現でやるにしても、対応したい書式をざっと出して、それに対する正規表現を考えた方が良い。
というわけで対象データと希望する結果は省略しないでくださいな。
635 :
デフォルトの名無しさん :2014/07/08(火) 07:34:14.05 ID:A7a/SfRX
っLANG=C
awk使おうぜ (LANG=C; /bin/ls -l | awk 'match($0, /^d.+/) {print $1 "\t" $3 "\t" $4 "\t" $9 }' )
>>633 findで書いた方が楽じゃない?
$ find . -maxdepth 1 -mindepth 1 -type d -printf "%m %u %g $(pwd)/%f\n"
755 root root /usr/games
755 root root /usr/src
755 root root /usr/include
755 root root /usr/bin
755 root root /usr/sbin
755 root root /usr/lib
2775 root staff /usr/local
755 root root /usr/share
●Regular Expressionの使用環境
サクラエディタ 2.1.1.3(bregonig.dll 3.05)
●検索か置換か?
検索(エディタの正規表現キーワード指定)
●説明
>>626 の質問をした者です。
>>628 で答えを貰ってから少しずつ練習をしているのですが、
サクラエディタの正規表現キーワード指定(タイプ別設定)の設定が上手くできないため教えてください。
@cmd あいうえお_かきくけこ_さしすせそ
上記のような文字列(行頭が@cmd[SP]である行で、その後に任意の文字列が続く)のうち、
文字列に含まれるアンダースコアを全てマッチさせたいと考えています。
そこで、次のような正規表現を考えました。
/(^@cmd|\G(\w|\[|\]))[^_]*\K[^_]*_/k
\Gの直後のカッコに [ ] を入れているのは、文字列にカッコ記号を含む可能性があるためです
この正規表現で通常の画面から検索をすると(/ /kを消して)、@cmdから始まる行のアンダースコア全てがハイライトされるのですが、
正規表現キーワード指定画面にて指定しても指定箇所に色が付きません。(カラー設定は行っています)
指定した正規表現に間違いがあるのでしょうか。
これ以外のキーワード指定は削除しているため、キーワード指定同士の競合はありません
>>638 検索でマッチしてる時点で成功してるんだからアプリの使い方の問題で、
このスレで聞くにはスレチな問題だってわかると思うんだが…エディタのスレで聞いてこい。
あと表現は「/(^@cmd |\G)[^_]*\K_/k」だ。でないと「@cmd a_@b_c」がマッチしない。
全てのアンダーバー文字の間にありうるのはアンダーバー以外すべての文字だ。
着色設定ではマッチしたところからの\Gが使えないのかもね。 ABBBBB を A\GB で着色出来るか試せば分かる。 こういうシンプル化した実験すれば質問する前に原因の絞りこみくらいは出来るよ。
>>640 あえて書かなかったけど、2.1.0.0で普通に着色できるんだよ。
設定ミスか、バージョン固有のバグだから多分スレチ……
>>639 確かに\Gの後の指定がおかしいですね。ありがとうございます。
教えていただいた表現では、何故か行頭が@cmdでない行のアンダースコアも反応してしまうようです。
>>640 >>628 の時点で、\Gと\Kが使えることは確認していました。
すみません、自己解決しました。
キーワードの指定で、マッチした文字を太字にする、という設定をしていたのですが
MSゴシックではアンダースコアの標準と太字の表示が全く同じのため
動作していたことに気付いていませんでした
つづき
\G には ^ と同じ意味もあります。 ^ としての働きが余計な場合は \G(?!^) を使って下さい。
>>628 以降これを見落としてます。
> [^_]
サクラエディタではこれでも問題無いんですがこれは本来、改行にもマッチする正規表現です。
他の環境で使うときは [^_\r\n] と書かなければならないのでご注意下さい。
サクラエディタは複数行に渡る検索が出来ない仕様のようですね。
これは正規表現ライブラリの仕様ではなくサクラエディタの仕様です。
>>644 > 他の環境で使うときは [^_\r\n] と書かなければならないのでご注意下さい。
否定文字クラスでは1文字の否定はできても2文字以上の否定はできないから、
それだと単独のCR改行やLF改行にはマッチしなくても、
CR+LF改行にマッチしてしまうのでは?
CRLFってCRの次にLFが来るだけだからCRにもLFにもマッチしない文字クラスはどちらにもマッチしないでしょ。
他のスレッドからこちらを紹介された来ました。 ●Regular Expressionの使用環境 LiName リネームソフト ●検索か置換か? 置換 フォルダ構成の作成 ●説明 バラバラになったファイルを、フォルダごとに分けたいです そのためにLiNameを使いたいが、正規表現が分からないです ●対象データ 詰め合わせフォルダ └(旅行) [ドイツ] あああ 画01枚.jpg (旅行) [ドイツ] あああ 画02枚.jpg (旅行) [ドイツ] あああ 画03枚.jpg (旅行) [ドイツ] いいい 画01枚.jpg (旅行) [ドイツ] いいい 画02枚.jpg (旅行) [アメリカ] ううう 画01枚.jpg (旅行) [アメリカ] ううう 画02枚.jpg (旅行) [ロシア] えええ 画01枚.jpg (旅行) [ロシア] えええ 画02枚.jpg すいません、長いので次に書かせていただきます。
続きです ●希望する結果 あああ └(旅行) [ドイツ] あああ 画01枚.jpg (旅行) [ドイツ] あああ 画02枚.jpg (旅行) [ドイツ] あああ 画03枚.jpg いいい └(旅行) [ドイツ] いいい 画01枚.jpg (旅行) [ドイツ] いいい 画02枚.jpg ううう └(旅行) [アメリカ] ううう 画01枚.jpg (旅行) [アメリカ] ううう 画02枚.jpg えええ └(旅行) [ロシア] えええ 画01枚.jpg (旅行) [ロシア] えええ 画02枚.jpg 国名部分や、あああやいいいの部分に数字が入っていても対応させたいです。 「画」は固定でこの一文字ですが、画像の枚数は三桁になることもあります。 四桁はありません。 間は全て半角スペースで分けてます。 他の方に、 Tドライブ直下に詰め合わせフォルダがあると仮定 検索→^(\d+)\tT:\\(詰め合わせフォルダ)\\(.*\])(\s*)(\D+)(\d+.*)$ 置換→\1\tT:\\\2\\\5\\\3\4\5\6 まで教えて頂けましたが、これだとフォルダ名前に数字が入っていた場合対応出来ませんでした。 分かる方がいましたら、お力になって下さい お願いしますm(_ _)m
違法ダウンロードの臭いがぷんぷんするからスルー
遅かったか・・・みなさんスミマセン
>>649 その質問じゃ意味がまず通じない(LiNameの挙動を普通しらない)
まずは自分で少しでも理解を
Androidアプリで正規表現使うときってなんで後方参照使えないんでしょう たいてい先読みとかは使えるのに……
>>652 君が不能である理由を問いかけられても……
? ちょっと意味分からないですね
>>652 windowsアプリで…って言われても広すぎて意味わかんないだろ?
あなたにとってのAndroidアプリ(またはそれを実装する特定の言語)は一つかも知れないが、他の人は知らない。
20140506:◯◯用論文: 山田太郎 ここで◯◯用論文だけ抜き出すにはどうすればいいのでしょうか?
658 :
656 :2014/07/14(月) 22:25:33.18 ID:TLjb6OBb
大変失礼しました ●Regular Expressionの使用環境 Ruby2.0 ●検索か置換か? 置換 ●説明 特定の文字列の箇所を抜き出したい ●対象データ 20140506:◯◯用論文: 山田太郎 ●希望する結果 ◯◯用論文
正規表現について少しでも勉強しようという気は無いのかい?
「正規表現 入門」でググって10分で読める記事の内容だけで解決できる問題
簡単だと自分でやれ、難しいと間違った回答 おまえらってほんと使えないよな。
その通りです。
ほどほどのが良いんだよ ほどほどの質問カモン!
>>661 だれが間違ったって?レス番挙げてみろや
>>664 お前間違い教えてやるからレス番教えろや?
例えば^(\d\d)(\d\d)$みたいな所で $1とか$2で()内に指定された値が入るときに$1と$2の間に数字の0を入れたい場合どうなるの? $1って指定が$10って扱いになっちゃって困ってるんだけど
PHP preg: ${1}0${2} java $1\0$2
>>668 ふむふむなるほどなるほど・・・正規表現よくしらなくて$1\0$2とか$1\\\0$2ってかいたりしてた
>>669 あーなるほど、PHPの方でやったらできました。ありがとうございます!
(開発環境書き忘れたけどサクラエディタです)
エスケープって処理系によって普通に違ったりするから覚えきれない。 後方参照になってなくて、マッチしないなぁ、とか悩んじゃったり。 でも大抵の間違い、固定パターンから始めて、少しずつ置き換えていけばわかるよね。 コマンドラインに書ける言語だと楽。