正規表現 part 3

>>872=874？
わざわざ試作までして頂いたようで申し訳ありません。

>>869-875
質問の趣旨は、要件にあった物ががあれば、ちょっと教えてもらえないか、
という事であって、プログラムを書いて欲しいとまでは思ってませんでした。
自分はスキルが低いので何もお返しができませんし(汗)

今後は、似たような悩みがありそうなサーバ系のスレででも、別のアプローチで
質問してみます。

レスして頂いた方々、ありがとうございました。

902 ：861=868=901：2007/07/12(木) 23:26:44

すみません自分のレス番つけてなかったです。

903 ：デフォルトの名無しさん：2007/07/13(金) 08:35:24

>>900
gsubという置換メソッドを見つけましたが、その方法だと>>892のやり方でも
いけました。
どもです。

904 ：デフォルトの名無しさん：2007/07/13(金) 19:08:46

AAAAAA/BCD→AAAAAA
BGD/HJL→BGD
/より後ろの文字列を置換で削除（/も含む）したいのですがどういう表記にすればいいんでしょうか？

905 ：デフォルトの名無しさん：2007/07/13(金) 19:32:02

>>904

(.*?)/.* を \1 に置換

処理系によっては / は \/ にエスケープ。

906 ：デフォルトの名無しさん：2007/07/13(金) 19:46:58

>>905
即レスありがとうございます、置換できました

907 ：デフォルトの名無しさん：2007/07/13(金) 20:28:46

/.*を空文字置換ではいかんの？

908 ：デフォルトの名無しさん：2007/07/13(金) 21:27:50

普通はそうなる罠

909 ：デフォルトの名無しさん：2007/07/14(土) 21:38:25

>>901
作った。
自分のブログに上げたから、ブログ検索で見つけてくれ。

910 ：デフォルトの名無しさん：2007/07/15(日) 00:12:39

質問です
「切れる」「切れた」「切れす」「切れてん」「切れ、」にヒットして「切れ～レス」にヒットしないような正規表現を作ろうと思い、

(?=.*切れ)((?=.*る)|(?=.*た)|(?=.*す)|(?=.*てん)|(?=.*、))^(?!.*レス).*

というのを作ったのですが、これだと「切れ～～、」というものまでヒットしてしまって困っています。
「切れ～～、」にヒットせずに、「切れ、」にヒットするようにはどうすれば良いのでしょうか？
よろしくお願いします。

911 ：デフォルトの名無しさん：2007/07/15(日) 00:40:48

lex的にやればできる。awkでもできそうだが。

"切れ([るたす、]|てん)" { printf("hit"); }
"切れ.*レス" { /* ignore */ }
. { /* ignore */ }

912 ：デフォルトの名無しさん：2007/07/15(日) 01:11:22

なんでlex？
普通に

切れ(る|た|す|(てん)|、)

でいいだろ。

913 ：デフォルトの名無しさん：2007/07/15(日) 01:13:42

切れ([るたす、]|(てん))
のほうがいいか。

914 ：デフォルトの名無しさん：2007/07/15(日) 01:16:52

>>912

それだと「切れるレス」　が問題になる

915 ：デフォルトの名無しさん：2007/07/15(日) 02:03:08

「切れ～レス」だけは駄目ってこと？

「切れるレ」とかは？

916 ：デフォルトの名無しさん：2007/07/15(日) 02:50:06

自分のWindowsアプリに正規表現を組み込もうと思っていますが、どの既存のエンジンが
みなさんのお勧めでしょうか？？安定して、日本語を正しく処理できるエンジンがいいです。

917 ：・∀・）っ-○◎●：2007/07/15(日) 03:12:06

よく見るのはBREGEXP.DLL
最近は鬼車じゃないの。

あとはライセンスじゃね？
GPLな正規表現ライブラリ薦められて何も知らずに採用しちゃって・・・
なんてことがあっても誰も責任はとれんよ。

918 ：デフォルトの名無しさん：2007/07/15(日) 03:13:52

>>916
文字コードは？Unicode, Shift_JIS?

919 ：・∀・）っ-○◎●：2007/07/15(日) 03:20:30

Boostの文字列操作ライブラリはshift-jisと相性良くないからな。
自分でトークンイテレータを作りこむ人にはアリな選択

920 ：デフォルトの名無しさん：2007/07/15(日) 03:25:31

文字コードはUnicodeでお願いします。Windowsの内部形式と同じUTF-16LEで。
BREGEXPか鬼車ですか。わかりました。調べてみます。

921 ：デフォルトの名無しさん：2007/07/15(日) 03:39:48

Unicodeなら、Bregexp.dllは使えないな。鬼車かBoostかな？
鬼車は置換処理は自分で書かないといけないので注意。

あとは、Bregexp互換で中身は鬼車のbregonig.dllってものもあるけど、
ベータ版のUnicode対応版が出てる。置換もあるけど、まー、ベータ版だから様子見かな。

922 ：デフォルトの名無しさん：2007/07/15(日) 06:32:38

>>915
「切れるレス」にヒットしなければいいです。

専ブラJaneのあぼーんで使いたいので、perl互換で作りたいのです。
>>910の正規表現だと、「切れ、」と「切れ～～、」のどちらにもヒットしていしまい、この2つを区別したいのです。
例えば「切れないし、」は残したい場合でも、「切れ」と「、」が含まれるのでヒットしてしまうのです。

どうすれば解決できるのでしょうか？よろしくお願いします。

923 ：922：2007/07/15(日) 06:48:52

書き忘れました。
情報小出しにしてすいませんでした。

924 ：デフォルトの名無しさん：2007/07/15(日) 06:55:11

しね

925 ：デフォルトの名無しさん：2007/07/15(日) 13:17:40

UTF-8 なら PCRE でも良くね？

926 ：・∀・）っ-○◎●：2007/07/15(日) 13:54:29

単純な文字列マッチの性能は鬼車＞PCRE

文字列固定の部分をBoyer-Moore法使って高速化してるからな。
Xpressiveもそうだっけな

927 ：デフォルトの名無しさん：2007/07/15(日) 14:23:29

>>922
手元に環境無いから試せないが

/切れ([るたす、]|(てん))(?!レス)/

では、どうか？

928 ：デフォルトの名無しさん：2007/07/15(日) 19:49:29

>>927
だめでした。
「切れ、」と「切れ～～、」は解決できているのですが、「切れるレス」にもヒットしてしまいました。

929 ：デフォルトの名無しさん：2007/07/15(日) 20:11:02

正規表現はxxを含まないというのを書くのに向いてないのに
なぜ無謀にもやろうとする奴が後をたたないのだろうか...

930 ：デフォルトの名無しさん：2007/07/15(日) 20:18:39

NOT ○○を含む
で実現すればいいのにねぇ

931 ：デフォルトの名無しさん：2007/07/15(日) 21:00:59

そうは言っても、ソフトがそれに対応していないとどうにもならんわけで。
（Janeはどうか知らんが）

932 ：デフォルトの名無しさん：2007/07/15(日) 22:44:49

>>928
そもそも Jane の正規表現って、Perl 互換なの？
あと、日本語をちゃんとサポートしてるのか？

Jane で使える正規表現を説明しているページ Plz

933 ：デフォルトの名無しさん：2007/07/15(日) 23:38:25

素朴な疑問だけど、正規表現に否定がないのはなぜ?

!(正規表現) で(正規表現)にまっちしない文字列、みたいのが
あってもよさそうなものじゃないかと思うのですが

934 ：デフォルトの名無しさん：2007/07/15(日) 23:54:22

>>932
JaneView.txtに
▼01101-040210RC1
▽正規検索ユニットを変更
　・これまで使っていたRegExpRから、Windows/IE付属のRegExpオブジェクトに変更
　・文法はPerl5互換(これまでと同じ)
　・パフォーマンスは純粋な検索部分の速度で約2～3倍に向上
　・以前のユニットに戻すには、「設定」「設定」「その他」の「正規検索にWSHを使う」
　　をオフにして再起動
　・環境の問題でWSHが使えない場合は、初回起動時に警告ダイアログが出て自動でオフに
　　設定されます（その場合、チェックボックスはグレーアウトされる）
　　※WSHで問題の報告がなければ、いずれRegExpRを取り除く予定です。
とありました。
日本語は使えてます。

935 ：デフォルトの名無しさん：2007/07/16(月) 00:01:42

>>933
まいっちんぐしない文字列を痴漢するときはどうするんだい？

936 ：デフォルトの名無しさん：2007/07/16(月) 00:18:35

というか、1文字の入力から状態遷移を繰り返してるから
入力から遷移先が決まらないものはダメなんじゃねえの

937 ：デフォルトの名無しさん：2007/07/16(月) 00:38:03

[^hoge]

938 ：デフォルトの名無しさん：2007/07/16(月) 00:38:19

正規言語の補集合も正規言語だから、!(正規表現)みたいのが
なくても書けるので不要ということだろうな。でも与えられた
正規表現が受理する言語の補集合を受理する正規表現を書くのは
大変なので、そういうシンタックスシュガーがあれば便利かも?

939 ：デフォルトの名無しさん：2007/07/16(月) 00:47:15

grep -v 'regexp'

940 ：デフォルトの名無しさん：2007/07/16(月) 00:52:00

>>938
意味がわかりません。

941 ：デフォルトの名無しさん：2007/07/16(月) 00:58:26

>>940
自分の無知を偉そうに自慢されても私たちに出来る事は何も有りません

942 ：デフォルトの名無しさん：2007/07/16(月) 01:03:39

>>934
確かに

> ・文法はPerl5互換(これまでと同じ)

って書いてあるけど

> Windows/IE付属のRegExpオブジェクトに変更
> ・環境の問題でWSHが使えない場合は

とも書いてあるので、細かいところまで Perl 互換かはちょっと怪しいな。

とりあえず
http://tehen.hp.infoseek.co.jp/abone/abone.html
によると、

/切れ([るたす、]|(てん))[^レ][^ス]/

あたりは動きそう。

(行末とかが "切れる" とかなってるとちょっと不味いかも...。)

943 ：デフォルトの名無しさん：2007/07/16(月) 01:10:31

>>941
小難しい単語並べりゃいいってもんじゃないんだよ。

>正規言語の補集合も正規言語だから、!(正規表現)みたいのが
>なくても書けるので不要ということだろうな。

書いてみろ。

この作業が酷く大変なら、そういうシンタクスシュガーが無い理由もわかるだろ。

944 ：デフォルトの名無しさん：2007/07/16(月) 01:29:25

なんちゅう詭弁

945 ：デフォルトの名無しさん：2007/07/16(月) 01:29:33

>>943
特定文字列が含まれてるかどうか調べるなら
if( $pero =~ /kari/ ){print "ﾊﾞｰﾛｰ\n";}

含まれていないことを調べるならその補集合で
if( !($pero =~ /kari/) ){print "ﾛｰﾊﾞｰ\n";}

ってことを言っただけでしょ？
これだけじゃ超えられない表現もいっぱあるけどさ

946 ：・∀・）っ-○◎●：2007/07/16(月) 03:13:12

クイックハックでパターンの先頭に1個「!」があれば否定にするようにしたことあったな。
実現方法は後察しの通り。

947 ：デフォルトの名無しさん：2007/07/16(月) 06:55:18

if( $pero !~ /kari/ ){print "ﾊﾞｰﾛｰ\n";}

948 ：デフォルトの名無しさん：2007/07/16(月) 07:19:42

団子って何歳？

949 ：デフォルトの名無しさん：2007/07/16(月) 09:26:50

たしか40代だったな

950 ：・∀・）っ-○◎●：2007/07/16(月) 15:21:25

永遠の１２歳だお

951 ：デフォルトの名無しさん：2007/07/16(月) 22:51:37

36進法で。

952 ：糾 ◆OlivettiFg ：2007/07/17(火) 23:14:00

>>950
人間のトシに換算すると(ry

953 ：・∀・）っ-○◎●：2007/07/17(火) 23:22:46

縦読み厨うざい

954 ：デフォルトの名無しさん：2007/07/19(木) 00:36:58

print "ﾊﾞｰﾛｰ\n" unless( $pero =~ /kari/ );

955 ：デフォルトの名無しさん：2007/07/25(水) 17:23:43

ここに書き込むのは気が引けるほどの、ど初心者なのですが質問させてください。

FirefoxのSearchBox Syncというアドオンを使っています。
これは検索した文字列を検索ボックスに自動的に挿入させるアドオンです。

これで適用させるサイトを増やしたくて、正規表現を見始めました。
そこで本題なのですが、

^http://www\.amazon\.com?\.?(\w+)?/.*keywords=([^&]+)
と
amazon.*keywords=([^&]+)

では、どちらも検索語句を抽出できますが、どちらの記述の方がスマートな記述なのでしょうか？

なお、最後尾のグループに入る文字列が検索ボックスに挿入されます。

956 ：デフォルトの名無しさん：2007/07/25(水) 19:08:55

どちらがスマートかというより、上のほうが厳密で、下のほうは緩やか。
例えば下のだとamazon.co.jpのほうもマッチします。

957 ：デフォルトの名無しさん：2007/07/25(水) 22:10:23

>>956
上のも co.jp にマッチするというかマッチさせたいという話じゃないのかな？

958 ：デフォルトの名無しさん：2007/07/25(水) 23:29:47

YouTubeのIDだけをとりだしてみたいんだけど
できるGUYいる？

このパターンを
http://jp.youtube.com/watch?v=GUUxY6mJ2es
http://youtube.com/watch?v=GUUxY6mJ2es
http://www.youtube.com/watch?v=GUUxY6mJ2es

こんなかんじ
GUUxY6mJ2es

959 ：デフォルトの名無しさん：2007/07/25(水) 23:37:41

できるよ

分かったら後は自力で頑張れ

960 ：デフォルトの名無しさん：2007/07/25(水) 23:39:29

>>959
レスありがとな！
今「サルでもわかる正規表現」ってサイト読んでるぜ！

961 ：デフォルトの名無しさん：2007/07/26(木) 10:52:33

&または行末というつもりで[&$]と書いてもうまくいかない