PerlでHTML文からテキスト文を抽出する法

Perl に関する質問は以下のスレにどうぞ。

Perlは結構使えるっぽいけどどうよ？
http://pc.2ch.net/test/read.cgi/tech/991994996/
Perlについての質問箱
http://pc.2ch.net/test/read.cgi/tech/1017736187/

18 ：デフォルトの名無しさん：02/07/02 23:28

天地爆裂
電波炸裂

19 ：デフォルトの名無しさん：02/07/02 23:29

なぜ上げる？

20 ：デフォルトの名無しさん：02/07/02 23:35

>>19
ごめんなさい。

21 ：デフォルトの名無しさん：02/07/02 23:38

>>19
ここ数日板の攪拌をしてる人がいるみたい。
すぐ落ちるし気にしなくていいんでない。

22 ：デフォルトの名無しさん：02/07/03 02:01

>>9 は複数行に跨ったタグを除去できない、ってだけの話だね。

つうか、きちんと動作するプログラム作りたいんだったら、
正規表現をLexerプログラムに翻訳しなおして、
微妙な境界条件や、エラー・リカバリをきちんと書くのが正道

23 ：デフォルトの名無しさん：02/07/03 02:04

つーか、HTML::Parser 使おう。

24 ：デフォルトの名無しさん：02/07/03 02:09

お前なんであげんの？

25 ：デフォルトの名無しさん：02/07/03 07:09

>>23 中身はExpadかな

26 ：デフォルトの名無しさん：02/07/18 02:04

# $str の中のタグを削除した $result を作る
# $tag_regex と $tag_regex_ は別途参照

$text_regex = q{[^<]*};

$result = '';
while ($str =~ /($text_regex)($tag_regex)?/gso) {
last if $1 eq '' and $2 eq '';
$result .= $1;
$tag_tmp = $2;
if ($tag_tmp =~ /^<(XMP|PLAINTEXT|SCRIPT)(?![0-9A-Za-z])/i) {
$str =~ /(.*?)(?:<\/$1(?![0-9A-Za-z])$tag_regex_|$)/gsi;
($text_tmp = $1) =~ s/</</g;
$text_tmp =~ s/>/>/g;
$result .= $text_tmp;
}
}

# Perlﾒﾓからのコピペ。よって
#
# 　～糸冬了～

27 ：デフォルトの名無しさん：02/09/21 13:13

つーか、HTML::Parser 使おう。

28 ：デフォルトの名無しさん：02/09/21 13:19

>>25 expatの間違いだよな？
ちなみにHTML::Parserはw3cのlibwwwのパーサ(C)をベースに改良したものだ。

29 ：デフォルトの名無しさん：02/09/21 13:22

テキスト文
ストリング文字列
キャラクター文字
サウンド音
イメージ画像

30 ：ファック：02/09/21 17:40

perlfaq 読まない >>1 に死を！