.NET 4.0 にて、HTMLのParseして遊ぼうと思い、いろいろ試していて、
LINQってのも使ってみたいから XDocument + SGMLReaderでと画策中。
ある程度ローカルで試して、さて対象のWEBページを、と挑むと、
「':' 文字、16 進数値 0x3A を名前に含むことはできません。」と…
どうやらSGMLReaderが「xml:lang」ってのは直接名前として扱えない、と怒っている模様。
[対象のWEBページの先頭]
-----------------------------------------------------------------
<!DOCTYPE html
PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN"
"
http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="
http://www.w3.org/1999/xhtml" xml:lang="ja" lang="ja">
<head>
:
-----------------------------------------------------------------
この箇所は特に収集対象ではないので、最悪読み飛ばしするかなーと思ってますが、
ちゃんとした回避策があるのでしょうか?
XML方面にとんと疎いので、調べてみても到達しません。
よろしくお願いします。