C#, C♯, C＃相談室 Part74

512 ：デフォルトの名無しさん：2012/08/16(木) 11:34:55.32

.NET 4.0 にて、HTMLのParseして遊ぼうと思い、いろいろ試していて、
LINQってのも使ってみたいから XDocument + SGMLReaderでと画策中。

ある程度ローカルで試して、さて対象のWEBページを、と挑むと、
「':' 文字、16 進数値 0x3A を名前に含むことはできません。」と…
どうやらSGMLReaderが「xml:lang」ってのは直接名前として扱えない、と怒っている模様。

[対象のWEBページの先頭]
-----------------------------------------------------------------
<!DOCTYPE html
PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="ja" lang="ja">
<head>
:
-----------------------------------------------------------------

この箇所は特に収集対象ではないので、最悪読み飛ばしするかなーと思ってますが、
ちゃんとした回避策があるのでしょうか？
XML方面にとんと疎いので、調べてみても到達しません。
よろしくお願いします。