DirtyなHTMLなのにXHTMLと名乗っているページをC#でスクレイピングする

babydaemons https://blog.hatena.ne.jp/babydaemons/ babydaemons’ blog https://babydaemons.hatenablog.com/ C# HTML C#でスクレイピング - DENKENを参考にやってみた。元ネタはGoogleが吐いたHTMLを処理してたので（比較的キレイなHTMLなんだろう）、HTMLtoXHTMLは無事にXHTMLに変換できていたが、とある有名なブログのページを変換しようとしたら、XHTMLの宣言部が下記のように見事に壊れて、XDocument.Parse(xhtml)でXmlExceptionで落ちる。 <?xml version="1.0" encoding="Shift_JIS"="=" ?> <!DOCTYPE html="html" PUBLIC="PUBLIC" -="-" xmlns="http://ww… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fbabydaemons.hatenablog.com%2Fentry%2F20080406%2F1207459428" title="DirtyなHTMLなのにXHTMLと名乗っているページをC#でスクレイピングする - babydaemons’ blog" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2008-04-06 14:23:48 DirtyなHTMLなのにXHTMLと名乗っているページをC#でスクレイピングする rich https://babydaemons.hatenablog.com/entry/20080406/1207459428 1.0 100%