simplexml_import_domで文字化け
最近、スクレイピングでいろいろやってるんだけど、文字化けで困ったのでメモ。
DOMでデータを扱うときで元データがEUCの場合、下の様にHTMLをUTF-8に変換してから処理をしてるんだけど、
$HTML = mb_convert_encoding($HTML,”utf8″, “euc-jp”);
$HTML = preg_replace(‘/charset=euc-jp/’ , ‘charset=utf-8′ , $HTML);
$HtmlDOM = @DOMDocument::loadHTML($HTML);
$HtmlXML = simplexml_import_dom($HtmlDOM);
なぜか、これで必ず文字化けが発生するページが一部あって。どうやら、simplexml_import_domのところで化けてるらしい。
(続き…)