<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>渋谷でサボるエンジニアの日記 &#187; XML</title>
	<atom:link href="http://blog.firstlife.jp/tag/xml/feed/" rel="self" type="application/rss+xml" />
	<link>http://blog.firstlife.jp</link>
	<description>WEB技術などのメモ、他</description>
	<lastBuildDate>Sun, 25 Sep 2011 10:20:16 +0000</lastBuildDate>
	<language>ja</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.2.1</generator>
		<item>
		<title>simplexml_import_domで文字化け</title>
		<link>http://blog.firstlife.jp/2008/03/21/simplexml_import_dom%e3%81%a7%e6%96%87%e5%ad%97%e5%8c%96%e3%81%91/</link>
		<comments>http://blog.firstlife.jp/2008/03/21/simplexml_import_dom%e3%81%a7%e6%96%87%e5%ad%97%e5%8c%96%e3%81%91/#comments</comments>
		<pubDate>Thu, 20 Mar 2008 17:57:11 +0000</pubDate>
		<dc:creator>kenji0302</dc:creator>
				<category><![CDATA[php]]></category>
		<category><![CDATA[XML]]></category>
		<category><![CDATA[文字化け]]></category>

		<guid isPermaLink="false">http://blog.firstlife.jp/2008/03/21/simplexml_import_dom%e3%81%a7%e6%96%87%e5%ad%97%e5%8c%96%e3%81%91/</guid>
		<description><![CDATA[最近、スクレイピングでいろいろやってるんだけど、文字化けで困ったのでメモ。 DOMでデータを扱うときで元データがEUCの場合、下の様にHTMLをUTF-8に変換してから処理をしてるんだけど、 $HTML = mb_convert_encoding($HTML,&#8221;utf8&#8243;, &#8220;euc-jp&#8221;); $HTML = preg_replace(&#8216;/charset=euc-jp/&#8217; , &#8216;charset=utf-8&#8242; , $HTML); $HtmlDOM = @DOMDocument::loadHTML($HTML); $HtmlXML = simplexml_import_dom($HtmlDOM); なぜか、これで必ず文字化けが発生するページが一部あって。どうやら、simplexml_import_domのところで化けてるらしい。 で、調べてみた所、php>DOM>文字化けって記事を書いている方がいらっしゃいました。 ここを参考に $HTML = mb_convert_encoding($HTML,&#8221;utf8&#8243;, &#8220;euc-jp&#8221;); $HTML = mb_convert_encoding($HTML, &#8216;HTML-ENTITIES&#8217;, &#8220;UTF-8&#8243;); $HTML = preg_replace(&#8216;/charset=euc-jp/&#8217; , &#8216;charset=utf-8&#8242; , $HTML); $HtmlDOM = @DOMDocument::loadHTML($HTML); $HtmlXML = simplexml_import_dom($HtmlDOM); とすると文字化けが解消しました。 原因は mb_convert がらみかな？mb_convert_encodingの項でこんな記載がありました。 http://jp2.php.net/mb_convert_encoding#69412 文字コードって難しいね。]]></description>
			<content:encoded><![CDATA[<p>最近、スクレイピングでいろいろやってるんだけど、文字化けで困ったのでメモ。</p>
<p>DOMでデータを扱うときで元データがEUCの場合、下の様にHTMLをUTF-8に変換してから処理をしてるんだけど、</p>
<blockquote><p>$HTML = mb_convert_encoding($HTML,&#8221;utf8&#8243;, &#8220;euc-jp&#8221;);<br />
$HTML = preg_replace(&#8216;/charset=euc-jp/&#8217; , &#8216;charset=utf-8&#8242; , $HTML);<br />
$HtmlDOM = @DOMDocument::loadHTML($HTML);<br />
$HtmlXML = simplexml_import_dom($HtmlDOM);</p></blockquote>
<p>なぜか、これで必ず文字化けが発生するページが一部あって。どうやら、simplexml_import_domのところで化けてるらしい。<br />
<span id="more-93"></span><br />
で、調べてみた所、<a href="http://sadax.cs.shinshu-u.ac.jp:8080/wordpress/?p=118">php>DOM>文字化け</a>って記事を書いている方がいらっしゃいました。</p>
<p>ここを参考に</p>
<blockquote><p>$HTML = mb_convert_encoding($HTML,&#8221;utf8&#8243;, &#8220;euc-jp&#8221;);<br />
<b>$HTML = mb_convert_encoding($HTML, &#8216;HTML-ENTITIES&#8217;, &#8220;UTF-8&#8243;);</b><br />
$HTML = preg_replace(&#8216;/charset=euc-jp/&#8217; , &#8216;charset=utf-8&#8242; , $HTML);<br />
$HtmlDOM = @DOMDocument::loadHTML($HTML);<br />
$HtmlXML = simplexml_import_dom($HtmlDOM);</p></blockquote>
<p>とすると文字化けが解消しました。</p>
<p>原因は mb_convert がらみかな？mb_convert_encodingの項でこんな記載がありました。<br />
<a href="http://jp2.php.net/mb_convert_encoding#69412">http://jp2.php.net/mb_convert_encoding#69412</a><br />
文字コードって難しいね。</p>
<p><!-- Default Block: wordpress_2 DISABLED-->
</p>]]></content:encoded>
			<wfw:commentRss>http://blog.firstlife.jp/2008/03/21/simplexml_import_dom%e3%81%a7%e6%96%87%e5%ad%97%e5%8c%96%e3%81%91/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>

