<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>渋谷でサボるエンジニアの日記 &#187; さくらインターネット</title>
	<atom:link href="http://blog.firstlife.jp/tag/%e3%81%95%e3%81%8f%e3%82%89%e3%82%a4%e3%83%b3%e3%82%bf%e3%83%bc%e3%83%8d%e3%83%83%e3%83%88/feed/" rel="self" type="application/rss+xml" />
	<link>http://blog.firstlife.jp</link>
	<description>WEB技術などのメモ、他</description>
	<lastBuildDate>Sun, 25 Sep 2011 10:20:16 +0000</lastBuildDate>
	<language>ja</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.2.1</generator>
		<item>
		<title>サーバー上でPDFをHTMLに変換する</title>
		<link>http://blog.firstlife.jp/2008/05/18/%e3%82%b5%e3%83%bc%e3%83%90%e3%83%bc%e4%b8%8a%e3%81%a7pdf%e3%82%92html%e3%81%ab%e5%a4%89%e6%8f%9b%e3%81%99%e3%82%8b/</link>
		<comments>http://blog.firstlife.jp/2008/05/18/%e3%82%b5%e3%83%bc%e3%83%90%e3%83%bc%e4%b8%8a%e3%81%a7pdf%e3%82%92html%e3%81%ab%e5%a4%89%e6%8f%9b%e3%81%99%e3%82%8b/#comments</comments>
		<pubDate>Sat, 17 May 2008 15:41:44 +0000</pubDate>
		<dc:creator>kenji0302</dc:creator>
				<category><![CDATA[その他]]></category>
		<category><![CDATA[HTML]]></category>
		<category><![CDATA[PDF]]></category>
		<category><![CDATA[pdftohtml]]></category>
		<category><![CDATA[Poppler]]></category>
		<category><![CDATA[さくらインターネット]]></category>
		<category><![CDATA[変換]]></category>

		<guid isPermaLink="false">http://blog.firstlife.jp/?p=136</guid>
		<description><![CDATA[ブラウザでPDFを開くととっても重いんですよ。まぁ、かっこいい人たちはAdobe Readerなんて使わずに Foxit Reader とか軽いの使ってるのかも知れないんだけど。 ともかく、http://finance.firstlife.jp/を自分で使ってて、重いAcrobat Readerを何度も開くのは嫌になってきたので、サーバー上で変換かけれないのか、ってとこを調べてみました。 さて、何が使えるかな。Xpdfあたりかな、なんて思ってたら知らない間にForkして、Popplerってのが出来てるらしい。で、その中にpdftohtmlってコマンドがあって、それで実現できそう。 今回インストールしたサーバーのOSはFreeBSD、サクラインターネットなんだけどね。SSHとか解放してくれてるのが有り難いです。自前のサーバーとかroot権限があるところなら、パッケージでインストールするのがお勧め。poppler と poppler-data。poppler-dataのパッケージを入れないと日本語が扱えないので注意してね。 さて、早速インストール。以下が手順。 今回は$HOME/local 以下にインストールすることにしたので、まずディレクトリ作成。 $ mkdir $HOME/local ※$HOME ってのは、SSHでログインして $ echo $HOME ってやると判ると思うけど /home/[アカウント名] の事ね。 http://poppler.freedesktop.org/ から必要なファイルをダウンロード。 $ wget http://poppler.freedesktop.org/poppler-0.8.2.tar.gz $ wget http://poppler.freedesktop.org/poppler-data-0.2.0.tar.gz popplerをコンパイルしてインストール。 $ tar -xvzf poppler-0.8.2.tar.gz $ cd poppler-0.8.2 $ ./configure &#8211;prefix=$HOME/local $ make $ make install $ cd ../ データのインストール（これがないと日本語が処理できないよ） $ tar [...]]]></description>
			<content:encoded><![CDATA[<div align="center"><img src="http://blog.firstlife.jp/wp-content/uploads/2008/05/e784a1e9a18c-300x143.png" alt="pdf画像" title="pdf画像" width="300" height="143" class="aligncenter size-medium wp-image-137" /></div>
<p>ブラウザでPDFを開くととっても重いんですよ。まぁ、かっこいい人たちはAdobe Readerなんて使わずに <a href="http://www.forest.impress.co.jp/lib/offc/print/docviewer/foxitreader.html">Foxit Reader</a> とか軽いの使ってるのかも知れないんだけど。</p>
<p>ともかく、<a href="http://finance.firstlife.jp/">http://finance.firstlife.jp/</a>を自分で使ってて、重いAcrobat Readerを何度も開くのは嫌になってきたので、サーバー上で変換かけれないのか、ってとこを調べてみました。<br />
<span id="more-113"></span><br />
さて、何が使えるかな。<a href="http://ja.wikipedia.org/wiki/Xpdf">Xpdf</a>あたりかな、なんて思ってたら知らない間にForkして、<a href="http://ja.wikipedia.org/wiki/Poppler">Poppler</a>ってのが出来てるらしい。で、その中にpdftohtmlってコマンドがあって、それで実現できそう。</p>
<p>今回インストールしたサーバーのOSはFreeBSD、サクラインターネットなんだけどね。SSHとか解放してくれてるのが有り難いです。自前のサーバーとかroot権限があるところなら、パッケージでインストールするのがお勧め。poppler と poppler-data。poppler-dataのパッケージを入れないと日本語が扱えないので注意してね。</p>
<p>さて、早速インストール。以下が手順。</p>
<p>今回は$HOME/local 以下にインストールすることにしたので、まずディレクトリ作成。</p>
<blockquote><p>$ mkdir $HOME/local</p></blockquote>
<p>※$HOME ってのは、SSHでログインして <code>$ echo $HOME</code> ってやると判ると思うけど /home/[アカウント名] の事ね。</p>
<p><a href="http://poppler.freedesktop.org/">http://poppler.freedesktop.org/</a> から必要なファイルをダウンロード。</p>
<blockquote><p>$ wget <a href="http://poppler.freedesktop.org/poppler-0.8.2.tar.gz" rel="nofollow">http://poppler.freedesktop.org/poppler-0.8.2.tar.gz</a><br />
$ wget <a href="http://poppler.freedesktop.org/poppler-data-0.2.0.tar.gz" rel="nofollow">http://poppler.freedesktop.org/poppler-data-0.2.0.tar.gz</a></p></blockquote>
<p>popplerをコンパイルしてインストール。</p>
<blockquote><p>$ tar -xvzf poppler-0.8.2.tar.gz<br />
$ cd poppler-0.8.2<br />
$ ./configure &#8211;prefix=$HOME/local<br />
$ make<br />
$ make install<br />
$ cd ../</p></blockquote>
<p>データのインストール（これがないと日本語が処理できないよ）</p>
<blockquote><p>$ tar -xvzf poppler-data-0.2.0.tar.gz<br />
$ cd poppler-data-0.2.0<br />
$ make install datadir=$HOME/local/share</p></blockquote>
<p>コマンドラインだとこんな感じで example.pdf から example.html HTMLが出力できます。</p>
<blockquote><p>$ $HOME/local/bin/pdftohtml -noframes -enc UTF-8 example.pdf</p>
<p>主なオプション：<br />
-enc　出力HTMLの文字コードの指定<br />
-noframes　デフォルトだとフレームを使ったHTMLが出力されるが、それをせずに1つのHTMLに纏める。<br />
-c　画像で無理矢理テーブルなどを表示する</p></blockquote>
<p>便利といえば便利なんだけど･･･いまいち綺麗じゃないなぁ。googleとかのPDFのHTML変換は独自エンジンなのかな</p>
<p>ちなみに、htmltotext なんてコマンドもはいってて、こちらはPDFをテキストに変換できます。</p>
<p><!-- Default Block: wordpress_2 DISABLED-->
</p>]]></content:encoded>
			<wfw:commentRss>http://blog.firstlife.jp/2008/05/18/%e3%82%b5%e3%83%bc%e3%83%90%e3%83%bc%e4%b8%8a%e3%81%a7pdf%e3%82%92html%e3%81%ab%e5%a4%89%e6%8f%9b%e3%81%99%e3%82%8b/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
	</channel>
</rss>

