PDF関連

pdftotext(Windows で使う)

 pdfファイルからテキスト文字列を抽出するツールとして、pdftotext があります。
 Xpdf という pdf を X Window 上で表示すのツールの配布物の一部として、UNIX 派生の OS の場合は、Xpdfのダウンロードサイトから最新のものをダウンロードして指示に従ってインストールすれば良いでしょう。

 日本語サポートパッケージ ftp://ftp.foolabs.com/pub/xpdf/xpdf-japanese.tar.gz をインストールすることを忘れなければ問題ないと思います。

 日本語でのインストールの手順の解説では、 http://october.servehttp.com/pdftotext.htm があります。

(・・・といっても、私はやったことがありません。)

 Windows  では、Xpdfのツールの中の一部(pdftotext含む)が使えます。ここでは、コンパイル済みのバイナリを使って pdftotextが使えるように環境設定します。

1.pdftotextのインストール

  ダウンロードサイトから、最新の Win32用バイナリをダウンロードします。(私がダウンロードした時には、 xpdf-2.01-win32.zip でした。)
 解凍すると、xpdf-2.01-win32 というフォルダ内にファイルが作成されますが、そのフォルダ内のファイルを "C:\Program Files\Xpdf" フォルダーにコピーします。

2.日本語パッケージのインストール

 1.でダウンロードしたのと同じサイトから xpdf-japanese.tar.gz をダウンロードして、解凍すると "xpdf-japanese" というフォルダの下にファイルが作成されあす。そのフォルダ内のファイルを "C:\Program Files\Xpdf\japanese" フォルダーにコピーします。

3.configファイルの作成

  このファイルを xpdfrc という名前で、"C:\Program Files\Xpdf" フォルダーに保存します

4.使ってみる

コマンドラインから

"C:\Program Files\Xpdf\pdftotext" -enc Shift-JIS foo.pdf

と入力すると、foo.txt というファイルが作成されます。

 必要であれば、"C:\Program Files\Xpdf"を検索パスに加えればよいでしょう。

5.他のフォルダーにインストールしてみたい

 要は、pdftotext.exe がデフォルトでは、3.でインストールした設定ファイルを "C:\Program Files\Xpdf\xpdfrc"から、読み込んでいるので、xpdfrc ファイルをこの場所に置けば、(そして xpdfrc の中身を書き直せば)他のファイルを他の場所に置くことはできます。
 また、xpdfrc ファイルは、pdftotext.exe の -cfg オプションで指定することができるので、毎回

pdftotext -cfg  c:\foo\bar\xpdfrc -enc Shift-JIS foo.pdf

と指定すれば、使えるでしょう。


Zope メモ