pdfファイルからテキスト文字列を抽出するツールとして、pdftotext
があります。
Xpdf という pdf を X
Window 上で表示すのツールの配布物の一部として、UNIX
派生の OS の場合は、Xpdfのダウンロードサイトから最新のものをダウンロードして指示に従ってインストールすれば良いでしょう。
日本語サポートパッケージ ftp://ftp.foolabs.com/pub/xpdf/xpdf-japanese.tar.gz をインストールすることを忘れなければ問題ないと思います。
日本語でのインストールの手順の解説では、 http://october.servehttp.com/pdftotext.htm があります。
(・・・といっても、私はやったことがありません。)
Windows では、Xpdfのツールの中の一部(pdftotext含む)が使えます。ここでは、コンパイル済みのバイナリを使って pdftotextが使えるように環境設定します。
ダウンロードサイトから、最新の
Win32用バイナリをダウンロードします。(私がダウンロードした時には、
xpdf-2.01-win32.zip
でした。)
解凍すると、xpdf-2.01-win32
というフォルダ内にファイルが作成されますが、そのフォルダ内のファイルを
"C:\Program Files\Xpdf" フォルダーにコピーします。
1.でダウンロードしたのと同じサイトから xpdf-japanese.tar.gz をダウンロードして、解凍すると "xpdf-japanese" というフォルダの下にファイルが作成されあす。そのフォルダ内のファイルを "C:\Program Files\Xpdf\japanese" フォルダーにコピーします。
このファイルを xpdfrc という名前で、"C:\Program Files\Xpdf" フォルダーに保存します
コマンドラインから
| "C:\Program Files\Xpdf\pdftotext" -enc Shift-JIS foo.pdf |
と入力すると、foo.txt というファイルが作成されます。
必要であれば、"C:\Program Files\Xpdf"を検索パスに加えればよいでしょう。
要は、pdftotext.exe がデフォルトでは、3.でインストールした設定ファイルを
"C:\Program Files\Xpdf\xpdfrc"から、読み込んでいるので、xpdfrc
ファイルをこの場所に置けば、(そして xpdfrc
の中身を書き直せば)他のファイルを他の場所に置くことはできます。
また、xpdfrc ファイルは、pdftotext.exe の -cfg
オプションで指定することができるので、毎回
| pdftotext -cfg c:\foo\bar\xpdfrc -enc Shift-JIS foo.pdf |
と指定すれば、使えるでしょう。