表題どおり。Macでpdfファイルから画像のみを抽出する手段について。検索するとなんだか怪しげなのがよく出てきて微妙に困ったので。コマンドラインでやります。
やり方
Homebrewでpopplerをインストールする。
brew install poppler
下記コマンドを実行すると、test.pdfにある画像が、testなんとか、というファイル名で画像ファイルのみ抽出される。形式はPBM(白黒)またはPPM(カラー)。
pdfimages test.pdf test
オプションとして-jをつけると、jpgに変換できるやつはjpgで出力してくれる。具体的には、JPEGで用いられる圧縮アルゴリズムDCT(Discrete Cosine Transform, 離散コサイン変換)が使われていれば、ということらしいのだが、やってみるとjpgになるファイルは多くはなかった。
pbm,ppmだと取り回しが不便なので、jpgに変換してやると使いやすい。imagemagickのconvertコマンドで。
convert *.ppm output.jpg
output-1,output-2,...という感じでファイルが出力される。
以上。
参考記事「Extracting images from a PDF」
なお、上記記事ではxpdfをインストールしている。xpdfでもできる。が、xpdfをベースに拡張したpopplerなるライブラリがあり、調べているとそちらを使うことが多いようなので、ここではそれを使った(「Poppler」)。
コメント