Macでpdfから画像のみを抽出

2017年12月15日

表題どおり。Macでpdfファイルから画像のみを抽出する手段について。検索するとなんだか怪しげなのがよく出てきて微妙に困ったので。コマンドラインでやります。

やり方

Homebrewでpopplerをインストールする。

brew install poppler

下記コマンドを実行すると、test.pdfにある画像が、testなんとか、というファイル名で画像ファイルのみ抽出される。形式はPBM（白黒）またはPPM（カラー）。

pdfimages test.pdf test

オプションとして-jをつけると、jpgに変換できるやつはjpgで出力してくれる。具体的には、JPEGで用いられる圧縮アルゴリズムDCT(Discrete Cosine Transform, 離散コサイン変換)が使われていれば、ということらしいのだが、やってみるとjpgになるファイルは多くはなかった。

pbm,ppmだと取り回しが不便なので、jpgに変換してやると使いやすい。imagemagickのconvertコマンドで。