某雑誌の総集編から特定の連載記事だけ抜き取りたい（その3）

前回、前々回の続き。ようやく完成。

pdftkコマンドで目次（しおり）を追加

まずはpdftkコマンドの、update_info_utf8を使う方法。

$ pdftk input.pdf update_info_utf8 info.txt output output.pdf

info.txtは、dump_data_utf8オプションの出力と同じ形式。試した範囲では目次（ブックマーク）に関する情報だけでも問題ない。

まずは、pdftkコマンドに与える情報を生成する必要がある。

各エントリにつき、下記の書式。

BookmarkBegin
BookmarkTitle: 表示する項目名
BookmarkLevel: 1
BookmarkPageNumber: 1

BookmarkLevelは見出しのレベル、BookmarkPageNumberはページ番号（ゼロの場合は見出しをクリックしてもページ遷移しない）。

ページ番号の範囲がPDFのページの範囲を超えている場合、見出し項目をクリックしても何も起きない。

dataディレクトリの下にpage_indexというサブディレクトリを作成し、そこに過去記事で作成したtsvファイルがあるという前提。

ファイル名でソートするためにnatsortを使っていい感じにソートさせている。

実行する際は、

python3 find_and_generate_entries.py 連載記事名

出力を適当な名前で保存して、pdftkコマンドの引数に指定すればOK。

f:id:atuyosi:20180507212122j:plain:w320

リファレンスを見る限り、PyPDF2でもできそう。また、GhostScriptを使うスクリプトを公開されている方がいる。

あとはCPDF。以下のページによると「関連しおりを維持し、PDFファイルを分割」とあるのでページ範囲さえ指定すればこっちがラクかも。

めんどうなのでPyPDF2を使った方法は次回、かな。一部シェルスクリプトの部分のPython化とできればMakefileでいいかんじにやりたい。

まあでもこんなもんか。

なお、pdftkコマンドの使い方は、PDF構造解説の9章に解説がある。