PDF

書評:『PDF構造解説』

購入してから全部読み終えるまでに時間がかったのと、途中の章を飛ばして読んだりしたのでちょっと消化不良なところがある。 結論から言うと母国語で書かれた書籍は偉大。英語の仕様書数百ページとか読む気がしませんよってところかな。 必要に迫られたら読…

Coherent PDFでPDFを分割・結合してみる

PDFの分割・結合ネタの続き。と言うか落穂拾いみたいなもの。 試すだけ試してみました。 Coherent PDF (cpdf)、楽ができるかと思いましたが期待したようには動作せず。 PDFの目次データ(いわゆる「しおり」、PDFの用語で言うところのdocument outline)の扱…

某雑誌の総集編から特定の連載記事だけ抜き取りたい (その3)

前回、前々回の続き。ようやく完成。 a244.hateblo.jp a244.hateblo.jp pdftkコマンドで目次(しおり)を追加 まずはpdftkコマンドの、update_info_utf8を使う方法。 コマンドの書式 $ pdftk input.pdf update_info_utf8 info.txt output output.pdf input.p…

某雑誌の総集編から特定の連載記事だけ抜き取りたい (その2)

前回の続き。PDFファイルに対する目次の追加は次回。 a244.hateblo.jp 前提 工程 スクリプト その1 その2 課題など 汎用性の問題 ファイルのパスの扱い Pythonスクリプトでハマったところ まとめ 前提 macOS Python 3.6 工程 PDFファイルの暗号化の解除(シ…

某雑誌の総集編から特定の連載記事だけ抜き取りたい (その1)

PDFの目次?部分をパースすればいいかと思ったらまたしても単純ではない……。 やりたいこと 方針および手順 課題と方式検討。 準備 暗号化の解除 ページ番号の取り出し pdftk のセットアップ 使用方法 連載記事名とページ番号の取り出し 出力例 まとめ やりた…

陸自イラク日報のPDFにテキストを付加して検索できるPDFを作る(試行錯誤 その1)

意外なことに簡単なようですんなりとはいかない。とりあえずやってみた的な記事。 過去記事の続き。 JSONデータはDBにぶち込むほうが使い勝手がいいだろうとは思いますが、どっちにしろ出遅れているので違う方向で。 前提条件など OCR処理自体は過去の記事で…

厚生労働省のブラック企業リストをPythonで解析する(PDFMiner.six)

タイトルの通り、5月ごろに話題になった例のPDFをPython3 + PDFMiner.six でパースしてTSV(タブ区切りテキスト化)する話です。 以前からやろうと思っていながら放置していました。 すでにgithub でTSVデータにして変換してくださった方がいるので完全に二…

macOS でPDF分割(コマンドライン編)

以前はpdftk というツールがHomebrew 経由で簡単にインストールできたみたいだが、現在はインストールできない。 開発元のサイト自体は存在しているし、Windows用のバイナリは配布されている。 多分、GCCがJavaのサポートを外したとか、諸事情が重なったんだ…