PDF

厚生労働省のブラック企業リストをPythonで解析する(PDFMiner.six)

タイトルの通り、5月ごろに話題になった例のPDFをPython3 + PDFMiner.six でパースしてTSV(タブ区切りテキスト化)する話です。 以前からやろうと思っていながら放置していました。 すでにgithub でTSVデータにして変換してくださった方がいるので完全に二…

macOS でPDF分割(コマンドライン編)

以前はpdftk というツールがHomebrew 経由で簡単にインストールできたみたいだが、現在はインストールできない。 開発元のサイト自体は存在しているし、Windows用のバイナリは配布されている。 多分、GCCがJavaのサポートを外したとか、諸事情が重なったんだ…