PDFMiner

厚生労働省ブラック企業リスト4月版(2018年)

遅くなりましたが、4月版。今年の5月で厚生労働省が企業名を掲載し始めてから丸一年ということになります。 このブログで追いかけているのは8月からですが。 a244.hateblo.jp データの入手元 機械可読データ(タブ区切りテキスト形式) PDFからTSVへの変換ス…

厚生労働省のブラック企業リストをPythonで解析する(PDFMiner.six)

タイトルの通り、5月ごろに話題になった例のPDFをPython3 + PDFMiner.six でパースしてTSV(タブ区切りテキスト化)する話です。 以前からやろうと思っていながら放置していました。 すでにgithub でTSVデータにして変換してくださった方がいるので完全に二…