厚生労働省ブラック企業リスト2月版(2018年)
スポンサーリンク
もう3月だけど、せっかくなので続けていきましょう。
今月のデータ
今月はトータル447件。
差し引きで変動が大きいのは、東京労働局(+5)、長野労働局(+5)、岐阜労働局(+4)。
あとは岩手労働局(+3)、福岡労働局(+3)、沖縄労働局(+3)。
逆に減少幅の大きいのは京都で件数が12件(-3)。 掲載件数が少ないのは、群馬労働局、福井労働局、香川労働局で掲載件数1件のまま変動なし。
特定の都道府県だけホワイト企業が多いとかブラックが多いとは思えないので、ちょっと掲載件数の少ない労働局は遠慮なくバンバン取り締まる方向でお願いしたい。
PDFファイルのパース
自作プログラムのパースエラーが2件で、うち一方は片方は半角スペースが原因。もう一方は岩手労働局のページで、どうもセルに余計な改行が存在したのが残っているような感じ。
岩手労働局のページの最後の行の、事案概要のカラムはなかなか面白い*1。見た目は3行なんだけど、使っているPDF解析ライブラリはなぜか4行のテキストと認識している。そのせいでそのカラムだけ中心座標がずれているという。
そのせいでデータのソートをミスって取りこぼしていた。いやで作業で編集してもいいんだけど。
方式の再検討
罫線オブジェクト(LTLine)と矩形オブジェクト(LTRect)を使えないか検討する。
罫線オブジェクトはそのまま表の罫線なので、x0,y0,x1,y2という座標データのうち、x0とx1が同じなら縦の罫線、y0とy1が同じなら横の罫線と判断できる。 どうもこの厚生労働省のPDFの場合、背景色の色付範囲の指定と、太い罫線を実現するために矩形オブジェクト使っているだけっぽい。
罫線オブジェクトの座標から行の境界と列の境界を割り出すようにするのがいいかな。
とりあえず面倒なので行の識別に水平方向のy座標を使うように変更。罫線と罫線の間の文字を同じ行と見なすように修正。
Convert PDF to TSV ( for Japan's MHLW illegal company list ) rev. 2 · GitHub
あとで列の切り出しも罫線の座標を使うように修正予定。ちゃんとリファクタリングするのと、もう少し汎用性を持たせたい。
PDF内の座標は左下原点という点に注意。
まとめ
データベースにぶち込んで検索したり分析したりできるようにしようと思いながら放置状態なので上半期のうちになんとかしたい。
*1:反語のようなもの。お察し下さい。