今日も微速転進

ここではないどこかへ

時事ネタ関連

厚生労働省ブラック企業リスト9月版(2018年)

今月もいつもどおりに。 a244.hateblo.jp 前月とファイル名が変化しています。今月は「180928.pdf」。 データの入手元 機械可読データ(タブ区切りテキスト形式) PDFからTSVへの変換スクリプト 前月との比較 先月から変化なし まとめ データの入手元 www.mh…

厚生労働省ブラック企業リスト8月版(2018年)

今月もまあ惰性のやっつけ仕事エントリです。 公開されているPDFですがファイル名が先月と同じであれれという感じですね。どうなっているんだ。 データの入手元 機械可読データ(タブ区切りテキスト形式) PDFからTSVへの変換スクリプト 前月との比較 先月か…

厚生労働省ブラック企業リスト7月版(2018年)

今月も月末更新。 珍しくファイル名が変更されている。 データの入手元 機械可読データ(タブ区切りテキスト形式) PDFからTSVへの変換スクリプト 前月との比較 まとめ データの入手元 www.mhlw.go.jp ファイルは労働基準関係法令違反に係る公表事案というリ…

厚生労働省ブラック企業リスト6月版(2018年)

今月も恒例の公表事案。 a244.hateblo.jp 今月も月末更新。 データの入手元 機械可読データ(タブ区切りテキスト形式) PDFからTSVへの変換スクリプト 前月との比較 まとめ データの入手元 www.mhlw.go.jp ファイルは労働基準関係法令違反に係る公表事案とい…

財務省の公開した交渉記録PDFをいじる その3(本件終了)

一応切りの良いところまで作業したのでここで終了。 プログラムは汚いので載せてないです。 フォーマットが微妙に違うなどの数々のトラップによりかなりの部分を手作業で治すハメに。自分で作ったページ範囲データの不備のせいでさらに無駄な苦労があったり…

財務省の公開した交渉記録PDFをいじる その2(本文データのOCR etc.)

過去記事の続き。やはり実際のデータでデータ処理をやるのは勉強になります。 ……お金になるかは別にして、Pythonという言語の習熟度は向上しているはず。 a244.hateblo.jp 方針 OCR処理 画像の抽出 画像をPDFに変換・結合 一括OCR JSON分割 タブ区切りテキス…

財務省の公開した交渉記録PDFをいじる その1(目次のPDF編)

自分でモロに忘れそうなので備忘録として。 作戦というか方針 データの入手 目次のOCR処理 目次ファイル 画像の切り出し Tesseract 4.x 目次のOCR 認識結果の例 OCR結果のテキストファイルの結合 まとめ 一時ファイルがじわじわと増殖するのでもっとスマート…

厚生労働省ブラック企業リスト5月版(2018年)

今月はデータ自体が公開されないのかと思いましたよ……。 月末にギリギリで出してくるとは。 a244.hateblo.jp またこのネタかって感じもしますが当面は続けます。 データの入手元 機械可読データ(タブ区切りテキスト形式) PDFからTSVへの変換スクリプト 前…

財務省が国会に提出した交渉記録PDFに関して

財務省が国会に提出したらしい「森友学園」との交渉記録のPDFの件。あまり政治ネタはどうかな、と思いつつ。 結論:某新聞社のサイトじゃなくても財務省のページから入手可能。 おかしな連中にPVを献上するのはやめて、財務省のサイトへGo。 某新聞社がPDFを…

厚生労働省ブラック企業リスト4月版(2018年)

遅くなりましたが、4月版。今年の5月で厚生労働省が企業名を掲載し始めてから丸一年ということになります。 このブログで追いかけているのは8月からですが。 a244.hateblo.jp データの入手元 機械可読データ(タブ区切りテキスト形式) PDFからTSVへの変換ス…

陸自イラク日報のPDFにテキストを付加して検索できるPDFを作る(試行錯誤 その1)

意外なことに簡単なようですんなりとはいかない。とりあえずやってみた的な記事。 過去記事の続き。 JSONデータはDBにぶち込むほうが使い勝手がいいだろうとは思いますが、どっちにしろ出遅れているので違う方向で。 前提条件など OCR処理自体は過去の記事で…

陸自のイラク日報をOCRしてJSON化する(暫定版/Google Cloud Vision API)

すでに検索サイトも作った方がいますし、ブログ記事化した方もいますが、マイペースでいきましょう。 スクライド風にに言うと「俺がスロウリィ!?」ですが気分が乗らなかったのはしょうがない。 スクライド 5.1ch DVD-BOX (期間限定生産)出版社/メーカー: バ…

某新聞社のサイトから陸自のイラク日報をダウンロードするPythonスクリプト

別に普通にダウンロード用のソフト使えば済むんだけど勉強を兼ねて。 Pythonのライブラリのお陰でろくに勉強になっていないけど、BeautifulSoup4でやろうとしたらnth-of-type()が空振りするんでlxmlに逃げました。 情報公開請求?で入手した文書の著作権はあ…

厚生労働省ブラック企業リスト3月版(2018年)

今月は即日更新で。 a244.hateblo.jp データの出所 長時間労働削減に向けた取組|厚生労働省 ファイルは労働基準関係法令違反に係る公表事案(同じファル名で上書き公開されているので注意)。 PDFをざっくり見ると、賃金未払いより安全管理系の違反が多い印…

厚生労働省ブラック企業リスト2月版(2018年)

もう3月だけど、せっかくなので続けていきましょう。 a244.hateblo.jp 今月のデータ www.mhlw.go.jp 今月はトータル447件。 厚生労働省ブラック企業リスト(2018年02月16日版) 差し引きで変動が大きいのは、東京労働局(+5)、長野労働局(+5)、岐阜労働局…

厚生労働省ブラック企業リスト1月版(2018年)

遅くなりましたが、2018年1月版。 今月はうまくパースできなかった箇所が1箇所。岩手労働局のページの、最後のエントリ。セルの切り出しに失敗して列を一つ取りこぼしていた。 この辺の微妙なものは書き直さないとダメっぽいので保留状態。 www.mhlw.go.jp …

厚生労働省ブラック企業リスト12月版

先月に引き続き。 a244.hateblo.jp www.mhlw.go.jp 今月のデータ 18ページ目の電通の行の最後のカラムだけ半角空白で位置揃えされている。 掲載企業はダブりこみで462事業所と減少している。正味の事業所は459。 厚生労働省ブラック企業リスト(2017年12月14…

厚生労働省ブラック企業リスト11月版

先月に引き続き。 a244.hateblo.jp 今月はパースエラー1件だけ。 原因はなぜか徳島労働局のデータに字下げが入っていたため。 なんでそんなところで字下げしてんの。 なぜだ徳島……。 とりあえず手作業で修正。いい加減スクリプト描き直せって話ですか。 厚生…

台風と避難勧告(緊急速報)について

今回の台風(2017年10月22襲来)についてちょっと思ったことをいくつか。 SIMフリーのスマートフォンにも避難通知が届いていて進歩しているなあと感心したりしています。 避難通知のあり方について まず、エリアメール(?)のけたたましい着信音はやめてほ…

厚生労働省ブラック企業リスト10月版

公開されてから数日過ぎてしまいましたが暫定版。 使用しているPDFライブラリではうまくパースできない箇所があったのでそこだけ手作業で修正。 10月版のPDFの、69ページ目で表の見出しと行の分割で失敗してしまう。 厚生労働省ブラック企業リスト(2017年10…

厚生労働省ブラック企業リスト9月版

厚生労働省の公表しているブラック企業のリストの話。 9月分のデータもとりあえずタブ区切りテキスト化。 毎月上旬に各都道府県の労働局がまとめたデータを概ね毎月15日に厚生労働省がまとめるという流れのようです。 8月の公表件数402件に対して9月は427件…

政治と言語的センス カエサルと一億総活躍社会

一億総活躍社会と聞いて思うところあるので。 普通に国家総動員体制を連想しましたよ。センス悪すぎですよ。あとは一億総中流か、一億総懺悔? どことなく漂う全体主義的な発想。労働力としての側面にばかり目を向けているのではないでしょうか。 個人主義が…

企業の不祥事と「優等生の心理学(または、高学歴の人間学)」

タイトルは最近読み終えた本のもじりです。 購読中のブログに触発されたのでちょっと時事ネタについて書こうと思います。以下のブログでは「強いリーダーシップの弊害」が 指摘されています。 http://sennich.hatenablog.com/entry/2015/07/11/152636sennich…

広告