厚生労働省ブラック企業リスト9月版（2018年）

時事ネタ関連労働基準関係法令違反に係る公表事案 PDF

今月もいつもどおりに。 a244.hateblo.jp 前月とファイル名が変化しています。今月は「180928.pdf」。データの入手元機械可読データ（タブ区切りテキスト形式） PDFからTSVへの変換スクリプト前月との比較先月から変化なしまとめデータの入手元 www.mh…

2018-09-17

Pythonで複数の画像をPDFにする（1画像1ページ/圧縮なし）

Python PDF

スキャン済みの画像データをゲットしたのはいいけれど……。 PNG形式のバラ画像200枚というのは不便ですねって話。 ImageMagickで一気にPDF化することはできないので……。 1画像ずつPDFにして結合すればいいんだけど、それはそれでめんどいのでPythonでやってみ…

2018-08-31

厚生労働省ブラック企業リスト8月版（2018年）

時事ネタ関連労働基準関係法令違反に係る公表事案 PDF

今月もまあ惰性のやっつけ仕事エントリです。公開されているPDFですがファイル名が先月と同じであれれという感じですね。どうなっているんだ。データの入手元機械可読データ（タブ区切りテキスト形式） PDFからTSVへの変換スクリプト前月との比較先月か…

2018-07-31

厚生労働省ブラック企業リスト7月版（2018年）

時事ネタ関連労働基準関係法令違反に係る公表事案 PDF

今月も月末更新。珍しくファイル名が変更されている。データの入手元機械可読データ（タブ区切りテキスト形式） PDFからTSVへの変換スクリプト前月との比較まとめデータの入手元 www.mhlw.go.jp ファイルは労働基準関係法令違反に係る公表事案というリ…

2018-06-30

厚生労働省ブラック企業リスト6月版（2018年）

時事ネタ関連労働基準関係法令違反に係る公表事案 PDF

今月も恒例の公表事案。 a244.hateblo.jp 今月も月末更新。データの入手元機械可読データ（タブ区切りテキスト形式） PDFからTSVへの変換スクリプト前月との比較まとめデータの入手元 www.mhlw.go.jp ファイルは労働基準関係法令違反に係る公表事案とい…

2018-06-04

財務省の公開した交渉記録PDFをいじるその2（本文データのOCR etc.）

時事ネタ関連 PDF OCR ImageMagick Tesseract 財務省交渉記録行政関係

過去記事の続き。やはり実際のデータでデータ処理をやるのは勉強になります。 ……お金になるかは別にして、Pythonという言語の習熟度は向上しているはず。 a244.hateblo.jp 方針 OCR処理画像の抽出画像をPDFに変換・結合一括OCR JSON分割タブ区切りテキス…

2018-06-03

財務省の公開した交渉記録PDFをいじるその1（目次のPDF編）

時事ネタ関連 PDF OCR ImageMagick Tesseract 財務省交渉記録行政関係

自分でモロに忘れそうなので備忘録として。作戦というか方針データの入手目次のOCR処理目次ファイル画像の切り出し Tesseract 4.x 目次のOCR 認識結果の例 OCR結果のテキストファイルの結合まとめ一時ファイルがじわじわと増殖するのでもっとスマート…

2018-06-02

Google Cloud Vision APIで画像メインのPDFから直接OCRする（PDF/TIFF Document Text Detection）

OCR Google Cloud Vision API PDF

この記事で紹介しているAPIは今のところベータ版です。正式リリースまでに仕様が変化する可能性があります。 [2018/09/04 追記] ドキュメントの翻訳はまだのようですが2018年7月24日付でGAリリースになっています。 PDF、TIFFともに2000ページまで。 PDF/TIF…

2018-05-29

PDFからコマンド操作で画像を取り出す方法

PDF

財務省やらかし案件がらみで。PDFを画像化するのではなく、内部に含まれる画像を取り出そうという話です。財務省の公開しているPDF，差し替え前の黒塗りが外せる状態のPDFが入手できるとのこと。 security.srad.jp これはOCRやり直しか……。ページ数とPDF内…

2018-05-27

財務省が国会に提出した交渉記録PDFに関して

時事ネタ関連 PDF 行政関係財務省交渉記録

財務省が国会に提出したらしい「森友学園」との交渉記録のPDFの件。あまり政治ネタはどうかな、と思いつつ。結論：某新聞社のサイトじゃなくても財務省のページから入手可能。おかしな連中にPVを献上するのはやめて、財務省のサイトへGo。某新聞社がPDFを…

2018-05-24

書評：『PDF構造解説』

書評 PDF 電子書籍技術書

購入してから全部読み終えるまでに時間がかったのと、途中の章を飛ばして読んだりしたのでちょっと消化不良なところがある。結論から言うと母国語で書かれた書籍は偉大。英語の仕様書数百ページとか読む気がしませんよってところかな。必要に迫られたら読…

2018-05-17

Coherent PDFでPDFを分割・結合してみる

PDF とりあえずやってみた

PDFの分割・結合ネタの続き。と言うか落穂拾いみたいなもの。試すだけ試してみました。 Coherent PDF (cpdf)、楽ができるかと思いましたが期待したようには動作せず。 PDFの目次データ（いわゆる「しおり」、PDFの用語で言うところのdocument outline）の扱…

2018-05-07

某雑誌の総集編から特定の連載記事だけ抜き取りたい（その3）

Python PDF 楽がしたい

前回、前々回の続き。ようやく完成。 a244.hateblo.jp a244.hateblo.jp pdftkコマンドで目次（しおり）を追加まずはpdftkコマンドの、update_info_utf8を使う方法。コマンドの書式 $ pdftk input.pdf update_info_utf8 info.txt output output.pdf input.p…