今日も微速転進

ここではないどこかへ

PDF

厚生労働省ブラック企業リスト9月版(2018年)

今月もいつもどおりに。 a244.hateblo.jp 前月とファイル名が変化しています。今月は「180928.pdf」。 データの入手元 機械可読データ(タブ区切りテキスト形式) PDFからTSVへの変換スクリプト 前月との比較 先月から変化なし まとめ データの入手元 www.mh…

Pythonで複数の画像をPDFにする(1画像1ページ/圧縮なし)

スキャン済みの画像データをゲットしたのはいいけれど……。 PNG形式のバラ画像200枚というのは不便ですねって話。 ImageMagickで一気にPDF化することはできないので……。 1画像ずつPDFにして結合すればいいんだけど、それはそれでめんどいのでPythonでやってみ…

厚生労働省ブラック企業リスト8月版(2018年)

今月もまあ惰性のやっつけ仕事エントリです。 公開されているPDFですがファイル名が先月と同じであれれという感じですね。どうなっているんだ。 データの入手元 機械可読データ(タブ区切りテキスト形式) PDFからTSVへの変換スクリプト 前月との比較 先月か…

厚生労働省ブラック企業リスト7月版(2018年)

今月も月末更新。 珍しくファイル名が変更されている。 データの入手元 機械可読データ(タブ区切りテキスト形式) PDFからTSVへの変換スクリプト 前月との比較 まとめ データの入手元 www.mhlw.go.jp ファイルは労働基準関係法令違反に係る公表事案というリ…

厚生労働省ブラック企業リスト6月版(2018年)

今月も恒例の公表事案。 a244.hateblo.jp 今月も月末更新。 データの入手元 機械可読データ(タブ区切りテキスト形式) PDFからTSVへの変換スクリプト 前月との比較 まとめ データの入手元 www.mhlw.go.jp ファイルは労働基準関係法令違反に係る公表事案とい…

財務省の公開した交渉記録PDFをいじる その2(本文データのOCR etc.)

過去記事の続き。やはり実際のデータでデータ処理をやるのは勉強になります。 ……お金になるかは別にして、Pythonという言語の習熟度は向上しているはず。 a244.hateblo.jp 方針 OCR処理 画像の抽出 画像をPDFに変換・結合 一括OCR JSON分割 タブ区切りテキス…

財務省の公開した交渉記録PDFをいじる その1(目次のPDF編)

自分でモロに忘れそうなので備忘録として。 作戦というか方針 データの入手 目次のOCR処理 目次ファイル 画像の切り出し Tesseract 4.x 目次のOCR 認識結果の例 OCR結果のテキストファイルの結合 まとめ 一時ファイルがじわじわと増殖するのでもっとスマート…

Google Cloud Vision APIで画像メインのPDFから直接OCRする(PDF/TIFF Document Text Detection)

この記事で紹介しているAPIは今のところベータ版です。正式リリースまでに仕様が変化する可能性があります。 [2018/09/04 追記] ドキュメントの翻訳はまだのようですが2018年7月24日付でGAリリースになっています。 PDF、TIFFともに2000ページまで。 PDF/TIF…

PDFからコマンド操作で画像を取り出す方法

PDF

財務省やらかし案件がらみで。PDFを画像化するのではなく、内部に含まれる画像を取り出そうという話です。 財務省の公開しているPDF,差し替え前の黒塗りが外せる状態のPDFが入手できるとのこと。 security.srad.jp これはOCRやり直しか……。 ページ数とPDF内…

財務省が国会に提出した交渉記録PDFに関して

財務省が国会に提出したらしい「森友学園」との交渉記録のPDFの件。あまり政治ネタはどうかな、と思いつつ。 結論:某新聞社のサイトじゃなくても財務省のページから入手可能。 おかしな連中にPVを献上するのはやめて、財務省のサイトへGo。 某新聞社がPDFを…

書評:『PDF構造解説』

購入してから全部読み終えるまでに時間がかったのと、途中の章を飛ばして読んだりしたのでちょっと消化不良なところがある。 結論から言うと母国語で書かれた書籍は偉大。英語の仕様書数百ページとか読む気がしませんよってところかな。 必要に迫られたら読…

Coherent PDFでPDFを分割・結合してみる

PDFの分割・結合ネタの続き。と言うか落穂拾いみたいなもの。 試すだけ試してみました。 Coherent PDF (cpdf)、楽ができるかと思いましたが期待したようには動作せず。 PDFの目次データ(いわゆる「しおり」、PDFの用語で言うところのdocument outline)の扱…

某雑誌の総集編から特定の連載記事だけ抜き取りたい (その3)

前回、前々回の続き。ようやく完成。 a244.hateblo.jp a244.hateblo.jp pdftkコマンドで目次(しおり)を追加 まずはpdftkコマンドの、update_info_utf8を使う方法。 コマンドの書式 $ pdftk input.pdf update_info_utf8 info.txt output output.pdf input.p…

某雑誌の総集編から特定の連載記事だけ抜き取りたい (その2)

前回の続き。PDFファイルに対する目次の追加は次回。 a244.hateblo.jp 前提 工程 スクリプト その1 その2 課題など 汎用性の問題 ファイルのパスの扱い Pythonスクリプトでハマったところ まとめ 前提 macOS Python 3.6 工程 PDFファイルの暗号化の解除(シ…

某雑誌の総集編から特定の連載記事だけ抜き取りたい (その1)

PDFの目次?部分をパースすればいいかと思ったらまたしても単純ではない……。 やりたいこと 方針および手順 課題と方式検討。 準備 暗号化の解除 ページ番号の取り出し pdftk のセットアップ 使用方法 連載記事名とページ番号の取り出し 出力例 まとめ やりた…

陸自イラク日報のPDFにテキストを付加して検索できるPDFを作る(試行錯誤 その1)

意外なことに簡単なようですんなりとはいかない。とりあえずやってみた的な記事。 過去記事の続き。 JSONデータはDBにぶち込むほうが使い勝手がいいだろうとは思いますが、どっちにしろ出遅れているので違う方向で。 前提条件など OCR処理自体は過去の記事で…

厚生労働省のブラック企業リストをPythonで解析する(PDFMiner.six)

タイトルの通り、5月ごろに話題になった例のPDFをPython3 + PDFMiner.six でパースしてTSV(タブ区切りテキスト化)する話です。 以前からやろうと思っていながら放置していました。 すでにgithub でTSVデータにして変換してくださった方がいるので完全に二…

macOS でPDF分割(コマンドライン編)

以前はpdftk というツールがHomebrew 経由で簡単にインストールできたみたいだが、現在はインストールできない。 開発元のサイト自体は存在しているし、Windows用のバイナリは配布されている。 多分、GCCがJavaのサポートを外したとか、諸事情が重なったんだ…

広告