今月もいつもどおりに。 a244.hateblo.jp 前月とファイル名が変化しています。今月は「180928.pdf」。 データの入手元 機械可読データ(タブ区切りテキスト形式) PDFからTSVへの変換スクリプト 前月との比較 先月から変化なし まとめ データの入手元 www.mh…
スキャン済みの画像データをゲットしたのはいいけれど……。 PNG形式のバラ画像200枚というのは不便ですねって話。 ImageMagickで一気にPDF化することはできないので……。 1画像ずつPDFにして結合すればいいんだけど、それはそれでめんどいのでPythonでやってみ…
今月もまあ惰性のやっつけ仕事エントリです。 公開されているPDFですがファイル名が先月と同じであれれという感じですね。どうなっているんだ。 データの入手元 機械可読データ(タブ区切りテキスト形式) PDFからTSVへの変換スクリプト 前月との比較 先月か…
今月も月末更新。 珍しくファイル名が変更されている。 データの入手元 機械可読データ(タブ区切りテキスト形式) PDFからTSVへの変換スクリプト 前月との比較 まとめ データの入手元 www.mhlw.go.jp ファイルは労働基準関係法令違反に係る公表事案というリ…
今月も恒例の公表事案。 a244.hateblo.jp 今月も月末更新。 データの入手元 機械可読データ(タブ区切りテキスト形式) PDFからTSVへの変換スクリプト 前月との比較 まとめ データの入手元 www.mhlw.go.jp ファイルは労働基準関係法令違反に係る公表事案とい…
過去記事の続き。やはり実際のデータでデータ処理をやるのは勉強になります。 ……お金になるかは別にして、Pythonという言語の習熟度は向上しているはず。 a244.hateblo.jp 方針 OCR処理 画像の抽出 画像をPDFに変換・結合 一括OCR JSON分割 タブ区切りテキス…
自分でモロに忘れそうなので備忘録として。 作戦というか方針 データの入手 目次のOCR処理 目次ファイル 画像の切り出し Tesseract 4.x 目次のOCR 認識結果の例 OCR結果のテキストファイルの結合 まとめ 一時ファイルがじわじわと増殖するのでもっとスマート…
この記事で紹介しているAPIは今のところベータ版です。正式リリースまでに仕様が変化する可能性があります。 [2018/09/04 追記] ドキュメントの翻訳はまだのようですが2018年7月24日付でGAリリースになっています。 PDF、TIFFともに2000ページまで。 PDF/TIF…
財務省やらかし案件がらみで。PDFを画像化するのではなく、内部に含まれる画像を取り出そうという話です。 財務省の公開しているPDF,差し替え前の黒塗りが外せる状態のPDFが入手できるとのこと。 security.srad.jp これはOCRやり直しか……。 ページ数とPDF内…
財務省が国会に提出したらしい「森友学園」との交渉記録のPDFの件。あまり政治ネタはどうかな、と思いつつ。 結論:某新聞社のサイトじゃなくても財務省のページから入手可能。 おかしな連中にPVを献上するのはやめて、財務省のサイトへGo。 某新聞社がPDFを…
購入してから全部読み終えるまでに時間がかったのと、途中の章を飛ばして読んだりしたのでちょっと消化不良なところがある。 結論から言うと母国語で書かれた書籍は偉大。英語の仕様書数百ページとか読む気がしませんよってところかな。 必要に迫られたら読…
PDFの分割・結合ネタの続き。と言うか落穂拾いみたいなもの。 試すだけ試してみました。 Coherent PDF (cpdf)、楽ができるかと思いましたが期待したようには動作せず。 PDFの目次データ(いわゆる「しおり」、PDFの用語で言うところのdocument outline)の扱…
前回、前々回の続き。ようやく完成。 a244.hateblo.jp a244.hateblo.jp pdftkコマンドで目次(しおり)を追加 まずはpdftkコマンドの、update_info_utf8を使う方法。 コマンドの書式 $ pdftk input.pdf update_info_utf8 info.txt output output.pdf input.p…
前回の続き。PDFファイルに対する目次の追加は次回。 a244.hateblo.jp 前提 工程 スクリプト その1 その2 課題など 汎用性の問題 ファイルのパスの扱い Pythonスクリプトでハマったところ まとめ 前提 macOS Python 3.6 工程 PDFファイルの暗号化の解除(シ…
PDFの目次?部分をパースすればいいかと思ったらまたしても単純ではない……。 やりたいこと 方針および手順 課題と方式検討。 準備 暗号化の解除 ページ番号の取り出し pdftk のセットアップ 使用方法 連載記事名とページ番号の取り出し 出力例 まとめ やりた…
意外なことに簡単なようですんなりとはいかない。とりあえずやってみた的な記事。 過去記事の続き。 JSONデータはDBにぶち込むほうが使い勝手がいいだろうとは思いますが、どっちにしろ出遅れているので違う方向で。 前提条件など OCR処理自体は過去の記事で…
タイトルの通り、5月ごろに話題になった例のPDFをPython3 + PDFMiner.six でパースしてTSV(タブ区切りテキスト化)する話です。 以前からやろうと思っていながら放置していました。 すでにgithub でTSVデータにして変換してくださった方がいるので完全に二…
以前はpdftk というツールがHomebrew 経由で簡単にインストールできたみたいだが、現在はインストールできない。 開発元のサイト自体は存在しているし、Windows用のバイナリは配布されている。 多分、GCCがJavaのサポートを外したとか、諸事情が重なったんだ…