OCR

財務省の公開した交渉記録PDFをいじる その3(本件終了)

一応切りの良いところまで作業したのでここで終了。 プログラムは汚いので載せてないです。 フォーマットが微妙に違うなどの数々のトラップによりかなりの部分を手作業で治すハメに。自分で作ったページ範囲データの不備のせいでさらに無駄な苦労があったり…

Tesseract OCR 近況(2018/06)

オープンソースのOCRエンジン(正確に言うとOCR用のライブラリ)、Tesseract OCRの開発状況ウォッチング、です。 しばらくメーリングリスト、GitHubのリポジトリからの通知をチェックできていなかった時期があるので見落としがあるかも。 2017年秋ごろに下書…

財務省の公開した交渉記録PDFをいじる その2(本文データのOCR etc.)

過去記事の続き。やはり実際のデータでデータ処理をやるのは勉強になります。 ……お金になるかは別にして、Pythonという言語の習熟度は向上しているはず。 a244.hateblo.jp 方針 OCR処理 画像の抽出 画像をPDFに変換・結合 一括OCR JSON分割 タブ区切りテキス…

財務省の公開した交渉記録PDFをいじる その1(目次のPDF編)

自分でモロに忘れそうなので備忘録として。 作戦というか方針 データの入手 目次のOCR処理 目次ファイル 画像の切り出し Tesseract 4.x 目次のOCR 認識結果の例 OCR結果のテキストファイルの結合 まとめ 一時ファイルがじわじわと増殖するのでもっとスマート…

Google Cloud Vision APIで画像メインのPDFから直接OCRする(PDF/TIFF Document Text Detection)

この記事で紹介しているAPIは今のところベータ版です。正式リリースまでに仕様が変化する可能性があります。 件のPDFデータの処理*1のため、Google Cloud Vision APIのOCR機能のうち、PDFおよびTIFF画像を対象にした一括処理モードを試してみました。 新しい…

日本語OCRのためのJIS漢字などに関するメモ書き(随時更新)

ちょっと中途半端な感じがするけどせっかくなので。 JIS漢字というか主に第三水準、第四水準の漢字についてのメモ。 第二水準漢字ですら、そもそもどういう文脈でどういう語に使われるのか、さっぱり分からない字が多い。 前置き 漢字のリスト 参考になる文…

陸自のイラク日報をOCRしてJSON化する(暫定版/Google Cloud Vision API)

すでに検索サイトも作った方がいますし、ブログ記事化した方もいますが、マイペースでいきましょう。 スクライド風にに言うと「俺がスロウリィ!?」ですが気分が乗らなかったのはしょうがない。 スクライド 5.1ch DVD-BOX (期間限定生産)出版社/メーカー: バ…

Google Vision API のOCR機能が強化されている

ずいぶん前に一度試してから放置した。5月時点で正式提供版になり、以前試したときから地味に進化している。 a244.hateblo.jp ざっくりいうと、OCR向けのタイプが一つ増えているのと、返却されるJSONにキーが新たに追加されている。 光学式文字認識(OCR) |…

「英単語Clip』というアプリをリリースしました

タイトルのとおり、です。 英単語ClipAtsuyoshi SUZUKI仕事効率化無料 一言で言うと(英和・英英)辞書を引くのがめんどくさいを解決するアプリ。 当面の間、名称は英単語Clipですが、そのうちしれっと名称変更すると思います。 海外向けの名称がWordPressの…

なんとなく ABBYY Cloud OCR SDK を試してみた

ABBYY Cloud OCR SDK、日本語の情報が全然ないみたいなのでちょっと試してみる。 ぶっちゃけると認識率云々よりも料金体系的にあまり使い勝手がよろしくない。 概要など モバイル向けの別の選択肢 開発者向けの評価プログラム(free trial) とりあえず登録 …

Microsoft Cognitive ServicesのOCR API を試す(Computer Vision API) その1

世間は機械学習やら動画解析APIで盛り上がっているような感じですが、いつも通り周回遅れで。 去年から試そうと思いながらアカウントが作れず*1に放置状態だった。今更だけどネタにしてみる。 azure.microsoft.com 以前英語のページから登録しようとした時は…

SwiftOCRというOCRライブラリを試してみた

某所で紹介されていたSwiftOCRというライブラリ付属のサンプルを試してみたので一応? Tesseract より高速、省メモリらしい。一応昨年末の時点でSwift 3にも対応している。 一行のテキスト、それもシリアルナンバーのようなランダム英数字に向いているとのこ…

Tesseract OCR 3.05 のインストールと新機能

2月16日付でオープンソースのOCRエンジンである Tesseract OCR の3.05がリリースされています。 2月中に記事にしようと思いつつ結局3月になってしまいました。 github.com Ubuntu 17.04 の Feature Freeze に間に合わせたいという要望が出た結果、唐突にリリ…

開発版のTesseract 4.0 alpha をためしてみる その2

前回に引き続き、開発版のTesseract 4.0alpha ネタです。大した内容はありません。 a244.hateblo.jp やったこと 前回の続きとして、新しいjpn.trainneddataファイルをバラして内容を確認してみます。 ファイルが混ざると面倒なので作業ディレクトリを2つ作り…

開発版のTesseract 4.0 alphaをためしてみる(macOS)

この記事は開発中のアルファ版を対象にしてます。その点には十分注意してください。要するに自己責任でどうぞって話です*1。 github.com 微妙に出遅れている感じがありますが……。 11月中旬ごろからメイン開発者のRay Smith氏によるバージョン 4.x のコードが…

今更だけどGoogle Cloud Vision APIでOCR (その2)

引き続いてGoogle Cloud Vision API で遊んでみる。 a244.hateblo.jp 前置き 検証 検証用のスクリプト 検証その1 検証画像 結果 検証その2 画像 結果 検証その3(数式) 画像 結果 まとめ 前置き 前回はざっくり対応漢字の確認をしたのでそれ以外の観点で。 …

今更だけどGoogle Cloud Vision APIでOCR その1

今更だけどGoogle Cloud Vision API。そのうち試そうと思っているうちにGCPの仕様期間3ヶ月があっさりと終了……。 毎月最初の1000リクエストはコストゼロだそうなので試してみます。 Google Cloud Platform Japan 公式ブログ: ついに Google Cloud Vision API…

Tesseract-OCR の各言語のラッパーいろいろ

サーバーサイドでOCRさせたいので各言語のtesseract-ocrラッパーを調査。 [2017/02/20 追記] tesserocrを追加。 また、以下の情報はTesseract 3.0xについてのみです。4.xについては調査していません*1。 最新の3.05でも動くものは動くと思いますが、新機能で…

Tesseract-OCR-iOSと二値化処理の切り替え

久しぶりにOCR関連。 前置き 二値化処理 (image thresholding)というのは、各色ごとに(8ビットなど)の階調で表現された画像データを、あるしきい値(閾値)を基準に0と1の二値で表現できるデータに変換すること。 このあるしきい値でという部分がポイント…

OCRアプリ handyOCR ver 1.1 をリリースしました。

(前略)、というわけで、OCRアプリ handyOCR ver 1.1 をリリースしました。 geo.itunes.apple.com 基本的にバグ修正リリースです。特定の画像でOCR処理が空振りするケースがありました。 そこで対策として画像の二値化処理アルゴリズムを切り替えられるよう…

OCRと画像の回転

メモっとかないと間違いなく忘れそうなので大したネタでもないけど。 iOSでカメラから取り込んだ画像は撮影時の本体の向きが考慮された状態になっていない(メタデータとして向きの情報が記録されている)。 つまり、 iOSで読み込んだ画像をそのままOCRエン…

OCRアプリをリリースしました。

タイトルの通りOCRアプリをリリースしました。iPhone 5s以降がターゲットで、日本語と英語をサポート。 OCRエンジンの調整とか含めて去年の11月末ぐらいからダラダラと。〆切が無いというのは恐ろしいですね。 なぜ今更OCRアプリか? 有り体に言えば「そこに…

Xcode 7.0 + Swift2 でTesseract-OCR-iOSを使う(追記あり)

過去記事のXcode 7対応版です。 ※実機で動かす場合の注意を末尾に追加。 a244.hateblo.jp cocoapods で環境構築。前提はXcode 7.0.1、Swift 2。 新規プロジェクトを作ることを前提にします。 Podfile の作成 注意点としては、 確実にXcodeを終了しておく デ…

tesseract-ocr 3.04のインストール(macOS/OSX)※追記あり

今日もtesseract-ocrネタです。当面はブログのネタに困らないように思われます。 [2015/08/28 追記] tesseract-ocr のRuby 用のラッパー(ruby-tesseract-ocr)はまだ3.04に対応していないようです。 Ruby経由でtesseract-ocrを使用している場合は、アップグ…

Tesseract-OCR-iOSと言語データ(jpn.traineddata)

[2015/08/25 20:37] タイトルを修正しました。 懲りずにtesseractネタです。まだまだ続きます。 今回はiOSアプリでtesseract-ocr を使うためのラッパーライブラリ、Tesseract-OCR-iOSについて。 github.com 導入(for Swift) GitHubにあるテンプレートプロ…

tesseract-ocr の言語データ(jpn.traineddata)について(その1)

ブログのテーマを変えました。以前のテーマだと表が見づらかったので。 引き続きフリーのOCRエンジン、tesseact-ocr について。プログラミングがらみの記事です。かなりグダグダです。 アルゴリズムはさっぱりわからないので、言語データ(辞書データ)の方…

Tesseract-OCR 3.04 を試してみる

久しぶりに技術系の話題を。 オープンソースのOCRエンジン、Tesseract-OCRの新バージョンがリリースされているので試してみました。 比較対象は3.02.02。既存環境を破壊したくないので、対照実験になっていませんが勘弁してやってください。 開発元のwebサイ…

広告