今日も微速転進

ここではないどこかへ

OCR

Tesseract 近況 その2 (2018/10 Early)

前回に引き続き、オープンソースのOCRエンジンTesseractの開発状況ウォッチング、です。 a244.hateblo.jp 2018年10月の状況 4.0系使用時の注意点 未解決のバグで影響の大きそうなもの #1015 認識結果に関するIssue グレースケール v.s. 二値化画像 PNG形式の…

情景文字認識(Scene Text Detection)関連のメモ

ただのメモ書きです。研究がしたいわけではないです。 適当に見つけたというか、観測範囲で遭遇したもの。全然網羅できていないです。 ERFilter以外にもいろいろありますねってことで。 お手軽に使えて決定打という感じのがあるといいのに。 情景文字認識と…

KDPで電子書籍を出版しました

電子書籍をリリースしました。PythonからGoogle Cloud Vision APIを使って文字認識(OCR)する方法の解説書です。 Google Cloud Vision APIとPythonで文字認識作者: machine powers発売日: 2018/09/14メディア: Kindle版この商品を含むブログを見る また黒歴…

Google Vision API の手書き文字認識(英語)を試す

経緯 どこかのニュースサイト(英語)でGoogle Nextで発表された新機能として"hand wrtten"(手書き)という文字があったのでググってみたところ、 Google Vision APIのドキュメント(英語の方)にさり気なく"Detecting Handwriting"という記述を発見。 下記…

財務省の公開した交渉記録PDFをいじる その3(本件終了)

一応切りの良いところまで作業したのでここで終了。 プログラムは汚いので載せてないです。 フォーマットが微妙に違うなどの数々のトラップによりかなりの部分を手作業で治すハメに。自分で作ったページ範囲データの不備のせいでさらに無駄な苦労があったり…

Tesseract OCR 近況(2018/06)

オープンソースのOCRエンジン(正確に言うとOCR用のライブラリ)、Tesseract OCRの開発状況ウォッチング、です。 しばらくメーリングリスト、GitHubのリポジトリからの通知をチェックできていなかった時期があるので見落としがあるかも。 2017年秋ごろに下書…

財務省の公開した交渉記録PDFをいじる その2(本文データのOCR etc.)

過去記事の続き。やはり実際のデータでデータ処理をやるのは勉強になります。 ……お金になるかは別にして、Pythonという言語の習熟度は向上しているはず。 a244.hateblo.jp 方針 OCR処理 画像の抽出 画像をPDFに変換・結合 一括OCR JSON分割 タブ区切りテキス…

財務省の公開した交渉記録PDFをいじる その1(目次のPDF編)

自分でモロに忘れそうなので備忘録として。 作戦というか方針 データの入手 目次のOCR処理 目次ファイル 画像の切り出し Tesseract 4.x 目次のOCR 認識結果の例 OCR結果のテキストファイルの結合 まとめ 一時ファイルがじわじわと増殖するのでもっとスマート…

Google Cloud Vision APIで画像メインのPDFから直接OCRする(PDF/TIFF Document Text Detection)

この記事で紹介しているAPIは今のところベータ版です。正式リリースまでに仕様が変化する可能性があります。 [2018/09/04 追記] ドキュメントの翻訳はまだのようですが2018年7月24日付でGAリリースになっています。 PDF、TIFFともに2000ページまで。 PDF/TIF…

日本語OCRのためのJIS漢字などに関するメモ書き(随時更新)

ちょっと中途半端な感じがするけどせっかくなので。 JIS漢字というか主に第三水準、第四水準の漢字についてのメモ。 第二水準漢字ですら、そもそもどういう文脈でどういう語に使われるのか、さっぱり分からない字が多い。 前置き 漢字のリスト MJ漢字 参考に…

陸自のイラク日報をOCRしてJSON化する(暫定版/Google Cloud Vision API)

すでに検索サイトも作った方がいますし、ブログ記事化した方もいますが、マイペースでいきましょう。 スクライド風にに言うと「俺がスロウリィ!?」ですが気分が乗らなかったのはしょうがない。 スクライド 5.1ch DVD-BOX (期間限定生産)出版社/メーカー: バ…

Google Vision API のOCR機能が強化されている

ずいぶん前に一度試してから放置した。5月時点で正式提供版になり、以前試したときから地味に進化している。 a244.hateblo.jp ざっくりいうと、OCR向けのタイプが一つ増えているのと、返却されるJSONにキーが新たに追加されている。 光学式文字認識(OCR) |…

「英単語Clip』というアプリをリリースしました

タイトルのとおり、です。 英単語ClipAtsuyoshi SUZUKI仕事効率化無料 一言で言うと(英和・英英)辞書を引くのがめんどくさいを解決するアプリ。 当面の間、名称は英単語Clipですが、そのうちしれっと名称変更すると思います。 海外向けの名称がWordPressの…

なんとなく ABBYY Cloud OCR SDK を試してみた

ABBYY Cloud OCR SDK、日本語の情報が全然ないみたいなのでちょっと試してみる。 ぶっちゃけると認識率云々よりも料金体系的にあまり使い勝手がよろしくない。 概要など モバイル向けの別の選択肢 開発者向けの評価プログラム(free trial) とりあえず登録 …

Microsoft Cognitive ServicesのOCR API を試す(Computer Vision API) その1

世間は機械学習やら動画解析APIで盛り上がっているような感じですが、いつも通り周回遅れで。 去年から試そうと思いながらアカウントが作れず*1に放置状態だった。今更だけどネタにしてみる。 azure.microsoft.com 以前英語のページから登録しようとした時は…

SwiftOCRというOCRライブラリを試してみた

某所で紹介されていたSwiftOCRというライブラリ付属のサンプルを試してみたので一応? Tesseract より高速、省メモリらしい。一応昨年末の時点でSwift 3にも対応している。 一行のテキスト、それもシリアルナンバーのようなランダム英数字に向いているとのこ…

Tesseract OCR 3.05 のインストールと新機能

2月16日付でオープンソースのOCRエンジンである Tesseract OCR の3.05がリリースされています。 2月中に記事にしようと思いつつ結局3月になってしまいました。 github.com Ubuntu 17.04 の Feature Freeze に間に合わせたいという要望が出た結果、唐突にリリ…

開発版のTesseract 4.0 alpha をためしてみる その2

前回に引き続き、開発版のTesseract 4.0alpha ネタです。大した内容はありません。 a244.hateblo.jp やったこと 前回の続きとして、新しいjpn.trainneddataファイルをバラして内容を確認してみます。 ファイルが混ざると面倒なので作業ディレクトリを2つ作り…

開発版のTesseract 4.0 alphaをためしてみる(macOS)

この記事は開発中のアルファ版を対象にしてます。その点には十分注意してください。要するに自己責任でどうぞって話です*1。 github.com 微妙に出遅れている感じがありますが……。 11月中旬ごろからメイン開発者のRay Smith氏によるバージョン 4.x のコードが…

今更だけどGoogle Cloud Vision APIでOCR (その2)

[2018/08/14 注意] この記事の内容は古くなっています。現時点で同じ画像で試すと認識結果が変化します。特にTEXT_DETECTIONの替わりに DOCUMENT_TEXT_DETECTIONを指定すると結果に変化があります。 黒背景でも文字を適切に認識するようです。 [追記ここまで…

今更だけどGoogle Cloud Vision APIでOCR その1

今更だけどGoogle Cloud Vision API。そのうち試そうと思っているうちにGCPの仕様期間3ヶ月があっさりと終了……。 毎月最初の1000リクエストはコストゼロだそうなので試してみます。 Google Cloud Platform Japan 公式ブログ: ついに Google Cloud Vision API…

Tesseractの各言語のラッパーいろいろ(随時更新)

TesseractというのはGoogleが開発を支援しているオープンソースのOCRエンジンです。 Tesseract本体のインストールについては公式のWikiを参照。もしくはググって下さい。 github.com TesseractのC/C++APIを使用するタイプと、tesseractコマンドを呼び出すタ…

Tesseract-OCR-iOSと二値化処理の切り替え

久しぶりにOCR関連。 前置き 二値化処理 (image thresholding)というのは、各色ごとに(8ビットなど)の階調で表現された画像データを、あるしきい値(閾値)を基準に0と1の二値で表現できるデータに変換すること。 このあるしきい値でという部分がポイント…

OCRアプリ handyOCR ver 1.1 をリリースしました。

(前略)、というわけで、OCRアプリ handyOCR ver 1.1 をリリースしました。 geo.itunes.apple.com 基本的にバグ修正リリースです。特定の画像でOCR処理が空振りするケースがありました。 そこで対策として画像の二値化処理アルゴリズムを切り替えられるよう…

OCRと画像の回転

メモっとかないと間違いなく忘れそうなので大したネタでもないけど。 iOSでカメラから取り込んだ画像は撮影時の本体の向きが考慮された状態になっていない(メタデータとして向きの情報が記録されている)。 つまり、 iOSで読み込んだ画像をそのままOCRエン…

OCRアプリをリリースしました。

タイトルの通りOCRアプリをリリースしました。iPhone 5s以降がターゲットで、日本語と英語をサポート。 OCRエンジンの調整とか含めて去年の11月末ぐらいからダラダラと。〆切が無いというのは恐ろしいですね。 なぜ今更OCRアプリか? 有り体に言えば「そこに…

Xcode 7.0 + Swift2 でTesseract-OCR-iOSを使う(追記あり)

過去記事のXcode 7対応版です。 ※実機で動かす場合の注意を末尾に追加。 a244.hateblo.jp cocoapods で環境構築。前提はXcode 7.0.1、Swift 2。 新規プロジェクトを作ることを前提にします。 Podfile の作成 注意点としては、 確実にXcodeを終了しておく デ…

tesseract-ocr 3.04のインストール(macOS/OSX)※追記あり

今日もtesseract-ocrネタです。当面はブログのネタに困らないように思われます。 [2015/08/28 追記] tesseract-ocr のRuby 用のラッパー(ruby-tesseract-ocr)はまだ3.04に対応していないようです。 Ruby経由でtesseract-ocrを使用している場合は、アップグ…

Tesseract-OCR-iOSと言語データ(jpn.traineddata)

[2015/08/25 20:37] タイトルを修正しました。 懲りずにtesseractネタです。まだまだ続きます。 今回はiOSアプリでtesseract-ocr を使うためのラッパーライブラリ、Tesseract-OCR-iOSについて。 github.com 導入(for Swift) GitHubにあるテンプレートプロ…

tesseract-ocr の言語データ(jpn.traineddata)について(その1)

ブログのテーマを変えました。以前のテーマだと表が見づらかったので。 引き続きフリーのOCRエンジン、tesseact-ocr について。プログラミングがらみの記事です。かなりグダグダです。 アルゴリズムはさっぱりわからないので、言語データ(辞書データ)の方…

広告