今日も微速転進

ここではないどこかへ

tesseract-ocr の言語データ(jpn.traineddata)について(その1)

ブログのテーマを変えました。以前のテーマだと表が見づらかったので。

引き続きフリーのOCRエンジン、tesseact-ocr について。プログラミングがらみの記事です。かなりグダグダです。

アルゴリズムはさっぱりわからないので、言語データ(辞書データ)の方を調べてみる。

具体的には、GitHubで公開されている、langdata配下のファイル。このファイルをもとに各言語のtraineddataファイルが作成されるという認識であってるはず。

目次

  • 調査対象と情報源
    • 調査対象
    • 情報源
  • github リポジトリ
    • langdata/jpn
  • 個別ファイルについて
    • jpn.numbers
    • jpn.params-model
    • jpn.punc
    • jpn.training_text
    • jpn.unicharambigs
    • jpn.wordlist
  • そのほか

調査対象と情報源

調査対象

tesseract-ocr · GitHubのlangdata、tessdata。langdataのファイルから生成されたものがtessdata 配下のXXX.traineddata のはず。

基本的にはlangdata/jpn が重要だが、langdata 直下にもひらがな・カタカナ・漢字用*.xheightsのファイル*1など共通のファイルが存在する。

情報源

GitHubにプロジェクトが移動した関係で、基本的にGitHubWikiを参照すればいい。tesseract配下にあるtraining ディレクトリ配下にある辞書データビルド用のスクリプトと内部で呼び出されているコマンドのmanページ。

*1:mftrainingコマンド用のようだが参照されていない?

続きを読む

Tesseract-OCR 3.04 を試してみる

久しぶりに技術系の話題を。

オープンソースOCRエンジン、Tesseract-OCRの新バージョンがリリースされているので試してみました。 比較対象は3.02.02。既存環境を破壊したくないので、対照実験になっていませんが勘弁してやってください。

開発元のwebサイトですが、GoogleCode から GitHubに移転しています。

tesseract-ocr · GitHub

続きを読む

広告