tesseract-ocr の言語データ(jpn.traineddata)について(その1)
ブログのテーマを変えました。以前のテーマだと表が見づらかったので。
引き続きフリーのOCRエンジン、tesseact-ocr について。プログラミングがらみの記事です。かなりグダグダです。
アルゴリズムはさっぱりわからないので、言語データ(辞書データ)の方を調べてみる。
具体的には、GitHubで公開されている、langdata配下のファイル。このファイルをもとに各言語のtraineddataファイルが作成されるという認識であってるはず。
目次
- 調査対象と情報源
- 調査対象
- 情報源
- github リポジトリ
- langdata/jpn
- 個別ファイルについて
- jpn.numbers
- jpn.params-model
- jpn.punc
- jpn.training_text
- jpn.unicharambigs
- jpn.wordlist
- そのほか
調査対象と情報源
調査対象
tesseract-ocr · GitHubのlangdata、tessdata。langdataのファイルから生成されたものがtessdata 配下のXXX.traineddata のはず。
基本的にはlangdata/jpn が重要だが、langdata 直下にもひらがな・カタカナ・漢字用*.xheights
のファイル*1など共通のファイルが存在する。
情報源
GitHubにプロジェクトが移動した関係で、基本的にGitHubのWikiを参照すればいい。tesseract配下にあるtraining ディレクトリ配下にある辞書データビルド用のスクリプトと内部で呼び出されているコマンドのmanページ。
- TrainingTesseract · tesseract-ocr/tesseract Wiki · GitHub
- tesseract/tesstrain_utils.sh at master · tesseract-ocr/tesseract · GitHub
- tesseract/combine_tessdata.1.asc at master · tesseract-ocr/tesseract · GitHub
*1:mftrainingコマンド用のようだが参照されていない?