tesseract

ブログのテーマを変えました。以前のテーマだと表が見づらかったので。

引き続きフリーのOCRエンジン、tesseact-ocr について。プログラミングがらみの記事です。かなりグダグダです。

アルゴリズムはさっぱりわからないので、言語データ（辞書データ）の方を調べてみる。

具体的には、GitHubで公開されている、langdata配下のファイル。このファイルをもとに各言語のtraineddataファイルが作成されるという認識であってるはず。

調査対象と情報源

tesseract-ocr · GitHubのlangdata、tessdata。langdataのファイルから生成されたものがtessdata 配下のXXX.traineddata のはず。

基本的にはlangdata/jpn が重要だが、langdata 直下にもひらがな・カタカナ・漢字用*.xheightsのファイル*1など共通のファイルが存在する。

GitHubにプロジェクトが移動した関係で、基本的にGitHubのWikiを参照すればいい。tesseract配下にあるtraining ディレクトリ配下にある辞書データビルド用のスクリプトと内部で呼び出されているコマンドのmanページ。

*1:mftrainingコマンド用のようだが参照されていない?