日本語OCRのためのJIS漢字などに関するメモ書き(随時更新)
スポンサーリンク
ちょっと中途半端な感じがするけどせっかくなので。
JIS漢字というか主に第三水準、第四水準の漢字についてのメモ。
第二水準漢字ですら、そもそもどういう文脈でどういう語に使われるのか、さっぱり分からない字が多い。
前置き
Tesseract 4.x はLSTMベースのニューラルネットワークが採用されており、ユーザー側で学習させることで認識対象文字の追加や書体の学習による認識率の向上が期待できる。
ただし、行単位で学習させる必要があり、(おそらく)実際に現実のドキュメント内において使われる表現(要するに実際の文章)で学習させたほうが良い認識結果につながるはず。
学習させる上で文章レベルで漢字の用例があるかどうかは大きい。
漢字のリスト
JIS漢字のリストはWikipediaからゲットできる。他にもWiktionary、あとはSKKの辞書とかリソースとしては使える。あとは時々ブログやニュースサイトで紹介される難読地名特集なんかも有意義。
参考:Tesseract-ocr における漢字の対応(収録)状況 - Qiita
MJ漢字
参考になる文献
『JIS漢字字典(増補改訂)』
- 作者: 芝野耕司
- 出版社/メーカー: 日本規格協会
- 発売日: 2002/06
- メディア: 単行本
- クリック: 7回
- この商品を含むブログ (10件) を見る
もはやご本尊と言っていいレベル。図書館によっては貸出可だったりする。
巻頭の序文の前の「序」という見出しの文章だけでも有益。ただ、いきなり読めない漢字に遭遇するし、道は険しい。
譌字と書いて「かじ」と読むらしい。初っ端から読めないし……。
絶版なので新品で買えないというのも許しがたいが、不便なので本文検索可能な電子書籍版(PDF)の発行を強く要請したい。
中古で状態のいいやつが安ければ買い。何か日本語に関することに手を出すなら持っておいて損はない。
字によって解説が詳しかったり読みしかかいてなかったりとばらつきがある点は残念。
もちろんJIS漢字以外の漢字は載っていない。あくまでもJIS規格の範囲内オンリーなので注意。
異体字と漢字の成り立ち
異体字の世界 最新版: 旧字・俗字・略字の漢字百科 (河出文庫)
- 作者: 小池和夫
- 出版社/メーカー: 河出書房新社
- 発売日: 2013/09/06
- メディア: 文庫
- この商品を含むブログ (10件) を見る
正字とか俗字とかの話。漢字の歴史とか。
手元にあったはずだけどロスト。
参考になるWebサイト
異体字の対応表
学習用のコーパスを機械的に生成するとか、使いどころ多数。古い本だと現代と仮名遣いも違うし、当て字みたいな漢字の使い方というか用字だったりする。
SKK辞書
確かJIS第三水準、第四水準漢字の辞書があったはず。
グリフWiki
Wiktionary
稀少地名漢字リスト
地名というか住所のOCRを完璧にやりたいなら考慮の価値あり。レア地名や古文書にしか出ない地名を正確にOCRしたいというニーズがどれくらいあるかは不明。
イロモノ系
検索避けという観点だけど、OCRの認識ミスの補正という点でも参考になる。漢字に限った話ではないけど。
例えば「ストロンチウム」の「ト」を漢字の「卜(ぼく)」に、「ロ」を漢字の「口(くち)」に書き換えて入力する。「誤表記」にもかかわらず、実際は東京電力や原子力規制委員会、各自治体の文書が並んだ。「不都合な情報を隠すため、当局がわざと文字を置き換えたのではないか」という疑いも出ている。
引用元:原発関連文書に「検索対策疑惑」持ち上がる 「ロ」を「口」、「力」を「カ」に細工したのか : J-CASTニュース
経由: 「検索サイトで上位表示されたくない!」という逆SEO対策手法がいろいろと面白かったのでまとめ
単語辞書による補正は重要。
そのほか
意外なサイトから漢字の用例が見つかったりする。どこまでこだわるかの問題なんだけど。
認識ミスしやすい文字
OCRで誤認識されやすい字(追加): 雁の玉梓 ―やまとうたblog―
外字の用例
意外なところに発見できる。
法人名に外字が使われているケースがある。
ユニコード関連のニュースなど
文字コードほか
文字・書体(フォント)関連のプログラミングとか
文字コードの本を書いている方のブログ。
主に印刷用の活字の記事など。Tesseract の記事もあったはず。
漢字だけじゃないけどフォントカテゴリの記事、[文字]カテゴリの記事とか。
文字化けなど
文字 Advent Calendar 2017より。そんなAdvent Calendarあったのかよ……。
まとめ
OCRそのものとはちょっとズレているような気も。
まあ無関係でもないし。