日本語OCRのためのJIS漢字などに関するメモ書き（随時更新）

ちょっと中途半端な感じがするけどせっかくなので。

JIS漢字というか主に第三水準、第四水準の漢字についてのメモ。

第二水準漢字ですら、そもそもどういう文脈でどういう語に使われるのか、さっぱり分からない字が多い。

前置き
漢字のリスト
- MJ漢字
参考になる文献
- 『JIS漢字字典（増補改訂）』
- 異体字と漢字の成り立ち
参考になるWebサイト
イロモノ系
そのほか
まとめ

前置き

Tesseract 4.x はLSTMベースのニューラルネットワークが採用されており、ユーザー側で学習させることで認識対象文字の追加や書体の学習による認識率の向上が期待できる。

ただし、行単位で学習させる必要があり、（おそらく）実際に現実のドキュメント内において使われる表現（要するに実際の文章）で学習させたほうが良い認識結果につながるはず。

学習させる上で文章レベルで漢字の用例があるかどうかは大きい。

漢字のリスト

JIS漢字のリストはWikipediaからゲットできる。他にもWiktionary、あとはSKKの辞書とかリソースとしては使える。あとは時々ブログやニュースサイトで紹介される難読地名特集なんかも有意義。

参考：Tesseract-ocr における漢字の対応（収録）状況 - Qiita

MJ漢字

参考になる文献

『JIS漢字字典（増補改訂）』

JIS漢字字典

作者: 芝野耕司
出版社/メーカー: 日本規格協会
発売日: 2002/06
メディア: 単行本
クリック: 7回
この商品を含むブログ (10件) を見る

もはやご本尊と言っていいレベル。図書館によっては貸出可だったりする。

巻頭の序文の前の「序」という見出しの文章だけでも有益。ただ、いきなり読めない漢字に遭遇するし、道は険しい。

譌字と書いて「かじ」と読むらしい。初っ端から読めないし……。

絶版なので新品で買えないというのも許しがたいが、不便なので本文検索可能な電子書籍版（PDF）の発行を強く要請したい。

中古で状態のいいやつが安ければ買い。何か日本語に関することに手を出すなら持っておいて損はない。

字によって解説が詳しかったり読みしかかいてなかったりとばらつきがある点は残念。

もちろんJIS漢字以外の漢字は載っていない。あくまでもJIS規格の範囲内オンリーなので注意。

異体字と漢字の成り立ち

異体字の世界最新版: 旧字・俗字・略字の漢字百科 (河出文庫)

作者: 小池和夫
出版社/メーカー: 河出書房新社
発売日: 2013/09/06
メディア: 文庫
この商品を含むブログ (10件) を見る

正字とか俗字とかの話。漢字の歴史とか。

手元にあったはずだけどロスト。

参考になるWebサイト

異体字の対応表

史料編纂所データベース異体字同定一覧

学習用のコーパスを機械的に生成するとか、使いどころ多数。古い本だと現代と仮名遣いも違うし、当て字みたいな漢字の使い方というか用字だったりする。

SKK辞書

FrontPage - SKK辞書Wiki

確かJIS第三水準、第四水準漢字の辞書があったはず。

グリフWiki

メインページ - GlyphWiki

Wiktionary

稀少地名漢字リスト

地名というか住所のOCRを完璧にやりたいなら考慮の価値あり。レア地名や古文書にしか出ない地名を正確にOCRしたいというニーズがどれくらいあるかは不明。

イロモノ系

検索避けという観点だけど、OCRの認識ミスの補正という点でも参考になる。漢字に限った話ではないけど。

例えば「ストロンチウム」の「ト」を漢字の「卜（ぼく）」に、「ロ」を漢字の「口（くち）」に書き換えて入力する。「誤表記」にもかかわらず、実際は東京電力や原子力規制委員会、各自治体の文書が並んだ。「不都合な情報を隠すため、当局がわざと文字を置き換えたのではないか」という疑いも出ている。
引用元：原発関連文書に「検索対策疑惑」持ち上がる　「ロ」を「口」、「力」を「カ」に細工したのか : J-CASTニュース

経由：「検索サイトで上位表示されたくない！」という逆SEO対策手法がいろいろと面白かったのでまとめ

単語辞書による補正は重要。