今日も微速転進

ここではないどこかへ

今週のふりかえり(2017年11月第3週)


スポンサーリンク

今週もいつもどおり。

今週の学び

ソフトウェア開発関連

Dropbox Business のOCR Pipelineについて

2017年4月に書かれたもの。たぶんHacker News 経由。

2016年に発表されたDropbox のモバイルアプリのOCR機能の実装についての解説記事。英語専用。

構造的に分かち書きを前提にした認識システムっぽい。

blogs.dropbox.com

ざっくり読んだ範囲では、大きく5つのコンポーネントで構成されている模様。

  • Wrod Detector : 前処理としてMSER(OpenCVに実装されているもの)でテキストの行を検出、単語を含む領域(固定サイズ)に切り出し)
  • Word Deep Net : 認識エンジン本体(Tensor Flow)。決まったサイズの画像しか受け付けない
  • Lexicon post-processing : 後処理。辞書を利用して補正する。
  • Wordinator : 単語の切り離しまたは結合(認識エンジンの制約をカバーする)
  • 名称不明 : ドキュメントの向きを予測(検出)するためのユニット(Inception ResNet v2)

要素技術としては、以下がメイン。System ではなく、Pipeline と読んでいる理由は多段構成だから?

  • bi-directional Long Short Term Memory (LSTMs),
  • convolutional neural nets (CNNs)
  • Connectionist Temporal Classification (CTC)

商用のOCRライブラリを置き換えるまでの苦労話が色々紹介されていて面白い。特に前処理ユニット部分はディープラーニングを使用していない点は興味深い。

  • コーパスとしてProject Gutenbergのテキストを使ったらレシートの認識に弱いシステムになってしまった
  • 上記の対策としてUniversal Product Codeの商品名データを学習データに追加したらしい
  • AppleのPDFビューワー(つまりmacOSのPreview.app)でテキストを埋め込んだPDFを表示させると空白がうまく処理されず、対処に苦労した
  • 黒背景に白い文字に対応するため、元の画像と反転させた画像の両方で処理を走らせている
  • コーパス内の記号の出現頻度が低かったので意図的に(人為的に)増やした
  • ユーザーから提供された画像データだけでは不十分だったので影やシワの入った学習用の画像を生成した
  • レシートの認識率を向上させるためにフォントベンダがら古い感熱紙プリンタ?のフォントを入手した

ざっくり読んだだけなので勘違いがあるかも。あとでちゃんと読む。

最近導入したソフトウェア他

Firefoxはちょっと微妙なところがあるな。

Firefox

期待の新バージョン。

www.mozilla.org

可もなく不可もなくって印象。メインがVivaldi でオンラインバンキングとか重要なサービスはSafari。検索はGoogle Chrome なのでFirefoxの入る余地はなかった。

Sketch 関連

Sketchpacks

Sketchpacks - Sketch plugin manager for teams. Manage and sync your Sketch plugins across machines and teams.

ものすごく久しぶりにSketch Toolbox を起動したら挙動がおかしいので乗り換えた。インストール済みのプラグインの一覧を表示させようとするとなぜかSketch Toolbox がフリーズする。

Android 用のSketch mirror

デザインツールのSketchのプレビューツール、Sketch Mirror のAndroid版。

web サイト・サービス

請求書用にmisocaを使用開始(まだ試用期間中)。

アフィリエイト収益目当てでおススメしてるサイトがたくさんあるんでげんなりするけど、サービス自体は悪くないと思う。

試用期間中だからか知らんけど、作成したPDFに"misoca"って文字列が入るのがちょっと不満。

参考:Misocaアフィリエイトプログラム

……正直で大変よろしいけど、ASP使わずに自社でやりなさいよ。

ASPへの登録がめんどいのでアフィリエイトはスルーしときます。

その他・ノウハウなど

特になし。

アウトプット

書評記事といつものブラック企業リストの記事。

アプリケーションをそろそろリリースしたいところ。

読んだ本

a244.hateblo.jp

Amazon ビデオ

ガンダム00、Gレコ*1よりは面白い(まだ全部は見てないです)。娯楽アニメ的な面白さ。モダンなガンダムWというか勇者シリーズっぽいガンダムというか。

#01 ソレスタルビーイング

#01 ソレスタルビーイング

脚本が無限のリヴァイアスとかスクライドの脚本を担当した黒田洋介氏なので面白いのも当然か。よく考えるまでもなかった。


少なくともプラモの出来は良さそう。買わないけどね。

MG 1/100 GN-001 ガンダムエクシア (機動戦士ガンダム00)

MG 1/100 GN-001 ガンダムエクシア (機動戦士ガンダム00)

2007年放映なので10年前か。

購入したもの

はみだし幾何学 (岩波科学ライブラリー (18))

はみだし幾何学 (岩波科学ライブラリー (18))

数学者*2が(計算機科学ではなく)計算幾何学をテーマに書いたエッセイのような何か。縦書き。

中古で1200円+送料。定価は971円+税。

1994年12月22日発行。

割と読みやすい。

1994年の本にアマグラマ(アマチュアプログラマの意)という単語が登場することに驚きを隠せない……。

ガジェット

件のAIスピーカー自作キット。

予約発注しただけで到着は12月初旬。

ホーム - Raspberry Pi Shop by KSY

11/17に唐突に予約販売開始で気づいたのが11/20 AM。初回入荷分の最後の一個だったみたい。

海外の通販サイト経由だと既にゲットしている人もいる。

参考:Google AIY Voice Kit - Pimoroni 

詳細:Google AIY Voice Kit 販売開始のご案内 - Raspberry Pi Shop by KSY

今週の気づき&まとめ

何が良かったのかはさっぱりわからないけど、耳の状態がかなり改善している。Software Design 12月号を買うかどうか思案中。


じわじわと寒くなっていてつらい。

*1:プライム特典から外れたので結局前半しか見てないけどね

*2:数学科出身のコンピューター科学者?

広告