Google Cloud Vison API関連メモ（ただし文字認識に関する話のみ）

過去記事でも解説しているけど改めて再整理。自分の興味ないことに無関心というオタク気質のにじみ出た記事はこちらです。

ドキュメント

Google Cloud Vision API ドキュメント | Google Cloud Vision API ドキュメント | Google Cloud

REST APIとgRPC APIの2系統存在していることに注意する。

各プログラミング言語用のライブラリのドキュメントはまた独立している。

公式ドキュメントの翻訳は遅れているようなので原則的に英語のページをチェックする。

ページを下までスクロールすると左下に言語の切り替えメニューがある。

リリースノート（全体）

Release Notes | Cloud Vision API | Google Cloud

日本語の方は更新されていない。

データの扱いについて

データ使用に関するよくある質問 | Google Cloud Vision API ドキュメント | Google Cloud

文字数制限

「TEXT_DETECTION」には"Character Limit"があるとのこと。日本語ドキュメントは「文字数の制限」という訳になっている。

一方、「"premium" DOCUMENT_TEXT_DETECTION」には制限がないと記載されている。文字数なのか、文字種なのかちょっと疑問。

"premium"とは一体？

ドキュメントのページからフィードバックは送ったけど不明なまま。

認識できる文字・できない文字

情報なし。

日本のセールスチームに問い合わせてみたが、公開されている情報がすべてという回答。

対応画像形式とサイズ

PDFとTIFFは非同期APIを使う必要がある。

JPEG
PNG8
PNG24
GIF
Animated GIF (最初のフレームのみ)
BMP
WebP
RAW
ICO
PDF（非同期処理方式のみ）
TIFF（非同期処理方式のみ）

APIの使用料金など

プロダクトのページを下にするクロール。

cloud.google.com

そのほか

要望などはGoogle公式のトラッカーへ。

公開バグトラッカー：公開バグトラッカーを用いたバグ報告と機能リクエスト | サポート | Google Cloud

Stack Overflow

stackoverflow.com

Python関連

stackoverflow.com

権限管理

サービスアカウントの作成時のロール選択。

オーナー (roles/owner)
編集者 (roles/editor)
閲覧者 (roles/viewer)
参照者 (roles/browser) ←beta機能

オーナーか編集者の権限があれば動作するはず。

「参照者」というロールは日本語のドキュメントには記載がない。英語のドキュメントにはbetaという扱いで記載があるがよくわからない。

プロジェクト内部の階層構造やリソースのリストは参照できるが、プロジェクト内のリソースそのものへの読み取りアクセスはない？

Understanding Roles | Cloud Identity and Access Management Documentation | Google Cloud

まとめ

随時更新します（たぶん）。

Google Cloud Vision APIとPythonで文字認識

作者: machine powers
発売日: 2018/09/14
メディア: Kindle版
この商品を含むブログを見る

今日も微速転進

ここではないどこかへ