情景文字認識(Scene Text Detection)関連のメモ
ただのメモ書きです。研究がしたいわけではないです。
適当に見つけたというか、観測範囲で遭遇したもの。全然網羅できていないです。
ERFilter以外にもいろいろありますねってことで。
お手軽に使えて決定打という感じのがあるといいのに。
情景文字認識とは
英語だとScene Text Detector。交通標識とか看板とか、日常生活で目にする風景にある文字の検出、認識。
号数忘れたけどWeb+DBのバックナンバーにも解説記事。
EAST: An Efficient and Accurate Scene Text Detector
- 論文:[1704.03155] EAST: An Efficient and Accurate Scene Text Detector
- 実装:argman/EAST: A tensorflow implementation of EAST text detector
以下、参考になりそうな利用例。
SWT
Microsoftの研究所の開発したアルゴリズム。Python用のライブラリもある。
特許とかそのへんは不明。
ERFilter
もともとは画像の回転検出用?
パラメーターの調整方法がよくわからないので試してない。
ドキュメント:Scene Text Detection — OpenCV 3.0.0-dev documentation
contlibのモジュールだったはず。
データセット
自由には使え無いと考えたほうが良さそう。
- The Street View House Numbers (SVHN) Dataset
- The Street View Text Dataset - TC11
- NEOCR: Natural Environment OCR Dataset - TC11
- Introduction - ICDAR 2017 RobustReading Competition
ICDARに関しては過去のイベントのページにもデータセットがある(2013、2011)*1。
検索するとOPU-JST-1というのがヒットするけど入手方法は不明*2。
そのほかリンク集
- Natural scene text detection using opencv & machine learning (SVM)
- Deep Learning based Text Recognition (OCR) using Tesseract and OpenCV | Learn OpenCV
そのほか
良さそうなページを見つけたら追加します。
詳解 OpenCV 3 ―コンピュータビジョンライブラリを使った画像処理・認識
- 作者: Gary Bradski,Adrian Kaehler,松田晃一,小沼千絵,永田雅人,花形理
- 出版社/メーカー: オライリージャパン
- 発売日: 2018/05/26
- メディア: 単行本(ソフトカバー)
- この商品を含むブログを見る
- 作者: 原田達也
- 出版社/メーカー: 講談社
- 発売日: 2017/05/25
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (1件) を見る
ゴミ袋に名前を書かせる市町村について(京都府内の自治体について調査)
少し前にテレビで紹介されたらしい。
少し前にTwitterで言及されているのが流れてきて知った。率直に言ってナンセンスだしまじでどうかと思う。
ゴミの分別を徹底させるのが目的らしい。焼却炉などの設備が古いことが関係しているんではないかな。
ゴミの分別こそ人工知能の出番でしょ。
ブログで言及されているもの
残念ながらほんの一部のみ。京都府下の自治体が全くリストに掲載されていないが、調べてみると全然アウトだった。
プライバシーに無頓着な京都府内の自治体リスト
京都府内のみ手作業で調査。周辺市町村はダメダメっぽい。
京丹後市は市町村合併の関係で地域ごとに違うらしいのだが詳細不明。
各自治体のWebページを目視で調査したものなのでもれがあるかも。本当はスクレイピングしたいけどページの構造がばらばらなんだよね。
笠置町
必ず、町指定専用袋で氏名を記入してください。
京丹波町
PDFファイル(画像)に記載あり。
袋に氏名を書く。
https://www.town.kyotamba.kyoto.jp/cmsfiles/contents/0000002/2025/263.pdf
画像形式のPDFオンリーというのは目の病気の人間に喧嘩を売っているよね。
南丹市
ごみ出しの際は、指定された集積場所に氏名をご記入のうえ排出してください。
一度に出せるゴミの量(ゴミ袋の数)に制限がある。不便だね……。
南山城村
PDFにしれっと書いてある。
排出は必ず村指定袋で名前を書いて出す。
http://www.vill.minamiyamashiro.lg.jp/cmsfiles/contents/0000000/62/guidebook.pdf
和束町
町指定の燃えるごみ専用袋に入れ、必ず氏名を書く。
傾向
- プライバシーに無頓着な田舎に多い
- 予算不足、設備不足
都会の人はプライバシーをそれなりに気にするので移住者を呼び込みたいならナンセンス。
疑問点
- 偽名を使われたらどうするのか
- 他所の地域の人にゴミ捨て場を勝手に使われる可能性は?
- ゴミ捨て場を見張る、監視カメラをつけるなど、余計なコストを掛けるのか
- プライバシー問題
- ゴミ捨てに関するマナー問題で住民どうしでトラブルが起きたらどうするのか
- マナー違反者に罰則を課すのか
- 引っ越すときの大量のゴミは?
- 病気、障害で健康面に問題のある人はどうする?
そもそも地方からの移住者にゴミ捨て場(ゴミ収集所)を使わせないという事件があったはず。
一軒家の場合は自宅前にゴミを出すのでどこのゴミ化は一応わかるはずだけど。
田舎で一軒家はナンセンスだということが確実に言える。
高齢者にとってゴミの分別はかなりの負担らしい。
- 作者: 工藤哲
- 出版社/メーカー: 毎日新聞出版
- 発売日: 2018/02/23
- メディア: 単行本
- この商品を含むブログ (1件) を見る
改善案
そんなに分別ルールを守らせたいならモラルに期待するより経済的なメリットを示すべき。
そもそもゴミを分別して補助金その他のコストを掛けてリサイクルすることにどこまで経済合理性があるのか。
どうしても分別させたいならソーシャル系ゲームみたいにクエスト形式にすればいいのでは。
資源系ゴミを分別して捨てるとポイントが貯まるみたいな仕組み。ゆるいインセンティブ。
あとは人工知能とロボットアームでゴミの分別すればいい。という是非ともそうしてくれ
まとめ
学校でリサイクルはいいことだと教わるからといって、別に馬鹿の一つ覚えのごとく分別してどうするのか。
個人の意見としてはプラスチック、紙類、ペットボトルは燃やしてその熱で発電すべきという立場です。
生ゴミのような燃えないもの、重金属のような環境に悪影響のあるものを分別すべき。
どうにかスクレイピングで全国の市町村を調査したい。ただWebサイトのレイアウトがバラバラなうえに画像PDFだったりするから取りこぼしの問題がある。
厚生労働省ブラック企業リスト9月版(2018年)
今月もいつもどおりに。
前月とファイル名が変化しています。今月は「180928.pdf」。
データの入手元
ファイルは労働基準関係法令違反に係る公表事案というリンクから。
機械可読データ(タブ区切りテキスト形式)
厚生労働省ブラック企業リスト一覧(2018年09月28日版) · GitHub
ブラック企業の一覧をリストアップしています。
PDFからTSVへの変換スクリプト
Convert PDF to TSV ( for Japan's MHLW illegal company list ) rev. 2
先月と同じで変更なし。
退屈なことはPythonにやらせよう ―ノンプログラマーにもできる自動化処理プログラミング
- 作者: Al Sweigart,相川愛三
- 出版社/メーカー: オライリージャパン
- 発売日: 2017/06/03
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (6件) を見る
パースがうまくいっていない行がありましたが手作業で修正。要調査。余計な空白を検出しているよう?
前月との比較
先月の429件から427件に微減。珍しく鳥取労働局が1件追加。
あとは北海道労働局、茨城県労働局、神奈川県労働局、山口県労働局が奮戦していますが全体的に掲載終了による減少が多め。
労働局名 | 当月公表件数 | 前月公表件数 | 新規掲載 | 掲載終了 | 差分 |
---|---|---|---|---|---|
北海道労働局 | 20 | 16 | 4 | 0 | +4 |
青森労働局 | 8 | 8 | 0 | 0 | +/-0 |
岩手労働局 | 11 | 11 | 0 | 0 | +/-0 |
宮城労働局 | 3 | 4 | 0 | 1 | -1 |
秋田労働局 | 3 | 2 | 1 | 0 | +1 |
山形労働局 | 3 | 3 | 0 | 0 | +/-0 |
福島労働局 | 6 | 7 | 0 | 1 | -1 |
茨城労働局 | 10 | 7 | 3 | 0 | +3 |
栃木労働局 | 7 | 8 | 0 | 1 | -1 |
群馬労働局 | 5 | 5 | 0 | 0 | +/-0 |
埼玉労働局 | 6 | 7 | 0 | 1 | -1 |
千葉労働局 | 11 | 11 | 0 | 0 | +/-0 |
東京労働局 | 16 | 17 | 2 | 3 | -1 |
神奈川労働局 | 12 | 9 | 3 | 0 | +3 |
新潟労働局 | 11 | 10 | 1 | 0 | +1 |
富山労働局 | 5 | 6 | 0 | 1 | -1 |
石川労働局 | 7 | 6 | 1 | 0 | +1 |
福井労働局 | 7 | 7 | 0 | 0 | +/-0 |
山梨労働局 | 8 | 9 | 0 | 1 | -1 |
長野労働局 | 19 | 20 | 0 | 1 | -1 |
岐阜労働局 | 15 | 14 | 2 | 1 | +1 |
静岡労働局 | 7 | 7 | 1 | 1 | +/-0 |
愛知労働局 | 26 | 30 | 2 | 6 | -4 |
三重労働局 | 7 | 7 | 0 | 0 | +/-0 |
滋賀労働局 | 5 | 7 | 1 | 3 | -2 |
京都労働局 | 4 | 6 | 0 | 2 | -2 |
大阪労働局 | 30 | 29 | 6 | 5 | +1 |
兵庫労働局 | 11 | 12 | 0 | 1 | -1 |
奈良労働局 | 8 | 8 | 0 | 0 | +/-0 |
和歌山労働局 | 10 | 11 | 0 | 1 | -1 |
鳥取労働局 | 1 | 2 | 0 | 1 | -1 |
島根労働局 | 6 | 5 | 1 | 0 | +1 |
岡山労働局 | 6 | 6 | 0 | 0 | +/-0 |
広島労働局 | 19 | 18 | 2 | 1 | +1 |
山口労働局 | 7 | 4 | 4 | 1 | +3 |
徳島労働局 | 8 | 8 | 2 | 2 | +/-0 |
香川労働局 | 3 | 1 | 2 | 0 | +2 |
愛媛労働局 | 9 | 11 | 0 | 2 | -2 |
高知労働局 | 7 | 8 | 2 | 3 | -1 |
福岡労働局 | 10 | 15 | 1 | 6 | -5 |
佐賀労働局 | 6 | 6 | 0 | 0 | +/-0 |
長崎労働局 | 5 | 5 | 0 | 0 | +/-0 |
熊本労働局 | 7 | 7 | 0 | 0 | +/-0 |
大分労働局 | 11 | 11 | 0 | 0 | +/-0 |
宮崎労働局 | 2 | 2 | 0 | 0 | +/-0 |
鹿児島労働局 | 6 | 4 | 3 | 1 | +2 |
沖縄労働局 | 13 | 12 | 2 | 1 | +1 |
先月から変化なし
青森と山形、千葉、福井、三重、長崎、宮崎。
まとめ
そろそろ真面目に分析しないといけないかな。それにしても給与未払い系は多いですね。
流石にちょっと飽きてきたかな。
- 作者: 今野晴貴
- 出版社/メーカー: イースト・プレス
- 発売日: 2018/08/05
- メディア: 単行本(ソフトカバー)
- この商品を含むブログを見る
- 作者: 森井博子
- 出版社/メーカー: 宝島社
- 発売日: 2017/06/09
- メディア: 新書
- この商品を含むブログ (1件) を見る
著作権を譲渡しないというやり方
元ネタは絵描きさんの話。
たまたまネットで表紙画像を発注しようと思っていくつかサイトを見ていたら「著作権は譲渡しない」という表記のあるサイトを見つけた。 単価が異様に安いのでそれ自体は妥当だと思う。
【常識にしよう】イラストレーターは絵を売るのではなく、使用する権利を売ることで成り立つ。 - Togetter
こういうの、理系もやれないものか。
大抵の理系の仕事、特に特許は職務発明で会社に完全に持っていかれてしまう。特許公報に名前が載るけど。
論文を投稿すると確か出版社に著作権を譲渡する形だったはず。
理系文系にかぎらず設備依存の仕事はどうにもならないけど。
情報系はどうか。
システム管理者でも作業用のスクリプトぐらいは(プログラムを)書くし、プログラムだけでなく業務用のマニュアルも著作物になる。 これらは全部職務発明と同じで会社の著作物。
受託は言わずもがなで、フリーランスも(準委任契約か、請負かの問題はあるにしても)基本的に著作権は譲渡することになる。
自分でWebサービスを開発したり、アプリの販売、あるいは技術書を書く場合は著作権をキープできる。 この場合は収益になるかは非常に厳しいケースが多いけど。
受託でも著作権を放棄しないようにできないか。
ソフトウェアそのものを販売せずに「ソフトウェアを使用する権利」を販売したMicrosoft社や、Googleの隆盛ぶりは言うまでもない。 一方で受託開発、カスタマイズ案件が中心の日本の大手IT系企業()は、利益は出ているが海外勢に遠く及ばない。
何がいいたいかというと、客単価(人月単価)を引き上げるのも大事だけど、個人も企業もスケールしないのでビジネスモデル側をスケールアウトできるものにしないといけない。
クラウドソーシング系サイトの案件のようなひどい案件でも「著作権を譲渡しない」、という条件なら実は悪くないのでは、と考えたりしている(割に合わないような案件ばっかりだけど)。
まあ相手次第かな。
- 作者: 倉貫義人
- 出版社/メーカー: 日本実業出版社
- 発売日: 2014/06/12
- メディア: 単行本
- この商品を含むブログ (6件) を見る
- 作者: 倉貫義人
- 出版社/メーカー: 日本実業出版社
- 発売日: 2015/12/17
- メディア: 単行本
- この商品を含むブログ (2件) を見る