日本語OCRのためのJIS漢字などに関するメモ書き(随時更新)

ちょっと中途半端な感じがするけどせっかくなので。 JIS漢字というか主に第三水準、第四水準の漢字についてのメモ。 第二水準漢字ですら、そもそもどういう文脈でどういう語に使われるのか、さっぱり分からない字が多い。 前置き 漢字のリスト 参考になる文…

書評:『ゼロから作るDeep Learning 』

もっと早く買えばよかった。そしてもっと早く読み始めればよかったと思う。 すでにいろんな方が書評を書いておられるので無駄な気もしますが、一応。 概要 ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装作者: 斎藤康毅出版社/メー…

Voice UIと各種障害者への影響についてのちょっとしたメモ

音声で何かを操作するユーザーインターフェイス(User Interface: UI)、Voice UIと各種障害についての思いつき。 めんどうなので障害者の表記がどうとかそういうクレームは受け付けません。 障害者への影響について、あまり話題になってない?ように思える…

書評:『PDF構造解説』

購入してから全部読み終えるまでに時間がかったのと、途中の章を飛ばして読んだりしたのでちょっと消化不良なところがある。 結論から言うと母国語で書かれた書籍は偉大。英語の仕様書数百ページとか読む気がしませんよってところかな。 必要に迫られたら読…

macOSでOpenMHAをインストール

補聴器アルゴリズムの開発用のOSSであるOpenMHAをmacOSにインストールする手順です。 OpenMHAとは ドイツのHörTech gGmbHという非営利の補聴器システムについての研究団体?がオープンソースで開発・公開しているプロジェクト。 一般的なパソコンで動作し、…

ブログ開設から3年、というメールが届いた

特に思うところはない。 目の病気の手術を受ける前に、結果が思わしくなかったら愚痴の一つでも書こうと思って作ったブログ。まさか3年続くとは。 大抵のことは3ヶ月は続けられるんだけど、まさかの3年か。 問題は「はてなブログPro」を継続するかどうか。継…

紙の雑誌と電子版と中古市場と(+ Software Design 2018年6月号 感想)

久しぶりに紙媒体で雑誌を買った。そこまでは別にいい。全然普通。 一点、納得いかないのがその価格。 ソフトウェアデザイン 2018年6月号出版社/メーカー: 技術評論社発売日: 2018/05/18メディア: 雑誌この商品を含むブログを見る なお、このブログ記事のタ…

Coherent PDFでPDFを分割・結合してみる

PDFの分割・結合ネタの続き。と言うか落穂拾いみたいなもの。 試すだけ試してみました。 Coherent PDF (cpdf)、楽ができるかと思いましたが期待したようには動作せず。 PDFの目次データ(いわゆる「しおり」、PDFの用語で言うところのdocument outline)の扱…

今週のふりかえり(2018年5月第2週)

振り返るだけじゃだめなんですけどね。何もしないよりマシ。 健康問題で足踏みしている間に世界はどんどん進んでいく。 目の病気で会社を辞めたときも思ったことだけど、人がリタイアしても動き続ける会社と社会って(一種の化物という意味で)すごいですよ…

Androidのアクセシビリティ機能に関するメモ

一応あるということはわかった。特に目新しいネタが有るわけではないです。 基本 support.google.com ユーザ補助機能 視覚障害者向けの機能はちゃんとある。 macOS/iOSのVoiceOverに対応するのはTalkBack。 聴覚障害者向けとしては一応、「字幕」というのが…

オライリーの翻訳本に魅力を感じなくなってしまった

自分自身の読解力の低下とか思考力の低下あるのかか。 オライリー以外の選択肢が増えたからかな。 昔ほどオライリーの新刊(翻訳本)にワクワク感を感じなくなってしまった。技術分野の多様化か、新しい技術にあまり興味がわかないのか? 昔はシンプルなレイ…

コンテンツ産業とお金の行き先(仮)

いいタイトルが思いつかない。中途半端な記事になってしまった。書き直すかも Twitter経由で面白い記事を読んだ。CDを捨てて音楽のストリーミングに切り替えたという話。 tamaranche.hatenablog.com 感想 ストリーミングのほうがCD買うより継続してアーティ…

厚生労働省ブラック企業リスト4月版(2018年)

遅くなりましたが、4月版。今年の5月で厚生労働省が企業名を掲載し始めてから丸一年ということになります。 このブログで追いかけているのは8月からですが。 a244.hateblo.jp データの入手元 機械可読データ(タブ区切りテキスト形式) PDFからTSVへの変換ス…

今週のふりかえり(2018年5月第1週)

もう5月。タイから戻って2ヶ月以上か。あの強烈なエアコンが懐かしい。 気候の面で過ごしやすさはバンコクのほうが上かな。真夏は別かもしれんけど。 今週の学び その他・ノウハウなど 今週試したソフトウェア or サービス ソフトウェア開発関連 気になった…

某雑誌の総集編から特定の連載記事だけ抜き取りたい (その3)

前回、前々回の続き。ようやく完成。 a244.hateblo.jp a244.hateblo.jp pdftkコマンドで目次(しおり)を追加 まずはpdftkコマンドの、update_info_utf8を使う方法。 コマンドの書式 $ pdftk input.pdf update_info_utf8 info.txt output output.pdf input.p…

某雑誌の総集編から特定の連載記事だけ抜き取りたい (その2)

前回の続き。PDFファイルに対する目次の追加は次回。 a244.hateblo.jp 前提 工程 スクリプト その1 その2 課題など 汎用性の問題 ファイルのパスの扱い Pythonスクリプトでハマったところ まとめ 前提 macOS Python 3.6 工程 PDFファイルの暗号化の解除(シ…

某雑誌の総集編から特定の連載記事だけ抜き取りたい (その1)

PDFの目次?部分をパースすればいいかと思ったらまたしても単純ではない……。 やりたいこと 方針および手順 課題と方式検討。 準備 暗号化の解除 ページ番号の取り出し pdftk のセットアップ 使用方法 連載記事名とページ番号の取り出し 出力例 まとめ やりた…

今週のふりかえり(2018年4月第5週)

いい天気だった。西側にあるので午前中が写真が取りやすくておすすめ。 もう4月末。ということは今年も3分の1が……。 昼間は結構暖かいくなってきたし、スギ花粉も収束気味で喜ばしい。 今週の学び おみくじ その他・ノウハウなど 今週試したソフトウェア or …

WEB+DB PRESS総集編[Vol.1~102](2018)の感想

予約購入していたものが昼過ぎに届いたのでざっくりレビュー。 WEB+DB PRESS総集編[Vol.1~102] (WEB+DB PRESS plusシリーズ)作者: 川合史朗,秋葉拓哉,中嶋謙互,木村廉,酒井政裕,ninjinkun,渡辺訓章,WEB+DB PRESS編集部出版社/メーカー: 技術評論社発売日: 20…

陸自イラク日報のPDFにテキストを付加して検索できるPDFを作る(試行錯誤 その1)

意外なことに簡単なようですんなりとはいかない。とりあえずやってみた的な記事。 過去記事の続き。 JSONデータはDBにぶち込むほうが使い勝手がいいだろうとは思いますが、どっちにしろ出遅れているので違う方向で。 前提条件など OCR処理自体は過去の記事で…

今週のふりかえり(2018年4月第4週)

写真は向日市の物集女街道沿いの丘にある神社。詳細不明。Google Map上では御霊神社とある。 鳥居が見えたので前から存在は認識していたが参拝は初。記憶違いでなければ多分ポケストップになっている。 今週の学び 補聴器のイノベーションに役立ちそうなネタ…

陸自のイラク日報をOCRしてJSON化する(暫定版/Google Cloud Vision API)

すでに検索サイトも作った方がいますし、ブログ記事化した方もいますが、マイペースでいきましょう。 スクライド風にに言うと「俺がスロウリィ!?」ですが気分が乗らなかったのはしょうがない。 スクライド 5.1ch DVD-BOX (期間限定生産)出版社/メーカー: バ…

さよなら アバンティ ブックセンター……。

びっくりした。 数年ぶりに京都駅八条口のアバンティビルの本屋に行ったらアニメイトとゲームセンターに売り場が侵食されてんての……。 売り場面積全体の縮小の余波で専門書売り場がガッツリ縮小しているんですよ、特にコンピューター関係が。売り場配置の変…

某新聞社のサイトから陸自のイラク日報をダウンロードするPythonスクリプト

別に普通にダウンロード用のソフト使えば済むんだけど勉強を兼ねて。 Pythonのライブラリのお陰でろくに勉強になっていないけど、BeautifulSoup4でやろうとしたらnth-of-type()が空振りするんでlxmlに逃げました。 情報公開請求?で入手した文書の著作権はあ…

今週のふりかえり(2018年4月第3週)

今週も文字数だけは多いぜ!?って感じですが振り返り記事。惰性で書いてる感じでちょっとよろしくないけど、意外な時に役に立つので当面継続。 花粉にエネルギーというか気力をそがれてのか、どうも積極性が大幅に低下している。 地味にボディブローのように…

今週のふりかえり(2018年4月第2週)

一気に暖かくなって「やったぜ」って気分だったのに雨が降ったあとの気温低下というイジメに閉口しているところ。 花粉に関してはまだ油断はできなさそう。 今週の学び その他・ノウハウなど 今週試したソフトウェア or サービス ソフトウェア開発関連 気に…

京都銀行と住所変更(by インターネットバンキング)

京都銀行の銀行口座の住所変更をネット経由で手続きすると、反映されるのは2日後らしい。 それはそれでいいとして、その後のUI/UXの問題。 何がひどいかというと、申し込み結果の確認手段。 インターネットバンキングの「諸届・受付」メニューから「依頼内容…

今週のふりかえり(2018年4月第1週)

内容的には3月の最後の週の振り返り。不思議なことに3月はこのブログのPVが2万を超えていた。 かなり久しぶりな感じ。 西梅田駅の記事に意外とアクセスがあるのでその分かな。直帰率とか怖くてチェックしてないのでなんとも言えない。 今週の学び その他・ノ…

スマートフォンとATOK、そしてGoogle日本語入力へ

スマートフォン(ZenFone3 Max ZC553KL)の日本語入力を標準搭載のATOKからGoogle日本語入力に変更した。 ただでさえ入力の不便なスマートフォンで、固有名詞もいまいち、予測変換も中途半端なんて耐えられない。 なんで何度も「ありがとうございます」って…

今週のふりかえり(2018年3月第4週)

雨のお陰で花粉を回避したりなど。 ちょっとアクセスが増えているのは就活の学生さんが西梅田の記事にアクセスしている? 就活生に頑張れとは言いづらいけど、気を強く持ってメンタルをやられないようにして欲しいとは思う。 お祈りされる度にポジティブな何…