今日も微速転進

ここではないどこかへ

財務省の公開した交渉記録PDFをいじる その3(本件終了)

一応切りの良いところまで作業したのでここで終了。 プログラムは汚いので載せてないです。 フォーマットが微妙に違うなどの数々のトラップによりかなりの部分を手作業で治すハメに。自分で作ったページ範囲データの不備のせいでさらに無駄な苦労があったり…

はてなブログpro、(課金期間が)停止。

課金した分、もとは取れたけど……。なんかいまいちイラつくというか、微妙。 年契約とか面倒なこと言わずに月額500円なら払うんだけど、その「途中解約受け付けませんでぇ〜」ってのがなんとなく嫌。 トップページの一覧表示は魅力的なんだけど、そもそもこの…

Tesseract OCR 近況(2018/06)

オープンソースのOCRエンジン(正確に言うとOCR用のライブラリ)、Tesseract OCRの開発状況ウォッチング、です。 しばらくメーリングリスト、GitHubのリポジトリからの通知をチェックできていなかった時期があるので見落としがあるかも。 2017年秋ごろに下書…

書評:『達人に学ぶDB設計 徹底指南書』

[2018/09/27 追記] 改訂版が出るそうです。 達人に学ぶSQL徹底指南書 第2版 初級者で終わりたくないあなたへ作者: ミック出版社/メーカー: 翔泳社発売日: 2018/10/11メディア: 単行本この商品を含むブログを見る 以下は旧版についてのレビューです。 [追記こ…

今週のふりかえり(2018年6月第3週)

雨は嫌いだけど、外出を躊躇させるという意味では読書が進んでいいのかな、と思えなくもない。 今年は意外と雨が降っていない気もするけど。 今週の学び 2018/06/18の地震について 最近の読めなかった単語など その他・ノウハウなど ソフトウェア開発関連 構…

すごいプログラミング入門書が登場したかもしれない

局所的にTwitterでかなり話題になっている本。 現時点では予約受付中で目次とサンプルページをベースで書いています。目次を見る限り、確かに基本的な内容中心。 コンセプト、アイディアの時点で素晴らしいのでサンプルページを見ただけで、 間違いなくすご…

物流と労働を取り巻くパワーワードの宝庫(書評:『現代思想 2018年3月号』

いまは6月ですが……。 他所のブログ経由なので周回遅れです。6月ですが紹介しているのは2018年3月号。 現代思想という雑誌の感想です。 概要 感想など キーワード 紹介されているサービスなど 読みながら考えたことなど 再配達問題 労働組合についての私見 通…

話題のレシート1枚10円アプリについて

普通に個人情報ホイホイかと思ったけど、よく考えたら面白いかも。 なんの話? nlab.itmedia.co.jp www.itmedia.co.jp (おそらく裕福な家庭環境の)高校生*1が起業して、レシートの画像を一枚10円で買い取るというサービス(iOSアプリ)をリリースしたとい…

書評:『インターフェイスデザインの心理学』

ざっくり書評。対象は『インターフェイスデザインの心理学』。 インタフェースデザインの心理学 ―ウェブやアプリに新たな視点をもたらす100の指針作者: Susan Weinschenk,武舎広幸,武舎るみ,阿部和也出版社/メーカー: オライリージャパン発売日: 2012/07/14…

Adsense に関する備忘録

リンクとか諸々。備忘録です。 公式ヘルプ support.google.com 基本はここ。 ヘルプフォーラム productforums.google.com トラブルなど、困ったとき用。 AdSenseのタグの修正 support.google.com 公式ドキュメント言及している範囲については問題ない。 ツー…

今週のふりかえり(2018年6月第1, 2週)

早く梅雨が明けますように。 今週の学び メールサービス その他・ノウハウなど はてなブログのMarkdownとシンタックスハイライト tmuxとsshと色 Python Tips GitHub Markdown テキストの前処理 今週見つけた・試したソフトウェア or サービス 各種エンコード…

またひとつ、パンドラの箱が開いた

小説家のSNSでの過去の発言が原因で声優降板、アニメ化企画が中止になったそうな。しかも出荷停止とかいう話も出ている。 これの事件、いろいろまずいと思う。以下、順不同。 (明言していないが)作者の過去の言動というな理由で降板という実例ができてしま…

ブログのカスタマイズについての備忘録

一部のカスタマイズはPro化(有料プラン)が前提です。このブログはあと2週間でProではなくなりますが……。 下書き状態で放置していたので情報の鮮度はいまいちです。あしからず。 テーマを変えたり自動広告を試したり試行錯誤中です。 使用しているテーマ た…

目の手術から3年経過

a244.hateblo.jp 若年性白内障の手術してからまる3年経ちました*1。 もう3年、です。石の上にも三年といいますが、気がついたら三年です。 特に問題がないので書くことに困る状況……。 目に関しては問題なし。問題は耳の方ですね。右耳の耳鳴りと聴力低下。 …

財務省の公開した交渉記録PDFをいじる その2(本文データのOCR etc.)

過去記事の続き。やはり実際のデータでデータ処理をやるのは勉強になります。 ……お金になるかは別にして、Pythonという言語の習熟度は向上しているはず。 a244.hateblo.jp 方針 OCR処理 画像の抽出 画像をPDFに変換・結合 一括OCR JSON分割 タブ区切りテキス…

財務省の公開した交渉記録PDFをいじる その1(目次のPDF編)

自分でモロに忘れそうなので備忘録として。 作戦というか方針 データの入手 目次のOCR処理 目次ファイル 画像の切り出し Tesseract 4.x 目次のOCR 認識結果の例 OCR結果のテキストファイルの結合 まとめ 一時ファイルがじわじわと増殖するのでもっとスマート…

Google Cloud Vision APIで画像メインのPDFから直接OCRする(PDF/TIFF Document Text Detection)

この記事で紹介しているAPIは今のところベータ版です。正式リリースまでに仕様が変化する可能性があります。 [2018/09/04 追記] ドキュメントの翻訳はまだのようですが2018年7月24日付でGAリリースになっています。 PDF、TIFFともに2000ページまで。 PDF/TIF…

厚生労働省ブラック企業リスト5月版(2018年)

今月はデータ自体が公開されないのかと思いましたよ……。 月末にギリギリで出してくるとは。 a244.hateblo.jp またこのネタかって感じもしますが当面は続けます。 データの入手元 機械可読データ(タブ区切りテキスト形式) PDFからTSVへの変換スクリプト 前…

PDFからコマンド操作で画像を取り出す方法

PDF

財務省やらかし案件がらみで。PDFを画像化するのではなく、内部に含まれる画像を取り出そうという話です。 財務省の公開しているPDF,差し替え前の黒塗りが外せる状態のPDFが入手できるとのこと。 security.srad.jp これはOCRやり直しか……。 ページ数とPDF内…

音に関する信号処理についてのプログラミングの本いろいろ(たぶん随時更新)

音声かそれ以外かは問わない。 信号処理の本を買えばいいはずなんだけど、理論の本だとプログラム化するノウハウが載ってなさそうだし、ハードウェアの話をされても困る。 ハッキリとプログラミングについて説明しているであろう書籍だけピックアップ。 サウ…

今週のふりかえり(2018年5月第3, 4週)

試験的に隔週でいってみます。 今週の学び Amazonアカウントの新規作成 その他・ノウハウなど Skype番号 今週試したソフトウェア or サービス JSON Viewer (Python) 英語学習系app さくらのメールボックス、契約更新 ソフトウェア開発関連 gsutil tmux とb…

財務省が国会に提出した交渉記録PDFに関して

財務省が国会に提出したらしい「森友学園」との交渉記録のPDFの件。あまり政治ネタはどうかな、と思いつつ。 結論:某新聞社のサイトじゃなくても財務省のページから入手可能。 おかしな連中にPVを献上するのはやめて、財務省のサイトへGo。 某新聞社がPDFを…

日本語OCRのためのJIS漢字などに関するメモ書き(随時更新)

ちょっと中途半端な感じがするけどせっかくなので。 JIS漢字というか主に第三水準、第四水準の漢字についてのメモ。 第二水準漢字ですら、そもそもどういう文脈でどういう語に使われるのか、さっぱり分からない字が多い。 前置き 漢字のリスト MJ漢字 参考に…

書評:『ゼロから作るDeep Learning 』

もっと早く買えばよかった。そしてもっと早く読み始めればよかったと思う。 すでにいろんな方が書評を書いておられるので無駄な気もしますが、一応。 概要 ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装作者: 斎藤康毅出版社/メー…

Voice UIと各種障害者への影響についてのちょっとしたメモ

音声で何かを操作するユーザーインターフェイス(User Interface: UI)、Voice UIと各種障害についての思いつき。 めんどうなので障害者の表記がどうとかそういうクレームは受け付けません。 障害者への影響について、あまり話題になってない?ように思える…

書評:『PDF構造解説』

購入してから全部読み終えるまでに時間がかったのと、途中の章を飛ばして読んだりしたのでちょっと消化不良なところがある。 結論から言うと母国語で書かれた書籍は偉大。英語の仕様書数百ページとか読む気がしませんよってところかな。 必要に迫られたら読…

macOSでOpenMHAをインストール

補聴器アルゴリズムの開発用のOSSであるOpenMHAをmacOSにインストールする手順です。 OpenMHAとは ドイツのHörTech gGmbHという非営利の補聴器システムについての研究団体?がオープンソースで開発・公開しているプロジェクト。 一般的なパソコンで動作し、…

ブログ開設から3年、というメールが届いた

特に思うところはない。 目の病気の手術を受ける前に、結果が思わしくなかったら愚痴の一つでも書こうと思って作ったブログ。まさか3年続くとは。 大抵のことは3ヶ月は続けられるんだけど、まさかの3年か。 問題は「はてなブログPro」を継続するかどうか。継…

紙の雑誌と電子版と中古市場と(+ Software Design 2018年6月号 感想)

久しぶりに紙媒体で雑誌を買った。そこまでは別にいい。全然普通。 一点、納得いかないのがその価格。 ソフトウェアデザイン 2018年6月号出版社/メーカー: 技術評論社発売日: 2018/05/18メディア: 雑誌この商品を含むブログを見る なお、このブログ記事のタ…

Coherent PDFでPDFを分割・結合してみる

PDFの分割・結合ネタの続き。と言うか落穂拾いみたいなもの。 試すだけ試してみました。 Coherent PDF (cpdf)、楽ができるかと思いましたが期待したようには動作せず。 PDFの目次データ(いわゆる「しおり」、PDFの用語で言うところのdocument outline)の扱…

広告