今日も微速転進

ここではないどこかへ

楽がしたい

某雑誌の総集編から特定の連載記事だけ抜き取りたい (その3)

前回、前々回の続き。ようやく完成。 a244.hateblo.jp a244.hateblo.jp pdftkコマンドで目次(しおり)を追加 まずはpdftkコマンドの、update_info_utf8を使う方法。 コマンドの書式 $ pdftk input.pdf update_info_utf8 info.txt output output.pdf input.p…

某雑誌の総集編から特定の連載記事だけ抜き取りたい (その2)

前回の続き。PDFファイルに対する目次の追加は次回。 a244.hateblo.jp 前提 工程 スクリプト その1 その2 課題など 汎用性の問題 ファイルのパスの扱い Pythonスクリプトでハマったところ まとめ 前提 macOS Python 3.6 工程 PDFファイルの暗号化の解除(シ…

某雑誌の総集編から特定の連載記事だけ抜き取りたい (その1)

PDFの目次?部分をパースすればいいかと思ったらまたしても単純ではない……。 やりたいこと 方針および手順 課題と方式検討。 準備 暗号化の解除 ページ番号の取り出し pdftk のセットアップ 使用方法 連載記事名とページ番号の取り出し 出力例 まとめ やりた…

はてなブログの見出しとMarkdownモード、そしてスクレイピング

今更ではあるけれど……。 (はてなダイアリーとの互換性だかなんか知らないけど、)はてなブログでは<h2>タグは使わない前提になってるらしい。 なんの話かというと、現状このブログの記事のほとんどは見出しに<h1>タグを使っているエントリが複数ある状態で色々と好</h1></h2>…

広告