今日も微速転進

ここではないどこかへ

スクレイピング

PythonのWebスクレイピング解説書の比較メモ

全部買ったわけではないですが、購入検討ように比較したメモ。 初歩的なレベルであればブログやQiitaに記載されている記事でなんとかなる場合が多いですが、クローラーを作成してがっつりやるなら一冊買って持っておいたほうがいいはず。 意識したポイント …

某新聞社のサイトから陸自のイラク日報をダウンロードするPythonスクリプト

別に普通にダウンロード用のソフト使えば済むんだけど勉強を兼ねて。 Pythonのライブラリのお陰でろくに勉強になっていないけど、BeautifulSoup4でやろうとしたらnth-of-type()が空振りするんでlxmlに逃げました。 情報公開請求?で入手した文書の著作権はあ…

はてなブログの見出しとMarkdownモード、そしてスクレイピング

今更ではあるけれど……。 (はてなダイアリーとの互換性だかなんか知らないけど、)はてなブログでは<h2>タグは使わない前提になってるらしい。 なんの話かというと、現状このブログの記事のほとんどは見出しに<h1>タグを使っているエントリが複数ある状態で色々と好</h1></h2>…

広告