技術ブログ移設しました click here!

【python】Google ColabでDMM APIを扱う

こんにちは、ともろう(@tomorrowSLog)です。

Google ColabでDMM APIを扱ってデータ取得をしてみたのでその知見を備忘録としてまとめます。

目次
  1. コード全文
  2. ロードマップ
  3. まとめ

【pythonコードを読む】AV女優10000人webスクレイピング

コード全文

少し端折っているが全体はこんな感じ。

途中真ん中あたりのfor keyword in AV:のAVはAV女優の名前をリスト型で入れてある。

【pythonコードを読む】AV女優10000人webスクレイピング

この記事のoutput.csvだ。
参考 output.csvgithub.com githubにもデータを公開しています。
以下のコードで使えるようになるはず。

ロードマップ

  1. データを入れる型を作る
  2. DMM APIをたたく
  3. 必要な情報を取り出す
  4. データを格納
  5. 2~4をループ
  6. 最終データをcsv形式でダウンロード

データを入れる型を作る

毎度おなじみ感。

今回は8項目のデータを取得していく。

DMM APIをたたく

まずはDMM apiを扱う各種設定を終わらせておこう。

参考 DMM Webサービスdmm.com

APIIDはこのページから確認ができる。

参考 API IDの確認dmm.com

IDは’ユーザーネーム-990’という形にしよう。(990~999までの間に設定)

その都度挙動の確認をしていくと良い

必要な情報を取り出す

参考 リファレンス 女優APIdmm.com

女優APIのリファレンスを見て、得体情報がどこに入っているかを確認しよう。

今回はresult>actressの部分以降に得たい情報がある。

APIをたたくキーワードの女優の名前はDMMのサイトからスクレイピングしたので検索に引っかかった一番目を取得すれば大丈夫だろう。

エラーが出て処理が止まらないようにしっかり対策をしておく。

データを格納

取得したデータを格納する。

同時にどれくらい作業が進んでいるかを可視化するようにする。

今回は約10000件のデータがある1件あたり1秒かかったとすると約3時間かかる計算だ。

進行度と経過時間、残り時間を出してみた。

実はこの進行度はうまく機能しない。

int(counter*100/9763)とするのがいいだろう。

こんな感じで表示される。

最終データをcsv形式でダウンロード

googlecolab上のデータをcsvに変換してローカルにダウンロードする。

まとめ

参考 scraping_AV.ipynbgithub.com

実際に使ったコードを置いておくので参考にしてみてください。

内容は少し違っています。

次はこのデータを使って機械学習の分類をやっていきたいと思います。

ではでは

 

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です