かっちゃんの日記

初めまして!自営業(タイヤの卸売)をやってます。新規事業としてアプリ開発に興味がありプログラミングを勉強中です。日々の学びを発信していきます。よろしくお願いします。HTML/CSS/haml/sass/Ruby/Ruby on rails/Javascript/Jquery/Git/GitHub/データベースとSQL/統合テスト/AWS

スクレイピング(ページネーションの全て取得する方法)

https://chkc.hatenablog.com/entry/2019/07/24/190213の続きです。

 

大きな流れ

1リンク取得

2リンクに対してtitleとimage_urlをスクレイピング

 

この流れは同じで、ページネーションしてあり複数のページがある場合は、1リンク取得を複数ページを対象にするコードを書いてあげればokです。

 

f:id:chkc:20190725105338p:plain

ページネーション「NEXT」のHTMLを取得します

f:id:chkc:20190725105626p:plain

大枠の考え方

f:id:chkc:20190725105720p:plain

 

このコードで、1全ページのリンクを取得、2そのリンクのtitleとimage_urlを抜くことができます。