2. 用BeautifuSoup來分析網頁

寫爬蟲之前, 可以先看看你想要爬的目標是否已經有人做出工具了, 若有的話就不用費力寫爬蟲了.

當然, 若很不幸都沒人做, 你就自己來吧...

一定要自己寫爬蟲的時候, 可以按照下面的順序來考慮開發爬蟲的方向:

  1. 目標網站/服務是否有提供API? (FB, Twitter, Google, etc...)

  2. URL/Link有沒有規則可循? (Code, Date, Num, etc...)

  3. Response是可解析的Json

  4. 網頁太複雜的話可以按"列印此網頁"或是看看行動版網頁(m.xxx.xxx.com)

總而言之, 馬上就開始爬整張網頁一定是最不得已的選項.

在接下來的文章, 會分享怎麼使用BeautifulSoup這個強大的library.

Last updated