2. 用BeautifuSoup來分析網頁
寫爬蟲之前, 可以先看看你想要爬的目標是否已經有人做出工具了, 若有的話就不用費力寫爬蟲了.
當然, 若很不幸都沒人做, 你就自己來吧...
一定要自己寫爬蟲的時候, 可以按照下面的順序來考慮開發爬蟲的方向:
目標網站/服務是否有提供API? (FB, Twitter, Google, etc...)
URL/Link有沒有規則可循? (Code, Date, Num, etc...)
Response是可解析的Json
網頁太複雜的話可以按"列印此網頁"或是看看行動版網頁(m.xxx.xxx.com)
總而言之, 馬上就開始爬整張網頁一定是最不得已的選項.
在接下來的文章, 會分享怎麼使用BeautifulSoup這個強大的library.
Last updated