📘
Python web crawler note
  • Introduction
  • 1. 環境安裝與爬蟲的基本
  • 1.1 環境安裝
  • 1.2 IDE設定
  • 1.3 一隻很原始的爬蟲
  • 1.4 幫爬蟲裝煞車
  • 2. 用BeautifuSoup來分析網頁
  • 2.1 BeautifulSoup範例 - 1
  • 2.2 BeautifulSoup說明
  • 2.3 BeautifulSoup範例 - 2
  • 2.4 加入Regular Expression
  • 2.5 Dcard今日十大熱門文章
  • 3. 更多實際的應用
  • 3.1 PTT八卦版今日熱門文章
  • 3.2 Yahoo奇摩電影本週新片
  • 3.3 蘋果日報/自由時報今日焦點
  • 3.4 Google Finance 個股資訊
  • 3.5 Yahoo奇摩字典
  • 4. 基於API的爬蟲
  • 4.1 八卦版鄉民從哪來?
  • 4.2 Facebook Graph API
  • 4.3 imdb電影資訊查詢
  • 4.4 Google Finance API
  • 4.5 台灣證券交易所API
  • 5. 資料儲存
  • 5.1 痴漢爬蟲(PTT表特版下載器)
  • 5.2 儲存成CSV檔案
  • 5.3 儲存至SQLite
  • 6. 不同編碼/文件類型的爬蟲
  • 6.1 非UTF-8編碼的文件
  • 6.2 XML文件
  • 7. 比價爬蟲
  • 7.1 momo購物網爬蟲
  • 7.2 PChome 24h API爬蟲
  • 7.3 比價圖表程式
  • 8. 處理POST請求/登入頁面
  • 8.1 空氣品質監測網
  • 9. 動態網頁爬蟲
  • 9.1 台銀法拍屋資訊查詢
  • 10. 自然語言處理
  • 10.1 歌詞頻率與歌詞雲
Powered by GitBook
On this page

Was this helpful?

1.1 環境安裝

Previous1. 環境安裝與爬蟲的基本Next1.2 IDE設定

Last updated 5 years ago

Was this helpful?

因為我的電腦是MAC, 這邊就只記錄MAC的安裝方式. 至於Python版本, 這邊使用的是Python3.

安裝 homebrew:

參閱官網:

安裝 Python3:

$ brew install python
$ brew install python3

Python 會被安裝在 /usr/local/Cellar 目錄之下

安裝好後, 你的 /usr/local/Cellar 目錄可能會長得類似這樣:

-> 注意python跟python3這兩個目錄.

安裝virtualenv:

虛擬環境的用意, 可以想成是一個沙盒, 不用擔心弄壞原本的環境, 也可以根據不同需求建立不同的虛擬環境.

$ pip install virtualenv

建立一個virtual env:

$ virtualenv -p python3 [env_name]

建立好後, 來試著啟動虛擬環境吧:

$ source [env-name]/bin/activate

啟動成功的話, 可以在command line前面看到當前虛擬環境的名字(此處為web-crawler)

beautifulsoup4
requests
html5lib
matplotlib
selenium
jieba
wordcloud
Pillow==4.0.0

再來使用以下指令一次安裝所有套件:

$ pip install -r [txt_file_name]

安裝完後再確認一次:

$ pip list

這樣就安裝好虛擬環境了, 那麼要怎麼離開(deactivate)虛擬環境呢?

$ deactivate

這樣就可以了, 很簡單吧~

補充:

如果出現沒有切換至virtualenv就無法下python指令的情況, 在你的bash_profile or bashrc裡面加入下面這項設定:

# DO NOT force vitualenv
export PIP_REQUIRE_VIRTUALENV=false

這時候查看一下python的版本, 會發現是python3:再來要安裝需要的套件, 如果你已經知道你要安裝什麼, 又懶得一個一個裝, 可以如下把所有要安裝的套件條列式的寫在一張裡面, 這邊我只列出這本gitbook裡面會需要用到的套件:

https://brew.sh/index_zh-tw.html
txt檔案