📘
Python web crawler note
  • Introduction
  • 1. 環境安裝與爬蟲的基本
  • 1.1 環境安裝
  • 1.2 IDE設定
  • 1.3 一隻很原始的爬蟲
  • 1.4 幫爬蟲裝煞車
  • 2. 用BeautifuSoup來分析網頁
  • 2.1 BeautifulSoup範例 - 1
  • 2.2 BeautifulSoup說明
  • 2.3 BeautifulSoup範例 - 2
  • 2.4 加入Regular Expression
  • 2.5 Dcard今日十大熱門文章
  • 3. 更多實際的應用
  • 3.1 PTT八卦版今日熱門文章
  • 3.2 Yahoo奇摩電影本週新片
  • 3.3 蘋果日報/自由時報今日焦點
  • 3.4 Google Finance 個股資訊
  • 3.5 Yahoo奇摩字典
  • 4. 基於API的爬蟲
  • 4.1 八卦版鄉民從哪來?
  • 4.2 Facebook Graph API
  • 4.3 imdb電影資訊查詢
  • 4.4 Google Finance API
  • 4.5 台灣證券交易所API
  • 5. 資料儲存
  • 5.1 痴漢爬蟲(PTT表特版下載器)
  • 5.2 儲存成CSV檔案
  • 5.3 儲存至SQLite
  • 6. 不同編碼/文件類型的爬蟲
  • 6.1 非UTF-8編碼的文件
  • 6.2 XML文件
  • 7. 比價爬蟲
  • 7.1 momo購物網爬蟲
  • 7.2 PChome 24h API爬蟲
  • 7.3 比價圖表程式
  • 8. 處理POST請求/登入頁面
  • 8.1 空氣品質監測網
  • 9. 動態網頁爬蟲
  • 9.1 台銀法拍屋資訊查詢
  • 10. 自然語言處理
  • 10.1 歌詞頻率與歌詞雲
Powered by GitBook
On this page

Was this helpful?

10. 自然語言處理

Previous9.1 台銀法拍屋資訊查詢Next10.1 歌詞頻率與歌詞雲

Last updated 5 years ago

Was this helpful?

自然語言處理(Natural Language Processing, a.k.a NLP), 是AI以及語言學的分支學科. 在這個領域中, 主要是在探討如何處理/運用自然語言.

在NLP中, 有幾個研究上的難點:

  • 單詞的邊界界定: 口語上, 詞之間通常都是連貫的, 而通常斷定字詞邊界的方式是取用能讓給定的context最為通順且在文法上沒有錯誤的最佳組合. 在書寫上, 中文也沒有詞與詞之間的邊界. 所以斷詞這件事在中文NLP上其實是滿困難的一件事.

  • 詞義的消歧: 很多詞不會只有一種意思, 必須選出能使句意最為通順的.

  • 句法的模糊性: 自然語言的文法有些時候是模稜兩可的, 所以必須要仰賴語義及context的資訊才能parse出比較適合的結果.

  • 有瑕疵的或不規範的輸入: 可能會遇到外國口音或地方口音, 抑或是OCR錯誤.

在接下來的範例, 中文NLP會使用這個library.

jieba