由於 Web API 的逐漸盛行,我們會遇到幾種情境:
就第一、二種而言,較佳的做法可能是先完成 Web API,再讓網頁程式呼叫,會是最能減少重工的。但第三種呢?本文就來嘗試探討一番。
以某個實際案例,分析的結果如本文封面圖,可以看出以 User 為中心,向右(外)Request 別人的網站,雖然在第一頁有 CAPTCHA 防機器人,但 Robots.txt 又沒有禁止網頁爬蟲?那我們就能放心地爬,直到最後的第三頁得到真正需要的內容;向左(內)有幾種跨平台工具,分別可以幫我們處理幾種內容的問題。接著就由上而下,分別就每一組來回摘要說明:
前文
提過的 Tidy 處理.
另一篇前文
已有介紹。
經由以上的步驟,我們可以讓別人的網站成為我們的資料庫,開發 Web API 回應本不屬於我們的內容,如果我們雙方的網站都維護的很好的話。