為您整理了使用 WinHTTrack 複製克隆網站過程中最常見的一些障礙與解決方案。
這通常是由以下兩個原因引起的:
1. JavaScript 動態渲染限制:HTTrack 是一個傳統的網路爬蟲,它 html 程式碼和 CSS 樣式表中的靜態連結。如果目標網站是一個 SPA 單頁應用,或者其圖片、版面是通過 JavaScript (例如 Ajax、Lazyload 懶載入) 動態渲染出來的,爬蟲可能無法識別出這些隱藏在 JS 腳本中的連結。
2. 外部網域名稱資源:很多網站的圖片和 CSS 檔案存放在專門的 CDN(內容分發網路)或外部三方網域上。WinHTTrack 預設為了安全,不會抓取任何屬於外部其他網域的資源,導致這些圖片在本地無法顯示。
💡 解決方法:
+*cdn.example.com* 或者是 +*.example.com/*。許多現代網站部署了防火牆或 WAF 安全防護策略。如果您使用預設的高並發連接去爬取,伺服器會將您的 IP 判定為惡意攻擊並進行封鎖(常表現為 403 Forbidden 或 503 Service Unavailable 錯誤)。
💡 解決方法:
進入 Set options 進行如下限速與配置:
WinHTTrack 提供了極其強大的掃描規則(Scan Rules)來控制過濾行為。這能讓您只下載特定擴充名的資源,而不下載無用的多餘頁面。
💡 操作步驟:
點擊 Set options -> Scan Rules:
1. 如果只想下載 PDF 檔案:首先輸入 -* 排除一切資源,然後再單獨添加 +*.pdf,即:
-* +*.pdf
2. 如果只想下載 JPG 和 PNG 圖片:
-* +*.jpg +*.png
注意:各規則之間需要使用空白分隔。
不需要。HTTrack 內置了增量更新(Incremental Update)機制,這也是它做為鏡像工具的強大之處。
💡 操作步驟:
1. 啟動 WinHTTrack,在精靈第一步選擇與您之前設置相同項目名稱(系統會自動載入歷史配置)。
2. 在第二步的 Action 下拉選單中,將動作由預設的 Download website(s) 改為 Update existing mirror(更新已有鏡像)。
3. 點擊下一步並完成。程式將根據快取檢查網站檔案,僅下載伺服器端有更新變化或本地缺失的檔案。
這說明該連結指向的網頁超出了您的抓取邊界:
在這種情況下,WinHTTrack 的智能重構引擎會保留其原本的絕對網路地址,而不是連結到本地的空檔案,確保克隆站點的超連結在網路連通時仍然是有用的。