HTTrack 常見問題 FAQ | WinHTTrack網站複製工具常見問題解答 | 網站複製失敗原因及高級過濾配置詳解

為什麼有些網頁克隆下來後排版完全亂了，或者圖片顯示不全？

這通常是由以下兩個原因引起的：

1. JavaScript 動態渲染限制：HTTrack 是一個傳統的網路爬蟲，它 html 程式碼和 CSS 樣式表中的靜態連結。如果目標網站是一個 SPA 單頁應用，或者其圖片、版面是通過 JavaScript (例如 Ajax、Lazyload 懶載入) 動態渲染出來的，爬蟲可能無法識別出這些隱藏在 JS 腳本中的連結。

2. 外部網域名稱資源：很多網站的圖片和 CSS 檔案存放在專門的 CDN（內容分發網路）或外部三方網域上。WinHTTrack 預設為了安全，不會抓取任何屬於外部其他網域的資源，導致這些圖片在本地無法顯示。

💡 解決方法：

在 Set options -> Scan Rules 中，可以手動添加需要額外包含的外部網域後綴。例如：+*cdn.example.com* 或者是 +*.example.com/*。
如果是懶載入圖片，可以嘗試在選項中臨時將 User-Agent 偽裝為其他常見的搜尋引擎蜘蛛。

抓取速度非常緩慢，或者中途出現被目標網站“封鎖 (Ban)”的情況怎麼辦？

許多現代網站部署了防火牆或 WAF 安全防護策略。如果您使用預設的高並發連接去爬取，伺服器會將您的 IP 判定為惡意攻擊並進行封鎖（常表現為 403 Forbidden 或 503 Service Unavailable 錯誤）。

💡 解決方法：

進入 Set options 進行如下限速與配置：

Limits 面板：將最大並發連接數（Max connections）下調（例如限制在 2-4 個）。
Flow Control 面板：設置每次請求之間的延遲間隔（例如等待幾秒）。
Browser ID 面板：將預設的 User-Agent 標識改為常用瀏覽器的標頭（例如 Chrome 或 Edge 的 Agent 字串），以減少被判為爬蟲的機率。

我只想下載網站中特定類型的檔案（如 PDF、MP4 或 JPG 圖片），怎麼設置？

WinHTTrack 提供了極其強大的掃描規則（Scan Rules）來控制過濾行為。這能讓您只下載特定擴充名的資源，而不下載無用的多餘頁面。

💡 操作步驟：

點擊 Set options -> Scan Rules：

1. 如果只想下載 PDF 檔案：首先輸入 -* 排除一切資源，然後再單獨添加 +*.pdf，即：

-* +*.pdf

2. 如果只想下載 JPG 和 PNG 圖片：

-* +*.jpg +*.png

注意：各規則之間需要使用空白分隔。

網站內容更新了，我需要重新完整地下載一次嗎？

不需要。HTTrack 內置了增量更新（Incremental Update）機制，這也是它做為鏡像工具的強大之處。

💡 操作步驟：

1. 啟動 WinHTTrack，在精靈第一步選擇與您之前設置相同項目名稱（系統會自動載入歷史配置）。
2. 在第二步的 Action 下拉選單中，將動作由預設的 Download website(s) 改為 Update existing mirror（更新已有鏡像）。
3. 點擊下一步並完成。程式將根據快取檢查網站檔案，僅下載伺服器端有更新變化或本地缺失的檔案。

為什麼有些克隆頁面上的連結，點擊後會直接跳转到網上的真實網址？

這說明該連結指向的網頁超出了您的抓取邊界：

該連結屬於另一個網域，而在您的選項中沒有配置允許跨域抓取。
該連結的深度（點擊層數）超過了您在 Limits -> Max depth 中設置的最大限制值。

在這種情況下，WinHTTrack 的智能重構引擎會保留其原本的絕對網路地址，而不是連結到本地的空檔案，確保克隆站點的超連結在網路連通時仍然是有用的。

常見問題 (FAQ)