English 中文 繁體 Español Português العربية Deutsch فارسی Français हिन्दी Bahasa Indonesia Italiano 日本語 한국어 Nederlands Русский
WinHTTrack it365 工具箱

常見問題 (FAQ)

為您整理了使用 WinHTTrack 複製克隆網站過程中最常見的一些障礙與解決方案。

為什麼有些網頁克隆下來後排版完全亂了,或者圖片顯示不全?

這通常是由以下兩個原因引起的:

1. JavaScript 動態渲染限制:HTTrack 是一個傳統的網路爬蟲,它 html 程式碼和 CSS 樣式表中的靜態連結。如果目標網站是一個 SPA 單頁應用,或者其圖片、版面是通過 JavaScript (例如 Ajax、Lazyload 懶載入) 動態渲染出來的,爬蟲可能無法識別出這些隱藏在 JS 腳本中的連結。

2. 外部網域名稱資源:很多網站的圖片和 CSS 檔案存放在專門的 CDN(內容分發網路)或外部三方網域上。WinHTTrack 預設為了安全,不會抓取任何屬於外部其他網域的資源,導致這些圖片在本地無法顯示。

💡 解決方法:

  • Set options -> Scan Rules 中,可以手動添加需要額外包含的外部網域後綴。例如:+*cdn.example.com* 或者是 +*.example.com/*
  • 如果是懶載入圖片,可以嘗試在選項中臨時將 User-Agent 偽裝為其他常見的搜尋引擎蜘蛛。
抓取速度非常緩慢,或者中途出現被目標網站“封鎖 (Ban)”的情況怎麼辦?

許多現代網站部署了防火牆或 WAF 安全防護策略。如果您使用預設的高並發連接去爬取,伺服器會將您的 IP 判定為惡意攻擊並進行封鎖(常表現為 403 Forbidden 或 503 Service Unavailable 錯誤)。

💡 解決方法:

進入 Set options 進行如下限速與配置:

  • Limits 面板:將最大並發連接數(Max connections)下調(例如限制在 2-4 個)。
  • Flow Control 面板:設置每次請求之間的延遲間隔(例如等待幾秒)。
  • Browser ID 面板:將預設的 User-Agent 標識改為常用瀏覽器的標頭(例如 Chrome 或 Edge 的 Agent 字串),以減少被判為爬蟲的機率。
我只想下載網站中特定類型的檔案(如 PDF、MP4 或 JPG 圖片),怎麼設置?

WinHTTrack 提供了極其強大的掃描規則(Scan Rules)來控制過濾行為。這能讓您只下載特定擴充名的資源,而不下載無用的多餘頁面。

💡 操作步驟:

點擊 Set options -> Scan Rules

1. 如果只想下載 PDF 檔案:首先輸入 -* 排除一切資源,然後再單獨添加 +*.pdf,即:

-* +*.pdf

2. 如果只想下載 JPG 和 PNG 圖片:

-* +*.jpg +*.png

注意:各規則之間需要使用空白分隔。

網站內容更新了,我需要重新完整地下載一次嗎?

不需要。HTTrack 內置了增量更新(Incremental Update)機制,這也是它做為鏡像工具的強大之處。

💡 操作步驟:

1. 啟動 WinHTTrack,在精靈第一步選擇與您之前設置相同項目名稱(系統會自動載入歷史配置)。
2. 在第二步的 Action 下拉選單中,將動作由預設的 Download website(s) 改為 Update existing mirror(更新已有鏡像)
3. 點擊下一步並完成。程式將根據快取檢查網站檔案,僅下載伺服器端有更新變化或本地缺失的檔案。

為什麼有些克隆頁面上的連結,點擊後會直接跳转到網上的真實網址?

這說明該連結指向的網頁超出了您的抓取邊界

  • 該連結屬於另一個網域,而在您的選項中沒有配置允許跨域抓取。
  • 該連結的深度(點擊層數)超過了您在 Limits -> Max depth 中設置的最大限制值。

在這種情況下,WinHTTrack 的智能重構引擎會保留其原本的絕對網路地址,而不是連結到本地的空檔案,確保克隆站點的超連結在網路連通時仍然是有用的。