HTTrack 常见问题 FAQ | WinHTTrack网站复制工具常见问题解答 | 网站复制失败原因及高级过滤配置详解

为什么有些网页克隆下来后排版完全乱了，或者图片显示不全？

这通常是由以下两个原因引起的：

1. JavaScript 动态渲染限制：HTTrack 是一个传统的网络爬虫，它只会分析 HTML 代码和 CSS 样式表中的静态链接。如果目标网站是一个 SPA 单页应用，或者其图片、布局是通过 JavaScript (例如 Ajax、Lazyload 懒加载) 动态渲染出来的，爬虫可能无法识别出这些隐藏在 JS 脚本中的链接。

2. 外部域名资源：很多网站的图片和 CSS 文件存放在专门的 CDN（内容分发网络）或外部三方域名上。WinHTTrack 默认为了安全，不会抓取任何属于外部其他域名的资源，导致这些图片在本地无法显示。

💡 解决方法：

在 Set options -> Scan Rules 中，可以手动添加需要额外包含的外部域名后缀。例如：+*cdn.example.com* 或者是 +*.example.com/*。
如果是懒加载图片，可以尝试在选项中临时将 User-Agent 伪装为其他常见的搜索引擎蜘蛛。

抓取速度非常缓慢，或者中途出现被目标网站“封锁 (Ban)”的情况怎么办？

许多现代网站部署了防火墙或 WAF 安全防护策略。如果您使用默认的高并发连接去爬取，服务器会将您的 IP 判定为恶意攻击并进行封锁（常表现为 403 Forbidden 或 503 Service Unavailable 错误）。

💡 解决方法：

进入 Set options 进行如下限速与配置：

Limits 面板：将最大并发连接数（Max connections）下调（例如限制在 2-4 个）。
Flow Control 面板：设置每次请求之间的延迟间隔（例如等待几秒）。
Browser ID 面板：将默认的 User-Agent 标识改为常用浏览器的标头（例如 Chrome 或 Edge 的 Agent 字符串），以减少被判为爬虫的几率。

我只想下载网站中特定类型的文件（如 PDF、MP4 或 JPG 图片），怎么设置？

WinHTTrack 提供了极其强大的扫描规则（Scan Rules）来控制过滤行为。这能让您只下载特定扩展名的资源，而不下载无用的多余页面。

💡 操作步骤：

点击 Set options -> Scan Rules：

1. 如果只想下载 PDF 文件：首先输入 -* 排除一切资源，然后再单独添加 +*.pdf，即：

-* +*.pdf

2. 如果只想下载 JPG 和 PNG 图片：

-* +*.jpg +*.png

注意：各规则之间需要使用空格分隔。

网站内容更新了，我需要重新完整地下载一次吗？

不需要。HTTrack 内置了增量更新（Incremental Update）机制，这也是它作为镜像工具的强大之处。

💡 操作步骤：

1. 启动 WinHTTrack，在向导第一步选择与您之前设置 of 相同项目名称（系统会自动加载历史配置）。
2. 在第二步的 Action 下拉菜单中，将动作由默认的 Download website(s) 改为 Update existing mirror（更新已有镜像）。
3. 点击下一步并完成。程序将根据缓存检查网站文件，仅下载服务器端有更新变化或本地缺失的文件。

为什么有些克隆页面上的链接，点击后会直接跳转到网上的真实网址？

这说明该链接指向的网页超出了您的抓取边界：

该链接属于另一个域名，而在您的选项中没有配置允许跨域抓取。
该链接的深度（点击层数）超过了您在 Limits -> Max depth 中设置的最大限制值。

在这种情况下，WinHTTrack 的智能重构引擎会保留其原本的绝对网络地址，而不是链接到本地的空文件，确保克隆站点的超链接在网络连通时仍然是有用的。

常见问题 (FAQ)