English 中文 繁體 Español Português العربية Deutsch فارسی Français हिन्दी Bahasa Indonesia Italiano 日本語 한국어 Nederlands Русский
WinHTTrack it365 工具箱

常见问题 (FAQ)

为您整理了使用 WinHTTrack 复制克隆网站过程中最常见的一些障碍与解决方案。

为什么有些网页克隆下来后排版完全乱了,或者图片显示不全?

这通常是由以下两个原因引起的:

1. JavaScript 动态渲染限制:HTTrack 是一个传统的网络爬虫,它只会分析 HTML 代码和 CSS 样式表中的静态链接。如果目标网站是一个 SPA 单页应用,或者其图片、布局是通过 JavaScript (例如 Ajax、Lazyload 懒加载) 动态渲染出来的,爬虫可能无法识别出这些隐藏在 JS 脚本中的链接。

2. 外部域名资源:很多网站的图片和 CSS 文件存放在专门的 CDN(内容分发网络)或外部三方域名上。WinHTTrack 默认为了安全,不会抓取任何属于外部其他域名的资源,导致这些图片在本地无法显示。

💡 解决方法:

  • Set options -> Scan Rules 中,可以手动添加需要额外包含的外部域名后缀。例如:+*cdn.example.com* 或者是 +*.example.com/*
  • 如果是懒加载图片,可以尝试在选项中临时将 User-Agent 伪装为其他常见的搜索引擎蜘蛛。
抓取速度非常缓慢,或者中途出现被目标网站“封锁 (Ban)”的情况怎么办?

许多现代网站部署了防火墙或 WAF 安全防护策略。如果您使用默认的高并发连接去爬取,服务器会将您的 IP 判定为恶意攻击并进行封锁(常表现为 403 Forbidden 或 503 Service Unavailable 错误)。

💡 解决方法:

进入 Set options 进行如下限速与配置:

  • Limits 面板:将最大并发连接数(Max connections)下调(例如限制在 2-4 个)。
  • Flow Control 面板:设置每次请求之间的延迟间隔(例如等待几秒)。
  • Browser ID 面板:将默认的 User-Agent 标识改为常用浏览器的标头(例如 Chrome 或 Edge 的 Agent 字符串),以减少被判为爬虫的几率。
我只想下载网站中特定类型的文件(如 PDF、MP4 或 JPG 图片),怎么设置?

WinHTTrack 提供了极其强大的扫描规则(Scan Rules)来控制过滤行为。这能让您只下载特定扩展名的资源,而不下载无用的多余页面。

💡 操作步骤:

点击 Set options -> Scan Rules

1. 如果只想下载 PDF 文件:首先输入 -* 排除一切资源,然后再单独添加 +*.pdf,即:

-* +*.pdf

2. 如果只想下载 JPG 和 PNG 图片:

-* +*.jpg +*.png

注意:各规则之间需要使用空格分隔。

网站内容更新了,我需要重新完整地下载一次吗?

不需要。HTTrack 内置了增量更新(Incremental Update)机制,这也是它作为镜像工具的强大之处。

💡 操作步骤:

1. 启动 WinHTTrack,在向导第一步选择与您之前设置 of 相同项目名称(系统会自动加载历史配置)。
2. 在第二步的 Action 下拉菜单中,将动作由默认的 Download website(s) 改为 Update existing mirror(更新已有镜像)
3. 点击下一步并完成。程序将根据缓存检查网站文件,仅下载服务器端有更新变化或本地缺失的文件。

为什么有些克隆页面上的链接,点击后会直接跳转到网上的真实网址?

这说明该链接指向的网页超出了您的抓取边界

  • 该链接属于另一个域名,而在您的选项中没有配置允许跨域抓取。
  • 该链接的深度(点击层数)超过了您在 Limits -> Max depth 中设置的最大限制值。

在这种情况下,WinHTTrack 的智能重构引擎会保留其原本的绝对网络地址,而不是链接到本地的空文件,确保克隆站点的超链接在网络连通时仍然是有用的。