Hemos recopilado para usted los obstáculos y soluciones más comunes al copiar y clonar sitios web con WinHTTrack.
Esto suele deberse a dos razones principales:
1. Limitación de renderizado dinámico de JavaScript: HTTrack es un rastreador web tradicional. Solo analiza enlaces estáticos en códigos HTML y hojas de estilo CSS. Si el sitio de destino es una SPA (aplicación de una sola página), o si sus imágenes y diseños se cargan dinámicamente mediante JS (como scripts de Ajax o Lazyload), es posible que el rastreador no identifique estos enlaces ocultos en los scripts JS.
2. Recursos de dominio externo: Muchos sitios web almacenan sus imágenes y archivos CSS en CDN dedicados o dominios externos de terceros. De forma predeterminada, por razones de seguridad, WinHTTrack no descarga recursos de otros dominios externos, lo que provoca que estas imágenes no se muestren localmente.
💡 Soluciones:
+*cdn.example.com* o +*.example.com/*.Muchos sitios web modernos implementan firewalls WAF o políticas de seguridad anti-scraping. Si utiliza la configuración predeterminada de alta concurrencia, el servidor puede marcar su IP como ataque malicioso y bloquearla (generalmente arrojando errores 403 Forbidden o 503 Service Unavailable).
💡 Soluciones:
Configure la limitación de velocidad bajo Set options:
WinHTTrack tiene un sistema de filtros muy potente llamado Scan Rules (Reglas de escaneo). Esto le permite descargar únicamente formatos específicos y saltarse páginas HTML inútiles.
💡 Paso a paso:
Vaya a Set options -> Scan Rules:
1. Si solo desea descargar archivos PDF: primero excluya todos los archivos escribiendo -*, y luego agregue +*.pdf específicamente, así:
-* +*.pdf
2. Si solo desea descargar imágenes JPG y PNG:
-* +*.jpg +*.png
Nota: Separe múltiples reglas utilizando espacios.
No. HTTrack incluye un mecanismo de Actualización Incremental (Incremental Update) incorporado, que es una de sus características más potentes como copiador de sitios.
💡 Paso a paso:
1. Abra WinHTTrack, seleccione el mismo nombre de proyecto anterior en la primera pantalla del asistente (para cargar la configuración de historial).
2. En la segunda pantalla, cambie la acción en el menú desplegable Action de Download website(s) a Update existing mirror.
3. Haga clic en siguiente y finalice. El programa verificará la caché y descargará únicamente los archivos nuevos, faltantes o modificados.
Esto significa que la página de destino de ese enlace está fuera de los límites de descarga establecidos:
En este caso, el motor inteligente de HTTrack conserva la dirección web absoluta original en lugar de generar un archivo local vacío roto, garantizando que los enlaces sigan funcionando cuando haya conexión a Internet.