Preguntas Frecuentes de HTTrack | Solución de problemas del copiador de sitios web y rastreador

¿Por qué el diseño de la página web clonada se ve completamente desordenado o faltan imágenes?

Esto suele deberse a dos razones principales:

1. Limitación de renderizado dinámico de JavaScript: HTTrack es un rastreador web tradicional. Solo analiza enlaces estáticos en códigos HTML y hojas de estilo CSS. Si el sitio de destino es una SPA (aplicación de una sola página), o si sus imágenes y diseños se cargan dinámicamente mediante JS (como scripts de Ajax o Lazyload), es posible que el rastreador no identifique estos enlaces ocultos en los scripts JS.

2. Recursos de dominio externo: Muchos sitios web almacenan sus imágenes y archivos CSS en CDN dedicados o dominios externos de terceros. De forma predeterminada, por razones de seguridad, WinHTTrack no descarga recursos de otros dominios externos, lo que provoca que estas imágenes no se muestren localmente.

💡 Soluciones:

En Set options -> Scan Rules, puede agregar manualmente las reglas necesarias para incluir dominios externos adicionales. Por ejemplo: +*cdn.example.com* o +*.example.com/*.
Para imágenes con carga diferida (lazy load), intente cambiar la cadena de User-Agent en las opciones para imitar rastreadores de motores de búsqueda populares.

La velocidad de descarga es muy lenta o mi IP es bloqueada temporalmente por el sitio web. ¿Qué puedo hacer?

Muchos sitios web modernos implementan firewalls WAF o políticas de seguridad anti-scraping. Si utiliza la configuración predeterminada de alta concurrencia, el servidor puede marcar su IP como ataque malicioso y bloquearla (generalmente arrojando errores 403 Forbidden o 503 Service Unavailable).

💡 Soluciones:

Configure la limitación de velocidad bajo Set options:

Pestaña Limits: Reduzca el número de conexiones concurrentes máximas (Max connections) a un valor pequeño (por ejemplo, 2-4 conexiones).
Pestaña Flow Control: Establezca un tiempo de retraso entre cada solicitud (por ejemplo, esperar unos segundos).
Pestaña Browser ID: Cambie el User-Agent predeterminado a cadenas de navegadores estándar (como Chrome o Edge) para reducir las posibilidades de ser detectado como bot.

Solo quiero descargar archivos de un tipo específico (como PDF, MP4 o imágenes JPG). ¿Cómo se configura?

WinHTTrack tiene un sistema de filtros muy potente llamado Scan Rules (Reglas de escaneo). Esto le permite descargar únicamente formatos específicos y saltarse páginas HTML inútiles.

💡 Paso a paso:

Vaya a Set options -> Scan Rules:

1. Si solo desea descargar archivos PDF: primero excluya todos los archivos escribiendo -*, y luego agregue +*.pdf específicamente, así:

-* +*.pdf

2. Si solo desea descargar imágenes JPG y PNG:

-* +*.jpg +*.png

Nota: Separe múltiples reglas utilizando espacios.

El contenido del sitio web ha cambiado. ¿Tengo que descargar todo desde cero de nuevo?

No. HTTrack incluye un mecanismo de Actualización Incremental (Incremental Update) incorporado, que es una de sus características más potentes como copiador de sitios.

💡 Paso a paso:

1. Abra WinHTTrack, seleccione el mismo nombre de proyecto anterior en la primera pantalla del asistente (para cargar la configuración de historial).
2. En la segunda pantalla, cambie la acción en el menú desplegable Action de Download website(s) a Update existing mirror.
3. Haga clic en siguiente y finalice. El programa verificará la caché y descargará únicamente los archivos nuevos, faltantes o modificados.

¿Por qué algunos enlaces de mi página clonada me redirigen directamente al sitio web real en Internet?

Esto significa que la página de destino de ese enlace está fuera de los límites de descarga establecidos:

El enlace pertenece a otro dominio y no configuró opciones para permitir descargas cruzadas de dominios.
La profundidad del enlace supera el límite establecido en Limits -> Max depth.

En este caso, el motor inteligente de HTTrack conserva la dirección web absoluta original en lugar de generar un archivo local vacío roto, garantizando que los enlaces sigan funcionando cuando haya conexión a Internet.

Preguntas Frecuentes (FAQ)