Perguntas Frequentes do HTTrack | Resolução de problemas do copiador de sites e crawler

Por que o layout do site clonado parece quebrado ou algumas imagens não carregam?

Isso geralmente ocorre devido a dois motivos principais:

1. Restrição de renderização dinâmica em JavaScript: O HTTrack é um crawler tradicional. Ele apenas analisa links estáticos nos códigos HTML e folhas de estilo CSS. Se o site alvo for uma SPA (Single Page Application), ou se suas imagens e layouts forem carregados dinamicamente via JS (como scripts Ajax ou Lazyload), o crawler não identificará esses links ocultos em scripts JS.

2. Recursos em domínios externos: Muitos sites hospedam suas imagens e arquivos CSS em CDNs externas ou servidores de terceiros. Por padrão, o WinHTTrack não baixa recursos de domínios externos para segurança, deixando de carregar essas imagens localmente.

💡 Soluções:

Em Set options -> Scan Rules, você pode incluir domínios externos manualmente. Ex: +*cdn.example.com* ou +*.example.com/*.
Para sites com imagens em lazy-load, altere o User-Agent nas opções para fingir ser um indexador de buscadores populares.

A velocidade de download está muito lenta ou meu IP é temporariamente bloqueado. O que fazer?

Muitos sites modernos usam firewalls WAF ou políticas de segurança anti-bot. Se você clonar com configurações padrão de conexões simultâneas altas, o servidor bloqueará seu IP (retornando erros 403 Forbidden ou 503 Service Unavailable).

💡 Soluções:

Configure a velocidade sob Set options:

Pestaña Limits: Diminua o número de conexões simultâneas (Max connections) para um valor pequeno (por exemplo, 2-4 conexões).
Pestaña Flow Control: Ajuste um tempo de atraso entre as requisições (por exemplo, esperar alguns segundos).
Pestaña Browser ID: Altere o User-Agent padrão para navegadores de computadores (como Chrome ou Edge) para evitar ser detectado como script automatizado.

Eu quero baixar apenas tipos específicos de arquivos (como PDF, MP4 ou JPG). Como faço?

O WinHTTrack tem um sistema chamado Scan Rules (Regras de escaneamento) para filtrar a varredura. Isso permite pular páginas HTML desnecessárias.

💡 Passo a passo:

Vá em Set options -> Scan Rules:

1. Se quiser baixar apenas arquivos PDF: exclua todos os arquivos adicionando -*, e em seguida adicione +*.pdf especificamente:

-* +*.pdf

2. Se quiser baixar apenas imagens JPG e PNG:

-* +*.jpg +*.png

Nota: Separe múltiplas regras usando espaços simples.

O conteúdo do site foi atualizado. Preciso baixar tudo do zero novamente?

Não. O HTTrack inclui suporte para Atualização Incremental (Incremental Update), que é uma função fantástica.

💡 Passo a passo:

1. Abra o WinHTTrack, use o mesmo nome do projeto anterior na primeira tela do assistente para carregar o histórico.
2. Na segunda tela, altere o campo Action de Download website(s) para Update existing mirror.
3. Clique em avançar e conclua. O programa analisará o cache local e baixará apenas recursos novos, modificados ou ausentes.

Por que alguns links no site clonado me redirecionam para a URL real na Web?

Isso ocorre quando a página de destino desse link está fora dos limites de download definidos:

O link pertence a outro servidor e não permitiu downloads entre domínios.
A profundidade de cliques ultrapassa o limite definido em Limits -> Max depth.

Nesse caso, a engine do HTTrack preserva o endereço absoluto original da web em vez de criar um atalho quebrado local vazio, garantindo que o link funcione se você estiver conectado.

Perguntas Frequentes (FAQ)