FAQ HTTrack | Questions fréquentes sur WinHTTrack - Problèmes d'aspiration & configurations

Pourquoi certaines pages clonées ont-elles une mise en page cassée ou des images manquantes ?

Cela est généralement dû à l'une des deux raisons suivantes :

1. Rendu dynamique JavaScript : HTTrack est un robot d'indexation traditionnel qui analyse le code HTML et les feuilles de style CSS à la recherche de liens statiques. Si le site cible est une application monopage (SPA) ou charge ses images de manière dynamique via JS (Lazyload), HTTrack risque de ne pas détecter ces fichiers.

2. Ressources hébergées sur des domaines externes : De nombreux sites stockent leurs images et feuilles de style sur des serveurs CDN externes ou des sous-domaines tiers. Par défaut, WinHTTrack ne télécharge pas les fichiers hors du domaine d'origine pour des raisons de sécurité.

💡 Solution :

Dans Set options -> Scan Rules, vous pouvez ajouter manuellement des règles pour inclure des domaines tiers, comme par exemple : +*cdn.example.com* ou +*.example.com/*.
Pour le Lazyloading, essayez de modifier la chaîne de l'agent utilisateur (User-Agent) dans les options pour simuler un robot de moteur de recherche.

Que faire si le téléchargement est trop lent ou si mon adresse IP est bannie par le site cible ?

De nombreux serveurs web modernes intègrent des pare-feu applicatifs (WAF). Si vous tentez de cloner un site avec un grand nombre de connexions simultanées, votre adresse IP sera détectée comme suspecte et bloquée (généralement avec des erreurs 403 Forbidden ou 503 Service Unavailable).

💡 Solution :

Ouvrez Set options pour limiter le débit :

Onglet Limits : Réduisez le nombre maximal de connexions simultanées (Max connections) à 2 ou 4.
Onglet Flow Control : Définissez un délai d'attente (en secondes) entre chaque requête.
Onglet Browser ID : Modifiez l'identifiant User-Agent pour simuler un navigateur standard (par exemple Google Chrome ou Microsoft Edge) afin de passer inaperçu.

Comment télécharger uniquement un type de fichier spécifique (ex. PDF, MP4 ou images JPG) ?

WinHTTrack intègre un moteur de filtres très puissant appelé Scan Rules (Règles de scan). Cela vous permet d'ignorer tout le contenu du site sauf les types de fichiers ciblés.

💡 Solution :

Accédez à Set options -> Scan Rules :

1. Pour obtenir uniquement des documents PDF : Indiquez -* pour exclure toutes les ressources, puis +*.pdf pour réactiver les PDF. Soit :

-* +*.pdf

2. Pour télécharger uniquement des images JPG et PNG :

-* +*.jpg +*.png

Note : Séparez chaque règle par un espace.

Le site web d'origine a été mis à jour, dois-je relancer un téléchargement complet ?

Non, ce n'est pas nécessaire. HTTrack intègre une fonction de Mise à jour incrémentielle (Incremental Update) très efficace.

💡 Solution :

1. Ouvrez WinHTTrack et sélectionnez le même nom de projet que lors de votre premier téléchargement (l'outil chargera vos anciens réglages).
2. À l'étape suivante, remplacez l'action par défaut Download website(s) par Update existing mirror (Mettre à jour le miroir existant).
3. Lancez le processus. Le logiciel comparera les fichiers existants avec ceux du serveur et ne téléchargera que les nouveautés ou les fichiers modifiés.

Pourquoi certains liens de mon site cloné me redirigent-ils vers le vrai site web en ligne ?

Cela signifie que la page visée par le lien est en dehors des limites de votre configuration de clonage :

Le lien pointe vers un autre domaine qui n'a pas été autorisé dans vos paramètres de scan.
La profondeur de lien (nombre de clics requis) dépasse la limite définie dans l'onglet Limits -> Max depth.

Dans ces situations, HTTrack conserve l'URL absolue d'origine pour éviter de casser la navigation, vous permettant d'accéder au contenu en ligne si vous disposez d'une connexion internet.

Foire aux questions (FAQ)