HTTrack FAQ | Fehlerbehebung bei Problemen mit Website-Kopierer & Webcrawler

Warum ist das Layout der geklonten Website komplett fehlerhaft oder es fehlen Bilder?

Dies hat in der Regel zwei Hauptursachen:

1. Einschränkung durch dynamisches JavaScript-Rendering: HTTrack ist ein traditioneller Webcrawler. Er analysiert statische Links in HTML-Codes und CSS-Stylesheets. Wenn es sich bei der Ziel-Website um eine SPA (Single Page Application) handelt oder deren Bilder und Layouts dynamisch per JS geladen werden (wie Ajax oder Lazyload), kann der Crawler diese Links nicht identifizieren.

2. Externe Domain-Ressourcen: Viele Websites hosten Bilder und CSS-Dateien auf CDNs oder externen Drittanbieter-Domains. Standardmäßig lädt WinHTTrack aus Sicherheitsgründen keine Ressourcen von externen Domains herunter, sodass diese Bilder offline fehlen.

💡 Lösungen:

Unter Set options -> Scan Rules können Sie Filterregeln manuell hinzufügen. Z. B.: +*cdn.example.com* oder +*.example.com/*.
Ändern Sie bei Seiten mit Lazyload-Bildern den User-Agent in den Optionen, um bekannte Suchmaschinen-Bots zu simulieren.

Die Download-Geschwindigkeit ist sehr langsam oder meine IP wird gesperrt. Was kann ich tun?

Viele moderne Websites verwenden Firewalls (WAF) oder Sicherheitsrichtlinien gegen automatisiertes Scraping. Wenn Sie mit den standardmäßigen hohen gleichzeitigen Verbindungen spiegeln, blockiert der Server Ihre IP (was zu Fehlern wie 403 Forbidden oder 503 Service Unavailable führt).

💡 Lösungen:

Konfigurieren Sie Geschwindigkeitsbegrenzungen unter Set options:

Reiter Limits: Reduzieren Sie die maximale Anzahl gleichzeitiger Verbindungen (Max connections) auf einen kleinen Wert (z. B. 2-4 Verbindungen).
Reiter Flow Control: Richten Sie eine Verzögerung zwischen den Anfragen ein (z. B. einige Sekunden warten).
Reiter Browser ID: Ändern Sie den Standard-User-Agent in einen Standard-Browser (wie Chrome oder Edge), um die Erkennung als Bot zu erschweren.

Ich möchte nur bestimmte Dateitypen herunterladen (z. B. PDF, MP4 oder JPG). Wie geht das?

WinHTTrack verfügt über ein leistungsstarkes Filtersystem namens Scan Rules (Scanregeln). Dies ermöglicht es, nur bestimmte Formate herunterzuladen und unnötige HTML-Seiten zu überspringen.

💡 Schritt-für-Schritt-Anleitung:

Gehen Sie zu Set options -> Scan Rules:

1. Wenn Sie nur PDF-Dateien herunterladen möchten: Schließen Sie zuerst alle Dateien aus, indem Sie -* eingeben, und fügen Sie dann +*.pdf hinzu:

-* +*.pdf

2. Wenn Sie nur JPG- und PNG-Bilder herunterladen möchten:

-* +*.jpg +*.png

Hinweis: Trennen Sie mehrere Regeln durch ein einfaches Leerzeichen.

Der Inhalt der Website hat sich geändert. Muss ich alles wieder von vorne herunterladen?

Nein. HTTrack bietet eine integrierte Funktion für Inkrementelle Updates (Incremental Update), die eine sehr zeitsparende Website-Spiegelung ermöglicht.

💡 Schritt-für-Schritt-Anleitung:

1. Öffnen Sie WinHTTrack und wählen Sie auf der ersten Seite des Assistenten denselben Projektnamen wie zuvor aus (um den Verlauf zu laden).
2. Ändern Sie auf der zweiten Seite die Kopiermethode im Feld Action von Download website(s) in Update existing mirror.
3. Klicken Sie auf Weiter und Fertig stellen. Das Programm vergleicht den lokalen Cache und lädt nur neue, geänderte oder fehlende Ressourcen herunter.

Warum leiten mich einige Links auf meiner geklonten Seite direkt zur echten Website weiter?

Dies bedeutet, dass die Zielseite dieses Hyperlinks außerhalb der definierten Download-Grenzen liegt:

Der Link gehört zu einer externen Domain und Sie haben domänenübergreifende Downloads in den Optionen nicht erlaubt.
Die Tiefe des Links überschreitet das unter Limits -> Max depth konfigurierte Limit.

In diesem Fall behält HTTrack die ursprüngliche absolute Webadresse bei, anstatt eine defekte lokale Datei zu erzeugen, sodass die Links funktionieren, wenn Sie online sind.

Häufig gestellte Fragen (FAQ)