Hier haben wir die häufigsten Probleme und Lösungen für Sie zusammengestellt, die beim Kopieren und Klonen von Websites mit WinHTTrack auftreten.
Dies hat in der Regel zwei Hauptursachen:
1. Einschränkung durch dynamisches JavaScript-Rendering: HTTrack ist ein traditioneller Webcrawler. Er analysiert statische Links in HTML-Codes und CSS-Stylesheets. Wenn es sich bei der Ziel-Website um eine SPA (Single Page Application) handelt oder deren Bilder und Layouts dynamisch per JS geladen werden (wie Ajax oder Lazyload), kann der Crawler diese Links nicht identifizieren.
2. Externe Domain-Ressourcen: Viele Websites hosten Bilder und CSS-Dateien auf CDNs oder externen Drittanbieter-Domains. Standardmäßig lädt WinHTTrack aus Sicherheitsgründen keine Ressourcen von externen Domains herunter, sodass diese Bilder offline fehlen.
💡 Lösungen:
+*cdn.example.com* oder +*.example.com/*.Viele moderne Websites verwenden Firewalls (WAF) oder Sicherheitsrichtlinien gegen automatisiertes Scraping. Wenn Sie mit den standardmäßigen hohen gleichzeitigen Verbindungen spiegeln, blockiert der Server Ihre IP (was zu Fehlern wie 403 Forbidden oder 503 Service Unavailable führt).
💡 Lösungen:
Konfigurieren Sie Geschwindigkeitsbegrenzungen unter Set options:
WinHTTrack verfügt über ein leistungsstarkes Filtersystem namens Scan Rules (Scanregeln). Dies ermöglicht es, nur bestimmte Formate herunterzuladen und unnötige HTML-Seiten zu überspringen.
💡 Schritt-für-Schritt-Anleitung:
Gehen Sie zu Set options -> Scan Rules:
1. Wenn Sie nur PDF-Dateien herunterladen möchten: Schließen Sie zuerst alle Dateien aus, indem Sie -* eingeben, und fügen Sie dann +*.pdf hinzu:
-* +*.pdf
2. Wenn Sie nur JPG- und PNG-Bilder herunterladen möchten:
-* +*.jpg +*.png
Hinweis: Trennen Sie mehrere Regeln durch ein einfaches Leerzeichen.
Nein. HTTrack bietet eine integrierte Funktion für Inkrementelle Updates (Incremental Update), die eine sehr zeitsparende Website-Spiegelung ermöglicht.
💡 Schritt-für-Schritt-Anleitung:
1. Öffnen Sie WinHTTrack und wählen Sie auf der ersten Seite des Assistenten denselben Projektnamen wie zuvor aus (um den Verlauf zu laden).
2. Ändern Sie auf der zweiten Seite die Kopiermethode im Feld Action von Download website(s) in Update existing mirror.
3. Klicken Sie auf Weiter und Fertig stellen. Das Programm vergleicht den lokalen Cache und lädt nur neue, geänderte oder fehlende Ressourcen herunter.
Dies bedeutet, dass die Zielseite dieses Hyperlinks außerhalb der definierten Download-Grenzen liegt:
In diesem Fall behält HTTrack die ursprüngliche absolute Webadresse bei, anstatt eine defekte lokale Datei zu erzeugen, sodass die Links funktionieren, wenn Sie online sind.