WinHTTrackを使用してWebサイトをコピーおよびクローンする過程で発生する、最も一般的な障害と解決策をまとめました。
これは通常、以下の2つの原因によって引き起こされます:
1. JavaScriptによる動的レンダリングの制限:HTTrackは伝統的なウェブクローラーであり、HTMLコードとCSSスタイルシート内の静的リンクのみを分析します。ターゲットWebサイトがSPA(シングルページアプリケーション)である場合や、画像やレイアウトがJavaScript(Ajax、Lazyloadなど)を介して動的にレンダリングされている場合、クローラーはJSスクリプト内に隠されたこれらのリンクを認識できない場合があります。
2. 外部ドメイン名リソース:多くのWebサイトは、画像やCSSファイルを専用のCDNや外部のサードパーティドメインに配置しています。WinHTTrackは安全上の理由から、デフォルトでは外部のドメインに属するリソースを取得しないため、これらの画像がローカルで表示できなくなります。
💡 解決策:
+*cdn.example.com* または +*.example.com/*。多くの現代的なWebサイトは、ファイアウォールやWAF(Webアプリケーションファイアウォール)保護ポリシーを導入しています。デフォルトの高い並行接続数でスクレイピングを行うと、サーバーがあなたのIPを悪意のある攻撃と判定してブロックすることがあります(一般的には 403 Forbidden や 503 Service Unavailable エラーとして表示されます)。
💡 解決策:
Set options に移動して、以下の帯域制限と設定を行います:
WinHTTrackは、フィルタ動作を制御するための非常に強力なスキャンルール (Scan Rules) を提供しています。これにより、不要な余分なページをダウンロードすることなく、特定の拡張子のリソースのみをダウンロードできます。
💡 操作手順:
Set options -> Scan Rules をクリックします:
1. PDFファイルのみをダウンロードしたい場合:まず -* を入力してすべてのリソースを除外し、次に個別に +*.pdf を追加します。つまり:
-* +*.pdf
2. JPGおよびPNG画像のみをダウンロードしたい場合:
-* +*.jpg +*.png
注意:各ルールは半角スペースで区切る必要があります。
いいえ、その必要はありません。HTTrackには差分更新 (Incremental Update) 機能が組み込まれており、これがミラーリングツールとしての強力な点の一つでもあります。
💡 操作手順:
1. WinHTTrackを起動し、ウィザードの最初のステップで以前に設定したプロジェクト名と同じ名前を選択します(システムは自動的に過去の設定をロードします)。
2. 2番目のステップの Action ドロップダウンメニューで、デフォルトの Download website(s) から Update existing mirror (既存のミラーを更新) に変更します。
3. 「次へ」をクリックして完了します。プログラムはキャッシュに基づいてWebサイトファイルをチェックし、サーバー上で更新があったファイル、またはローカルに存在しないファイルのみをダウンロードします。
これは、そのリンク先がクローンの対象範囲外であることを示しています:
この場合、WinHTTrackのインテリジェント再構築エンジンは、ローカルの空ファイルにリンクするのではなく、元の絶対アドレスを保持することで、インターネット接続がある環境でハイパーリンクが引き続き有効であることを保証します。