HTTrack よくある質問 FAQ | WinHTTrack Webサイトコピアーエラー・解決策・フィルタ設定詳細

クローンした一部のウェブページのレイアウトが完全に崩れていたり、画像が一部表示されなかったりするのはなぜですか？

これは通常、以下の2つの原因によって引き起こされます：

1. JavaScriptによる動的レンダリングの制限：HTTrackは伝統的なウェブクローラーであり、HTMLコードとCSSスタイルシート内の静的リンクのみを分析します。ターゲットWebサイトがSPA（シングルページアプリケーション）である場合や、画像やレイアウトがJavaScript（Ajax、Lazyloadなど）を介して動的にレンダリングされている場合、クローラーはJSスクリプト内に隠されたこれらのリンクを認識できない場合があります。

2. 外部ドメイン名リソース：多くのWebサイトは、画像やCSSファイルを専用のCDNや外部のサードパーティドメインに配置しています。WinHTTrackは安全上の理由から、デフォルトでは外部のドメインに属するリソースを取得しないため、これらの画像がローカルで表示できなくなります。

💡 解決策：

Set options -> Scan Rules で、追加で取得したい外部ドメイン名を指定します。たとえば、+*cdn.example.com* または +*.example.com/*。
画像の遅延読み込み（Lazyload）の場合は、オプションで一時的にユーザーエージェント（User-Agent）を一般的な検索エンジンクローラーに偽装してみてください。

クローラーの速度が非常に遅い、または途中でターゲットWebサイトから「アクセス禁止 (Ban)」された場合はどうすればよいですか？

多くの現代的なWebサイトは、ファイアウォールやWAF（Webアプリケーションファイアウォール）保護ポリシーを導入しています。デフォルトの高い並行接続数でスクレイピングを行うと、サーバーがあなたのIPを悪意のある攻撃と判定してブロックすることがあります（一般的には 403 Forbidden や 503 Service Unavailable エラーとして表示されます）。

💡 解決策：

Set options に移動して、以下の帯域制限と設定を行います：

Limits パネル：最大並行接続数 (Max connections) を減らします（たとえば、2〜4に制限）。
Flow Control パネル：各リクエスト間の待機時間を設定します（たとえば、数秒間待機）。
Browser ID パネル：デフォルトのユーザーエージェント識別子を一般的なブラウザのもの（ChromeやEdgeのAgent文字列など）に変更し、クローラーと判定される確率を下げます。

Webサイトから特定のファイルタイプ（PDF、MP4、JPG画像など）のみをダウンロードしたいのですが、どのように設定しますか？

WinHTTrackは、フィルタ動作を制御するための非常に強力なスキャンルール (Scan Rules) を提供しています。これにより、不要な余分なページをダウンロードすることなく、特定の拡張子のリソースのみをダウンロードできます。

💡 操作手順：

Set options -> Scan Rules をクリックします：

1. PDFファイルのみをダウンロードしたい場合：まず -* を入力してすべてのリソースを除外し、次に個別に +*.pdf を追加します。つまり：

-* +*.pdf

2. JPGおよびPNG画像のみをダウンロードしたい場合：

-* +*.jpg +*.png

注意：各ルールは半角スペースで区切る必要があります。

Webサイトのコンテンツが更新されましたが、再度全体をダウンロードする必要がありますか？

いいえ、その必要はありません。HTTrackには差分更新 (Incremental Update) 機能が組み込まれており、これがミラーリングツールとしての強力な点の一つでもあります。

💡 操作手順：

1. WinHTTrackを起動し、ウィザードの最初のステップで以前に設定したプロジェクト名と同じ名前を選択します（システムは自動的に過去の設定をロードします）。
2. 2番目のステップの Action ドロップダウンメニューで、デフォルトの Download website(s) から Update existing mirror (既存のミラーを更新) に変更します。
3. 「次へ」をクリックして完了します。プログラムはキャッシュに基づいてWebサイトファイルをチェックし、サーバー上で更新があったファイル、またはローカルに存在しないファイルのみをダウンロードします。

クローンした一部のページにあるリンクをクリックすると、インターネット上の本物のURLに直接移動するのはなぜですか？

これは、そのリンク先がクローンの対象範囲外であることを示しています：

リンクが別のドメインに属しており、オプションでクロスドメイン取得を許可する設定が行われていない。
リンクの深度（クリック階層）が、Limits -> Max depth で設定した最大制限値を超えている。

この場合、WinHTTrackのインテリジェント再構築エンジンは、ローカルの空ファイルにリンクするのではなく、元の絶対アドレスを保持することで、インターネット接続がある環境でハイパーリンクが引き続き有効であることを保証します。

よくある質問 (FAQ)