WinHTTrack을 사용하여 웹사이트를 복사하고 복제하는 과정에서 발생하는 가장 일반적인 문제와 해결 방법을 정리했습니다.
이는 일반적으로 다음과 같은 두 가지 원인으로 인해 발생합니다.
1. 자바스크립트 동적 렌더링 제한: HTTrack은 HTML 코드와 CSS 스타일 시트의 정적 링크만 분석하는 전통적인 웹 크롤러입니다. 대상 웹사이트가 SPA(단일 페이지 애플리케이션)이거나 자바스크립트(예: Ajax, Lazyload 지연 로딩)를 통해 동적으로 이미지나 레이아웃이 렌더링되는 경우 크롤러가 JS 스크립트에 숨겨진 링크를 감지하지 못할 수 있습니다.
2. 외부 도메인 이름 리소스: 많은 웹사이트는 이미지나 CSS 파일을 전용 CDN 또는 외부 타사 도메인 이름에 저장합니다. WinHTTrack은 보안상의 이유로 외부 도메인의 리소스를 기본적으로 가져오지 않으므로 이러한 이미지가 로컬에서 표시되지 않습니다.
💡 해결 방법:
+*cdn.example.com* 또는 +*.example.com/*.많은 현대 웹사이트는 방화벽이나 WAF(웹 애플리케이션 방화벽) 보호 정책을 배포합니다. 기본 동시 연결 수가 높은 상태에서 크롤링하면 서버가 귀하의 IP를 악의적인 공격으로 간주하여 차단합니다 (흔히 403 Forbidden 또는 503 Service Unavailable 오류로 나타남).
💡 해결 방법:
Set options로 이동하여 다음과 같은 속도 제한 및 구성을 수행하십시오.
WinHTTrack은 필터링 동작을 제어하기 위해 매우 강력한 스캔 규칙(Scan Rules)을 제공합니다. 이를 통해 쓸모없는 추가 페이지를 다운로드하지 않고 특정 파일 확장자의 리소스만 다운로드할 수 있습니다.
💡 작업 단계:
Set options -> Scan Rules를 클릭하십시오.
1. PDF 파일만 다운로드하려는 경우: 먼저 모든 리소스를 제외하기 위해 -*를 입력한 다음, 별도로 +*.pdf를 추가합니다. 즉:
-* +*.pdf
2. JPG 및 PNG 이미지 만 다운로드하려는 경우:
-* +*.jpg +*.png
참고: 각 규칙은 공백으로 구분해야 합니다.
필요하지 않습니다. HTTrack에는 점진적 업데이트(Incremental Update) 메커니즘이 내장되어 있어 미러 도구로서 매우 효율적입니다.
💡 작업 단계:
1. WinHTTrack을 시작하고 마법사의 첫 번째 단계에서 이전에 설정한 것과 동일한 프로젝트 이름을 선택합니다 (시스템이 기록 구성을 자동으로 로드함).
2. 두 번째 단계의 Action 드롭다운 메뉴에서 동작을 기본 Download website(s)에서 Update existing mirror (기존 미러 업데이트)로 변경합니다.
3. 다음을 클릭하고 완료합니다. 프로그램은 캐시를 기반으로 웹사이트 파일을 검사하고 서버에서 업데이트되거나 로컬에 누락된 파일만 다운로드합니다.
이는 링크가 가리키는 웹 페이지가 귀하의 캡처 범위를 벗어났음을 나타냅니다.
이 경우 WinHTTrack의 스마트 재구성 엔진은 원본 절대 네트워크 주소를 유지하여 네트워크 연결 시 복제된 사이트의 하이퍼링크가 계속 작동할 수 있도록 합니다.