HTTrack 자주 묻는 질문 FAQ | WinHTTrack 웹사이트 복제기 자주 묻는 질문

일부 복제된 웹페이지의 레이아웃이 완전히 깨지거나 이미지가 불완전하게 표시되는 이유는 무엇입니까?

이는 일반적으로 다음과 같은 두 가지 원인으로 인해 발생합니다.

1. 자바스크립트 동적 렌더링 제한: HTTrack은 HTML 코드와 CSS 스타일 시트의 정적 링크만 분석하는 전통적인 웹 크롤러입니다. 대상 웹사이트가 SPA(단일 페이지 애플리케이션)이거나 자바스크립트(예: Ajax, Lazyload 지연 로딩)를 통해 동적으로 이미지나 레이아웃이 렌더링되는 경우 크롤러가 JS 스크립트에 숨겨진 링크를 감지하지 못할 수 있습니다.

2. 외부 도메인 이름 리소스: 많은 웹사이트는 이미지나 CSS 파일을 전용 CDN 또는 외부 타사 도메인 이름에 저장합니다. WinHTTrack은 보안상의 이유로 외부 도메인의 리소스를 기본적으로 가져오지 않으므로 이러한 이미지가 로컬에서 표시되지 않습니다.

💡 해결 방법:

Set options -> Scan Rules에서 추가로 포함할 외부 도메인 이름을 수동으로 추가할 수 있습니다. 예: +*cdn.example.com* 또는 +*.example.com/*.
지연 로딩 이미지의 경우 옵션에서 User-Agent를 일시적으로 일반적인 검색 엔진 크롤러로 가장해 볼 수 있습니다.

크롤링 속도가 너무 느리거나 도중에 대상 웹사이트에 의해 차단(Ban)되는 경우 어떻게 해야 합니까?

많은 현대 웹사이트는 방화벽이나 WAF(웹 애플리케이션 방화벽) 보호 정책을 배포합니다. 기본 동시 연결 수가 높은 상태에서 크롤링하면 서버가 귀하의 IP를 악의적인 공격으로 간주하여 차단합니다 (흔히 403 Forbidden 또는 503 Service Unavailable 오류로 나타남).

💡 해결 방법:

Set options로 이동하여 다음과 같은 속도 제한 및 구성을 수행하십시오.

Limits 패널: 최대 동시 연결 수(Max connections)를 하향 조정하십시오 (예: 2-4개로 제한).
Flow Control 패널: 각 요청 사이의 대기 시간(예: 몇 초 대기)을 설정하십시오.
Browser ID 패널: 기본 User-Agent 식별자를 일반적인 브라우저 헤더(예: Chrome 또는 Edge의 Agent 문자열)로 변경하여 크롤러로 판명될 확률을 낮추십시오.

웹사이트에서 특정 파일 형식(PDF, MP4, JPG 이미지 등)만 다운로드하려면 어떻게 해야 합니까?

WinHTTrack은 필터링 동작을 제어하기 위해 매우 강력한 스캔 규칙(Scan Rules)을 제공합니다. 이를 통해 쓸모없는 추가 페이지를 다운로드하지 않고 특정 파일 확장자의 리소스만 다운로드할 수 있습니다.

💡 작업 단계:

Set options -> Scan Rules를 클릭하십시오.

1. PDF 파일만 다운로드하려는 경우: 먼저 모든 리소스를 제외하기 위해 -*를 입력한 다음, 별도로 +*.pdf를 추가합니다. 즉:

-* +*.pdf

2. JPG 및 PNG 이미지 만 다운로드하려는 경우:

-* +*.jpg +*.png

참고: 각 규칙은 공백으로 구분해야 합니다.

웹사이트 콘텐츠가 업데이트되었습니다. 다시 완전히 다운로드해야 합니까?

필요하지 않습니다. HTTrack에는 점진적 업데이트(Incremental Update) 메커니즘이 내장되어 있어 미러 도구로서 매우 효율적입니다.

💡 작업 단계:

1. WinHTTrack을 시작하고 마법사의 첫 번째 단계에서 이전에 설정한 것과 동일한 프로젝트 이름을 선택합니다 (시스템이 기록 구성을 자동으로 로드함).
2. 두 번째 단계의 Action 드롭다운 메뉴에서 동작을 기본 Download website(s)에서 Update existing mirror (기존 미러 업데이트)로 변경합니다.
3. 다음을 클릭하고 완료합니다. 프로그램은 캐시를 기반으로 웹사이트 파일을 검사하고 서버에서 업데이트되거나 로컬에 누락된 파일만 다운로드합니다.

일부 복제된 페이지의 링크를 클릭하면 인터넷의 실제 URL로 바로 이동하는 이유는 무엇입니까?

이는 링크가 가리키는 웹 페이지가 귀하의 캡처 범위를 벗어났음을 나타냅니다.

링크가 다른 도메인에 속해 있고 옵션에 교차 도메인 수집을 허용하는 구성이 없는 경우.
링크 깊이(클릭된 레이어 수)가 Limits -> Max depth에서 설정한 최대 제한 값을 초과한 경우.

이 경우 WinHTTrack의 스마트 재구성 엔진은 원본 절대 네트워크 주소를 유지하여 네트워크 연결 시 복제된 사이트의 하이퍼링크가 계속 작동할 수 있도록 합니다.

자주 묻는 질문 (FAQ)