سوالات متداول HTTrack | حل مشکلات کپی‌کننده وب‌سایت و خزنده‌ وب

چرا طرح صفحه وب کپی‌شده کاملاً به‌هم‌ریخته است یا برخی تصاویر نمایش داده نمی‌شوند؟

این موضوع معمولاً به دو دلیل زیر رخ می‌دهد:

1. محدودیت رندرینگ داینامیک جاوا اسکریپت: HTTrack یک خزنده‌ سنتی است. این ابزار فقط لینک‌های استاتیک موجود در کدهای HTML و فایل‌های شیوه نامه CSS را بررسی می‌کند. اگر سایت هدف یک وب‌اپلیکیشن تک‌صفحه‌ای (SPA) باشد، یا تصاویر و لایوت‌های آن به صورت داینامیک توسط JS (مانند اسکریپت‌های Ajax یا Lazyload) بارگذاری شوند، خزنده ممکن است این لینک‌های مخفی در اسکریپت‌ها را پیدا نکند.

2. منابع هاست و دامنه خارجی: بسیاری از سایت‌ها تصاویر و فایل‌های CSS خود را بر روی شبکه‌های CDN مجزا یا دامنه‌های خارجی میزبانی می‌کنند. به طور پیش‌فرض و به دلایل امنیتی، WinHTTrack فایل‌های سایر سرورهای خارجی را دانلود نمی‌کند که باعث می‌شود این تصاویر در سیستم شما لود نشوند.

💡 راهکارها:

در مسیر Set options -> Scan Rules، می‌توانید دامنه‌های خارجی را به صورت دستی اضافه کنید. به عنوان مثال: +*cdn.example.com* یا +*.example.com/*.
برای تصاویری که به صورت تنبل (lazy-load) لود می‌شوند، User-Agent را در گزینه‌ها به ربات‌های جستجوگر معروف تغییر دهید.

سرعت دانلود بسیار پایین است یا IP من موقتاً مسدود می‌شود. چه کاری باید انجام دهم؟

بسیاری از سایت‌های مدرن از دیوارهای آتش WAF یا سیاست‌های امنیتی ضد ربات استفاده می‌کنند. اگر با تنظیمات پیش‌فرض تعداد اتصالات همزمان بالا اقدام به دانلود کنید، سرور آی‌پی شما را به عنوان مخرب شناسایی و مسدود می‌کند (که معمولاً خطای 403 Forbidden یا 503 Service Unavailable می‌دهد).

💡 راهکارها:

محدودیت سرعت را در بخش Set options پیکربندی کنید:

بخش Limits: تعداد اتصالات همزمان (Max connections) را به تعداد کمی کاهش دهید (مثلاً ۲ تا ۴ اتصال).
بخش Flow Control: زمان تاخیری بین درخواست‌ها تعیین کنید (مثلاً انتظار برای چند ثانیه).
بخش Browser ID: شناسه User-Agent پیش‌فرض را به مرورگرهای متداول (مانند کروم یا اج) تغییر دهید تا احتمال شناسایی به عنوان ربات کمتر شود.

من فقط می‌خواهم فایل‌هایی با فرمت خاص (مانند PDF، MP4 یا تصاویر JPG) را دانلود کنم. چه تنظیمی نیاز است؟

WinHTTrack دارای سیستمی به نام Scan Rules (قوانین اسکن) برای فیلتر کردن فرآیند است. این قابلیت به شما اجازه می‌دهد تا فقط فرمت‌های مدنظر را دانلود کرده و از صفحات HTML غیرضروری عبور کنید.

💡 مراحل گام‌به‌گام:

به بخش Set options -> Scan Rules بروید:

1. اگر فقط می‌خواهید فایل‌های PDF را دانلود کنید: ابتدا همه فایل‌ها را با نوشتن -* حذف کنید و سپس +*.pdf را به طور مشخص اضافه نمایید:

-* +*.pdf

2. اگر فقط می‌خواهید تصاویر JPG و PNG را دانلود کنید:

-* +*.jpg +*.png

توجه: قوانین متعدد را با استفاده از فاصله (Space) از یکدیگر جدا کنید.

محتوای سایت به‌روز شده است. آیا باید دوباره همه‌چیز را از ابتدا دانلود کنم؟

خیر. HTTrack از قابلیت به‌روزرسانی افزایشی (Incremental Update) پشتیبانی می‌کند که یک ویژگی فوق‌العاده برای کپی کردن وب‌سایت‌ها است.

💡 مراحل گام‌به‌گام:

1. WinHTTrack را باز کنید و از نام پروژه قبلی خود در صفحه اول برنامه استفاده کنید تا تاریخچه بارگذاری شود.
2. در صفحه دوم، فیلد Action را از حالت پیش‌فرض Download website(s) به گزینه Update existing mirror تغییر دهید.
3. بر روی دکمه بعد کلیک کرده و مراحل را تمام کنید. برنامه حافظه کش محلی را بررسی کرده و فقط فایل‌های جدید، تغییر یافته یا مفقود شده را دانلود می‌کند.

چرا برخی از لینک‌ها در صفحه کپی‌شده، من را به آدرس واقعی در وب هدایت می‌کنند؟

این موضوع زمانی اتفاق می‌افتد که صفحه هدف آن پیوند خارج از محدوده دانلود تعیین شده باشد:

لینک متعلق به سرور دیگری است و شما در تنظیمات خود اجازه دانلود از دامنه‌های مختلف را نداده‌اید.
عمق کلیک لینک از حد تعیین شده در مسیر Limits -> Max depth بیشتر است.

در این حالت، موتور هوشمند HTTrack آدرس مطلق اصلی در وب را به جای ایجاد فایل خالی خراب محلی حفظ می‌کند تا در صورت اتصال به اینترنت، لینک همچنان کار کند.

سوالات متداول (FAQ)