در این بخش، مشکلات و پاسخهای رایج در روند کپی و شبیهسازی وبسایتها با WinHTTrack را برای شما گردآوری کردهایم.
این موضوع معمولاً به دو دلیل زیر رخ میدهد:
1. محدودیت رندرینگ داینامیک جاوا اسکریپت: HTTrack یک خزنده سنتی است. این ابزار فقط لینکهای استاتیک موجود در کدهای HTML و فایلهای شیوه نامه CSS را بررسی میکند. اگر سایت هدف یک وباپلیکیشن تکصفحهای (SPA) باشد، یا تصاویر و لایوتهای آن به صورت داینامیک توسط JS (مانند اسکریپتهای Ajax یا Lazyload) بارگذاری شوند، خزنده ممکن است این لینکهای مخفی در اسکریپتها را پیدا نکند.
2. منابع هاست و دامنه خارجی: بسیاری از سایتها تصاویر و فایلهای CSS خود را بر روی شبکههای CDN مجزا یا دامنههای خارجی میزبانی میکنند. به طور پیشفرض و به دلایل امنیتی، WinHTTrack فایلهای سایر سرورهای خارجی را دانلود نمیکند که باعث میشود این تصاویر در سیستم شما لود نشوند.
💡 راهکارها:
+*cdn.example.com* یا +*.example.com/*.بسیاری از سایتهای مدرن از دیوارهای آتش WAF یا سیاستهای امنیتی ضد ربات استفاده میکنند. اگر با تنظیمات پیشفرض تعداد اتصالات همزمان بالا اقدام به دانلود کنید، سرور آیپی شما را به عنوان مخرب شناسایی و مسدود میکند (که معمولاً خطای 403 Forbidden یا 503 Service Unavailable میدهد).
💡 راهکارها:
محدودیت سرعت را در بخش Set options پیکربندی کنید:
WinHTTrack دارای سیستمی به نام Scan Rules (قوانین اسکن) برای فیلتر کردن فرآیند است. این قابلیت به شما اجازه میدهد تا فقط فرمتهای مدنظر را دانلود کرده و از صفحات HTML غیرضروری عبور کنید.
💡 مراحل گامبهگام:
به بخش Set options -> Scan Rules بروید:
1. اگر فقط میخواهید فایلهای PDF را دانلود کنید: ابتدا همه فایلها را با نوشتن -* حذف کنید و سپس +*.pdf را به طور مشخص اضافه نمایید:
-* +*.pdf
2. اگر فقط میخواهید تصاویر JPG و PNG را دانلود کنید:
-* +*.jpg +*.png
توجه: قوانین متعدد را با استفاده از فاصله (Space) از یکدیگر جدا کنید.
خیر. HTTrack از قابلیت بهروزرسانی افزایشی (Incremental Update) پشتیبانی میکند که یک ویژگی فوقالعاده برای کپی کردن وبسایتها است.
💡 مراحل گامبهگام:
1. WinHTTrack را باز کنید و از نام پروژه قبلی خود در صفحه اول برنامه استفاده کنید تا تاریخچه بارگذاری شود.
2. در صفحه دوم، فیلد Action را از حالت پیشفرض Download website(s) به گزینه Update existing mirror تغییر دهید.
3. بر روی دکمه بعد کلیک کرده و مراحل را تمام کنید. برنامه حافظه کش محلی را بررسی کرده و فقط فایلهای جدید، تغییر یافته یا مفقود شده را دانلود میکند.
این موضوع زمانی اتفاق میافتد که صفحه هدف آن پیوند خارج از محدوده دانلود تعیین شده باشد:
در این حالت، موتور هوشمند HTTrack آدرس مطلق اصلی در وب را به جای ایجاد فایل خالی خراب محلی حفظ میکند تا در صورت اتصال به اینترنت، لینک همچنان کار کند.