हमने WinHTTrack का उपयोग करके वेबसाइटों की नकल करने और क्लोनिंग करने की प्रक्रिया में आने वाली कुछ सबसे आम बाधाओं और समाधानों को संकलित किया है।
यह आमतौर पर निम्नलिखित दो कारणों से होता है:
1. जावास्क्रिप्ट डायनेमिक रेंडरिंग सीमाएं: HTTrack एक पारंपरिक वेब क्रॉलर है जो केवल HTML कोड और CSS स्टाइल शीट में स्थिर लिंक का विश्लेषण करता है। यदि लक्षित वेबसाइट एक एसपीए (एकल पृष्ठ अनुप्रयोग) है, या इसकी छवियां और लेआउट जावास्क्रिप्ट (जैसे अजाक्स, लेज़ीलोड) के माध्यम से गतिशील रूप से प्रस्तुत किए जाते हैं, तो क्रॉलर जेएस स्क्रिप्ट में छिपे इन लिंक को पहचानने में असमर्थ हो सकता है।
2. बाहरी डोमेन नाम संसाधन: कई वेबसाइटें अपनी छवियों और सीएसएस फाइलों को समर्पित सीडीएन (सामग्री वितरण नेटवर्क) या बाहरी तीसरे पक्ष के डोमेन नामों पर संग्रहीत करती हैं। WinHTTrack सुरक्षा कारणों से डिफ़ॉल्ट रूप से बाहरी डोमेन के किसी भी संसाधन को कैप्चर नहीं करता है, जिससे ये चित्र स्थानीय रूप से प्रदर्शित नहीं हो पाते हैं।
💡 समाधान:
+*cdn.example.com* या +*.example.com/*।कई आधुनिक वेबसाइटें फ़ायरवॉल या डब्लूएएफ (वेब एप्लीकेशन फ़ायरवॉल) सुरक्षा नीतियों को तैनात करती हैं। यदि आप क्रॉल करने के लिए डिफ़ॉल्ट उच्च समवर्ती कनेक्शन का उपयोग करते हैं, तो सर्वर आपके आईपी को दुर्भावनापूर्ण हमले के रूप में निर्धारित करेगा और इसे ब्लॉक कर देगा (अक्सर 403 वर्जित या 503 सेवा अनुपलब्ध त्रुटियों के रूप में प्रकट होता है)।
💡 समाधान:
निम्न गति सीमा और कॉन्फ़िगरेशन करने के लिए Set options पर जाएं:
WinHTTrack फ़िल्टरिंग व्यवहार को नियंत्रित करने के लिए अत्यंत शक्तिशाली स्कैन नियम (Scan Rules) प्रदान करता है। यह आपको बेकार अतिरिक्त पृष्ठों को डाउनलोड किए बिना विशिष्ट एक्सटेंशन के संसाधनों को डाउनलोड करने की अनुमति देता है।
💡 संचालन चरण:
Set options -> Scan Rules पर क्लिक करें:
1. यदि आप केवल पीडीएफ फाइलें डाउनलोड करना चाहते हैं: सभी संसाधनों को बाहर करने के लिए पहले -* दर्ज करें, और फिर अलग से +*.pdf जोड़ें, अर्थात:
-* +*.pdf
2. यदि आप केवल जेपीजी और पीएनजी चित्र डाउनलोड करना चाहते हैं:
-* +*.jpg +*.png
नोट: नियमों को अलग करने के लिए रिक्त स्थान का उपयोग किया जाना चाहिए।
नहीं। HTTrack में एक अंतर्निहित वृद्धिशील अपडेट (Incremental Update) तंत्र है, जो एक दर्पण उपकरण के रूप में इसकी ताकत भी है।
💡 संचालन चरण:
1. WinHTTrack शुरू करें, विज़ार्ड के पहले चरण में वही प्रोजेक्ट नाम चुनें जिसे आपने पहले सेट किया था (सिस्टम स्वचालित रूप से इतिहास कॉन्फ़िगरेशन लोड करेगा)।
2. दूसरे चरण में Action ड्रॉप-डाउन मेनू में, क्रिया को डिफ़ॉल्ट Download website(s) से बदलकर Update existing mirror (मौजूदा मिरर अपडेट करें) करें।
3. आगे पर क्लिक करें और पूरा करें। प्रोग्राम कैश के आधार पर वेबसाइट फ़ाइलों की जांच करेगा, और केवल उन फ़ाइलों को डाउनलोड करेगा जो सर्वर पर अपडेट की गई हैं या स्थानीय रूप से गायब हैं।
यह इंगित करता है कि लिंक द्वारा इंगित वेब पेज आपकी क्रॉल सीमा से बाहर है:
इस मामले में, WinHTTrack का स्मार्ट पुनर्निर्माण इंजन मूल पूर्ण नेटवर्क पते को बनाए रखता है, यह सुनिश्चित करते हुए कि नेटवर्क कनेक्ट होने पर क्लोन की गई साइट के हाइपरलिंक अभी भी उपयोगी हैं।