HTTrack सामान्य प्रश्नोत्तर FAQ | WinHTTrack वेबसाइट कॉपियर सामान्य प्रश्नोत्तर

कुछ वेब पेजों को क्लोन करने के बाद लेआउट पूरी तरह से अव्यवस्थित क्यों हो जाता है, या चित्र अपूर्ण रूप से प्रदर्शित होते हैं?

यह आमतौर पर निम्नलिखित दो कारणों से होता है:

1. जावास्क्रिप्ट डायनेमिक रेंडरिंग सीमाएं: HTTrack एक पारंपरिक वेब क्रॉलर है जो केवल HTML कोड और CSS स्टाइल शीट में स्थिर लिंक का विश्लेषण करता है। यदि लक्षित वेबसाइट एक एसपीए (एकल पृष्ठ अनुप्रयोग) है, या इसकी छवियां और लेआउट जावास्क्रिप्ट (जैसे अजाक्स, लेज़ीलोड) के माध्यम से गतिशील रूप से प्रस्तुत किए जाते हैं, तो क्रॉलर जेएस स्क्रिप्ट में छिपे इन लिंक को पहचानने में असमर्थ हो सकता है।

2. बाहरी डोमेन नाम संसाधन: कई वेबसाइटें अपनी छवियों और सीएसएस फाइलों को समर्पित सीडीएन (सामग्री वितरण नेटवर्क) या बाहरी तीसरे पक्ष के डोमेन नामों पर संग्रहीत करती हैं। WinHTTrack सुरक्षा कारणों से डिफ़ॉल्ट रूप से बाहरी डोमेन के किसी भी संसाधन को कैप्चर नहीं करता है, जिससे ये चित्र स्थानीय रूप से प्रदर्शित नहीं हो पाते हैं।

💡 समाधान:

Set options -> Scan Rules में, आप उन बाहरी डोमेन नामों को मैन्युअल रूप से जोड़ सकते हैं जिन्हें शामिल किया जाना है। उदाहरण के लिए: +*cdn.example.com* या +*.example.com/*।
यदि यह लेज़ी-लोड इमेज है, तो आप विकल्पों में उपयोगकर्ता-एजेंट (User-Agent) को अस्थायी रूप से अन्य सामान्य खोज इंजन मकड़ियों के रूप में प्रच्छन्न करने का प्रयास कर सकते हैं।

यदि क्रॉलिंग गति बहुत धीमी है, या लक्षित वेबसाइट द्वारा बीच में "प्रतिबंधित (Ban)" होने की स्थिति उत्पन्न होती है, तो क्या करें?

कई आधुनिक वेबसाइटें फ़ायरवॉल या डब्लूएएफ (वेब एप्लीकेशन फ़ायरवॉल) सुरक्षा नीतियों को तैनात करती हैं। यदि आप क्रॉल करने के लिए डिफ़ॉल्ट उच्च समवर्ती कनेक्शन का उपयोग करते हैं, तो सर्वर आपके आईपी को दुर्भावनापूर्ण हमले के रूप में निर्धारित करेगा और इसे ब्लॉक कर देगा (अक्सर 403 वर्जित या 503 सेवा अनुपलब्ध त्रुटियों के रूप में प्रकट होता है)।

💡 समाधान:

निम्न गति सीमा और कॉन्फ़िगरेशन करने के लिए Set options पर जाएं:

Limits पैनल: अधिकतम समवर्ती कनेक्शन (Max connections) की संख्या कम करें (जैसे इसे 2-4 तक सीमित करें)।
Flow Control पैनल: प्रत्येक अनुरोध के बीच प्रतीक्षा अंतराल समय (जैसे कुछ सेकंड प्रतीक्षा करें) सेट करें।
Browser ID पैनल: डिफ़ॉल्ट उपयोगकर्ता-एजेंट को सामान्य ब्राउज़र हेडर (जैसे क्रोम या एज की एजेंट स्ट्रिंग) में बदलें ताकि क्रॉलर के रूप में आंके जाने की संभावना कम हो सके।

मैं केवल वेबसाइट से विशिष्ट प्रकार की फाइलें (जैसे पीडीएफ, एमपी4 या जेपीजी चित्र) डाउनलोड करना चाहता हूं, इसे कैसे सेट करें?

WinHTTrack फ़िल्टरिंग व्यवहार को नियंत्रित करने के लिए अत्यंत शक्तिशाली स्कैन नियम (Scan Rules) प्रदान करता है। यह आपको बेकार अतिरिक्त पृष्ठों को डाउनलोड किए बिना विशिष्ट एक्सटेंशन के संसाधनों को डाउनलोड करने की अनुमति देता है।

💡 संचालन चरण:

Set options -> Scan Rules पर क्लिक करें:

1. यदि आप केवल पीडीएफ फाइलें डाउनलोड करना चाहते हैं: सभी संसाधनों को बाहर करने के लिए पहले -* दर्ज करें, और फिर अलग से +*.pdf जोड़ें, अर्थात:

-* +*.pdf

2. यदि आप केवल जेपीजी और पीएनजी चित्र डाउनलोड करना चाहते हैं:

-* +*.jpg +*.png

नोट: नियमों को अलग करने के लिए रिक्त स्थान का उपयोग किया जाना चाहिए।

वेबसाइट की सामग्री अपडेट हो गई है, क्या मुझे इसे फिर से पूरी तरह से डाउनलोड करने की आवश्यकता है?

नहीं। HTTrack में एक अंतर्निहित वृद्धिशील अपडेट (Incremental Update) तंत्र है, जो एक दर्पण उपकरण के रूप में इसकी ताकत भी है।

💡 संचालन चरण:

1. WinHTTrack शुरू करें, विज़ार्ड के पहले चरण में वही प्रोजेक्ट नाम चुनें जिसे आपने पहले सेट किया था (सिस्टम स्वचालित रूप से इतिहास कॉन्फ़िगरेशन लोड करेगा)।
2. दूसरे चरण में Action ड्रॉप-डाउन मेनू में, क्रिया को डिफ़ॉल्ट Download website(s) से बदलकर Update existing mirror (मौजूदा मिरर अपडेट करें) करें।
3. आगे पर क्लिक करें और पूरा करें। प्रोग्राम कैश के आधार पर वेबसाइट फ़ाइलों की जांच करेगा, और केवल उन फ़ाइलों को डाउनलोड करेगा जो सर्वर पर अपडेट की गई हैं या स्थानीय रूप से गायब हैं।

कुछ क्लोन किए गए पृष्ठों के लिंक पर क्लिक करने पर वे सीधे इंटरनेट पर वास्तविक URL पर क्यों चले जाते हैं?

यह इंगित करता है कि लिंक द्वारा इंगित वेब पेज आपकी क्रॉल सीमा से बाहर है:

लिंक दूसरे डोमेन नाम से संबंधित है, और आपके विकल्पों में क्रॉस-डोमेन कैप्चर की अनुमति देने के लिए कोई कॉन्फ़िगरेशन नहीं है।
लिंक की गहराई (क्लिक की गई परतों की संख्या) Limits -> Max depth में आपके द्वारा सेट की गई अधिकतम सीमा से अधिक है।

इस मामले में, WinHTTrack का स्मार्ट पुनर्निर्माण इंजन मूल पूर्ण नेटवर्क पते को बनाए रखता है, यह सुनिश्चित करते हुए कि नेटवर्क कनेक्ट होने पर क्लोन की गई साइट के हाइपरलिंक अभी भी उपयोगी हैं।

सामान्य प्रश्न (FAQ)