/ / जावास्क्रिप्ट स्क्रीन देरी के साथ साइट को स्क्रैप करना [बंद] - जावास्क्रिप्ट, अजगर, स्क्रीन-स्क्रैपिंग, वेब-स्क्रैपिंग, स्क्रैपर

जावास्क्रिप्ट स्क्रीन देरी के साथ स्क्रैपिंग साइटें [बंद] - जावास्क्रिप्ट, पायथन, स्क्रीन-स्क्रैपिंग, वेब-स्क्रैपिंग, स्क्रैपर

मैं उस साइट को परिमार्जन करने का प्रयास कर रहा हूं जिसमें एक विभाजन दूसरी जावास्क्रिप्ट देरी है।

मैं वर्तमान में स्क्रैपिंग के लिए अजगर का उपयोग कर रहा हूं। जब भी मुझे पृष्ठ मिलता है, तो जावास्क्रिप्ट विलंब समाप्त नहीं हुआ है और अभी तक पूरी तरह से नए डोम को लोड नहीं किया है।

मैं ऐसे पीजी को कैसे परिमार्जन करूंगा?

उत्तर:

उत्तर № 1 के लिए 1

एक विश्वसनीय तरीका यह एक के माध्यम से परिमार्जन करने के लिए है वेब ब्राउज़र या वेब ब्राउज़र नियंत्रण, ई। जी। आई-मैक्रोज़ के साथ स्क्रैपिंग कमांड्स। इसके जरिए भी काम होता है अजगर / लिनक्स.

आप विंडोज पर वेबब्रोसर नियंत्रण के माध्यम से इसे स्वयं भी कोड कर सकते हैं: http://www.codeproject.com/KB/cs/webbrowser.aspx


उत्तर № 2 के लिए 1

वेब स्क्रैपर बनाने के लिए आप मोज़िला का विस्तार कर सकते हैंजो वेब ब्राउज़र की पूरी शक्ति का लाभ उठा सकता है। सभी डेटा लोड होने और DOM के बन जाने के बाद, आप XSLT का उपयोग करके DOM से आवश्यक डेटा निकाल सकते हैं। यदि प्रारंभिक लोडिंग के बाद DOM को गतिशील रूप से बदल दिया गया था, तो आप परिवर्तनों के लिए प्रतीक्षा करने के लिए कुछ दृष्टिकोण ले सकते हैं। पर जाएँ http://www.gooseeker.com अधिक जानकारी के लिए। GooSeeker सभी के लिए मुफ़्त में एक परिचित उपकरण प्रकाशित करता है। अधिकांश कोड जावास्क्रिप्ट और पठनीय हैं, जिनसे आप पा सकते हैं कि यह कैसे चलता है।