मैं उस साइट को परिमार्जन करने का प्रयास कर रहा हूं जिसमें एक विभाजन दूसरी जावास्क्रिप्ट देरी है।
मैं वर्तमान में स्क्रैपिंग के लिए अजगर का उपयोग कर रहा हूं। जब भी मुझे पृष्ठ मिलता है, तो जावास्क्रिप्ट विलंब समाप्त नहीं हुआ है और अभी तक पूरी तरह से नए डोम को लोड नहीं किया है।
मैं ऐसे पीजी को कैसे परिमार्जन करूंगा?
उत्तर:
उत्तर № 1 के लिए 1एक विश्वसनीय तरीका यह एक के माध्यम से परिमार्जन करने के लिए है वेब ब्राउज़र या वेब ब्राउज़र नियंत्रण, ई। जी। आई-मैक्रोज़ के साथ स्क्रैपिंग कमांड्स। इसके जरिए भी काम होता है अजगर / लिनक्स.
आप विंडोज पर वेबब्रोसर नियंत्रण के माध्यम से इसे स्वयं भी कोड कर सकते हैं: http://www.codeproject.com/KB/cs/webbrowser.aspx
उत्तर № 2 के लिए 1
वेब स्क्रैपर बनाने के लिए आप मोज़िला का विस्तार कर सकते हैंजो वेब ब्राउज़र की पूरी शक्ति का लाभ उठा सकता है। सभी डेटा लोड होने और DOM के बन जाने के बाद, आप XSLT का उपयोग करके DOM से आवश्यक डेटा निकाल सकते हैं। यदि प्रारंभिक लोडिंग के बाद DOM को गतिशील रूप से बदल दिया गया था, तो आप परिवर्तनों के लिए प्रतीक्षा करने के लिए कुछ दृष्टिकोण ले सकते हैं। पर जाएँ http://www.gooseeker.com अधिक जानकारी के लिए। GooSeeker सभी के लिए मुफ़्त में एक परिचित उपकरण प्रकाशित करता है। अधिकांश कोड जावास्क्रिप्ट और पठनीय हैं, जिनसे आप पा सकते हैं कि यह कैसे चलता है।