/ / अपडेट किया हुआ नच हर URL के जनक को लाने के लिए - java, nutch

लाए गए प्रत्येक यूआरएल के माता-पिता को लाने के लिए नच अपडेट करें - जावा, नच

जैसा कि मैंने Apache Nutch 1.4 क्रॉलर चलाया है, मैं कुछ अतिरिक्त जानकारी संग्रहीत करना चाहता हूं। मैं हर URL के पेरेंट को स्टोर करना चाहता हूं।

उदाहरण के लिए, मैं एक पृष्ठ a.html को क्रॉल करना चाहता हूं जिसमें b.html और c.html के 2 एंकर लिंक हैं। इसलिए जब मैं a html को क्रॉल करता हूं, तो मुझे कुछ इस तरह मिलना चाहिए: -

a.html null
b.html a.html
c.html a.html

मैं कुछ इस तरह स्टोर करना चाहता हूं। मैंने पढ़ा है कि कैसे नच काम करता है और ग्रहण में नच भी चलाता है। मैंने fetcher.java भी पढ़ा और जहां यह सामग्री प्राप्त की, वहां लॉग इन किया। लेकिन मुझे यह जानने में कोई सफलता नहीं मिली कि नच किसी दिए गए पृष्ठ के बाल URL कहाँ से लाती है। मुझे लगता है कि यह कदम पार्सिंग कदम के बाद होता है।

उत्तर:

जवाब के लिए 2 № 1

मुझे लगता है कि लिंकडब उत्पन्न करके जानकारी प्राप्त की जा सकती है।

लिंक डेटाबेस, या लिंकडब: इसमें प्रत्येक URL के ज्ञात लिंक की सूची होती है, जिसमें लिंक का स्रोत URL और एंकर टेक्स्ट दोनों शामिल होते हैं। यह एक उल्टे लिंक मानचित्र को बनाए रखता है, प्रत्येक यूआरएल के लिए आने वाले लिंक को सूचीबद्ध करता है।

bin/nutch invertlinks crawldb/linkdb -dir crawldb/segments

पार्सिंग चरण में, नच आउटलाइंक उत्पन्न करता हैक्रॉल की गई सामग्री और बाद में नए खोजे गए यूआरएल को अपडेट चरण में क्रॉलडब करने के लिए संग्रहीत किया जाता है। नए मूत्रल नच क्रॉल के अगले चक्र / दौर में लाए जाते हैं।