/ / दस्तावेजों में नच के रूप में वाक्य - खोज, ल्यूसीन, अनुक्रमण, वेब-क्रॉलर, नच

नच में दस्तावेजों के रूप में वाक्य - खोज, ल्यूसीन, अनुक्रमण, वेब क्रॉलर, नच

क्रॉल परिणामों को सहेजते समय मुझे वेब पेज को वाक्यों में विभाजित करने के लिए नच की आवश्यकता होती है। कारण यह है कि सोलर प्रत्येक वाक्य को एक दस्तावेज के रूप में देखता है जब अनुक्रमण करता है।

परिणाम जो मुझे चाहिए वह है, "एक शब्द" के लिए एक खोज करने में सक्षम होने के लिए और सभी वाक्यों की एक सूची प्राप्त करें जिसमें "एक" और / या "शब्द" शामिल हों।

मैं Nutch के लिए नया हूँ तो कुछ संकेत वास्तव में उपयोगी हो जाएगा ...

  1. क्या मुझे नच विन्यास फाइलों में देखना चाहिए?
  2. क्या मुझे Nutch सोर्स कोड बदलने की आवश्यकता है?
  3. या क्या मैं एक अलग ऐप लिख सकता हूं जो क्रॉल करने के बाद क्रॉल परिणामों को संपादित कर सकता है?

उत्तर:

उत्तर № 1 के लिए 1

हां, आप अपने कार्य के लिए Nutch देख सकते हैं।

1) कॉन्फ़िगरेशन फ़ाइलें अकेले आपके लिए काम नहीं करेंगी। ऊपर के बिंदु देखें।

2) आपको "अपना पार्सर प्लगइन लिखने की जरूरत हैक्रॉल करने के बाद पार्सिंग चरण को समाप्त करने के लिए हुक, अपने HTMLpage को वाक्यों में विभाजित करें और एक पृष्ठ से एन परिणाम लौटाएं। यह काफी अजीब है क्योंकि आमतौर पर एक पृष्ठ एक परिणाम होता है। एक पृष्ठ से एकाधिक परिणाम कैसे देखें, यह देखने के लिए फीडपार्सर देखें।

3) सिद्धांत रूप में, आप पृष्ठों पर पुनरावृति कर सकते हैंनच द्वारा प्राप्त, पाठ प्राप्त करें, उन्हें वाक्यों में विभाजित करें और अपने वाक्यों को अनुक्रमित करने के लिए SOLR एपीआई का उपयोग करें जैसे कि वे डॉक्स थे। यह काफी आसानी से एक मानचित्रित कार्य भी हो सकता है।

एक सामान्य संदर्भ के रूप में, मेरा सुझाव है कि आप वाक्यों में अपने पाठ को विभाजित करने के लिए इस लेख पर एक नज़र डालें:

http://sujitpal.blogspot.com/2011/04/uima-sentence-annotator-using-opennlp.html