क्रॉल परिणामों को सहेजते समय मुझे वेब पेज को वाक्यों में विभाजित करने के लिए नच की आवश्यकता होती है। कारण यह है कि सोलर प्रत्येक वाक्य को एक दस्तावेज के रूप में देखता है जब अनुक्रमण करता है।
परिणाम जो मुझे चाहिए वह है, "एक शब्द" के लिए एक खोज करने में सक्षम होने के लिए और सभी वाक्यों की एक सूची प्राप्त करें जिसमें "एक" और / या "शब्द" शामिल हों।
मैं Nutch के लिए नया हूँ तो कुछ संकेत वास्तव में उपयोगी हो जाएगा ...
- क्या मुझे नच विन्यास फाइलों में देखना चाहिए?
- क्या मुझे Nutch सोर्स कोड बदलने की आवश्यकता है?
- या क्या मैं एक अलग ऐप लिख सकता हूं जो क्रॉल करने के बाद क्रॉल परिणामों को संपादित कर सकता है?
उत्तर:
उत्तर № 1 के लिए 1हां, आप अपने कार्य के लिए Nutch देख सकते हैं।
1) कॉन्फ़िगरेशन फ़ाइलें अकेले आपके लिए काम नहीं करेंगी। ऊपर के बिंदु देखें।
2) आपको "अपना पार्सर प्लगइन लिखने की जरूरत हैक्रॉल करने के बाद पार्सिंग चरण को समाप्त करने के लिए हुक, अपने HTMLpage को वाक्यों में विभाजित करें और एक पृष्ठ से एन परिणाम लौटाएं। यह काफी अजीब है क्योंकि आमतौर पर एक पृष्ठ एक परिणाम होता है। एक पृष्ठ से एकाधिक परिणाम कैसे देखें, यह देखने के लिए फीडपार्सर देखें।
3) सिद्धांत रूप में, आप पृष्ठों पर पुनरावृति कर सकते हैंनच द्वारा प्राप्त, पाठ प्राप्त करें, उन्हें वाक्यों में विभाजित करें और अपने वाक्यों को अनुक्रमित करने के लिए SOLR एपीआई का उपयोग करें जैसे कि वे डॉक्स थे। यह काफी आसानी से एक मानचित्रित कार्य भी हो सकता है।
एक सामान्य संदर्भ के रूप में, मेरा सुझाव है कि आप वाक्यों में अपने पाठ को विभाजित करने के लिए इस लेख पर एक नज़र डालें:
http://sujitpal.blogspot.com/2011/04/uima-sentence-annotator-using-opennlp.html