प्रोग्रामिंग, सवालों के जवाब में मदद करें / NLP स्टैनफोर्ड सेंटीमेंट एनालिसिस टूल - एलएनपी, स्टैनफोर्ड-एलएमपी, सेंटीमेंट-एनालिसिस, ट्रेनिंग-डेटा को प्रशिक्षित करने के लिए पीटीबी फॉर्मेट में स्ट्रिंग डेटा कन्वर्ट करें।

स्टैनफोर्ड भावना विश्लेषण उपकरण को प्रशिक्षित करने के लिए स्ट्रिंग डेटा को पीटीबी प्रारूप में कनवर्ट करें - एनएलपी, स्टैनफोर्ड-एनएलपी, भावना-विश्लेषण, प्रशिक्षण-डेटा

स्टैनफोर्ड सेंटेंस एनालिसिस टूल को प्रशिक्षित करने के लिए स्ट्रिंग डेटा को एक ट्वीट की तरह पीटीबी प्रारूप में कैसे बदलें?

उत्तर:

जवाब के लिए 3 № 1

यह केवल से परिवर्तित करने का मामला नहीं हैएक प्रारूप से दूसरे में। जैसा कि @lenz ने उल्लेख किया है, PTB एक पार्सर का आउटपुट स्वरूप है - इसका मतलब है कि कम से कम आपको टेक्स्ट को सिंटेक्टिक पार्स में बदलने की आवश्यकता है। एक स्वचालित पार्सर (उदाहरण के लिए, बर्कले / स्टैनफोर्ड / बीएलआईपीआईपी पार्सर) आपको यहां से कुछ रास्ते मिल सकते हैं, लेकिन (1) स्वचालित पार्सर ट्विटर पाठ पर भयानक हैं, और (2) अगर मुझे याद है कि आपको बिनार पार्स पेड़ों की आवश्यकता है, जिसका मतलब है कच्चे पर्स का थोड़ा हेरफेर।

इसके अलावा, एक भावना मॉडल को प्रशिक्षित करने के लिए, आपको इसकी आवश्यकता हैअपने डेटा को भावना के साथ एनोटेट करें। यही है, तोते के पेड़ के प्रत्येक घटक के लिए, आपको यह कहने की आवश्यकता है कि उस घटक की उपज के लिए भावना लेबल क्या है। यदि कोई स्वचालित उपकरण होता है जो ऐसा करता है, तो आपको नए मॉडल को प्रशिक्षित करने की आवश्यकता नहीं होगी।

जवाब के लिए 2 № 2

प्रशिक्षण के लिए पीटीबी प्रारूप में पाठ को परिवर्तित करने के लिए स्टैनफोर्ड कोरएनएलपी पैकेज में जावा क्लास फाइल है।

वर्ग का नाम BuildBinarizedDataset है