/ / दिनांक परिवर्तनीय (पायथन) के साथ रिग्रेशन - पायथन, पांडा, मशीन-लर्निंग, विज्ञान-सीखना, समय-श्रृंखला

डेट वेरिएबल (पायथन) के साथ रिग्रेशन - पायथन, पांडा, मशीन-लर्निंग, विज्ञान-सीखने, समय-श्रृंखला

मेरे पास एक समय श्रृंखला (दैनिक) डेटासेट है1 लेबल (पूर्णांक) और 5 वर्षों में 15 विशेषताएं। मुझे सुविधाओं के अर्थ के बारे में कोई जानकारी नहीं है, लेकिन मुझे उन सुविधाओं के आधार पर लेबल की भविष्यवाणी करनी है।

ऐसा करने के लिए, सबसे पहले, मैंने pandas.tools.plotting से autocorrelation_plot का उपयोग किया, यह पता लगाने के लिए कि क्या मेरे लेबल (वाई) में कोई मौसमी है या नहीं। कृपया नीचे दिया गया चित्र देखें:

यहां छवि विवरण दर्ज करें

फिर मैंने फ्रीक पैरामीटर को साफ़ करके मेरे लेबल (वाई) के मौसमी, प्रवृत्ति और अवशिष्ट को खोजने के लिए मौसमी_डेक्सेप का उपयोग किया:

यहां छवि विवरण दर्ज करें

यहां छवि विवरण दर्ज करें

यहां छवि विवरण दर्ज करें

यहां छवि विवरण दर्ज करें

यहां छवि विवरण दर्ज करें

यहां छवि विवरण दर्ज करें

  • क्या आप कृपया मुझे बता सकते हैं कि कौन सा फ्रीक ठीक है, और क्यों?
  • अगला कदम क्या होगा? क्या मुझे डेटा से दोनों प्रवृत्ति और मौसमी शर्तों को हटाने की आवश्यकता है और फिर अवसाद (उदाहरण के लिए, एसवीआर, रैखिक, आदि) द्वारा अवशिष्ट कारक का मॉडल और भविष्यवाणी करने का प्रयास करें? या मुझे प्रतिगमन द्वारा पूरे डेटा (मौसमी और प्रवृत्ति को हटाए बिना) की भविष्यवाणी करने की आवश्यकता है। मैंने कई प्रतिगमन तकनीकों द्वारा पूरे डेटा (मौसमी और प्रवृत्ति को हटाने के बिना) की भविष्यवाणी करने की कोशिश की लेकिन परिणाम बहुत खराब हैं। अंत में, मैं अंत में मौसमी भविष्यवाणी कैसे कर सकता हूं? एरिया ठीक है? प्रवृत्ति के बारे में क्या ??? 3) क्या मैं सही रास्ते पर हूं (मौसमी निकालने आदि), या मुझे अन्य 15 विशेषताओं के अलावा "तिथि" को एक विशेषता के रूप में मानना ​​चाहिए जैसे कि:
  • दिन का घंटा (24 बूलियन फीचर्स)
  • सप्ताह के दिन (7 बूलियन फीचर्स)
  • महीने का दिन (31 बूलियन सुविधाओं तक)
  • महीने (12 बूलियन फीचर्स)
  • साल

उत्तर:

उत्तर № 1 के लिए 1

मुझे आपको समझाएं कि आमतौर पर मौसमी का इलाज कैसे किया जाता है।

ज्यादातर समय, लोग निकालने का प्रयास करते हैंमौसमी घटक और विश्लेषण के लिए सही श्रृंखला के साथ सौदा। उत्तरी अमेरिका में, सांख्यिकीय एजेंसियां ​​मौसमी, टेंड-चक्र और अनियमित घटकों का अनुमान लगाने के लिए सममित चलती औसत फ़िल्टर का एक अनुक्रम लागू करती हैं और मौसमी समायोजित डेटा अनुमानित मौसमी घटक से कम डेटा के अनुरूप होता है। आमतौर पर, वे अन्य तालिकाओं में कच्चे डेटा भी प्रदान करते हैं और कभी-कभी, वे अभी तक अन्य तालिकाओं में ट्रेंड-चक्र भी प्रदान करते हैं। ऑस्ट्रेलिया में, वे प्रवृत्ति-चक्र पेश करना पसंद करते हैं।

यूरोप में, अपघटन आमतौर पर एक पर आधारित होता हैमॉडल: वे मौसमी घटकों के साथ एक एआरआईएमए मॉडल निर्दिष्ट करते हैं - यह एकीकृत मौसमी घटकों के लिए अनुमति देता है, मौसमी गतिशीलता आदि में औसत घटकों को स्थानांतरित करता है - और विशिष्ट आवृत्तियों को निकालने के लिए मॉडल पर परिकल्पना लगाकर एक अपघटन पर आगे बढ़ता है।

अब, आपको सबसे पहले जो जानने की जरूरत है वह हैबिल्कुल आपका काम करता है। यदि आप इसे चलने वाले औसत फ़िल्टर का उपयोग करते हैं, तो आपको यह पता होना चाहिए कि वे फ़िल्टर सममित हैं और यह बैककास्ट और पूर्वानुमान के उपयोग को मजबूर करता है (आपको शुरुआत से पहले अंक और सिमेट्रिक फ़िल्टर लागू करने के अंत के बाद की आवश्यकता होती है - यह वही है उदाहरण के लिए, होडड्रिक-प्रेस्कॉट जैसे फ़िल्टरों द्वारा सामना की जाने वाली अंत बिंदु समस्या)। इसलिए, इसे मौलिकता के साथ एक अच्छा एरियामा निर्दिष्ट करने की आवश्यकता है क्योंकि अंत बिंदु को बहुत खराब व्यवहार नहीं करना है (या अंतिम बिंदुओं के लिए असममित फ़िल्टर निर्दिष्ट करें) और समरूपता यदि आप भविष्यवाणी मॉडल की तुलना करने के लिए सही डेटासेट का उपयोग करते हैं तो एक छोटा डेटा-स्नूपिंग पूर्वाग्रह का तात्पर्य है (क्योंकि सभी नए बिंदुओं में भविष्य की जानकारी होती है)। यदि आप एआरआईएमए मॉडल का उपयोग करते हैं, तो फ़िल्टर असममित और सही डेटा बिंदु भविष्य के बिंदुओं का उपयोग करके नहीं बनाया जाता है।

अब, पूर्वानुमान के लिए, आपके पास दो विकल्प हैं। (1) आप सही मूल्य का पूर्वानुमान लगाने का प्रयास कर सकते हैं (यदि आप कच्चे मूल्यों की आवश्यकता है तो आप अलग-अलग मौसमी पूर्वानुमान कर सकते हैं); (2) आप कच्चे श्रृंखला का पूर्वानुमान देते हैं।

यह स्पष्ट नहीं है कि आगे बढ़ने का सबसे अच्छा तरीका क्या है। सिद्धांत रूप में, आप (2) चाहते हैं, लेकिन यह बहुत जटिल हो सकता है - जैसे, फ्रंटियर रिसर्च मॉडल -, जब तक आप मौसमी घटक के साथ एरियामा का उपयोग नहीं करते हैं या निरंतर मौसमी लगाते हैं और मौसमी डमी का उपयोग करते हैं।

"आवृत्ति" पसंद के लिए, मैं उपयोग करते हैंयह निर्धारित करने के लिए अनौपचारिक परीक्षण क्या उचित है। चलने वाले औसत साहित्य में, हम चुनते हैं कि हम अपने फ़िल्टर कितना समय या छोटा चाहते हैं - और लक्ष्य अनुमानित मौसमी का उत्पादन करना है जो पूरी तरह से मौसमी नियमितताओं को पकड़ लेते हैं। आप क्रुस्कल-वालिस परीक्षण जैसे सही डेटा पर nonparamateric परीक्षणों का उपयोग कर सकते हैं, लेकिन यह क्षमा कर रहा है।

मेरी सलाह, जो मुझे विश्वास है कि इसके लिए बेहतर हैभविष्यवाणी, एक पैकेज ढूंढना होगा जो आपको मौसमी के साथ पैरामीट्रिक मॉडल के साथ काम करने की अनुमति देता है। फिर, आपके पास ध्वनि सांख्यिकीय आधार पर निर्णय लेने के लिए उपयोग करने के लिए स्पष्ट परीक्षण और सूचना मानदंड हैं।