प्रोग्रामिंग, सवालों के जवाब में मदद करें / अजगर / HTML टैग प्रतिस्थापन रेगेक्स और अजगर का उपयोग कर - अजगर, एचटीएमएल, रेगेक्स, टैग

रेगेक्स और पायथन - पायथन, एचटीएमएल, रेगेक्स, टैग का उपयोग कर एचटीएमएल टैग प्रतिस्थापन

मेरे पास एक पायथन स्क्रिप्ट है जो एक HTML फ़ाइल को देखेगा जिसमें निम्न प्रारूप है:

<DOC>
<HTML>
...
</HTML>
</DOC>
<DOC>
<HTML>
...
</HTML>
</DOC>

मैं सभी HTML टैग कैसे निकालूं (टैग्स को बदलेंपायथन में regex का उपयोग करते हुए DOC टैग खोलने और बंद करने के अपवाद के साथ "")? इसके अलावा, अगर मैं किसी टैग के ऑल्ट-पाठ को बनाए रखना चाहता हूं, तो रेगेक्स की अभिव्यक्ति कैसी दिखनी चाहिए?

उत्तर:

उत्तर № 1 के लिए 1

इस रेगेक्स से खोजें और बदलें: के लिए खोजें: <। *?> के साथ बदलें: "

जवाब के लिए 3 № 2

जो आप पूरा करने की कोशिश कर रहे हैं उसके लिए मैं रेगेक्स के बजाय ब्यूटीफुल का उपयोग करूंगा।

http://www.crummy.com/software/BeautifulSoup/

जवाब के लिए 2 № 3

चेक आउट lxml, xml से निपटने के लिए एक बहुत अच्छा अजगर पुस्तकालय। आप जिस चीज की तलाश कर रहे हैं, उसे पूरा करने के लिए आप drop_tag का उपयोग कर सकते हैं।

lxml आयात html से h = html.fragment_fromstring ("<doc> हैलो <b> विश्व! </ b> </ doc>") h.find ( "*")। drop_tag () प्रिंट (HTML.tostring (एच, एन्कोडिंग = यूनिकोड))  <doc> हैलो वर्ल्ड! </ doc>

संबंधित सवाल

Regex: मैं कुछ regex तर्क 1 या अधिक बार कैसे मेल करूं? - रेगेक्स

फ़ाइल का नाम बदलने के लिए पायथन मिलान पैटर्न [बंद] - पायथन, रेगेक्स, पायथन-2.7, फ़ाइल-नाम बदलें

पायथन: रेगेक्स, पाठ "एनएनएन प्रतिशत" की सभी घटनाएं "एनएनएन%" - पायथन, रेगेक्स, पायथन-3.x

समूह सामग्री को अपरिवर्तित बनाए रखने के लिए पायथन में रेगेक्स कैसे लिखें? [डुप्लिकेट] - पायथन, रेगेक्स

<P> टैग को एन-पायथन, रेगेक्स से अलग करें का चयन करें

कुछ HTML टैग के भीतर स्ट्रिंग को हटाने के लिए रेगेक्स का उपयोग कैसे करें और स्ट्रिंग में खाली स्थान होना चाहिए - पायथन, रेगेक्स

पायथन रेगेक्स [: अल्फा:] - पायथन, रेगेक्स

निम्नलिखित स्थिति में पायथन में reg ex का उपयोग करके स्ट्रिंग को कैसे खोज और प्रतिस्थापित करें? [बंद] - अजगर, regex, स्ट्रिंग, प्रतिस्थापित करें

पायथन रेगेक्स DUPLICATE_NAMES ध्वज - पायथन, रेगेक्स, पायथन-2.7

एचटीएमएल या जेएस टैग खोजने के लिए पाइथन का प्रयोग करें। (regex?) - पायथन, एचटीएमएल, regex

पाइथन [डुप्लिकेट] में एक नियमित अभिव्यक्ति के साथ मिलान मिलान - पायथन, regex, इनपुट, मैच

Regex डॉलर संकेतों के जोड़ों की जगह - पायथन, regex

पाइथन regex उन सभी टैग को हटाने के लिए जो दो अन्य टैग के बीच नहीं हैं - पायथन, एचटीएमएल, regex

पायथन में रेगेक्स बैकरेफर के साथ समस्या - पायथन, रेगेक्स, पायथन-3.x

रेगेक्स में एचटीएमएल टैग निकालें [डुप्लिकेट] - पायथन, रेगेक्स

नकारात्मक रेगेक्स पायथन - पायथन, रेगेक्स

क्या एचटीएमएल कोड में पाठ प्राप्त करने के लिए कोई मेरी रेगेक्स के साथ मेरी मदद कर सकता है? [डुप्लिकेट] - PHP, एचटीएमएल, regex

पायथन और जावा में रीगेक्स सिंटैक्स में अंतर - जावा, पायथन, रेगेक्स

regex html टैग्स में url का एम्बेड हो रहा है - c #, regex

सी # में डुप्लिकेट <p> और </ p> को छोड़कर सभी HTML टैग से मिलान करने के लिए Regex - c #, regex