मेरे पास एक पायथन स्क्रिप्ट है जो एक HTML फ़ाइल को देखेगा जिसमें निम्न प्रारूप है:
<DOC>
<HTML>
...
</HTML>
</DOC>
<DOC>
<HTML>
...
</HTML>
</DOC>
मैं सभी HTML टैग कैसे निकालूं (टैग्स को बदलेंपायथन में regex का उपयोग करते हुए DOC टैग खोलने और बंद करने के अपवाद के साथ "")? इसके अलावा, अगर मैं किसी टैग के ऑल्ट-पाठ को बनाए रखना चाहता हूं, तो रेगेक्स की अभिव्यक्ति कैसी दिखनी चाहिए?
उत्तर:
उत्तर № 1 के लिए 1इस रेगेक्स से खोजें और बदलें: के लिए खोजें: <। *?> के साथ बदलें: "
जवाब के लिए 3 № 2
जो आप पूरा करने की कोशिश कर रहे हैं उसके लिए मैं रेगेक्स के बजाय ब्यूटीफुल का उपयोग करूंगा।
http://www.crummy.com/software/BeautifulSoup/
जवाब के लिए 2 № 3
चेक आउट lxml, xml से निपटने के लिए एक बहुत अच्छा अजगर पुस्तकालय। आप जिस चीज की तलाश कर रहे हैं, उसे पूरा करने के लिए आप drop_tag का उपयोग कर सकते हैं।
lxml आयात html से h = html.fragment_fromstring ("<doc> हैलो <b> विश्व! </ b> </ doc>") h.find ( "*")। drop_tag () प्रिंट (HTML.tostring (एच, एन्कोडिंग = यूनिकोड)) <doc> हैलो वर्ल्ड! </ doc>