/ / HTML टैग प्रतिस्थापन रेगेक्स और अजगर का उपयोग कर - अजगर, एचटीएमएल, रेगेक्स, टैग

रेगेक्स और पायथन - पायथन, एचटीएमएल, रेगेक्स, टैग का उपयोग कर एचटीएमएल टैग प्रतिस्थापन

मेरे पास एक पायथन स्क्रिप्ट है जो एक HTML फ़ाइल को देखेगा जिसमें निम्न प्रारूप है:

<DOC>
<HTML>
...
</HTML>
</DOC>
<DOC>
<HTML>
...
</HTML>
</DOC>

मैं सभी HTML टैग कैसे निकालूं (टैग्स को बदलेंपायथन में regex का उपयोग करते हुए DOC टैग खोलने और बंद करने के अपवाद के साथ "")? इसके अलावा, अगर मैं किसी टैग के ऑल्ट-पाठ को बनाए रखना चाहता हूं, तो रेगेक्स की अभिव्यक्ति कैसी दिखनी चाहिए?

उत्तर:

उत्तर № 1 के लिए 1

इस रेगेक्स से खोजें और बदलें: के लिए खोजें: <। *?> के साथ बदलें: "


जवाब के लिए 3 № 2

जो आप पूरा करने की कोशिश कर रहे हैं उसके लिए मैं रेगेक्स के बजाय ब्यूटीफुल का उपयोग करूंगा।

http://www.crummy.com/software/BeautifulSoup/


जवाब के लिए 2 № 3

चेक आउट lxml, xml से निपटने के लिए एक बहुत अच्छा अजगर पुस्तकालय। आप जिस चीज की तलाश कर रहे हैं, उसे पूरा करने के लिए आप drop_tag का उपयोग कर सकते हैं।

lxml आयात html से h = html.fragment_fromstring ("<doc> हैलो <b> विश्व! </ b> </ doc>") h.find ( "*")। drop_tag () प्रिंट (HTML.tostring (एच, एन्कोडिंग = यूनिकोड))  <doc> हैलो वर्ल्ड! </ doc>