प्रोग्रामिंग, सवालों के जवाब में मदद करें / अजगर / पायथन रेगेक्स उन सभी टैग को हटाने के लिए जो दो अन्य टैग - अजगर, एचटीएमएल, रेगेक्स के बीच नहीं हैं

पाइथन regex उन सभी टैग को हटाने के लिए जो दो अन्य टैग के बीच नहीं हैं - पायथन, एचटीएमएल, regex

मैं अजगर का उपयोग कर रहा हूं और एक स्ट्रिंग से सभी HTML टैग को हटाना चाहता हूं जो "कुछ टैग में संलग्न नहीं हैं। इस उदाहरण में, मैं उन सभी HTML टैग को हटाना चाहता हूं जो" t संलग्न नहीं हैं। <header>टैग</header> और उस संलग्न टैग को भी नहीं हटाएं।

उदाहरण के लिए:

<h1>Morning</h1>
<header>
<h1>Afternoon</h1>
<h2>Evening</h2>
</header>
<h2>Night</h2>

परिणाम:

Morning
<header>
<h1>Afternoon</h1>
<h2>Evening</h2>
</header>
Night

मैंने इस पर घंटों बिताए लेकिन कोई भाग्य नहीं। मुझे पता है कि निम्नलिखित सभी टैग मिलेंगे:

re.sub("<.*?>", "", mystring)

और यह हेडर टैग के भीतर कुछ भी मिलेगा:

re.sub("<header>.*?</header>", "", mystring)

लेकिन मैं इसे कैसे नकार सकता हूं, ताकि पहला रेगेक्स नजरअंदाज करे कि दूसरा रेग्क्स क्या पाता है? कोई भी मदद बहुत ही सराहनीय होगी! धन्यवाद! :)

उत्तर:

जवाब के लिए 3 № 1

आप इसे जल्दी और आसानी से उपयोग कर सकते हैं BeautifulSoup, जैसा कि टिप्पणियों में जोसेफ वाल्स ने उल्लेख किया है। ऐसे:

from bs4 import BeautifulSoup

soup = BeautifulSoup("""<h1>Morning</h1>
<header>
<h1>Afternoon</h1>
<h2>Evening</h2>
</header>
<h2>Night</h2>""", "html.parser")

for tag in soup.find_all(recursive=False):
if not tag.findChildren():
tag.unwrap()

print(soup)

यह प्रिंट करता है:

Morning
<header>
<h1>Afternoon</h1>
<h2>Evening</h2>
</header>
Night

संबंधित सवाल

RegEx निर्दिष्ट टैग के बाहर सभी एक्सएमएल डेटा को हटाने के लिए - regex, xml, notepad ++, ढूंढें-प्रतिस्थापित करें

विजुअल स्टूडियो रेगेक्स - रेगेक्स, विजुअल स्टूडियो, आइडिया, ढूंढ का उपयोग कर एचटीएमएल टैग के बीच सामग्री को ढूंढें और बदलें

मैं regex के माध्यम से एक टैग की सामग्री को एकाधिक टैग में कैसे विभाजित कर सकता हूं? - रेगेक्स, एक्सएमएल-पार्सिंग

<P> टैग को एन-पायथन, रेगेक्स से अलग करें का चयन करें

कुछ HTML टैग के भीतर स्ट्रिंग को हटाने के लिए रेगेक्स का उपयोग कैसे करें और स्ट्रिंग में खाली स्थान होना चाहिए - पायथन, रेगेक्स

पायथन रेगेक्स DUPLICATE_NAMES ध्वज - पायथन, रेगेक्स, पायथन-2.7

रेगेक्स और पायथन - पायथन, एचटीएमएल, रेगेक्स, टैग का उपयोग कर एचटीएमएल टैग प्रतिस्थापन

एचटीएमएल या जेएस टैग खोजने के लिए पाइथन का प्रयोग करें। (regex?) - पायथन, एचटीएमएल, regex

रेगेक्स में एचटीएमएल टैग निकालें [डुप्लिकेट] - पायथन, रेगेक्स

केवल विशिष्ट टैग (regex) में शब्दों को प्रतिस्थापित करें?-php, एचटीएमएल, regex, टैग, preg-स्थ

सभी बंद एचटीएमएल टैग - PHP, एचटीएमएल, regex से मेल करने के लिए Regex

क्या एचटीएमएल कोड में पाठ प्राप्त करने के लिए कोई मेरी रेगेक्स के साथ मेरी मदद कर सकता है? [डुप्लिकेट] - PHP, एचटीएमएल, regex

सुरक्षा खोलने के बिना textarea टैग का उपयोग कैसे करें - php, mysql

साफ टैग से सरणी बनाएं - PHP, regex

आईजीजी और आईफ्रेम टैग पट्टी करने के लिए Regex - जावास्क्रिप्ट

टैग्स - सी #, एचटीएमएल, रेगेक्स, स्ट्रिंग, टैग के बीच वास्तविक पाठ से '<' वर्णों को हटाए बिना regex का उपयोग करके स्ट्रिंग से HTML टैग निकालें

सी # में regex का उपयोग कर <और> के बीच वर्णों को कैसे हटाया जा सकता हूं? - सी #, regex, स्ट्रिंग

खाली अनुच्छेद टैग निकालें - TinyMCE - सी #, regex, स्ट्रिंग, tinymce, स्ट्रिप टैग

सी # में डुप्लिकेट <p> और </ p> को छोड़कर सभी HTML टैग से मिलान करने के लिए Regex - c #, regex

एएसपीनेट में प्रस्तुत करने से पहले किसी वेब पेज (एएसपीएक्स पेज) से कुछ एचटीएमएल टैग कैसे निकालें? - सी #, एएसपीनेट