Aiuto nella programmazione, risposte alle domande / Pitone / Python - URL di corrispondenza di Regex nel codice sorgente della pagina - python, regex

Python - URL di corrispondenza di Regex nel codice sorgente della pagina - python, regex

Io uso questo modello per abbinare ogni url in una determinata pagina web:

import re

source = """
<p>https://example.com</p>
... some code
<font color="E80000">https://example.com</font></a>
"""

urls = re.findall("http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*(),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+", source)

Questo ha funzionato per me abbastanza bene fino ad ora. Ho scoperto che a volte non corrisponde all'URL esatto. Come nell'esempio, corrisponde all'URL https://example.com</p> e https://example.com</font></a> includendo i tag di chiusura ma non riesco a capire qual è il problema nella regex. Ho preso questo codice da un'altra domanda di stack.

risposte:

0 per risposta № 1

prova questo,

import re

source = """
<p>https://example.com</p>
... some code
<font color="E80000">https://example.com</font>
https://example.com</p></a>
https://example.com</font></a>
"""
urls = re.findall("(http|ftp|https)://([w_-]+(?:(?:.[w_-]+)+))([w.,@?^=%&:/~+#-]*[w@?^=%&/~+#-])?", source)
print urls

domande correlate

corrispondente a uno (regex con quantificatore e raggruppamento in python) - regex

Python re.findall stampa tutti i pattern - python, regex, findall

Python - Rileva (spammy) URL in string - python, regex, spam-prevention

Python regex per abbinare una stringa quotata - python, regex, preventivi

Python: RegEx, tutte le occorrenze di testo "NN.N percentuale" a "NN.N%" - python, regex, python-3.x

La regex fuzzy corrispondente a python restituisce una lista vuota - python, regex, fuzzy, pypi-regex

la regex di python non corrisponde all'output di dig - python, regex, dns, dig

In Python, come verificare se una stringa corrisponde a una delle regex nell'array `efficiently`? - python, regex, python-3.x

Equivalente di assertRegexMatch in python 2.4 - python, unit-test

python Regex restituisce una stringa con corrispondenza, ma restituisce anche spazi in cui non poteva corrispondere [duplicato] - python, regex, python-2.7

Corrispondenza delle stringhe regex di Python? - python, regex, pattern matching

python regex [: alpha:] - python, regex

Come tokenize codice sorgente di un altro linguaggio di programmazione? - python, regex, analisi

Python Regex DUPLICATE_NAMES Flag - python, regex, python-2.7

Ingressi corrispondenti con un'espressione regolare in Python [duplicato] - python, regex, input, match

Perché la regex "java" non corrisponde a "/something.java" usando il modulo re di Python? [duplicato] - python, regex, pattern matching, match

Problema con regex backreference in Python - python, regex, python-3.x

Anonima corrispondenza di Python RegEx - python, regex

Negative Regex Python - python, regex

Differenze nella sintassi regex in Python e Java - java, python, regex