Aide à la programmation, réponses aux questions / Python / Python - Les URL correspondantes dans le code source d'une page avec regex - python, regex

Python - URL correspondantes dans le code source d'une page - python, regex

J'utilise ce modèle pour correspondre à chaque URL d'une page Web donnée:

import re

source = """
<p>https://example.com</p>
... some code
<font color="E80000">https://example.com</font></a>
"""

urls = re.findall("http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*(),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+", source)

Cela a assez bien fonctionné pour moi jusqu'à maintenant. J'ai trouvé que parfois, il ne correspond pas à l'URL exacte. Comme dans l'exemple, il correspond à l'URL https://example.com</p> et https://example.com</font></a> inlcuding les balises de fermeture mais je ne peux pas "comprendre le problème dans la regex. J'ai pris ce code à partir d'une autre question de pile.

Réponses:

0 pour la réponse № 1

essaye ça,

import re

source = """
<p>https://example.com</p>
... some code
<font color="E80000">https://example.com</font>
https://example.com</p></a>
https://example.com</font></a>
"""
urls = re.findall("(http|ftp|https)://([w_-]+(?:(?:.[w_-]+)+))([w.,@?^=%&:/~+#-]*[w@?^=%&/~+#-])?", source)
print urls

questions connexes

ne correspondant qu'à un seul (regex avec quantifier et grouper en python) - regex

Python re.findall affiche tous les motifs - Python, regex, findall

Python - Détecter (spammy) les URL dans une chaîne - python, regex, prévention du spam

Regex Python pour correspondre à une chaîne entre guillemets - python, regex, guillemets

Python: RegEx, toutes les occurrences du texte «NN.N pourcent» à «NN.N%» - python, regex, python-3.x

Regex floue correspondant à python renvoie une liste vide - python, regex, floue, pypi-regex

regex python ne correspond pas à la sortie dig - python, regex, dns, dig

En Python, comment vérifier si une chaîne correspond à une des regex du tableau `efficient`? - python, regex, python-3.x

Equivalent de assertRegexMatches dans python 2.4 - python, unit-testing

Python Regex retourne la chaîne correspondante, mais renvoie également les blancs s'il ne peut pas correspondre à [dupliquer] - python, regex, python-2.7

Correspondance de chaîne regex Python? - python, regex, correspondance de motif

regex python [: alpha:] - python, regex

Comment tokeniser le code source d'un autre langage de programmation? - python, regex, analyse

Drapeau Python Regex DUPLICATE_NAMES - python, regex, python-2.7

Correspondance des entrées avec une expression régulière en Python [duplicate] - python, regex, input, match

Pourquoi le regex «java» ne correspond-il pas à «/something.java» en utilisant le module re de Python? [duplicate] - python, regex, correspondance de modèle, correspondance

Problème avec le backreference regex dans Python - python, regex, python-3.x

Python RegEx correspondant à l'anomalie - python, regex

Regex négatif Python - python, regex

Différences dans la syntaxe regex en Python et Java - java, python, regex