Aide à la programmation, réponses aux questions / Python / Comment tokeniser le code source d'un autre langage de programmation? - python, regex, analyse

Comment tokeniser le code source d'un autre langage de programmation? - python, regex, analyse

Je veux analyser du code PHP, j’ai fait regex qui devrait scinder le code PHP en atomes ( https://regex101.com/r/P074q8/1 ) mais quand j’essaie de l’exécuter, python ne parvient pas à scinder ce code source comme sur le site Web regex101.

Pourquoi mon regex travaille sur regex101.com et ne veut pas travailler en script python?

main.py

import re


class PHPParser:
def __init__(self, filename):
# read php file
with open(filename, "r") as f:
self._source = f.read()

syntax = [
r"/*.*?*/",
r"".*?"",
r"".*?"",
r"$[wd_]+", # variable name
r"w+", # function name
r"return",
r"<?php",
r"=>",
r"?>",
r"[",
r"]",
r",",
r";",
r"(",
r")",
r".",
r"n",
r"s",
r"=",
r"W",
]

s = r"(" + r"|".join(syntax) + r")"
print(s)
tokens = re.split(s, self._source, re.DOTALL | re.M | re.I | re.UNICODE)

print(tokens)


if __name__ == "__main__":
p = PHPParser("./vendor/yiisoft/yii2/base/Widget.php")

Réponses:

1 pour la réponse № 1

Tu peux essayer ça,

tokens = re.findall(s, self._source, re.DOTALL | re.M | re.I | re.UNICODE)

dans lequel j'ai simplement reposé split() fonctionner avec findall(), parce que vous avez essayé d'obtenir une chaîne correspondante regex101.com par same regex, mais in your python script, vous avez essayé de split en faisant correspondre la chaîne.

questions connexes

xquery- comment sélectionner un occ de texte après la nième occurrence du délimiteur / comment extraire les n premières phrases / les n dernières phrases - xquery

comment éditer le fichier wavefront.obj en utilisant c ++ - visual-c ++, 3d, maya, 3dsmax, meshlab

J'ai une erreur python builtins.ImportError: Aucun module nommé 'nltk.tokenize' - python, import, module, nltk, tokenize

Rechercher des dépendances dans une source / script python - python, dépendances, abstract-syntax-tree

Python est la langue ou le langage de script? [fermé] - python

Analyser en Python: quel est le moyen le plus efficace de supprimer / normaliser des chaînes? - python, chaîne, analyse

Analyser un fichier python pour trouver des classes avec certaines étiquettes - python, classe, analyse

Python comment utiliser les jetons - python, token, tokenize

Comment traiter le fichier de langage structuré en python - python, arbre de syntaxe abstraite, générateur d'analyseurs syntaxiques, ebnf, grako

Comment lire une page Web entière dans une variable - Python, Web-scraping, urllib2

Quelle serait l'expression regex si je voulais marquer une chaîne par des espaces, -, 'et "dans Python? [Fermé] - python, regex, python-2.7

Python: l'expression régulière correspond-elle aux séquences d'échappement? [dupliquer] - python, regex, python-2.7

Weird Tokenization Error - python, twitter, tokenize

Version regex de python string [duplicate] - python, regex, string

Que sont les langages de script? [dupliquer] - langages de programmation, langage de script

Déterminer le langage de contenu du site Web - indépendant de la langue

Quel langage interprété puis-je utiliser pour le débogage? - langage interprété

Différences dans la vitesse d'analyse de la langue lors de l'indexation d'un forum (code HTML)? - html, performance, indexation, efficacité du traitement

Analyser des expressions mathématiques en C # - c #, regex, analyser