Mam dużo danych HTML do zaimportowania, które używają wielkich tagów i nazw atrybutów. Niestety system odbierający na to nie pozwala, twierdząc, że wszystkie są małymi literami.
Jak mogę bezpiecznie zmienić wszystkie znaczniki i nazwy atrybutów?
Chciałbym przejść do wyrażenia regularnego preg_replace_callback, ale wiem, że może to być naprawdę trudne, jeśli chodzi o parsowanie HTML - rodzaj ponownego odkrywania koła.
Czy istnieje DOMDocument lub inne bezpieczniejsze rozwiązanie?
Odpowiedzi:
1 dla odpowiedzi № 1Jak sugerował @niet, możesz spróbować użyć DOMDocument
następnie zapisz i spróbuj go wyprowadzić.
Rozważmy ten przykład:
<?php
$html_with_uppercase_tags = "<BODY><DIV class="container"><H1>Headers</H1><P>This is paragraph one</P></DIV></BODY>";
$dom = new DOMDocument();
$dom->loadHTML($html_with_uppercase_tags);
echo htmlentities($dom->saveHTML()); // check the tags
// http://www.php.net/manual/en/domdocument.savehtml.php
?>
Powinien przynieść coś takiego:
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd"> <html><body><div class="container"><h1>Headers</h1><p>This is paragraph one</p></div></body></html>