Pomoc w programowaniu, odpowiedzi na pytania / Php / Używanie DOMDocument do parsowania HTML-a z kodem JS - php, html-parsing

Używanie DOMDocument do parsowania kodu HTML za pomocą kodu JS - php, html-parsing

Biorę HTML jako ciąg, a następnie analizuję go, aby zmienić wszystkie linki href na coś innego. Działa to jednak, gdy strona HTML ma pewne znaczniki skryptu JS, tj. <script> zostaje usunięty! Na przykład ten wiersz:

<script type="text/javascript" src="/js/jquery.js"></script>

Pobiera zmieniony na:

[removed][removed]

Chciałbym jednak zachować wszystko. To moja funkcja:

function parse_html_code($code, $code_id){

libxml_use_internal_errors(true);

$xml = new DOMDocument();

$xml->loadHTML($code);

foreach($xml->getElementsByTagName("a") as $link) {

$link->setAttribute("href", CLK_BASE."clk.php?i=$code_id&j=" . $link->getAttribute("href"));

}

return $xml->saveHTML();

}

Doceniam każdą pomoc w tej sprawie.

Odpowiedzi:

2 dla odpowiedzi № 1

Fałszywą „funkcją” CodeIgniter jest „fałszowanie”dane wejściowe skryptu, zanim DOMDocument go obejrzy. Znaczniki skryptu i różne inne ciągi znaków zostaną usunięte, zastąpione przez „[usunięte]” inne w inny sposób pomieszane bez powodu. Zobacz system / libraries / Security.php moduł pełnych krępujących szczegółów.

Aby wyłączyć tę błędną funkcję, ustaw $config["global_xss_filtering"]= FALSE. Musisz upewnić się, że twój skrypt jestoczywiście właściwie obsługuje łańcuchy ucieczki, oczywiście (np. zawsze wprowadzanie przez użytkownika znaków ucieczki HTML podczas dołączania do strony). Ale i tak musisz to zrobić; anti-XSS nie rozwiązuje problemów z przetwarzaniem tekstu, po prostu je zasłania.

$link->setAttribute("href", CLK_BASE."clk.php?i=$code_id&j=" . $link->getAttribute("href"));

Będziesz musiał urlencode który getAttribute("href") (i potencjalnie $ code_id, jeśli nie jest to tylko liczba lub coś takiego).

Powiązane pytania

QDomDocument: wystąpił błąd podczas analizowania elementu - xml, qt

Jak przekonwertować HTML <TAGS> na <tags> w PHP? - php, html

Analizowanie "płaskiej" struktury HTML za pomocą PHP DOM - php, json, parsing, dom, html-parsing

Potrzebujesz pomocy regex w PHP 5 - php, regex, html-parsing

Pobierz wszystkie obrazy url z ciągu [duplicate] - php, html, string, image, parsing

DOMDocument nie może parsować XML - php, zend-framework, feed, domdocument, zend-feed

PHP DOM Document nie parsuje / pobiera HTML - php, html, parsing, dom, request

PHP. XML parsowanie ze zmiennej [duplicate] - php, xml, parsing

wyodrębnij wszystkie znaczniki <a> z treści - php, html

DOMDocument-> saveHTMLFile zapisywanie tekstu ze zmianą znaczenia - php, html, dom, save, domdocument

Usuń wszystkie linki z DOM html z PHP - php, html, dom, html-parsing, domdocument

PHP parsuje stronę HTML tylko wtedy, gdy strona została całkowicie załadowana - php, html, parsing, dom, domdocument

dodaj niestandardowe znaczniki do DOMDocument za pomocą php - php, domdocument

pobierz całe źródło obrazu ze strony internetowej w php - php, image, domdocument, fopen, src

Konwertuj stronę internetową na xml? - php, xml

php DomDocument dodaje dodatkowe tagi - php, dom, domdocument

Najlepszy sposób na parsowanie nieprawidłowego kodu HTML w PHP - php, html, parsowanie

Parsowanie kodu źródłowego strony WWW za pomocą regex - php, regex, html-parsing

PHP, aby uzyskać źródło html, a następnie analizować wartości w ramach niektórych tagów DIV - php, parsing, html

Parsowanie HTML dla pewnej części div - php, html, html-parsing, szorowanie danych