/ / Xpath - wyklucz elementy w TD - xpath, scraping sieci

Xpath - Wyklucz elementy w TD - xpath, web-scraping

Próbuję użyć rozszerzenia skrobaka Chrome za pomocą XPath. Byłem w stanie zeskrobać wszystko, czego potrzebuję ze stołu, ale utknąłem w jednym miejscu. Oto źródło

<td>
<p class="pClass">
<a href="theurl" target="_blank">
<i class="iClass">someText</i>
Anchor text
</a>
</p>
</td>

Próbuję pobrać tylko adres URL, ale używając mojego kodu Xpath jako td[9]/p/a chwyta część ikony z napisem „someText”. Czy istnieje sposób, aby po prostu pobrać adres URL?

Odpowiedzi:

1 dla odpowiedzi № 1

Aby wyodrębnić adres URL, po prostu dodaj @href do wyrażenia xpath powinno to działać: //td[9]/p/a/@href. Do usuwania białych znaków możesz użyć funkcji xpath normalizuj-przestrzeń ().