Помощ при програмиране, отговори на въпроси / Регулярен / Конфигуриране на crawler import.io с xpath или regexp - regex, xpath, web-crawler, import.io

Настройване на робота за import.io с xpath или regexp - regex, xpath, web-crawler, import.io

В момента се опитвам да настроя уеб браузъризвличане на данни от уеб сайтове за недвижими имоти. Тенденцията при тези сайтове е, че определена информация не е на едно и също място за всяка страница, така че трябва да измисля как да извлече текстови елементи, които съдържат определени фрази, а не въз основа на това къде се намират. Ето няколко примера за такива страници:

http://www.zillow.com/homedetails/2630-Hazy-Creek-Dr-Houston-TX-77084/28388488_zpid/

http://www.zillow.com/homedetails/16514-Park-Firth-Dr-Houston-TX-77084/28357799_zpid/

Забележете как се появява определена информация като MLS #на различни петна. Когато извличам xpath от един от тези записи, получавам: // * [@ id = "yui_3_15_0_1_1435013689406_3296"] и тъй като "не съм много запознат с xpath, не знам как да го променя, за да търся някои фраза (със сигурност съм опитвал, но никога не се получава). Regexp изглежда като обещаващ инструмент, но когато използвам командата ^ MLS, която трябва да търси елементи, започващи с "MLS", тя просто не работи. Знам, че трябва да има директен начин за това, но това е първият ми път, когато използвам тази услуга, така че все още не съм много запознат с нея. И съветите биха били много ценени.

Отговори:

6 за отговор № 1

Regex не ви позволява да извличате данни, само за да почистите или модифицирате вече извлечен текст.

Трябва да създадете XPath, за да извлечете желаните от вас данни. Направих едно за вас като пример:

//*[@role="main"]//li[contains(text(), "MLS ")]

Обяснение: това търси основната част на страницата и след това търси a <li> който съдържа текста "MLS", Това ще извлече нещо подобно "MLS #: 66521347"

Вече можете да изберете типа колона като "число", за да получите само числото (можете да го направите и с регулярно изражение, това е точно вида, който можете да направите с него).

РЕДАКТИРАНЕ: Въпреки че този XPath е правилен, той не връща данните в import.io. Има и друг начин да го направите: Използване на XPath за въвеждане на целия текст в този раздел и след това с помощта на regex за избор на MLS.

XPath за използване:

//*[@role="main"]/section[@class="zsg-content-section "][1]

Regex за използване:

MLS #: (d+)

Свързани въпроси

Xpath получава текст на вложени елемент не работи, но CSS не - xpath, web-crawler, scrapy, octicons

Получаване на "грешка в XPath: Невалиден предикат", докато се опитваме да използваме Xpath, който съдържа гръцки букви - xpath, unicode, scrapy

Невъзможно е да се получи подходящия XPath за елементи на уеб страниците в обхождащия файл на import.io - xml, xpath, web-crawler, import.io

получаване на празни резултати от crawler на scrapy - python, xpath, scrapy

Паяците не следват връзки - scrapy - python, scrapy, web-crawler

Web Crawler с мултипроцесиране в Python 3 - python, python-3.x, опашка, мултипроцесор, уеб-робот

Python Scrapy, което дава импортна грешка на Linux за разширение - python, scrapy

Защо моят робот не извлича никакви данни, нито изхвърля грешки - python, web-scraping, web crawler

Най-лесният начин да стартирате crawler на scrapy, за да не блокира скрипта - python, scrapy

scrapy: как да пропуснете URL адресите, които не отговарят? - python-2.7, scrapy

WebTestCase: Използвайте робота за тестване на низ - php, тестване, symfony, функционално тестване, уеб робот

Как да получите CSS Selector от DOMElement PHP Symfony - php, symfony, xpath, css-селектори

Symfony Crawler: как да проверите дали съществува връзка към определена страница - php, symfony, phpunit, функционално тестване

Как да извличаме само определени маркери от HTML документ, използвайки PHP? - php, xpath, тагове, магазин, уеб робот

Как да върнем правилно стойността на класа в този пример? PHP - php, oop, return, например, return value

Грешка при обхождането на Node.js - node.js, web-crawler, npm

Как да получите indivisual html файл от "сегменти", които имам след crwal в nutch? - java, linux, индексиране, web-crawler, nutch

c # уеб базиран робот - c #, уеб робот, ботове, googlebot

Apache Nutch робот как да изключите статични папки като; cgi-bin, изображения, css изключват от crawler? - apache, hadoop, lucene, mapreduce, nutch

Изпълнява се Crawler на Android Marketplace ("hg 'директория?) [Затворен] - Android, контрол на версията, живак, уеб робот