/ / es el ejemplo de Google Noticias de raspado html - raspado de pantalla, raspado web

es un ejemplo de google news de html scrappping - screen-raspado, raspado web

Necesito hacer una aplicación web similar a Google News. ¿Necesito aprender html para eso o algunas técnicas más?

Respuestas

1 para la respuesta № 1

La mayoría de las cosas que muestra Google News son todas RSS / ATOM. Es demasiado fácil obtener el contenido del sitio web a través de canales RSS en comparación con el raspado.

Aparte de eso, si puedes usar Java, puedes raspar el html por ti mismo usando la excelente biblioteca ganso . Es similar a lo que utiliza Flipboard / Instapaper


1 para la respuesta № 2

La solución más sencilla sería obtener la fuente RSS o ATOM del sitio web desde el que intenta obtener información.

Son formatos muy conocidos, y de extracción.la información de tales fuentes XML sería mucho más fácil que obtenerla de una página HTML: con RSS / ATOM, solo tendrá que analizar la fuente XML y extraer las etiquetas que contengan información que le interese.

No estoy seguro de con qué idioma estás trabajando, pero es probable que puedas encontrar alguna biblioteca que te ayude con eso.


Si el sitio web no exporta un feed RSS / ATOM ... Bueno, es probable que tenga que recurrir al desguace de HTML; buena suerte con eso, ya que el HTML no está tan bien estructurado como el RSS / ATOM: tendrá que descubrir, para cada sitio web, donde en la página están los más relevantes. informaciones