Ayuda en la programación, respuestas a preguntas / Regex / Nutch skip url que contiene # - regex, nutch

Nutch skip url que contiene # - regex, nutch

Estoy aprendiendo a Nutch. Configuré nutch y comencé a rastrear sitios. Pero una cosa que no puedo descifrar es cómo restringir la URL que contiene #, ya que varias duplicaciones están ocurriendo debido a este #. He revisado el regex-urlfilter.txt

# skip URLs containing certain characters as probable queries, etc.
-[*!@]

Si agrego # a esta línea conceptualmente, esto debería funcionar, pero después de agregar # No funciona, ¿se debe a # usado para comentar líneas? Si es así, cómo arreglarlo.

Respuestas

3 para la respuesta № 1

Escapar el # usando una barra invertida.

preguntas relacionadas

Cómo analizar y recuperar XML sitemap nutch - xml, web-crawler, sitemap, nutch

Apache Nutch en Windows - windows, cygwin, nutch

La mejor integración de Tika en Solr o Nutch - solr, nutch, apache-tika

¿Cómo hacer motores secundarios con SOLR & NUTCH? - Solr, nutch

Cómo cambiar el valor de la marca de tiempo de apache Nutch - solr, timestamp, nutch

Nutch web spider, indice web completo - regex, nutch

¿Nutch 2.1 todavía admite segmentos de archivos? - nutch

nutch crawl no usa todas las entradas en seed.txt - nutch, web-crawler

Parámetro Nutch numSlaves en script de rastreo - nutch, emr

¿Por qué nutch siempre crea el linkdb, a pesar de que no es necesario obtener contenido? - nutch

Implementación de Nutch .Net [cerrado] - .net, nutch

Error en la ejecución de Apache nutch-2.2.1 - java, apache, hadoop, nutch

cómo hacer un grupo de resultados de búsqueda por el anfitrión en nutch - java, nutch

Nutch: obtenga la URL de semilla de cada url: java, nutch, web crawler

¿Cómo usar Apache Nutch a través de una aplicación Java? - java, nutch

Tutoriales de MapReduce Nutch [cerrado] - java, mapreduce, nutch

¿Cómo crear escritor de índice personalizado para Apache Nutch 2.x? - apache, complementos, configuración, nutch

Error Nutch No hay agentes listados en 'http.agent.name' - apache, web-crawler, nutch

Cómo restringir Apache Nutch 2.3.1 para rastrear el contenido de la historia y no las barras laterales: apache, hadoop, web crawler, sitemap, nutch

SolrIndexerJob: java.lang.RuntimeException: error de trabajo: - apache, nutch