/ / Nutch skip url que contiene # - regex, nutch

Nutch skip url que contiene # - regex, nutch

Estoy aprendiendo a Nutch. Configuré nutch y comencé a rastrear sitios. Pero una cosa que no puedo descifrar es cómo restringir la URL que contiene #, ya que varias duplicaciones están ocurriendo debido a este #. He revisado el regex-urlfilter.txt

# skip URLs containing certain characters as probable queries, etc.
-[*!@]

Si agrego # a esta línea conceptualmente, esto debería funcionar, pero después de agregar # No funciona, ¿se debe a # usado para comentar líneas? Si es así, cómo arreglarlo.

Respuestas

3 para la respuesta № 1

Escapar el # usando una barra invertida.