Estoy aprendiendo a Nutch. Configuré nutch y comencé a rastrear sitios. Pero una cosa que no puedo descifrar es cómo restringir la URL que contiene #, ya que varias duplicaciones están ocurriendo debido a este #. He revisado el regex-urlfilter.txt
# skip URLs containing certain characters as probable queries, etc.
-[*!@]
Si agrego # a esta línea conceptualmente, esto debería funcionar, pero después de agregar # No funciona, ¿se debe a # usado para comentar líneas? Si es así, cómo arreglarlo.
Respuestas
3 para la respuesta № 1Escapar el #
usando una barra invertida.