/ / ¿Cómo rastrear, procesar e indexar perfiles de redes sociales? - Búsqueda, solr, indexación, rastreador web

¿Cómo rastrear, procesar e indexar perfiles de redes sociales? - Búsqueda, solr, indexación, rastreador web

Para una nueva empresa de tecnología de inicio queremos establecerun llamado "rastreador social". Con esta pieza de software queremos ofrecer a los clientes la posibilidad de buscar posibles empleados. Los resultados (por ejemplo, cuando se busca "desarrollador de iOS") deben ser perfiles sociales agregados de fuentes rastreadas como: twitter, linkedin, etc., basadas en datos biográficos y otra información pública relevante.

Aquí es cómo creo que el proceso debería funcionar:

  1. Rastrear sitios web como Twitter, Linkedin, etc.
  2. Procesar y emparejar datos de documentos
  3. Índice de perfiles agregados
  4. Acceda a la información indexada a través de un servidor de búsqueda.

La configuración debe ser un agregador en curso quePermite que la base de datos crezca automáticamente. El desarrollo de este tipo de configuraciones está más allá de mi conocimiento actual. Me gustaría saber por dónde empezar o con quién hablar, o incluso quién puede desarrollar esto para nosotros.

Me topé con Rastrear a cualquier lugar. ¿Es esto algo que podría funcionar para nosotros? Tengo curiosidad por lo que son tus pensamientos!

¡Aclamaciones!

Respuestas

1 para la respuesta № 1

Puede comenzar con Nutch con Solr, lo que te ayudará a rastrear e indexar los datos.
Luego, los datos están disponibles, que se pueden utilizar para la búsqueda y se pueden procesar.


1 para la respuesta № 2

Además, para rastrear los datos de Twitter, debes API de Twitter. Como sé hasta ahora, la versión actual de Nutch no admite el rastreo de datos de Twitter.

¡Aclamaciones!