Aiuto nella programmazione, risposte alle domande / Piattaforma cloud di Google / Ha senso usare GoogleDataFlow / Apache Beam per parallelizzare l'elaborazione delle immagini o le attività di scansione? - google-cloud-platform, google-cloud-dataflow, azure-data-factory, amazon-data-pipeline, apache-beam

Ha senso usare Google DataFlow / ApacheBeam per parallelizzare l'elaborazione delle immagini o le attività di scansione? - google-cloud-platform, google-cloud-dataflow, azure-data-factory, amazon-data-pipeline, apache-beam

Sto considerando Google DataFlow come opzione per l'esecuzione di una pipeline che prevede passaggi come:

Download di immagini dal web;
Elaborazione di immagini.

Mi piace che DataFlow gestisca la durata delle VMrichiesto per completare il lavoro, quindi non ho bisogno di avviarlo o fermarlo da solo, ma tutti gli esempi che ho trovato lo usano per il tipo di attività di data mining. Mi chiedo se sia una valida opzione per altre attività batch come l'elaborazione delle immagini e strisciando.

risposte:

3 per risposta № 1

Questo caso d'uso è una possibile applicazione per Dataflow / Beam.

Se vuoi farlo in streaming, potresti avere un crawler che genera URL e li aggiunge a una coda PubSub o Kafka; e codificare una pipeline di Beam per eseguire quanto segue:

Leggi da PubSub
Scarica il contenuto del sito web in un ParDo
Analizzare gli URL di immagini dal sito Web in un altro ParDo *
Scarica ogni immagine ed elaborala, sempre con un ParDo
Memorizza il risultato in GCS, BigQuery o altri, a seconda di quali informazioni desideri dall'immagine.

Puoi fare lo stesso con un lavoro batch, cambiando semplicemente la fonte di cui stai leggendo gli URL.

* Dopo aver analizzato questi URL immagine, potresti anche voler rimescolare i tuoi dati, per ottenere un certo parallelismo.

domande correlate

Come creare una pipeline di modelli Dataflow con Beam 2.0? - modelli, google-cloud-dataflow, apache-beam

Parallelizza il funzionamento del ciclo con Google Data Flow: python, apache, google-bigquery, google-cloud-dataflow, apache-beam

collega l'istanza di google cloud sql postgres da pipeline - python, postgresql, google-cloud-sql, apache-beam

Importa conflitto in metaclass apache_beam - python-2.7, google-cloud-dataflow, apache-beam

Come utilizzare i panda nel flusso di dati di Google Cloud? - panda, google-cloud-dataflow, apache-beam

Problema di impacchettamento dei file jar di Google Dataflow con FileSystemRefistrar - maven, jar, google-cloud-platform, dataflow

Perdita di dati durante il drenaggio del lavoro Dataflow che legge da PubSub e scrive su Google Cloud Storage: java, google-cloud-dataflow, apache-beam

Google Dataflow non è riuscito con lo stato NON RIUSCITO - google-cloud-platform, google-cloud-dataflow

Stato continuo nella pipeline di Apache Beam - google-cloud-dataflow, apache-beam

Come posso visualizzare e verificare azioni di flusso di dati come Crea / Annulla lavoro? - google-cloud-dataflow, google-cloud-logging

Esegui un'azione dopo che la pipeline di Dataflow ha elaborato tutti i dati - google-cloud-dataflow

Il processo Dataflow non riesce, ma il passaggio continua a essere visualizzato correttamente - google-cloud-dataflow

apache beam 2.2 pipeline.apply nessuna eccezione di questo metodo - google-cloud-dataflow, apache-beam

Utilizza i dati di diverse pipeline: google-cloud-dataflow, google-cloud-pubsub

Produttore sconosciuto per valore SingletonPCollectionView - google-cloud-dataflow, apache-beam

Elimina i dati da BigQuery durante lo streaming da Dataflow - google-bigquery, google-cloud-dataflow, apache-beam, google-cloud-pubub

Google Cloud DataFlow Randomize WritetoBigQuery - google-bigquery, google-cloud-platform, google-cloud-dataflow

Può google cloud dataflow (fascio apache) utilizzare ffmpeg per elaborare dati video o immagine - ffmpeg, google-cloud-dataflow

Ci sono corridori supportati per apache beam python oltre a google cloud dataflow? - apache-spark, google-cloud-dataflow, apache-beam, hpc

Qual è la latenza dei dati del log di streaming tra AWS e i servizi cloud di Google? - Amazon-web-services, google-bigquery, amazon-dynamodb, google-cloud-dataflow, amazon-kinesis