Ayuda en la programación, respuestas a preguntas / Google Bigquery / BigQueryIO.read (). FromQuery performance slow - google-bigquery, google-cloud-dataflow, apache-beam

BigQueryIO.read (). FromQuery performance slow - google-bigquery, google-cloud-dataflow, apache-beam

Una de las cosas que he notado es que laEl rendimiento de BigQueryIO.read (). fromQuery () es bastante más lento que el rendimiento de BigQueryIO.read (). from () en Apache Beam. ¿Por qué pasó esto? ¿Y hay alguna manera de mejorarlo?

Respuestas

4 para la respuesta № 1

Como se discute en esta otra pregunta similar desbordamiento de pila (donde realmente discutieron sobre los precios y no la velocidad), la razón por la que percibes diferencias notables entre esos dos Métodos de lectura BigQueryIO Es porque, bajo el capó, hacen operaciones completamente diferentes:

BigQueryIO.read.from() Lee directamente toda la tabla de BigQuery. Esta función exporta toda la tabla a archivos temporales en Google Cloud Storage, desde donde se leerá más adelante. Esto no requiere casi ningún cálculo, ya que solo realiza un trabajo de exportación, y luego Dataflow lee desde GCS (no desde BigQuery).
BigQueryIO.read.fromQuery() Ejecuta una consulta y luego lee los resultados.Recibido después de la ejecución de la consulta. Por lo tanto, esta función requiere más tiempo, dado que requiere que una consulta se ejecute primero (lo que incurrirá en los costos económicos y computacionales correspondientes).

Así que, en definitiva, la principal diferencia entre aquellos.Dos funciones de Apache Beam es que una lee toda la tabla de una exportación de BigQuery ⟷ GCS, mientras que la otra ejecuta una consulta y luego lee sus resultados. Sus conceptos subyacentes son completamente diferentes, así que como respuesta a su pregunta sobre si hay alguna forma de mejorar el rendimiento, no, no hay nada que pueda hacer una parte del diseño de consulta optima para su caso de uso siguiendo las mejores prácticas de BigQuery.

preguntas relacionadas

conecta la instancia de postgres de sql de la nube de google desde el conducto del rayo - python, postgresql, google-cloud-sql, apache-beam

¿Cómo usar pandas en el flujo de datos de Google Cloud? - pandas, google-cloud-dataflow, apache-beam

Apache Beam - BigQueryIO lectura de proyección - java, google-bigquery, apache-beam, apache-beam-io

¿Es posible usar setSchemaUpdateOptions (ALLOW_FIELD_ADDITION) desde BigQuery cargar la configuración en Dataflow con BigQueryIO.Write incorporado? - java, google-bigquery, google-cloud-dataflow

¿Tiene sentido usar Google DataFlow / Apache?¿Emisión para paralelizar el procesamiento de imágenes o las tareas de rastreo? - google-cloud-platform, google-cloud-data flow, azure-data-factory, amazon-data-pipeline, apache-beam

Paso de entrada lateral en PCollection Partition - google-cloud-platform, google-cloud-dataflow, apache-beam

¿Cómo guardar elementos de SCollection en diferentes tablas de BigQuery? - flujo de datos de google-cloud, apache-beam, spotify-scio

El trabajo de flujo de datos falla, pero el paso aún se muestra exitoso - google-cloud-dataflow

Apache beam 2.2 pipeline.apply no existe tal excepción de método - google-cloud-dataflow, apache-beam

Ejecute un proceso exactamente después de la operación BigQueryIO.write () - google-cloud-dataflow, apache-beam

¿Cómo usar BigQuery Standard SQL en Dataflow? - google-bigquery, google-cloud-data flow

Elimine datos de BigQuery mientras transmite datos desde Dataflow: google-bigquery, google-cloud-dataflow, apache-beam, google-cloud-pubsub

No se pueden escribir valores enteros anulables en BigQuery utilizando Cloud Dataflow - google-bigquery, google-cloud-data flow

Ejecución de consultas de Google Bigquery utilizando el flujo de datos de la nube de Google - google-bigquery, flujo de datos de Google-cloud

API de Google DataFlow para ingerir HLL_COUNT.INIT en BigQuery - google-bigquery, google-cloud-data flow

Google Cloud DataFlow Randomize WritetoBigQuery - google-bigquery, google-cloud-platform, google-cloud-dataflow

Configuración de filas máximas por solicitud en Dataflow Bigquery - google-bigquery, apache-beam, google-cloud-pubsub, data flow

Pubsub Hook to Bigquery: google-app-engine, google-bigquery, google-cloud-pubsub

PCollection <Entity> a PCollection <TableRows> - google-app-engine, google-bigquery, google-cloud-data flow

¿Hay corredores compatibles con apache beam python además de Google Cloud Dataflow? - apache-spark, google-cloud-dataflow, apache-beam, hpc