Articles of google cloud dataflow

Leer / Abrir imagen de la instancia de la clase Python io.BufferedReader

Estoy luchando para abrir correctamente una imagen TIFF de una instancia de la clase io.BufferedReader de Python. Descargo la imagen desde una ruta GCS utilizando la siguiente librería, pero parece que no puedo abrir la imagen con herramientas tradicionales. # returns the file = beam.io.gcp.gcsio.GcsIO().open(“”, ‘r’) from PIL import Image img = Image.open(file.read()) <—- Fails […]

Utilice la ventana acoplable para las dependencias de flujo de datos de Google Cloud.

Estoy interesado en usar Google Cloud Dataflow para procesar en paralelo videos. Mi trabajo utiliza tanto OpenCV como tensorflow. ¿Es posible simplemente ejecutar los trabajadores dentro de una instancia de ventana acoplable, en lugar de instalar todas las dependencias desde el origen como se describe: https://cloud.google.com/dataflow/pipelines/dependencies-python Habría esperado una bandera para un contenedor docker, que […]

Cómo leer la tabla de BigQuery usando el código de canalización de Python en GCP Dataflow

¿Alguien podría compartir la syntax para leer / escribir la tabla de bigquery en una tubería escrita en python para GCP Dataflow?

Cómo crear un flujo de datos desde Pub / Sub a GCS en Python

Quiero usar Dataflow para mover datos de Pub / Sub a GCS. Básicamente, quiero que Dataflow acumule algunos mensajes en una cantidad de tiempo fija (por ejemplo, 15 minutos), luego escribo esos datos como archivo de texto en GCS cuando esa cantidad de tiempo haya pasado. Mi objective final es crear una canalización personalizada, por […]

apache_beam.transforms.util.Reshuffle () no está disponible para GCP Dataflow

He actualizado al último paquete apache_beam [gcp] a través de la pip install –upgrade apache_beam[gcp] . Sin embargo, noté que Reshuffle () no aparece en la distribución [gcp] . ¿Esto significa que no podré usar Reshuffle() en ningún canal de flujo de datos? ¿Hay alguna manera de evitar esto? ¿O es posible que el paquete […]

lectura de flujo de datos de google de la llave

Estoy tratando de leer una tabla de una base de datos de Google Spanner y escribirla en un archivo de texto para hacer una copia de seguridad, utilizando el flujo de datos de Google con el SDK de Python. He escrito el siguiente guión: from __future__ import absolute_import import argparse import itertools import logging import […]

Apache Beam Google Datastore ReadFromDatastore entity protobuf

Estoy tratando de usar la api de Google datastore de Apache beam para ReadFromDatastore p = beam.Pipeline(options=options) (p | ‘Read from Datastore’ >> ReadFromDatastore(gcloud_options.project, query) | ‘reformat’ >> beam.Map(reformat) | ‘Write To Datastore’ >> WriteToDatastore(gcloud_options.project)) El objeto que se pasa a mi función de reformateo es type google.cloud.proto.datastore.v1.entity_pb2.Entity Está en un formato de protobuf que […]

Tabla de consulta de tuberías de Apache Beam después de escribir la tabla

Tengo un flujo de datos / flujo de datos de Apache que está escribiendo resultados en una tabla de BigQuery. Entonces me gustaría consultar esta tabla para una parte separada de la tubería. Sin embargo, no puedo encontrar la manera de configurar correctamente esta dependencia de canalización. La nueva tabla que escribo (y luego quiero […]

Streaming de tuberías con sumideros de BigQuery en python

Estoy construyendo una tubería de transmisión de haz apache cuya fuente es Pubsub y sumidero es BigQuery. He recibido el mensaje de error: “Falló el flujo de trabajo. Causas: Código de mensaje desconocido”. Por más críptico que sea este mensaje, ahora creo que BigQuery no es compatible como sumidero de las tuberías de transmisión, dice […]

Uso de PYTHON para ejecutar una plantilla de flujo de datos de Google

Quiero ejecutar una plantilla de flujo de datos de Google usando PYTHON. En realidad, he estado ejecutando plantillas de flujo de datos utilizando la API REST de flujo de datos o la integración de funciones en la nube. Esta es la ejecución de mi plantilla de Dataflow en Postman: URL: https://dataflow.googleapis.com/v1b3/projects/ {{my-project-id}} / templates: launch? […]