Articles of google bigquery

Configuración de GOOGLE_APPLICATION_CREDENTIALS para BigQuery Python CLI

Estoy tratando de conectarme a Google BigQuery a través de la API de BigQuery, usando Python. Sigo esta página aquí: https://cloud.google.com/bigquery/bigquery-api-quickstart Mi código es el siguiente: import os import argparse from apiclient.discovery import build from apiclient.errors import HttpError from oauth2client.client import GoogleCredentials GOOGLE_APPLICATION_CREDENTIALS = ‘./Peepl-cb1dac99bdc0.json’ def main(project_id): # Grab the application’s default credentials from the […]

Particionando una mesa

Bigquery permite la partición, solo por fecha, en este momento. Supongamos que tengo un millón de filas de la tabla con el campo inserted_timestamp marca de tiempo. Supongamos que este campo tiene fechas desde hace 1 año. ¿Cuál es la forma correcta de mover los datos existentes a una nueva tabla particionada? Editado Vi que […]

Obtención de error: redirect_uri_mismatch El URI de redireccionamiento en la solicitud: http: // localhost: 8080 / oauth2callback no coincide con un URI de redireccionamiento registrado

Recibo este error al intentar ejecutar mi aplicación … The redirect URI in the request: http://localhost:8080/oauth2callback did not match a registered redirect URI En la consola de google API he registrado mis URL de redireccionamiento Redirect URIs: http://localhost:8080/ Y en client_secrets.json también estoy usando lo mismo que redirigir url. Sigo este tutorial https://developers.google.com/bigquery/articles/dashboard#addoauth2 Editar: Acabo […]

Truncado de la tabla BigQuery antes de que la transmisión no funcione

Estamos utilizando BigQuery Python API para ejecutar algunos análisis. Para ello, creamos el siguiente adaptador: def stream_data(self, table, data, schema, how=None): r = self.connector.tables().list(projectId=self._project_id, datasetId=’lbanor’).execute() table_exists = [row[‘tableReference’][‘tableId’] for row in r[‘tables’] if row[‘tableReference’][‘tableId’] == table] if table_exists: if how == ‘WRITE_TRUNCATE’: self.connector.tables().delete(projectId=self._project_id, datasetId=’lbanor’, tableId=table).execute() body = { ‘tableReference’: { ‘tableId’: table, ‘projectId’: self._project_id, ‘datasetId’: […]

Análisis de datos para crear un objeto de datos json con Python

Aquí están mis datos de google bigquery para analizar: { u’kind’: u’bigquery#queryResponse’, u’rows’: [ { u’f’: [ { u’v’: u’the’ }, { u’v’: u’995′ }, { u’v’: u’1600′ } ] }, { u’f’: [ { u’v’: u’the’ }, { u’v’: u’942′ }, { u’v’: u’1607′ } ] }, { u’f’: [ { u’v’: u’the’ }, […]

Escribir eficientemente un dataframe de Pandas en Google BigQuery

Estoy intentando cargar una consulta grande de pandas.DataFrame en Google utilizando la función pandas.DataFrame.to_gbq() documentada aquí . El problema es que to_gbq() tarda 2.3 minutos, mientras que la carga directa a Google Cloud Storage GUI demora menos de un minuto. Estoy planeando subir un montón de marcos de datos (~ 32) cada uno con un […]

Crear una tabla a partir de los resultados de la consulta en Google BigQuery.

Estamos utilizando Google BigQuery a través de la API de Python. ¿Cómo puedo crear una tabla (una nueva o sobrescribir la anterior) a partir de los resultados de la consulta? Revisé la documentación de la consulta , pero no la encontré útil. Queremos simular: “SELEC … INTO …” de ANSI SQL.

Cómo insertar / agregar datos no estructurados a la tabla de bigquery

Fondo Quiero insertar / añadir JSON formateado de nueva línea en la tabla de bigquery través de la API del cliente de Python. P.ej: {“name”:”xyz”,mobile:xxx,location:”abc”} {“name”:”xyz”,mobile:xxx,age:22} El problema es que todos los campos en una fila son opcionales y no hay un esquema definido fijo para los datos. Consulta He leído que podemos usar tablas […]

¿Cómo obtener una lista de elementos de un PCollection en el flujo de datos de Google y usarlo en la tubería para hacer un bucle de Transformaciones de escritura?

Estoy usando Google Cloud Dataflow con el SDK de Python. Me gustaría : Obtenga una lista de fechas únicas de una colección de PC maestra Recorra las fechas en esa lista para crear PCollections filtradas (cada una con una fecha única), y escriba cada PCollection filtrada en su partición en una tabla particionada en el […]

Flujo de datos / haz de apache: ¿cómo acceder al nombre de archivo actual al pasar un patrón?

He visto responder esta pregunta antes en el desbordamiento de stack ( https://stackoverflow.com/questions/29983621/how-to-get-filename-when-using-file-pattern-match-in-google-cloud-dataflow ), pero no desde que apache beam ha agregado la funcionalidad de divisor divisible para python. ¿Cómo accedo al nombre de archivo del archivo actual que se está procesando al pasar un patrón de archivo a un grupo de gcs? Quiero pasar […]