¿Cómo especificar el tamaño de bloque de parquet y el tamaño de página en PySpark? He buscado en todas partes, pero no puedo encontrar ninguna documentación para las llamadas de función o las bibliotecas de importación.
Según los archivos de usuarios de chispas.
sc.hadoopConfiguration.setInt("dfs.blocksize", some_value) sc.hadoopConfiguration.setInt("parquet.block.size", some_value)
así que en PySpark
sc._jsc.hadoopConfiguration().setInt("dfs.blocksize", some_value) sc._jsc.hadoopConfiguration().setInt("parquet.block.size", some_value)