Articles of parallel processing

¿Quién ejecuta la callback cuando se utiliza el método apply_async de un grupo de multiprocesamiento?

Estoy tratando de entender un poco de lo que sucede detrás de la escena cuando se utiliza el método apply_sync de un grupo de multiprocesamiento. ¿Quién ejecuta el método de callback? ¿Es el proceso principal que se llama apply_async? Digamos que envío un montón de comandos apply_async con devoluciones de llamada y luego continúo con […]

análisis de archivos paralelos, múltiples núcleos de CPU

Anteriormente hice una pregunta relacionada pero muy general (vea especialmente esta respuesta ). Esta pregunta es muy específica. Este es todo el código que me importa: result = {} for line in open(‘input.txt’): key, value = parse(line) result[key] = value La función de parse es completamente autónoma (es decir, no utiliza ningún recurso compartido). Tengo […]

Procesamiento paralelo desde una cola de comandos en Linux (bash, python, ruby ​​… lo que sea)

Tengo una lista / cola de 200 comandos que necesito para ejecutar en un shell en un servidor Linux. Solo quiero tener un máximo de 10 procesos en ejecución (desde la cola) a la vez. Algunos procesos tardarán unos segundos en completarse, otros procesos tardarán mucho más. Cuando un proceso finalice quiero que el siguiente […]

Una forma sencilla de utilizar las opciones paralelas de las funciones de aprendizaje de scikit en HPC

En muchas funciones de scikit-learn implementado paralelización fácil de usar. Por ejemplo, en sklearn.cross_validation.cross_val_score , simplemente pasa la cantidad deseada de trabajos computacionales en el argumento n_jobs . Y para PC con procesador multi-core funcionará muy bien. ¿Pero si quiero usar dicha opción en un clúster de alto rendimiento (con el paquete OpenMPI instalado y […]

Modificar objeto en multiproceso python

Tengo una gran variedad de objetos personalizados en los que necesito realizar tareas independientes (en paralelo), incluida la modificación de parámetros de objetos. He intentado usar tanto un Manager (). Dict como una memoria compartida, pero ninguno está funcionando. Por ejemplo: import numpy as np import multiprocessing as mp import sharedmem as shm class Tester: […]

¿Existe un mapa paralelo simple basado en procesos para python?

Estoy buscando un mapa paralelo simple basado en procesos para Python, es decir, una función parmap(function,[data]) eso ejecutaría la función en cada elemento de [datos] en un proceso diferente (bueno, en un núcleo diferente, pero AFAIK, la única manera de ejecutar cosas en diferentes núcleos en Python es iniciar múltiples intérpretes) y devolver una lista […]

Significado de inter_op_parallelism_threads y intra_op_parallelism_threads

Alguien puede explicar los siguientes términos de TensorFlow inter_op_parallelism_threads intra_op_parallelism_threads o, por favor, proporcione enlaces a la fuente correcta de explicación. He realizado algunas pruebas cambiando los parámetros, pero los resultados no han sido consistentes para llegar a una conclusión.

¿Cómo paralelizar muchas comparaciones de cadenas (difusas) usando aplicar en Pandas?

tengo el siguiente problema Tengo un maestro de marcos de datos que contiene oraciones, como master Out[8]: original 0 this is a nice sentence 1 this is another one 2 stackoverflow is nice Por cada fila en Master, busco en otro esclavo Dataframe para la mejor coincidencia usando fuzzywuzzy . Uso fuzzywuzzy porque las oraciones […]

Misma salida en diferentes trabajadores en multiprocesamiento.

Tengo casos muy simples donde el trabajo a realizar se puede dividir y distribuir entre los trabajadores. He intentado un ejemplo multiprocesamiento muy simple desde aquí : import multiprocessing import numpy as np import time def do_calculation(data): rand=np.random.randint(10) print data, rand time.sleep(rand) return data * 2 if __name__ == ‘__main__’: pool_size = multiprocessing.cpu_count() * 2 […]

Paralelizar aplicar después de pandas groupby

He usado rosetta.parallel.pandas_easy para paralelizar aplicar después de agrupar, por ejemplo: from rosetta.parallel.pandas_easy import groupby_to_series_to_frame df = pd.DataFrame({‘a’: [6, 2, 2], ‘b’: [4, 5, 6]},index= [‘g1’, ‘g1’, ‘g2’]) groupby_to_series_to_frame(df, np.mean, n_jobs=8, use_apply=True, by=df.index) Sin embargo, ¿alguien ha descubierto cómo paralelizar una función que devuelve un dataframe? Este código falla para rosetta, como se esperaba. def […]