Soy un novato de multiprocesamiento, Sé algo sobre el enhebrado, pero necesito boost la velocidad de este cálculo, con suerte con el multiprocesamiento: Descripción de ejemplo: envía una cadena a un hilo, altera una prueba de cadena + referencia, envía el resultado de vuelta para imprimir. from threading import Thread class Alter(Thread): def __init__(self, word): […]
Tengo una colección de objetos, cada uno de los cuales tiene un “peso” numérico. Me gustaría crear grupos de estos objetos de manera que cada grupo tenga aproximadamente la misma media aritmética de pesos de objetos. Los grupos no necesariamente tendrán el mismo número de miembros, pero el tamaño de los grupos estará uno dentro […]
Hasta ahora, siempre que necesitaba utilizar el multiprocessing lo he hecho creando manualmente un “grupo de procesos” y compartiendo una Cola de trabajo con todos los subprocesos. Por ejemplo: from multiprocessing import Process, Queue class MyClass: def __init__(self, num_processes): self._log = logging.getLogger() self.process_list = [] self.work_queue = Queue() for i in range(num_processes): p_name = ‘CPU_%02d’ […]
Esta es mi situacion In[1]: data Out[1]: Item Type 0 Orange Edible, Fruit 1 Banana Edible, Fruit 2 Tomato Edible, Vegetable 3 Laptop Non Edible, Electronic In[2]: type(data) Out[2]: pandas.core.frame.DataFrame Lo que quiero hacer es crear un dataframe de solo Fruits , por lo que debo groupby tal manera que Fruit exista en Type . […]
Por ejemplo, tenemos una lista como esta: L = [“item1”, “item2”, “item3”, “item3”, “item3”, “item1”, “item2”, “item4”, “item4”, “item4”] Quiero empaquetarlos en la lista de tuplas de la forma: [(“item1”, 1), (“item2”, 1), (“item3”, 3),… (“item1”, 1)] Ya he desarrollado un algoritmo que hace algo similar, para obtener: {item1: 2, item2: 2, …} (Encuentra todas […]
En R, puedes dividir un vector según los factores de otro vector: > a b split(a,b) $`1` [1] 1 3 5 7 9 $`2` [1] 2 4 6 8 10 Así, agrupando una lista (en términos de python) de acuerdo con los valores de otra lista (de acuerdo con el orden de los factores). ¿Hay […]
Tengo algunos datos almacenados en una lista que me gustaría agrupar según un valor. Por ejemplo, si mis datos son data = [(1, ‘a’), (2, ‘x’), (1, ‘b’)] y quiero agruparlo por el primer valor en cada tupla para obtener result = [(1, ‘ab’), (2, ‘x’)] ¿Cómo lo haría? De manera más general, ¿cuál es […]
Estaba jugando para sentir mejor el grupo de groupby , así que groupby una lista de tuplas por el número y traté de obtener una lista de los grupos resultantes. Sin embargo, cuando convierto el resultado de groupby a una lista, obtengo un resultado extraño: todos, excepto el último grupo, están vacíos. ¿Porqué es eso? […]
He escrito una secuencia de comandos que utiliza dos grupos de subprocesos de diez subprocesos cada uno para extraer datos de una API. El grupo de subprocesos implementa este código en ActiveState . Cada grupo de subprocesos está supervisando una base de datos Redis a través de PubSub para nuevas entradas. Cuando se publica una […]
En lugar de utilizar urllib, ¿alguien sabe cuál es el paquete más eficiente para la descarga rápida y multiproceso de URL que pueden operar a través de proxies http? Sé de algunos como Twisted, Scrapy, libcurl, etc., pero no sé lo suficiente sobre ellos para tomar una decisión o incluso si pueden usar proxies. ¿Alguien […]