Articles of agrupación de

Python, multiproceso demasiado lento, multiproceso

Soy un novato de multiprocesamiento, Sé algo sobre el enhebrado, pero necesito boost la velocidad de este cálculo, con suerte con el multiprocesamiento: Descripción de ejemplo: envía una cadena a un hilo, altera una prueba de cadena + referencia, envía el resultado de vuelta para imprimir. from threading import Thread class Alter(Thread): def __init__(self, word): […]

Agrupar objetos para lograr una propiedad media similar para todos los grupos.

Tengo una colección de objetos, cada uno de los cuales tiene un “peso” numérico. Me gustaría crear grupos de estos objetos de manera que cada grupo tenga aproximadamente la misma media aritmética de pesos de objetos. Los grupos no necesariamente tendrán el mismo número de miembros, pero el tamaño de los grupos estará uno dentro […]

¿Cómo obtener la cantidad de “trabajo” que queda por hacer en un Pool de multiprocesamiento de Python?

Hasta ahora, siempre que necesitaba utilizar el multiprocessing lo he hecho creando manualmente un “grupo de procesos” y compartiendo una Cola de trabajo con todos los subprocesos. Por ejemplo: from multiprocessing import Process, Queue class MyClass: def __init__(self, num_processes): self._log = logging.getLogger() self.process_list = [] self.work_queue = Queue() for i in range(num_processes): p_name = ‘CPU_%02d’ […]

Pandas – Groupby y crear nuevos DataFrame?

Esta es mi situacion In[1]: data Out[1]: Item Type 0 Orange Edible, Fruit 1 Banana Edible, Fruit 2 Tomato Edible, Vegetable 3 Laptop Non Edible, Electronic In[2]: type(data) Out[2]: pandas.core.frame.DataFrame Lo que quiero hacer es crear un dataframe de solo Fruits , por lo que debo groupby tal manera que Fruit exista en Type . […]

Agrupando los mismos elementos recurrentes que ocurren en una fila de la lista

Por ejemplo, tenemos una lista como esta: L = [“item1”, “item2”, “item3”, “item3”, “item3”, “item1”, “item2”, “item4”, “item4”, “item4”] Quiero empaquetarlos en la lista de tuplas de la forma: [(“item1”, 1), (“item2”, 1), (“item3”, 3),… (“item1”, 1)] Ya he desarrollado un algoritmo que hace algo similar, para obtener: {item1: 2, item2: 2, …} (Encuentra todas […]

Python equivalente a R “split” -function

En R, puedes dividir un vector según los factores de otro vector: > a b split(a,b) $`1` [1] 1 3 5 7 9 $`2` [1] 2 4 6 8 10 Así, agrupando una lista (en términos de python) de acuerdo con los valores de otra lista (de acuerdo con el orden de los factores). ¿Hay […]

¿Una receta para agrupar / agregar datos?

Tengo algunos datos almacenados en una lista que me gustaría agrupar según un valor. Por ejemplo, si mis datos son data = [(1, ‘a’), (2, ‘x’), (1, ‘b’)] y quiero agruparlo por el primer valor en cada tupla para obtener result = [(1, ‘ab’), (2, ‘x’)] ¿Cómo lo haría? De manera más general, ¿cuál es […]

Lista de resultados de Groupby en grupos vacíos.

Estaba jugando para sentir mejor el grupo de groupby , así que groupby una lista de tuplas por el número y traté de obtener una lista de los grupos resultantes. Sin embargo, cuando convierto el resultado de groupby a una lista, obtengo un resultado extraño: todos, excepto el último grupo, están vacíos. ¿Porqué es eso? […]

¿Controlando la prioridad de progtwigción de los hilos de python?

He escrito una secuencia de comandos que utiliza dos grupos de subprocesos de diez subprocesos cada uno para extraer datos de una API. El grupo de subprocesos implementa este código en ActiveState . Cada grupo de subprocesos está supervisando una base de datos Redis a través de PubSub para nuevas entradas. Cuando se publica una […]

Paquete Python para Spider Multi-Threaded w / Proxy Support?

En lugar de utilizar urllib, ¿alguien sabe cuál es el paquete más eficiente para la descarga rápida y multiproceso de URL que pueden operar a través de proxies http? Sé de algunos como Twisted, Scrapy, libcurl, etc., pero no sé lo suficiente sobre ellos para tomar una decisión o incluso si pueden usar proxies. ¿Alguien […]