Articles of r

Cómo eliminar elementos repetidos en un vector, similar a ‘establecer’ en Python

Tengo un vector con elementos repetidos, y me gustaría eliminarlos para que cada elemento aparezca solo una vez. En Python podría construir un Set partir de un vector para lograr esto, pero ¿cómo puedo hacer esto en R?

Eliminar la puntuación excepto los guiones dentro de la palabra Python

Ya hay una respuesta que se aproxima en R gsub(“[^[:alnum:][‘-]”, ” “, my_string) , pero no funciona en Python: my_string = ‘compactified on a calabi-yau threefold @ ,.’ re.sub(“[^[:alnum:][‘-]”, ” “, my_string) da ‘compactified on a calab yau threefold @ ,.’ Así que no solo elimina el guión entre palabras, sino que también elimina la […]

Equivalente a la función R ‘ave’ en Python Pandas

Tengo un dataframe en R. Ejemplo: d1<-structure(list(A = c(1L, 1L, 1L, 2L, 2L, 2L, 2L, 3L, 3L), B = 1:9), .Names = c("A", "B"), class = "data.frame", row.names = c(NA, -9L)) Quiero salida como d2<-structure(list(A = c(1L, 1L, 1L, 2L, 2L, 2L, 2L, 3L, 3L), B = 1:9, c = c(3L, 3L, 3L, 7L, 7L, […]

R o Python – haga un bucle con los datos de la prueba – Validación de la predicción en las próximas 24 horas (96 valores cada día)

Tengo un conjunto de datos grande, debajo de los conjuntos de datos de entrenamiento y prueba train_data es del 2016-01-29 al 2017-12-31 head(train_data) date Date_time Temp Ptot JFK AEH ART CS CP 1 2016-01-29 2016-01-29 00:00:00 30.3 1443.888 52.87707 49.36879 28.96548 6.239999 49.61212 2 2016-01-29 2016-01-29 00:15:00 30.3 1410.522 49.50248 49.58356 26.37977 5.024000 49.19649 3 […]

Detectando clusters geográficos

Tengo un cuadro de datos R que contiene longitud, latitud que se extiende sobre todo el mapa de EE. UU. Cuando X número de entradas están todas dentro de una pequeña región geográfica de unos pocos grados de longitud y unos pocos grados de latitud, quiero poder detectar esto y luego hacer que mi progtwig […]

Tratar el desequilibrio de clase en la clasificación binaria.

Aquí hay una breve descripción de mi problema: Estoy trabajando en una tarea de aprendizaje supervisado para entrenar a un clasificador binario . Tengo un conjunto de datos con una distribución de desequilibrio de clase grande: 8 casos negativos cada uno positivo. Utilizo la medida f , es decir, la media armónica entre especificidad y […]

Python: ¿Cómo hacer la manipulación de datos básica como en R?

Llevo varios años trabajando con R R es muy fuerte en la manipulación de datos. Estoy aprendiendo python y me gustaría saber cómo manipular los datos usando python. Básicamente, mis conjuntos de datos se organizan como marcos de datos (por ejemplo, hoja de Excel). Me gustaría saber (a modo de ejemplo) cómo se puede realizar […]

Estado de paralelización de pandas.apply ()

En los últimos años, se han pandas.apply() varios mensajes relacionados con la parallelization de pandas.apply() o publicaciones que describen problemas que podrían resolverse estructurando los datos como un dataframe y utilizando pandas.apply() si se implementara la parallelization . Mi pregunta a la comunidad de expertos aquí es cuál es el estado de esta capacidad, ya […]

Cómo empezar con Big Data Analysis

He sido usuario de R desde hace mucho tiempo y recientemente comencé a trabajar con Python. Al usar sistemas RDBMS convencionales para el almacenamiento de datos, y R / Python para procesar números, siento la necesidad de ensuciarme las manos con Big Data Analysis. Me gustaría saber cómo empezar con el procesamiento de Big Data. […]

análogo de matplotlib de ‘pares’ de R

R tiene un pairs funciones útiles que proporciona una buena matriz de diagtwigs de conexiones por pares entre variables en un conjunto de datos. La ttwig resultante es similar a la siguiente figura, copiada de esta publicación del blog : ¿Hay alguna función lista para usar basada en matplolib de python? He buscado en su […]