Apache Spark Python Cosine Similitud sobre DataFrames
Para un sistema de recomendación, necesito calcular la similitud de coseno entre todas las columnas de todo un Spark DataFrame. En Pandas solía hacer esto: import sklearn.metrics as metrics import pandas as pd df= pd.DataFrame(…some dataframe over here 😀 …) metrics.pairwise.cosine_similarity(df.T,df.T) Eso genera la Matriz de Similitud entre las columnas (ya que usé la transposición) […]