Desarrollo de Python

Python es un lenguaje de programación multi-paradigma, de tipo dinámico, multipropósito

Spark Python: error del escalador estándar “No es compatible … SparseVector”

Volví a golpear la pared de bloques. Soy un novato total, así que tengo que confiar en tu poderoso conocimiento de nuevo. Estaba empezando con un conjunto de datos, con este aspecto: ,user_account_id,user_lifetime,user_no_outgoing_activity_in_days,user_account_balance_last,user_spendings,reloads_inactive_days,reloads_count,reloads_sum,calls_outgoing_count,calls_outgoing_spendings,calls_outgoing_duration,calls_outgoing_spendings_max,calls_outgoing_duration_max,calls_outgoing_inactive_days,calls_outgoing_to_onnet_count,calls_outgoing_to_onnet_spendings,calls_outgoing_to_onnet_duration,calls_outgoing_to_onnet_inactive_days,calls_outgoing_to_offnet_count,calls_outgoing_to_offnet_spendings,calls_outgoing_to_offnet_duration,calls_outgoing_to_offnet_inactive_days,calls_outgoing_to_abroad_count,calls_outgoing_to_abroad_spendings,calls_outgoing_to_abroad_duration,calls_outgoing_to_abroad_inactive_days,sms_outgoing_count,sms_outgoing_spendings,sms_outgoing_spendings_max,sms_outgoing_inactive_days,sms_outgoing_to_onnet_count,sms_outgoing_to_onnet_spendings,sms_outgoing_to_onnet_inactive_days,sms_outgoing_to_offnet_count,sms_outgoing_to_offnet_spendings,sms_outgoing_to_offnet_inactive_days,sms_outgoing_to_abroad_count,sms_outgoing_to_abroad_spendings,sms_outgoing_to_abroad_inactive_days,sms_incoming_count,sms_incoming_spendings,sms_incoming_from_abroad_count,sms_incoming_from_abroad_spendings,gprs_session_count,gprs_usage,gprs_spendings,gprs_inactive_days,last_100_reloads_count,last_100_reloads_sum,last_100_calls_outgoing_duration,last_100_calls_outgoing_to_onnet_duration,last_100_calls_outgoing_to_offnet_duration,last_100_calls_outgoing_to_abroad_duration,last_100_sms_outgoing_count,last_100_sms_outgoing_to_onnet_count,last_100_sms_outgoing_to_offnet_count,last_100_sms_outgoing_to_abroad_count,last_100_gprs_usage,user_intake,user_has_outgoing_calls,user_has_outgoing_sms,user_use_gprs,user_does_reload,n_months,month,churn 0,1031,947.0,0.3333333333333333,10.993333333333334,10.3,12.0,1.3333333333333333,10.013333333333334,83.66666666666667,5.859999999999999,55.69,0.5966666666666667,10.333333333333334,0.6666666666666666,0.0,0.0,0.0,0.6666666666666666,23.333333333333332,2.8833333333333333,25.0,0.6666666666666666,0.0,0.0,0.0,0.6666666666666666,135.33333333333334,4.44,0.06,0.3333333333333333,16.333333333333332,0.98,0.3333333333333333,57.666666666666664,3.4599999999999995,0.3333333333333333,0.0,0.0,0.3333333333333333,14.0,0.0,0.0,0.0,0.0,0.0,0.0,1307.0,5.666666666666667,22.01666666666667,130.48,0.0,65.33333333333333,0.0,287.3333333333333,34.0,113.66666666666667,0.0,0.0,0,1,1,0,1,3,9,0 1,4231,951.0,1.3333333333333333,27.546666666666667,6.45,22.0,1.0,12.013333333333334,46.333333333333336,6.45,47.150000000000006,1.3233333333333333,8.81,1.3333333333333333,0.0,0.0,0.0,1.3333333333333333,31.666666666666668,6.400000000000001,42.656666666666666,1.3333333333333333,0.0,0.0,0.0,1.3333333333333333,0.6666666666666666,0.0,0.0,57.0,0.0,0.0,57.0,0.0,0.0,57.0,0.0,0.0,57.0,10.666666666666666,0.0,0.0,0.0,0.0,0.0,0.0,1307.0,4.0,32.026666666666664,156.96666666666667,0.0,145.42999999999998,0.0,1.6666666666666667,0.0,0.3333333333333333,0.0,0.0,0,1,1,0,1,3,9,0 2,5231,523.0,0.6666666666666666,14.62,1.0999999999999999,1307.0,0.0,0.0,14.333333333333334,1.0999999999999999,7.573333333333333,0.7266666666666666,4.84,0.6666666666666666,0.0,0.0,0.0,0.6666666666666666,8.333333333333334,0.3233333333333333,2.1566666666666667,0.6666666666666666,0.0,0.0,0.0,0.6666666666666666,0.0,0.0,0.0,1307.0,0.0,0.0,1307.0,0.0,0.0,1307.0,0.0,0.0,1307.0,8.333333333333334,0.0,0.0,0.0,0.0,0.0,0.0,1307.0,0.0,0.0,47.330000000000005,0.0,10.356666666666667,0.0,0.0,0.0,0.0,0.0,0.0,0,1,0,0,0,3,9,0 Y mi código se ve así: ca1DF = ( sqlContext.read.load(“merged.csv”, format=”com.databricks.spark.csv”, header=True, inferSchema=True) .rdd.toDF([“user_account_id”, “user_lifetime”, “user_no_outgoing_activity_in_days”, “user_account_balance_last”, “user_spendings”, “reloads_inactive_days”, […]