PySpark divide filas y convierte a RDD

Tengo un RDD en el que cada elemento tiene el siguiente formato

['979500797', ' 979500797,260973244733,2014-05-0402:05:12,645/01/105/9931,78,645/01/105/9931,a1,forward;979500797,260972593713,2014-05-0407:05:04,645/01/105/9931,22,645/01/105/863,a4,forward'] 

Quiero transformarlo en otro RDD tal que la clave sea la misma, es decir, 979500797, pero el valor es el resultado de la división en ‘;’ . En otras palabras, la salida final debe ser

 [ ['979500797', ' 979500797,260973244733,2014-05-0402:05:12,645/01/105/9931,78,645/01/105/9931,a1,forward'] ['979500797','979500797,260972593713,2014-05-0407:05:04,645/01/105/9931,22,645/01/105/863,a4,forward'] ] 

He estado tratando de usar un mapa como este

 df_feat3 = df_feat2.map(lambda (x, y):(x, y.split(';'))) 

pero no parece funcionar

Lo que necesitas aquí es un flatMap . flatMap toma la función que devuelve la secuencia y concatena los resultados.

 df_feat3 = df_feat2.flatMap(lambda (x, y): ((x, v) for v in y.split(';'))) 

En una nota lateral evitaría usar los parámetros de la tupla. Es una característica interesante, pero ya no está disponible en Python 3. Ver PEP 3113