diferencia entre similar () y concordancia en nltk

He leído el texto 1.similar (“monstruoso”) y el texto1.concordancia (“monstruoso”) de esto .

Donde no pude obtener la respuesta satisfactoria para la diferencia entre text1.concordance('monstrous') y text1.similar('monstrous') del kit de herramientas de procesamiento de lenguaje natural en python.

Entonces, ¿podría dar la explicación con un ejemplo en detalle?

El uso de la concordance(token) le proporciona el contexto que rodea al token argumento. Te mostrará las frases donde aparece el token .

El uso de similar(token) devuelve una lista de palabras que aparecen en el mismo contexto que token . En este caso, el contexto es solo las palabras directamente a cada lado del token .

Entonces, mirando el texto de Moby Dick ( text1 ). Podemos comprobar la concordancia de 'monstrous'

 text1.concordance('monstrous') # returns: Displaying 11 of 11 matches: ong the former , one was of a most monstrous size . ... This came towards us , ON OF THE PSALMS . " Touching that monstrous bulk of the whale or ork we have r ll over with a heathenish array of monstrous clubs and spears . Some were thick d as you gazed , and wondered what monstrous cannibal and savage could ever hav that has survived the flood ; most monstrous and most mountainous ! That Himmal they might scout at Moby Dick as a monstrous fable , or still worse and more de th of Radney .'" CHAPTER 55 Of the Monstrous Pictures of Whales . I shall ere l ing Scenes . In connexion with the monstrous pictures of whales , I am strongly ere to enter upon those still more monstrous stories of them which are to be fo ght have been rummaged out of this monstrous cabinet there is no telling . But of Whale - Bones ; for Whales of a monstrous size are oftentimes cast up dead u 

Y luego podemos obtener una lista de palabras que aparecen en contextos similares a 'monstrous' . El contexto para la primera línea devuelta es 'most _____ size' .

 text1.similar('monstrous') # returns: determined maddens contemptible modifies abundant tyrannical puzzled trustworthy impalpable gamesome curious mean pitiable untoward christian subtly passing domineering uncommon true 

Si tomamos la palabra 'true' y verificamos su concordancia con text.concordance('true') , recuperaremos los primeros 25 de los 87 usos de la palabra ‘ true ‘. Esto no es muy útil, pero NLTK proporciona un método adicional llamado common_contexts que se muestra cuando el uso de una lista de palabras comparte las mismas palabras circundantes.

 text1.common_contexts(['monstrous', 'true']) # returns: the_pictures 

Este resultado nos dice que las frases "the monstrous pictures" y "the true pictures" aparecen en Moby Dick.

Explicaré con el ejemplo:

 text1.similar("monstrous") 

emitirá las palabras con un contexto similar, como word1 ______ word2 . Por ejemplo, da salida a la palabra triste . Si tu corres:

 text1.concordance("monstrous") 

Verás entre los partidos la línea:

que ha sobrevivido al diluvio; ¡El más monstruoso y el más montañoso! Que himmal

Si tu corres:

 text1.concordance("doleful") 

Verás entre los partidos la línea:

sus perspectivas. ¡Hay un funeral más triste y más mocking! El mar

Y

 text1.common_contexts(["monstrous", "doleful"]) 

emitirá palabras comunes circundantes de monstruosas y tristes que son “la mayoría” y “y”

most_and

Concordance(token) proporciona el contexto en el que se utiliza un token. Similar(token) proporciona otras palabras que aparecen en contextos similares.

Para ilustrar, aquí una descripción más general para aproximar su funcionalidad.

1) Concordance(token) : Esto devuelve un número predefinido de palabras a la izquierda y derecha de su token (llamemos a esta colección de palabras “Z”). Lo hace para cada instancia que su token aparezca en el texto.

2) similar(token) : una palabra aparecerá aquí si su aparición dentro de las palabras del conjunto “Z” es bastante probable.