Articles of nlp

¿Cómo extraer nombres usando NLTK pos_tag ()?

Soy bastante nuevo en Python. No soy capaz de resolver el error. Quiero extraer nombres usando NLTK. He escrito el siguiente código: import nltk sentence = “At eight o’clock on Thursday film morning word line test best beautiful Ram Aaron design” tokens = nltk.word_tokenize(sentence) tagged = nltk.pos_tag(tokens) length = len(tagged) – 1 a = list() […]

¿Cómo configurar palabras de parada personalizadas para sklearn CountVectorizer?

Estoy intentando ejecutar LDA (Asignación de Dirichlet Latente) en un conjunto de datos de texto que no está en inglés. En el tutorial de sklearn, hay una parte en la que se cuenta la frecuencia de los términos de las palabras para alimentar el LDA: tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2, max_features=n_features, stop_words=’english’) Que tiene función de […]

Encontrar sujeto en oración incompleta con NLTK

Tengo una lista de productos que estoy tratando de clasificar en categorías. Se describirán con oraciones incompletas como: “Alojamiento de unidad de estado sólido” “Cable de disco duro” “Disco Duro 1TB” “Disco duro de 500 GB, restaurado por el fabricante” ¿Cómo puedo usar python y NLP para obtener una salida como “Carcasa, Cable, Unidad, Unidad” […]

Cadena común más larga sin cortar una palabra – python

Dado lo siguiente, puedo encontrar la subcadena común más larga: s1 = “this is a foo bar sentence .” s2 = “what the foo bar blah blah black sheep is doing ?” def longest_common_substring(s1, s2): m = [[0] * (1 + len(s2)) for i in xrange(1 + len(s1))] longest, x_longest = 0, 0 for x […]

Error de deencoding ‘utf-8’ al cargar un módulo word2vec

Tengo que usar un módulo word2vec que contiene toneladas de caracteres chinos. El módulo fue capacitado por mis compañeros de trabajo utilizando Java y se guarda como un archivo bin. Instalé gensim e intenté cargar el módulo, pero ocurrió el siguiente error: In [1]: import gensim In [2]: model = gensim.models.Word2Vec.load_word2vec_format(‘/data5/momo-projects/user_interest_classification/code/word2vec/vectors_groups_1105.bin’, binary=True) UnicodeDecodeError: ‘utf-8’ codec […]

¿Cómo puedo eliminar las tags POS antes de las barras diagonales en nltk?

Esto es parte de mi proyecto en el que necesito representar la salida después de la detección de frases como esta: (a, x, b) donde a, x, b son frases. Construí el código y obtuve la salida como esta: (CLAUSE (NP Jack/NNP) (VP loved/VBD) (NP Peter/NNP)) (CLAUSE (NP Jack/NNP) (VP stayed/VBD) (NP in/IN London/NNP)) (CLAUSE […]

Entendiendo el Cuerpo Transformado LDA en Gensim

Traté de examinar el contenido del corpus BOW frente al LDA [Corpus BOW] (transformado por el modelo LDA entrenado en ese corpus con, por ejemplo, 35 temas) encontré el siguiente resultado: DOC 1 : [(1522, 1), (2028, 1), (2082, 1), (6202, 1)] LDA 1 : [(29, 0.80571428571428572)] DOC 2 : [(1522, 1), (5364, 1), (6202, […]

Cómo estructurar una neural network LSTM para clasificación

Tengo datos que tienen varias conversaciones entre dos personas. Cada oración tiene algún tipo de clasificación. Estoy intentando usar una red de PNL para clasificar cada oración de la conversación. Probé una red de convolución y obtuve resultados decentes (aunque no pioneros). Me di cuenta de que, dado que se trata de una conversación de […]

Proceso de PNL para combinar colocaciones comunes.

Tengo un corpus en el que estoy usando el paquete tm en R (y también imitando el mismo script en NLTK en python). Estoy trabajando con unigtwigs, pero me gustaría un parser de algún tipo para combinar palabras comúnmente ubicadas como si fueran una sola palabra, es decir, me gustaría dejar de ver “Nuevo” y […]

Conservar líneas vacías con Punkt Tokenizer de NLTK

Estoy usando el tokenizador de oraciones PUNKT de NLTK para dividir un archivo en una lista de oraciones, y me gustaría conservar las líneas vacías dentro del archivo: from nltk import data tokenizer = data.load(‘tokenizers/punkt/english.pickle’) s = “That was a very loud beep.\n\n I don’t even know\n if this is working. Mark?\n\n Mark are you […]