Articles of nlp

Posición absoluta de las hojas en el árbol NLTK.

Estoy tratando de encontrar el intervalo (índice de inicio, índice final) de una frase de nombre en una oración dada. El siguiente es el código para extraer frases nominales. sent=nltk.word_tokenize(a) sent_pos=nltk.pos_tag(sent) grammar = r””” NBAR: {*} # Nouns and Adjectives, terminated with Nouns NP: {} {} # Above, connected with in/of/etc… VP: {?} {?} {?} […]

Cargue el modelo NER personalizado Stanford CoreNLP

He creado mi propio modelo NER con el software “Stanford-NER” de Stanford y siguiendo estas instrucciones. Soy consciente de que CoreNLP carga tres modelos NER de la caja en el siguiente orden: edu/stanford/nlp/models/ner/english.all.3class.distsim.crf.ser.gz edu/stanford/nlp/models/ner/english.muc.7class.distsim.crf.ser.gz edu/stanford/nlp/models/ner/english.conll.4class.distsim.crf.ser.gz Ahora quiero incluir mi modelo NER en la lista de arriba y tener el texto etiquetado por mi modelo NER […]

Agrupar por matriz dispersa en scipy y devolver una matriz

Hay algunas preguntas sobre el uso de groupby con matrices dispersas en SO. Sin embargo, la salida parece ser listas, diccionarios , marcos de datos y otros objetos. Estoy trabajando en un problema de PNL y me gustaría mantener todos los datos en matrices dispersas durante el procesamiento para evitar errores de memoria. Aquí está […]

CFG usando tags POS en NLTK

Estoy tratando de verificar si una oración dada es gtwigtical usando NLTK. Ex: OK: la ballena lame la tristeza NO OK: Lo mejor que he tenido Sé que podría hacer el etiquetado POS, luego usar un analizador CFG y verificar de esa manera, pero todavía tengo que encontrar un CFG que use tags POS en […]

nltk Stanford NERTagger: cómo obtener nombres propios sin mayúsculas

Estoy tratando de usar Stanford NERTagger y nltk para extraer palabras clave de un fragmento de texto. docText=”John Donk works for POI. Brian Jones wants to meet with Xyz Corp. for measuring POI’s Short Term performance Metrics.” words = re.split(“\W+”,docText) stops = set(stopwords.words(“english”)) #remove stop words from the list words = [w for w in […]

¿Cómo quitar la puntuación?

Estoy usando el tokenizer de NLTK en Python . Ya hay un montón de respuestas para eliminar las puntuaciones en el foro. Sin embargo, ninguno de ellos aborda todos los siguientes problemas juntos: Más de un símbolo en una fila . Por ejemplo, la frase: Él dijo, “eso es todo”. Debido a que hay una […]

¿Cómo combinar n-grams en un vocabulario en Spark?

Preguntándose si hay una función Spark incorporada para combinar las funciones 1, 2, n-gramo en un solo vocabulario. La configuración de n=2 en NGram seguida de la invocación de los resultados de CountVectorizer en un diccionario que contiene solo 2 gramos. Lo que realmente quiero es combinar todos los frecuentes 1 gramos, 2 gramos, etc. […]

Buena forma de agregar términos al patrón de Python singularizar

Estoy usando el patrón de python para obtener la forma singular de los sustantivos en inglés. In [1]: from pattern.en import singularize In [2]: singularize(‘patterns’) Out[2]: ‘pattern’ In [3]: singularize(‘gases’) Out[3]: ‘gase’ Estoy resolviendo el problema en el segundo ejemplo definiendo def my_singularize(strn): ”’ Return the singular of a noun. Add special cases to correct […]

Necesita un módulo de python para la obtención de documentos de texto

Necesito un buen módulo de Python para derivar documentos de texto en la etapa de preprocesamiento. Encontré este http://pypi.python.org/pypi/PyStemmer/1.0.1 pero no puedo encontrar la documentación en el enlace proporcionado. Alguien sabe dónde encontrar la documentación o cualquier otro buen algoritmo de derivación, por favor, ayuda.

Modelo estadístico de sugerencia de oraciones como corrección ortográfica

Ya hay disponibles modelos de revisión ortográfica que nos ayudan a encontrar la ortografía correcta sugerida en base a un corpus de ortografía correcta entrenada. ¿Se puede boost la granularidad a “palabra” del alfabeto para que podamos tener incluso sugerencias de frases, de modo que si se ingresa una frase incorrecta, entonces sugiera la frase […]