Articles of nltk

Posición absoluta de las hojas en el árbol NLTK.

Estoy tratando de encontrar el intervalo (índice de inicio, índice final) de una frase de nombre en una oración dada. El siguiente es el código para extraer frases nominales. sent=nltk.word_tokenize(a) sent_pos=nltk.pos_tag(sent) grammar = r””” NBAR: {*} # Nouns and Adjectives, terminated with Nouns NP: {} {} # Above, connected with in/of/etc… VP: {?} {?} {?} […]

CFG usando tags POS en NLTK

Estoy tratando de verificar si una oración dada es gtwigtical usando NLTK. Ex: OK: la ballena lame la tristeza NO OK: Lo mejor que he tenido Sé que podría hacer el etiquetado POS, luego usar un analizador CFG y verificar de esa manera, pero todavía tengo que encontrar un CFG que use tags POS en […]

nltk Stanford NERTagger: cómo obtener nombres propios sin mayúsculas

Estoy tratando de usar Stanford NERTagger y nltk para extraer palabras clave de un fragmento de texto. docText=”John Donk works for POI. Brian Jones wants to meet with Xyz Corp. for measuring POI’s Short Term performance Metrics.” words = re.split(“\W+”,docText) stops = set(stopwords.words(“english”)) #remove stop words from the list words = [w for w in […]

¿Cómo quitar la puntuación?

Estoy usando el tokenizer de NLTK en Python . Ya hay un montón de respuestas para eliminar las puntuaciones en el foro. Sin embargo, ninguno de ellos aborda todos los siguientes problemas juntos: Más de un símbolo en una fila . Por ejemplo, la frase: Él dijo, “eso es todo”. Debido a que hay una […]

NLTK descarga url problema de autorización

Intenté actualizar mis datos de nltk con nltk.download () pero obtuve el error 401 de HTTP: se requiere autorización. Cuando rastreé la url en cuestión, la encontré en downloader.py DEFAULT_URL = ‘ http://nltk.googlecode.com/svn/trunk/nltk_data/index.xml ‘ Luego copié esa URL y la ejecuté en mi navegador para descubrir que me está pidiendo un nombre de usuario y […]

AttributeError: el objeto ‘módulo’ no tiene atributo ‘puntajes’

Recibo un error al intentar usar la precision de la función de nltk.metrics.scores . He intentado muchas importaciones diferentes pero sin éxito. Busqué en los archivos de mis directorios de python (ver más abajo) y la función está ahí, pero simplemente “no puedo tocar esto / eso”. Miré: /usr/local/lib/python2.7/dist-packages/nltk/metrics /usr/local/lib/python2.7/dist-packages/nltk/metrics/scores.py Esto es lo que mi […]

Modelo estadístico de sugerencia de oraciones como corrección ortográfica

Ya hay disponibles modelos de revisión ortográfica que nos ayudan a encontrar la ortografía correcta sugerida en base a un corpus de ortografía correcta entrenada. ¿Se puede boost la granularidad a “palabra” del alfabeto para que podamos tener incluso sugerencias de frases, de modo que si se ingresa una frase incorrecta, entonces sugiera la frase […]

Determinación de Hypernym o Hyponym usando wordnet nltk

Quiero verificar la relación hipernema / hipónimo entre dos palabras (dada por el usuario), lo que significa que cualquiera de ellas puede ser una hipernima de otra o también puede ser el caso de que no haya una relación hipernímica entre las dos. por lo mismo. Intento hacerlo de esta manera. Si puede sugerir un […]

Importar WordNet en NLTK

Quiero importar el diccionario de wordnet pero cuando importe el diccionario de wordnet formulario, veo este error: for l in open(WNSEARCHDIR+’/lexnames’).readlines(): IOError: [Errno 2] No such file or directory: ‘C:\\Program Files\\WordNet\\2.0\\dict/lexnames’ Instalo wordnet2.1 en este directorio pero no puedo importar. Por favor, ayúdeme a resolver este problema. import nltk from nltk import * from nltk.corpus […]

cómo acelerar el reconocimiento NE con stanford NER con python nltk

Primero tokenize el contenido del archivo en oraciones y luego llamo al NER de Stanford en cada una de las oraciones. Pero este proceso es realmente lento. Sé que si lo llamo en todo el contenido del archivo sería más rápido, pero lo hago en cada oración, ya que deseo indexar cada oración antes y […]