Articles of nltk

Crea formas de palabras usando python

¿Cómo puedo obtener diferentes formas de palabras usando Python? Quiero crear una lista como la siguiente. Work=[‘Work’,’Working’,’Works’] Mi código: raw = nltk.clean_html(html) cleaned = re.sub(r’& ?(ld|rd)quo ?[;\]]’, ‘\”‘, raw) tokens = nltk.wordpunct_tokenize(cleaned) stemmer = PorterStemmer() t = [stemmer.stem(t) if t in Words else t for t in tokens] text = nltk.Text(t) word = words(n) Words […]

El etiquetador POS Python NLTK no se comporta como se espera

Ejecuté la función pos_tag en el texto de abajo, muestra la salida con la batería como ‘RB’. Como batería es sustantivo, debería aparecer como ‘NN’. nltk.pos_tag(nltk.word_tokenize(‘Camera picture quality was fair but speed was an issue and also battery life was not that good’)) Salida: [(‘Camera’, ‘NNP’), (‘picture’, ‘NN’), (‘quality’, ‘NN’), (‘was’, ‘VBD’), (‘fair’, ‘JJ’) , […]

Convertir tags POS de TextBlob en entradas compatibles con Wordnet

Estoy usando Python y nltk + Textblob para un análisis de texto. Es interesante que pueda agregar un punto de venta para wordnet para que su búsqueda de sinónimos sea más específica, pero desafortunadamente, el etiquetado tanto en nltk como en Textblob no es “compatible” con el tipo de entrada que wordnet espera para su […]

entrenar un modelo de lenguaje usando Google Ngrams

Quiero encontrar una probabilidad condicional de una palabra dado su conjunto anterior de palabras. Planeo usar Google N-grams para el mismo. Sin embargo, al ser un recurso tan enorme como es, no creo que sea computacionalmente posible en mi PC. (Para procesar todos los N-gtwigs, para entrenar un modelo de lenguaje). Entonces, ¿hay alguna manera […]

El decapado de un clasificador entrenado produce resultados diferentes de los resultados obtenidos directamente de un clasificador recién entrenado pero idénticamente entrenado

Estoy tratando de elegir un clasificador SVM entrenado de la biblioteca de Scikit-learn para que no tenga que entrenarlo una y otra vez. Pero cuando paso los datos de prueba al clasificador cargado desde el pickle, obtengo valores inusualmente altos de precisión, f medida, etc. Si los datos de prueba se pasan directamente al clasificador […]

La función ‘bigrams’ en Python nltk no funciona

La función bigrams de nltk está devolviendo el siguiente mensaje, a pesar de que nltk es importado y otras funciones del mismo están funcionando. ¿Algunas ideas? Gracias. >>> import nltk >>> nltk.download() showing info http://www.nltk.org/nltk_data/ True >>> from nltk import bigrams >>> bigrams([‘more’, ‘is’, ‘said’, ‘than’, ‘done’])

Instale NLTK en Python 2.7 para una máquina de 64 bits

¿Cómo instalar NLTK en python2.7? Hay un paquete NLTK para 32 bits pero ¿qué pasa con 64? Por otra parte no puedo instalar el archivo de la rueda nltk por pip. Por favor ayuda!

Python: encuentra problemas en el segmentador de frases, el tokenizador de palabras y el etiquetador de voz

Estoy tratando de leer el archivo de texto en Python, y luego hago el segmentador de oraciones, el tokenizador de palabras y el etiquetador de parte del discurso. Este es mi código: file=open(‘C:/temp/1.txt’,’r’) sentences = nltk.sent_tokenize(file) sentences = [nltk.word_tokenize(sent) for sent in sentences] sentences = [nltk.pos_tag(sent) for sent in sentences] Cuando bash el segundo comando, […]

¿Usando tags POS personalizadas para la fragmentación de NLTK?

¿Es posible usar una parte no estándar de las tags de voz al hacer una gramática para fragmentar en NLTK? Por ejemplo, tengo la siguiente oración para analizar: complication/patf associated/qlco with/prep breast/noun surgery/diap independent/adj of/prep the/det use/inpr of/prep surgical/diap device/medd ./pd La localización de las frases que necesito en el texto es de gran ayuda […]

navegando búsquedas de archivos de texto en python

Aquí está una muestra del archivo de texto con el que estoy trabajando: Tristan/NNP and/CC Isolde/NNP and/CC the/DT fatalistic/NN horns/VBZ The/DT passionate/JJ violins/NN And/CC ominous/JJ clarinet/NN ;/: Las letras mayúsculas después de las barras diagonales son tags extrañas. Quiero poder buscar en el archivo algo como “NNP,CC,NNP” y que el progtwig regrese a este segmento […]