Articles of texto

Trabajando con, preparando datos de bolsa de palabras para la Regresión

Estoy tratando de crear un modelo de regresión que predice la edad de los autores. Estoy usando (Nguyen et al, 2011) como mi base. Utilizando un Modelo de Bolsa de Palabras, cuento las ocurrencias de palabras por Documento (que son Publicaciones de Tableros) y creo el vector para cada Publicación. Limito el tamaño de cada […]

Error en la extracción de frases usando Gensim

Estoy tratando de obtener los bigtwigs en las oraciones usando Frases en Gensim de la siguiente manera. from gensim.models import Phrases from gensim.models.phrases import Phraser documents = [“the mayor of new york was there”, “machine learning can be useful sometimes”,”new york mayor was present”] sentence_stream = [doc.split(” “) for doc in documents] #print(sentence_stream) bigram = […]

¿Cómo extraer texto de la página html?

Por ejemplo la página web es el enlace: https://www.architecture.com/FindAnArchitect/FAAPractices.aspx?display=50 Debo tener el nombre de las firmas y su dirección y sitio web. He intentado lo siguiente para convertir el HTML en texto: import nltk from urllib import urlopen url = “https://www.architecture.com/FindAnArchitect/FAAPractices.aspx display=50” html = urlopen(url).read() raw = nltk.clean_html(html) print(raw) Pero devuelve el error: ImportError: cannot […]

Extraer partes de texto entre delimitadores específicos de un archivo de texto grande con delimitadores personalizados y escribirlo en otro archivo usando Python

Estoy trabajando en un proyecto que implica crear una base de datos del código federal de los EE. UU. En un formato determinado. He obtenido el código completo de la fuente oficial que no está bien estructurado. He logrado raspar el Código de los EE. UU. En el formato de abajo en archivos de texto […]

Reemplace un solo carácter en una línea de un archivo de texto con Python

Tengo un archivo de texto con todos ellos que actualmente tienen el mismo carácter final (N), que se está utilizando para identificar el progreso del sistema. Quiero cambiar el carácter final a “Y” en caso de que el progtwig termine a través de un error u otras interrupciones para que al reiniciar el progtwig buscará […]

Leer línea en archivo, imprimir línea si contiene cadena

Tengo un código de trabajo que abre un archivo, busca una cadena e imprime la línea si contiene esa cadena. Estoy haciendo esto para poder decidir, manualmente, si la línea debe eliminarse de mi conjunto de datos o no. Pero sería mucho mejor si puedo decirle al progtwig que lea la parte de la línea […]

Calcular similitud entre lista de palabras

Quiero calcular la similitud entre dos listas de palabras, por ejemplo: [’email’,’user’,’this’,’email’,’address’,’customer’] es similar a esta lista: [’email’,’mail’,’address’,’netmail’] Quiero tener un mayor porcentaje de similitud que otra lista, por ejemplo: [‘address’,’ip’,’network’] incluso si la address existe en la lista.

Python obtiene el contenido de la URL cuando la página requiere JavaScript habilitado

Estoy buscando obtener el contenido de un archivo de texto alojado en mi sitio web usando Python. El servidor requiere que JavaScript esté habilitado en su navegador. Por eso cuando corro: import urllib2 target_url = “http://09hannd.me/ai/request.txt” data = urllib2.urlopen(target_url) Recibo una página html que dice habilitar JavaScript. Me preguntaba si había una manera de fingir […]

¿Cómo guardo una matriz 3D Python / NumPy como un archivo de texto?

Tengo que iniciar una gran cantidad de cálculos, y tengo que guardar un texto de archivo 2D cada vez, por lo que me gustaría almacenar los resultados en “tiempo real” como un archivo de texto 3D con cada segmento correspondiente a un resultado de cálculo. El primer cálculo está bien, pero cuando hago el segundo […]

Pytesseract No hay tal archivo o error de directorio

En primer lugar hice todo lo mencionado aquí pytesseract-no tal archivo o error de directorio Todavía no funciona. Ahora estoy usando Pycharm IDE con el siguiente código: from PIL import Image import pytesseract import subprocess im = Image.open(‘test.png’) im.show() subprocess.call([‘tesseract’,’test.png’,’out’]) print pytesseract.image_to_string(Image.open(‘test.png’)) im.show () abre la imagen correctamente. subprocess.call () con tesseract test.png también extrae […]