Articles of texto de

Cómo agarrar las líneas DESPUÉS de una línea coincidente en python

Soy un aficionado que usa Python de vez en cuando. Lo siento si esta es una pregunta tonta, pero me preguntaba si alguien sabía una manera fácil de tomar un montón de líneas si el formato en el archivo de entrada es el siguiente: “Título 1 Línea 1 Línea 2 Línea 3 Título 2 Línea […]

Python / Matplotlib – Actualizando rápidamente el texto en los ejes

Tengo una figura / canvas de matplotlib en una ventana de wxpython. Quiero actualizar algo de información sobre la ttwig mientras el ratón se mueve. Me conecté a ‘motion_notify_event’ para obtener esta información. En el código a continuación, se trazan muchos datos aleatorios y luego la ubicación x, y del cursor se muestra en la […]

¿La forma más eficiente de indexar palabras en un documento?

Esto surgió en otra pregunta, pero pensé que es mejor hacer esto como una pregunta separada. Dé una lista grande de oraciones (orden de 100 mil): [ “This is sentence 1 as an example”, “This is sentence 1 as another example”, “This is sentence 2”, “This is sentence 3 as another example “, “This is […]

¿Cómo fusionar mediante progtwigción los archivos de texto con posibles conflictos (ala git o svn, etc.)?

Como parte de un proyecto más grande, quiero la capacidad de tomar dos cuerpos de texto y entregarlos a un algoritmo de combinación que devuelva un resultado fusionado automáticamente (en los casos en que los cambios no sean conflictivos) o arroje un error y (potencialmente) produce un solo documento de texto con los cambios en […]

Contar palabras distintas de un dataframe de Pandas

Tengo un dataframe de Pandas, donde una columna contiene texto. Me gustaría obtener una lista de palabras únicas que aparecen en toda la columna (el espacio es la única división). import pandas as pd r1=[‘My nickname is ft.jgt’,’Someone is going to my place’] df=pd.DataFrame(r1,columns=[‘text’]) La salida debería verse así: [‘my’,’nickname’,’is’,’ft.jgt’,’someone’,’going’,’to’,’place’] No estaría de más obtener […]

k-significa usando la matriz de firmas generada desde minhash

He usado minhash en documentos y sus tejas para generar una matriz de firma a partir de estos documentos. He verificado que las matrices de firmas son buenas, ya que comparan las distancias jaccard de documentos similares conocidos (por ejemplo, dos artículos sobre el mismo equipo deportivo o dos artículos sobre el mismo evento mundial) […]

El carácter aparece como un signo de interrogación de diamante solo al final de la línea (Python> Texto)

Estoy trabajando en un archivo Python que ingresa un archivo de texto con caracteres japoneses (UTF-8), toma parte del texto y lo escribe en un nuevo archivo de texto UTF-8. El problema que estoy encontrando es que, por alguna razón, cuando el carácter japonés aparece al final de una línea en el archivo de entrada […]

convertir un texto de valores binarios en un archivo numpy

¿Cómo se puede convertir un archivo de texto enorme (> 16G) que contiene caracteres de valor binario ( 0 y 1 ) en un archivo de matriz numpy sin explotar la memoria en Python? Suponiendo que tengamos suficiente almacenamiento en la máquina pero no suficiente RAM para la conversión. Data de muestra: 0,0,0,0,0,1,0,0,0 1,0,0,1,0,0,0,0,0 … […]

Python, Tkinter – Insertar texto en ventanas de canvas

Tengo un canvas Tkinter rellenado con texto y ventanas de canvas, o widgets, creados con los métodos create_text y create_window . Los widgets que coloco en el canvas son widgets de texto, y quiero insertar texto en ellos una vez creados y colocados. No puedo averiguar cómo hacer esto, si es posible. Me doy cuenta […]

¿Cómo crear una ontología en python?

¿Existen bibliotecas o ciertas “técnicas” que puede utilizar para crear una ontología de elementos? ¿O “patrones de diseño”? Estoy hablando de una “gráfica” de cosas. Supongamos que tengo un montón de palabras. Ciertas palabras están “debajo” de otras palabras o “relacionadas” con otras palabras. Necesito una buena manera de agruparlos y conocer su relación.