Articles of string

Limpieza de cadenas de Python + Manipulación (caracteres acentuados)

Tengo una base de datos llena de nombres como: John Smith Scott J. Holmes Dr. Kaplan Ray’s Dog Levi’s Adrian O’Brien Perry Sean Smyre Carie Burchfield-Thompson Björn Árnason Hay algunos nombres extranjeros con acentos en ellos que deben convertirse en cadenas con caracteres no acentuados. Me gustaría convertir los nombres completos (después de eliminar caracteres […]

Cómo decodificar una cadena ASCII con códigos de barra invertida x \ x

Estoy tratando de decodificar de un texto en portugués de Brasil: ‘Demais Subfun \ xc3 \ xa7 \ xc3 \ xb5es 12’ Debería ser ‘Demais Subfunções 12’ >> a.decode(‘unicode_escape’) >> a.encode(‘unicode_escape’) >> a.decode(‘ascii’) >> a.encode(‘ascii’) todos dan: UnicodeDecodeError: ‘ascii’ codec can’t decode byte 0xc3 in position 13: ordinal not in range(128) Por otro lado esto […]

¿Cómo canalizar datos binarios en matrices numpy sin almacenamiento tmp?

Hay varias preguntas similares, pero ninguna de ellas responde directamente a esta simple pregunta: ¿Cómo puedo capturar una salida de comandos y transmitir ese contenido en matrices numpy sin crear un objeto de cadena temporal para leer? Entonces, lo que me gustaría hacer es esto: import subprocess import numpy import StringIO def parse_header(fileobject): # this […]

Lista de Unicode de impresión de Python

Con el siguiente código lst = [u’\u5de5′, u’\u5de5′] msg = repr(lst).decode(‘unicode-escape’) print msg tengo [u’工’, u’工’] ¿Cómo puedo eliminar la u para que el contenido de msg sea: [‘工’, ‘工’]

Divide cadena por salto de línea o período con expresiones regulares de Python

Tengo una cadena: “””Hello. It’s good to meet you. My name is Bob.””” Estoy tratando de encontrar la mejor manera de dividir esto en una lista dividida por puntos y saltos de línea: [“Hello”, “It’s good to meet you”, “My name is Bob”] Estoy bastante seguro de que debería usar expresiones regulares, pero, como no […]

Python ASCII y Unicode descodifican error

Recibí este muy frustrante error al insertar una cierta cadena en mi base de datos. Dijo algo como: Python no puede decodificar caracteres de bytes, esperando unicode ” Después de mucho buscar, vi que podía superar este error al codificar mi cadena en Unicode . Intento hacer esto decodificando primero la cadena y luego codificándola […]

¿Cómo extraer contenido específico en un dataframe de pandas con una expresión regular?

Considere el siguiente dataframe de pandas: In [114]: df[‘movie_title’].head() ​ Out[114]: 0 Toy Story (1995) 1 GoldenEye (1995) 2 Four Rooms (1995) 3 Get Shorty (1995) 4 Copycat (1995) … Name: movie_title, dtype: object Actualización: Me gustaría extraer con una expresión regular solo los títulos de las películas. Entonces, usemos la siguiente expresión regular: \b([^\d\W]+)\b […]

elimina la cadena y todas las líneas antes de la cadena desde el archivo python

Tengo un nombre de archivo con miles de líneas de datos en él. Estoy leyendo el nombre del archivo y lo estoy editando. La siguiente etiqueta tiene alrededor de ~ 900 líneas o más (varía según el archivo): Necesito eliminar esa línea y todo lo anterior en varios archivos. así que necesito el código para […]

Objeto Unicode de Python y API de C (recuperación de caracteres * de objetos de punicunicos)

Actualmente estoy vinculando todas mis clases de motor C ++ a python para fines de scripting de juegos. El último desafío es que cuando digamos que creas una variable en el script una cadena como string = ‘hello world’ esto se convierte en un objeto PyUnicodeObject. A continuación, queremos llamar a una función en este […]

Python, len y cortes en cadenas Unicode

Estoy manejando una situación en la que necesito hacer que una cadena encaje en el espacio asignado en la pantalla, ya que estoy usando unicode len () y las rebanadas [] funcionan aparentemente en bytes y termino cortando cadenas unicode demasiado cortas, porque € solo ocupa un espacio en la pantalla pero 2 para len […]