Articles of cadena

Pandas, convierte la columna de Unicodes a la columna de la lista de cadenas

Una de mis columnas de dataframe de pandas tiene unicodes de este tipo u’asd,abc,tre,der34,whatever’ . Los resultados finales deben ser una columna de listas de cadenas: [‘asd’,’abc’,’tre’,’der34′,’whatever’] . Una lista de Unicodes también podría hacer: [u’asd’,u’abc’,u’tre’,u’der34′,u’whatever’] . Por cierto, puede suceder que en la columna de Unicodes haya un nan o un u ”. ¿Cualquier […]

¿Cómo puedo eliminar con Python Sub?

Tengo un archivo html y quiero reemplazar los párrafos vacíos con un espacio. mystring = “This is a test” result = mystring.sub(“” , ” “) Esto no está funcionando.

Manejo de elementos XML vacíos en Python

Estoy desconcertado por el manejo del analizador minidom del elemento vacío, como se muestra en la siguiente sección de código. import xml.dom.minidom doc = xml.dom.minidom.parseString(”) print doc.firstChild.nodeValue.__repr__() # Out: None print doc.firstChild.toxml() # Out: doc = xml.dom.minidom.Document() v = doc.appendChild(doc.createElement(‘value’)) v.appendChild(doc.createTextNode(”)) print v.firstChild.nodeValue.__repr__() # Out: ” print doc.firstChild.toxml() # Out: ¿Cómo puedo obtener un comportamiento […]

pandas reemplazan (borran) diferentes caracteres de las cadenas

Tengo una lista de escuelas secundarias. Me gustaría borrar ciertos caracteres, palabras y símbolos de las cadenas. Actualmente tengo: df[‘schoolname’] = df[‘schoolname’].str.replace(‘high’, “”) Sin embargo, me gustaría usar una lista para poder reemplazar rápidamente high , school , / , etc. ¿Alguna sugerencia? df[‘schoolname’] = df[‘schoolname’].str.replace([‘high’, ‘school’], “”) No funciona

Extraer datos de las líneas de un archivo de texto

Necesito extraer datos de las líneas de un archivo de texto. Los datos son información de nombre y puntuación con este formato: Shyvana – 12/4/5 – Loss – 2012-11-22 Fizz – 12/4/5 – Win – 2012-11-22 Miss Fortune – 12/4/3 – Win – 2012-11-22 Este archivo es generado por otra parte de mi pequeño progtwig […]

¿Es posible realizar operaciones bitwise en una cadena en Python?

Esto falla, como es lógico: >>> ‘abc’ << 8 Traceback (most recent call last): File "”, line 1, in TypeError: unsupported operand type(s) for <>> Si ascii abc es igual a 011000010110001001100011 o 6382179 , ¿hay alguna forma de cambiarlo por alguna cantidad arbitraria, por lo que ‘abc’ << 8 sería 01100001011000100110001100000000 ? ¿Qué pasa […]

Python: conversión de cadenas de caracteres anchos de un archivo binario a cadenas de Python unicode

Ha sido un día largo y estoy un poco perplejo. Estoy leyendo un archivo binario que contiene un montón de cadenas de caracteres anchos y quiero volcarlos como cadenas de Python Unicode. (Para desempaquetar los datos que no son de cadena, estoy usando el módulo de estructura, pero no sé cómo hacer lo mismo con […]

Análisis de las direcciones “De” del texto del correo electrónico

Estoy tratando de extraer las direcciones de correo electrónico de las transcripciones de texto sin formato de los correos electrónicos. He reunido un poco de código para encontrar las direcciones, pero no sé cómo discriminarlas; en este momento solo escupe todas las direcciones de correo electrónico en el archivo. Me gustaría que fuera solo para […]

¿Cómo compruebo si una cadena solo contiene caracteres alfanuméricos y guiones?

La cadena que estoy probando puede coincidir con [\w-]+ . ¿Puedo probar si una cadena se ajusta a esto en Python, en lugar de tener una lista de los caracteres no permitidos y probar eso?

¿Cómo puedo incluir caracteres especiales (tabulador, nueva línea) en una cadena de resultados de doctest de python?

Dado el siguiente script en python: # dedupe.py import re def dedupe_whitespace(s,spacechars=’\t ‘): “””Merge repeated whitespace characters. Example: >>> dedupe_whitespace(r”Green\t\tGround”) # doctest: +REPORT_NDIFF ‘Green\tGround’ “”” for w in spacechars: s = re.sub(r”(“+w+”+)”, w, s) return s La función funciona según lo previsto en el intérprete de python: $ python >>> import dedupe >>> dedupe.dedupe_whitespace(‘Purple\t\tHaze’) ‘Purple\tHaze’ […]