Articles of python unicode

¿Cómo puedo corregir ‘UnicodeDecodeError’ cuando bash extraer texto con pdfminer.six?

Obtengo un UnicodeEncodeError cuando uso pdfminer (la última versión de git ) instalado mediante pip install git+https://github.com/pdfminer/pdfminer.six.git : Traceback (most recent call last): File “pdfminer_sample3.py”, line 34, in print(convert_pdf_to_txt(“samples/numbers-test-document.pdf”)) File “pdfminer_sample3.py”, line 27, in convert_pdf_to_txt text = retstr.getvalue() File “/usr/lib/python2.7/StringIO.py”, line 271, in getvalue self.buf += ”.join(self.buflist) UnicodeDecodeError: ‘ascii’ codec can’t decode byte 0xe2 in […]

Python: ¿Por qué obtengo un UnicodeDecodeError?

Tengo el siguiente código que busca en los archivos utilizando RE y, si se encuentran coincidencias, mueve el archivo a un directorio diferente. import os import gzip import re import shutil def regEx1(): os.chdir(“C:/Users/David/myfiles”) files = os.listdir(“.”) os.mkdir(“C:/Users/David/NewFiles”) regex_txt = input(“Please enter the string your are looking for:”) for x in (files): inputFile = open((x), […]

BeautifulSoup “codificar (” utf-8 “)

from bs4 import BeautifulSoup import urllib.request link = (‘https://mywebsite.org’) req = urllib.request.Request(link, headers={‘User-Agent’: ‘Mozilla/5.0’}) url = urllib.request.urlopen(req).read() soup = BeautifulSoup(url, “html.parser”) body = soup.find_all(‘div’, {“class”:”wrapper”}) print(body) Hola chicos, tengo un problema con este código. Si lo ejecuto viene el error. UnicodeEncodeError: el codec ‘charmap’ no puede codificar el carácter ‘\ u2022’ en la posición 138: […]

¿Cómo corregir un subproceso Python migratorio de encoding a unicode_literals?

Nos estamos preparando para pasar a Python 3.4 y agregamos unicode_literals. Nuestro código se basa ampliamente en la canalización a / desde utilidades externas utilizando el módulo de subproceso. El siguiente fragmento de código funciona bien en Python 2.7 para canalizar cadenas UTF-8 a un subproceso: kw = {} kw[u’stdin’] = subprocess.PIPE kw[u’stdout’] = subprocess.PIPE […]

Lectura de datos en ruso de CSV

Tengo algunos datos en el archivo CSV que están en ruso: 2-комнатная квартира РДТ’, мкр Тастак-3, Аносова — Толе би;Алматы 2-комнатная квартира БГР’, мкр Таугуль, Дулати (Навои) — Токтабаева;Алматы 2-комнатная квартира ЦФМ’, мкр Тастак-2, Тлендиева — Райымбека;Алматы Delimitador es ; símbolo. Quiero leer datos y ponerlos en un array. Intenté leer estos datos usando este […]

Lista de Unicode de impresión de Python

Con el siguiente código lst = [u’\u5de5′, u’\u5de5′] msg = repr(lst).decode(‘unicode-escape’) print msg tengo [u’工’, u’工’] ¿Cómo puedo eliminar la u para que el contenido de msg sea: [‘工’, ‘工’]

¿Una cadena UNICODE que contenga caracteres ASCII siempre será igual a la cadena ASCII?

Noté las siguientes presas: >>> u’abc’ == ‘abc’ True >>> ‘abc’ == u’abc’ True ¿Será esto siempre cierto o podría depender de la configuración regional del sistema? (Parece que las cadenas son unicode en Python 3: por ejemplo, esta pregunta , pero los bytes en 2.x)

Open () y codecs.open () en Python 2.7 se comportan de manera extrañamente diferente

Tengo un archivo de texto con la primera línea de caracteres Unicode y todas las demás líneas en ASCII. Intento leer la primera línea como una variable, y todas las demás líneas como otra. Sin embargo, cuando uso el siguiente código: # -*- coding: utf-8 -*- import codecs import os filename = ‘1.txt’ f = […]

Las funciones TextIOWrapper o BuffereRWPair del módulo Python io no funcionan bien con pySerial

Estoy escribiendo un adaptador en serie para algún hardware científico cuyo conjunto de comandos utiliza codificaciones de caracteres UTF-8. Todas las respuestas del hardware terminan con un retorno de carro (u ‘\ r’). Me gustaría poder usar la función readline() pySerial con un carácter EOL especificado, así que tengo esta configuración, ala este hilo : […]

Python 2.7 en minúsculas

Cuando uso .lower() en Python 2.7, la cadena no se convierte a minúsculas para las letras ŠČŽ . Leo los datos del diccionario. Intenté usar str(tt[“code”]).lower() , tt[“code”].lower() . Alguna sugerencia ?