Articles of HTML

Convertir un archivo binario en el tipo de datos PIL Image en Google App Engine

Estoy usando Google App Engine con Python y Jinja para las plantillas. En mi plantilla HTML, tengo este código, que le permite al usuario elegir un archivo (Imagen): Tras la publicación, puedo obtener la imagen a través de self.request.get (‘datafile’), y parece ser un tipo de datos binarios (‘str’). Pongo esto en una base de […]

BeautifulSoup bucle a través de urls

Estoy tratando de cosechar algunos juegos de ajedrez y obtuve lo básico por cortesía de alguna ayuda aquí. La función principal es algo así como: import requests import urllib2 from bs4 import BeautifulSoup r = requests.get(userurl) soup = BeautifulSoup(r.content) gameids= [] for link in soup.select(‘a[href^=/livechess/game?id=]’): gameid = link[‘href’].split(“?id=”)[1] gameids.append(int(gameid)) return gameids Básicamente, lo que sucede […]

Analizando html usando BeautifulSoup en Python

Escribí algo de código para analizar html, pero el resultado no fue lo que quería: import urllib2 html = urllib2.urlopen(‘http://dummy’).read() from BeautifulSoup import BeautifulSoup soup = BeautifulSoup(html) for definition in soup.findAll(‘span’, {“class”:’d’}): definition = definition.renderContents() print “”, definition for exampleofuse in soup.find(‘span’,{“class”:’x’}): print “”, exampleofuse, “” print “” ¿Hay alguna forma de que cuando el […]

Encontrar anuncios en una página web

Estoy escribiendo una aplicación que está tratando de determinar si hay anuncios en una página. En este momento, se está utilizando un controlador de brower a través de un controlador web de selenium usando python. Pensé que existe una buena cantidad de anuncios dentro de iframes, y he hecho un bucle para mirar dentro de […]

Condiciones esperadas con selenium.

¿Cómo compruebo si una etiqueta br está presente en HTML usando las condiciones esperadas? Este es el código HTML: Smatta , Nyunyu , moyo , Masikini_Jeuri , Job K , Adoe , enhe Este es mi código. wait = WebDriverWait(browser, 10) wait.until(EC.visibility_of_element_located((By.XPATH, ‘//’))) Código completo. from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui […]

Cómo usar scrapy.Request para cargar un elemento de otra página en un elemento

He creado un raspador web con Scrapy que puede raspar elementos de cada boleto de este sitio web pero no puede raspar el precio del boleto ya que no está disponible en la página. Cuando trato de solicitar la siguiente página para raspar el precio, no puedo obtener el error: exceptions.TypeError: el objeto ‘XPathItemLoader’ no […]

Django: aplicar selectivamente los estilos CSS a los botones de radio de prueba

Tengo usuarios toman una prueba. Después de cada pregunta, quiero mostrarles si su respuesta fue correcta o incorrecta. La respuesta correcta debe resaltarse en verde, y su respuesta (si es incorrecta) debe resaltarse en rojo (con los estilos de Twitter Bootstrap) Actualmente estoy mostrando la página de resultados de la prueba en Django y HTML […]

Análisis de datos html en la lista de python para su manipulación

Estoy tratando de leer en sitios web html y extraer sus datos. Por ejemplo, me gustaría leer en EPS (ganancias por acción) de los últimos 5 años de las empresas. Básicamente, puedo leerlo y puedo usar BeautifulSoup o html2text para crear un gran bloque de texto. Luego quiero buscar el archivo, he estado usando re.search, […]

BeautifulHoup y el documento HTML no válido

Estoy tratando de analizar el documento http://www.consilium.europa.eu/uedocs/cms_data/docs/pressdata/en/ecofin/acf8e.htm . Quiero obtener países y nombres al principio del documento. Aqui esta mi codigo import urllib import re from bs4 import BeautifulSoup url=”http://www.consilium.europa.eu/uedocs/cms_data/docs/pressdata/en/ecofin/acf8e.htm” soup=BeautifulSoup(urllib.urlopen(url)) attendances_table=soup.find(“table”, {“width”:850}) print attendances_table #this works, I see the whole table print attendances_table.find_all(“tr”) Obtuve el siguiente error: AttributeError: ‘NoneType’ object has no attribute ‘next_element’ […]

¿Cómo desechar imágenes de una página aspx?

Estoy tratando de eliminar imágenes de una página aspx Tengo este código que elimina imágenes de la página web normal pero no puedo eliminar la página aspx porque necesito enviar solicitudes de publicación http a la página aspx. No puedo averiguar cómo hacerlo. Después de leer algunos hilos este es el código original from bs4 […]