Articles of html parsing

BeautifulSoup no puede analizar el estado de la vista larga

Intento usar BeautifulSoup4 para analizar el html recuperado de http://exporter.nih.gov/ExPORTER_Catalog.aspx?index=0 Si imprimo la sopa resultante, termina así: kZXI9IjAi”/> Buscando los últimos caracteres 9IjaI en el html en bruto, encontré que está en medio de un gran estado de vista. BeautifulSoup parece tener un problema con esto. ¿Alguna pista sobre lo que podría estar haciendo mal […]

python UnicodeEncodeError> ¿Cómo puedo simplemente eliminar los caracteres Unicode problemáticos?

Heres lo que hice .. >>> soup = BeautifulSoup (html) >>> soup Traceback (most recent call last): File “”, line 1, in UnicodeEncodeError: ‘ascii’ codec can’t encode character u’\xae’ in position 96953: ordinal not in range(128) >>> >>> soup.find(‘div’) Traceback (most recent call last): File “”, line 1, in UnicodeEncodeError: ‘ascii’ codec can’t encode character […]

¿Cómo obtener todo el texto entre solo dos tags especificadas usando BeautifulSoup?

html = “”” … all ( iterable ) ¶ … “”” Quiero obtener todo el texto entre la etiqueta inicial big antes de la primera aparición de a etiqueta. Esto significa que si tomo este ejemplo, entonces debo obtener (iterable) como una cadena.

Deshabilitar el manejo de atributos especiales de “clase”

La historia: Cuando analiza HTML con BeautifulSoup , el atributo de class se considera un atributo de valores múltiples y se maneja de una manera especial: Recuerde que una sola etiqueta puede tener múltiples valores para su atributo “clase”. Cuando busca una etiqueta que coincida con una determinada clase de CSS, está comparando con cualquiera […]

Regex dentro de las tags html

Me gustaría analizar el precio en HD del siguiente snipper de HTML. Solo tengo fragmentos del código html, por lo que no puedo usar un analizador HTML para esto. View In iTunes £19.99 HD Version Básicamente, el formato sería “Buscar el precio antes de la palabra” Versión HD “(no distingue mayúsculas y minúsculas). Esto es […]

Analizar el JavaScript devuelto desde BeautifulSoup

Me gustaría analizar la página web http://dcsd.nutrislice.com/menu/meadow-view/lunch/ para tomar el menú del almuerzo de hoy. (He construido una impresora térmica Adafruit #IoT y me gustaría imprimir automáticamente el menú cada día). Inicialmente abordé esto con BeautifulSoup, pero resulta que la mayoría de los datos están cargados en JavaScript y no estoy seguro de que BeautifulSoup […]

Elimina las tags HTML para obtener cadenas en Python

Intenté obtener algunas cadenas de un archivo HTML con BeautifulSoup y cada vez que trabajo con él obtengo resultados parciales. Quiero obtener las cadenas en cada elemento / etiqueta li. Hasta ahora he podido conseguir todo en ul de esta manera. #!/usr/bin/python from bs4 import BeautifulSoup page = open(“page.html”) soup = BeautifulSoup(page) source = soup.select(“.sidebar […]

¿Cómo extraer un objeto JSON que se definió en un bloque javascript de una página HTML usando Python?

Estoy descargando páginas HTML que tienen datos definidos de la siguiente manera: … window.blog.data = {“activity”:{“type”:”read”}}; … Me gustaría extraer el objeto JSON definido en ‘window.blog.data’. ¿Hay una forma más sencilla de analizarlo manualmente? (Estoy buscando en Beautiful Soap pero parece que no puedo encontrar un método que devuelva el objeto exacto sin analizarlo) Gracias […]

Python BeautifulSoup raspar mesas

Estoy tratando de crear un raspado de mesa con BeautifulSoup. Escribí este código de Python: import urllib2 from bs4 import BeautifulSoup url = “http://dofollow.netsons.org/table1.htm” # change to whatever your url is page = urllib2.urlopen(url).read() soup = BeautifulSoup(page) for i in soup.find_all(‘form’): print i.attrs[‘class’] Necesito raspar Nome, Cognome, correo electrónico.

Cómo analizar HTML con formato incorrecto en python, usando bibliotecas estándar

Hay tantas bibliotecas html y xml integradas en Python , que es difícil de creer que no hay soporte para el análisis HTML en el mundo real. He encontrado un montón de excelentes bibliotecas de terceros para esta tarea, pero esta pregunta es sobre la biblioteca estándar de python. Requisitos: Utilice solo componentes de la […]