Articles of html parsing

¿Cómo obtener XML en bruto de nuevo desde lxml?

Estoy usando el siguiente código para localizar un div: parser = etree.HTMLParser() tree = etree.parse(StringIO(page), parser) div = tree.xpath(“//div[@class=’content’]”)[0] Mi único problema es que, después de hacer esto, no quiero confiar en lxml para extraer el contenido de dicho div: solo quiero recuperar el XML sin formato que contiene el div. ¿Es esto factible o […]

No se puede raspar la etiqueta dentro de la etiqueta usando una sopa hermosa

Estoy tratando de raspar los resultados de búsqueda, es decir, la etiqueta li dentro de la etiqueta ol usando una sopa hermosa en el sitio web del New York Times usando la siguiente consulta de python: theurl =[“http://query.nytimes.com/search/sitesearch/#/Microsoft/”] thepage = urllib.request.urlopen(theurl) soup=BeautifulSoup(thepage, “html.parser”) for profile in soup.findAll(“ol”,attrs={“class”:”searchResultsList flush”}): print(profile) Pero simplemente devuelve los siguientes resultados, […]

Cómo analizar un archivo HTML con una tabla usando Python

Tengo un archivo html con tabla (es grande, por lo que solo se proporciona un código de ejemplo). Quiero recuperar los valores en tablas. Probé la biblioteca HTMLParser desde python. Comencé a codificar como abajo. Luego encontré que el atributo “clase” es el mismo que la palabra clave definida por el sistema. Así que me […]

Cómo encontrar todo el texto dentro de los elementos en una página HTML usando BeautifulSoup

Necesito encontrar todas las tags visibles dentro de los elementos de párrafo en un archivo HTML usando BeautifulSoup en Python. Por ejemplo, Many hundreds of named mango cultivars exist. debe regresar: Many hundreds of cultivars exist. PS Algunos archivos contienen caracteres Unicode (Hindi) que deben extraerse. ¿Alguna idea de cómo hacer eso?

Extendiendo los selectores de CSS en BeautifulSoup

La pregunta: BeautifulSoup proporciona un soporte muy limitado para los selectores de CSS . Por ejemplo, la única pseudoclase admitida es nth-of-type y solo puede aceptar valores numéricos; no se permiten argumentos como even o odd . ¿Es posible extender los selectores de CSS BeautifulSoup o dejar que use lxml.cssselect internamente como un mecanismo de […]

Obtención de diferencias más granulares a partir de difflib (o una manera de postprocesar una diferencia para lograr lo mismo)

Descargando esta página y haciendo una pequeña edición, cambiando los primeros 65 en este párrafo a 68 : Luego analizo ambas fonts con BeauifulSoup y las difumino con difflib . url = ‘https://secure.ssa.gov/apps10/reference.nsf/links/02092016062645AM’ response = urllib2.urlopen(url) content = response.read() # get response as list of lines url2 = ‘file:///Users/Pyderman/projects/temp/02092016062645AM-modified.html’ response2 = urllib2.urlopen(url2) content2 = response2.read() […]

Python: extracción de datos específicos con el analizador html

Comencé a usar el HTMLParser en Python para extraer datos de un sitio web. Obtengo todo lo que quería, excepto el texto dentro de dos tags de HTML. Aquí hay un ejemplo de la etiqueta HTML: Swahili También hay otras tags que comienzan con. Tienen otros atributos y valores y, por lo tanto, no quiero […]

¿Enfocarse en resultados específicos mientras se raspa Twitter con Python y Beautiful Soup 4?

Este es un seguimiento de mi publicación ¿ Usando Python para Raspar Divs y Spans Anidados en Twitter? . No estoy usando la API de Twitter porque no se ve en los tweets por el hashtag tan atrás. El código completo y la salida están debajo de los ejemplos. Quiero raspar datos específicos de cada […]

Sopa hermosa: Extraer href de la lista ordenada HTML

Estoy intentando extraer las URL de una lista ordenada de HTML utilizando el módulo de python BeautifulSoup. Mi código devuelve una lista de NINGUNOS valores igual en número al número de elementos de la lista ordenada, así que sé que estoy en el lugar correcto en el documento. ¿Qué estoy haciendo mal? La URL de […]

BeautifulSoup: Div de impresión basado en el contenido de la etiqueta anterior

Me gustaría seleccionar el contenido de los elementos en función de la etiqueta anterior: Models & Products … Production Capacity (year) … ¿Cómo puedo obtener los valores de “área de perfil” según el contenido de la etiqueta anterior? Aquí está mi código: import requests from bs4 import BeautifulSoup import csv import re html_doc = “”” […]