Articles of beautifulsoup

Usando peticiones de python y sopa hermosa para sacar texto

Gracias por echar un vistazo a mi problema. Me gustaría saber si hay alguna forma de extraer la clave de datos del sitio … aquí está la url a la página https://e-com.secure.force.com/adidasUSContact/ </t Aquí está mi código actual import requests from bs4 import BeautifulSoup headers = { ‘Host’ : ‘e-com.secure.force.com’, ‘Connection’ : ‘keep-alive’, ‘Upgrade-Insecure-Requests’ : […]

Decodificar las entidades html usando BeautifulSoup

Estoy tratando de decodificar entidades usando BeautifulSoup pero sin suerte. from BeautifulSoup import BeautifulSoup decoded = BeautifulSoup(“<p> </p>”,convertEntities=BeautifulSoup.HTML_ENTITIES) print decoded La salida no está descodificada en absoluto. Encontré muchas respuestas aquí que usan este método. ¿Estoy haciendo algo mal? Me gustaría usar BeautifulSoup para esto, así que no se moleste en decirme que la biblioteca […]

Extraer texto entre comentarios HTML con BeautifulSoup

Usando Python 3 y BeautifulSoup 4, me gustaría poder extraer texto de una página HTML que solo está delineada por un comentario sobre ella. Un ejemplo: I would like to get this text I would also like to find this text He encontrado varias formas de extraer el texto o los comentarios de una página, […]

De html escapado -> a html regular? – Python

Utilicé BeautifulSoup para manejar los archivos XML que he recostackdo a través de una API REST. Las respuestas contienen código HTML, pero BeautifulSoup se escapa de todas las tags HTML para que se pueda mostrar bien. Desafortunadamente necesito el código HTML. ¿Cómo podría continuar con la transformación del HTML escapado en un marcado adecuado? ¡La […]

Utilice BeautifulSoup para extraer texto antes de la primera etiqueta secundaria

De esta fuente html: Category: Personal Deseo extraer la Category: texto Category: Aquí están mis bashs de usar Python / BeautifulSoup (con salida como comentario, después del #) parsed = BeautifulSoup(sample_html) parsed_div = parsed.findAll(‘div’)[0] parsed_div.firstText() # Personal parsed_div.first() # Personal parsed_div.findAll()[0] # Personal Espero que un “nodo de texto” esté disponible como el primer hijo. […]

Tabla HTML a tabla pandas: información dentro de las tags html

Tengo una tabla grande de la web, a la que se accede mediante solicitudes y analizada con BeautifulSoup. Parte de esto se ve algo como esto: 265 JonesBlue 29 266 Smith 34 Cuando convierto esto a pandas usando pd.read_html(tbl) la salida es así: 0 1 2 0 265 JonesBlue 29 1 266 Smith 34 Necesito […]

Utilice BeautifulSoup para iterar sobre XML para extraer tags específicas y almacenarlas en variables

Soy bastante nuevo en la progtwigción y he estado tratando de encontrar una solución para esto, pero todo lo que puedo encontrar son partes y piezas sin verdadera suerte al ponerlo todo junto. Estoy tratando de usar BeautifulSoup4 en python para raspar algunos xml y almacenar el valor de texto entre tags específicas en variables. […]

¿Hay una manera limpia de obtener la n-ésima columna de una tabla html usando BeautifulSoup?

Digamos que miramos la primera tabla en una página, entonces: table = BeautifulSoup(…).table las filas se pueden escanear con un ciclo de limpieza limpio: for row in table: f(row) Pero para obtener una sola columna las cosas se complican. Mi pregunta: ¿existe una forma elegante de extraer una sola columna, ya sea por su posición […]

Eliminar todos los estilos, scripts y tags html de una página html

Aquí está lo que tengo hasta ahora: from bs4 import BeautifulSoup def cleanme(html): soup = BeautifulSoup(html) # create a new bs4 object from the html data loaded for script in soup([“script”]): script.extract() text = soup.get_text() return text testhtml = “\n\nTHIS IS AN EXAMPLE .call {font-family:Arial;}getitI need this text capturedAnd this” cleaned = cleanme(testhtml) print (cleaned) […]

¿Cómo pretender HTML para que los atributos de la etiqueta permanezcan en una sola línea?

Tengo este pequeño código: text = “”” Main site text1 text2 “”” import sys import re import bs4 def prettify(soup, indent_width=4): r = re.compile(r’^(\s*)’, re.MULTILINE) return r.sub(r’\1′ * indent_width, soup.prettify()) soup = bs4.BeautifulSoup(text, “html.parser”) print(prettify(soup)) La salida del fragmento anterior en este momento es: Main site text1 text2 Me gustaría averiguar cómo formatear la salida […]