Articles of html parsing

BeautifulSoup html falta

Estoy intentando obtener la URL del enlace para descargar datos históricos de Yahoo Finance para un activo durante un período de tiempo específico. 1 de enero de 1999 hasta nuestros días. Por ejemplo, si voy aquí: https://finance.yahoo.com/quote/XLB/history?period1=915177600&period2=1498633200&interval=1d&filter=history&frequency=1d Me gustaría adquirir esto (desde el enlace “Descargar datos” que se encuentra sobre la tabla de datos): “https://query1.finance.yahoo.com/v7/finance/download/XLB?period1=915177600&period2=1498633200&interval=1d&events=history&crumb=iX6bJ6LfGxc” […]

Python extrae atributos de tags HTML sin expresiones regulares

¿Hay alguna forma de utilizar urlib , urllib2 o BeautifulSoup para extraer los atributos de las tags HTML? por ejemplo: https://stackoverflow.com/questions/7141431/python-extracting-html-tag-attributes-without-regular-expressions/xyz obtiene href=https://stackoverflow.com/questions/7141431/python-extracting-html-tag-attributes-without-regular-expressions/xyz, title=https://stackoverflow.com/questions/7141431/python-extracting-html-tag-attributes-without-regular-expressions/xyz Hay otro hilo hablando de usar expresiones regulares. Gracias

¿Cómo hacer que XPath seleccione varios elementos de la tabla con atributos de ID idénticos?

Actualmente estoy tratando de extraer información de una página web mal formateada. Específicamente, la página ha usado el mismo atributo de identificación para varios elementos de la tabla. El marcado es equivalente a algo como esto: Some content. Important text 1. Some heading in between Important text 2. Important text 3. How about some more […]

Problema al encontrar el padre de una etiqueta en particular en html usando python

Estoy tratando de obtener el elemento padre de una etiqueta en particular usando el código mencionado a continuación: # -*- coding: cp1252 -*- import csv import urllib2 import sys import time from bs4 import BeautifulSoup from itertools import islice page1= urllib2.urlopen(‘http://www.sfr.fr/mobile/telephones?vue=000029&tgp=toutes-les-offres&typesmartphone=se-android&typesmartphone=se-apple&typesmartphone=se-bada&typesmartphone=se-rim-blackberry&typesmartphone=se-windows&p=0’).read() soup1 = BeautifulSoup(page1) price_parent = soup1.findParents(‘div’) print price_parent Problema: la salida que findParent después […]

Obteniendo la fuente html cuando algunos html son generados por JavaScript

Estoy intentando obtener el código fuente de una página web que incluye html generado por javascript. Mi código actualmente es el siguiente: from selenium import webdriver from bs4 import BeautifulSoup case_url = “http://na.leagueoflegends.com/tribunal/en/case/5555631/#nogo” try: browser = webdriver.Firefox() browser.get(case_url) url = browser.page_source print url browser.close except: … soup=BeautifulSoup(url) …extraction code that finds the right tags, but […]

Sopa hermosa que no raspa todos los datos visibles del sitio web (Python 3)

Mi problema es que estoy tratando de rastrear un montón de sitios web diferentes para encontrar todo el texto visible para descargar en un archivo .txt; desafortunadamente no estoy obteniendo todo el texto posible de estos sitios web. He publicado un ejemplo de trabajo de mi código a continuación: import requests from bs4 import BeautifulSoup […]

usando bs4 para encontrar una etiqueta html (h2) con texto

para esta parte del código html: html3= “”” 3.342.2323 Content Logical Definition <p from the following Include these codes as defined in http://snomed.info/sctCodeDisplay34353553Examination / signs35453453453History/symptoms “”” Voy a usar beautifulsoup para encontrar h2 que su texto es igual a “Content Logical Definition” y a los próximos hermanos. Pero beautifulsoup no puede encontrar h2. El siguiente […]

extrayendo párrafo en python usando lxml

Me gustaría extraer párrafos en html por python. Usé el módulo lxml pero no hace exactamente lo que estoy buscando. print html.parse(url).xpath(‘//p’)[1].text_content() Here is the First Paragraph.Here is the second Paragraph.Paragraph Three.” Debo agregar que, en diferentes páginas, tengo un número diferente de párrafos, así que me gustaría hacer una lista y poner un párrafo […]

tags html mayúsculas codificadas en lxml

Estoy analizando un archivo html utilizando lxml.html …. El archivo html contiene tags con mayúsculas y minúsculas. Una parte de mi código se muestra a continuación: response = urllib2.urlopen(link) html = response.read().decode(‘cp1251’) content_html = etree.HTML(html_1) first_link_xpath = content_html.xpath(‘//TR’) print (first_link_xpath) Una pequeña parte de mi archivo HTML se muestra a continuación: <!–Meta Data:–> Entonces, cuando […]

¿Cómo hago un bucle para buscar los próximos datos?

Tengo un conjunto de 2 datos que he rastreado desde una tabla html usando expresiones regulares. datos: random 123456 random@mail.com random123 654321 random123@mail.com expresiones regulares matchname = re.search(‘\(.*?)’ , match3).group(1) matchhp = re.search(‘\(.*?)’ , match3).group(1) matchemail = re.search(‘\(.*?)’ , match3).group(1) así que usando el regex puedo sacar random 123456 random@mail.com así que después de guardar […]