Articles of web scraping

Amazon web scraping

Estoy tratando de raspar los precios de Amazon con phantomjs y python. Quiero analizarlo con una sopa hermosa, para obtener los precios nuevos y usados ​​de los libros, el problema es: cuando paso la fuente de la solicitud que hago con phantomjs, los precios son solo 0,00, el código es esta prueba simple. Soy nuevo […]

raspando los datos de un gráfico dynamic usando python + beautifulSoup4

Necesito implementar una tarea de raspado de datos y extraer datos de un gráfico dynamic. El gráfico se actualiza con un tiempo similar al que encontraría si observara el gráfico de las acciones de una empresa. Estoy usando las solicitudes y la biblioteca beautifulsoup4 en python, pero solo he descubierto cómo raspar el texto y […]

¿Alternativas a Selenium / Webdriver para rellenar campos al raspar sin cabeza con Python?

Con Python 2.7 estoy raspando con urllib2 y cuando se necesita algo de Xpath, lxml también. Es rápido , y debido a que rara vez tengo que navegar por los sitios, esta combinación funciona bien. Sin embargo, en ocasiones, cuando llego a una página que solo muestra algunos datos valiosos cuando se llena un formulario […]

Python Descargar PDF incrustado en una página

Tengo este enlace: http://www.equibase.com/premium/chartEmb.cfm?track=ALB&raceDate=06/17/2002&cy=USA&rn=1 Quiero descargar el PDF incrustado. He intentado los métodos normales de urllib y request pero no están funcionando. import urllib2 url = “http://www.equibase.com/premium/chartEmb.cfm?track=ALB&raceDate=06/17/2002&cy=USA&rn=1” response = urllib2.urlopen(url) file = open(“document.pdf”, ‘wb’) file.write(response.read()) file.close() Además, también he tratado de encontrar el enlace original del pdf, pero tampoco funcionó. Enlace interno: http://www.equibase.com/premium/eqbPDFChartPlus.cfm?RACE=A&BorP=P&TID=ALB&CTRY=USA&DT=06/17/2002&DAY=D&STYLE=EQB&eqbPDFChartPlus.pdf

¿Cómo raspar la página con BeautifulSoup? La fuente de la página no coincide Inspeccionar elemento

Estoy tratando de eliminar algunas cosas de esta página de baloncesto de fantasía . Estoy usando BeautifulSoup en Python 3.5+ para hacer esto. source_code = requests.get(‘http://fantasy.espn.com/basketball/league/standings?leagueId=633975’) plain_text = source_code.text soup = BeautifulSoup(plain_text, ‘lxml’) Para empezar, me gustaría raspar los títulos de las 9 categorías en una lista de Python. Así que mi lista debería verse […]

Problema al rastrear Amazon, el elemento no se puede desplazar a la vista

Tengo un problema al rastrear páginas en Amazon. He intentado usar: Ejecutando JS Script Cadenas de accion Esperas explícitas Nada parece funcionar. Todo arroja una excepción o error u otro. Script Base ff = create_webdriver_instance() ff.get(‘https://www.amazon.ca/gp/goldbox/ref=gbps_ftr_s-3_4bc8_dct_10-?gb_f_c2xvdC0z=sortOrder:BY_SCORE,discountRanges:10-25%252C25-50%252C50-70%252C70-&pf_rd_p=f5836aee-0969-4c39-9720-4f0cacf64bc8&pf_rd_s=slot-3&pf_rd_t=701&pf_rd_i=gb_main&pf_rd_m=A3DWYIK6Y9EEQB&pf_rd_r=CQ7KBNXT36G95190QJB1&ie=UTF8’) next_button = ff.find_element_by_xpath(‘(//li/a[contains(text(), “Next”)])[1]’) Intento # 1: Ejecutando JS Guión ff.execute_script(‘arguments[0].scrollIntoView()’, next_button) Error Element could not be scrolled into […]

Sopa hermosa obtener datos de la tabla dinámica

Tengo el siguiente código: url = ‘https://www.basketball-reference.com/leagues/NBA_2017_standings.html#all_expanded_standings’ html = urlopen(url) soup = BeautifulSoup(html, ‘lxml’) print(len(soup.findAll(‘table’))) print(soup.findAll(‘table’)) Hay 6 tablas en la página web, pero solo devuelve 4 tablas. Intenté usar ‘html.parser’ o ‘html5lib’ como analizadores pero tampoco funcionó. ¿Alguna idea de cómo puedo obtener la tabla “clasificaciones expandidas” de la página web? ¡Gracias!

Python3, descarga el archivo desde la URL haciendo clic en el botón

Necesito descargar el archivo de un enlace como este https://freemidi.org/getter-13560 Pero no puedo usar urllib.request o la biblioteca de requests porque descarga html, no midi. ¿Hay alguna solución? Y también aquí está el enlace con el botón mismo enlace.

¿Python sigue las redirecciones y luego descarga la página?

Tengo la siguiente secuencia de comandos de Python y funciona muy bien. import urllib2 url = ‘http://abc.com’ # write the url here usock = urllib2.urlopen(url) data = usock.read() usock.close() print data sin embargo, algunas de las URL que le doy pueden redirigirlo 2 o más veces. ¿Cómo puedo hacer que Python espere a que se […]

Python BeautifulSoup en bucle a través de datos de la tabla

Muy nuevo en Python aquí. Estoy tratando de capturar algunos datos de esta página esta página . Estoy tratando de obtener el nombre del elemento y el tipo de elemento capturado en dos listas. Puedo averiguar cómo unirse a ellos en una mesa más tarde. Cualquier ayuda sería genial! Las líneas de código funcionan por […]