Articles of web scraping

¿Ejecución de múltiples arañas en scrapy para 1 sitio web en paralelo?

Quiero rastrear un sitio web con 2 partes y mi script no es tan rápido como lo necesito. ¿Es posible lanzar 2 arañas, una para raspar la primera parte y la segunda para la segunda parte? Intenté tener 2 clases diferentes, y ejecutarlas scrapy crawl firstSpider scrapy crawl secondSpider Pero creo que no es inteligente. […]

usando scrapy para raspar el sitio web asp.net con botones javascript y solicitudes ajax

Había estado tratando de obtener alguna fecha del sitio web asp.net, la página de inicio debería ser la siguiente: http://www.e3050.com/Items.aspx?cat=SON Primero, quiero mostrar 50 elementos por página (del elemento seleccionado). Segundo, quiero paginar a través de las páginas. Probé el siguiente código para 50 artículos por página, pero no funcionó: start_urls = [“http://www.e3050.com/Items.aspx?cat=SON”] def parse(self, […]

¿Cómo configuro Scrapy para tratar con un captcha?

Estoy intentando raspar un sitio que requiere que el usuario ingrese el valor de búsqueda y un captcha. Tengo una rutina de reconocimiento óptico de caracteres (OCR) para el captcha que tiene éxito aproximadamente el 33% del tiempo. Dado que los captchas son siempre texto alfabético, quiero volver a cargar el captcha si la función […]

Raspe una página web que requiera que primero le den una cookie de sesión

Estoy tratando de raspar un archivo de Excel de una base de datos del gobierno. Sin embargo, la URL que tengo para acceder a este archivo de Excel: http://nrega.ap.gov.in/Nregs/FrontServlet?requestType=HouseholdInf_engRH&hhid=192420317026010002&actionVal=musterrolls&type=Normal requiere que tenga una cookie de sesión del sitio del gobierno adjunto a la solicitud. ¿Cómo podría tomar la cookie de la sesión con una solicitud […]

Asyncio web scraping 101: recuperando múltiples urls con aiohttp

En la pregunta anterior, uno de los autores de aiohttp sugirió amablemente la forma de obtener múltiples urls con aiohttp usando el nuevo async with syntax de Python 3.5 : import aiohttp import asyncio async def fetch(session, url): with aiohttp.Timeout(10): async with session.get(url) as response: return await response.text() async def fetch_all(session, urls, loop): results = […]

AttributeError: el objeto ResultSet no tiene ningún atributo ‘find_all’

Estoy tratando de replicar un código de raspado web (de un sitio educativo) para obtener nombres de los Estados de la India de Wikipedia. He estado recibiendo el error “AttributeError: ResultSet no tiene ningún atributo ‘find_all’” y, por lo tanto, no puedo continuar. Estoy agregando mi código aquí y espero encontrar alguna orientación y ayuda: […]

Diferentes resultados al usar Selenium + Python

Estoy aprendiendo a usar Selenium con Python al intentar desechar el software Matrix ITA (en caso de que no lo sepas, ayuda encontrar buenas tarifas de vuelo). Estoy llenando todo el formulario con Selenium exactamente de la misma manera que manualmente (mismas aeropuertos, mismas fechas, multicity: AAA-BBB, BBB-AAA, CCC-DDD). Al ejecutar el script obtengo resultados […]

Obtener elemento con un nombre de clase aleatorio

Parece que la para en la página web de Instagram está cambiando todos los días. Ahora mismo es FFVAD y mañana será otra cosa. Por ejemplo (lo hice más corto, los enlaces son largos): Al decir eso, necesito corregir el script y codificar la Class ID para poder raspar la página web. var = driver.find_elements_by_class_name(‘FFVAD’) […]

¿Qué debo usar para abrir una url en lugar de urlopen en urllib3?

Quería escribir un código como el siguiente: from bs4 import BeautifulSoup import urllib2 url = ‘http://www.thefamouspeople.com/singers.php’ html = urllib2.urlopen(url) soup = BeautifulSoup(html) Pero encontré que tengo que instalar el paquete urllib3 ahora. Además, no pude encontrar ningún tutorial o ejemplo para entender cómo reescribir el código anterior, por ejemplo, urllib3 no tiene urlopen . Cualquier […]

¿Cómo imprimir los atributos href usando beautifulsoup mientras se automatiza a través de selenium?

El valor href del elemento azul es lo que quiero acceder desde este HTML Probé algunas formas de imprimir el enlace pero no funcionó. Mi código a continuación: – discover_page = BeautifulSoup(r.text, ‘html.parser’) finding_accounts = discover_page.find_all(“a”, class_=”author track”) print(len(finding_accounts)) finding_accounts = discover_page.find_all(‘a[class=”author track”]’) print(len(finding_accounts)) accounts = discover_page.select(‘a’, {‘class’: ‘author track’})[‘href’] print(len(accounts)) Output:- 0 0 TypeError: […]