Articles of web raspado

Newbie: ¿Cómo superar el botón “onclick” de Javascript para raspar la página web?

Este es el enlace que quiero eliminar: http://www.prudential.com.hk/PruServlet?module=fund&purpose=searchHistFund&fundCd=MMFU_U La pestaña “Versión en inglés” está en la esquina superior derecha para mostrar la versión en inglés de la página web. Hay un botón que debo presionar para leer la información de los fondos en la página web. De lo contrario, la vista se bloquea y el […]

Descargando archivo con mecanizar Python

Estoy tratando de descargar un archivo de un sitio web usando python y mecanizar. Mi código actual inicia sesión con éxito en el sitio web y abre la página que contiene el enlace de descarga. El enlace de descarga es: https://www.lendingclub.com/browse/browseNotesRawDataV2.action La información para el enlace es: Link(base_url=’https://www.lendingclub.com/browse/browse.action’, url=’/browse/browseNotesRawDataV2.action’, text=”, tag=’a’, attrs=[(‘class’, ‘master_pngfix’), (‘id’, ‘browseDownloadAllLink’), […]

Python: el códec ‘ascii’ no puede decodificar el byte \ xbd en la posición

Estoy usando LXML para raspar texto de páginas web. Parte del texto incluye fracciones. 5½ Necesito poner esto en un formato flotante. Estos fallan: ugly_fraction.encode(‘utf-8’) #doesn’t change to usable format ugly_fraction.replace(‘\xbd’, ”) #throws error ugly_freaction.encode(‘utf-8’).replace(‘\xbd’, ”) #throws error

Acelerar el raspador web

Estoy raspando 23770 páginas web con un raspador web bastante simple usando scrapy . Soy bastante nuevo en scrapy e incluso python, pero me las arreglé para escribir una araña que hace el trabajo. Sin embargo, es muy lento (tarda aproximadamente 28 horas en rastrear las 23770 páginas). He buscado en la página web de […]

Python, subprocesos múltiples, captura páginas web, descarga páginas web

Quiero descargar por lotes páginas web en un sitio. Hay enlaces de 5000000 urls en mi archivo ‘urls.txt’. Se trata de unos 300M. ¿Cómo hacer que los subprocesos múltiples vinculen estas URL y descarguen estas páginas web? o ¿Cómo lotes descargar estas páginas web? mis ideas: with open(‘urls.txt’,’r’) as f: for el in f: ##fetch […]

Archivo de elementos de importación en otro script en python

Estoy tratando de hacer lo siguiente: Una araña raspa los enlaces presentes en la página web de un sitio web. Guarda los enlaces en un archivo de texto. Otra araña ahora abre el archivo de texto, lee los enlaces, raspa las páginas web individuales y guarda los datos. Estoy tratando de llamar a estas arañas […]

Scrapy: AttributeError: el objeto ‘YourCrawler’ no tiene atributo ‘parse_following_urls’

Estoy escribiendo una araña desechada. He estado leyendo esta pregunta: Scrapy: raspado de una lista de enlaces , y puedo hacer que reconozca las URL en una página de lista, pero no puedo hacer que entre en las URL y guardar los datos que quiero ver. from scrapy.contrib.spiders import CrawlSpider from scrapy.selector import Selector from […]

Cargar página web en python DESPUÉS de que JavaScripts se ejecute

Estoy tratando de obtener la definición de palabras en español (como un diccionario) en función de lo que ingresa el usuario. La idea sería: >>> hola ‘1. interj. U. como salutación familiar.’ Primero probé con urllib2, pero como la definición apareció después de la ejecución de JS (tiene sentido duh), no funcionó. También probé el […]

Modificando el objeto Javascript Navigator con Selenium

Intenté acceder a un sitio con Selenium (con geckodriver) y dijo que estaba bloqueado, pero puedo acceder a él manualmente con el navegador Firefox. Así que comparé los componentes de mi diadema y la única diferencia fue que en el objeto Navigator “webdriver” se configuró en “true” cuando usé Selenium. Intenté ejecutar este código: from […]

Cómo recuperar el HTML exacto como en un navegador

Estoy usando un script de Python para renderizar páginas web y recuperar sus HTML. Funciona bien con la mayoría de las páginas, pero con algunas de ellas el código HTML recuperado está incompleto. Y no entiendo muy bien por qué. Este es el script que estoy usando para desechar esta página, por alguna razón, el […]