Articles of web raspado

Scrapy no parece estar haciendo DFO

Tengo un sitio web para el que mi rastreador debe seguir una secuencia. Así, por ejemplo, debe ir a1, b1, c1 antes de que comience a2, cada uno de a, b y c son manejados por diferentes funciones de análisis y las urls correspondientes se crean en un objeto de Solicitud y se obtienen. Lo […]

¿Cómo ve los encabezados de solicitud que mecaniza está utilizando?

Estoy intentando enviar algunos datos a un formulario programáticamente. Tengo un pequeño problema por el cual al servidor no le gusta lo que le estoy enviando. Frustrantemente, no hay mensajes de error, o cualquier cosa que pueda ayudar a diagnosticar el problema, todo lo que hace es volver a la misma página en la que […]

Raspar todo el texto usando Scrapy sin conocer la estructura de las páginas web

Estoy realizando una investigación relacionada con la distribución de la indexación de Internet. Si bien existen varios proyectos de este tipo (IRLbot, Distributed-indexing, Cluster-Scrapy, Common-Crawl, etc.), el mío está más centrado en incentivar dicho comportamiento. Estoy buscando una forma sencilla de rastrear páginas web reales sin saber nada sobre su URL o estructura HTML y: […]

Problemas para entender la diferencia entre pasar el resultado a otra función y volver a ajustar el resultado a otra función

He escrito un script en python usando dos funciones dentro de él. Se supone que la primera función obtiene algunos enlaces de una página web y la otra debe imprimirla en la consola. Mi pregunta es ¿qué diferencia hay cuando paso el resultado de una función a otra función usando la palabra clave return get_info(elem) […]

Corriendo docenas de arañas Scrapy de una manera controlada

Estoy tratando de construir un sistema para ejecutar unas docenas de arañas Scrapy , guardar los resultados en S3 y avisarme cuando termine. Hay varias preguntas similares en StackOverflow (por ejemplo, esta y esta otra ), pero todas parecen usar la misma recomendación ( de los documentos de Scrapy ): configurar un CrawlerProcess , agregarle […]

Newbie: ¿Cómo superar el botón “onclick” de Javascript para raspar la página web?

Este es el enlace que quiero eliminar: http://www.prudential.com.hk/PruServlet?module=fund&purpose=searchHistFund&fundCd=MMFU_U La pestaña “Versión en inglés” está en la esquina superior derecha para mostrar la versión en inglés de la página web. Hay un botón que debo presionar para leer la información de los fondos en la página web. De lo contrario, la vista se bloquea y el […]

Descargando archivo con mecanizar Python

Estoy tratando de descargar un archivo de un sitio web usando python y mecanizar. Mi código actual inicia sesión con éxito en el sitio web y abre la página que contiene el enlace de descarga. El enlace de descarga es: https://www.lendingclub.com/browse/browseNotesRawDataV2.action La información para el enlace es: Link(base_url=’https://www.lendingclub.com/browse/browse.action’, url=’/browse/browseNotesRawDataV2.action’, text=”, tag=’a’, attrs=[(‘class’, ‘master_pngfix’), (‘id’, ‘browseDownloadAllLink’), […]

Python: el códec ‘ascii’ no puede decodificar el byte \ xbd en la posición

Estoy usando LXML para raspar texto de páginas web. Parte del texto incluye fracciones. 5½ Necesito poner esto en un formato flotante. Estos fallan: ugly_fraction.encode(‘utf-8’) #doesn’t change to usable format ugly_fraction.replace(‘\xbd’, ”) #throws error ugly_freaction.encode(‘utf-8’).replace(‘\xbd’, ”) #throws error

Acelerar el raspador web

Estoy raspando 23770 páginas web con un raspador web bastante simple usando scrapy . Soy bastante nuevo en scrapy e incluso python, pero me las arreglé para escribir una araña que hace el trabajo. Sin embargo, es muy lento (tarda aproximadamente 28 horas en rastrear las 23770 páginas). He buscado en la página web de […]

Python, subprocesos múltiples, captura páginas web, descarga páginas web

Quiero descargar por lotes páginas web en un sitio. Hay enlaces de 5000000 urls en mi archivo ‘urls.txt’. Se trata de unos 300M. ¿Cómo hacer que los subprocesos múltiples vinculen estas URL y descarguen estas páginas web? o ¿Cómo lotes descargar estas páginas web? mis ideas: with open(‘urls.txt’,’r’) as f: for el in f: ##fetch […]