Articles of picante

Código de error 1 instalando Scrapy

Estoy tratando de instalar el módulo Scrapy para Python. Estoy usando el comando: pip install Scrapy Pero me sale el siguiente error: Command “/Library/Frameworks/Python.framework/Versions/2.7/Resources/Python.app/Contents/MacOS/Python -c “import setuptools, tokenize;__file__=’/private/var/folders/b4/nrmj5jf105lcv1_kf1yk9gh40000gn/T/pip-build-aNQoXA/lxml/setup.py’;exec(compile(getattr(tokenize, ‘open’, open)(__file__).read().replace(‘\r\n’, ‘\n’), __file__, ‘exec’))” install –record /var/folders/b4/nrmj5jf105lcv1_kf1yk9gh40000gn/T/pip-B_akAd-record/install-record.txt –single-version-externally-managed –compile” failed with error code 1 in /private/var/folders/b4/nrmj5jf105lcv1_kf1yk9gh40000gn/T/pip-build-aNQoXA/lxml He investigado un poco sobre esto y he intentado varias […]

¿Cómo puedo indicar a Scrapy que no serialice un campo de elemento?

Como un experimento de aprendizaje para familiarizarse con Scrapy, estoy escribiendo un Scraper que comprueba todos los enlaces de una página HTML e informa de los códigos de estado de las solicitudes HTTP HEAD dirigidas a ellos. El hecho es que, en una de mis definiciones de elementos, tengo un campo de elemento, a saber, […]

Problema Scrapy con texto internacional.

Lo hice raspando el texto de la página web usando scrapy. En spider, tengo código como: title = hxs.select(“//h1/text()”).extract() #1 final_text = title[0].encode(‘utf-8′) #2 Aquí el problema es que la línea # 1 le da a [u’Puerto Ban \ xfas ‘] la línea # 2 le da a Puerto Ban \ xc3 \ xbas Pero […]

Cómo agregar un middleware de Scrapy de terceros

Estoy trabajando con scrapy 1.1. Quiero agregar el scrapy-fake-user-agent que haría rotar a los agentes de usuario sin problemas y de forma aleatoria. Las cadenas de agente de usuario son suministradas por el módulo de fake-useragent . Siguiendo las instrucciones del sitio, tengo: DOWNLOADER_MIDDLEWARES = { ‘scrapy.downloadermiddlewares.useragent.UserAgentMiddleware’: None, ‘scrapy_fake_useragent.middleware.RandomUserAgentMiddleware’: 400, } Sin embargo cuando lo […]

Error 302 descargando archivo en Scrapy

¿Por qué estoy recibiendo este error? [scrapy] WARNING: File (code: 302): Error downloading file from <GET referred in La URL parece descargar sin problemas en mi navegador y un 302 es simplemente una redirección. ¿Por qué no scrapy simplemente seguir la redirección para descargar el archivo? process = CrawlerProcess({ ‘FILES_STORE’: ‘C:\\Users\\User\\Downloads\\Scrapy’, ‘USER_AGENT’: ‘Mozilla/4.0 (compatible; MSIE […]

Scrapy: Inicie sesión en el formulario y luego trabaje con esa sesión

Estoy tratando de hacer lo siguiente: iniciar sesión en una página web (en mi caso zendesk.com) usar esa sesión para hacer algunas solicitudes de publicaciones De hecho, zendesk pierde algunos apis (crear / alterar macros) que ahora necesito para simular una sesión de navegador. Así que no estoy escribiendo una araña sino que trato de […]

Usando múltiples selectores de CSS para el mismo artículo en Scrapy

El sitio que estoy raspando tiene un diseño inconsistente. Actualmente estoy usando esto pero no está devolviendo todos los títulos – article[‘title’] = sel.css(‘p[class=title] ::text’).extract() Necesito usar esto para raspar las clases también. article[‘title’] = sel.css(‘span[class=newstitle] ::text’).extract() ¿Hay una manera de combinar dos selectores css en un solo artículo?

Seleccione los botones de radio con scrapy

¿Cómo hago para seleccionar los botones de radio con scrapy? Estoy tratando de seleccionar lo siguiente formdata={‘rd1′:’E’} does not work Employee Other

Cómo obtener la última OPCIÓN de la lista SELECT utilizando XPath – Scrapy

Estoy usando este selector pero da error //*[@id=”quantity”]/option/[last()-1] ¿Cómo selecciono la última OPCIÓN? Estoy usando Scrapy Framework.

Scrapy Install / Version Error

Simplemente instalé Scrapy y busco instalar la interfaz de usuario de Portia para Scrapy en Python 2.7.6 (32 bit) Windows 7 (64 bit) con conectividad a IPv4 DNS Internet Service. Obtención del siguiente error de salida cuando se realiza la comprobación de la versión. C\> scrapy version :0: UserWarning: You do not have a working […]