Articles of scrapy

xpath: manipulación de cadenas

Así que en mi proyecto descarado pude aislar algunos campos en particular, uno de los campos devuelve algo como: [Rank Info] on 2013-06-27 14:26 Read 174 Times el cual fue seleccionado por expresión: (//td[@class=”show_content”]/text())[4] Por lo general, hago un procesamiento posterior para extraer la información de fecha y hora, es decir, 2013-06-27 14:26 Ahora que […]

GtkWarning: no se pudo abrir la pantalla

Estoy tratando de ejecutar una araña en un vps (usando scrapyjs que usa python-gtk2). Al ejecutar la araña me sale el error. /root/myporj/venv/local/lib/python2.7/dist-packages/gtk-2.0/gtk/__init__.py:57: GtkWarning: could not open display ¿Cómo ejecuto esto en una configuración sin cabeza?

No existe tal error de archivo o directorio usando pyinstaller y scrapy

Tengo un script en python que usa scrapy y quiero convertirlo en un archivo exe usando pyinstaller. El archivo exe se genera sin ningún error, pero cuando lo abro se produce un error. FileNotFoundError: [Errno 2] No such file or directory: ‘…\\scrapy\\VERSION’ He intentado reinstalar scrapy pero eso no ayudó. Estoy usando windows 10 con […]

Diferencia entre los selectores de Scrapy “a :: text” y “a :: text”

He creado un raspador para obtener algunos nombres de productos de una página web. Está funcionando sin problemas. He usado selectores de CSS para hacer el trabajo. Sin embargo, lo único que no puedo entender es la diferencia entre los selectores a::text y a ::text (no pase por alto el espacio entre a y ::text […]

Usando argumentos en pipy scrapy en __init__

Tengo un scrapy pipelines.py y quiero obtener los argumentos dados. En mi spider.py funciona perfecto: class MySpider( CrawlSpider ): def __init__(self, host=”, domain_id=”, *args, **kwargs): super(MySpider, self).__init__(*args, **kwargs) print user_id … Ahora, necesito el “user_id” en mi pipelines.py para crear la base de datos sqlite como “domain-123.db”. Busco toda la web sobre mi problema, pero […]

Raspado de texto sin código javascript utilizando scrapy

Actualmente estoy configurando un montón de arañas usando scrapy. Estas arañas deben extraer solo texto (artículos, publicaciones en foros, párrafos, etc.) de los sitios de destino. El problema es: a veces, mi nodo de destino contiene una etiqueta y, por lo tanto, el texto raspado contiene código javascript. Aquí hay un enlace a un ejemplo […]

Scrapy: cómo depurar solicitudes perdidas de scrapy

Tengo una araña desechable, pero a veces no devuelve solicitudes. He encontrado eso al agregar mensajes de registro antes de generar la solicitud y después de recibir la respuesta. Spider ha iterado sobre una página y un enlace de análisis para el desguace de elementos en cada página. Aquí hay una parte del código SampleSpider(BaseSpider): […]

Depuración de Scrapy usando Visual Studio

Soy nuevo en Scrapy y Python y lo estoy disfrutando. ¿Es posible depurar un proyecto scrapy usando Visual Studio? Si es posible, ¿cómo?

Scrapy con selenium para una página web que requiere autenticación

Estoy tratando de raspar los datos de una página que tiene muchas llamadas AJAX y ejecución de javascript para hacer la página web. Así que estoy tratando de usar scrapy con selenium para hacer esto. El modus operandi es el siguiente: Agregue la URL de la página de inicio de sesión a la lista de […]

Python y el tema de la encoding scrapy

Simplemente no puedo entender! 🙁 Estoy desechando datos de un sitio codificado en utf-8, bueno, eso es al menos lo que dice: Content-Type: text/html;charset=utf-8 Estoy obteniendo una lista de cadenas regulares de Unicode con XPath selector extract () call: item[‘city’]= element.select(‘//div[@id=”bubble_2″]/div/text()’).extract() Esta es la lista: [u’Westbahnhofstr.\xa010′, u’72070\xa0T\xfcbingen’] Ahora me uno a la lista en una […]