Articles of picante

¿Por qué no funcionan mis reglas de Scrapy CrawlSpider?

He logrado codificar un rastreador muy simple con Scrapy, con estas restricciones dadas: Almacene toda la información del enlace (por ejemplo: texto de anclaje, título de la página), por lo tanto, las 2 devoluciones de llamada Utilice CrawlSpider para aprovechar las reglas, por lo tanto, no BaseSpider Funciona bien, excepto que no implementa reglas si […]

scrapy – análisis de artículos que están paginados

Tengo una url de la forma: example.com/foo/bar/page_1.html Hay un total de 53 páginas, cada una de ellas tiene ~ 20 filas. Básicamente quiero obtener todas las filas de todas las páginas, es decir, ~ 53 * 20 elementos. Tengo un código de trabajo en mi método de análisis, que analiza una sola página, y también […]

Scrapy: analice una página para extraer elementos, luego siga y almacene el contenido de la URL de los elementos.

Tengo una pregunta sobre cómo hacer esto en scrapy. Tengo una araña que se arrastra para listar páginas de artículos. Cada vez que se encuentra una página de listado, con elementos, hay una callback parse_item () que se llama para extraer datos de elementos y generar elementos. Hasta ahora todo bien, todo funciona muy bien. […]

Instala Scrapy en OS X El Capitan

Intenté instalar Scrapy en El Capitán, pero aún no he tenido éxito. Esto sucede cuando uso pip install Scrapy : #include ^ 1 error generated. error: command ‘cc’ failed with exit status 1 —————————————- Cleaning up… Command //venv/bin/python -c “import setuptools, tokenize;__file__=’//venv/build/cryptography/setup.py’;exec(compile(getattr(tokenize, ‘open’, open)(__file__).read().replace(‘\r\n’, ‘\n’), __file__, ‘exec’))” install –record /var/folders/p6/jvf54l7d5c7dntzm6d3rfc3w0000gn/T/pip-D2QIZq-record/install-record.txt –single-version-externally-managed –compile –install-headers //venv/include/site/python2.7 failed […]

Scrapy falla en la terminal

Traceback (most recent call last): File “/usr/local/bin/scrapy”, line 5, in from pkg_resources import load_entry_point File “/System/Library/Frameworks/Python.framework/Versions/2.7/Extras/lib/python/pkg_resources.py”, line 2793, in working_set.require(__requires__) File “/System/Library/Frameworks/Python.framework/Versions/2.7/Extras/lib/python/pkg_resources.py”, line 673, in require needed = self.resolve(parse_requirements(requirements)) File “/System/Library/Frameworks/Python.framework/Versions/2.7/Extras/lib/python/pkg_resources.py”, line 576, in resolve raise DistributionNotFound(req) pkg_resources.DistributionNotFound: Scrapy==0.24.4 He estado luchando por horas, tuve errores diferentes antes, pero eliminé todas las referencias a python […]

La araña Scrapy no funciona

Como nada está funcionando, comencé un nuevo proyecto con python scrapy-ctl.py startproject Nu Seguí el tutorial exactamente, y creé las carpetas, y una nueva araña from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import HtmlXPathSelector from scrapy.item import Item from Nu.items import NuItem from urls import u class NuSpider(CrawlSpider): domain_name = “wcase” […]

Cómo obtener orden de campos en el artículo Scrapy

Estoy interesado en mantener la referencia al orden de los nombres de los campos en un artículo desechable. donde esta almacenado >>> dir(item) Out[7]: [‘_MutableMapping__marker’, ‘__abstractmethods__’, ‘__class__’, ‘__contains__’, ‘__delattr__’, ‘__delitem__’, ‘__dict__’, ‘__doc__’, ‘__eq__’, ‘__format__’, ‘__getattr__’, ‘__getattribute__’, ‘__getitem__’, ‘__hash__’, ‘__init__’, ‘__iter__’, ‘__len__’, ‘__metaclass__’, ‘__module__’, ‘__ne__’, ‘__new__’, ‘__reduce__’, ‘__reduce_ex__’, ‘__repr__’, ‘__setattr__’, ‘__setitem__’, ‘__sizeof__’, ‘__slots__’, ‘__str__’, ‘__subclasshook__’, ‘__weakref__’, […]

Scrapy Modificar enlace para incluir el nombre de dominio

Tengo un artículo, item[‘link’] , de este formulario: item[‘link’] = site.select(‘div[2]/div/h3/a/@href’).extract() Los enlaces que extrae son de esta forma: ‘link’: [u’/watch?v=1PTw-uy6LA0&list=SP3DB54B154E6D121D&index=189′], Quiero que sean así ‘link’: [u’http://www.youtube.com/watch?v=1PTw-uy6LA0&list=SP3DB54B154E6D121D&index=189′], ¿Es posible hacer esto directamente, en scrapy, en lugar de reeditar la lista después?

Scrapy – Enlaces de raspado encontrados al raspar

Solo puedo suponer que esta es una de las cosas más básicas que hacer en Scrapy, pero simplemente no puedo averiguar cómo hacerlo. Básicamente, rasco una página para obtener una lista de urls que contienen actualizaciones para la semana. Entonces necesito ir a estas URL una por una y eliminar la información de ellas. Actualmente […]

Inicializando objeto de tubería con rastreador en scrapy

Basado en Scrapy: organización del progtwig cuando interactúo con un sitio web secundario , tengo: class MyPipeline(object): def __init__(self, crawler): self.crawler = crawler Estoy tratando de entender mejor el código, especialmente las líneas al principio enumeradas anteriormente. ¿Por qué debería inicializar el objeto de canalización con un rastreador? Tengo muchas tuberías en las que no […]