Rastreo de LinkedIn mientras se autentica con Scrapy

Así que leí el rastreo con una sesión autenticada en Scrapy y me estoy quedando colgado, estoy 99% seguro de que mi código de análisis es correcto, simplemente no creo que el inicio de sesión sea redireccionar y tener éxito.

También tengo un problema con el check_login_response () no estoy seguro de qué página está revisando … Aunque “Cerrar sesión” tendría sentido.

====== ACTUALIZADO ======

from scrapy.contrib.spiders.init import InitSpider from scrapy.http import Request, FormRequest from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.contrib.spiders import Rule from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from linkedpy.items import LinkedPyItem class LinkedPySpider(InitSpider): name = 'LinkedPy' allowed_domains = ['linkedin.com'] login_page = 'https://www.linkedin.com/uas/login' start_urls = ["http://www.linkedin.com/csearch/results?type=companies&keywords=&pplSearchOrigin=GLHD&pageKey=member-home&search=Search#facets=pplSearchOrigin%3DFCTD%26keywords%3D%26search%3DSubmit%26facet_CS%3DC%26facet_I%3D80%26openFacets%3DJO%252CN%252CCS%252CNFR%252CF%252CCCR%252CI"] def init_request(self): #"""This function is called before crawling starts.""" return Request(url=self.login_page, callback=self.login) def login(self, response): #"""Generate a login request.""" return FormRequest.from_response(response, formdata={'session_key': 'user@email.com', 'session_password': 'somepassword'}, callback=self.check_login_response) def check_login_response(self, response): #"""Check the response returned by a login request to see if we aresuccessfully logged in.""" if "Sign Out" in response.body: self.log("\n\n\nSuccessfully logged in. Let's start crawling!\n\n\n") # Now the crawling can begin.. return self.initialized() # ****THIS LINE FIXED THE LAST PROBLEM***** else: self.log("\n\n\nFailed, Bad times :(\n\n\n") # Something went wrong, we couldn't log in, so nothing happens. def parse(self, response): self.log("\n\n\n We got data! \n\n\n") hxs = HtmlXPathSelector(response) sites = hxs.select('//ol[@id=\'result-set\']/li') items = [] for site in sites: item = LinkedPyItem() item['title'] = site.select('h2/a/text()').extract() item['link'] = site.select('h2/a/@href').extract() items.append(item) return items 

El problema se resolvió agregando ‘Retorno’ delante de self.initialized ()

¡Gracias de nuevo! -Marca

 class LinkedPySpider(BaseSpider): 

debiera ser:

 class LinkedPySpider(InitSpider): 

Además, no debe anular la función de parse como mencioné en mi respuesta aquí: https://stackoverflow.com/a/5857202/crawling-with-an-authenticated-session-in-scrapy

Si no entiende cómo definir las reglas para extraer enlaces, simplemente lea la documentación correctamente:
http://readthedocs.org/docs/scrapy/en/latest/topics/spiders.html#scrapy.contrib.spiders.Rule
http://readthedocs.org/docs/scrapy/en/latest/topics/link-extractors.html#topics-link-extractors