Python web scraping: 503 Response con sitio específico (¿por qué?)

Experimentar con el aprendizaje de python y la web de algunos sitios web. Viendo lo que puedo aprender. Noté que Amazon.com me daría una Response 503 menos que use un atributo de encabezado en mi SESSION.get() .

Pero esto no funciona para readcomiconline.to donde obtengo una Response 503 sin importar lo que intente. Asumiendo que esto tiene que ver con su precargador de JavaScript.

Cualquier trabajo alrededor de esto?

 import requests urlAmazon = 'http://amazon.com' urlComics = 'http://readcomiconline.to' headerAgent = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36'} client = requests.session() resultOne = client.get(urlAmazon) print(resultOne) # resultOne = client.get(urlAmazon, headers=headerAgent) print(resultOne) # resultTwo = client.get(urlComics) print(resultTwo) # resultTwo = client.get(urlComics, headers=headerAgent) print(resultTwo) # 

Intenté usar Selenium y aún obtuve el error 503. ¿Alguna forma de evitar el javascript para hacer un rasguño web adecuado?

 import bs4, requests from selenium import webdriver from lxml import html headerAgent = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36'} res = requests.get('http://readcomiconline.to/Comic/Saga/Issue-1 &readType=1',headers=headerAgent) res.raise_for_status() soup = bs4.BeautifulSoup(res.text, "lxml") comicElement = soup.find('table', {'class':'listing'}) 

Lo mejor de Selenium es que puede emular las acciones ejecutadas por scripts utilizando execute_script('script') . Para los sitios cuyos contenidos son representados por JS, la mejor manera es entender cómo JS procesa los contenidos. Rastree el XHR y verifique las respuestas para ver si devuelve el contenido que necesita.