¿Cómo raspar esta página web con Python y lxml? lista vacía devuelta

Para fines educativos, estoy intentando raspar esta página gradualmente con Python y lxml , comenzando con los nombres de las películas.

Por lo que he leído hasta ahora de los documentos de Python en lxml y W3Schools en XPath, este código debería mostrar todos los títulos de películas en una lista:

from lxml import html import requests page = requests.get('http://www.rottentomatoes.com/browse/dvd-top-rentals/') tree = html.fromstring(page.text) movies = tree.xpath('//h3[@class="movieTitle"]/text()') print movies 

Básicamente, debería darme cada elemento h3 en cualquier parte del documento que tenga la class atributo que tenga el valor “movieTitle”. Sin embargo, al ejecutar el código, solo se imprime una lista vacía.

No puedo entender por qué.

Lo intenté por mi cuenta, así que corrí:

 movies = tree.xpath('//h3[@class]/text()') print movies 

Bueno, este debería devolver cualquier H3 con la clase de atributo, pero en su lugar devuelve esta lista:

 ['From RT Users Like You!', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' '] 

Intenté apuntar a la primera cadena en esta lista apuntando a su valor de clase (“centro de noSpacing”), y devolví esta única cadena con éxito. Así que estoy seguro de que hay algo que no entiendo bien sobre el funcionamiento de lxml / XPath. ¿Alguien puede indicarme una dirección útil? ¡Gracias por adelantado!

La información en http://www.rottentomatoes.com/browse/dvd-top-rentals/ no se muestra directamente en la página, sino que se carga desde XMLHttpRequests .

La API que busca, parece ser:

http://d3biamo577v4eu.cloudfront.net/api/private/v1.0/m/list/find?page=1&limit=30&type=dvd-top-rentals&services=amazon%V.V.P.P.P.P.P. popularidad

Y la cadena de consulta se prepara dependiendo de los filtros seleccionados.

Por lo tanto, debe realizar solicitudes a ese punto final (en lugar de la URL que solicita actualmente) y analizar JSON para extraer los datos deseados.

Debes jugar con la variable GET de la “página” para obtener las siguientes.

Ejemplo con cURL + jq :

 ➜ ~ curl -s http://d3biamo577v4eu.cloudfront.net/api/private/v1.0/m/list/find\?page\=1\&limit\=30\&type\=dvd-top-rentals\&services\=amazon%3Bamazon_prime%3Bflixster%3Bhbo_go%3Bitunes%3Bnetflix_iw%3Bvudu\&sortBy\=popularity | jq '.results[].title' "Inside Out" "Vacation" "The End Of The Tour" "She's Funny That Way" "Best Of Enemies" "Before We Go" "Pixels" "The Gift" "Southpaw" "Max" "Jurassic World" "San Andreas" "Paper Towns" "Dragon Ball Z: Resurrection 'F'" "Testament Of Youth" "The Wolfpack" "Z For Zachariah" "Tomorrowland" "Terminator Genisys" "Dope" "The Gallows" "Magic Mike XXL" "Insidious: Chapter 3" "Me and Earl and the Dying Girl" "Particle Fever" "Dark Places" "What We Did on Our Holiday" "Avengers: Age of Ultron" "Spy" "Poltergeist" 

Ejemplo con Python + Solicitudes :

 import json
import requests

URL = "http://d3biamo577v4eu.cloudfront.net/api/private/v1.0/m/list/find?page=2&limit=30&type=dvd-top-rentals&services=amazon%3Bamazon_prime%3Bflixster%3Bhbo_go%3Bitunes%3Bnetflix_iw%3Bvudu&sortBy=popularity"

response = requests.get(URL)

for movie in response.json()['results']:
    movie_id = movie.get('id', None)
    title = movie.get('title', None)
    synopsis = movie.get('synopsis', None).encode('utf-8')
    actors = ', '.join(movie.get('actors', None)).encode('utf-8')
    tomato_score = movie.get('tomatoScore', None)
    popcorn_score = movie.get('popcornScore', None)
    mpaaRating = movie.get('mpaaRating', None)
    runtime = movie.get('runtime', None)
    
    print "Id: {}".format(movie_id)
    print "Title: {}".format(title)
    print "Synopsis: {}".format(synopsis)
    print "Actors: {}".format(actors)
    print "Rating: {}".format(mpaaRating)
    print "Runtime: {}".format(runtime)
    print "Scoring:"
    print "Tomato score: {}".format(tomato_score)
    print "PopCorn score: {}".format(popcorn_score)
    print "" 


Usar selenium es otra forma de esperar hasta que la página esté completamente cargada (es decir, incluyendo toda la manipulación de JavaScript ). No tiene que usar Firefox , puede usar otros navegadores o un navegador sin cabeza como Phantom JS si no es necesario mostrar el sitio real.

 from lxml import html from selenium import webdriver browser = webdriver.Firefox() browser.get("http://www.rottentomatoes.com/browse/dvd-top-rentals/") tree = html.fromstring(browser.page_source) movies = tree.xpath('//h3[@class="movieTitle"]/text()') browser.close() print movies 


 ['Inside Out', 'Vacation', 'The End Of The Tour', "She's Funny That Way", 'Best Of Enemies', 'Before We Go', 'Pixels', 'The Gift', 'Southpaw', 'Max', 'Jurassic World', 'San Andreas ', 'Paper Towns', "Dragon Ball Z: Resurrection 'F'", 'Testament Of Youth', 'The Wolfpack', 'Z For Zachariah', 'Tomorrowland', 'Terminator Genisys', 'Dope', 'The Gallows', 'Magic Mi ke XXL', 'Insidious: Chapter 3', 'Me and Earl and the Dying Girl', 'Particle Fever', 'Dark Places', 'What We Did on Our Holiday', 'Avengers: Age of Ultron', 'Spy', 'Poltergeist']