Raspado de páginas ajax usando python

Ya he visto esta pregunta sobre el raspado de ajax , pero Python no se menciona allí. Consideré el uso de scrapy , creo que tienen algunos documentos sobre ese tema, pero como se puede ver, el sitio web está caído. Así que no sé qué hacer. Quiero hacer lo siguiente:

Solo tengo una url, example.com, usted va de una página a otra haciendo clic en enviar, la url no cambia ya que están usando ajax para mostrar el contenido. Quiero raspar el contenido de cada página, ¿cómo hacerlo?

Digamos que quiero raspar solo los números, ¿hay algo más que scrapy que lo haría? Si no, ¿me darías un fragmento de cómo hacerlo, solo porque su sitio web está fuera de servicio y no puedo comunicarme con los documentos?

En primer lugar, los documentos desechables están disponibles en https://scrapy.readthedocs.org/en/latest/ .

Hablando sobre el manejo de ajax mientras se raspa la web. Básicamente, la idea es bastante simple:

  • Abrir herramientas de desarrollo del navegador, pestaña de red
  • ir al sitio de destino
  • Haga clic en el botón Enviar y vea qué solicitud de XHR va al servidor.
  • simula esta petición XHR en tu araña

Ver también:

  • ¿Se puede usar scrapy para raspar contenido dynamic de sitios web que usan AJAX?
  • Paginación utilizando scrapy

Espero que ayude.

Encontré la respuesta muy útil, pero me gustaría hacerlo más simple.

 response = requests.post(request_url, data=payload, headers=request_headers) 

request.post toma tres parámetros url, datos y encabezados. Los valores de estos tres atributos se pueden encontrar en la solicitud XHR.

Copie todo el encabezado de la solicitud y los datos del formulario para cargar en las variables anteriores y estará listo para comenzar