¿Cómo puedo representar JavaScript HTML a HTML en Python?

He mirado a mi alrededor y solo he encontrado soluciones que representan una URL a HTML. Sin embargo, necesito una forma de poder representar una página web (que ya tengo, y que tiene JavaScript) al HTML adecuado.

Querer: Página web (con JavaScript) —> HTML

No: URL -> Página web (con JavaScript) —> HTML

No pude averiguar cómo hacer que el otro código funcione como yo quería.

Este es el código que estaba usando y que muestra las URL: http://webscraping.com/blog/Scraping-JavaScript-webpages-with-webkit/

Para mayor claridad, el código anterior toma una URL de una página web que tiene algunas partes de la página representada por JavaScript, por lo que si rasco la página normalmente usando, por ejemplo, urllib2, no obtendré todos los enlaces, etc. .

Sin embargo, quiero poder raspar una página, decir nuevamente con urllib2, y luego renderizar esa página y obtener el resultado HTML. (Diferente al código anterior ya que toma una URL como argumento).

Cualquier ayuda es apreciada, gracias chicos 🙂

Puedes pip install selenium desde la línea de comandos y luego ejecutar algo como:

 from selenium import webdriver from urllib2 import urlopen url = 'http://www.google.com' file_name = 'C:/Users/Desktop/test.txt' conn = urlopen(url) data = conn.read() conn.close() file = open(file_name,'wt') file.write(data) file.close() browser = webdriver.Firefox() browser.get('file:///'+file_name) html = browser.page_source browser.quit()