Articles of urllib2

Obtención de Python

Quiero obtener el título de una página web que abro usando urllib2. Cuál es la mejor manera de hacer esto, analizar el html y encontrar lo que necesito (por ahora solo la etiqueta, pero podría necesitar más en el futuro). ¿Hay un buen lib del análisis para este propósito?

Usando BeautifulSoup para seleccionar bloques div dentro de HTML

Estoy tratando de analizar varios bloques div usando Beautiful Soup usando algún html de un sitio web. Sin embargo, no puedo averiguar qué función debería usarse para seleccionar estos bloques div. He probado lo siguiente: import urllib2 from bs4 import BeautifulSoup def getData(): html = urllib2.urlopen(“http://www.racingpost.com/horses2/results/home.sd?r_date=2013-09-22″, timeout=10).read().decode(‘UTF-8’) soup = BeautifulSoup(html) print(soup.title) print(soup.find_all(”)) getData() Quiero poder […]

Soporte de proxy https en la biblioteca de solicitudes de Python

Estoy usando la biblioteca de solicitudes de python para hacer cosas relacionadas con HTTP. Configuré un servidor proxy utilizando ntlmaps gratuitos en mi computadora para que actúe como un proxy para responder a los desafíos NTLM del servidor ISA corporativo. Sin embargo, la respuesta parece estar siempre vacía, como se muestra a continuación: >>> import […]

Python urllib descargando contenidos de un directorio en línea

Estoy tratando de hacer un progtwig que abra un directorio, luego use expresiones regulares para obtener los nombres de los puntos de poder y luego cree archivos localmente y copie su contenido. Cuando lo ejecuto parece que funciona, sin embargo, cuando bash abrir los archivos, siguen diciendo que la versión es incorrecta. from urllib.request import […]

Tor no funciona con urllib2

Estoy intentando usar tor para el acceso anónimo a través de privoxy como un proxy utilizando urllib2. Información del sistema: Ubuntu 14.04, actualizado recientemente desde 13.10 hasta dist-upgrade. Este es un fragmento de código que estoy usando para propósitos de prueba: import urllib2 def req(url): proxy_support = urllib2.ProxyHandler({“http”: “127.0.0.1:8118”}) opener = urllib2.build_opener(proxy_support) opener.addheaders = [(‘User-agent’, […]

¿Por qué obtengo que “‘ResultSet’ no tiene el atributo ‘encontrar todos’” al usar BeautifulSoup en Python?

Así que estoy aprendiendo Python lentamente, y estoy tratando de hacer una función simple que extraiga datos de la página de puntuaciones más altas de un juego en línea. Este es el código de otra persona que reescribí en una función (que podría ser el problema), pero recibo este error. Aquí está el código: >>> […]

Python – ¿Una forma fácil de eliminar a Google, descargar los mejores N hits (documentos .html completos) para una búsqueda determinada?

¿Existe una manera fácil de raspar a Google y escribir el texto (solo el texto) de los documentos N superiores (por ejemplo, 1000) .html (o lo que sea) para una búsqueda determinada? Como ejemplo, imagine que busca la frase “lobo feroz” y descargue solo el texto de los 1000 hits principales, es decir, descargue el […]

urllib2 está lanzando un error para una url, mientras se abre correctamente en el navegador

Estoy tratando de abrir una url a través de python como este import urllib2 f = urllib2.urlopen(‘http://www.futurebazaar.com/Search/laptop’) Está tirando siguiente error. Archivo “C: \ Python26 \ lib \ urllib2.py”, línea 1134, en do_open r = h.getresponse () Archivo “C: \ Python26 \ lib \ httplib.py”, línea 986, en getresponse response.begin () Archivo “C: \ Python26 […]

¿Cómo interrumpo con gracia las descargas de urllib2?

Estoy usando urllib2 build_opener() para crear un OpenerDirector . Estoy usando OpenerDirector para obtener una página lenta y por eso tiene un gran tiempo de espera. Hasta ahora tan bueno. Sin embargo, en otro hilo, me dijeron que abortara la descarga; digamos que el usuario ha seleccionado salir del progtwig en la GUI. ¿Hay alguna […]

Python Splinter (Selenium HQ) ¿Cómo tomar una captura de pantalla de muchas páginas web?

Quiero hacer una captura de pantalla de muchas páginas web, escribí esto: from splinter.browser import Browser import urllib2 from urllib2 import URLError urls = [‘http://ubuntu.com/’, ‘http://xubuntu.org/’] try : browser = Browser(‘firefox’) for i in range(0, len(urls)) : browser.visit(urls[i]) if browser.status_code.is_success() : browser.driver.save_screenshot(‘your_screenshot’ + str(i) + ‘.png’) browser.quit() except SystemError : print(‘install firefox!’) except urllib2.URLError, e: […]