Quiero obtener el título de una página web que abro usando urllib2. Cuál es la mejor manera de hacer esto, analizar el html y encontrar lo que necesito (por ahora solo la etiqueta, pero podría necesitar más en el futuro). ¿Hay un buen lib del análisis para este propósito?
Estoy tratando de analizar varios bloques div usando Beautiful Soup usando algún html de un sitio web. Sin embargo, no puedo averiguar qué función debería usarse para seleccionar estos bloques div. He probado lo siguiente: import urllib2 from bs4 import BeautifulSoup def getData(): html = urllib2.urlopen(“http://www.racingpost.com/horses2/results/home.sd?r_date=2013-09-22″, timeout=10).read().decode(‘UTF-8’) soup = BeautifulSoup(html) print(soup.title) print(soup.find_all(”)) getData() Quiero poder […]
Estoy usando la biblioteca de solicitudes de python para hacer cosas relacionadas con HTTP. Configuré un servidor proxy utilizando ntlmaps gratuitos en mi computadora para que actúe como un proxy para responder a los desafíos NTLM del servidor ISA corporativo. Sin embargo, la respuesta parece estar siempre vacía, como se muestra a continuación: >>> import […]
Estoy tratando de hacer un progtwig que abra un directorio, luego use expresiones regulares para obtener los nombres de los puntos de poder y luego cree archivos localmente y copie su contenido. Cuando lo ejecuto parece que funciona, sin embargo, cuando bash abrir los archivos, siguen diciendo que la versión es incorrecta. from urllib.request import […]
Estoy intentando usar tor para el acceso anónimo a través de privoxy como un proxy utilizando urllib2. Información del sistema: Ubuntu 14.04, actualizado recientemente desde 13.10 hasta dist-upgrade. Este es un fragmento de código que estoy usando para propósitos de prueba: import urllib2 def req(url): proxy_support = urllib2.ProxyHandler({“http”: “127.0.0.1:8118”}) opener = urllib2.build_opener(proxy_support) opener.addheaders = [(‘User-agent’, […]
Así que estoy aprendiendo Python lentamente, y estoy tratando de hacer una función simple que extraiga datos de la página de puntuaciones más altas de un juego en línea. Este es el código de otra persona que reescribí en una función (que podría ser el problema), pero recibo este error. Aquí está el código: >>> […]
¿Existe una manera fácil de raspar a Google y escribir el texto (solo el texto) de los documentos N superiores (por ejemplo, 1000) .html (o lo que sea) para una búsqueda determinada? Como ejemplo, imagine que busca la frase “lobo feroz” y descargue solo el texto de los 1000 hits principales, es decir, descargue el […]
Estoy tratando de abrir una url a través de python como este import urllib2 f = urllib2.urlopen(‘http://www.futurebazaar.com/Search/laptop’) Está tirando siguiente error. Archivo “C: \ Python26 \ lib \ urllib2.py”, línea 1134, en do_open r = h.getresponse () Archivo “C: \ Python26 \ lib \ httplib.py”, línea 986, en getresponse response.begin () Archivo “C: \ Python26 […]
Estoy usando urllib2 build_opener() para crear un OpenerDirector . Estoy usando OpenerDirector para obtener una página lenta y por eso tiene un gran tiempo de espera. Hasta ahora tan bueno. Sin embargo, en otro hilo, me dijeron que abortara la descarga; digamos que el usuario ha seleccionado salir del progtwig en la GUI. ¿Hay alguna […]
Quiero hacer una captura de pantalla de muchas páginas web, escribí esto: from splinter.browser import Browser import urllib2 from urllib2 import URLError urls = [‘http://ubuntu.com/’, ‘http://xubuntu.org/’] try : browser = Browser(‘firefox’) for i in range(0, len(urls)) : browser.visit(urls[i]) if browser.status_code.is_success() : browser.driver.save_screenshot(‘your_screenshot’ + str(i) + ‘.png’) browser.quit() except SystemError : print(‘install firefox!’) except urllib2.URLError, e: […]