Articles of URL de

Cómo extraer URL de una página HTML en Python

Tengo que escribir un rastreador web en Python. No sé cómo analizar una página y extraer las URL de HTML. ¿Dónde debo ir y estudiar para escribir un progtwig así? En otras palabras, ¿existe un progtwig Python simple que pueda usarse como plantilla para un rastreador web genérico? Idealmente, debería usar módulos que sean relativamente […]

Obteniendo la imagen de la URL usando BeautifulSoup

Estoy tratando de obtener imágenes importantes y no miniaturas u otros gifs de la página de Wikipedia y usando el siguiente código. Sin embargo, el “img” viene como longitud de “0”. Cualquier sugerencia sobre cómo rectificarlo. Código: import urllib import urllib2 from bs4 import BeautifulSoup import os html = urllib2.urlopen(“http://en.wikipedia.org/wiki/Main_Page”) soup = BeautifulSoup(html) imgs = […]

Django: cuando se intenta domain.com/admin, se obtiene 404 con un archivo urls inexistente antiguo

En algún momento tuve un archivo de urls que se veía así: # Uncomment the next two lines to enable the admin: from django.contrib import admin admin.autodiscover() urlpatterns = patterns(”, # Example: url(r’^$’, ‘girls.views.home’, name = ‘home’), url(r’^registerasboy$’, ‘girls.views.regb’, name= ‘regb’), #url(r’^registerasgirl$’, ‘girls.views.reg’, name= ‘regg’), url(r’^thankyou$’, ‘girls.views.thankyou’, name= ‘thankyou’), url(r’^newchick$’, ‘girls.views.newchick’, name= ‘newchick’), url(r’^chicks$’, ‘girls.views.chicks’, […]

Cómo dividir una dirección web

Así que estoy usando python para hacer un análisis de las páginas web y quiero dividir la dirección web completa en dos partes. Digamos que tengo la dirección http://www.stackoverflow.com/questions/ask . Necesitaría el protocolo y el dominio (por ejemplo, http://www.stackoverflow.com ) y la ruta (por ejemplo, / preguntas / preguntar). Pensé que esto podría ser resuelto […]

¿Cómo paso las variables en django a través de la url?

Estoy tratando de pasar algunas variables pero estoy teniendo algunos problemas y específicamente tengo 3 preguntas. ¿Cómo puedo codificar la cadena url para tener en cuenta los caracteres especiales de la cadena? ¿Cuál es la expresión regular correcta que debería usar dadas las cadenas? ¿Y cómo decodifico las urls que han sido codificadas? ver author […]

Cómo eliminar cualquier URL dentro de una cadena en Python

Quiero eliminar todas las URL dentro de una cadena (reemplazarlas con “”) Busqué pero no pude encontrar lo que quería. Ejemplo: text1 text2 http://url.com/bla1/blah1/ text3 text4 http://url.com/bla2/blah2/ text5 text6 http://url.com/bla3/blah3/ Quiero que el resultado sea: text1 text2 text3 text4 text5 text6

urllib2.urlopen () vs urllib.urlopen () – urllib2 lanza 404 mientras que urllib funciona! ¿POR QUÉ?

import urllib print urllib.urlopen(‘http://www.reefgeek.com/equipment/Controllers_&_Monitors/Neptune_Systems_AquaController/Apex_Controller_&_Accessories/’).read() La secuencia de comandos anterior funciona y devuelve los resultados esperados mientras: import urllib2 print urllib2.urlopen(‘http://www.reefgeek.com/equipment/Controllers_&_Monitors/Neptune_Systems_AquaController/Apex_Controller_&_Accessories/’).read() arroja el siguiente error: Traceback (most recent call last): File “”, line 1, in File “/usr/lib/python2.5/urllib2.py”, line 124, in urlopen return _opener.open(url, data) File “/usr/lib/python2.5/urllib2.py”, line 387, in open response = meth(req, response) File “/usr/lib/python2.5/urllib2.py”, […]

Python, no obteniendo respuesta completa.

cuando quiero obtener la página utilizando urllib2, no obtengo la página completa. Aquí está el código en python: import urllib2 import urllib import socket from bs4 import BeautifulSoup # define the frequency for http requests socket.setdefaulttimeout(5) # getting the page def get_page(url): “”” loads a webpage into a string “”” src = ” req = […]

Django: el soporte para los argumentos de vista de cadena a url () está en desuso y se eliminará en Django 1.10

Nuevo usuario de Python / Django (y de hecho nuevo en SO): Cuando bash migrar mi proyecto Django, aparece un error: RemovedInDjango110Warning: Support for string view arguments to url() is deprecated and will be removed in Django 1.10 (got main.views.home). Pass the callable instead. url(r’^$’, ‘main.views.home’) Aparentemente el segundo argumento ya no puede ser una […]

¿Hay una mejor manera de escribir esta manipulación de URL en Python?

Tengo curiosidad por saber si hay una forma más sencilla de eliminar un parámetro en particular de una URL. Lo que se me ocurrió es lo siguiente. Esto parece un poco detallado. Bibliotecas a utilizar o una versión más python apreciada. parsed = urlparse(url) if parsed.query != “”: params = dict([s.split(“=”) for s in parsed.query.split(“&”)]) […]