Obtención de Python

Quiero obtener el título de una página web que abro usando urllib2. Cuál es la mejor manera de hacer esto, analizar el html y encontrar lo que necesito (por ahora solo la etiqueta, pero podría necesitar más en el futuro).

¿Hay un buen lib del análisis para este propósito?

Sí, recomendaría BeautifulSoup

Si estás obteniendo el título es simplemente:

soup = BeautifulSoup(html) myTitle = soup.html.head.title 

o

 myTitle = soup('title') 

Tomado de la documentación.

Es muy robusto y analizará el html sin importar lo complicado que sea.

Prueba la sopa hermosa :

 url = 'http://www.example.com' response = urllib2.urlopen(url) html = response.read() soup = BeautifulSoup(html) title = soup.html.head.title print title.contents 

¿Por qué están importando una biblioteca extra para una tarea? No hay expresiones regulares? ¿No fue la solicitud de urllib no bs4 o mech que son terceros? para hacerlo con las bibliotecas estándar, analice el html y haga coincidir la cadena, luego divida '>' '<' con re o whateves.

 N=(len(html)) for a in html(N): if '' in a: Title=(str(a)) 

eso es python 2 creo, puedes despojarlo

Utilice la sopa hermosa .

 html = urllib2.urlopen("...").read() from BeautifulSoup import BeautifulSoup soup = BeautifulSoup(html) print soup.title.string