Cómo encontrar todo el texto dentro de los elementos en una página HTML usando BeautifulSoup

Necesito encontrar todas las tags visibles dentro de los elementos de párrafo en un archivo HTML usando BeautifulSoup en Python.
Por ejemplo,

Many hundreds of named mango cultivars exist.


debe regresar:
Many hundreds of cultivars exist.

PS Algunos archivos contienen caracteres Unicode (Hindi) que deben extraerse.
¿Alguna idea de cómo hacer eso?

Así es como puedes hacerlo con BeautifulSoup. Esto eliminará cualquier etiqueta que no esté en VALID_TAGS pero mantendrá el contenido de las tags eliminadas.

 from BeautifulSoup import BeautifulSoup VALID_TAGS = ['div', 'p'] soup = BeautifulSoup(value) for tag in soup.findAll('p'): if tag.name not in VALID_TAGS: tag.replaceWith(tag.renderContents()) print soup.renderContents() 

Referencia

 soup.findAll('p') 

aqui hay una referencia