Estoy trabajando con sopa hermosa. Tengo una cadena html:
ignore thisget this
¿Cómo recupero “obtener esto”, mientras ignora ” ignorar esto ”
Gracias
Puede obtener el texto div
simplemente no recuperar de forma recursiva los textos secundarios:
>>> from bs4 import BeautifulSoup >>> soup = BeautifulSoup('ignore thisget this') >>> soup.div.find(text=True, recursive=False) u'get this'
Esto funciona independientemente de la posición del texto con respecto a los niños:
>>> soup = BeautifulSoup('get thisignore this') >>> soup.div.find(text=True, recursive=False) u'get this'