Articles of beautifulsoup

Obteniendo el elemento nth usando BeautifulSoup

Desde una tabla grande quiero leer las filas 5, 10, 15, 20 … usando BeautifulSoup. ¿Cómo hago esto? ¿Es findNextSibling y un contador incremental el camino a seguir?

¿Cómo puedo raspar páginas con URL generadas dinámicamente usando Python?

Estoy intentando eliminar http://www.dailyfinance.com/quote/NYSE/international-business-machines/IBM/financial-ratios , pero la técnica tradicional de creación de cadenas de url no funciona porque el “nombre completo de la compañía “es insertada en la ruta”. Y el nombre exacto de la compañía no se conoce de antemano. Sólo se conoce el símbolo de la empresa, “IBM”. Esencialmente, la forma en que […]

Sopa hermosa: imprima un texto de contenedores sin imprimir el texto de los elementos secundarios

¿Cómo puedo dirigir el texto dentro de un contenedor sin obtener también el texto de elementos secundarios? Por ejemplo, ¿cómo podría apuntar al texto Toshiba Satellite Pro C850-1GR Satellite Pro, 1.8 GHz en el siguiente HTML? Mi bash short_description=soup.find(‘div’,{‘class’:’info-item description product-short-desc c_both’}).text print short_description HTML Short summary description Toshiba Satellite Pro C850-1GRev : This short […]

BeautifulSoup – ¿Cómo obtener todo el texto entre dos tags diferentes?

Me gustaría obtener todo el texto entre dos tags: I DONT WANT this #many different tags – p, table, h2 including text that I want … Comencé de esta manera: url = “http://…….” req = urllib.request.Request(url) source = urllib.request.urlopen(req) soup = BeautifulSoup(source, ‘lxml’) start = soup.find(‘div’, {‘class’: ‘lead’}) end = soup.find(‘div’, {‘class’: ‘image’}) Y no […]

Cómo iterar a través de múltiples páginas de resultados al raspar en la web con Beautiful Soup

Tengo un script que he escrito donde utilizo Beautiful Soup para raspar un sitio web para los resultados de búsqueda. He logrado aislar los datos que quiero a través de su nombre de clase. Sin embargo, los resultados de la búsqueda no están en una sola página. En su lugar, se distribuyen en varias páginas, […]

BeautifulSoup para raspar la dirección de la calle

Estoy usando el código en el extremo inferior para obtener el enlace web y el nombre de Masjid . Sin embargo, también me gustaría obtener denominación y dirección . por favor ayuda estoy atascado Actualmente estoy recibiendo lo siguiente Enlace web: y el nombre de Masjid Masjid Al-Hijrah Pero quisiera obtener lo de abajo; Denominación […]

descargando archivos desde campos filetype?

Estoy buscando una forma de descargar archivos de diferentes páginas y almacenarlos en una carpeta en particular en una máquina local. Estoy usando Python 2.7 Vea el campo abajo: EDITAR Aquí está el contenido html: Screenshot.docx Una posibilidad que acabo de probar: con el contenido html si agrega, digamos https://xyz.test.com y construya la URL como […]

¿Diferencia entre el rastreador BeautifulSoup y Scrapy?

Quiero hacer un sitio web que muestre la comparación entre el precio de los productos de Amazon y e-bay. ¿Cuál de estos funcionará mejor y por qué? Estoy algo familiarizado con BeautifulSoup pero no tanto con el rastreador de Scrapy .

¿Cómo puedo analizar una página dinámica utilizando Python?

Estoy usando Ghost y BeautifulSoup para analizar una página HTML. El problema que tengo es que el contenido de esta página es dynamic (creado con angularJS). Al principio, el html solo muestra algo como “espere, cargue la página”. Después de unos segundos aparece el contenido del html. Usando Ghost y BeatifulSoup acabo de obtener el […]

BeautifulSoup – combina tags consecutivas

Tengo que trabajar con el HTML más desordenado donde las palabras individuales se dividen en tags separadas, como en el siguiente ejemplo: INTRODUCTION Eso es algo difícil de leer, pero básicamente la palabra “INTRODUCCIÓN” se divide en I y NTRODUCTION con las mismas propiedades en línea para ambas tags span y b. ¿Cuál es una […]