Articles of beautifulsoup

¿Cómo eliminar el iframe que no se mostró directamente en BeautifulSoup y se requiere usar selenium?

Quiero raspar un video de este sitio . sin embargo, traté de obtener su URL directamente desde la etiqueta pero no la encontré en la fuente de la página después de haberla raspado con solicitudes y BeautifulSoup. Utilicé este código: import requests from bs4 import BeautifulSoup ok = requests.get(‘http://okanime.com/animes/one-piece/episodes/one-piece-314’) parse = BeautifulSoup(ok.content, ‘html5lib’) for url […]

Python web scraping con solicitudes – después de iniciar sesión

Tengo un código de sopa / solicitud de python hermoso que me permite iniciar sesión en una URL con éxito. Sin embargo, después del inicio de sesión, para obtener los datos que necesito normalmente tendré que: 1) haga clic en ‘statement’ en la primera fila: 2) Seleccione las fechas, haga clic en ‘ejecutar statement’: 3) […]

¿Cómo desechar múltiples páginas html en paralelo con beautifulsoup en python?

Estoy haciendo una aplicación webscraping en Python con el framework web Django. Necesito descartar múltiples consultas usando la biblioteca de beautifulsoup. Aquí está la instantánea del código que he escrito: for url in websites: r = requests.get(url) soup = BeautifulSoup(r.content) links = soup.find_all(“a”, {“class”:”dev-link”}) De hecho, aquí, el raspado de la página web se realiza […]

Solución de raspado web de Python

Por lo tanto, soy nuevo en Python y estoy tratando de desarrollar un ejercicio en el que elimine los números de página de una lista en esta URL, que es una lista de varios artículos publicados. Cuando entro en el elemento HTML de la página que quiero raspar, inspecciono el elemento y encuentro este código […]

Cómo agregar una etiqueta después de un enlace con BeautifulSoup

A partir de una entrada HTML como esta: this if foo this if bar utilizando BeautifulSoup, me gustaría cambiar este Html en: this if fooOK this if barOK ¿Es posible hacer esto usando BeautifulSoup? Algo como: from BeautifulSoup import BeautifulSoup soup = BeautifulSoup(html) for link_tag in soup.findAll(‘a’): link_tag = link_tag + ‘OK’ #This obviously does […]

¿Cuál es la mejor manera de importar nuevos módulos de python en intellij?

Para comenzar, leí la respuesta que aparece aquí , y traté de seguir las instrucciones que se enumeran aquí , pero las instrucciones fueron para una versión obsoleta o al menos para una versión diferente de Intellij, y la respuesta SO preexistente describió el problema, pero Al menos para mi no me proporcionó una solución. […]

Enlace HTML analizando usando BeautifulSoup

Aquí está mi código de Python que estoy usando para extraer el HTML específico de los enlaces de página que estoy enviando como parámetro. Estoy usando BeautifulSoup . ¡Este código funciona bien para algunas veces y otras veces se atasca! import urllib from bs4 import BeautifulSoup rawHtml = ” url = r’http://iasexamportal.com/civilservices/tag/voice-notes?page=’ for i in […]

Hermosa sopa de análisis XML

Tengo esta estructura de datos. Kvalifikační kolo KMK – všestrannost 18.7.2014 – Humpolec Es una fuente de información sobre una foto a la que se accede a través de la API de Flickr. Quiero extraer la siguiente información: ID título tags latitud latitud Lo que intenté lograr a través de esto. url = “https://api.flickr.com/services/rest/?method=flickr.photos.search&api_key=5….b&per_page=250&accuracy=1&has_geo=1&extras=geo,tags,views,description” soup […]

Usando BeautifulSoup para extraer elementos específicos de dl y dd list

Mi primera publicación de tiempo. Estoy usando BeautifulSoup 4 y python 2.7 (pycharm). Tengo una página web que contiene elementos y necesito extraer elementos específicos donde las tags sean ‘Salario:’ o ‘Fecha:’, la página contiene varias listas. El problema: parece que no puedo identificar y extraer un texto específico. He buscado en este sitio y […]

Cómo obtener la salida de javascript en Python BeautifulSoup o cualquier otro módulo

En mi bash de hacer un raspador, encontré un sitio web que usa mucho JavaScript en su código, ¿es posible recuperar la salida del script, por ejemplo? Python some stuff more stuff code video picture movie . . . Your Number is: document.write(math(5, 10, 15)); donde “test.js” tiene: function math (a, b, c) {return a […]