Articles of web scraping

¿Cómo seleccionar y extraer textos entre dos elementos?

Estoy tratando de raspar este sitio web utilizando scrapy. La estructura de la página se ve así: Follows Star Trek <a href="https://stackoverflow.com/questions/45957062/how-to-select-and-extract-texts-between-two-elements/… Star Trek: The Motion Picture Star Trek II: The Wrath of Khan Star Trek III: The Search for Spock Star Trek IV: The Voyage Home Followed by Star Trek V: The Final Frontier […]

¿Cómo extraer la información del jugador de la página de Estadísticas según el HTML?

Estoy intentando recostackr información para un sitio web que usa selenium. A continuación, se encuentra el enlace al sitio web http://www.ultimatetennisstatistics.com/playerProfile?playerId=4742. La información que estoy tratando de obtener está bajo las estadísticas del jugador En este momento, se abre el perfil del jugador y luego se abre la página de estadísticas del jugador. Estoy tratando […]

¿Cómo eliminar el iframe que no se mostró directamente en BeautifulSoup y se requiere usar selenium?

Quiero raspar un video de este sitio . sin embargo, traté de obtener su URL directamente desde la etiqueta pero no la encontré en la fuente de la página después de haberla raspado con solicitudes y BeautifulSoup. Utilicé este código: import requests from bs4 import BeautifulSoup ok = requests.get(‘http://okanime.com/animes/one-piece/episodes/one-piece-314’) parse = BeautifulSoup(ok.content, ‘html5lib’) for url […]

Python web scraping con solicitudes – después de iniciar sesión

Tengo un código de sopa / solicitud de python hermoso que me permite iniciar sesión en una URL con éxito. Sin embargo, después del inicio de sesión, para obtener los datos que necesito normalmente tendré que: 1) haga clic en ‘statement’ en la primera fila: 2) Seleccione las fechas, haga clic en ‘ejecutar statement’: 3) […]

Solución de raspado web de Python

Por lo tanto, soy nuevo en Python y estoy tratando de desarrollar un ejercicio en el que elimine los números de página de una lista en esta URL, que es una lista de varios artículos publicados. Cuando entro en el elemento HTML de la página que quiero raspar, inspecciono el elemento y encuentro este código […]

Hermosa sopa de análisis XML

Tengo esta estructura de datos. Kvalifikační kolo KMK – všestrannost 18.7.2014 – Humpolec Es una fuente de información sobre una foto a la que se accede a través de la API de Flickr. Quiero extraer la siguiente información: ID título tags latitud latitud Lo que intenté lograr a través de esto. url = “https://api.flickr.com/services/rest/?method=flickr.photos.search&api_key=5….b&per_page=250&accuracy=1&has_geo=1&extras=geo,tags,views,description” soup […]

Cómo obtener la salida de javascript en Python BeautifulSoup o cualquier otro módulo

En mi bash de hacer un raspador, encontré un sitio web que usa mucho JavaScript en su código, ¿es posible recuperar la salida del script, por ejemplo? Python some stuff more stuff code video picture movie . . . Your Number is: document.write(math(5, 10, 15)); donde “test.js” tiene: function math (a, b, c) {return a […]

Extraer texto entre tags utilizando BeautifulSoup

Estoy tratando de extraer texto de una serie de páginas web que siguen un formato similar con BeautifulSoup. El html para el texto que deseo extraer está abajo. El enlace real está aquí: http://www.p2016.org/ads1/bushad120215.html . [Music] TEXT: The Medal of Honor is the highest award for valor in action against an enemy force Col. Jay […]

Error al imprimir ‘bs4.element.NavigableString’

Estoy usando Beautiful soup para desechar datos del sitio web Weather Underground. Pude obtener los datos exactos que quiero y asignarlos a una variable dayTemp . pero cuando bash imprimirlo con print dayTemp . Obtuve el siguiente error: Traceback (most recent call last): File “”, line 1, in print dayTemp File “C:\Python27\lib\idlelib\rpc.py”, line 595, in […]

¿Por qué BeautifulSoup devuelve una lista vacía en los sitios web de resultados de búsqueda?

Estoy buscando obtener el precio de un artículo específico en línea y parece que no puedo obtener el elemento bajo una etiqueta, pero podría hacerlo en otro sitio (diferente) del sitio web. En este sitio en particular, solo obtengo una lista vacía. La impresión soup.text también funciona. No quiero usar Selenium si es posible, ya […]