Articles of web scraping

python urllib2 document.login

¿Cómo haría para iniciar sesión en un sitio web configurado de este modo, utilizando python urllib2 El siguiente es el controlador de javascript en el formulario y una presentación. ¿Cómo procesaría esto en python? function handleLogin() {document.login.un.value = document.login.username.value;document.login.width.value = screen.width;document.login.height.value = screen.height;} A continuación se muestra el formulario html con todos los componentes para […]

Cómo descargar el archivo ms word docx en python con datos sin procesar de la URL de http

si la siguiente url se encuentra en el navegador, el archivo docx se descargará y quiero automatizar la descarga con python. https://hudoc.echr.coe.int/app/conversion/docx/?library=ECHR&id=001-176931&filename=CASE OF NDIDI v. THE REINO UNIDO.docx & logEvent = Falso He intentado esto siguiente from docx import Document import requests import json from bs4 import BeautifulSoup dwnurl = ‘https://hudoc.echr.coe.int/app/conversion/docx/?library=ECHR&id=001-176931&filename=CASE%20OF%20NDIDI%20v.%20THE%20UNITED%20KINGDOM.docx&logEvent=False’ doc = requests.get(dwnurl) print(doc.content) […]

Para bucle en función, si bien verdadera dificultad para entender.

Puse esta sencilla secuencia de comandos de Web Weather Scraping , para verificar la temperatura en un lugar determinado. El código funciona perfectamente, aunque puede que no sea la mejor o la versión más limpia. Aún aprendiendo. Pero es raspado: 67 de AQUÍ . #!/usr/bin/python # -*- coding: utf-8 -*- import requests from BeautifulSoup import […]

web raspar datos de un mapa con puntos cliqueables

Estoy intentando raspar los precios, la marca y la ubicación de la gasolina desde el siguiente sitio web. https://www.motormouth.com.au/ Tiene un mapa interactivo con ubicaciones seleccionables marcadas en varios colores. Parece que hace una llamada a la API cuando hace clic en una ubicación de color, pero el contenido de la respuesta no contiene los […]

Raspe los datos de una mesa deportiva con Python y Beautiful soup

Intento eliminar los datos de una tabla, a saber ( http://stats.nba.com/leagueTeamGeneral.html?pageNo=1&rowsPerPage=30 ). Estoy teniendo dificultades con el uso de los comandos correctos. Probé varios parámetros, ninguno funcionó. Lo ideal sería tener los datos devueltos en el formato, por ejemplo: Atlanta Hawks, 32, 48.8, 18, 14, .563, etc. Puedo formatear los datos sin problemas, solo obtener […]

Desguace del mercado inmobiliario utilizando Python y BeautifulSoup

Necesito algún concepto sobre cómo analizar un mercado de bienes raíces utilizando Python. He buscado información sobre el análisis de los sitios web, incluso hice esto en VBA, pero me gustaría hacerlo en python. Este es el sitio que se analizará (es solo una oferta ahora, pero estará trabajando en una amplia gama de ofertas […]

La implementación de Scrapy no coincide con el resultado de depuración

Estoy usando Scrapy para extraer algunos datos de un sitio, diga “myproject.com”. Aquí está la lógica: Vaya a la página de inicio, y hay algunas categorylist que se usarán para construir la segunda ola de enlaces. Para la segunda ronda de enlaces, generalmente son la primera página de cada categoría. Además, para diferentes páginas dentro […]

¿Cómo hacer que XPath seleccione varios elementos de la tabla con atributos de ID idénticos?

Actualmente estoy tratando de extraer información de una página web mal formateada. Específicamente, la página ha usado el mismo atributo de identificación para varios elementos de la tabla. El marcado es equivalente a algo como esto: Some content. Important text 1. Some heading in between Important text 2. Important text 3. How about some more […]

Python: BeautifulSoup extrae todas las clases de span de la sección div

from requests import get from bs4 import BeautifulSoup url = ‘https://www.ceda.com.au/Events/Upcoming-events’ response = get(url) events_container = html_soup.find_all(‘div’, class_ = ‘list-bx’) event1name = events_container[0] print(event1name.a.text) Eventdate = html_soup.find(‘div’, class_ = ‘ col-md-4 col-sm-4 side-box well side-boxTop’) x = Eventdate.div.text print(x) Estoy tratando de imprimir la segunda clase de intervalo en la clase “col-md-4 col-sm-4 side-box well-box […]

Cómo raspar páginas aspx con python

Estoy tratando de eliminar un sitio, https://www.searchiqs.com/nybro/ (debe hacer clic en “Iniciar sesión como invitado” para acceder al formulario de búsqueda. Si busco un término de la Parte 1 como, por ejemplo, ” Andrew “los resultados tienen paginación y también, el tipo de solicitud es POST, por lo que la URL no cambia y las […]