Articles of web scraping

Extraer texto entre comentarios HTML con BeautifulSoup

Usando Python 3 y BeautifulSoup 4, me gustaría poder extraer texto de una página HTML que solo está delineada por un comentario sobre ella. Un ejemplo: I would like to get this text I would also like to find this text He encontrado varias formas de extraer el texto o los comentarios de una página, […]

Formato de salida de Scrapy a XML

Así que estoy tratando de exportar los datos extraídos de un sitio web utilizando Scrapy para estar en un formato particular cuando los exporto a XML. Esto es lo que me gustaría que fuera mi XML: Estoy ejecutando mi raspadura usando el comando: $ scrapy crawl my_scrap -o items.xml -t xml La salida actual que […]

Python lxml etree applet información de yahoo

Yahoo Finance actualizó su sitio web. Tenía un script lxml / etree que usaba para extraer las recomendaciones de los analistas. Ahora, sin embargo, las recomendaciones de los analistas están ahí, pero solo como un gráfico. Puedes ver un ejemplo en esta página . El gráfico denominado Tendencias de recomendación en la columna de la […]

Fallo en la solicitud POST de Python, El host remoto cerró a la fuerza una conexión existente

Estoy usando Beautiful Soup para intentar raspar una página web. El código funcionó muy bien pero ahora no está funcionando. Creo que el problema es que el sitio de origen cambió su página de inicio de sesión. Así que reemplacé el loginurl y aparentemente no puedo conectarme a esa url. Puedo conectarme a él directamente. […]

BeautifulSoup -ing un sitio web con inicio de sesión y motor de búsqueda del sitio

Estoy intentando raspar los datos de la Organización Marítima Internacional ( https://gisis.imo.org/Public/PAR/Search.aspx ) sobre los ataques de embarcaciones de envío entre las fechas (“está entre” en el motor de búsqueda del sitio) 2002-01 -01, 2005-12-31. He usado bs4 y solicita módulos en python anteriormente para eliminar datos financieros de yahoo y datos meteorológicos de wunderground, […]

¿Se puede aplicar el raspado a esta página que está recalculando activamente?

Me gustaría capturar las posiciones de los satélites de la (s) página (s) a continuación, pero no estoy seguro si el raspado es apropiado porque la página parece actualizarse cada segundo usando algún código interno (se actualiza después de desconectarme de Internet) . La información de fondo se puede encontrar en mi pregunta en Space […]

Obtención de texto codificado mientras se raspan los datos de la URL con Beautifulsoup Python

Parte del código: [<!– 560 \u091c\u093e \u0930\u0939\u0947 \u0939\u0948\u0902 \xb7 3.1 \u0939\u091c\u093c\u093e\u0930 \u0915\u0940 \u0930\u0941\u091a\u093f \u0939\u0948\u0907\u0938 \u0908\u0935\u0947\u0902\u091f \u0915\u094b \u0905\u092a\u0928\u0947 \u092e\u093f\u0924\u094d\u0930\u094b\u0902 \u0938\u0947 \u0938\u093e\u091d\u093e \u0915\u0930\u0947\u0902\u0906\u092e\u0902\u0924\u094d\u0930\u093f\u0924 \u0915\u0930\u0947\u0902 –>, <!– clock29 \u091c\u0941\u0932\u093e\u0908 10:00 \u092a\u0942\u0930\u094d\u0935\u093e\u0939\u094d\u0928 – 05:30 \u0905\u092a\u0930\u093e\u0939\u094d\u0928 UTC+05:30pin\u092e\u0948\u092a \u0926\u093f\u0916\u093e\u090f\u0901\u092e\u0948\u092a \u091b\u093f\u092a\u093e\u090f\u0901IIT DelhiHauz Khaz, New Delhi, India 110016\u0915\u0949\u0932\u0947\u091c \u0914\u0930 \u092f\u0942\u0928\u093f\u0935\u0930\u094d\u0938\u093f\u091f\u0940011 2659 6316\u0926\u093f\u0936\u093e\u090f\u0901 \u092a\u094d\u0930\u093e\u092a\u094d\u0924 \u0915\u0930\u0947\u0902 –>, <!– \u0935\u093f\u0935\u0930\u0923Indian Youth Forum is proud to announce the first-ever […]

Beautiful Soup no ‘recibe’ página web completa

Estoy usando BeautifulSoup para analizar un montón de enlaces de esta página, pero no estaba extrayendo todos los enlaces que quería. Para intentar averiguar por qué, descargué el html a “web_page.html” y lo ejecuté soup = BeautifulSoup(open(“web_page.html”)) print soup.get_text() Me doy cuenta de que no imprime toda la página web. Termina en Brackley. Miré el […]

Web HTML de raspado usando Python

Creo que estoy muy cerca, por lo que cualquier ayuda sería apreciada. Intentando eliminar los datos de índice y valor de la tabla titulada “Actividad del mercado de valores” en la página de inicio de NASDAQ: def get_index_prices(NASDAQ_URL): html = urlopen(NASDAQ_URL).read() soup = BeautifulSoup(html, “lxml”) for row in soup(‘table’, {‘class’: ‘genTable thin’})[0].tbody(‘tr’): tds = row(‘td’) […]

¿Cómo obtener estadísticas de una carrera de scrapy?

Estoy ejecutando la araña de scrapy desde un archivo externo como se muestra en el ejemplo de documentos de scrapy. Quiero capturar las estadísticas proporcionadas por la API Core y almacenarlas en la tabla mysql una vez finalizado el rastreo. from twisted.internet import reactor from scrapy.crawler import Crawler from scrapy import log, signals from test.spiders.myspider […]