Articles of pantalla raspado

Rellenando un formulario utilizando PyQt y QWebview

Me gustaría usar PyQt / QWebview para 1) cargar una url específica, 2) ingresar información en un formulario, 3) hacer clic en los botones / enlaces. Mecanizar no funciona porque necesito un navegador real. Aquí está mi código: import sys from PyQt4.QtCore import * from PyQt4.QtGui import * from PyQt4.QtWebKit import * from PyQt4 import […]

BeautifulSoup subpáginas de la lista con la paginación “cargar más”

Bastante nuevo aquí, así que disculpas por adelantado. Estoy buscando obtener una lista de todas las descripciones de la compañía en https://angel.co/companies para jugar. Las herramientas de análisis basadas en la web que he intentado no lo están cortando, así que busco escribir un simple script en Python. ¿Debería comenzar por obtener una matriz de […]

Raspado web de Python con tags HTML con atributos

Estoy tratando de hacer un raspador web que analice una página web de publicaciones y extraiga a los autores. La estructura esquelética de la página web es la siguiente: ####I want whatever is located here ### He estado intentando usar BeautifulSoup y lxml hasta ahora para realizar esta tarea, pero no estoy seguro de cómo […]

Pase el usuario-agente a través de webdriver en Selenium

Estoy trabajando en un proyecto de raspado de sitios web utilizando Selenium en Python. Cuando abro la página de inicio a través de un navegador, se abre correctamente. Pero, cuando bash abrir la página web a través de webdriver() en Selenium, se abre una página completamente diferente. Creo que es capaz de detectar el user-agent […]

Evaluar javascript en un archivo html local (sin navegador)

Esto es parte de un proyecto en el que estoy trabajando para trabajar. Quiero automatizar un sitio de Sharepoint, específicamente para extraer datos de una base de datos a la que yo y mis compañeros de trabajo solo tenemos acceso de front-end. FINALMENTE logré mecanizar (en Python) para lograr esto utilizando Python-NTLM, y parcheando parte […]

Progtwigdor Python Browser con JavaScript

Quiero realizar una captura de pantalla de un sitio web que utiliza JavaScript. No es mecanizar , el navegador web programático para Python. Sin embargo, (comprensiblemente) no interpreta javascript. ¿Hay algún navegador programático para Python que lo haga? Si no, ¿hay alguna implementación de JavaScript en Python que pueda usar para intentar crear una?

Formulario Programático Enviar

Quiero raspar los contenidos de una página web. Los contenidos se producen después de que se haya completado y enviado un formulario en ese sitio. He leído cómo eliminar el contenido del resultado final / la página web, pero ¿cómo puedo enviar el formulario mediante progtwigción? Estoy usando python y he leído que podría necesitar […]

Consigue seguidores en Instagram

Quiero analizar los seguidores de un sitio web con BeautifulSoup. Esto es lo que tengo hasta ahora: username_extract = ‘lazada_my’ url = ‘https://www.instagram.com/’+ username_extract r = requests.get(url) soup = BeautifulSoup(r.content,’lxml’) f = soup.find(‘head’, attrs={‘class’:’count’}) Esta es la parte que quiero analizar: Algo dentro de mi función soup.find () está mal, pero no puedo envolver mi […]

¿Por qué Scrapy arroja un error para mí cuando bash arañar y analizar un sitio?

El siguiente codigo class SiteSpider(BaseSpider): name = “some_site.com” allowed_domains = [“some_site.com”] start_urls = [ “some_site.com/something/another/PRODUCT-CATEGORY1_10652_-1__85667″, ] rules = ( Rule(SgmlLinkExtractor(allow=(‘some_site.com/something/another/PRODUCT-CATEGORY_(.*)’, ))), # Extract links matching ‘item.php’ and parse them with the spider’s method parse_item Rule(SgmlLinkExtractor(allow=(‘some_site.com/something/another/PRODUCT-DETAIL(.*)’, )), callback=”parse_item”), ) def parse_item(self, response): …. parse stuff Lanza el siguiente error. Traceback (most recent call last): File “/usr/lib/python2.6/dist-packages/twisted/internet/base.py”, […]

raspar html generado por javascript con python

Necesito raspar un sitio con python. Obtengo el código html de origen con el módulo urlib, pero también necesito raspar un código html generado por una función javascript (que se incluye en el código html). Lo que esta función hace “en” el sitio es que cuando se presiona un botón, se genera un código html. […]