Articles of web de

Scrapy, solo sigue URLS internas pero extrae todos los enlaces encontrados

Quiero obtener todos los enlaces externos de un sitio web determinado utilizando Scrapy. Usando el siguiente código, la araña también rastrea enlaces externos: from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors import LinkExtractor from myproject.items import someItem class someSpider(CrawlSpider): name = ‘crawltest’ allowed_domains = [‘someurl.com’] start_urls = [‘http://www.someurl.com/’] rules = (Rule (LinkExtractor(), callback=”parse_obj”, follow=True), ) def […]

¿Cómo rastrear miles de páginas usando scrapy?

Estoy buscando rastrear miles de páginas y necesito una solución. Cada sitio tiene su propio código html, todos son sitios únicos. No hay fuente de datos limpia o API disponible. Espero cargar los datos capturados en algún tipo de DB. ¿Alguna idea sobre cómo hacer esto con scrapy si es posible?

¿Descargar imágenes de Google Search usando Python da error?

Aquí está mi código: import os import sys import time from urllib import FancyURLopener import urllib2 import simplejson # Define search term searchTerm = “parrot” # Replace spaces ‘ ‘ in search term for ‘%20’ in order to comply with request searchTerm = searchTerm.replace(‘ ‘,’%20’) # Start FancyURLopener with defined version class MyOpener(FancyURLopener): version = […]

UnicodeDecodeError al pasar datos GET en Python / AppEngine

Esto se siente como una pregunta realmente básica, pero no he podido encontrar una respuesta. Me gustaría leer datos de una URL, por ejemplo, obtener datos de una cadena de consulta. Estoy usando el marco de la aplicación webapp en Python. Intenté el siguiente código, pero como tengo un principiante total en Python / appengine, […]

Hermosa sopa de encontrar – obtener sólo el texto

Tuve este fragmento de código escupiendo solo el precio como una cadena (125.01), pero debo haber cambiado algo porque ahora imprime toda la línea con las tags html y todo. ¿Cómo puedo hacer que se imprima solo el texto, sin usar expresiones regulares? import requests from bs4 import BeautifulSoup url = ‘http://finance.yahoo.com/q?s=aapl&fr=uh3_finance_web&uhb=uhb2’ data = requests.get(url) […]

Script Python para hacer clic en un botón de página web

Tengo una secuencia de comandos de python que envía datos a una aplicación de django utilizando la biblioteca de solicitudes. Luego, los usuarios cambian a la página web y hacen clic en un botón que obtiene un formulario de edición para agregar información adicional. Quiero que, inmediatamente después de que las solicitudes reciban un código […]

Scrapy – Spider rastrea URL duplicadas

Estoy rastreando una página de resultados de búsqueda y recojo el título y la información del enlace desde la misma página. Como es una página de búsqueda, también tengo los enlaces a las páginas siguientes, que he especificado en el SgmlLinkExtractor para permitir. La descripción del problema es: En la primera página, he encontrado los […]

¿Es posible abrir ciertas direcciones web utilizando el navegador de Internet predeterminado con python?

Quiero que Python abra una dirección determinada utilizando el navegador web predeterminado de la computadora. es posible?

webapp2 – ¿Cómo revertir la URL en las plantillas?

Estoy empezando con webapp2. Mi inglés no es muy bueno, así que usaré un ejemplo para explicar mi problema: Supongamos que estoy creando una aplicación que manejará la información de los autos. Tengo estos manejadores: ViewHandler: mostrará una vista para un solo automóvil, con toda su información (motor, año, marca, modelo, etc.) ListHandler: mostrará todos […]

Carga y procesamiento de archivos usando Python

Me contactó un amigo hace unos días, que tiene muy poca experiencia en progtwigción, y tiene un proyecto en el que pidió ayuda. Básicamente, esto es lo que está tratando de lograr: 1.) Create a website that can accept text files as input. 2.) Read said file and pass the parameters contained in the file […]