Articles of web crawler

Solicitud Scrapy no pasa a callback cuando 301?

Estoy tratando de actualizar una base de datos llena de enlaces a sitios web externos, por alguna razón, se omite la callback cuando los encabezados / sitio web / w / e de solicitud se mueven / marca 301 def start_requests(self): #… database stuff for x in xrange(0, numrows): row = cur.fetchone() item = exampleItem() […]

Solicitud de retraso Scrapy

Cada vez que ejecuto mi código mi ip es baneada. Necesito ayuda para retrasar cada solicitud durante 10 segundos. He intentado colocar DOWNLOAD_DELAY en el código pero no da resultados. Cualquier ayuda es apreciada. # item class included here class DmozItem(scrapy.Item): # define the fields for your item here like: link = scrapy.Field() attr = […]

Scrapy SgmlLinkExtractor está ignorando los enlaces permitidos

Por favor, eche un vistazo a este ejemplo de araña en la documentación de Scrapy. La explicación es: Esta araña comenzaría a rastrear la página de inicio de example.com, recostackndo enlaces de categoría y enlaces de elementos, analizando esta última con el método parse_item. Para cada respuesta del elemento, algunos datos se extraerán del HTML […]

El envío del formulario de Mechanze provoca un ‘Error de aserción’ en respuesta cuando se intenta .read ()

Estoy escribiendo un progtwig de rastreo web con python y no puedo iniciar sesión usando mecanizar. El formulario en el sitio se ve como: Last Name: University ID or Library Barcode: Institution: Select University —- American Catholic District of Columbia Gallaudet George Mason George Washington Georgetown Marymount Trinity        Por lo tanto, puedo configurar todo […]

Scrapy – no se arrastra

Estoy intentando que se ejecute un rastreo recursivo y, como el que escribí no funcionaba bien, saqué un ejemplo de la web y lo intenté. Realmente no sé dónde está el problema, pero el rastreo no muestra ningún ERROR. Puede alguien ayudarme con esto. Además, ¿existe alguna herramienta de depuración paso a paso para ayudar […]

¿Cómo usar correctamente las Reglas, restringir las rutas para rastrear y analizar las URL con scrapy?

Estoy tratando de progtwigr una araña rastreadora para rastrear las fonts RSS de un sitio web y luego analizar las metatags del artículo. La primera página RSS es una página que muestra las categorías RSS. Logré extraer el enlace porque la etiqueta está en una etiqueta. Se parece a esto: subject1 subject2 Una vez que […]

Cómo recostackr datos de varias páginas en una sola estructura de datos con scrapy

Estoy tratando de raspar los datos de un sitio. Los datos se estructuran como múltiples objetos, cada uno con un conjunto de datos. Por ejemplo, personas con nombres, edades y ocupaciones. Mi problema es que estos datos se dividen en dos niveles en el sitio web. La primera página es, digamos, una lista de nombres […]

¿Cómo funcionan las reglas de Scrapy con la araña de rastreo?

Tengo dificultades para entender las reglas de la araña de rastreo desechado. Tengo un ejemplo que no funciona como me gustaría, por lo que puede ser dos cosas: No entiendo cómo funcionan las reglas. Formé expresiones regulares incorrectas que me impiden obtener los resultados que necesito. OK aqui es lo que quiero hacer: Quiero escribir […]

Python Scrapy – rellena start_urls desde mysql

Estoy tratando de llenar start_url con un SELECT de una tabla MYSQL usando spider.py . Cuando ejecuto “scrapy runspider spider.py” no obtengo salida, solo que terminó sin error. He probado la consulta SELECT en un script de python y start_url se rellena con las entradas de la tabla MYSQL. araña.py from scrapy.spider import BaseSpider from […]

Cómo extraer URL de una página HTML en Python

Tengo que escribir un rastreador web en Python. No sé cómo analizar una página y extraer las URL de HTML. ¿Dónde debo ir y estudiar para escribir un progtwig así? En otras palabras, ¿existe un progtwig Python simple que pueda usarse como plantilla para un rastreador web genérico? Idealmente, debería usar módulos que sean relativamente […]