Articles of web crawler

Scrapy – no se arrastra

Estoy intentando que se ejecute un rastreo recursivo y, como el que escribí no funcionaba bien, saqué un ejemplo de la web y lo intenté. Realmente no sé dónde está el problema, pero el rastreo no muestra ningún ERROR. Puede alguien ayudarme con esto. Además, ¿existe alguna herramienta de depuración paso a paso para ayudar […]

¿Cómo usar correctamente las Reglas, restringir las rutas para rastrear y analizar las URL con scrapy?

Estoy tratando de progtwigr una araña rastreadora para rastrear las fonts RSS de un sitio web y luego analizar las metatags del artículo. La primera página RSS es una página que muestra las categorías RSS. Logré extraer el enlace porque la etiqueta está en una etiqueta. Se parece a esto: subject1 subject2 Una vez que […]

Cómo recostackr datos de varias páginas en una sola estructura de datos con scrapy

Estoy tratando de raspar los datos de un sitio. Los datos se estructuran como múltiples objetos, cada uno con un conjunto de datos. Por ejemplo, personas con nombres, edades y ocupaciones. Mi problema es que estos datos se dividen en dos niveles en el sitio web. La primera página es, digamos, una lista de nombres […]

¿Cómo funcionan las reglas de Scrapy con la araña de rastreo?

Tengo dificultades para entender las reglas de la araña de rastreo desechado. Tengo un ejemplo que no funciona como me gustaría, por lo que puede ser dos cosas: No entiendo cómo funcionan las reglas. Formé expresiones regulares incorrectas que me impiden obtener los resultados que necesito. OK aqui es lo que quiero hacer: Quiero escribir […]

Python Scrapy – rellena start_urls desde mysql

Estoy tratando de llenar start_url con un SELECT de una tabla MYSQL usando spider.py . Cuando ejecuto “scrapy runspider spider.py” no obtengo salida, solo que terminó sin error. He probado la consulta SELECT en un script de python y start_url se rellena con las entradas de la tabla MYSQL. araña.py from scrapy.spider import BaseSpider from […]

Cómo extraer URL de una página HTML en Python

Tengo que escribir un rastreador web en Python. No sé cómo analizar una página y extraer las URL de HTML. ¿Dónde debo ir y estudiar para escribir un progtwig así? En otras palabras, ¿existe un progtwig Python simple que pueda usarse como plantilla para un rastreador web genérico? Idealmente, debería usar módulos que sean relativamente […]

Scrapy – logueando el archivo y la salida estándar simultáneamente, con nombres de arañas

Decidí usar el módulo de registro de Python porque los mensajes generados por Twisted on std error son demasiado largos, y quiero INFO mensajes significativos como los generados por StatsCollector para escribir en un archivo de registro separado mientras mantengo el mensajes de pantalla. from twisted.python import log import logging logging.basicConfig(level=logging.INFO, filemode=’w’, filename=’buyerlog.txt’) observer = […]

Tutorial Scrapy Ejemplo

Mirando para ver si alguien me puede orientar en la dirección correcta respecto al uso de Scrapy en python. He intentado seguir el ejemplo durante varios días y aún no puedo obtener la salida esperada. Usé el tutorial de Scrapy, http://doc.scrapy.org/en/latest/intro/tutorial.html#defining-our-item , e incluso descargo un proyecto exacto del repository de github pero la salida […]

Scrapy: acceda a los datos mientras rastrea y cambia aleatoriamente el agente de usuario

¿Es posible acceder a los datos mientras se está rastreando scrapy? Tengo un script que encuentra una palabra clave específica y escribe la palabra clave en .csv, así como el enlace donde se encontró. Sin embargo, tengo que esperar a que se realice el rastreo de scrapy, y cuando se hace esto, en realidad se […]

¿Cómo convertir una cadena en un objeto BeautifulSoup?

Estoy intentando rastrear un sitio web de noticias y necesito cambiar un parámetro. Lo cambié por reemplazar con el siguiente código: while i < len(links): conn = urllib.urlopen(links[i]) html = conn.read() soup = BeautifulSoup(html) t = html.replace('class="row bigbox container mi-df-local locked-single"', 'class="row bigbox container mi-df-local single-local"') n = str(t.find("div", attrs={'class':'entry cuerpo-noticias'})) print(p) El problema es […]