Estoy intentando que se ejecute un rastreo recursivo y, como el que escribí no funcionaba bien, saqué un ejemplo de la web y lo intenté. Realmente no sé dónde está el problema, pero el rastreo no muestra ningún ERROR. Puede alguien ayudarme con esto. Además, ¿existe alguna herramienta de depuración paso a paso para ayudar […]
Estoy tratando de progtwigr una araña rastreadora para rastrear las fonts RSS de un sitio web y luego analizar las metatags del artículo. La primera página RSS es una página que muestra las categorías RSS. Logré extraer el enlace porque la etiqueta está en una etiqueta. Se parece a esto: subject1 subject2 Una vez que […]
Estoy tratando de raspar los datos de un sitio. Los datos se estructuran como múltiples objetos, cada uno con un conjunto de datos. Por ejemplo, personas con nombres, edades y ocupaciones. Mi problema es que estos datos se dividen en dos niveles en el sitio web. La primera página es, digamos, una lista de nombres […]
Tengo dificultades para entender las reglas de la araña de rastreo desechado. Tengo un ejemplo que no funciona como me gustaría, por lo que puede ser dos cosas: No entiendo cómo funcionan las reglas. Formé expresiones regulares incorrectas que me impiden obtener los resultados que necesito. OK aqui es lo que quiero hacer: Quiero escribir […]
Estoy tratando de llenar start_url con un SELECT de una tabla MYSQL usando spider.py . Cuando ejecuto “scrapy runspider spider.py” no obtengo salida, solo que terminó sin error. He probado la consulta SELECT en un script de python y start_url se rellena con las entradas de la tabla MYSQL. araña.py from scrapy.spider import BaseSpider from […]
Tengo que escribir un rastreador web en Python. No sé cómo analizar una página y extraer las URL de HTML. ¿Dónde debo ir y estudiar para escribir un progtwig así? En otras palabras, ¿existe un progtwig Python simple que pueda usarse como plantilla para un rastreador web genérico? Idealmente, debería usar módulos que sean relativamente […]
Decidí usar el módulo de registro de Python porque los mensajes generados por Twisted on std error son demasiado largos, y quiero INFO mensajes significativos como los generados por StatsCollector para escribir en un archivo de registro separado mientras mantengo el mensajes de pantalla. from twisted.python import log import logging logging.basicConfig(level=logging.INFO, filemode=’w’, filename=’buyerlog.txt’) observer = […]
Mirando para ver si alguien me puede orientar en la dirección correcta respecto al uso de Scrapy en python. He intentado seguir el ejemplo durante varios días y aún no puedo obtener la salida esperada. Usé el tutorial de Scrapy, http://doc.scrapy.org/en/latest/intro/tutorial.html#defining-our-item , e incluso descargo un proyecto exacto del repository de github pero la salida […]
¿Es posible acceder a los datos mientras se está rastreando scrapy? Tengo un script que encuentra una palabra clave específica y escribe la palabra clave en .csv, así como el enlace donde se encontró. Sin embargo, tengo que esperar a que se realice el rastreo de scrapy, y cuando se hace esto, en realidad se […]
Estoy intentando rastrear un sitio web de noticias y necesito cambiar un parámetro. Lo cambié por reemplazar con el siguiente código: while i < len(links): conn = urllib.urlopen(links[i]) html = conn.read() soup = BeautifulSoup(html) t = html.replace('class="row bigbox container mi-df-local locked-single"', 'class="row bigbox container mi-df-local single-local"') n = str(t.find("div", attrs={'class':'entry cuerpo-noticias'})) print(p) El problema es […]