Articles of raspado

Actualización dinámica de datos de sensores de temperatura de un sitio web.

Escribí el siguiente código de Python: from bs4 import BeautifulSoup import urllib2 url= ‘http://www.example.com’ page = urllib2.urlopen(url) soup = BeautifulSoup(page.read(),”html.parser”) freq=soup.find(‘div’, attrs={‘id’:’frequenz’}) print freq El resultado es: tempsensor Cuando veo este sitio con un navegador web, la página web muestra un contenido dynamic, no la cadena ‘tempsensor’. El valor de la temperatura se actualiza automáticamente […]

Twisted Python Failure – Problemas de Scrapy

Estoy tratando de usar SCRAPY para eliminar los requisitos de búsqueda de este sitio web para cualquier consulta de búsqueda: http://www.bewakoof.com . El sitio web utiliza AJAX (en forma de XHR) para mostrar los resultados de la búsqueda. Me las arreglé para rastrear el XHR, y lo observas en mi código como se muestra a […]

¿Puede Scrapy ser reemplazado por pyspider?

He estado utilizando Scrapy web-scraping framework bastante extensamente, pero recientemente descubrí que existe otro framework / sistema llamado pyspider , que, según su página de github, es nuevo, está desarrollado activamente y es popular. La página de inicio de pyspider enumera varias cosas que se soportan de manera pyspider : Potente WebUI con editor de […]

Extraer / identificar tablas de PDF python

¿Hay bibliotecas de código abierto que admiten la identificación y extracción de tablas? Con esto quiero decir: Identificar una estructura de tabla existente Clasificar la tabla a partir de su contenido. Extraiga los datos de la tabla en un formato de salida útil, por ejemplo, JSON / CSV, etc. He examinado preguntas similares sobre este […]

scrapy xpath selector repite datos

Estoy intentando extraer el nombre y la dirección del negocio de cada listado y exportarlo a un -csv, pero estoy teniendo problemas con el csv de salida. Creo que bizs = hxs.select (“// div [@ class = ‘listing_content’]”) puede estar causando los problemas. yp_spider.py from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from yp.items import […]