¿Por dónde debo empezar a hacer un raspador o un bot usando python?

No soy tan nuevo en lenguajes de progtwigción (python) pero no tengo idea de dónde empezaré a hacer un bot o un raspador usando python. ¿Debo estudiar en progtwigción cgi? ¿O el raspador se ejecuta simplemente usando un script de python? ¿Debo construir un servidor para eso? No tengo ni idea de esto … gracias por la ayuda

Aquí hay algunos enlaces para empezar.

  • Construye un raspador web básico en Python
  • Scrapy: un marco de trabajo web de código abierto para Python
  • Web que raspa con Python. Parte 1: Rastreo

Si está intentando acceder a sitios web que hacen un uso intensivo de JavaScript, es posible que, en general, encuentre Selenium más fácil.

Selenium es un servidor que controla los navegadores web reales de su servidor y una biblioteca cliente (que incluye un puerto Python) que le permite controlar los navegadores e inspeccionar las páginas en ellos.

Definitivamente es más costoso por adelantado configurar (y descifrar) el servidor y la biblioteca del cliente (y asegurarse de tener un navegador que funcione en su sistema), pero si el sitio web hace muchas cosas en JavaScript, su código de raspado real Podría ser mucho menos peludo.

El raspado de pantalla implica muchas expresiones regulares para obtener los datos exactos que desea. También desea saber qué tipo de datos desea analizar y cómo desea almacenarlos.

Para obtener las páginas, deberá utilizar bibliotecas como urllib (o urllib2) y expresiones regulares (re) o un buen script para usar es hermoso para hacer su trabajo sucio ( http://www.crummy.com/software / BeautifulSoup / )

Si desea crear un bot puro que haga lo que hacen los motores de búsqueda, también debe crear un bot lo suficientemente inteligente como para saber que no sigue haciendo ping en el mismo dominio continuamente (lo que resulta en un ataque de DOS).