¿Cómo raspar las noticias diarias una vez al día usando Python?

Estoy intentando crear una aplicación para la que necesito noticias diarias de varios sitios web. Una forma de hacerlo es mediante el uso de la biblioteca BeautifulSoup de Python. Sin embargo, esto es bueno para las páginas que tienen sus noticias en una página estática.

Consideremos un sitio como http://www.techcrunch.com . Solo tienen uno de sus titulares y para más noticias debes hacer clic en “Leer más”. Para varios otros sitios web de noticias, es similar. ¿Cómo extraigo dicha información y la vuelco en un archivo-txt / .dmp o cualquier otro tipo de archivo? ¿Qué herramienta debo usar? ¿Qué enfoque debo tomar para implementar esto en Python?

Necesito esta secuencia de comandos para descargar automáticamente las noticias de varios sitios web UNA VEZ CADA ÚNICO DÍA y almacenarla en un archivo con categorías como encabezado, fecha, contenido, etc. Estaría cargando esta secuencia de comandos en el servidor apache2. ¿Alguna sugerencia?

¿Cómo extraigo dicha información y la vuelco en un archivo-txt / .dmp o cualquier otro tipo de archivo? ¿Qué herramienta debo usar?

Para más noticias necesita hacer clic en “Leer más”.

Las herramientas que podría aprovechar son Selenuim como pura automatización del navegador o iMacros.

  1. Este es un ejemplo de cómo aprovechar Selenium en Python, lado del servidor.
  2. Aquí hay una publicación (y video) sobre la extracción de datos usando iMacros. Como solo lo necesita una vez al día, puede progtwigr su ejecución regular en Win o Mac.