Articles of HTML

Cómo recorrer cada página del sitio web para realizar un raspado web con BeautifulSoup

Estoy raspando los datos de publicación de trabajos de un sitio web utilizando BeautifulSoup. Tengo un código de trabajo que hace lo que necesito, pero solo elimina la primera página de las ofertas de trabajo. Estoy teniendo problemas para averiguar cómo actualizar iterativamente la URL para raspar cada página. Soy nuevo en Python y he […]

Python obtiene el contenido de la URL cuando la página requiere JavaScript habilitado

Estoy buscando obtener el contenido de un archivo de texto alojado en mi sitio web usando Python. El servidor requiere que JavaScript esté habilitado en su navegador. Por eso cuando corro: import urllib2 target_url = “http://09hannd.me/ai/request.txt” data = urllib2.urlopen(target_url) Recibo una página html que dice habilitar JavaScript. Me preguntaba si había una manera de fingir […]

Python – AttributeError: el objeto ‘NoneType’ no tiene el atributo ‘get_text’

Estoy siguiendo un tutorial para bs4. Estoy intentando obtener get_text () para el siguiente ejemplo con ‘a’. Tutorial de retorno del resultado McDermott International y MDR sin problema. Pero cuando lo hago, obtengo AttributeError: el objeto ‘NoneType’ no tiene el atributo ‘get_text’. Por favor ayuda. ¡Muchas gracias! with open(‘Energy.htm’) as f: soup = BeautifulSoup(f,”lxml”) energylist […]

Se lanzó BadValueError al ingresar Integer en el formulario html

Estoy trabajando con Python para crear una aplicación de Google App Engine. Para probar mi aplicación, estoy usando formularios html para ingresar datos. En mi formulario tengo una línea: Age y en mi clase modelo, una propiedad definida así: class Person(ndb.Model): … age = ndb.IntegerProperty() cuando pruebo mi aplicación localmente, muestra el formulario, pero al […]

Lista desplegable en cascada

Estoy trabajando en una aplicación web e bash codificar un formulario con dos listas desplegables. La lista en el segundo menú desplegable dependerá de la selección del primero. La tarea en sí no es demasiado complicada, excepto que una vez que se realiza la primera selección, debo realizar una llamada a la base de datos […]

¿Hay alguna manera de fusionar / incrustar múltiples archivos Plotly HTML en una página / archivo HTML sin conexión?

Estoy tratando de combinar varios gráficos en un informe HTML para enviar. La cosa es que realmente no creo que la sub-ttwig sea la mejor idea porque los gráficos están relativamente sin relación (diferentes ejes X / Y). Todo lo que necesito hacer es simplemente agregar los gráficos en 1 archivo HTML. Hay una guía […]

Usando BeautifulSoup para extraer elementos específicos de dl y dd list

Mi primera publicación de tiempo. Estoy usando BeautifulSoup 4 y python 2.7 (pycharm). Tengo una página web que contiene elementos y necesito extraer elementos específicos donde las tags sean ‘Salario:’ o ‘Fecha:’, la página contiene varias listas. El problema: parece que no puedo identificar y extraer un texto específico. He buscado en este sitio y […]

Cómo obtener la salida de javascript en Python BeautifulSoup o cualquier otro módulo

En mi bash de hacer un raspador, encontré un sitio web que usa mucho JavaScript en su código, ¿es posible recuperar la salida del script, por ejemplo? Python some stuff more stuff code video picture movie . . . Your Number is: document.write(math(5, 10, 15)); donde “test.js” tiene: function math (a, b, c) {return a […]

Raspe la statement de ingresos de Yahoo Finance con Python

Estoy tratando de raspar los datos de los estados de ingresos en Yahoo Finance usando Python. Específicamente, digamos que quiero la cifra más reciente de los ingresos netos de Apple . Los datos están estructurados en un montón de tablas HTML anidadas. Estoy usando el módulo de requests para acceder a él y recuperar el […]

Tornado / Python self.render (“example.html”) ignora CSS

Soy novato en Python y en progtwigción en general. Utilizo un servidor web llamado Tornado para “alojar” mis sitios web. Siempre que uso self.render (“example.html”, variables aquí ) para generar una página html dinámica, la página html producida no tiene CSS incorporado, ya que solo genera la página html sin que CSS mejore su apariencia […]