Articles of HTML

Encontrar texto de enlace específico con bs4

Estoy intentando raspar un sitio web y encontrar todos los encabezados de un feed. Estoy teniendo problemas para obtener el texto de la etiqueta que necesito. Aquí hay un ejemplo del html. TF4 – Oreos (0) Awesome Game Boy Facts (0) Estoy tratando de obtener el texto para cada etiqueta con un ID de c […]

Tener problemas para entender el filtro de BeautifulSoup

¿Podría alguien explicar por favor cómo funciona el filtrado con Beautiful Soup? Tengo el siguiente código HTML del que estoy tratando de filtrar datos específicos pero parece que no puedo acceder a ellos. He intentado varios enfoques, desde reunir todas las class=g hasta obtener los elementos de interés en esa división específica, pero solo obtengo […]

Análisis de la página HTML usando beautifulsoup

Comencé a trabajar en beautifulsoup para analizar HTML. por ejemplo, para el sitio ” http://en.wikipedia.org/wiki/PLCB1 ” import sys sys.setrecursionlimit(10000) import urllib2, sys from BeautifulSoup import BeautifulSoup site= “http://en.wikipedia.org/wiki/PLCB1” hdr = {‘User-Agent’: ‘Mozilla/5.0’} req = urllib2.Request(site,headers=hdr) page = urllib2.urlopen(req) soup = BeautifulSoup(page) table = soup.find(‘table’, {‘class’:’infobox’}) #print table rows = table.findAll(“th”) for x in rows: print […]

¿Cómo pasar la variable python a la variable html?

Necesito leer un enlace url desde un archivo de texto en Python como variable, y usarlo en html. El archivo de texto “file.txt” contiene solo una línea ” http: //188.xxx.xxx.xx: 8878 “, esta línea debe guardarse en la variable “link”, luego debería usar el contenido de esta variable en El html, para que el enlace […]

¿Qué debo hacer cuando tiene rowpan

Si la fila tiene un elemento rowpan, cómo hacer que la fila corresponda a la tabla como en la página de Wikipedia. from bs4 import BeautifulSoup import urllib2 from lxml.html import fromstring import re import csv import pandas as pd wiki = “http://en.wikipedia.org/wiki/List_of_England_Test_cricket_records” header = {‘User-Agent’: ‘Mozilla/5.0’} #Needed to prevent 403 error on Wikipedia req […]

Extraer datos de HTML con Python

Tengo el siguiente texto procesado por mi código en Python: some link some data 1 some data 2 some data 3 ¿Podría aconsejarme cómo extraer datos desde ? Mi idea es ponerlo en un archivo CSV con el siguiente formato: some link, some data 1, some data 2, some data 3 . Espero que sin […]

Cómo insertar JSON arbitrario en la etiqueta de script de HTML

Me gustaría almacenar el contenido de un JSON en la fuente de un documento HTML, dentro de una etiqueta de script. El contenido de ese JSON depende de las entradas enviadas por el usuario, por lo que es necesario tener mucho cuidado para sanear esa cadena para XSS. He leído dos conceptos aquí en SO. […]

Llamar a una URL especial (no HTTP) desde el método form_valid de una vista basada en clases de Django

Hay un truco de HTML en el que si haces New SMS Message , hacer clic en Nuevo mensaje SMS abre la aplicación SMS nativa del teléfono y llena el campo To con el número proporcionado (1-408-555-1212 en este caso), y el body con el mensaje proporcionado ( Hello my friend en este caso). ¿Hay […]

La mejor manera de convertir este archivo html en un archivo xml usando python

este html está aquí : Stream Name Status Duration Start c:\streams\ours\Sony_AVCHD_Test_Discs_60Hz_00001.m2ts —- 00:00:02 2010/06/15-15:06:17 Test Category Error Warning Details All Tests (Sony_AVCHD_Test_Discs_60Hz_00001.m2ts) 34787 0 ETSI TR-101-290 Tests No Lic No Lic ISO/IEC Transport Stream Tests No Lic No Lic System Data T-STD Tests No Lic No Lic Prog(1) 34787 0 VES(0xe0) 34787 0 H.264/AVC Conformance […]

Cómo analizar HTML con formato incorrecto en Python

Necesito buscar el árbol DOM de un documento HTML analizado. Estoy usando uTidyLib antes de analizar la cadena con lxml a = tidy.parseString (html_code, options) dom = etree.fromstring (str (a)) A veces me sale un error, parece que tidylib no puede reparar html con formato incorrecto. ¿Cómo puedo analizar todos los archivos HTML sin recibir […]