Articles of html parsing

Cómo obtener varias clases en una consulta usando Beautiful Soup

Quiero encontrar td con class = “s” o class = “sb” en el siguiente html test15,774.04,481.05,444.06,615.06,858.0 test25,774.04,481.05,444.06,615.06,858.0 Estoy usando el siguiente código ahora mismo. Pero solo se puede obtener la clase igual a “S”. ¿Es posible obtener tanto “s” como “sb” en una consulta de búsqueda de sopa de Beautiful Soup? soup = BeautifulSoup(urllib2.urlopen(url).read(),”lxml”); for […]

eliminar ciertos atributos de las tags HTML

¿Cómo puedo eliminar ciertos atributos como id, estilo, clase, etc. del código HTML? Pensé que podía usar el módulo lxml.html.clean , pero resultó que solo puedo eliminar los atributos de estilo con Clean(style=True).clean_html(code) . Prefiero no usar expresiones regulares para esta tarea (los atributos podrían cambiar). Lo que me gustaría tener: from lxml.html.clean import Cleaner […]

¿Necesita ayuda con la syntax lxml de Python para analizar html?

Soy nuevo en Python, y necesito ayuda con la syntax para encontrar e iterar a través de tags html usando lxml. Aquí están los casos de uso que estoy tratando: El archivo HTML está bastante bien formado (pero no es perfecto). Tiene varias tablas en la pantalla, una que contiene un conjunto de resultados de […]

Construyendo un HTML Diff / Patch Algorithm

Una descripción de lo que voy a lograr: Entrada 2 (N no es esencial) documentos HTML. Estandarizar el formato HTML. Difunda los dos documentos: los estilos externos no son importantes, pero se incluirá cualquier elemento en línea con el documento. Determine delta en el nivel Elemento de bloque HTML. Ampliando el último punto: Imagine dos […]

Extraer el elemento e insertar un espacio.

estoy analizando html usando BeautifulSoup en python No sé cómo insertar un espacio al extraer el elemento de texto este es el codigo import BeautifulSoup soup=BeautifulSoup.BeautifulSoup(‘thisisexample’) print soup.text entonces la salida es esto es un ejemplo Pero quiero insertar un espacio a este como si es ejemplo ¿Cómo inserto un espacio?

Python: Obtener texto de html usando Beautifulsoup

Estoy tratando de extraer el número de texto de clasificación de este enlace . Ejemplo de enlace de usuario de Kaggle no1 . Más claro en una imagen: Estoy usando el siguiente código: def get_single_item_data(item_url): sourceCode = requests.get(item_url) plainText = sourceCode.text soup = BeautifulSoup(plainText) for item_name in soup.findAll(‘h4’,{‘data-bind’:”text: rankingText”}): print(item_name.string) item_url = ‘https://www.kaggle.com/titericz’ get_single_item_data(item_url) El […]

Web scraping: cómo identificar el contenido principal en una página web

Dada una página web de artículos de noticias (de cualquier fuente de noticias importante, como times o bloomberg), quiero identificar el contenido del artículo principal en esa página y desechar los demás elementos misceláneos como anuncios, menús, barras laterales, comentarios de usuarios. ¿Cuál es una forma genérica de hacer esto que funcione en la mayoría […]

Necesito xpath genérico para el siguiente código html

A continuación se muestra el código HTML para el que necesito un XPath único. Type White List Black List Necesito algo como [@label = ‘Lista blanca’] para no tener que escribir múltiples xpaths en mi código. Quiero pasar valores como Lista blanca y Lista negra desde una función.

Eliminación de tags html al rastrear wikipedia con urllib2 y Beautifulsoup de python

Estoy tratando de rastrear wikipedia para obtener algunos datos para la minería de texto. Estoy usando urllib2 de python y Beautifulsoup. Mi pregunta es que: ¿hay una manera fácil de deshacerse de las tags innecesarias (como los enlaces a o ‘span’s) del texto que leo? para este escenario: import urllib2 from BeautifulSoup import * opener […]

Python, analizando html

Gracias al tipo de usuarios de este sitio, tengo una idea de cómo usar re como alternativa a un módulo no estándar de Python para que mi script funcione con un mínimo de locking. Hoy, he estado experimentando con los módulos de análisis. Me he encontrado con beautifulsoup … todo esto es genial, pero no […]