Articles of html parsing

¿Necesita ayuda con la syntax lxml de Python para analizar html?

Soy nuevo en Python, y necesito ayuda con la syntax para encontrar e iterar a través de tags html usando lxml. Aquí están los casos de uso que estoy tratando: El archivo HTML está bastante bien formado (pero no es perfecto). Tiene varias tablas en la pantalla, una que contiene un conjunto de resultados de […]

Construyendo un HTML Diff / Patch Algorithm

Una descripción de lo que voy a lograr: Entrada 2 (N no es esencial) documentos HTML. Estandarizar el formato HTML. Difunda los dos documentos: los estilos externos no son importantes, pero se incluirá cualquier elemento en línea con el documento. Determine delta en el nivel Elemento de bloque HTML. Ampliando el último punto: Imagine dos […]

Extraer el elemento e insertar un espacio.

estoy analizando html usando BeautifulSoup en python No sé cómo insertar un espacio al extraer el elemento de texto este es el codigo import BeautifulSoup soup=BeautifulSoup.BeautifulSoup(‘thisisexample’) print soup.text entonces la salida es esto es un ejemplo Pero quiero insertar un espacio a este como si es ejemplo ¿Cómo inserto un espacio?

Python: Obtener texto de html usando Beautifulsoup

Estoy tratando de extraer el número de texto de clasificación de este enlace . Ejemplo de enlace de usuario de Kaggle no1 . Más claro en una imagen: Estoy usando el siguiente código: def get_single_item_data(item_url): sourceCode = requests.get(item_url) plainText = sourceCode.text soup = BeautifulSoup(plainText) for item_name in soup.findAll(‘h4’,{‘data-bind’:”text: rankingText”}): print(item_name.string) item_url = ‘https://www.kaggle.com/titericz’ get_single_item_data(item_url) El […]

Web scraping: cómo identificar el contenido principal en una página web

Dada una página web de artículos de noticias (de cualquier fuente de noticias importante, como times o bloomberg), quiero identificar el contenido del artículo principal en esa página y desechar los demás elementos misceláneos como anuncios, menús, barras laterales, comentarios de usuarios. ¿Cuál es una forma genérica de hacer esto que funcione en la mayoría […]

Necesito xpath genérico para el siguiente código html

A continuación se muestra el código HTML para el que necesito un XPath único. Type White List Black List Necesito algo como [@label = ‘Lista blanca’] para no tener que escribir múltiples xpaths en mi código. Quiero pasar valores como Lista blanca y Lista negra desde una función.

Eliminación de tags html al rastrear wikipedia con urllib2 y Beautifulsoup de python

Estoy tratando de rastrear wikipedia para obtener algunos datos para la minería de texto. Estoy usando urllib2 de python y Beautifulsoup. Mi pregunta es que: ¿hay una manera fácil de deshacerse de las tags innecesarias (como los enlaces a o ‘span’s) del texto que leo? para este escenario: import urllib2 from BeautifulSoup import * opener […]

Python, analizando html

Gracias al tipo de usuarios de este sitio, tengo una idea de cómo usar re como alternativa a un módulo no estándar de Python para que mi script funcione con un mínimo de locking. Hoy, he estado experimentando con los módulos de análisis. Me he encontrado con beautifulsoup … todo esto es genial, pero no […]

Extraiga la URL y sus nombres de un archivo html almacenado en el disco e imprímalos respectivamente – Python

Estoy intentando extraer e imprimir las URL y su nombre (entre NAME existente en un archivo html (guardado en el disco) sin usar BeautifulSoup u otra biblioteca. Solo un Código Python para principiantes. El formato de impresión deseado es: http://..filepath/filename.pdf File’s Name so on… Pude extraer e imprimir todas las direcciones URL o todos los […]

Añadir tags de los padres con sopa hermosa

Tengo muchas páginas de HTML con varias secciones que contienen estos fragmentos de código: Reference: 1. blah Puedo analizar el HTML correctamente y extraer estas tags relevantes tags = soup.find_all(attrs={“footnote”}) Ahora necesito agregar nuevas tags principales sobre estas, de modo que el fragmento de código vaya: Pero no puedo encontrar una manera de agregar tags […]