Articles of analizando

Modificar el archivo de valores xml usando python

Soy muy nuevo en Python y necesito modificar el to QA to Prod para las 5 apariciones usando python. No estoy seguro de qué lib utilizar. Cualquier ayuda en esto es realmente apreciada. false 0 QA 0.5 3 QA 0.5 3 QA 0.5 3 QA 0.5 3 QA 0.5 3

Análisis semántico con NLTK

Estoy tratando de usar NLTK para el análisis semántico de los comandos de navegación hablados, como “ir a San Francisco”, “darme direcciones a 123 Main Street”, etc. Esto se podría hacer con una gramática CFG bastante simple como S -> COMMAND LOCATION COMMAND -> “go to” | “give me directions to” | … LOCATION -> […]

¿Cuál es el trato sobre https cuando se utiliza lxml?

Estoy utilizando lxml para analizar los archivos html dados urls. Por ejemplo: link = ‘https://abc.com/def’ htmltree = lxml.html.parse(link) Mi código funciona bien en la mayoría de los casos, los de http:// . Sin embargo, encontré que para cada https:// url, lxml simplemente obtiene un error IOError . ¿Alguien sabe el motivo? Y posiblemente, ¿cómo corregir […]

Python read_fwf error: ‘dtype no es compatible con el analizador python-fwf’

Utilizando python 2.7.5 y pandas 0.12.0, estoy tratando de importar archivos de texto de fuente de ancho fijo en un DataFrame con ‘pd.io.parsers.read_fwf ()’. Los valores que estoy importando son todos numéricos, pero es importante que se conserven los ceros iniciales, por lo que me gustaría especificar el tipo de dtype como cadena en lugar […]

Python: inyectar contenido HTML en una etiqueta usando `lxml.html`

Estoy usando la biblioteca lxml.html para analizar un documento HTML. Localicé una etiqueta específica, que llamo content_tag , y quiero cambiar su contenido (es decir, el texto entre y ,) y el nuevo contenido es una cadena con algún html, digamos que es ‘Hello world!’ . ¿Cómo puedo hacer eso? Intenté content_tag.text = ‘Hello world!’ […]

¿Cómo analizar un archivo xls? (Lenguajes conocidos: Python, Java, Lua)

Estoy tratando de analizar este archivo xls: http://web.iyte.edu.tr/sks/xls/Agustos_Menu_2012.xls Los lugares anaranjados tienen fecha y en esas fechas hay una lista de alimentos de ese día. Entonces, ¿pueden sugerirme una manera de analizar eso para obtener fechas y alimentos? Intenté convertir ese xls a un valor separado por comas, pero algunos caracteres están cambiando y no […]

Usando cElementTree para analizar atributos

Estoy aprendiendo cElementTree y mi XML se ve así … Estoy tratando de obtener el texto “actualizado” (¡que puedo!) Y el valor de atributo de “href” en el nodo “enlace” (que no puedo ). 2017-04-19T13:10:24-04:00 Mi código para analizar se ve así … for entry in root.findall(‘entry’): updated = entry.find(‘updated’).text print updated for link in […]

Análisis profundo con beautifulsoup

Intento analizar https://www.drugbank.ca/drugs . La idea es extraer todos los nombres de los medicamentos y cierta información adicional para cada medicamento. Como puede ver, cada página web representa una tabla con los nombres de los medicamentos y cuando pulsamos el nombre del medicamento podemos acceder a esta información del medicamento. Digamos que mantendré el siguiente […]

Scrapy: Recuperando el conjunto de contenidos a través de Javascript

Estoy tratando de rastrear esta URL. Cambia el costo de 130 a 154.99 a través de Javascript. Cuando ves la fuente de vista de Price DOM, se ve así: £130.00 Y definitivamente se está configurando a través de JavaScript. ¿Cómo puedo obtener el valor correcto a través de scrapy? La forma en que traté de […]

Usando Python y BeautifulSoup para analizar una tabla

Estoy tratando de acceder al contenido de ciertas tags td con Python y BeautifulSoup. Puedo obtener la primera etiqueta td que cumpla los criterios (con buscar), o todas ellas (con findAll). Ahora, podría usar findAll, obtenerlos todos y obtener el contenido que quiero de ellos, pero parece que es ineficiente (incluso si pongo límites en […]