Articles of analizando

¿Por qué aparece b ‘(ya veces b’ ‘) cuando divido alguna fuente HTML ?

Soy bastante nuevo en Python y en la progtwigción en general. He hecho algunos tutoriales y tengo aproximadamente 2/3 a través de un libro bastante bueno. Habiendo dicho eso, he estado tratando de sentirme más cómodo con Python y progtwigndo solo probando cosas en la edición estándar. dicho esto, recientemente me he encontrado con una […]

Cómo analizar el archivo LaTex

Acabo de terminar de escribir el resumen para el cálculo en látex. El principal problema ahora es que los archivos contienen muchas cosas que realmente no necesito ahora. Los archivos .tex contienen muchas definiciones y teoremas que necesito estudiar de memoria. Las definiciones tienen su propia definición en el archivo tex, por lo que cualquier […]

Python PLY cero o más apariciones de un elemento de análisis

Estoy usando Python con PLY para analizar S-Expressions tipo LISP y al analizar una llamada de función puede haber cero o más argumentos. ¿Cómo puedo poner esto en el código yacc? Esta es mi función hasta ahora: def p_EXPR(p): ”’EXPR : NUMBER | STRING | LPAREN funcname [EXPR] RPAREN”’ if len(p) == 2: p[0] = […]

¿Cómo eliminar los espacios variables en cada línea de un archivo de texto en función de una condición especial: una sola línea en Python?

Tengo algunos datos (archivos de texto) que están formateados de la manera más desigual que se pueda imaginar. Estoy tratando de minimizar la cantidad de trabajo manual en el análisis de estos datos. Data de muestra : Name Degree CLASS CODE EDU Scores ————————————————————————————– John Marshall CSC 78659944 89989 BE 900 Think Code DB I10 […]

¿Por qué es tan lento el análisis numpy / pandas de un archivo csv con líneas largas?

Estoy tratando de analizar de manera eficiente un archivo csv con alrededor de 20,000 entradas por línea (y unos pocos miles de líneas) a una matriz numpy (o lista de matrices, o algo similar en realidad). Encontré una serie de otras preguntas, junto con esta publicación de blog, que sugieren que el csv parser de […]

BeautifulHoup y el documento HTML no válido

Estoy tratando de analizar el documento http://www.consilium.europa.eu/uedocs/cms_data/docs/pressdata/en/ecofin/acf8e.htm . Quiero obtener países y nombres al principio del documento. Aqui esta mi codigo import urllib import re from bs4 import BeautifulSoup url=”http://www.consilium.europa.eu/uedocs/cms_data/docs/pressdata/en/ecofin/acf8e.htm” soup=BeautifulSoup(urllib.urlopen(url)) attendances_table=soup.find(“table”, {“width”:850}) print attendances_table #this works, I see the whole table print attendances_table.find_all(“tr”) Obtuve el siguiente error: AttributeError: ‘NoneType’ object has no attribute ‘next_element’ […]

El analizador BeautifulSoup 3.1 se rompe con demasiada facilidad

Estaba teniendo problemas para analizar un poco de HTML poco fiable con BeautifulSoup. Resulta que el HTMLParser utilizado en las versiones más recientes es menos tolerante que el SGMLParser utilizado anteriormente. ¿Tiene BeautifulSoup algún tipo de modo de depuración? Estoy tratando de averiguar cómo detenerlo en un HTML desagradable que estoy cargando desde un sitio […]

CSS parser + generador XHTML, consejos necesarios

Chicos, necesito desarrollar una herramienta que cumpla con los siguientes requisitos: Entrada: documento XHTML con reglas CSS dentro de la sección de head . Salida: documento XHTML con reglas CSS calculadas en atributos de etiqueta La mejor manera de ilustrar el comportamiento que quiero es la siguiente. Ejemplo de entrada: .a { color: red; } […]

¿Cómo analizar código (en Python)?

Necesito analizar algunas estructuras de datos especiales. Están en un formato algo parecido a C que se parece aproximadamente a esto: Group(“GroupName”) { /* C-Style comment */ Group(“AnotherGroupName”) { Entry(“some”,”variables”,0,3.141); Entry(“other”,”variables”,1,2.718); } Entry(“linebreaks”, “allowed”, 3, 1.414 ); } Puedo pensar en varias maneras de hacer esto. Podría ‘tokenizar’ el código usando expresiones regulares. Podría leer […]

Uso de StanfordParser para obtener dependencias escritas a partir de una oración analizada

Usando el StanfordParser de NLTK, puedo analizar una oración como esta: os.environ[‘STANFORD_PARSER’] = ‘C:\jars’ os.environ[‘STANFORD_MODELS’] = ‘C:\jars’ os.environ[‘JAVAHOME’] =’C:\ProgramData\Oracle\Java\javapath’ parser = stanford.StanfordParser(model_path=”C:\jars\englishPCFG.ser.gz”) sentences = parser.parse((“bring me a red ball”,)) for sentence in sentences: sentence El resultado es: Tree(‘ROOT’, [Tree(‘S’, [Tree(‘VP’, [Tree(‘VB’, [‘Bring’]), Tree(‘NP’, [Tree(‘DT’, [‘a’]), Tree(‘NN’, [‘red’])]), Tree(‘NP’, [Tree(‘NN’, [‘ball’])])]), Tree(‘.’, [‘.’])])]) ¿Cómo puedo usar […]