Articles of analizando

Método de Python para extraer contenido (excluyendo la navegación) de una página HTML

Por supuesto, se puede analizar una página HTML utilizando cualquier número de analizadores de Python, pero me sorprende que no haya ningún script de análisis público para extraer contenido significativo (excluyendo barras laterales, navegación, etc.) de un documento HTML determinado . Supongo que es algo así como recostackr elementos DIV y P y luego verificarlos […]

¿Cómo puedo extraer el ID de video del enlace de YouTube en Python?

Sé que esto se puede hacer fácilmente usando las funciones parse_url y parse_str PHP: $subject = “http://www.youtube.com/watch?v=z_AbfPXTKms&NR=1”; $url = parse_url($subject); parse_str($url[‘query’], $query); var_dump($query); Pero, ¿cómo lograr esto usando Python? Puedo hacer urlparse pero ¿qué sigue?

Compruebe que la lista de tuplas tiene tupla con el primer elemento como cadena definida

Estoy analizando HTML y solo necesito obtener tags con selector como div.content . Para el análisis estoy usando HTMLParser . Estoy tan lejos que recibo la lista de atributos de las tags. Se ve algo como esto: [(‘class’, ‘content’), (‘title’, ‘source’)] El problema es que no sé cómo comprobar que: La lista tiene tuple con […]

¿Hay una biblioteca para analizar las direcciones de los Estados Unidos?

Tengo una lista de direcciones de EE. UU. Que necesito para ingresar en ciudad, estado, código postal, estado, etc. Dirección de ejemplo: “16100 Sand Canyon Avenue, Suite 380 Irvine, CA 92618” ¿Alguien sabe de una biblioteca o una API gratuita para hacer esto? Google / Yahoo geocoder tiene prohibido el uso por parte de los […]

árbol lxml de Python, línea que crea varias líneas, desea una salida de línea única

Estoy creando un archivo xml con python usando lxml. Estoy analizando un archivo por línea, buscando una cadena, y si esa cadena existe, creo un Subelemento. Estoy asignando al Subelemento un valor que existe en el archivo analizado después de la cadena que estoy buscando. Pregunta: ¿Cómo obtengo toda la salida xml en una línea […]

Error de lectura de json json.decoder.JSONDecodeError: Invalid \ escape

Estoy escribiendo un código para cargar un modelo (train_and_upload_demo_model.py) en solr usando la configuración del archivo “config.json“. pero estoy recibiendo el siguiente error: json.decoder.JSONDecodeError: Invalid \ escape: línea 11 columna 34 (char 461) este es el rastreo aquí: D:\solr640\contrib\ltr\example>python train_and_upload_demo_model.py -c config.json Traceback (most recent call last): File “train_and_upload_demo_model.py”, line 182, in sys.exit(main()) File “train_and_upload_demo_model.py”, […]

Generación de analizador

Estoy haciendo un proyecto en SOFWARE PLAGIARISM DETECTION … estoy destinado a hacerlo con el lenguaje C … para eso se supone que debo crear un generador de token, y un analizador … pero no sé por dónde empezar … cualquiera puede ayudame con esto .. Creé una base de datos de tokens y separé […]

Eliminar las comillas en el campo en el archivo csv

Digamos que tenemos un archivo separado por comas (csv) como este: “name of movie”,”starring”,”director”,”release year” “dark knight rises”,”christian bale, anna hathaway”,”christopher nolan”,”2012″ “the dark knight”,”christian bale, heath ledger”,”christopher nolan”,”2008″ “The “day” when earth stood still”,”Michael Rennie,the ‘strong’ man”,”robert wise”,”1951″ “the ‘gladiator'”,”russel “the awesome” crowe”,”ridley scott”,”2000″ Como puede ver desde arriba, en las líneas 4 y […]

decodificando el diccionario json con python

Tengo un script escrito para obtener datos de una API y devolverlo, pero ahora necesito analizar esos datos, este es un ejemplo de cómo se ven los datos json, con algunos de los valores del diccionario que busco. {‘results’: [{‘icpsr_id’: 21133, ‘twitter_id’: ‘RepToddYoung’, ‘thomas_id’: ‘02019’, ‘term_end’: ‘2017-01-03’, ‘office’: ‘1007 Longworth House Office Building’, ‘gender’: ‘M’, […]

Cómo analizar una entrada y asignar diferentes valores a la cadena dividida

Estoy tratando de crear una calculadora de números romanos y no estoy seguro de cómo analizar una entrada de usuario en 3 partes, el primer número romano del operador y el segundo número, mientras ignoro los espacios que el usuario podría incluir, por ejemplo, XV + L que sería “XV” mantenido por la izquierda, el […]