Articles of regex

Buscar HTML línea por línea con expresiones regulares en Python

Estoy intentando crear un diccionario de horas basado en este calendario: http://disneyworld.disney.go.com/parks/magic-kingdom/calendar/ 1 Park Hours8:00 AM – 12:00 AMExtra Magic Hours7:00 AM – 8:00 AMExtra Magic Hours12:00 AM – 3:00 AM Cada una de las entradas del calendario está en una sola línea, por lo que pensé que sería mejor pasar por la línea HTML […]

Python web scraping, contando la aparición de una lista de palabras de cada página

Así que estoy tratando de encontrar un conjunto de palabras específicas (“deberá” “puede” “deber”, etc.) de cada página, y sumr su aparición, el código que usé import requests from bs4 import BeautifulSoup, SoupStrainer import re def levelfour(main_url): pattern = re.compile(r”\bmay not\b”, re.IGNORECASE) pattern1 = re.compile(r”\bshall\b”, re.IGNORECASE) pattern2 = re.compile(r”\bmust\b”, re.IGNORECASE) pattern3 = re.compile(r”\bprohibited\b”, re.IGNORECASE) pattern4 […]

Expresión regular para las claves de entidad del motor de aplicaciones de Google.

Encontré esta publicación y ahora también quiero usar esa expresión regular. ¿Qué caracteres están permitidos en una clave de Google App Engine? Sin embargo, en mi controlador escribo algo como (‘/xxx/[a-zA-Z0-9-_]’, MyHandler) pero no funciona … cuando bash acceder a un enlace que dice que no se encontró … probé muchas variaciones pero parece que […]

Python beautifulsoup intenta eliminar las tags html ‘span’

Estoy tratando de quitar [ 510 E Airline Way ] y he usado esta función de limpieza para eliminar la que está entre def clean(val): if type(val) is not StringType: val = str(val) val = re.sub(r”, ”,val) val = re.sub(“\s+” , ” “, val) return val.strip() y produce [ 510 E Airline Way ] Estoy […]

Encuentre un archivo en un directorio usando python por nombre parcial

Tengo un directorio con varios cientos de miles de archivos. Todos ellos siguen este formato: datetime_fileid_metadata_collect.txt Un ejemplo específico se ve así: 201405052359559_0002230255_35702088_collect88.txt Estoy intentando escribir un script que extrae y copia archivos individuales cuando todo lo que proporciono es una lista de identificadores de archivos. Por ejemplo, tengo un documento de texto fileids.txt que […]

Unicode regex para coincidir con una clase de caracteres de caracteres chinos

^[一二三四五六七]、 no coincide con 一、 Pero ^一、 coincide con 一、 . ¿Mi forma de especificar una clase de caracteres de caracteres chinos es incorrecta? Leí la expresión regular de un archivo.

Django Error al pasar el argumento de la URL de la plantilla a la vista: NoReverseMatch Reverse no encontrado. 1 patrón (s) probado

Búsqueda de expresiones regulares para extraer el flotador de la cadena. Pitón

import re sequence = ‘i have -0.03 dollars in my hand’ m = re.search(‘(have )(-\w[.]+)( dollars\w+)’,sequence) print m.group(0) print m.group(1) print m.group(2) Buscando una manera de extraer texto entre dos ocurrencias. En este caso, el formato es ‘tengo’ seguido de – flota y luego ‘dólares \ w +’ ¿Cómo uso re.search para extraer este flotador? […]

Coincidencia de frases usando expresiones regulares y Python

Tengo algunas frases cortas que quiero hacer coincidir. Utilicé una expresión regular de la siguiente manera: (^|)(piston|piston ring)( |$) Usando lo anterior, regex.match(“piston ring”) coincide con “pistón”. Si cambio la expresión regular de modo que la frase más larga “anillo de pistón” aparezca primero, funcionará como se esperaba. Me sorprendió este comportamiento ya que asumía […]

Pandas MultiIndex de expresiones regulares en la columna

Tengo un dataframe de pandas que se ve df = pd.DataFrame( [ [‘JoeSmith’, 5], [‘CathySmith’, 3], [‘BrianSmith’, 12], [‘MarySmith’, 67], [‘JoeJones’, 23], [‘CathyJones’, 98], [‘BrianJones’, 438], [‘MaryJones’, 75], [‘JoeCollins’, 56], [‘CathyCollins’, 125], [‘BrianCollins’, 900], [‘MaryCollins’, 321], ], columns = [‘Name’, ‘Value’] ) print df Name Value 0 JoeSmith 5 1 CathySmith 3 2 BrianSmith 12 […]