Articles of regex

¿Cómo extraer contenido específico en un dataframe de pandas con una expresión regular?

Considere el siguiente dataframe de pandas: In [114]: df[‘movie_title’].head() ​ Out[114]: 0 Toy Story (1995) 1 GoldenEye (1995) 2 Four Rooms (1995) 3 Get Shorty (1995) 4 Copycat (1995) … Name: movie_title, dtype: object Actualización: Me gustaría extraer con una expresión regular solo los títulos de las películas. Entonces, usemos la siguiente expresión regular: \b([^\d\W]+)\b […]

Término dividido por el hashtag de múltiples palabras

Estoy tratando de dividir un término que contiene un hashtag de múltiples palabras como “# I-am-great” o “# awesome-dayofmylife ‘ entonces la salida que estoy buscando es: I am great awesome day of my life Todo lo que pude lograr es: >>> import re >>> name = “big #awesome-dayofmylife because #iamgreat” >>> name = re.sub(r’#([^\s]+)’, […]

HTML en descomposición para enlazar texto y destino

Dado un enlace HTML como texttxt ¿Cómo puedo aislar la url y el texto? Actualizaciones Estoy usando Beautiful Soup, y soy incapaz de averiguar cómo hacerlo. yo si soup = BeautifulSoup.BeautifulSoup(urllib.urlopen(url)) links = soup.findAll(‘a’) for link in links: print “link content:”, link.content,” and attr:”,link.attrs yo obtengo *link content: None and attr: [(u’href’, u’_redirectGeneric.asp?genericURL=/root /support.asp’)]* … […]

¿Separación de cadenas en formato requerido, de forma pythonica? (con o sin Regex)

Tengo una cadena en el formato: t=’@abc @def Hello this part is text’ Quiero conseguir esto: l=[“abc”, “def”] s=’Hello this part is text’ Hice esto: a=t[t.find(‘ ‘,t.rfind(‘@’)):].strip() s=t[:t.find(‘ ‘,t.rfind(‘@’))].strip() b=a.split(‘@’) l=[i.strip() for i in b][1:] Funciona en su mayor parte, pero falla cuando la parte de texto tiene la ‘@’. Por ejemplo, cuando t=’@abc @def […]

Django url pattern regex para pasar un correo electrónico como parámetro en la url

Estoy escribiendo una vista que está aceptando un correo electrónico como parámetro pasado por url como url(r’^admin/detail_consultant_service/((?P\[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[AZ]{2,4}))/$’, ‘admin_tool.views.consultant_service_detail’, name=”consultant_service_detail”), Y aquí está el contenido de mi plantilla. {% for consultant in list_consultants %} {{consultant.id}} {{ consultant|disp_info }} {% endfor %} BUt Cuando estoy accediendo a la url estoy recibiendo el error everse for ‘consultant_service_detail’ with […]

¿El módulo de expresión regular de Python usa BRE o ERE?

Parece que POSIX divide las implementaciones de expresiones regulares en dos tipos: Expresiones regulares básicas (BRE) y Expresiones regulares extendidas (ERE). La referencia del módulo de Python no parece especificar.

Operadores de mapas extraídos de la subcadena

Tengo una list of dict : print (L) [{0: ‘x==1’, 1: ‘y==2’, 2: ‘z!=1’}, {0: ‘x==1’, 1: ‘y1’}] Quiero crear tuplas con valor antes que operadores, operadores y valor después: #first step wanted = [[(‘x’, ‘==’, ‘1’), (‘y’, ‘==’, ‘2’), (‘z’, ‘!=’, ‘1’)], [(‘x’, ‘==’, ‘1’), (‘y’, ”, ‘1’)]] Y luego mapear segundo valor por […]

¿Regex patológico que explota (tiempo y memoria)?

¿Qué es una expresión regular patológica que explota muchos analizadores (tanto en tiempo como en memoria)? y que analizadores Los puntos de bonificación son lo más básico y estándar que es la expresión regular, y es más probable que un usuario no malintencionado pueda idearlo inocentemente. Siéntase libre de publicar la hora real y los […]

pandas DataFrame filtro expresiones regulares

No entiendo el filter DataFrame pandas . Preparar import pandas as pd df = pd.DataFrame( [ [‘Hello’, ‘World’], [‘Just’, ‘Wanted’], [‘To’, ‘Say’], [‘I\’m’, ‘Tired’] ] ) Problema df.filter([0], regex=r'(Hel|Just)’, axis=0) Espero que el [0] especifique la primera columna como la que debe verse y axis=0 para especificar las filas de filtrado. Lo que obtengo es […]

Dividir oraciones con nltk preservando las comillas

Estoy usando nltk para dividir un texto en unidades de oración. Sin embargo, necesito que las oraciones que contienen citas se extraigan como una sola unidad. Ahora mismo, cada oración, incluso si está dentro de una cita, se está extrayendo como una parte separada. Este es un ejemplo de algo que estoy tratando de extraer […]