Considere el siguiente dataframe de pandas: In [114]: df[‘movie_title’].head() Out[114]: 0 Toy Story (1995) 1 GoldenEye (1995) 2 Four Rooms (1995) 3 Get Shorty (1995) 4 Copycat (1995) … Name: movie_title, dtype: object Actualización: Me gustaría extraer con una expresión regular solo los títulos de las películas. Entonces, usemos la siguiente expresión regular: \b([^\d\W]+)\b […]
Estoy tratando de dividir un término que contiene un hashtag de múltiples palabras como “# I-am-great” o “# awesome-dayofmylife ‘ entonces la salida que estoy buscando es: I am great awesome day of my life Todo lo que pude lograr es: >>> import re >>> name = “big #awesome-dayofmylife because #iamgreat” >>> name = re.sub(r’#([^\s]+)’, […]
Dado un enlace HTML como texttxt ¿Cómo puedo aislar la url y el texto? Actualizaciones Estoy usando Beautiful Soup, y soy incapaz de averiguar cómo hacerlo. yo si soup = BeautifulSoup.BeautifulSoup(urllib.urlopen(url)) links = soup.findAll(‘a’) for link in links: print “link content:”, link.content,” and attr:”,link.attrs yo obtengo *link content: None and attr: [(u’href’, u’_redirectGeneric.asp?genericURL=/root /support.asp’)]* … […]
Tengo una cadena en el formato: t=’@abc @def Hello this part is text’ Quiero conseguir esto: l=[“abc”, “def”] s=’Hello this part is text’ Hice esto: a=t[t.find(‘ ‘,t.rfind(‘@’)):].strip() s=t[:t.find(‘ ‘,t.rfind(‘@’))].strip() b=a.split(‘@’) l=[i.strip() for i in b][1:] Funciona en su mayor parte, pero falla cuando la parte de texto tiene la ‘@’. Por ejemplo, cuando t=’@abc @def […]
Estoy escribiendo una vista que está aceptando un correo electrónico como parámetro pasado por url como url(r’^admin/detail_consultant_service/((?P\[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[AZ]{2,4}))/$’, ‘admin_tool.views.consultant_service_detail’, name=”consultant_service_detail”), Y aquí está el contenido de mi plantilla. {% for consultant in list_consultants %} {{consultant.id}} {{ consultant|disp_info }} {% endfor %} BUt Cuando estoy accediendo a la url estoy recibiendo el error everse for ‘consultant_service_detail’ with […]
Parece que POSIX divide las implementaciones de expresiones regulares en dos tipos: Expresiones regulares básicas (BRE) y Expresiones regulares extendidas (ERE). La referencia del módulo de Python no parece especificar.
Tengo una list of dict : print (L) [{0: ‘x==1’, 1: ‘y==2’, 2: ‘z!=1’}, {0: ‘x==1’, 1: ‘y1’}] Quiero crear tuplas con valor antes que operadores, operadores y valor después: #first step wanted = [[(‘x’, ‘==’, ‘1’), (‘y’, ‘==’, ‘2’), (‘z’, ‘!=’, ‘1’)], [(‘x’, ‘==’, ‘1’), (‘y’, ”, ‘1’)]] Y luego mapear segundo valor por […]
¿Qué es una expresión regular patológica que explota muchos analizadores (tanto en tiempo como en memoria)? y que analizadores Los puntos de bonificación son lo más básico y estándar que es la expresión regular, y es más probable que un usuario no malintencionado pueda idearlo inocentemente. Siéntase libre de publicar la hora real y los […]
No entiendo el filter DataFrame pandas . Preparar import pandas as pd df = pd.DataFrame( [ [‘Hello’, ‘World’], [‘Just’, ‘Wanted’], [‘To’, ‘Say’], [‘I\’m’, ‘Tired’] ] ) Problema df.filter([0], regex=r'(Hel|Just)’, axis=0) Espero que el [0] especifique la primera columna como la que debe verse y axis=0 para especificar las filas de filtrado. Lo que obtengo es […]
Estoy usando nltk para dividir un texto en unidades de oración. Sin embargo, necesito que las oraciones que contienen citas se extraigan como una sola unidad. Ahora mismo, cada oración, incluso si está dentro de una cita, se está extrayendo como una parte separada. Este es un ejemplo de algo que estoy tratando de extraer […]