Articles of regex

Cadena dividida en Python basada en expresiones regulares

¿Cuál es la mejor manera de dividir una cadena como “HELLO there HOW are YOU” en mayúsculas (en Python)? Así que terminaría con una matriz como: results = [‘HELLO there’, ‘HOW are’, ‘YOU’] EDITAR: Yo he tratado: p = re.compile(“\b[AZ]{2,}\b”) print p.split(page_text) Aunque no parece funcionar.

¿Cómo construir un vocabulario regular de emoticons en python?

Tengo una lista de códigos de emoticones dentro de un archivo UTF32.red.codes en texto plano. El contenido plano del archivo es \U0001F600 \U0001F601 \U0001F602 \U0001F603 \U0001F604 \U0001F605 \U0001F606 \U0001F609 \U0001F60A \U0001F60B Basándome en la pregunta , mi idea es crear una expresión regular del contenido del archivo para capturar los emoticones. Este es mi ejemplo […]

¿Cómo convertir un carácter en Unicode de cinco dígitos en Python 3.3?

Me gustaría convertir algún carácter en unicode de cinco dígitos en Python 3.3. Por ejemplo, import re print(re.sub(‘a’, u’\u1D15D’, ‘abc’ )) Pero el resultado es diferente de lo que esperaba. ¿Tengo que poner el propio carácter, no el punto de código? ¿Hay una mejor manera de manejar los caracteres Unicode de cinco dígitos?

¿Cómo puedo extraer el ID de video del enlace de YouTube en Python?

Sé que esto se puede hacer fácilmente usando las funciones parse_url y parse_str PHP: $subject = “http://www.youtube.com/watch?v=z_AbfPXTKms&NR=1”; $url = parse_url($subject); parse_str($url[‘query’], $query); var_dump($query); Pero, ¿cómo lograr esto usando Python? Puedo hacer urlparse pero ¿qué sigue?

cómo eliminar hashtag, @user, enlace de un tweet usando expresiones regulares

Necesito preprocesar los tweets usando Python. Ahora me pregunto ¿cuál sería la expresión regular para eliminar todos los hashtags, @user y enlaces de un tweet respectivamente? por ejemplo, original tweet: @peter I really love that shirt at #Macy. http://bet.ly//WjdiW4 tweet procesado: I really love that shirt at Macy tweet original: @shawn Titanic tragedy could have […]

Expresión regular: reemplaza todos los espacios al principio de la línea con puntos

No me importa si lo logro a través de vim, sed, awk, python, etc. Lo intenté en todo, no pude hacerlo. Para una entrada como esta: top f1 f2 f3 sub1 f1 f2 f3 sub2 f1 f2 f3 sub21 f1 f2 f3 sub3 f1 f2 f3 Quiero: top f1 f2 f3 …sub1 f1 f2 f3 […]

Repare las claves sin comillas en un archivo tipo JSON para que use la syntax JSON correcta

Tengo un archivo muy grande tipo JSON, pero no está usando la syntax JSON adecuada: las claves de los objetos no se citan. Me gustaría escribir un script para arreglar el archivo, para poder cargarlo con json.loads . Necesito hacer coincidir todas las palabras seguidas por dos puntos y reemplazarlos con la palabra citada. Creo […]

Kodos y “no se puede referir a grupo abierto”

Solo quiero coincidir con 1010 o 0101, pero ni 1111 ni 0000. Uso la siguiente expresión regular: \b((1|0)(?!\2))+ Funciona bien en Kodos pero también quiero la secuencia combinada gracias a group (). He intentado : \b(((1|0)(?!\2))+) pero “no se puede referir al grupo abierto *” se muestra en Kodos y no entiendo por qué no […]

Expresión regular de Python Findall *

No puedo entender el siguiente comportamiento del código. >>> import re >>> text = ‘been’ >>> r = re.compile(r’b(e)*’) >>> r.search(text).group() ‘bee’ #makes sense >>> r.findall(text) [‘e’] #makes no sense Leí algunas preguntas y respuestas ya existentes sobre la captura de grupos y todo. Pero todavía estoy confundido. ¿Podría alguien explicarme por favor?

¿Cómo recuperar solo textos en árabe de una cadena usando expresiones regulares?

Tengo una cadena que tiene oraciones tanto en árabe como en inglés. Lo que quiero es extraer solo oraciones en árabe. my_string=””” What is the reason ذَلِكَ الْكِتَابُ لَا رَيْبَ فِيهِ هُدًى لِلْمُتَّقِينَ behind this? ذَلِكَ الْكِتَابُ لَا رَيْبَ فِيهِ هُدًى لِلْمُتَّقِينَ “”” Este enlace muestra que el rango Unicode para letras árabes es 0600-06FF […]