Articles of regex

Python Regex – Rechaza cadenas con nueva línea

Quiero unir cadenas completas a un patrón específico. Digamos : word = “aaaa” test = re.match(r”^aaaa$”, word) # this returns True Sin embargo, si la palabra va seguida de un carácter de nueva línea: word = “aaaa\n” test = re.match(r”^aaaa$”, word) # Also returns True 🙁 Pero quiero encontrar una manera de devolver Falso en […]

Cómo implementar \ p {L} en expresiones regulares de python

Estaba tratando de hacer coincidir todas las cadenas que contienen una palabra en cualquier idioma. Mi búsqueda me llevó a \ p {…} que estaba ausente en el módulo Re de python. Pero encontré https://pypi.python.org/pypi/regex . Debería funcionar con los comandos \ p {…}. Aunque no es así. Intenté analizar esas líneas: 7652167371 apéritif 78687 […]

tokenizador de expresiones regulares nltk

Intenté implementar un tokenizador de expresiones regulares con nltk en python, pero el resultado es este: >>> import nltk >>> text = ‘That USA poster-print costs $12.40…’ >>> pattern = r”'(?x) # set flag to allow verbose regexps … ([AZ]\.)+ # abbreviations, eg USA … | \w+(-\w+)* # words with optional internal hyphens … | […]

Python: UserWarning: Este patrón tiene grupos de coincidencias. Para obtener los grupos, usa str.extract

Tengo un dataframe y trato de obtener una cadena, en la cual una columna contiene una cadena Df que parece member_id,event_path,event_time,event_duration 30595,”2016-03-30 12:27:33″,yandex.ru/,1 30595,”2016-03-30 12:31:42″,yandex.ru/,0 30595,”2016-03-30 12:31:43″,yandex.ru/search/?lr=10738&msid=22901.25826.1459330364.89548&text=%D1%84%D0%B8%D0%BB%D1%8C%D0%BC%D1%8B+%D0%BE%D0%BD%D0%BB%D0%B0%D0%B9%D0%BD&suggest_reqid=168542624144922467267026838391360&csg=3381%2C3938%2C2%2C3%2C1%2C0%2C0,0 30595,”2016-03-30 12:31:44″,yandex.ru/search/?lr=10738&msid=22901.25826.1459330364.89548&text=%D1%84%D0%B8%D0%BB%D1%8C%D0%BC%D1%8B+%D0%BE%D0%BD%D0%BB%D0%B0%D0%B9%D0%BD&suggest_reqid=168542624144922467267026838391360&csg=3381%2C3938%2C2%2C3%2C1%2C0%2C0,0 30595,”2016-03-30 12:31:45″,yandex.ru/search/?lr=10738&msid=22901.25826.1459330364.89548&text=%D1%84%D0%B8%D0%BB%D1%8C%D0%BC%D1%8B+%D0%BE%D0%BD%D0%BB%D0%B0%D0%B9%D0%BD&suggest_reqid=168542624144922467267026838391360&csg=3381%2C3938%2C2%2C3%2C1%2C0%2C0,0 30595,”2016-03-30 12:31:46″,yandex.ru/search/?lr=10738&msid=22901.25826.1459330364.89548&text=%D1%84%D0%B8%D0%BB%D1%8C%D0%BC%D1%8B+%D0%BE%D0%BD%D0%BB%D0%B0%D0%B9%D0%BD&suggest_reqid=168542624144922467267026838391360&csg=3381%2C3938%2C2%2C3%2C1%2C0%2C0,0 30595,”2016-03-30 12:31:49″,kinogo.co/,1 30595,”2016-03-30 12:32:11″,kinogo.co/melodramy/,0 Y otra df con urls. url 003\.ru\/[a-zA-Z0-9-_%$#?.:+=|()]+\/mobilnyj_telefon_bq_phoenix 003\.ru\/[a-zA-Z0-9-_%$#?.:+=|()]+\/mobilnyj_telefon_fly_ 003\.ru\/sonyxperia 003\.ru\/[a-zA-Z0-9-_%$#?.:+=|()]+\/mobilnye_telefony_smartfony 003\.ru\/[a-zA-Z0-9-_%$#?.:+=|()]+\/mobilnye_telefony_smartfony\/brands5D5Bbr_23 1click\.ru\/sonyxperia 1click\.ru\/[a-zA-Z0-9-_%$#?.:+=|()]+\/chasy-motorola yo suelo urls = pd.read_csv(‘relevant_url1.csv’, […]

¿Buscando en un archivo .txt y comparando los dos valores de una cadena en python?

“cadence_regulatable_result”: “completeRecognition”, “appserver_results”: { “status”: “success”, “final_response”: 0, “payload”: { “actions”: [{ “speaker”: “user”, “type”: “conversation”, “nbest_text”: { “confidences”: [478, 0, 0], “words”: [[{ “stime”: 0, “etime”: 1710, “word”: “ConnectedDrive\\*no-space-before”, “confidence”: “0.241” }], [{ “stime”: 0, “etime”: 1020, “word”: “Connected\\*no-space-before”, “confidence”: “0.0” }, { “stime”: 1020, “etime”: 1710, “word”: “drive”, “confidence”: “0.0” }], [{ “stime”: […]

¿Existe un Python equivalente al modificador Perl “/ x” para expresiones regulares?

Perl facilita la construcción de expresiones regulares legibles con el modificador /x . Este modificador permite escribir cadenas de expresiones regulares e ignorar todos los espacios en blanco en estas cadenas. En otras palabras, las partes lógicas de la expresión regular pueden estar separadas por espacios en blanco o incluso retornos de carro, lo que […]

Django: cómo obtener el contenido de una etiqueta {% block%} de una plantilla

Llegué hasta aquí: >>> some_template = get_template_from_string( … load_template_source( … ‘some_template.html’, … settings.TEMPLATE_DIRS)) … >>> blocks = some_template.nodelist.get_nodes_by_type(BlockNode) >>> blocks[0] <Block Node: another_block. Contents: [, <Block Node: sub_block. Contents: []>, ]> >>> # Right there is when I realized this wasn’t going to be fun. Verás, el contenido de un bloque está contenido en block.nodelist […]

Extraer texto entre tags utilizando BeautifulSoup

Estoy tratando de extraer texto de una serie de páginas web que siguen un formato similar con BeautifulSoup. El html para el texto que deseo extraer está abajo. El enlace real está aquí: http://www.p2016.org/ads1/bushad120215.html . [Music] TEXT: The Medal of Honor is the highest award for valor in action against an enemy force Col. Jay […]

¿Cómo imprimo solo la palabra en sí en un sincronizador de WordNet usando Python NLTK?

¿Hay alguna forma en Python 2.7 utilizando NLTK para obtener la palabra y no el formato adicional que incluye “synset” y los paréntesis y el “n.01” etc.? Por ejemplo si lo hago wn.synsets(‘dog’) Mis resultados se ven como: [Synset(‘dog.n.01’), Synset(‘frump.n.01’), Synset(‘dog.n.03’), Synset(‘cad.n.01’), Synset(‘frank.n.02’), Synset(‘pawl.n.01’), Synset(‘andiron.n.01’), Synset(‘chase.v.01’)] ¿Cómo puedo obtener una lista como esta? dog frump […]

Manera pythonica de aplicar expresiones regulares a todas las columnas del dataframe.

Tengo un dataframe que contiene palabras clave y valor en todas las columnas. Vea el ejemplo a continuación. Quiero aplicar expresiones regulares a todas las columnas. Así que uso para bucle y aplico la expresión regular: for i in range (1,maxExtended_Keywords): temp = ‘extdkey_’ + str(i) Extended_Keywords[temp] = Extended_Keywords[temp].str.extract(“:(.*)”,expand=True) Y obtengo el resultado final deseado. […]