Articles of sed

Expresión regular: reemplaza todos los espacios al principio de la línea con puntos

No me importa si lo logro a través de vim, sed, awk, python, etc. Lo intenté en todo, no pude hacerlo. Para una entrada como esta: top f1 f2 f3 sub1 f1 f2 f3 sub2 f1 f2 f3 sub21 f1 f2 f3 sub3 f1 f2 f3 Quiero: top f1 f2 f3 …sub1 f1 f2 f3 […]

Cómo obtener un XML plano para que las entidades externas se fusionen al nivel superior

Sé que este es un caso límite si realmente pertenece a stackoverflow o superusuario, pero como parece que hay bastantes preguntas de ‘código de edición’ aquí, lo estoy publicando en SO. Tengo una stack de archivos XML que alguien en su infinita sabiduría ha decidido explotar en varios archivos utilizando las tags, lo que hace […]

dividir una base de datos de texto grande (xyz) en x partes iguales

Quiero dividir una base de datos de texto grande (~ 10 millones de líneas). Puedo usar un comando como $ sed -i -e ‘4 s/(dB)//’ -e ‘4 s/Best\ unit/Best_Unit/’ -e ‘1,3 d’ ‘/cygdrive/c/ Radio Mobile/Output/TRC_TestProcess/trc_longlands.txt’ $ split -l 1000000 /cygdrive/P/2012/Job_044_DM_Radio_Propogation/Working/FinalPropogation/TRC_Longlands/trc_longlands.txt 1 La primera línea es limpiar la base de datos y la siguiente es dividirla, […]

Creando múltiples archivos csv a partir de datos dentro de un archivo csv

Sistema OSX o Linux Estoy tratando de automatizar mi flujo de trabajo en el trabajo, cada semana recibo un archivo de Excel, que convierto a csv. Un ejemplo es: ,,L1,,,L2,,,L3,,,L4,,,L5,,,L6,,,L7,,,L8,,,L9,,,L10,,,L11, Title,r/t,needed,actual,Inst,needed,actual,Inst,needed,actual,Inst,needed,actual,Inst,neede d,actual,Inst,needed,actual,Inst,needed,actual,Inst,needed,actual,Inst,needed,actual,Inst,needed,actual,Inst,needed,actual,Inst EXAMPLEfoo,60,6,6,6,0,0,0,0,0,0,6,6,6,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0 EXAMPLEbar,30,6,6,12,6,7,14,6,6,12,6,6,12,6,8,16,6,7,14,6,7.5,15,6,6,12,6,8,16,6,0,0,6,7,14 EXAMPLE1,60,3,3,3,3,5,5,3,4,4,3,3,3,3,6,6,3,4,4,3,3,3,3,4,4,3,8,8,3,0,0,3,4,4 EXAMPLE2,120,6,6,3,0,0,0,6,8,4,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0 EXAMPLE3,60,6,6,6,6,8,8,6,6,6,6,6,6,0,0,0,0,0,0,6,8,8,6,6,6,0,0,0,0,0,0,0,10,10 EXAMPLE4,30,6,6,12,6,7,14,6,6,12,6,6,12,3,5.5,11,6,7.5,15,6,6,12,6,0,0,6,9,18,6,0,0,6,6.5,13 Y así puede obtener una imagen de cómo se ve en excel: texto alt http://sofes.miximages.com/python/2dt2glt.png Lo que […]

extraer cada dato de secuenciación como archivo individual

Hay un archivo ecoli.ffn con filas que indican el nombre de los genes de secuenciación: $head ecoli.ffn >ecoli16:g027092:GCF_000460315:gi|545267691|ref|NZ_KE701669.1|:551259-572036 ATGAGCCTGATTATTGATGTTATTTCGCGT AAAACATCCGTCAAACAAACGCTGATTAAT >ecoli16:g000011:55989:gi|218693476|ref|NC_011748.1|:1128430-1131042 GTGTACGCTATGGCGGGTAATTTTGCCGAT >ecoli16:g000012:55989:gi|218693476|ref|NC_011748.1|:1128430-1131042 GTGTACGCTATGGCGGGTAATTTTGCCGAT CTGACAGCTGTTCTTACACTGGATTCAACC CTGACAGCTGTTCTTACACTGGATTCAACC Como se muestra arriba, el nombre del gen se encuentra entre el primer y segundo colon: g027092 g000011 g000012 Me gustaría usar ecoli.ffn para generar tres archivos: g027092.txt , […]

Usando pysed en script

Puedo ejecutarlo exitosamente en la línea de comandos pero tengo problemas en el script de Python. Se queja de la segunda doble cita. pysed -r “192.168.33.10” “$NEW_IP” FILE –write ^ SyntaxError: invalid syntax ¿Cómo puedo ejecutar esto dentro de un script?

¿Cómo concatenar el identificador especificado en dos filas?

Entrada donde identificador especificado por dos filas 1-2 L1_I L1_I C-14 <—| unique idenfier WWPTH WWPT WWPTH <—| on two rows 1 2 3 Objetivo: ¿Cómo concatenar las filas? L1_IWWPTH L1_IWWPT C-14WWPTH <— unique identifier 1 2 3 Ps aceptaré la solución más simple y elegante.

La mejor manera de convertir palabras en números usando una lista de palabras específica

Tengo un archivo de texto que contiene tweets por línea, que deben modificarse para un formato de aprendizaje automático. Estoy usando python y la manipulación básica de texto de Unix (regex) para lograr una gran parte de mi manipulación de cuerdas, y estoy aprendiendo la función de sed, grep y pythons .re … este siguiente […]

Cómo escribir la función Buscar todo (con expresiones regulares) en awk o sed

Tengo una función bash que ejecuta python (que devuelve todos los regex encontrados desde stdin) function find-all() { python -c “import re import sys print ‘\n’.join(re.findall(‘$1’, sys.stdin.read()))” } Cuando uso esta expresión regular find-all ‘href=”([^”]*)”‘ < index.html debería devolver el primer grupo de la expresión regular (valor del atributo href del archivo index.html) ¿Cómo puedo […]

dividir el archivo en archivos más pequeños utilizando por número de campos

Me está costando mucho dividir un archivo csv grande (50 GB) en una parte más pequeña. Cada línea tiene unos pocos miles de campos. Algunos de los campos son cadenas entre comillas dobles, otros son enteros, decimales y booleanos. Quiero analizar el archivo línea por línea y dividir por el número de campos en cada […]