Articles of sed

Creando múltiples archivos csv a partir de datos dentro de un archivo csv

Sistema OSX o Linux Estoy tratando de automatizar mi flujo de trabajo en el trabajo, cada semana recibo un archivo de Excel, que convierto a csv. Un ejemplo es: ,,L1,,,L2,,,L3,,,L4,,,L5,,,L6,,,L7,,,L8,,,L9,,,L10,,,L11, Title,r/t,needed,actual,Inst,needed,actual,Inst,needed,actual,Inst,needed,actual,Inst,neede d,actual,Inst,needed,actual,Inst,needed,actual,Inst,needed,actual,Inst,needed,actual,Inst,needed,actual,Inst,needed,actual,Inst EXAMPLEfoo,60,6,6,6,0,0,0,0,0,0,6,6,6,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0 EXAMPLEbar,30,6,6,12,6,7,14,6,6,12,6,6,12,6,8,16,6,7,14,6,7.5,15,6,6,12,6,8,16,6,0,0,6,7,14 EXAMPLE1,60,3,3,3,3,5,5,3,4,4,3,3,3,3,6,6,3,4,4,3,3,3,3,4,4,3,8,8,3,0,0,3,4,4 EXAMPLE2,120,6,6,3,0,0,0,6,8,4,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0 EXAMPLE3,60,6,6,6,6,8,8,6,6,6,6,6,6,0,0,0,0,0,0,6,8,8,6,6,6,0,0,0,0,0,0,0,10,10 EXAMPLE4,30,6,6,12,6,7,14,6,6,12,6,6,12,3,5.5,11,6,7.5,15,6,6,12,6,0,0,6,9,18,6,0,0,6,6.5,13 Y así puede obtener una imagen de cómo se ve en excel: texto alt http://sofes.miximages.com/python/2dt2glt.png Lo que […]

extraer cada dato de secuenciación como archivo individual

Hay un archivo ecoli.ffn con filas que indican el nombre de los genes de secuenciación: $head ecoli.ffn >ecoli16:g027092:GCF_000460315:gi|545267691|ref|NZ_KE701669.1|:551259-572036 ATGAGCCTGATTATTGATGTTATTTCGCGT AAAACATCCGTCAAACAAACGCTGATTAAT >ecoli16:g000011:55989:gi|218693476|ref|NC_011748.1|:1128430-1131042 GTGTACGCTATGGCGGGTAATTTTGCCGAT >ecoli16:g000012:55989:gi|218693476|ref|NC_011748.1|:1128430-1131042 GTGTACGCTATGGCGGGTAATTTTGCCGAT CTGACAGCTGTTCTTACACTGGATTCAACC CTGACAGCTGTTCTTACACTGGATTCAACC Como se muestra arriba, el nombre del gen se encuentra entre el primer y segundo colon: g027092 g000011 g000012 Me gustaría usar ecoli.ffn para generar tres archivos: g027092.txt , […]

Usando pysed en script

Puedo ejecutarlo exitosamente en la línea de comandos pero tengo problemas en el script de Python. Se queja de la segunda doble cita. pysed -r “192.168.33.10” “$NEW_IP” FILE –write ^ SyntaxError: invalid syntax ¿Cómo puedo ejecutar esto dentro de un script?

¿Cómo concatenar el identificador especificado en dos filas?

Entrada donde identificador especificado por dos filas 1-2 L1_I L1_I C-14 <—| unique idenfier WWPTH WWPT WWPTH <—| on two rows 1 2 3 Objetivo: ¿Cómo concatenar las filas? L1_IWWPTH L1_IWWPT C-14WWPTH <— unique identifier 1 2 3 Ps aceptaré la solución más simple y elegante.

La mejor manera de convertir palabras en números usando una lista de palabras específica

Tengo un archivo de texto que contiene tweets por línea, que deben modificarse para un formato de aprendizaje automático. Estoy usando python y la manipulación básica de texto de Unix (regex) para lograr una gran parte de mi manipulación de cuerdas, y estoy aprendiendo la función de sed, grep y pythons .re … este siguiente […]

Cómo escribir la función Buscar todo (con expresiones regulares) en awk o sed

Tengo una función bash que ejecuta python (que devuelve todos los regex encontrados desde stdin) function find-all() { python -c “import re import sys print ‘\n’.join(re.findall(‘$1’, sys.stdin.read()))” } Cuando uso esta expresión regular find-all ‘href=”([^”]*)”‘ < index.html debería devolver el primer grupo de la expresión regular (valor del atributo href del archivo index.html) ¿Cómo puedo […]

dividir el archivo en archivos más pequeños utilizando por número de campos

Me está costando mucho dividir un archivo csv grande (50 GB) en una parte más pequeña. Cada línea tiene unos pocos miles de campos. Algunos de los campos son cadenas entre comillas dobles, otros son enteros, decimales y booleanos. Quiero analizar el archivo línea por línea y dividir por el número de campos en cada […]

Muestreo aleatorio de líneas de un archivo

Tengo un archivo csv que tiene ~ 40 gb y 1800000 líneas. Quiero muestrear aleatoriamente 10,000 líneas e imprimirlas en un nuevo archivo. En este momento, mi enfoque es utilizar sed como: (sed -n ‘$vars’ output.txt Donde $vars es una lista de líneas generada aleatoriamente. (Por ejemplo: 1p; 14p; 1700p; …; 10203p) Mientras esto funciona, […]

Eliminación de duplicados de PCR de archivos Fastq que contienen identificadores moleculares únicos

Estoy intentando editar un archivo Fastq que contiene datos genómicos e identificadores moleculares únicos que flanquean cada secuencia. A continuación se muestra un ejemplo de las dos primeras lecturas: 1 @HISEQ:230:C6G45ANXX:3:1101:1395:2141 1:N:0:ACAGTGGTTGAACCTT 2 TGACGGCACTTTCTCTTCCCAACCACGTGGCTGCAGACTTCTTGCTCTCAAGTTGTCCTGACATGCTCTGAGAGCACACACAACATACATACAACACCTGGATCTGTGAATTAATTACTGCCTAGG 3 + 4 BB//<<BFBFFF<FFFFBBB<<<F/FBBB<FF/B<FFFFFFFFFFFFFFBFFFBFB/FBFFB//F//B<FFF</</BF<BBBFFFFF//B<FBFF/77F/B/BF7/FF/<BF/7FFFFBBF//B7B 5 @HISEQ:230:C6G45ANXX:3:1101:1498:2162 1:N:0:ACAGTGGTTGAACCTT 6 TGACGGCACTTTCTCTTCCCAACCACGTGGCTGCAGACTTCTTGCTCTCAAGTTGTCCTGACATGCTCTGAGAGCACACACAACATACATACAACACCTGGATCTGTGAATTAATTACTGCCTAGG 7 + 8 BBB<B<F<FFFFFFFBFFFFFFBFFFFBFF/F<FFFFBBFFFFFFFFFFBFB/BFFFFFFFFFFFBFFB/<<<FFFFFFFFFFFFFFBFFFF################################## Estas líneas se explican a continuación: 1 Information […]

¿Cómo usar la expresión regular de python para reemplazar usando el grupo capturado?

Supongamos que quiero cambiar the blue dog and blue cat wore blue hats al the gray dog and gray cat wore blue hats . Con sed pude lograr esto de la siguiente manera: $ echo ‘the blue dog and blue cat wore blue hats’ | sed ‘s/blue \(dog\|cat\)/gray \1/g’ ¿Cómo puedo hacer un reemplazo similar […]