Articles of awk

Creando múltiples archivos csv a partir de datos dentro de un archivo csv

Sistema OSX o Linux Estoy tratando de automatizar mi flujo de trabajo en el trabajo, cada semana recibo un archivo de Excel, que convierto a csv. Un ejemplo es: ,,L1,,,L2,,,L3,,,L4,,,L5,,,L6,,,L7,,,L8,,,L9,,,L10,,,L11, Title,r/t,needed,actual,Inst,needed,actual,Inst,needed,actual,Inst,needed,actual,Inst,neede d,actual,Inst,needed,actual,Inst,needed,actual,Inst,needed,actual,Inst,needed,actual,Inst,needed,actual,Inst,needed,actual,Inst EXAMPLEfoo,60,6,6,6,0,0,0,0,0,0,6,6,6,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0 EXAMPLEbar,30,6,6,12,6,7,14,6,6,12,6,6,12,6,8,16,6,7,14,6,7.5,15,6,6,12,6,8,16,6,0,0,6,7,14 EXAMPLE1,60,3,3,3,3,5,5,3,4,4,3,3,3,3,6,6,3,4,4,3,3,3,3,4,4,3,8,8,3,0,0,3,4,4 EXAMPLE2,120,6,6,3,0,0,0,6,8,4,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0 EXAMPLE3,60,6,6,6,6,8,8,6,6,6,6,6,6,0,0,0,0,0,0,6,8,8,6,6,6,0,0,0,0,0,0,0,10,10 EXAMPLE4,30,6,6,12,6,7,14,6,6,12,6,6,12,3,5.5,11,6,7.5,15,6,6,12,6,0,0,6,9,18,6,0,0,6,6.5,13 Y así puede obtener una imagen de cómo se ve en excel: texto alt http://sofes.miximages.com/python/2dt2glt.png Lo que […]

extraer cada dato de secuenciación como archivo individual

Hay un archivo ecoli.ffn con filas que indican el nombre de los genes de secuenciación: $head ecoli.ffn >ecoli16:g027092:GCF_000460315:gi|545267691|ref|NZ_KE701669.1|:551259-572036 ATGAGCCTGATTATTGATGTTATTTCGCGT AAAACATCCGTCAAACAAACGCTGATTAAT >ecoli16:g000011:55989:gi|218693476|ref|NC_011748.1|:1128430-1131042 GTGTACGCTATGGCGGGTAATTTTGCCGAT >ecoli16:g000012:55989:gi|218693476|ref|NC_011748.1|:1128430-1131042 GTGTACGCTATGGCGGGTAATTTTGCCGAT CTGACAGCTGTTCTTACACTGGATTCAACC CTGACAGCTGTTCTTACACTGGATTCAACC Como se muestra arriba, el nombre del gen se encuentra entre el primer y segundo colon: g027092 g000011 g000012 Me gustaría usar ecoli.ffn para generar tres archivos: g027092.txt , […]

La mejor manera de convertir palabras en números usando una lista de palabras específica

Tengo un archivo de texto que contiene tweets por línea, que deben modificarse para un formato de aprendizaje automático. Estoy usando python y la manipulación básica de texto de Unix (regex) para lograr una gran parte de mi manipulación de cuerdas, y estoy aprendiendo la función de sed, grep y pythons .re … este siguiente […]

Cómo escribir la función Buscar todo (con expresiones regulares) en awk o sed

Tengo una función bash que ejecuta python (que devuelve todos los regex encontrados desde stdin) function find-all() { python -c “import re import sys print ‘\n’.join(re.findall(‘$1’, sys.stdin.read()))” } Cuando uso esta expresión regular find-all ‘href=”([^”]*)”‘ < index.html debería devolver el primer grupo de la expresión regular (valor del atributo href del archivo index.html) ¿Cómo puedo […]

dividir el archivo en archivos más pequeños utilizando por número de campos

Me está costando mucho dividir un archivo csv grande (50 GB) en una parte más pequeña. Cada línea tiene unos pocos miles de campos. Algunos de los campos son cadenas entre comillas dobles, otros son enteros, decimales y booleanos. Quiero analizar el archivo línea por línea y dividir por el número de campos en cada […]

Convertir el día juliano en fecha

Tengo archivos llamados day00000.nc, day00001.nc, day00002.nc, … day00364.nc durante varios años. Representan los 365 o 366 días. Quiero cambiar el nombre de mis archivos como este day20070101.nc, day20070102.nc, … day20071231.nc ¿Cómo puedo hacer eso? Gracias

comandos awk dentro de la secuencia de comandos de python

Necesito escribir una secuencia de comandos de python en la que necesito llamar algunos comandos awk dentro de ella. #!/usr/bin/python import os, sys input_dir = ‘/home/abc/data’ os.chdir(input_dir) #wd=os.getcwd() #print wd os.system (“tail -n+2 ./*/*.tsv|cat|awk ‘BEGIN{FS=”\t”};{split($10,arr,”-“)}{print arr[1]}’|sort|uniq -c”) Da un error en la línea 8: SyntaxError: carácter inesperado después del carácter de continuación de línea ¿Hay […]

Eliminación de duplicados de PCR de archivos Fastq que contienen identificadores moleculares únicos

Estoy intentando editar un archivo Fastq que contiene datos genómicos e identificadores moleculares únicos que flanquean cada secuencia. A continuación se muestra un ejemplo de las dos primeras lecturas: 1 @HISEQ:230:C6G45ANXX:3:1101:1395:2141 1:N:0:ACAGTGGTTGAACCTT 2 TGACGGCACTTTCTCTTCCCAACCACGTGGCTGCAGACTTCTTGCTCTCAAGTTGTCCTGACATGCTCTGAGAGCACACACAACATACATACAACACCTGGATCTGTGAATTAATTACTGCCTAGG 3 + 4 BB//<<BFBFFF<FFFFBBB<<<F/FBBB<FF/B<FFFFFFFFFFFFFFBFFFBFB/FBFFB//F//B<FFF</</BF<BBBFFFFF//B<FBFF/77F/B/BF7/FF/<BF/7FFFFBBF//B7B 5 @HISEQ:230:C6G45ANXX:3:1101:1498:2162 1:N:0:ACAGTGGTTGAACCTT 6 TGACGGCACTTTCTCTTCCCAACCACGTGGCTGCAGACTTCTTGCTCTCAAGTTGTCCTGACATGCTCTGAGAGCACACACAACATACATACAACACCTGGATCTGTGAATTAATTACTGCCTAGG 7 + 8 BBB<B<F<FFFFFFFBFFFFFFBFFFFBFF/F<FFFFBBFFFFFFFFFFBFB/BFFFFFFFFFFFBFFB/<<<FFFFFFFFFFFFFFBFFFF################################## Estas líneas se explican a continuación: 1 Information […]

¿Cómo multiprocesar, multiprocilar un archivo grande al dividirlo en pequeños fragmentos en función de los valores de una columna en particular?

He escrito un progtwig en Python para un proceso biológico https://codereview.stackexchange.com/questions/186396/solve-the-phase-state-between-two-haplotype-blocks-using-markov-transition-proba . Si observa ese progtwig, puede ver que el progtwig lleva mucho tiempo computando datos de dos líneas consecutivas (o teclas, valores) a la vez. No estoy poniendo todo el código aquí, pero por simplicidad estoy creando un archivo simulado y un progtwig simulado […]

¿Cómo preprocesar y cargar un archivo tsv de “datos grandes” en un dataframe de python?

Actualmente estoy intentando importar el siguiente archivo grande delimitado por tabuladores en una estructura similar a un dataframe dentro de Python. Por supuesto, estoy usando un dataframe de pandas , aunque estoy abierto a otras opciones. Este archivo tiene un tamaño de varios GB y no es un archivo tsv estándar; está roto, es decir, […]