Articles of awk

Expresión regular: reemplaza todos los espacios al principio de la línea con puntos

No me importa si lo logro a través de vim, sed, awk, python, etc. Lo intenté en todo, no pude hacerlo. Para una entrada como esta: top f1 f2 f3 sub1 f1 f2 f3 sub2 f1 f2 f3 sub21 f1 f2 f3 sub3 f1 f2 f3 Quiero: top f1 f2 f3 …sub1 f1 f2 f3 […]

Eliminar las comillas en el campo en el archivo csv

Digamos que tenemos un archivo separado por comas (csv) como este: “name of movie”,”starring”,”director”,”release year” “dark knight rises”,”christian bale, anna hathaway”,”christopher nolan”,”2012″ “the dark knight”,”christian bale, heath ledger”,”christopher nolan”,”2008″ “The “day” when earth stood still”,”Michael Rennie,the ‘strong’ man”,”robert wise”,”1951″ “the ‘gladiator'”,”russel “the awesome” crowe”,”ridley scott”,”2000″ Como puede ver desde arriba, en las líneas 4 y […]

Almacenamiento de valor de un ping analizado

Estoy trabajando en algún código que realiza una operación de ping desde python y extrae solo la latencia mediante el uso de awk. Esto es actualmente lo que tengo: from os import system l = system(“ping -c 1 sitename | awk -F = ‘FNR==2 {print substr($4,1,length($4)-3)}'”) print l La llamada al system() funciona bien, pero […]

Creando múltiples archivos csv a partir de datos dentro de un archivo csv

Sistema OSX o Linux Estoy tratando de automatizar mi flujo de trabajo en el trabajo, cada semana recibo un archivo de Excel, que convierto a csv. Un ejemplo es: ,,L1,,,L2,,,L3,,,L4,,,L5,,,L6,,,L7,,,L8,,,L9,,,L10,,,L11, Title,r/t,needed,actual,Inst,needed,actual,Inst,needed,actual,Inst,needed,actual,Inst,neede d,actual,Inst,needed,actual,Inst,needed,actual,Inst,needed,actual,Inst,needed,actual,Inst,needed,actual,Inst,needed,actual,Inst EXAMPLEfoo,60,6,6,6,0,0,0,0,0,0,6,6,6,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0 EXAMPLEbar,30,6,6,12,6,7,14,6,6,12,6,6,12,6,8,16,6,7,14,6,7.5,15,6,6,12,6,8,16,6,0,0,6,7,14 EXAMPLE1,60,3,3,3,3,5,5,3,4,4,3,3,3,3,6,6,3,4,4,3,3,3,3,4,4,3,8,8,3,0,0,3,4,4 EXAMPLE2,120,6,6,3,0,0,0,6,8,4,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0 EXAMPLE3,60,6,6,6,6,8,8,6,6,6,6,6,6,0,0,0,0,0,0,6,8,8,6,6,6,0,0,0,0,0,0,0,10,10 EXAMPLE4,30,6,6,12,6,7,14,6,6,12,6,6,12,3,5.5,11,6,7.5,15,6,6,12,6,0,0,6,9,18,6,0,0,6,6.5,13 Y así puede obtener una imagen de cómo se ve en excel: texto alt http://sofes.miximages.com/python/2dt2glt.png Lo que […]

extraer cada dato de secuenciación como archivo individual

Hay un archivo ecoli.ffn con filas que indican el nombre de los genes de secuenciación: $head ecoli.ffn >ecoli16:g027092:GCF_000460315:gi|545267691|ref|NZ_KE701669.1|:551259-572036 ATGAGCCTGATTATTGATGTTATTTCGCGT AAAACATCCGTCAAACAAACGCTGATTAAT >ecoli16:g000011:55989:gi|218693476|ref|NC_011748.1|:1128430-1131042 GTGTACGCTATGGCGGGTAATTTTGCCGAT >ecoli16:g000012:55989:gi|218693476|ref|NC_011748.1|:1128430-1131042 GTGTACGCTATGGCGGGTAATTTTGCCGAT CTGACAGCTGTTCTTACACTGGATTCAACC CTGACAGCTGTTCTTACACTGGATTCAACC Como se muestra arriba, el nombre del gen se encuentra entre el primer y segundo colon: g027092 g000011 g000012 Me gustaría usar ecoli.ffn para generar tres archivos: g027092.txt , […]

La mejor manera de convertir palabras en números usando una lista de palabras específica

Tengo un archivo de texto que contiene tweets por línea, que deben modificarse para un formato de aprendizaje automático. Estoy usando python y la manipulación básica de texto de Unix (regex) para lograr una gran parte de mi manipulación de cuerdas, y estoy aprendiendo la función de sed, grep y pythons .re … este siguiente […]

Cómo escribir la función Buscar todo (con expresiones regulares) en awk o sed

Tengo una función bash que ejecuta python (que devuelve todos los regex encontrados desde stdin) function find-all() { python -c “import re import sys print ‘\n’.join(re.findall(‘$1’, sys.stdin.read()))” } Cuando uso esta expresión regular find-all ‘href=”([^”]*)”‘ < index.html debería devolver el primer grupo de la expresión regular (valor del atributo href del archivo index.html) ¿Cómo puedo […]

dividir el archivo en archivos más pequeños utilizando por número de campos

Me está costando mucho dividir un archivo csv grande (50 GB) en una parte más pequeña. Cada línea tiene unos pocos miles de campos. Algunos de los campos son cadenas entre comillas dobles, otros son enteros, decimales y booleanos. Quiero analizar el archivo línea por línea y dividir por el número de campos en cada […]

Convertir el día juliano en fecha

Tengo archivos llamados day00000.nc, day00001.nc, day00002.nc, … day00364.nc durante varios años. Representan los 365 o 366 días. Quiero cambiar el nombre de mis archivos como este day20070101.nc, day20070102.nc, … day20071231.nc ¿Cómo puedo hacer eso? Gracias

comandos awk dentro de la secuencia de comandos de python

Necesito escribir una secuencia de comandos de python en la que necesito llamar algunos comandos awk dentro de ella. #!/usr/bin/python import os, sys input_dir = ‘/home/abc/data’ os.chdir(input_dir) #wd=os.getcwd() #print wd os.system (“tail -n+2 ./*/*.tsv|cat|awk ‘BEGIN{FS=”\t”};{split($10,arr,”-“)}{print arr[1]}’|sort|uniq -c”) Da un error en la línea 8: SyntaxError: carácter inesperado después del carácter de continuación de línea ¿Hay […]