Articles of bioinformatics

¿Existe una función que pueda calcular una puntuación para secuencias alineadas dados los parámetros de alineación?

Intento marcar las secuencias ya alineadas. Digamos seq1 = ‘PAVKDLGAEG-ASDKGT–SHVVY———-TI-QLASTFE’ seq2 = ‘PAVEDLGATG-ANDKGT–LYNIYARNTEGHPRSTV-QLGSTFE’ con parámetros dados substitution matrix : blosum62 gap open penalty : -5 gap extension penalty : -1 Revisé el libro de cocina de Biopython, pero todo lo que puedo obtener es la matriz de sustitución blogsum62, pero creo que debe haber alguien […]

Snakemake: regla para usar muchas entradas para una salida con múltiples subgrupos

Tengo un canal de trabajo que estoy usando para descargar, alinear y realizar llamadas de variantes en datos de secuencia pública. El problema es que actualmente solo puede funcionar por muestra ( es decir, muestra como cada experimento de secuenciación individual). No funciona si quiero realizar una variante invocando un grupo de experimentos (como las […]

Sonrisas de la gráfica

¿Existe algún método o paquete que convierta un gráfico (o matriz de adyacencia) en una cadena SMILES? Por ejemplo, sé que los átomos son [6 6 7 6 6 6 6 8] ([CCNCCCCO]) , y la matriz de adyacencia es [[ 0., 1., 0., 0., 0., 0., 0., 0.], [ 1., 0., 2., 0., 0., […]

¿Puede Biopython realizar Seq.find () teniendo en cuenta los códigos de ambigüedad?

Quiero poder buscar en un objeto Seq un objeto Sese de subsequnce que tenga en cuenta los códigos de ambigüedad. Por ejemplo, lo siguiente debería ser cierto: from Bio.Seq import Seq from Bio.Alphabet.IUPAC import IUPACAmbiguousDNA amb = IUPACAmbiguousDNA() s1 = Seq(“GGAAAAGG”, amb) s2 = Seq(“ARAA”, amb) # R = A or G print s1.find(s2) Si […]

No se pueden analizar solo secuencias de archivos FASTA

¿Cómo puedo eliminar identificadores como ‘>gi|2765658|emb|Z78533.1|CIZ78533 C.irapeanum 5.8S rRNA gene and ITS1 and ITS2 DNA\n’ de las secuencias? Tengo este codigo with open(‘sequence.fasta’, ‘r’) as f : while True: line1=f.readline() line2=f.readline() line3=f.readline() if not line3: break fct([line1[i:i+100] for i in range(0, len(line1), 100)]) fct([line2[i:i+100] for i in range(0, len(line2), 100)]) fct([line3[i:i+100] for i in range(0, […]

Lectura en archivo bloque por bloque usando un delimitador especificado en python

Tengo un archivo input_file.fa como este (formato FASTA ): > header1 description data data data >header2 description more data data data Quiero leer en el archivo un fragmento a la vez, de modo que cada fragmento contenga un encabezado y los datos correspondientes, por ejemplo, el bloque 1: > header1 description data data data Por […]

Pandas Convertir ‘NA’ a NaN

Acabo de seleccionar Pandas para hacer un trabajo de análisis de datos en mi investigación de biología. Resulta que una de las proteínas que estoy analizando se llama ‘NA’. Tengo una matriz con pares ‘HA, M1, M2, NA, NP …’ en los encabezados de las columnas, y lo mismo que “encabezados de fila” (para los […]

Biopython: ¿Cómo evitar secuencias de aminoácidos particulares de una proteína para trazar el gráfico de Ramachandran?

He escrito una secuencia de comandos de python para trazar el ‘Diagtwig de Ramachandran’ de la proteína ubiquitina. Estoy usando biopython. Estoy trabajando con archivos pdb. Mi guión es el siguiente: import Bio.PDB import numpy as np import matplotlib as mpl import matplotlib.pyplot as plt phi_psi = ([0,0]) phi_psi = np.array(phi_psi) pdb1 =’/home/devanandt/Documents/VMD/1UBQ.pdb’ for model […]

Pandas: .groupby (). Tamaño () y porcentajes

Tengo un DataFrame que se origina a partir de una df.groupby().size() , y se ve así: Localization RNA level cytoplasm 1 Non-expressed 7 2 Very low 13 3 Low 8 4 Medium 6 5 Moderate 8 6 High 2 7 Very high 6 cytoplasm & nucleus 1 Non-expressed 5 2 Very low 8 3 Low […]

¿Cómo puedo obtener nombres de rango taxonómico de taxid?

Esta pregunta está relacionada con: ¿Cómo obtener identificaciones taxonómicas específicas para el reino, phylum, clase, orden, familia, género y especie de taxid? La solución dada allí funciona pero me gustaría tener los nombres de cada ID taxonómico para los rangos definidos. He encontrado esto en ete3 que puede hacer el trabajo: names = ncbi.get_taxid_translator(lineage) print […]