Articles of biopython

(BioPython) ¿Cómo detengo la excepción MemoryError: Out of Memory?

Tengo un progtwig donde tomo un par de archivos de secuencias múltiples muy grandes (> 77,000 secuencias, cada una con un promedio de aproximadamente 1000 bp) y calculo la puntuación de alineación entre cada elemento individual emparejado y escribo ese número en un archivo de salida (que cargaré un archivo de excel más adelante). Mi […]

urllib2.HTTPError Python

Tengo un archivo con números GI y me gustaría obtener secuencias FASTA de ncbi. from Bio import Entrez import time Entrez.email =”eigtw59tyjrt403@gmail.com” f = open(“C:\\bioinformatics\\gilist.txt”) for line in iter(f): handle = Entrez.efetch(db=”nucleotide”, id=line, retmode=”xml”) records = Entrez.read(handle) print “>GI “+line.rstrip()+” “+records[0][“GBSeq_primary-accession”]+” “+records[0][“GBSeq_definition”]+”\n”+records[0][“GBSeq_sequence”] time.sleep(1) # to make sure not many requests go per second to ncbi […]

¿Cómo extraer una secuencia corta usando una ventana con un tamaño de paso específico?

El siguiente código extrae una secuencia corta en cada secuencia con el tamaño de ventana 4. ¿Cómo cambiar la ventana por el paso 2 y extraer 4 pares de bases? Código de ejemplo from Bio import SeqIO with open(“testA_out.fasta”,”w”) as f: for seq_record in SeqIO.parse(“testA.fasta”, “fasta”): i = 0 while ((i+4) ” + str(seq_record.id) + […]

Lista y tipo de restricción de Biopython

Estoy experimentando algunos problemas con los métodos de Bio.Restrictions , no estoy seguro de que se deba a python, biopython o mi pobre comprensión de python. Cuando trato de crear un RestrictionBatch siguiendo el libro de cocina , quiero usar las enzimas I de un diccionario (leído de archivos), y dice: Puede iniciar un lote […]

La nueva versión de RefSeq de NCBI es compatible con Bio.Entrez.Parser?

Soy nuevo con python y especialmente con Biopython. Estoy tratando de tomar algo de información de un archivo XML con Entrez.efetch y luego leerlo. La semana pasada este guión funcionó bien: handle = Entrez.efetch(db=”Protein”, id=”YP_008872780.1″, retmode=”xml”) records = Entrez.read(handle) Pero ahora estoy recibiendo un error: > Bio.Entrez.Parser.ValidationError: Failed to find tag ‘GBSeq_xrefs’ in the DTD. […]

¿Cómo extraer cadenas de un archivo PDB?

Me gustaría extraer cadenas de archivos pdb. Tengo un archivo llamado pdb.txt que contiene las ID de pdb como se muestra a continuación. Los primeros cuatro caracteres representan las ID de PDB y el último carácter son las ID de cadena. 1B68A 1BZ4B 4FUTA Me gustaría 1) leer el archivo línea por línea 2) descargar […]

Biopython SeqIO a Pandas Dataframe

Tengo un archivo FASTA que se puede analizar fácilmente por SeqIO.parse . Estoy interesado en extraer identificadores de secuencia y longitudes de secuencia. Utilicé estas líneas para hacerlo, pero creo que es demasiado pesado (dos iteraciones, conversiones, etc.) from Bio import SeqIO import pandas as pd # parse sequence fasta file identifiers = [seq_record.id for […]

regresar fuera de la función

Hola, estoy obteniendo el siguiente error en Biopython: ‘retorno’ fuera de la función (nombre de archivo .. línea 26) A continuación se muestra el código de myfile POR FAVOR AYUDA # File Name RandonProteinSequences.py # standard library import os import random # biopython from Bio.Seq import Seq from Bio.Alphabet import IUPAC from Bio.SeqRecord import SeqRecord […]

¿Existe una función que pueda calcular una puntuación para secuencias alineadas dados los parámetros de alineación?

Intento marcar las secuencias ya alineadas. Digamos seq1 = ‘PAVKDLGAEG-ASDKGT–SHVVY———-TI-QLASTFE’ seq2 = ‘PAVEDLGATG-ANDKGT–LYNIYARNTEGHPRSTV-QLGSTFE’ con parámetros dados substitution matrix : blosum62 gap open penalty : -5 gap extension penalty : -1 Revisé el libro de cocina de Biopython, pero todo lo que puedo obtener es la matriz de sustitución blogsum62, pero creo que debe haber alguien […]

¿Puede Biopython realizar Seq.find () teniendo en cuenta los códigos de ambigüedad?

Quiero poder buscar en un objeto Seq un objeto Sese de subsequnce que tenga en cuenta los códigos de ambigüedad. Por ejemplo, lo siguiente debería ser cierto: from Bio.Seq import Seq from Bio.Alphabet.IUPAC import IUPACAmbiguousDNA amb = IUPACAmbiguousDNA() s1 = Seq(“GGAAAAGG”, amb) s2 = Seq(“ARAA”, amb) # R = A or G print s1.find(s2) Si […]