Herramientas


Puede consultar nuestra página de ayuda para mayor información acerca de estas herramientas.

ALGORITMOS DE COMPARACIÓN DE SECUENCIAS

BLAST

Por  Claudia Patricia Parra (Química Farmaceútica)
Y
Jaqueline Ramírez (Ingeniera de Sistemas)

 
 


Contenido

Reseña Histórica


La necesidad de descifrar el genoma humano para un mejor entendimiento de los procesos moleculares que afectan la salud humana, conduce a crear entre otros en 1988 a la NCBI(National Center for Biotechnology Information), como una de las fuentes de información en biología molecular cuyo objetivo primordial es el de crear bases de datos publicos, investigación en biología computacional, desarrollo de herramientas de software para el análisis de datos del genoma y difusión de la información biomédica.

En el proyecto genoma humano también participaron la bases de datos de secuencias GenBank, un sistema de búsqueda y retroalimentación, Entrez (sistema de navegación entre las bases de datos, que permite un fácil acceso de toda la información relativa a determinada secuencia) y una herramienta de comparación y búsqueda de secuencias como BLAST.
 

¿Porqué surgió la base de datos?


Es un programa de investigación del Computational Biology Branch (CBB), realizado por investigadores y estudiantes del postdoctorado, encargados de investigar sobre las aplicaciones teóricas y analíticas para resolver problemas fundamentales en biología molecular. Tales como análisis de secuencia, análisis de función y estructura de proteínas, identificación de genes, incluyendo algoritmos para la búsqueda en bases de datos, secuencias de baja complejidad, modelos matemáticos de evolución, métodos estadísticos para virología, comportamiento dinámico para reacciones químicas, comparación de genomas, árboles taxonómicos, y genética de poblaciones.
Muchas de estas investigaciones han contribuido a la aplicación de las bases de datos de la NCBI suministrando algoritmos innovadores como el BLAST,SEG,VAST COGs, entre otros.
 

¿Qué significa BLAST?


BLAST es el acrónimo de Basic Local Alignment Search Tool. Fué desarrollado por Altschul en 1990 y es el algoritmo mas empleado por el NCBI. La principal característica del BLAST es su velocidad, pudiendo tomar pocos minutos cualquier búsqueda en la totalidad de la base de datos. De hecho, los resultados se presentan en pantalla inmediatamente después de calculados. El BLAST puede hacer búsquedas en una base de datos no redundante (nr) la cual tiene los registros no redundantes entre las dos bases de datos principales a nivel mundial: GenBank en USA y EMBL (European Molecular Biology Laboratories) en Europa. Además, el BLAST tiene cinco módulos de búsqueda que amplian las posibilidades:
 

  • blastp    compara una secuencia problema de aminoácidos contra una base de datos de secuencias de proteínas.
  • blastn    compara una secuencia problema de nucleótidos contra una base de datos de secuencias de nucleótidos.
  • blastx    compara una secuencia problema de nucleótidos traducida en sus seis posibles marcos de lectura contra una base de secuencias de proteínas.
  • tblastn   compara una secuencia problema de aminoácidos contra toda la base de datos de nucleótidos traducida en sus seis posibles marcos de lectura
  • tblastx   compara las seis traducciones en sus marcos de lectura de la secuencia problema de nucleótidos , contra las seis traducciones en sus marcos de lectura de toda la base de datos de nucleótidos.

¿Porqué es importante conocer BLAST?


BLAST resulta el algoritmo a escoger en una búsqueda preliminar de similitud entre una secuencia problema y las bases de datos disponibles. Provee como primer resultado una medida cuantitativa de la similaridad de la secuencia problema contra cada una de las secuencias de la bases de datos. Es una herramienta de alineamiento local por pares. Consiste en hacer coincidir un par de secuencias. Es decir, sólo producen alineamientos por pares de la secuencia problema con cada una de las secuencias de la base de datos con las que muestra alta similitud.

Análisis de secuencias. ¿Qué tipo de datos analiza? ¿Cómo se entran a la base? ¿Cuántas versiones de BLAST existen?


Las bases de datos de secuencias biológicas se encuentran instaladas en distintos centros del mundo, de cierta manera compiten, por lo cual no se debe esperar que sus interfaces de comunicación sean iguales, ni siquiera parecidas. Además, las páginas Web de estos servidores suelen ser modificadas frecuentemente, por lo cual es necesario habituarse a la estructura general de estos servicios.

El papel de las bases de datos es el de proveer libre acceso a las secuencias de ácidos nucléicos y de proteínas que han sido publicadas por la comunidad científica, con la información respecto al autor, fuente bibliográfica, organismo y demás características importantes.

La recuperación más útil es la que emplea palabras claves, en donde se cumple con un criterio de búsqueda, lo que indica la intensidad con la cual se están publicando secuencias del organismo de estudio que nos interesa. Con este tipo de criterio podemos realizar una búsqueda de similaridad la cual consiste en efectuar una comparación de una secuencia problema con la totalidad de secuencias existentes en una base de datos. Estas búsquedas se realizan con distintos programas que aplican algoritmos de comparación y generan un listado de organismos cuyas secuencias resultan similares a la de estudio. Uno de los algoritmos más comunes y disponible en la Internet es el BLAST, la búsqueda se realiza así:

http://www.ncbi.nlm.nih.gov/cgi-bin/BLAST/

Es necesario especificar:

  • la secuencia problema
  • el programa a ejecutar, según sea el caso de las secuencias a comparar, entre blastp, blastn, blastx, tblastn, tblastx.
  • La base de datos contra la cual se desea hacer la comparación.
  • El formato en que se desean ver los resultados cuando estos esten listos.


De forma muy general los pasos a seguir son:
 

  1. Introduzca su secuencia
  2. configure los parámetros según sea su caso y pulse el botón Submitt Query.
  3. En base a las especificaciones hechas en el formato del resultado, este podrá aparecer en pantalla o ser recibido por correo electrónico.

Diferencia entre BLAST y FASTA


FASTA, desarrollado por Lipmann y Pearson 1985, es empleado por el EMBL-EBI (European Molecular Biology Laboratories- European Bioinformatics Institute), esnotablemente mas lento, empleando para búsquedas equivalentes hasta varias horas. Por esta razón, sus resultados sólo pueden recibirse vía correo electrónico. Sinembargo este algoritmo posee algunas ventajas:
 

  • Posibilidad de comparación contra secciones del GenBank como de secuencias de Mamíferos, Plantas, Bacterias, etc.
  • Mayor precisión bajo ciertas configuraciones iniciales de sus parámetros

SIA | Bibliotecas | Directorio | Archivo | Comunicados | Correo | Calendario | Agenda UN | Contratación | Sistema quejas | Aviso legal

Ciudad Universitaria - Bogotá D.C.- Colombia
Edificio "Uriel Gutiérrez" Transversal 38 N° 40-01 Conmutador (57)(1) 3165000