ALGORITMOS DE COMPARACIÓN DE SECUENCIAS
BLAST
Por Claudia Patricia Parra (Química Farmaceútica)
Y
Jaqueline Ramírez (Ingeniera de Sistemas)
Contenido
Reseña
Histórica
La necesidad de descifrar el genoma
humano para un mejor entendimiento de los procesos moleculares que afectan
la salud humana, conduce a crear entre otros en 1988 a la NCBI(National
Center for Biotechnology Information), como una de las fuentes de información
en biología molecular cuyo objetivo primordial es el de crear bases
de datos publicos, investigación en biología computacional,
desarrollo de herramientas de software para el análisis de datos
del genoma y difusión de la información biomédica.
En el proyecto genoma humano también
participaron la bases de datos de secuencias GenBank,
un sistema de búsqueda y retroalimentación, Entrez
(sistema de navegación entre las bases de datos, que permite un
fácil acceso de toda la información relativa a determinada
secuencia) y una herramienta de comparación y búsqueda de
secuencias como BLAST.
¿Porqué
surgió la base de datos?
Es un programa de investigación
del Computational Biology Branch (CBB), realizado por investigadores y
estudiantes del postdoctorado, encargados de investigar sobre las aplicaciones
teóricas y analíticas para resolver problemas fundamentales
en biología molecular. Tales como análisis de secuencia,
análisis de función y estructura de proteínas, identificación
de genes, incluyendo algoritmos para la búsqueda en bases
de datos, secuencias de baja complejidad, modelos matemáticos de
evolución, métodos estadísticos para virología,
comportamiento dinámico para reacciones químicas, comparación
de genomas, árboles taxonómicos, y genética de poblaciones.
Muchas de estas investigaciones han
contribuido a la aplicación de las bases de datos de la NCBI suministrando
algoritmos innovadores como el BLAST,SEG,VAST COGs, entre otros.
¿Qué
significa BLAST?
BLAST es el acrónimo de
Basic
Local Alignment Search Tool. Fué desarrollado por Altschul en
1990 y es el algoritmo mas empleado por el NCBI. La principal característica
del BLAST es su velocidad, pudiendo tomar pocos minutos cualquier búsqueda
en la totalidad de la base de datos. De hecho, los resultados se presentan
en pantalla inmediatamente después de calculados. El BLAST puede
hacer búsquedas en una base de datos no redundante (nr) la cual
tiene los registros no redundantes entre las dos bases de datos principales
a nivel mundial: GenBank en USA y EMBL (European Molecular Biology Laboratories)
en Europa. Además, el BLAST tiene cinco módulos de búsqueda
que amplian las posibilidades:
-
blastp compara
una secuencia problema de aminoácidos contra una base de datos de
secuencias de proteínas.
-
blastn compara
una secuencia problema de nucleótidos contra una base de datos de
secuencias de nucleótidos.
-
blastx compara
una secuencia problema de nucleótidos traducida en sus seis posibles
marcos de lectura contra una base de secuencias de proteínas.
-
tblastn compara una
secuencia problema de aminoácidos contra toda la base de datos de
nucleótidos traducida en sus seis posibles marcos de lectura
-
tblastx compara las
seis traducciones en sus marcos de lectura de la secuencia problema de
nucleótidos , contra las seis traducciones en sus marcos de lectura
de toda la base de datos de nucleótidos.
¿Porqué es importante
conocer BLAST?
BLAST resulta el algoritmo a escoger
en una búsqueda preliminar de similitud entre una secuencia problema
y las bases de datos disponibles. Provee como primer resultado una medida
cuantitativa de la similaridad de la secuencia problema contra cada una
de las secuencias de la bases de datos. Es una herramienta de alineamiento
local por pares. Consiste en hacer coincidir un par de secuencias. Es decir,
sólo producen alineamientos por pares de la secuencia problema con
cada una de las secuencias de la base de datos con las que muestra alta
similitud.
Análisis
de secuencias. ¿Qué tipo de datos analiza? ¿Cómo
se entran a la base? ¿Cuántas versiones de BLAST existen?
Las bases de datos de secuencias biológicas se
encuentran instaladas en distintos centros del mundo, de cierta manera compiten, por
lo cual no se debe esperar que sus interfaces de comunicación sean
iguales, ni siquiera parecidas. Además, las páginas Web de
estos servidores suelen ser modificadas frecuentemente, por lo cual es
necesario habituarse a la estructura general de estos servicios.
El papel de las bases de datos es el
de proveer libre acceso a las secuencias de ácidos nucléicos
y de proteínas que han sido publicadas por la comunidad
científica,
con la información respecto al autor, fuente bibliográfica,
organismo y demás características importantes.
La recuperación más útil
es la que emplea palabras claves, en donde se cumple con un criterio de
búsqueda, lo que indica la intensidad con la cual se están
publicando secuencias del organismo de estudio que nos interesa. Con este
tipo de criterio podemos realizar una búsqueda de similaridad la
cual consiste en efectuar una comparación de una secuencia problema
con la totalidad de secuencias existentes en una base de datos. Estas búsquedas
se realizan con distintos programas que aplican algoritmos de comparación
y generan un listado de organismos cuyas secuencias resultan similares
a la de estudio. Uno de los algoritmos más comunes y disponible
en la Internet es el BLAST, la búsqueda se realiza así:
http://www.ncbi.nlm.nih.gov/cgi-bin/BLAST/
Es necesario especificar:
-
la secuencia problema
-
el programa a ejecutar, según sea
el caso de las secuencias a comparar, entre blastp, blastn, blastx, tblastn,
tblastx.
-
La base de datos contra la cual se desea
hacer la comparación.
-
El formato en que se desean ver los resultados
cuando estos esten listos.
De forma muy general los pasos
a seguir son:
-
Introduzca su secuencia
-
configure los parámetros según
sea su caso y pulse el botón
Submitt Query.
-
En base a las especificaciones hechas
en el formato del resultado, este podrá aparecer en pantalla o ser
recibido por correo electrónico.
Diferencia
entre BLAST y FASTA
FASTA, desarrollado por Lipmann
y Pearson 1985, es empleado por el EMBL-EBI (European Molecular Biology
Laboratories- European Bioinformatics Institute), esnotablemente mas
lento, empleando para búsquedas equivalentes hasta varias horas.
Por esta razón, sus resultados sólo pueden recibirse vía
correo electrónico. Sinembargo este algoritmo posee algunas ventajas:
-
Posibilidad de comparación contra
secciones del GenBank como de secuencias de Mamíferos, Plantas,
Bacterias, etc.
-
Mayor precisión bajo ciertas configuraciones
iniciales de sus parámetros