ALGORITMOS DE COMPARACIÓN DE SECUENCIAS

Bibliografía

Por  Pilar Eugenia Corredor (Bióloga)

Gina Gutiérrez (Lic. en Biología)

En la actualidad existe una gran cantidad de información disponible de secuencias de DNA y proteínas, a partir de las cuales es posible inferir mucho acerca, por ejemplo, de la funcionalidad de moléculas no caracterizadas. La inferencia se basa en la capacidad de detectar homología, lo que ha motivado al desarrollo de metodologías para la comparación con aquellas secuencias bien estudiadas (Altschul, 1998). A pesar de su aparente simplicidad, los procedimientos de comparación de secuencias deben ser considerados con la misma rigurosidad de los experimentos del laboratorio, teniendo el mismo cuidado en el diseño e interpretación de los resultados (Brenner, 1998).

Los alineamientos constituyen una herramienta adecuada para la comparación de secuencias, pudiendo extraer de ellos información variada. Las secuencias pueden ser comparadas mediante alineamientos globales o locales dependiendo del objeto de la búsqueda. En el alineamiento global se trata de alinear la secuencia en su totalidad, mientras que en el local, se consideran solo los segmentos de mayor similaridad. La selección de una de estas estrategias puede depender del supuesto de relación de las secuencias en toda su longitud o solo en parte de ella.

Fundamentalmente las búsquedas en bases de datos consisten en el alineamiento local de una secuencia de interés o query con cada una de las secuencias en la base de datos (llamadas blanco o target). Muchos programas implementan diferentes estrategias de búsqueda que permiten encontrar similitudes entre la secuencia query y las que se encuentran reportadas en la base de datos (Brenner, 1998). El principio básico de cada uno de estos algoritmos es el mismo: la secuencia de interés es comparada con las secuencias en la base de datos para establecer una lista de aquellas con las que se encuentra mayor similaridad (Sansom, 2000).

El método más tradicional para seleccionar un resultado en particular, entre todos los posibles resultados obtenidos tras el alineamiento, puede ser la escogencia de aquel que posea el puntaje o score más alto. Existen diferentes formas para determinar el score, pero la más común y simple de ellas, consiste en la suma de los puntajes individuales determinados para cada pareja de residuos comparados. En estas comparaciones se asignan valores positivos para uniones correctas y negativos para aquellas que no lo son. El score asignado a cada pareja depende del tipo de secuencia que se está comparando, por ejemplo, para secuencias de aminoácidos se han construido matrices de substitución en las cuales se ha asignado un valor diferente para las posibles parejas de aminoácidos comparados.

En el score total también se considera la aparición de un carácter adicional, denominado gap, el cual se incluye en las secuencias comparadas para maximizar su similitud. En un contexto biológico, la inclusión de un gap en una de las secuencias, podría ser equivalente por ejemplo, a la aparición de una inserción en la otra. La inclusión de este nuevo carácter tiene dos componentes. Por una parte se penaliza la aparición como tal del mismo, e independientemente se penaliza la extensión de un gap ya abierto a más de un residuo. No existe una teoría aceptada para la elección de los valores de penalización, y su escogencia depende principalmente de pruebas de ensayo y error.

Después de definir el score de un alineamiento determinado, el siguiente paso consiste en encontrar el alineamiento óptimo de la secuencia. Algoritmos como Smith-Waterman para alineamientos locales llevan a cabo esta tarea, siendo el tiempo consumido en ella proporcional al producto de la longitud de las secuencias comparadas. El tiempo invertido en la comparación de las secuencias, así como la capacidad de los equipos requeridos para llevar a cabo el alineamiento en el algoritmo de
Smith-Waterman, lleva al desarrollo de métodos más rápidos de comparación.

Los programas de búsqueda en bases de datos difieren en el núcleo del algoritmo que usan. Esto tiene influencia sobre su velocidad y sensibilidad. Los algoritmos de alta velocidad usan principios simplificados para establecer la similitud de las secuencias. Es importante considerar al escoger uno de los posibles programas para búsqueda de similitud entre secuencias, que el tiempo que ésta tarda en llevarse a cabo depende de la sensibilidad del algoritmo, estando fuertemente influenciado por la longitud de la secuencia y el tamaño de la base de datos. En la tabla 1 se resumen algunos de los programas utilizados para búsqueda de secuencias en bases de datos.

**Tabla 1**. Comparación de algunos programas utilizados para la búsqueda de secuencias en bases de datos (tomado de Sansom, 2000).
Programa	Sensibilidad	Velocidad	Tipo de secuencia
BLAST	Medianamente sensitivo	Muy rápido	DNA, Proteína
FASTA	Sensitivo	Rápido	DNA, Proteína
Blitz	Muy sensitivo	Medianamente rápido	DNA, Proteína
SSEARCH	Muy sensitivo	Lento	DNA, Proteína
PSI-BLAST	Extremadamente sensitivo	Lento	Proteína

Entre los programas mencionados en la tabla 1, FASTA y BLAST fueron desarrollados como algoritmos de alta velocidad y baja sensibilidad, en comparación con Smith-Waterman, ya que se basan en estrategias heurísticas que concentran sus esfuerzos en las regiones de la secuencia más probablemente relacionadas. Procedimientos rápidos de unión-exacta identifican inicialmente las regiones promisorias, y solo hasta este momento se acude al algoritmo de Smith-Waterman, lo que permite que estos programas sean 10 a 100 veces más rápidos. Es posible ajustar algunos parámetros cuando se está utilizando FASTA y BLAST, los cuales hacen referencia al procedimiento heurístico y que al ser modificados, permiten establecer una relación velocidad/sensibilidad adecuada.

Una vez obtenido el alineamiento de dos secuencias surge un concepto importante que hace referencia a la relevancia biológica del resultado obtenido. El establecimiento de la similitud de dos secuencias con relación a su origen evolutivo, es decir, con la derivación a partir de un ancestro común (homología), puede ser una de las inquietudes de mayor relevancia biológica en el análisis de secuencias. Extraer esta información simplemente de un valor de similaridad obtenido resulta difícil, por lo cual se han establecido algunos parámetros de significancia estadística que permiten estimar la relevancia del resultado.

Para evaluar la relevancia biológica del alineamiento global o local de dos secuencias, es necesario tener una medida de los valores esperados de ocurrencia del score. Una de las pocas posibilidades para evaluar la significancia de los puntajes obtenidos, consiste en generar una distribución empírica de los scores de los alineamientos de muchas secuencias aleatorias de la misma longitud de las secuencias comparadas. De esta distribución se deriva el Valor Z para el score del alineamiento de interés, que podría ser considerado como una medida de la probabilidad de encontrar este score simplemente por azar.

Para alineamientos locales puede evaluarse la significancia del score obtenido con base en la distribución de valores extremos. Los programas disponibles de FASTA y BLAST reportan el score del alineamiento así como su significancia, con base en la distribución de valores extremos. Estas pruebas de significancia incluyen el Valor E, el cual representa el número de alineamientos con un score equivalente o superior que se pueden presentarse por azar. De esta forma la interpretación del Valor E, indica que tan confiable es el alineamiento obtenido, siendo los valores cercanos a cero los que indican menor posibilidad de obtención del resultado por azar.

Muchas secuencias de DNA y proteínas contienen regiones altamente repetitivas, que pueden desviar los resultados conduciendo a valores altos de similaridad en el alineamiento. Muchas programas poseen herramientas que filtran estas regiones de baja complejidad, pudiendo ofrecer búsquedas con mayor utilidad.

.:: Centro de Bioinformática del Instituto de Biotecnología ::.

| Quienes somos | Documentos | Cursos | Contacto |

Sansom, C. 2000. Database searching with DNA and protein sequences: An introduction. Briefings in Bioinformatics Vol 1(1): 22-32.
Altschul, S.F. 1998. Fundamentals of database searching. Trends Guide of Bioinformatics.
Brenner, S.E. 1998. Practical database searching. Trends Guide of Bioinformatics.