ACTA CIENTÍFICA Y TECNOLÓGICA
REVISTA DE LA ASOCIACIÓN ESPAÑOLA DE CIENTÍFICOS Nº 2 AÑO 2000
APLICACIÓN DE DIFERENTES MODELOS DE REDES NEURONALES ARTIFICIALES (RNA), A LA SOLUCIÓN DE PROBLEMAS DE LA QUÍMICA ORGÁNICA, ESPECIALMENTE EN EL CAMPO DE LA QUÍMICA MÉDICA
1. Introducción
El trabajo que hoy voy a exponer aquí, se basa en una amplia aplicación de diferentes modelos de Redes Neuronales Artificiales (RNA), a la solución de problemas de la Química Orgánica, especialmente en el campo de la Química Médica. Esta nueva técnica de las RNA se ha integrado dentro de las ya clásicas del análisis de las relaciones cuantitativas entre estructura y actividad biológica (QSAR) o entre estructura y propiedades (QSPR), ambas técnicas, ampliamente utilizadas en Química Médica.
Mi trabajo consiste fundamentalmente en el aprovechamiento de la capacidad de predicción que tienen las RNA, predicción que se centra fundamentalmente en la actividad biológica de nuevos fármacos. Como sustrato o datos de partida, para la predicción de las propiedades de nuevas moléculas de la Química Orgánica, se parte de sus correspondientes fórmulas o estructuras gráficas, siempre desde un planteamiento puramente topológico.
2. Topología y Lenguaje gráfico de la Química Orgánica
Es sabido que la Química Orgánica ha desarrollado a lo largo de su existencia de casi dos centurias, un lenguaje propio para representar la naturaleza o constitución del objeto de su estudio, que es el de las moléculas que caen dentro de su campo de definición. Este campo o universo, es de dimensiones casi ilimitadas por lo que resulta de capital importancia disponer de un lenguaje suficientemente preciso para diferenciar no solo el inmenso caudal de moléculas conocidas (en la actualidad superior a 15.000.000), sino aquel otro caudal, constituido por moléculas aún desconocidas o de posible interés en cuanto a su preparación o síntesis. Así, en la actualidad y mediante la técnica de la química combinatoria y sus variantes, se pueden preparar o sintetizar a la vez - mediante un sólo proceso - cientos de miles de moléculas diferentes, no conocidas hasta la fecha.
Este lenguaje, que se concreta en una serie de fórmulas o estructuras gráficas, es suficientemente conocido, aún para aquellos, cuyo más reciente contacto con la Química Orgánica se remonta a su época de formación escolar. Sirva de ejemplo el clásico hexágono como fórmula o representación gráfica de la molécula de benceno.
Nicolás Turro, en una publicación emblemática, ha analizado el proceso intelectual mediante el cual se maneja este tipo de fórmula o representación gráfica de una molécula. Su hipótesis se basa en una interpretación más topológica que geométrica de la conectividad existente entre los átomos de una molécula. Para él, el químico piensa en términos topológicos y no en términos geométrico-euclídeos cuando interpreta o diseña una de estas estructuras gráficas, a pesar de que la apariencia de dicha representación gráfica tenga una naturaleza netamente geométrica. Según Turro, la mente se sirve de representaciones formales más abstractas para representar una molécula. Recurre para ello a la topología, que define un objeto matemático - tal que una molécula - como un espacio topológico. El espacio topológico correspondiente a una molécula - definido como un conjunto integrado por sendos subconjuntos de átomos y sus relaciones binarias - carece sin embargo de representabilidad gráfica. Esta sólo se consigue mediante la reinterpretación de dicho espacio topológico como un grafo, que sí puede representarse gráficamente.
Estas fórmulas o representaciones gráficas, tan profusamente utilizadas por los químicos orgánicos conservan, a pesar de su naturaleza geométrica, su esencia topológica. Esta se pone de manifiesto cuando en la fórmula de una misma molécula se alteran las dimensiones y/ó ángulos de los enlaces entre los átomos. Para el químico - que no para el lego - la nueva fórmula resultante sigue representando a la misma molécula, a pesar de que su geometría sea muy diferente de la inicial.
Mediante estas estructuras gráficas se pueden representar y manipular - sobre el papel o el ordenador - no sólo moléculas reales sino otras ficticias aún no preparadas en el laboratorio. El objetivo de mi trabajo consiste en predecir las propiedades de estas moléculas ficticias, con el fin de ahorrarle al químico el trabajo de sintetizar aquellas moléculas, cuyas propiedades no van a ser de interés para él.
3. Predicción
La predicción o la profecía, según Wittgenstein, son elementos clave en el desarrollo de la Ciencia. Así, en la actualidad, el enfoque predictivo ha dejado de ser una actividad esotérica para convertirse en un instrumento de gran potencialidad, en campos tan diversos como la economía, medicina, política o en la ya clásica meteorología.
Pieza clave de un proceso predictivo es lo que se entiende por reconocimiento. Para que este reconocimiento tenga lugar, hace falta disponer de un conjunto de conocimientos - en este caso sobre estructuras de moléculas de la Química Orgánica - a modo de base de datos o memoria. Este conocimiento se adquiere por aprendizaje, a lo largo de nuestra existencia. Su contenido - se asume - no es la suma de una serie de representaciones locales, esto es cada estructura tendría su representación perfectamente localizada, sino más bien una representación distribuida uniformemente por toda la base de datos o memoria. Esta distribución del conocimiento lleva consigo una suerte de solapamiento de los contenidos. Este solapamiento hace posible la existencia de un proceso de generalización que, no consiste más que en la posible extensión del conocimiento previamente adquirido a otras estructuras desconocidas hasta el momento. El reconocimiento de una estructura - previamente conocida - presupone un mapeo o mapping entre los rasgos de esta estructura y los almacenados en la memoria. En el caso de tratarse de una nueva estructura y por tanto desconocida para el sistema - entra en juego el proceso de generalización - mediante el cual se extrapola el conocimiento adquirido a esa nueva estructura, siempre que ésta tenga algún punto en común con las estructuras previamente almacenadas en la memoria. Rumelhart y McClelland definen precisamente el funcionamiento de las RNA como un procesamiento distribuido en paralelo (PDP). Esta es una de las facetas más importantes de las RNA y a ella se debe precisamente su capacidad predictiva.
4. Redes Neuronales Artificiales (RNA) y su integración en CODES
Un proceso similar, es el que aplicamos - mediante nuestro programa CODES - a las estructuras químicas. Efectivamente, no solo se reconocen las estructuras sino que mediante un proceso de generalización se extiende el conocimiento de estructuras conocidas a otras semejantes pero desconocidas. Todo este proceso que - partiendo exclusivamente de estructuras gráficas - nos lleva a la predicción de las propiedades de nuevas moléculas, está basado en un amplio uso de RNA.
Fig.4.1. Estado inicial de la red, previo al experimento siguiente y que equivale a su estado de reposo. El fondo esta constituido por las conexiones excitatorias e inhibitorias que por su falta de actividad (-0.1) no están resaltadas. Este caso corresponde al clásico ejemplo de las bandas de los Jets y los Sharks, descrito por McClelland y Rumelhart. Cada integrante de la banda, se define por su instancia (unidades centrales) y por una serie de atributos personales (nombre, pertenencia a una de las bandas, edad, profesión, estado civil y estudios). Este modelo de red neuronal denomidado por sus autores como modelo de activación y competición interactivas (iac) sirve de fundamento al espacio neuronal creado por nuestro programa CODES.