RESUMEN


Con este articulo se pretende dar a conocer lo que algunos llaman, el nuevo paradigma de la psicología cognitiva actual, el conexionismo. El conexionismo también es conocido como procesamiento distribuido en paralelo (PDP) y esta siendo empleado no solo para dar una explicación del funcionamiento de la cognición humana, sino que también esta siendo una manera muy prometedora de solucionar problemas para los desarrolladores de sistemas de inteligencia artificial.

En este articulo se pretende desvelar cual es la esencia de los modelos de procesamiento distribuido en paralelo, sus características, algunas redes, sus aplicaciones, sus relaciones con el sistema nervioso, y en definitiva, tratar de desvelar lo atractivo de esta nueva forma de entender la ciencia cognitiva en general, diferente a los modelos simbólicos tradicionales.

ARTÍCULO: Teorías conexionistas, la nueva psicología.


TEORÍAS CONEXIONISTAS
 
1. INTRODUCCIÓN.
 
La psicología cognitiva tiene una historia muy reciente, aunque sus primeras propuestas se encuentran a finales de la década de los 40 y principios de los 50, no es hasta los años 60 cuando realmente se empieza a extender por el mundo entero.
 
El inmediato antecesor de la psicología cognitiva, el conductismo, fue hasta ese momento el mayor esfuerzo por conseguir de la disciplina psicológica una ciencia. Sin embargo en conductismo tropezó con varios problemas muy graves, donde los mas significativos fueron:
 
1.      El conductismo es una ciencia sin sujeto, es decir, lo único importante es la estimulación ambiental, las conductas que son reforzadas, el ambiente en el que vive el sujeto, por tanto todos los sujetos en esencia pueden ser considerados iguales, la diferencias genéticas o carecen de importancia o son ignoradas.
2.      El conductismo también rechaza la mente (o cognición), por lo que todo se reduce a un conjunto de estímulos y respuestas que operan mecánicamente. El conductismo estudia la conducta para explicar la conducta.
 
En los años 60 los dos argumentos fundamentales del conductismo, el ambientalismo y el organismo vacío comienzan a entrar en decadencia. La etología, la neurociencia, los desarrollos de la propia psicología van a propiciar una vuelta a los antiguos temas de la psicología mentalista pero con una perspectiva metodológica nueva. Nace así la psicología cognitiva con el objeto de estudiar la mente mirando la conducta.
 
La psicología cognitiva no solo difiere del mentalismo en el método, que es conocido como conductismo metodológico, según el cual la investigación psicológica debe descansar en la observación y experimentación de la conducta. También difiere en el concepto de “mente”, que ahora es considerada con un sistema capaz de manipular información. Cuando nació la psicología cognitiva esta solo se ocupaba de los estados informacionales, o sea, de la dimensión intelectual, por tanto aspectos como la motivación y emoción quedaba fuera de su espacio de estudio, ya que no suponía un estado informacional nuevo.
 
En este modo de ver la cognición influyeron tanto las ideas filosóficas racionalistas, que consideraban que la mente hacia una representación del mundo siguiendo unas reglas, como las tecnológicas, en concreto el ordenador de Von Neumann, que operaba mediante un procedimiento serial (los ordenadores actuales) y cada una de sus diferentes partes tenían atribuidas funciones concretas. Pero en 1986 D. E. Rumelhart y J. L. McClelland publican la obra “Procesamiento Distribuido en Paralelo” surgiendo así una nueva forma de entender la cognición, el conexionismo, al que algunos ya han denominado un nuevo paradigma en psicología, consideración esta última que veremos mas detalladamente.
 
Entre la psicología cognitiva clásica y el conexionismo o procesamiento distribuido en paralelo hay similitudes y diferencias que se puede resumir en:
 
1.      Computación.- para ambos modelos teóricos la computación en el núcleo central de ambas teorías, sin embargo cada uno concibe la computación de maneras muy distintas:
a.      Para la psicología cognitiva clásica la computación se realiza mediante la aplicación de un conjunto de reglas a entidades situadas al nivel de la psicología popular (creencias y deseos básicamente). Para el conexionismo la computación se realiza entre las unidades de una red en función de sus pesos de conexión.
b.      Para las dos es adecuado el uso de la simulación por ordenador, pero para la psicología cognitiva clásica la simulación se realiza a modo de un ordenador serial, mientras que para los conexionistas la arquitectura del ordenador es semejante el cerebro.
c.      La psicología cognitiva clásica propone la lógica y las reglas de tipo sintáctico y semántico como ocurre en los programas de inteligencia artificial. En el conexionismo el cálculo se lleva a cabo mediante procedimientos estadísticos.
2.      Objetivos.- Para la psicología cognitiva clásica el objetivo es descubrir las reglas, elementos y estructuras básicas que rigen el procesamiento humano. Para el conexionismo es el descubrimiento de redes adecuadas de simulación y reglas de aprendizaje eficientes.
3.      Aprendizaje.- La psicología cognitiva clásica se mantiene en posturas innatistas y rechaza explícitamente el asociacionismo, mientras que el conexionismo en cierto sentido es una forma de asociacionismo y mantiene la idea de mente como una “tabula rasa” en la que el ambiente va modelando los pesos de conexión de la red. Para algunos estas diferencias separan al conexionismo de la psicología cognitiva y lo aproximan al conductismo, dado que este defiende asociacionismo y ambientalismo.
 
 
2. CARACTERÍSTICAS GENERALES DE LOS MODELOS CONEXIONISTAS.
 
Algunos prefieren llamar al conexionismo neoconexionismo, para diferenciarlo de aquella forma de conexionismo que propuso Alexander Bain en la segunda mitad del siglo XIX, autor que también destaco la importancia de las conexiones entre neuronas y la investigación y experimentación fisiológica. El conexionismo también es conocido como procesamiento distribuido en paralelo o PDP.
 
En inteligencia artificial los métodos de computación basados en redes neurales se encuentran en un campo de computación que prescinde del enfoque algorítmico tradicional y toma como modelo los sistemas biológicos. Esta nueva forma de computación incluye entre otras:
 
1.      la lógica borrosa
2.      las redes neuronales
3.      razonamiento aproximado
 
y recibe los nombres de computación cognitiva, computación del mundo real o computación sof, para distinguirlo del enfoque algorítmico tradicional o computación hard.
 
En psicología llamamos conexionismo al paradigma que utiliza redes neuronales para comprender y explica la vida psíquica y la conducta. Las redes neuronales son conjunto de unidades interconectadas masivamente capaces de procesar y almacenar información mediante la modificación de sus estados. Aunque con matices, un psicólogo conexionista considera un fenómeno psicológico explicado cuando el modelo neuronal que construye se comporta del mismo modo que cuando los seres humanos realizan esa misma tarea.
 
Los elementos característicos presentes en la mayoría de los modelos conexionistas son:
 
1.      La red es un conjunto de unidades de procesamiento muy simples.
2.      Dichas unidades interactúan mediante conexiones que los asocian.
3.      Los estímulos que afectan a las unidades de entrada se expresan en términos cuantitativos.
4.      Toda unidad de la red viene definida por un nivel de activación expresado de forma cuantitativa.
5.      Toda conexión se caracteriza por un valor de fuerza del trazo o peso de conexión, también expresado de forma cuantitativa.
6.      El procesamiento y almacenamiento de la información se realiza de manera distribuida y paralela.
7.      Existen ciertas reglas o funciones que modifican el nivel de activación a partir de las entradas para la producción de una salida a partir de un nivel de activación.
8.      Existen ciertas reglas o funciones de aprendizaje que permiten a la red modificar los pesos de conexiones para acomodar de modo mas perfecto la información de entrada a la salida requerida.
9.      La función de cada unidad es simplemente realizar cálculos con las entradas que recibe y producir una salida a las unidades con que esta conectada.
10. Las señales de salida se expresan en términos cuantitativos.
11. Toda red neural es un dispositivo que permite computar una función, es decir, transformar una señal de entrada en una señal de salida. La función presente en la red y que realiza el cómputo es básicamente el patrón o conjunto de pesos sinápticos de las unidades.
 
3. IMPLEMENTACION DE LAS REDES NEURONALES.
 
Las redes neuronales suelen implantarse en ordenadores convencionales, es decir, de arquitectura Von Neumann, pero las maquinas mas adecuadas son las que reproducen en su arquitectura la propia arquitectura de la red. Las maquinas mas conocidas son los neurocomputadores y los neurochips.
 
1.      Neurocomputadores.- constan de un conjunto de procesadores conectados entre si que operan concurrentemente. Ejemplos de ellos son el MARK IV y el ANZA Plus
2.      Neurochips.- en este caso las redes neuronales se implementan un uno o varios circuitos integrados específicos. Soportan menos neuronas que los neurocomputadores, pero su velocidad es muy superior, pues las interconexiones entre neuronas se encuentras dentro del propio chip. Un ejemplo de estas es el chip N64 de Intel.
3.      Neurocomputadores de propósito especial.- las maquinas anteriores son de propósito general, pero también hay maquinas para implementar modelos específicos de redes neuronales.
 
4. CAMPOS DE APLICACIÓN DE LAS REDES NEURONALES.
 
La mayoría de los modelos existentes tienen que ver con el reconocimiento de patrones: busca patrones, clasificar patrones, reconstruir patrones... Algunas redes trabajan sobre datos sensoriales mientras que otras sobre datos introducidos por el usuario.
 
Los campos de aplicación se encuentran fundamente en la psicología y en la inteligencia artificial, aunque también encontramos ejemplos en la biología.
 
5. DIFERENCIAS ENTRE EL CONEXIONISMO Y LOS MODELOS COGNITIVOS TRADICIONES.
 
Existen importantes diferencias entre la psicología cognitiva clásica y el conexionismo, ahora examinaremos algunas de ellas.
 
5.1. Inspiración neurofisiológica.
 
La psicología cognitiva no daba importancia a la base orgánica de la vida mental, es mas, desde las tesis funcionalistas (base de la psicología cognitiva clásica) se consideraba que los procesos mentales podían ser comprendidos sin que para ello fuese precisa la realización de los modelos en un sistema físico. El conexionismo por el contra toma el cerebro como modelo de procesamiento, por lo que de esta manera el conexionismo se aproxima a la biología. Se ha pasado pues de la metáfora del ordenador de la psicología cognitiva clásica a la metáfora del cerebro en el conexionismo.
 
Con el conexionismo la inteligencia artificial, la psicología y la biología se convierten en disciplinas cada vez mas cercanas, lo cual es interesante desde el punto de vista de la unidad en las ciencias. El conexionismo no pretende ser una teoría biológica, sino una teoría psicológica inspirada biológicamente.
 
Las unidades básicas del sistema nervioso son las neuronas, estas se conectan entre si formando redes extraordinariamente complejas donde cada neurona toma una señal y sobre ella devuelve o no una señal de salida a la neurona siguiente con que se encuentra conectada. Se produce así un procesamiento paralelo, porque las diferentes neuronas reciben señales de manera simultanea, y distribuido por que el resultado del procesamiento no dependen de la señal emitida por una neurona, sino de un gran conjunto de ellas.
 
En las neuronas cabe destacar las siguientes partes fundamentales:
 
1.      Cuerpo celular o soma.- su función es recibir la señal y determinar si se produce o no una salida o respuesta hacia las demás neuronas de la red.
2.      Axón.- su función es transmitir la señal a las demás neuronas cuando así lo ha determinado el soma.
3.      Dendritas.- es el punto por el cual las neuronas reciben las señales de las demás neuronas.
 
Para que la transmisión de la señal, que es un impulso eléctrico, se de es preciso que el axón y las dendritas de las neuronas se conecten, esta conexión se lleva a cabo mediante la liberación de una sustancia conocida como neurotransmisor. Así podemos encontrar puntos comunes entre el funcionamiento del sistema nervioso y las redes conexionistas:
 
1.      Los neurotransmisores pueden ser excitadores o inhibidores, de tal forma que para conocer la respuesta de una neurona es preciso conocer la suma del total de impulsos recibidos.
2.      Para que la neurona envíe una respuesta a las siguientes es preciso que se supere un determinado umbral de impulso eléctrico, de este modo la respuesta de la neurona es siempre una respuesta de todo o nada.
 
Como hemos visto las redes conexionistas tratan de replicar algunos aspectos muy importantes del sistema nervioso, no obstante no se preocupan por reproducir otros, como por ejemplo:
 
1.      Las redes conexionistas diseñadas hasta ahora constan como mucho de varias centenas de unidades y varios miles de conexiones, mientras que el sistema nervioso consta de aproximadamente 1011 neuronas y 1015 interconexiones.
2.      En las redes conexionistas el peso de las conexiones se establece inicialmente de manera aleatoria y se modifica por aprendizaje por lo que prima el ambientalismo frente a los componentes innatos. Por tanto la estructura y organización del sistema nervioso parece no tener mayor importancia.
3.      En el sistema nervioso el aprendizaje da lugar a modificaciones en la fuerza de conexión entre las neuronas, pero también da lugar al establecimiento de nuevas conexiones. En los modelos conexionistas solo se modifica l fuerza de conexión.
 
5.2. El procesamiento es paralelo, no serial.
 
La inmensa mayoría de los ordenadores que existentes son ordenadores seriales, ordenadores tipo Von Neumann, estos ordenadores se caracterizan por una gran capacidad para dar grandes resultados en periodos muy breves de tiempo con una precisión casi absoluta. No obstante hay tareas, aparentemente sencillas, que puede hacer un niño de 3 años y no puede hacer los ordenadores mas sofisticados y el software mas sofisticado. La diferencia estriba pues en el modo en como procesamos las personas y las maquinas.
 
En un procesamiento serial en cada momento solo se realiza una operación, en un procesamiento en paralelo en cada momento se realizan tantas operaciones como unidades participan en el procesamiento completo.
 
5.3. Procesamiento distribuido.
 
El carácter distribuido de las redes conexionistas hace referencia a dos aspectos muy importantes, el procesamiento en si, y el almacenamiento de la información.
 
En los modelos conexionistas no hay una unidad central de procesamiento como ocurre en los ordenadores tipo Von Neumann, no hay viarias partes cada una de las cuales se encarga de la realización de una serie de funciones concretas y especificas. El resultado del procesamiento corresponde a la totalidad de la unidad de procesamiento, y no a una parte de ella.
 
De la misma manera el almacenamiento de la información no se realiza en un lugar concreto como ocurre en los ordenadores tipo Von Neumann, ni tampoco una unidad concreta almacenada puede dar una pista de que información esta siendo almacenada si no es contemplada toda en su conjunto.
 
Una de las grandes ventajas del procesamiento distribuido es que el daño o perdida de algunas unidades no tiene efectos dramáticos sobre el funcionamiento de la red.
 
Sencillos ejemplos de procesamiento distribuido lo podemos encontrar en:
 
1.      Una calculadora digital donde se representan cada uno de los valores numéricos por la combinación de un máximo de 7 palotes.
2.      Las matrices que nos permiten mostrar como un conjunto de elementos puede procesar distintos conjuntos de datos para producir cada uno la salida correspondiente.
 
5.4. Computación sin reglas.
 
En la psicología cognitiva clásica la computación se realiza siguiendo una serie de reglas en la manipulación de símbolos, símbolos estos que poseen un significado. En los modelos conexionistas la computación no es otra cosa que el cálculo de señales de salida en función de la señal de entrada, solo hay tres elementos, entrada, cálculo y salida, todos ellos expresados en términos cuantitativos. Este método de procesamiento puede parecer guiado por reglas, pero no lo es ya que el computo es puramente cuantitativo. En el conexionismo el aprendizaje se define como la modificación de los pesos de conexiones para la transformación de los vectores de entrada en vectores de salida. Mediante funciones adecuadas de aprendizaje las redes pueden modificar sus pesos de modo que los vectores de entrada produzcan un vector de salida con un resultado estadísticamente aceptable.
 
El reconocimiento de patrones parece ser una de las tareas a las que mejor se adaptan las redes conexionistas. En estos casos lo que ocurre es que la red llega a reconocer varios patrones de entrada que tienen elementos comunes pero no son idénticos con un mismo patrón de salida. De esta manera las rede neuronales pueden ser caracterizadas como sistemas dinámicos autoadaptativos:
 
1.      Autoadaptativos por que ellas mismas sin que exista una unidad rectora pueden ajustar sus unidades de procesamiento de modo conveniente para producir un vector de salida requerido.
2.      Dinámicos por que pueden cambiar constantemente para adaptarse a las nuevas condiciones que imponen los nuevos conjuntos de datos o vectores de entrada que se le presentan.
 
El aprendizaje es en estos modelos la modificación de los pesos o fuerzas de conexión existentes entre las unidades, no la adquisición de reglas o algoritmos explícitos. Los problemas mas importantes a la hora de diseñar una red se refieren a la obtención de una arquitectura apropiada (número de capas, unidades necesarias, interconexión entre ellas, funciones de activación y transferencia) y un buen algoritmo de aprendizaje que permita a la red discriminar entre distintos estímulos.
 
Una consecuencia de al ausencia de reglas explicitas es que con este sistema de procesamiento reconocemos semejanzas, pero no podemos describir en que consisten dichas semejanzas.
 
5.5. Degradación elegante. Tolerancia a los fallos.
 
En las redes conexionistas cuando se produce un fallo en algunas de sus unidades el efecto no es catastrófico (como ocurría en los modelos seriales), solo afecta en eficacia y precisión en función de la magnitud del daño. Otra característica importante es la relativa a la tolerancia a los fallos, cuando se realiza una búsqueda incompleta o errónea el sistema puede dar una respuesta. Esto se debe a que por su estructura distribuida y paralela las redes conexionistas son redundantes tanto en procesamiento como en almacenamiento de la información.
 
6. BREVE HISTORIA DEL CONEXIONISMO.
 
6.1. Hasta la primera mitad del siglo XX.
 
Las primeras aportaciones destacables provienen del campo de la neurofisiología, donde Luria, Lashley y Hebb se enfrentan a las teorías imperantes sobre el carácter localista del almacenamiento y las funciones cerebrales, proponiendo una concepción distribuida. Sus investigaciones demostraron que la especialización podía darse en grandes regiones del cerebro, pero en absoluto en neuronas singulares. Lashley llego incluso a afirmar la equipotencialidad cerebral, según la cual cualquier parte del cerebro puede desempeñar cualquier función.
 
Una de las aportaciones mas importantes corresponde a Donald Hebb, que defendía la conexión entre la fisiología y la psicología, propuso el carácter distribuido de la información y formulo uno de los primeros procedimientos de aprendizaje según el cual conjuntos de neuronas sincrónicamente activadas tienden a organizarse en conjuntos conectados.
 
Posteriormente, en 1943, el neurofisiólogo Warren McCulloch y el matemático Walter Pitts trataron el cerebro como un organismo computacional y propusieron una un tipo de red neuronal que a diferencia de las actuales funcionaba bajo un enfoque lógico y no uno probabilístico. A este tipo de neuronas elementales las llamaron neuronas formales.
 
6.2. Años 50 y 60.
 
En estos años se emplearon las redes neuronales para dar cuenta de la memoria asociativa y el reconocimiento de patrones.
 
6.2.1. La memoria asociativa.
 
Desde hacia mucho tiempo era ya sabido que cuando dos recuerdos tienen puntos comunes, el recuerdo de una puede llevar al recuerdo del otro.
 
En esta línea Wilfrid Taylor propone una red de tres capas de pesos modificables pero sus neuronas no son biestables (como las de McCulluch-Pitts, o las que manejamos en la actualidad) sino analógicas. El procedimiento de entrenamiento es la regla de Hebb. Estas redes asociativas se les llama hoy memorias asociativas direccionables o accesibles por contenido (ACAMs).
 
6.2.2. El reconocimiento de patrones.
 
En 1956 John Von Neumann mejoro las redes McCulluch-Pitts creando redes confiables, donde los valores no los aportaba una neurona, sino un conjunto de ellas. De esta manera introduce la redundancia en la red para evitar el fallo catastrófico por perdida de unidades. Probó que estas redes podían hacer cálculos aritméticos de manera muy confiable.
 
En 1963 Shamule Winograd y Jack Cowan mejoraron la propuesta de Von Neumann con una propuesta aun mas distribuida. En las redes Winograd-Cowan un bit se representaba mediante varias neuronas, y además cada neurona representaba parcialmente varios bits.
 
Poco después Frank Rosenblatt defiende los métodos probabilísticos mas que los lógicos para la computación en redes neuronales, mejora la regla de aprendizaje de Hebb y presenta una red llamada “perceptrón” que consta de dos capas, la primera sensorial y la segunda motora. Sus unidades eran binarias, como las del tipo McCulluch-Pitts, e inicialmente sus pesos de conexión eran aleatorios. El perceptrón era capaz de reconocer patrones sencillos y generalizar similitudes entre patrones, pero no podía resolver un problema aparentemente sencillo, la disyunción exclusiva, es decir, incapacidad de clasificar clases o patrones no separables linealmente.
 
Marvin Minsky, compañero de Rosenblatt, por un lado hizo aportaciones al conexionismo, y por otro lado también a la psicología cognitiva clásica. Aunque se doctoro con un trabajo que tenía como puntos fuertes:
 
1.      carácter relativamente indiferenciado del cerebro
2.      importancia del aprendizaje en la organización neuronal
3.      construcción de una maquina que reproduzca los aspectos sustanciales de la cognición humana
 
no tardo mucho en abandonar tales postulados dejando de la do el enfoque conexionista defendiendo la idea de que para comprender la mente humana no es preciso el estudio del cerebro atendiendo única y exclusivamente al comportamiento (tesis fundamental de la psicología cognitiva clásica).
 
Selfridge desarrollo el modelo llamado Pandemonium y se caracteriza por que realiza un procesamiento interactivo. Este autor en lugar de hablar de neuronas en su modelo habla de “demonios”.
 
Bernard Widrow y Marcial Hoff desarrollaron una variable del perceptrón y un nuevo procedimiento de aprendizaje llamado regla delta del aprendizaje. Llamaron adaline a su red (neurona lineal adaptativa). La única diferencia con el perceptrón es el procedimiento de aprendizaje o el entrenamiento utilizado. El ADALINE fue la primera red neuronal aplicada a un problema real (como filtro para eliminar ecos en las líneas telefónicas) y se ha usado durante varias décadas.
 
6.2.3. Limitaciones de los perceptrones y adalines elementales.
 
Marvin Minsky y Seymour Papert demostraron que los perceptrones y adalines elementales (los que solo constan de dos capas) eran incapaces de distinguir entre patrones tan sencillos como T y C, o de realizar tareas tan sencillas como la disyunción exclusiva. Probaron que aunque dichas redes podían modificar sus pesos de conexión no podían resolver mas que problemas linealmente separables. Además argumentaron que esta dificultad no se podía superar agregando unidades ocultas, formando así redes multicapa. Esto se demostró falso a partir de 1986 cuando se descubrió la regla delta generalizada y la validez de su uso en redes con capas ocultas, se soluciono así el problema de la disyunción exclusiva presentado por los perceptrones y adalines.
 
Pero mas que la importancia del error de este trabajo de Marvin Minsky y Seymour Papert fue que tras sus criticas las autoridades americanas dirigieron sus fondos a la inteligencia artificial y a la psicología cognitiva clásica con el consiguiente freno para el desarrollo de los modelos conexionistas.
 
6.3. Años 60 y 80.
 
J. A. Anderson en 1977 presento análisis matemáticos de algunas propiedades de las redes neuronales y defendió la relevancia de las representaciones distribuidas en distintos campos de la psicología. Fueron también importantes sus trabajos en memoria asociativa por contenido y nuevos modelos de redes.
 
Stephen Grossberg es uno de los mas destacados investigadores en el ámbito conexionista. Ha desarrollado diversos modelos de redes, del que quizás el mas conocido es la red Avalancha para el reconocimiento del habla y aprendizaje del movimiento de los brazos de un robot propuesta en 1967. Realizó las primeras investigaciones sobre aprendizaje competitivo y subrayo la importancia de los modelos conexionistas en campos como la percepción y la memoria.
 
Hofstadter (1985) defiende la existencia de dos niveles de procesamiento, el que estudia la psicología cognitiva clásica (nivel estructural) y un nivel de procesamiento mas bajo en el que se sitúan los trabajos del conexionismo (nivel microestructural).
 
Es en los años 80 cuando el conexionismo toma auge, y es esta trayectoria es fundamental la obra de G. E. Hinton y la de J. A. Anderson, en la que este último estudia el hardware del sistema nervioso real y propone modelos neuronales sencillos basados en los biológicos y destinados a explicar procesos cognitivos.
 
J. A. Feldman y D. H. Ballard (1982) desarrollaron muchos de los principios computacionales del enfoque que hasta este momento se había llamado Procesamiento Distribuido en Paralelo y usan por primera vez el nombre de conexionismo, criticaron también el enfoque tradicional de la inteligencia artificial pro su poca plausibilidad biológica.
Pero el impulso mas definitivo es sin duda el que tiene como protagonistas a David E. Rumelhart, James. L. McClelland y varios investigadores mas que forman lo que se ha llamado el grupo PDP, y que culmina con la aparición de lo que se ha llamado la “Biblia del conexionismo”, “Procesamiento Distribuido en Paralelo: exploración de la microestructura de la cognición” publicado en 1986. En esta obra se tratan importantes cuestiones, pero destaca la demostración de cómo las redes de mas de dos capas pueden solucionar las objeciones matemáticas propuestas por Minsky y Papert y que limitaron el desarrollo de las redes neuronales.
 
A partir de Procesamiento Distribuido en Paralelo, se incrementa enormemente la investigación en redes neuronales tanto desde la Inteligencia Artificial como desde la psicología. Se convierte así el conexionismo en un movimiento revolucionario en el panorama de la ciencia cognitiva. En este contexto se crean la Sociedad Europea de Redes Neuronales (ENNS) y la Sociedad Internacional de Redes Neuronales (INNS).
 
Entre octubre de 1987 y febrero de 1988 el Instituto Tecnológico de Massachussets (MIT) patrocinado por la Oficina de Tecnología Táctica de la Agencia de Proyectos de Investigación Avanzada del Departamento de Defensa de los Estados Unidos (DARPA/TTO) llevo a cabo una revisión de la investigación y tecnología basada en redes neuronales llevada a cabo hasta ese momento.
 
En España también se ha creado una sociedad para la investigación de redes neuronales que ha organizado varios congresos y seminarios, el que se organizo en la UNED en el curso 87-88 dio lugar a la edición de Introducción al Procesamiento distribuido en Paralelo. El programa europeo ESPRIT diversos proyectos en este campo.
 
7. ELEMENTOS DE LAS ARQUITECTURAS CONEXIONISTAS.
 
En las redes conexionistas es preciso distinguir dos tipos de elementos, los relativos a su estructura y los relativos a los mecanismos de procesamiento:
 
Conceptos y elementos de la arquitectura conexionista
Conceptos y mecanismos básicos para el procesamiento en las redes conexionistas.
Las unidades
La entrada (input) total
La regla de propagación
Las conexiones entre las unidades (las sinapsis)
El estado de activación
La regla o función de activación
El peso sináptico
La salida (output) de las unidades
La función de transferencia
El patrón de conexión
Reglas de aprendizaje
 
7.1. Conceptos y elementos de la estructura conexionista.
 
7.1.1. Las unidades.
 
Los elementos básicos del procesamiento de información en el cerebro son las neuronas, y dado que los modelos conexionistas son de inspiración biológica, a las unidades básicas encargadas del procesamiento se las denomina habitualmente neuronas, aunque también podemos encontrar nombres como: células, unidades, neuronas artificiales, nodos, elementos de procesamiento (PEs) o, simplemente, elementos. La función de las unidades tiene que ver la recepción de información, tratamiento de la información y su envío a otras unidades.
 
Existen tres tipos de unidades:
 
1.      Unidades de entrada.- su función es recibir información del fuentes externas a la propia red.
2.      Unidades ocultas.- aunque no todas las redes poseen estas unidades, si se encuentran en aquellas que tienen un mínimo de sofisticación. Su función es relacionar la información de la unidades de entrada con las unidades de salida, por lo que no tienen ningún tipo de contacto con el ambiente exterior a la red, su función es favorecer cómputos mas eficaces. La cantidad de información que puede procesar una red viene determinada en gran medida por el abanico de entrada (fan-in), que es el número de elementos (unidades de entrada) que excitan o inhiben una unidad dada (de la/s capa/s oculta) y el abanico de salida (fan-out) que es el número de unidades (de la/s capa/s oculta) que afectan a cada unidad de salida. Se llama capa, nivel o estrato al conjunto de neuronas que reciben información de la misma fuente (información externa, otra capa de neuronas) y ofrecen información al mismo destino (al usuario, sistemas motores, a otra capa de neuronas).
3.      Unidades de salida.- envían la información procesada al exterior de la red. Esta información de salida se puede enviar al medio ambiente o bien a la entrada de otras redes.
 
7.1.2. Las conexiones entre las unidades (las sinapsis).
 
Las sinapsis son las conexiones entre neuronas, en la mayor parte de las redes las sinapsis son unidireccionales, sin embargo en algunas redes como las de Hopfield las sinapsis son bidireccionales.
 
Las sinapsis pueden ser de dos tipos:
 
1.      Sinapsis inhibidora.- el impulso transmitido por una neurona inhibidora inhibe la activación de la neurona con la cual está conectada, e inhibirá en función del peso establecido para esa conexión. Las sinapsis inhibidoras se suelen representar por puntos negros.
2.      Sinapsis excitadora.- el impulso transmitido por una neurona excitatoria aumenta la activación de la neurona con la cual está conectada, y aumentará en función del peso establecido para esa conexión. Las sinapsis excitatorias se suelen representar por puntos huecos o vacíos.
 
7.1.3. Peso sináptico o peso de la conexión.
 
El peso sináptico es un de los conceptos mas importantes por varias razones:
 
1.      Los cómputos que hace la red dependen de los pesos de conexión.
2.      Los cálculos que el sistema realiza a partir de la señal de entrada para producir la señal de salida dependen de los pesos.
3.      En cierto modo son el análogo de las representaciones en los modelos tradicionales.
 
Una sinapsis en fuete o tiene gran peso si la información que por ella se aporta contribuye en gran medida a que se produzca un cambio de estado en la neurona receptora, es débil en el caso contrario. Los pesos sinápticos son valores numéricos enteros, fraccionarios, positivos o negativos.
Respecto a la notación, cuando vamos a representar mediante un único vector la totalidad de pesos correspondiente a un conjunto de neuronas usamos la W mayúscula. Cuando nos referimos a una única conexión emplearemos la w minúscula.
 
7.1.4. El patrón de conexión.
 
En los modelos conexionistas el conocimiento que la red alcanza a partir del aprendizaje se representa mediante un patrón de conexión, dicho patrón determinara el modo en que la red procesa las siguientes señales de entrada.
 
En los modelos mas simples la entrada total depende de los valores de entrada y de los pesos que ponderan como se tratara esa entrada en ese momento concreto. Para representar un patrón de conexión se utiliza una matriz de pesos W, donde cada uno de los elementos de la matriz w indica el peso correspondiente a la conexión entre la unidad j y la unidad i. El número correspondiente a w representa la fuerza de la conexión, cuando el valor es cero significa que dicha unidad no esta conectada, y el signo + o – indica si es excitatoria o inhibitoria.
 
7.2.1. Notación utilizada para representar los elementos y mecanismos de las redes conexionistas.
 
La tarea de cada neurona o unidad es recibir las entradas de sus vecinas y calcular un valor de salida que es transmitido a las neuronas que le siguen. Toda la información que la red recibe, almacena transforma y envía se expresa en términos matemáticos, en forma de cantidades y formulas aplicadas a cantidades.
 
La representación interna de la información se genera en las sinapsis o conexiones y en la actividad de las neuronas o unidades, particularmente en las de la capa oculta. Dado que las redes modifican sus estados a través del tiempo, es también importante introducir en la descripción de los estados la referencia al tiempo:
 
1.      A cada neurona (unidad i, ui) le corresponde en cada instante un valor numérico denominado valor o estado de activación.
2.      Cada unidad utiliza una función de salida, “fi”, que calcula la señal de salida (oi) a partir del estado de activación que en ese momento tiene la neurona.
3.      La señal de salida se transmite a otras unidades con las que dicha neurona esta conectada.
4.      Una neurona recibe la señal de todas las neuronas con las que esta conectada, pero teniendo en cuenta:
a.      El peso asociado a cada una de las conexiones, wij.
b.      La intensidad o señal que se transmite por la sinapsis; a la suma de todas las señales ponderadas por el peso de las correspondientes se le llama NETi.
5.      El nuevo estado de activación ai(t+1) de la neurona i se calcula mediante una función de activación “Fa”, teniendo en cuenta la entrada total calculada o NET y su anterior estado de activación ai(t).
 
La notación empleada en las redes neuronales no es unánime:
 
1.      Las unidades o neuronas se representan como “u” o como “n”.
2.      La función de activación se suele presentar por “Fa”, pero también por “F”. Dado que es preciso referirse a las funciones de activación y a la de transferencia pera la primera usaremos “F”, y para la segunda “f”.
3.      La referencia a la activación actual se suele denominar como a(t) y la siguiente como a(t+1), pero también se puede encontrar como referencia a la activación actual a(t-1), y la activación siguiente como a(t).
4.      Para distinguir la parte de la formula que corresponde con el nombre de las unidades de la parte de la formula correspondiente a otros elementos, se emplean varias estrategias:
a.      Subíndice para los nombres y letra normal para el resto.
b.      Letra normal para el nombre de la unidad y negrita para el resto.
5.      Para referirse al peso de cada conexión se emplea tanto la “O” mayúscula como la minúscula “o”. Para el peso global “W” en mayúscula o minúscula, y para la entrada total NET en mayúsculas, minúsculas o comenzando por mayúscula o minúscula.
 
7.2.2. La entrada (input) total. La regla de propagación.
 
Una neurona recibe señales de diferentes neuronas, por lo que es preciso calcular el efecto global que tendrá ese conjunto de señales o input. El input total se denomina NET, y para el caso de la entradas que recibe una neurona i en un tiempo t NETi(t). Llamamos regla de propagación a la formula que nos permite calcular o entrada total o NET. Existen varias formulas de propagación, pero la mas sencilla y habitual es la siguiente:
 
NETi(t+1) = ∑wij * oj(t)
 
donde:
 
1.      NETi – es la suma de todas las señales que llegan a la neurona i.
2.      oj – señales que llegan a la neurona i con un peso de conexión dado.
 
Cuando una señal se recibe por una sinapsis inhibidora el peso wij asociado a dicha sinapsis será negativo, por lo que el resultado del producto será negativo.
 
En ocasiones los pesos de todas las conexiones se pueden presentar mediante una matriz Wij que incluiría todos los pesos de conexiones con la neurona i (wi1, wi2, wi3, ........ wij).
 
También es habitual referirse al conjunto de valores de entrada de una unidad como el vector O(t). Es el vector de valores que produce una neurona y que le es entregado a la neurona siguiente, corresponde al instante anterior a la modificación de la neurona i.
 
7.2.3. El estado de activación.
 
La activación es muy importante puesto que la señal que envía la propia neurona depende de su propio estado de activación. La activación es el grado de excitación de una neurona y cambia en función de cuatro factores:
 
1.      del estado anterior de activación
2.      de las entradas que la neurona recibe
3.      de los pesos de las conexiones por las que recibe las señales
4.      la función de activación que calcula el punto de activación en función de las entradas recibidas.
 
Se llama ciclo a cada una de las veces que la red toma vectores de entrada para realizar los cómputos correspondientes para calcular una salida. Dado que cada ciclo de activación puede ser distinto, es muy importante la referencia temporal. Así nos referiremos al nivel de activación de una neurona i en un tiempo t como Ai(t) o también ai(t).
 
Lo que la red representa en cada momento depende del patrón de activación de todas las unidades que forman la red, por lo que también es preciso especificar dicho patrón. Para ello se suele emplear un vector de N números reales a(t) que representa el estado de activación de todas las unidades de la red en un momento t.
 
De este modo cabe caracterizar el procesamiento que realiza la red como la evolución que sufren en el tiempo los patrones de activación de las unidades.
 
Hay muchos modelos de redes conexionistas, y los valores de activación que pueden tomar las unidades pueden ser diversos. Los mas empleados son los siguientes:
 
1.      Continuos:
a.      Abiertos.- se llaman también modelos no acotados o modelos sin limite, el valor de activación de una neurona puede ser cualquier número real.
b.      Cerrados.- también son denominados modelos acotados o modelos con limites, pueden tomar cualquier número real comprendido dentro de unos limites, generalmente siguen una función sigmoidal.
2.      Discretos: se corresponden con los modelos mas sencillos.
a.      Binarios.- son los mas frecuentes y representan los dos posibles estados de una neurona, activada y desactivada.
b.      Valores discretos no binarios.- valores que se encuentran dentro de un pequeño conjunto, por ejemplo: [-1, 0, +1]
 
El comportamiento de las redes con distintos tipos de valores de activación son también distintos. Si las entradas responden a señales analógicas los modelos mas adecuados son los continuos, pero si la entrada es digital, los mas adecuados son los discretos.
 
7.2.4. La regla de activación.
 
7.2.4.1. Concepto y formula general.
 
El estado de activación dependen de la función de activación, que no es otra cosa que una función matemática empleada para calcular el siguiente estado de activación, dicha función calcula la nueva actividad de la unidad a partir de:
 
1.      El anterior estado de activación (aunque esta cantidad no siempre se tiene en cuenta).
2.      Todas las entradas que recibe de otras unidades.
3.      Los pesos de las conexiones de las unidades de entrada.
 
7.2.4.2. Tipos de funciones de activación.
 
  1. Función de identidad.- es una función que no tiene en cuenta el anterior estado de activación de la unidad. En algunas redes se incluye en este tipo de función de activación un factor que representa una fracción de valor de activación anterior con el objetivo de que el estado de la neurona o unidad no varíe demasiado bruscamente.
  2. Función de activación tipo umbral.- se emplea en redes cuyas neuronas solo pueden tener dos estados, cuando se supera un determinado nivel, marcado por el diseñador de la red, se pasa de un estado al otro.
 
7.2.5. La salida de las unidades. La función de transferencia.
 
7.2.5.1. Concepto y formula general de la función de transferencia.
 
El grado en el que una neurona afecta a las siguientes con las que esta conectada depende de dos factores:
 
1.      Su grado de activación.
2.      La función matemática que modula el estado de activación provocando la señal de salida, función que suele ser la misma para todas las unidades de la red.
 
Por tanto unidades el mismo grado de activación pero distinta función de salida producirán distintas señales, a dicha función se le llama función de transferencia.
 
7.2.5.2. Tipos de función de salida o de transferencia.
 
Existen varios tipos de funciones de transferencia. La función de escalón o umbral solo se utiliza en redes binarias. La salida se activa solo cuando el estado de activación es igual o superior a un cierto umbral. Las funciones mixta y sigmoidal son las mas apropiadas cuando trabajamos con información analógica.
 
Función de identidad o función lineal.
 
Es la mas sencilla y de menos uso. Se llama función de identidad por que la salida es igual a su estado de activación, o lo que es lo mismo, equivale a no aplicar una función de salida. Esta función es adecuada cuando la función de activación que hemos empleado es de tipo umbral.
 
Función de umbral o función de escalón.
 
La unidad envía señales de salida solo cuando su activación es igual o mayor a un cierto umbral. La respuesta de salida será binaria.
 
Función mixta.
 
En esta función si la activación esta por debajo del limite inferior de un intervalo da una salida, si esta por encima del limite superior del intervalo da otra salida, y si se encuentra dentro del intervalo da una función lineal de la activación.
 
Funciones de saturación.
 
Son las funciones en las que los incrementos o disminuciones de la intensidad de la actividad de al unidad producen incrementos o disminuciones de los valores de salida hasta llegar a unos limites de salida máxima o mínima a partir de los cuales la salida se estabiliza y es la misma a pesar del incrementos o disminución de la intensidad de actividad de la unidad.
 
Hay varias funciones de saturación siendo la mas usada la función sigmoide.
 
Función sigmoide.- es una de las funciones de transferencia mas utilizadas, produce salidas continuas y proporcionales al nivel de activación dentro del rango 0-1.
 
Función tangencial hiperbólica.- es similar a la función sigmoide, pero su rango de saturación es –1 para el valor mínimo y 1 para el valor máximo.
 
Atendiendo a los tipos de funciones que intervienen en el cómputo, las neuronas se pueden clasificar en lineales y no lineales.
 
Neuronas lineales.- tienen funciones de activación y transferencia lineales o proporcionales, por lo que la composición de ambas da lugar a otra función lineal. La respuesta de las neuronas lineales no esta acotada, es decir, puede tomar cualquier valor.
Los cómputos que realizan las neuronas lineales de mas de dos capas pueden ser realizados con neuronas no lineales de dos capas, por lo que es superfluo construir redes de mas de dos capas si las funciones utilizadas son siempre lineales.
Las primeras redes eran de este tipo y presentaban dos grandes problemas:
1.      Falta de persistencia en las respuestas: todo cambio en la entrada produce un cambio en la salida, y esto puede dar lugar a que cambio muy pequeños en las entradas provoquen grandes fluctuaciones en las salidas.
2.      Falta de adecuación simultanea a señales grandes y pequeñas: si las funciones utilizadas amplifican mucho las señales de entrada, entonces las señales de salida provocadas por señales de entrada muy débiles provocaran respuesta, y si las de entrada tiene un nivel medio, la salida será muy elevada. Lo contrario ocurrirá cuando las funciones utilizadas amplifiquen poco la señales de entrada.
 
Neuronas no lineales.- la respuesta de estas neuronas no es una función lineal de sus entradas, ya sea por que la función de activación o de transferencia no son lineales ninguna de ellas, o bien por que alguna de ellas no es lineal. Son funciones no lineales: umbral, sigmoide o hiperbólica tangente. Estas neuronas son mas interesantes que las anteriores ya que producen respuestas acotadas y con ello resuelven gran parte de los problemas anteriores. Con estas funciones se consigue que una neurona no produzca cambios significativos cuando las nuevas señales no son muy diferentes de las actuales.
 
7.2.6. Reglas de aprendizaje.
 
7.2.6.1. Conceptos y modelos de aprendizaje.
 
En rede neuronales se dice que la red aprende cuando es capaz de ofrecer un determinado patrón o vector de salida para un valor de entrada concreto. Esta capacidad de emparejar vectores se consigue mediante la modificaron de los patrones de conexión, que se llevan a cabo por al menos tres procedimientos:
 
1.      Desarrollo de nuevas conexiones
2.      Perdida de conexiones existentes
3.      Modificación de la fuerza de las conexiones existentes
 
Aunque los aspectos 1 y 2 no han sido explícitamente tratados en el marcos de las des conexionistas, se puede considerar que son un caso particular del punto 3, ya que el desarrollo de nuevas conexiones puede considerarse como un aumento en la fuerza de conexión, y la perdida de conexiones, como un caso de reducción de la fuerza de conexión. Así pues, el aprendizaje en redes conexionistas consiste en la modificación de la intensidad de las conexiones. Las reglas de aprendizaje son procedimientos para cambiar el patrón de conexión.
 
En la vida de una red se pueden distinguir dos fases, la fase de aprendizaje, en la que la red es entrenada, y la fase de ejecución, cuando la red ya ha aprendido a dar el patrón de salida para el que ha sido diseñada, y sus pesos no volverán a ser modificados.
 
Existen varios modelos de aprendizaje, de los que los principales son:
 
1.      Aprendizaje supervisado.- en este modelo existe un agente externo que es quien controla el proceso de aprendizaje de la red. La red debe relacionar dos fenómenos X e Y mediante la presentación de un conjunto de ejemplos (X1Y1, X2Y2, X3Y3....XnYn). Se llama “juego de ensayo” al conjunto formado por las parejas anteriores. Es muy importante tener presente los elementos que componen el juego de ensayo, es preciso incluir en el los patrones mas representativos del problema que tratamos de computar. Así pues cuando se introduce un patrón de entrada, la red produce una salida oi, que normalmente no coincide con la requerida, y es aquí donde entra la supervisión, cuando el maestro calcula el error de salida y procede a la modificación de la regla de aprendizaje modificando los pesos. A cada uno de los pasos complejos del juego de ensayo se le llama ciclo, y dependiendo de la complejidad del problema serán muchos o pocos los ciclos precisos para que la red aprenda. Aunque el ideal es el 100% de aciertos, lo mas común es aceptar un resultado cuando los errores han sido razonablemente minimizados.
2.      Aprendizaje no supervisado.- en este tipo de aprendizaje no existe un agente externo que vaya modificando los pesos de conexión en función de la salida, puesto que no se ha especificado cual será la salida correcta. En este aprendizaje se busca que la red se autoorganice y encuentre ella misma las regularidades, correlaciones, categorías, etc de los datos de entrada. En este tipo de aprendizaje es preciso presentar un mayor número de patrones de entrada y utilizar reglas de aprendizaje distintas a las del caso anterior. Las arquitecturas de estas redes suelen ser distintas, destacando entre estas las de Kohonen y Grossberg. Este tipo de aprendizaje tiene mucha importancia en los sistemas biológicos.
3.      Aprendizaje reforzado.- es en cierta medida una variable del aprendizaje supervisado, pues también utiliza un supervisor que examina las salidas del sistema, sin embargo en este, no existen salidas deseadas o precisas, por lo que no se puede computar el error para cada unidad de salida. En este caso no tenemos un maestro, es mas bien un supervisor, que valora el comportamiento global de la red mediante un criterio y en función de el modifica los pesos mediante un mecanismo de probabilidades. En el aprendizaje reforzado l os algoritmos son mas complejos que en el supervisado y el tamaño de las muestras es superior.
 
7.2.6.2. Regla de Hebb (o regla del producto).
 
La regla de Hebb se expresa de la siguiente forma: cuando dos neuronas tienden a estar activas o inactivas de manera simultanea, la fuerza o intensidad de sus conexiones aumenta, o disminuye en caso contrario. Esta regla que originalmente no se expreso en términos matemáticos, se ha expresado matemáticamente de varias formas.
 
La regla de Hebb es de aprendizaje no supervisado, pues no existe ninguna información externa que nos indique sobre si los resultados de las red son o no erróneos. La regla de Heb hace que las unidades se influyan unas a otras y se configuran a partir de las reacciones a los estímulos percibidos.
 
7.2.6.3. Regla de Windrow-Hoff o regla delta o regla del menor error cuadrático.
 
Esta red fue utilizada por primera vez en 1960 por Windrow y Hoff para la red ADALINE. Se trata de una regla de aprendizaje supervisado y consiste en modificar los pesos de conexiones a partir del cálculo de la diferencia (o delta) entre las salidas de la red y las salidas deseadas.
 
Esta regla consiste en la presentación por parte del maestro de un vector o patrón de entrada, si la red produce el patrón de salida deseado no se realiza cambio alguno, pero si existe discrepancia los pesos se cambian para reducir la diferencia. La modificación de los pesos que se realiza se lleva a cabo en las neuronas o unidades que contribuyen a la diferencia, y se modifican en proporción a su influencia en el error. Así minimizamos el error o incluso podemos llevarlo a cero.
 
7.2.6.4. La regla delta Generalizada (o regla de propagación hacia atrás).
 
La regla delta no se puede utilizar en redes con mas de dos capas, pues no seria posible conocer en que medida las capas ocultas contribuyen al error total. Dado que hay muchos problemas que no pueden resolver las redes de dos capas y si las multicapa, la regla delta generalizada es una modificación de la regla delta para redes multicapa. Se atribuye su desarrollo a David E. Rumelhart, Goffrey Hinton y Robert J. Williams.
 
Esta regla trabaja con el modelo de aprendizaje supervisado y su aplicación es valida solo en redes alimentadas hacia delante, y al igual que la regla delta, compara la respuesta emitida por la red con la respuesta deseada y reajusta los pesos sinápticos de todas las sinapsis de forma proporcional a la diferencia encontrada. La diferencia fundamental con la regla delta, es que en la regla delta generalizada el cálculo se hace capa a capa, desde la capa de salida a la de entrada (de ahí que se llame retropropagación del error, o mejor, de la corrección del error).
 
La regla delta presenta dificultades características, por ejemplo, que se caiga en un mínimo local, es decir, en la minimización del error la red puede llegar a que cualquier pequeño cambio en los pesos hacia uno u otro lado incremente el error, en esta situación la regla no es capaz de determinar en que dirección se tiene que mover para que con un incremento mayor el error vuelva a decrecer.
 
La regla delta generalizada es una de las mas empleadas en redes multicapa alimentadas hacia delante y supuso un impulso importante para el conexionismo por que consiguió superar las dificultades matemáticas descubiertas por Minsky y Papert que tanto frenaron la investigación en redes neurales. Con este algoritmo podemos resolver el problema de la disyunción exclusiva y el de la distinción entre T y C, que como hemos visto, eran un ejemplo de las limitaciones del perceptrón.
 
8. ALGUNOS MODELOS DE REDES NEURONALES.
 
8.1. Redes de McCulloch-Pitts o redes de neuronas formales.
 
McCulloch y Pitts en su trabajo de 1943 consideraron que las neuronas y su actividad podía estudiarse mediante la lógica proposicional. Consideraron las neuronas como de comportamiento biestatico, similares a los conmutadores eléctricos (abierto-cerrado). Junto con la idea relativa al comportamiento supuestamente lógico de las neuronas propusieron construir maquinas de computar con arquitectura similar a las neuronas. Consideraron que las leyes que gobiernan la mente tienen mas que ver con las leyes que gobiernan la información que con las leyes que gobiernan la materia. Dieron mas importancia al aprendizaje que a los factores innatos. Consideraron que nuestro cerebro comienza con redes aleatorias, y que la estimulación configura esas redes de una determinada manera. Tratan pues el cerebro como un organismo computacional.
 
Demostraron como redes neurales sencillas con valor de umbral para la activación eran capaces de representar las leyes lógicas fundamentales. Llamaron neuronas formales a las neuronas que componen estas redes. Aunque trataron de modelar los aspectos elementales de las neuronas biológicas, las neuronas formales no eran mas que conmutadores lógicos, similares a los circuitos lógicos creados mediante simples interruptores.
 
La neurona toma como valores 0 y 1 para cuando esta desactiva y activada respectivamente, por lo que su función de activación es de tipo umbral, la salida es 0 y 1 para cuando esta desactivada y activada respectivamente, por lo que su función de transferencia es de identidad. Las sinapsis, excitatorias o inhibitorias producen 1 y 0 respectivamente, independientemente del número de señales de excitación o inhibición que reciban. Esta es una de las diferencias fundamentales respecto a las que se usan actualmente.
 
8.2. Perceptrones.
 
Frank Rosenblatt rechazo el uso que McCulloch y Pitts hicieron de la lógica simbólica aplicada a redes y defendió los métodos probabilísticos, y llamó perceptrones a unas redes tipo McCulloch-Pitts capaces de modificar sus pesos de conexiones si las respuestas de la red no eran correctas y demostró que tales redes se podían entrenar para clasificar ciertos patrones sencillos en iguales o distintos.
 
El mecanismo de procesamiento del perceptrón es el siguiente:
 
1.      El patrón a reconocer incide en la capa sensorial, y cada una de las unidades sensoriales responde con una señal digital (todo o nada).
2.      Dichas señales se transmiten a las unidades de asociación, que se activan si las sumas de sus entradas superan un determinado umbral.
3.      Cuando la unidad de la capa asociativa se activa provoca una señal de salida, que va hasta las unidades de la capa de salida.
 
En esta red sy función de activación es de tipo umbral, produciendo actividad con valores 0 y 1, y su función de transferencia es la función de identidad.
 
Se puede pensar que el perceptrón es una red multicapa, pero en realidad es de solo dos capas. Esto es así por que las conexiones entre las unidades sensitivas y de asociación son fijas, no se modifican mediante el aprendizaje, por tanto las capas sensorial y de asociación en términos de computación pueden ser consideradas unas sola capa.
 
El perceptrón era una red capaz de aprender. En su configuración original a los pesos de conexiones se les asignaba un valor arbitrario, por lo que ante la presencia de estimulación la red daba también patrones arbitrarios. Para conseguir el aprendizaje deseado se opera de la siguiente manera:
 
1.      Si el patrón de entrada provoca una respuesta correcta no se hace ningún ajuste.
2.      Si el patrón de entrada provoca una respuesta errónea se procede del siguiente modo:
a.      Si la unidad debía estar activada y no lo esta, se aumentan los pesos de todas las conexiones.
b.      Si la unidad debía esta desactivada un no lo esta se disminuyen los pesos de todas las conexiones.
 
En 1969 Minsky y Papert analizaron el modelo del perceptrón y concluyeron que este solo podía dar solución a problemas linealmente separables, y dado que hay muchos problemas que no son linealmente separables concluyeron que dicho modelo era poco adecuado como clasificador de patrones. También ampliaron su crítica afirmando que este problema tampoco lo podían resolver redes multicapa, cuestión que posteriormente se demostró falsa.
 
Decimos que un patrón es linealmente separable cuando el espacio de todas las entradas puede dividirse en dos regiones, quedando en uno de los lados del hiperplano las correspondientes a una categoría y en el otro lado las correspondientes a la otra categoría.
 
Se llaman hiperespacios a los espacios n-dimensionales, e hiperplanos a los objetos de n-1 dimensiones que dividen un hiperespacio de n dimensiones en varias regiones. En un espacio bidimensional, el hiperplano es una línea recta que descompone el espacio en dos regiones. En el caso del espacio tridimensional, el hiperespacio es un plano y puede dividir el espacio en tres regiones. En la resolución de problemas es útil la referencia a los hiperplanos ya que permiten separar regiones de puntos de un hiperespacio en categorías individuales o clases.
 
Análisis pormenorizado de la separabilidad lineal en pag 62 y sucesivas.
 
8.3. EL PANDEMONIUM: UN MODELO PARA EL RECONOCIMIENTO DE PATRONES.
 
8.3.1. La tarea de reconocimiento de patrones: dos explicaciones, el modelo de plantillas y el modelo de análisis de características.
 
Una de las características del procesamiento visual humano es su flexibilidad. Podemos denominar reconocimiento de patrones al hecho de identificar distintos estímulos como pertenecientes a la misma clase. Los sicólogos han presentado diversas teorías para explicar como esto se lleva a cabo.
 
Una de las teorías mas sencillas es la comparación de plantillas, según esta teoría en nuestra mente hay una representación o plantilla que se corresponde con cada forma conocida, por lo que se hace una compararon entre el objeto observado y la plantilla almacenada en la memoria.
 
Otra teoría es el análisis de características que defiende que nuestra mente no trabaja con copias exactas, sino con el análisis de las características internas de cada patrón, cada patrón se representa mediante una lista de características. El patrón estimular activa los detectores de características y la activación resultante es comparada con los patrones almacenados en la memoria.
 
8.3.2. El Pandemonium: rasgos principales.
 
El pandemonium fue propuesto por Selfridge en 1959 y es uno de los primeros y mas conocidos modelos de reconocimiento de patrones basado en el análisis de características. Originalmente se concibió como un sistema para reconocer señales del código Morse, pero después se el dio una interpretación psicológica como modelo de reconocimiento alfanumérico.
 
El pandemonium consiste en varios conjuntos de unidades a las que Selfridge llamo “demonios” que realizan diferentes tareas. Los tipos de demonios son los siguientes:
 
1.      Demonios de imagen.- registran la imagen del símbolo externo.
2.      Demonios de características.- analizan la imagen registrada, detecta las líneas verticales, horizontales, las curvas, etc.
3.      Demonios cognitivos.- reciben y examinan la información de los demonios de características, cada demonio esta especializado en un tipo de forma, por ejemplo, la “A”, la “B”, “4”, etc., y busca entre los datos que le ofrecen los demonios de características las características que los definen.
4.      Demonios de decisión.- cuando un demonio cognitivo encuentra la característica buscada grita, y cuantas mas descubre mas grita, así el demonio de decisión lo que hace es escuchar a los demonios cognitivos, seleccionar el mas fuerte y emitir la respuesta correspondiente.
 
Una cuestión muy importante para un diseñador de pandemonium es determinar las características de cada patrón, a esta cuestión han tratado de dar respuestas autores como Gibson y Linsay y Norman.
 
A fin de cuentas un modelo de análisis de características es similar a un modelo de comparación e plantillas, la diferencia entre ambos estriba en que en uno lo que se compara es el elemento perceptual al completo, mientras que en el otro lo que se compara son las características definitorias que lo hacen posible. Mediante el análisis de características podemos explicar aspectos como los explicados por la comparación de plantillas, pero también otros.
 
8.3.3. El Pandemonium: base experimental.
 
La teoría del análisis de características goza de mayor apoyo experimental que la teoría de plantillas. Aunque su base es amplia, también tiene sus dificultades.
 
8.3.4. El Pandemonium: dificultades.
 
La teoría del análisis de características y el Pandemonium en particular no pueden distinguir patrones como un “T” y una “T” invertida, tampoco puede distinguir ente algunas letras y esa misma vista en el espejo. El problema es que el Pandemonium se fija en los elementos constituyentes, pero no en sus relaciones estructurales. Otra de las dificultades de estos modelos es que no se recoge información contextual. En cuento a la realización del Pandemonium, resulta relevante mencionar que el Pandemonium interpreta lo que nosotros antes hemos interpretado en el momento de su programación, no interpreta el estímulo mismo. Por otro lado el Pandemonium tiene serios problemas para funcionar correctamente en situaciones de la vida real, es decir, carece de validez ecológica.
 
8.3.5. El Pandemonium y el conexionismo.
 
Este modelo de identificación de patrones se puede incluir dentro del conexionismo, pues presenta algunos de sus rasgos principales:
 
1.      Existen muchas unidades de procesamiento.
2.      La información se almacena en un conjunto amplio de demonios, y cada letra es el resultado de la activación de un conjunto de demonios.
3.      Los demonios actúan de manera simultánea.
4.      Las unidades están conectadas entre si formando diversos niveles o capas.
5.      La entrada y salida están conectadas entre si formando niveles o capas.
6.      El computo que se realiza es cuantitativo y probabilístico. Los demonios de características envían información cuantitativa a los demonios cognitivos y estos a su vez a los demonios de decisión, gritando mucho, poco o nada.
 
Pero entre el Pandemonium y el conexionismo también hay diferencias:
 
1.      El modo de representación.
2.      En el Pandemonium solo hay conexiones excitatorias.
3.      Las redes conexionistas el grado de distribución de la información es mayor, sus unidades no tienen de manera independiente un significado consideradas de manera aislada. En el Pandemonium, si hay información significativa al nivel de los demonios de características, donde la información se representa de manera localista, y no distribuida. Aunque también hay otras redes como la NETtalk que incluye representaciones locales.
4.      El Pandemonium no explica con precisión como se producen los modificaciones cuantitativas en los demonios ni la magnitud de señal que envía a los demonios cognitivos.
5.      No aparecen conceptos típicos de las redes conexionistas, como umbral, función de activación, función de transferencia....
6.      El Pandemonium carece de capacidad de aprendizaje, aunque puede reconocer patrones no puede modificar el estado de sus unidades como ocurre en las redes conexionistas. Por tanto, el Pandemonium depende enteramente de la programación que haya hecho el diseñador para el reconocimiento de caracteres.
 
Sin embargo estas diferencias no son significativas, pues unas son de índole estético, y la mayoría se deben a la falta de concreción de este modelo. Es decir, al tratar de simular este modelo en un ordenador es preciso concretar con precisión todos los valores cuantitativos que son ignorados en el modelo, a la vez que hay que definir las funciones matemáticas que los hacen posibles. Con estos cambios, que no modifican el modelo, sino que le asigna valores a los diferentes parámetros, el Pandemonium tendría el aroma de los modelos conexionistas tradicionales.
 
El punto en el que las diferencias entre el Pandemonium y las redes conexionistas se separan es en el referido al aprendizaje. El pandemonium no tiene capacidad de aprender por si mismo, al contrario de lo que ocurre con las redes conexionistas. El pandemonium requiere reglas para realizar el procesamiento. Las reglas se pueden enternder de dos formas:
 
1.      Las reglas son precisas para diseñar una arquitectura del procesador, son un modo de fijar como funciona una red especificando el modo en el que las unidades de la red se comportan, es decir, es preciso delimitar los niveles de umbral, la función de activación, la función de transferencia, etc. Las reglas así concebidas es la manera de especificar la estructura “material” que tiene de comportarse la red. Concebidas así las reglas, existen reglas tanto en el Pandemonium como en cualquiera de los modelos conexionistas.
2.      Por otra lado las reglas se pueden referir a como se realiza el procesamiento, en este sentido decir que no existen reglas es lo mismo que decir que no hay una regla escrita que permita diferenciar los caracteres que están compuestos por solo líneas rectas, o por líneas rectas y curvas. En el conexionismo donde no existen reglas es en el procesamiento en si, no en la estructura que permite dicho procesamiento. En el Pandemonium el programador tiene que definir cuales son los criterios para diferenciar unas letras de otras, mientras que en el conexionismo es la red la que aprende a diferenciar unas letras de otras.
 
8.4. NETtalk: APRENDER A LEER EN INGLÉS.
 
Terrence Sejnowsky y Charles Rosenberg presentaron en 1986 la red NETtalk, cuya finalidad era leer y hablar textos en ingles.
 
La NETtalk tiene tres capas interconectados por cerca de 20.000 sinapsis, y esta constituida de la siguiente manera:
 
1.      La capa de entrada esta formada por 203 unidades distribuidas en 7 grupos de 29 unidades cada uno.
2.      La capa oculta consta de 80 unidades.
3.      La capa de salida la forman 26 unidades.
 
De las 29 neuronas de cada grupo de la capa de entrada, 26 codifican cada una de las letras del alfabeto ingles y las otras tres se encargan de la puntuación y los limites entre palabras. Dado que solo hay siete grupos, la red no puede reconocer mas que siete caracteres como máximo de manera simultanea. Las unidades de salida o motoras codifican las dimensiones fundamentales del habla, fonemas, acentos hiatos, etc.
 
La red transforma los datos de entrada (las letras) en fonemas o sonidos. Dado que los pesos originales se establecieron al azar, en principio los resultados no eran buenos. Se realizo un entrenamiento que consistía en unas 50.000 presentaciones de 1000 palabras del habla corriente de un niño; un supervisor controlaba la corrección de respuesta de la red y modificaba los pesos mediante la regla delta generalizada (entrenamiento con propagación hacia atrás). Tras este entrenamiento lo maquina conseguía hablar con una exactitud del 95%.
 
Resultan sorprendentes algunas semejanzas entre la NETtalk y la capacidad lingüística humana:
 
1.      Aumento de la eficacia: las primeras respuesta parecen los balbuceos de un bebe, que van mejorando con el entrenamiento hasta llegar a textos inteligibles.
2.      Capacidad de generalización: al presentarle nuevas palabras el sistema es capaz de leer y pronunciar con una exactitud del 78%.
3.      Degradación elegante: la destrucción de algunos elementos de la red no tiene consecuencias catastróficas en el rendimiento total, simplemente disminuye le rendimiento.
 
Las propiedades citadas son las que cabria esperar de un sistema de procesamiento distribuido y paralelo, y sin duda resulta mas eficaz para modelar la capacidad humana de detección de patrones que los modelos de plantillas y de análisis de características.
 
9. REDES NEURONALES PARA EXPLICAR EL CONEXIONISMO.
 
Cuando nos adentramos en los postulados y tesis del conexionismo cabe preguntarse que es lo que esta teoría pretende explicar, la mente o el cerebro. La respuesta habitual es que las redes conexionistas se han diseñado para tratar de dar respuestas a los asuntos relacionados con la mente, mientras que las redes creadas en la neurociencia tratan de dar cuenta de los procesos puramente cerebrales.
 
Con el término psicobiología nos referimos al enfoque que intenta dar respuesta al mundo de la mente y de la conducta a partir de elementos, estructuras y procesos biológicos. Una parte importante de esta disciplina es como las sustancias químicas, sean endógenas o exógenas, influyen en la conducta. Pero también parece claro que la arquitectura y procesos del sistema nervioso (psiconeurología) también influyen en la conducta, y que por tanto también deberían formar parte de la psicobiología. En el momento actual disponemos de explicaciones biológicas para explicar multitud de fenómenos psicológicos.
 
Aunque merecería un análisis muy cuidadoso, parece que el conexionismo tiene como destino explicar una parte de la psicobiología, antes de lo que tradicionalmente entendemos por biología.
 
El conexionismo oscila entre las siguientes posiciones:
 
1.      La inteligencia artificial.- las redes que se construyen no intentan emular el funcionamiento del cerebro, solamente imitar competencias típicamente humanas para implementarlas en sistemas no biológicos como ordenadores y robots.
2.      La biología.- si se construyen redes que quieren ser files a los mecanismos y estructuras del sistema nervioso y se las utiliza para dar cuenta de competencias tradicionalmente atribuidas a la mente (lenguaje, percepción, memoria...) este enfoque no es psicología, sino psiconeurología y sus descubrimientos pueden tener relevancia para la Inteligencia Artificial.
 
El conexionismo parece ser una teoría que apela al cerebro para explicar competencias atribuidas tradicionalmente a la mente. Con este se quiere sugerir que desde el conexionismo se defiende la tesis de que lo mental no tiene estatuto propio, la vida mental no posee ningún tipo de regularidades que puedan dar lugar a una disciplina independiente de la biología. En esta línea se incluyen las tesis de dos de los representantes mas destacados en la reflexión teórica sobre los valores y limites del conexionismo, los Churchland.
 
Por otro lado, la idea de que es necesario comprender el funcionamiento de las estructuras nerviosas para dar cuenta de los procesos mentales, se encuentra en los orígenes mismos del conexionismo y ha dado lugar a hipótesis que cierto apoyo experimental, así tenemos:
 
1.      La regla de aprendizaje descubierta por Hebb quería descubrir el modo real en que se relacionan las neuronas en el cerebro para formar asociaciones estables entre ellas.
2.      McCulloch y Pitts defendieron que las redes neuronales de los córtices auditivo y visual eran capaces de reconocer propiedades invariantes de un mismo patrón, que las redes neuronales del colículo superior (involucradas en el control del movimiento de los ojos) podían generar el patrón a partir de ejemplos de dicho patrón.
3.      Taylor propuso las redes que llevan su nombre para explicar la memoria asociativa y afirmo que áreas de la corteza cerebral y el tálamo contenían esas redes.
4.      En ese mismo contexto se sitúan las teorías del cerebelo, del hipocampo, y del neocortex defendidas por Marr:
a.      El funcionamiento del cerebelo es semejante a las redes asociativas direccionales por contenido (ACAMs) y gracias a dicho funcionamiento los animales pueden realizar movimientos delicados y precisos.
b.      El hipocampo es el soporte físico de la memoria a corto plazo o memoria de trabajo y puede clasificar patrones y recuperar un patrón a partir de datos fragmentarios porque también es un ACAM.
c.      Las representaciones que nos formamos de las clases y subclases se basa en el hecho de que el neocortex tiene una estructura y mecanismo similar al perceptrón.

 


REFERENCIAS

Autor: Antonio Raimínguez Saavedra.

 

COMENTARIOS

Publica tu comentario sobre este artículo

Muy bueno
Publicado por Daniela. Fecha: 18-11-2012 18:03.

Woow, estaba estudiando esta materia en inglés pero es muy difícil de comprender por lo abstracto del tema en otra lengua. Este trabajo me ha servido completamente, muchisimas gracias :)


grax
Publicado por eunice. Fecha: 31-08-2011 05:41.

jeje tu información me sirvió mucho no le entendi del todo creo que solo lo del final y el principio pero de todos modos grax


 

SOBRE LA PUBLICACIÓN

¿El artículo ha sido revisado? NO

Sobre el autor