SciELO - Scientific Electronic Library Online

 
vol.38 número2Congruencia de rol de género y liderazgo: el papel de las atribuiciones causales sobre el éxito e el fracaso índice de autoresíndice de assuntospesquisa de artigos
Home Pagelista alfabética de periódicos  

Revista Latinoamericana de Psicología

versão impressa ISSN 0120-0534

Rev. Latinoam. Psicol. v.38 n.2 Bogotá ago. 2006

 

ARTÍCULOS

 

Modelos matemáticos del condicionamiento clásico: evolución y desafíos actuales

 

Mathematical models of classical conditioning: evolution and current challenges

 

 

Edgar H. VogelI,1; Fabián A. SotoI; Maria E. CastroII; Paula A. SolarII

IUniversidad de Talca, Chile
IIUniversidad del Mar, Chile

 

 


ABSTRACT

From the beginning of the study of classical conditioning, the formulation of mathematical theories has been a major goal of theoreticians. After more than a century of research, the amount of empirical data accumulated is impressive and the theories have become progressively more complex and sophisticated. Nowadays, there is such a diversity of models, each addressing only certain categories of phenomena and using somewhat different formalisms, that a critical analysis seems opportune. This article attempts to provide such an analysis for the Spanish speaking audience.

Keywords: Associative learning, Pavlovian conditioning, Classical conditioning, Neural networks, Connectionism.


RESUMEN

Desde los inicios del estudio del condicionamiento clásico, la formulación de modelos matemáticos ha sido uno de los principales objetivos de los autores. Después de más de un siglo de investigación, la cantidad de información empírica acumulada es impresionante y los modelos teóricos han llegado a ser progresivamente más complejos y sofisticados. Hoy en día es tal la diversidad de modelos, cada uno implementado con distintos formalismos y destinado a explicar diferentes grupos de fenómenos, que una evaluación crítica nos parece oportuna. Este artículo pretende entregar este análisis al público de habla hispana.

Palabras clave: Aprendizaje asociativo, Condicionamiento Pavloviano, Condicionamiento clásico, Redes neuronales, Conexionismo.


 

 

INTRODUCCIÓN

A principios del siglo pasado, se difundieron internacionalmente las observaciones experimentales realizadas en el laboratorio de Iván Pavlov, acerca de un tipo de aprendizaje asociativo en el cual los animales cambian su patrón de respuesta a un estímulo, llamado condicionado, en virtud de su asociación con otro estímulo, llamado incondicionado (Pavlov, 1927). Este tipo de aprendizaje, conocido como condicionamiento clásico o pavloviano, fue inicialmente estudiado en el reflejo salivatorio de perros, pero rápidamente se desarrollaron otros procedimientos que incluían los sistemas de respuesta de una variedad de especies, tales como moluscos, insectos, peces, aves, roedores, conejos, simios y humanos.

Con el fin de dar cuenta de los innumerables hallazgos experimentales obtenidos con el condicionamiento pavloviano, los investigadores comenzaron a elaborar teorías que rápidamente evolucionaron hacia modelos matemáticos. Esta temprana inclinación por la cuantificación obedeció a la necesidad de examinar hipótesis no ambiguas, lo cual era una de las grandes dificultades de la Psicología en el comienzo del siglo pasado. Desde entonces, los modelos de condicionamiento han crecido en complejidad y poder explicativo, siguiendo los avances de otras disciplinas afines tales como la inteligencia artificial y la neurociencia.

Además, la década de los ochenta fue testigo del perfeccionamiento de varios procedimientos experimentales mixtos, tales como el retiro del sifón en la aplysia, el condicionamiento de temor en ratas, y el condicionamiento palpebral en conejos, los cuales permitieron abordar en forma simultánea los aspectos conductuales y neurobiológicos del aprendizaje. Hoy en día, los circuitos neuronales que subyacen a algunas formas de condicionamiento se han descrito con cierto detalle (McCormick & Thompson, 1983) y sus mecanismos celulares están comenzando a ser identificados (Medina et al., 2000). Estos hallazgos significan nuevos desafíos para las teorías, las cuales, además de explicar los fenómenos conductuales, deben cumplir con criterios de plausibilidad biológica.

En los últimos años, con la proliferación del uso de computadores personales que favorecen la realización de gran cantidad de cálculos en poco tiempo, se observa un explosivo crecimiento en el número de modelos cuantitativos de condicionamiento clásico. La mayoría de estos son presentados en la forma de redes neuronales conexionistas, donde los estímulos se representan por nódulos que se influyen unos a otros a través de conexiones plásticas. En el presente artículo, más que revisar un gran número de modelos, hemos optado por clasificarlos en unas pocas categorías, describiendo uno o dos de los modelos más representativos de cada categoría y los fenómenos para los cuales fueron creados.

 

PRIMERA GENERACIÓN: MODELOS DE ENSAYO DISCRETO

El fenómeno de condicionamiento clásico se describe usualmente como el resultado de la presentación conjunta del estímulo condicionado (inicialmente neutral) y el estímulo incondicionado. Cada una de estas presentaciones o "pareamientos" se denomina ensayo, y se asume que el grado de aprendizaje es una función directa del número de éstos. Aquellos modelos que se han preocupado por describir cómo ocurre el aprendizaje a través de los ensayos, se denominan modelos de ensayo discreto, enfatizando con ello que el ensayo es la unidad mínima de aprendizaje, y que, por lo tanto, el aprendizaje se describe exclusivamente en función de la ausencia o presencia de los estímulos en el ensayo como un todo.

En la Figura 1 se presenta una red neuronal que se puede utilizar para describir la mayoría de los modelos de ensayo discreto. Se asume que los eventos del ambiente (estímulos condicionados o EC y estímulo incondicionado o EI), activan sus respectivas unidades sensoriales de procesamiento representadas por círculos. El nivel de activación de las unidades, xi (para el EC) y z (para el EI), es binario, es decir asume el valor de 1 cuando el estímulo está presente y de 0 cuando no lo está. La unidad adaptativa es la encargada de la generación de la respuesta. Las unidades sensoriales influyen a la unidad adaptativa por medio de sus conexiones, las cuales se representan gráficamente como líneas que las conectan. Los valores de vi representan la fuerza asociativa de cada estímulo condicionado (EC), es decir la capacidad de éstos para provocar la respuesta, mientras que el valor de l representa la fuerza de la asociación entre el estímulo incondicionado (EI) y la respuesta. Se asume que el EI tiene una conexión "máxima" o perfecta con la unidad adaptativa, y que la fuerza asociativa de cada EC, vi, es una expresión de la asociación entre el EC y el EI. Esta figura nos servirá como punto de partida para describir las distintas categorías de modelos de condicionamiento pavloviano.

 

 

El operador lineal

La tradición cuantitativa en teoría del aprendizaje se inició simultáneamente bajo la influencia de 2 enfoques teóricos diferentes: Las formulaciones de Clark Hull y Keneth Spence (Hull, 1943; Spence, 1960), y la "teoría estadística del aprendizaje" o "teoría del muestreo de estímulos" (Bush & Mosteller, 1955; Estes, 1950). Pese a que la contribución de ambos enfoques es vasta, en este artículo incluimos solamente un mínimo de detalles, considerados necesarios para comprender los desarrollos teóricos posteriores.

Dejando de lado importantes diferencias entre ambos enfoques, se puede decir que ambos postulan virtualmente el mismo algoritmo para describir cómo se produce el aprendizaje a lo largo de los ensayos. La idea básica, conocida como "operador lineal", señala que las variaciones en la fuerza del hábito (en el caso de las formulaciones de Hull y Spence) o de la probabilidad de la respuesta (en el caso de los modelos estocásticos) son una función de la discrepancia entre un valor máximo o asintótico y el valor asociativo actual del EC. La siguiente ecuación general describe el operador lineal usando la terminología de la red neuronal de la Figura 1:

Δvi=Θ(zλ–xivi) (1)

Donde vi es la fuerza asociativa del ECi, λ la fuerza asociativa máxima proporcionada por el EI, y Θ un parámetro que dicta la tasa de aprendizaje. Este algoritmo de aprendizaje asume que el aprendizaje es un proceso gradual de corrección de errores. Es decir, en cada ensayo el animal aprende una fracción de lo que le queda por aprender, reduciendo progresivamente el error hasta llegar a una asíntota. Este fenómeno se ha observado prácticamente en todas las situaciones de aprendizaje y se describe como la forma negativamente acelerada de la función que relaciona el nivel de respuesta (intensidad o frecuencia) con el número de ensayos.

Otro aspecto distintivo de la Ecuación 1 es que todos los ECs que se presenten simultáneamente pareados con EI, aumentarán en su fuerza asociativa, independientemente del valor asociativo de los otros estímulos presentes en el ensayo. Esto es un ejemplo de lo que se ha denominado "hipótesis de la continuidad" (Spence, 1945), la cual sostiene que la asociación entre el EC y el EI depende exclusivamente de parámetros relacionados con estos dos estímulos.

La hipótesis de la continuidad fue seriamente desafiada a fines de los años 60 por una serie de experimentos, que sugerían que el nivel de aprendizaje alcanzado por un determinado estímulo, X, depende no sólo de sus propiedades (por ejemplo la intensidad de X), sino también del valor asociativo que tuvieran todos los otros estímulos presentes en el ensayo. Por ejemplo, Kamin (1968) descubrió un fenómeno llamado bloqueo, en el cual un EC que ha desarrollado una asociación con el EI, "bloquea" el aprendizaje de cualquier otro potencial EC en una fase posterior en la que se presentan ambos estímulos juntos y seguidos por el EI. Las demostraciones básicas de bloqueo implican un experimento de 3 fases. En la primera fase, un estímulo A (por ejemplo un tono), es presentado en conjunto con el EI (por ejemplo un choque eléctrico), hasta que desarrolla la habilidad para generar la respuesta condicionada. En la segunda fase, el estímulo A es presentado en conjunto con otro estímulo, B (por ejemplo, una luz) y ambos son seguidos por el EI. En la tercera fase, se evalúa la respuesta condicionada emitida por el animal en presencia de A y B separadamente. El resultado es que el estímulo B desarrolla muy poca o ninguna capacidad para producir RC, es decir, es bloqueado por A.

El bloqueo y otros fenómenos similares, tales como la validez relativa (Wagner, Logan, Haberlandt & Price, 1968) y el ensombrecimiento (Pavlov, 1927) fueron interpretados como evidencia de que el condicionamiento clásico es "competitivo", ya que los ECs parecen "competir" por la asociación con el EI. Esto no puede ser explicado por el operador lineal, el cual asume que la contigüidad entre el EC y el EI es el único requisito para el aprendizaje.

El modelo de Rescorla y Wagner (1972) Los hallazgos de competencia entre estímulos motivaron la formulación de teorías competitivas del aprendizaje. El principal objetivo de estas teorías era describir cómo un animal asocia un EC y con un EI, en función del grado en el que el EC tiene un valor predictivo o informacional acerca de la ocurrencia del EI. Uno de los primeros y más exitosos modelos competitivos fue propuesto por Rescorla y Wagner (1972), quienes sostenían que los organismos aprenden que un evento predice o es "causa" de una consecuencia dependiendo de cuán predecible es dicha consecuencia por otros eventos. Formalmente, el modelo señala que el cambio en la fuerza de la asociación entre un ECi y el EI está dado por:

Δvi= αβ(zλ–Σxivi) (2)

donde Dvi es el cambio en la fuerza asociativa del estímulo i en el ensayo, α y β representan la intensidad del EC y el EI, respectivamente, λ es el valor máximo o asintótico de aprendizaje y Σxivi es la suma de la fuerzas asociativas de todos los ECs que están presentes en el ensayo.

La aplicación del modelo presentado en la Figura 1 a la teoría de Rescorla y Wagner, implica asumir que el aprendizaje se produce cuando la unidad adaptativa, que en un comienzo sólo era activada por el estímulo incondicionado con valor de lambda igual a 1, comienza progresivamente a aumentar su probabilidad de activación por el estímulo condicionado debido a que la conexión entre ambos, vi, crece a medida que se repiten las presentaciones conjuntas del EC y el EI. El monto en que cambiará el valor de vi depende de la diferencia entre el valor total de todas las conexiones activas y el valor del estímulo incondicionado, es decir, zλ–xΣv.

Descrito de esta manera, el modelo de Rescorla y Wagner puede ser considerado un caso especial de aprendizaje supervisado, en el cual el EI es la "entrada maestra" que dicta cuánto es lo que tienen que aprender los "aprendices" o ECs. Cuando la suma total del aprendizaje de los ECs es igual al valor de la entrada maestra, el error es cero y el aprendizaje se detiene.

Para ver cómo opera el modelo, examinemos el fenómeno de bloqueo en el cual un grupo experimental recibe una primera fase con la contingencia A+ (EC A seguido por el EI) y una segunda fase con AB+ (estímulos A y B presentados en conjunto y seguidos por el EI). Según el modelo, en la fase 1 el estímulo A aumenta progresivamente su fuerza asociativa hasta que alcanza la asíntota (es decir, vA =λ). En la segunda fase, cuando los dos estímulos se presentan juntos, el valor de Σxivi =λ (gracias a la contribución de A) con lo cual el error es cero y no se produce aprendizaje. Esto significa que al terminar la segunda fase, tanto A como B permanecen con su valor asociativo inicial (VA =λ y VB =0). Es decir, B ha sido bloqueado por A.

El modelo de Rescorla y Wagner es la teoría más influyente y exitosa en el ámbito del aprendizaje asociativo. Da cuenta de todos los fenómenos de aprendizaje asociativo simple, incluyendo los efectos de competición de estímulos y anticipa los resultados de otros estudios que fueron diseñados para desafiarlo. Naturalmente, el modelo tiene varias limitaciones, las cuales han estimulado la investigación en esta área durante más de 3 décadas. Más aún, la historia de las teorías matemáticas del aprendizaje después de 1972 puede ser descrita, en gran medida, como los intentos de los científicos para solucionar las fallas de este modelo. Las siguientes secciones describen dos categorías de modelos que fueron formulados con estos fines.

El modelo atencional de Mackintosh (1975)

El modelo de Rescorla y Wagner sostiene que los fenómenos de competición de estímulos, tales como el bloqueo, se deben a una disminución en las propiedades reforzantes del EI. Esto significa que un EI completamente predicho por los ECs pierde todo su poder reforzador. Una explicación alternativa, conocida como "enfoque atencional", sugiere que el fracaso asociativo que se da en la competición de estímulos no ocurre porque el EI pierde efectividad, sino porque el animal "ignora" un EC que se presenta en conjunto con otro EC que tiene mayor relevancia, debido a que éste último fue asociado previamente con el EI.

El ímpetu por la formulación de modelos atencionales proviene de una serie de fenómenos en los cuales el EC pierde su capacidad para asociarse con el EI sin que haya mediado algún cambio en la predictibilidad del EI. El más conocido de estos fenómenos es la inhibición latente, en la cual la preexposición de un estímulo por sí solo, resulta en una disminución de su capacidad posterior para asociarse con el EI (Lubow, 1973). El modelo de Rescorla y Wagner no puede dar cuenta de este fenómeno porque predice que en la fase de preexposición, cuando no está presente el EI, ningún tipo de aprendizaje debería ocurrir.

Mackintosh (1975) formuló el primer y más influyente modelo atencional de condicionamiento clásico. Según este modelo, cuando hay un conjunto de potenciales estímulos condicionados, la saliencia (alfa) de un estímulo en particular va a aumentar si este estímulo es un mejor predictor del EI que todos los otros estímulos juntos, y va a disminuir si este estímulo es un peor predictor del EI que todos los demás juntos. Según este modelo, aunque el procesamiento del EI tiene un rol en el aprendizaje, su función se limita solamente a determinar cuál es la asíntota que cada estímulo puede alcanzar. Los fenómenos de competición de estímulos se explican completamente en función de una competencia entre los ECs por tener acceso a un nivel de procesamiento que les permita aprovechar el reforzamiento disponible.

El modelo de Mackintosh (1975) explica la inhibición latente asumiendo que durante la preexposición no reforzada de un EC, éste disminuye su valor de alfa debido a que no es un mejor predictor del EI que todos los otros estímulos que se encuentran presentes durante esta fase (es decir, los estímulos llamados "contextuales"). Luego, cuando el EC se presenta pareado con el EI, su valor de alfa es inferior a lo normal y, por lo tanto su aprendizaje es más lento.

Otro rasgo interesante del modelo de Mackintosh es cómo concibe la relación entre el aprendizaje excitatorio y el inhibitorio. El modelo asume que la presentación de un EI inesperado produce un aumento en la fuerza asociativa excitatoria hacia una asíntota (por ejemplo, +1), mientras que la omisión de un EI esperado resulta en el incremento de la fuerza asociativa inhibitoria hacia una asíntota de valor contrario (por ejemplo, –1). La fuerza asociativa neta de un EC es una función de la suma de sus tendencias excitatorias e inhibitorias. Esta concepción de la inhibición, soslaya uno de los problemas más graves del modelo de Rescorla y Wagner, el cual es la predicción incorrecta de que las presentaciones no reforzadas de un estímulo inhibitorio deberían llevarlo a perder su valor inhibitorio (es decir, su valor negativo se extingue hasta llegar a 0). Esto ocurre porque, según el modelo de Rescorla y Wagner, la ausencia del EI causa que tanto inhibidores como excitadores se extingan hacia una asíntota de 0. Por su parte, el modelo de Mackintosh predice que no debería producirse tal extinción de la inhibición, ya que en ausencia del EI, la asíntota es –1. La no existencia de extinción de la inhibición ha sido confirmada experimentalmente por Zimmer-Hart y Rescorla (1974).

El modelo mixto de Pearce y Hall (1980)

Pearce y Hall (1980) creían que un mecanismo atencional era necesario para explicar los fenómenos de preexposición. Sin embargo, no estaban satisfechos con la idea de Mackintosh de que la preexposición no reforzada del EC era la única manera de obtener inhibición latente. Por ejemplo, Hall y Pearce (1979) encontraron que era posible retardar la asociación entre un EC y un EI, si el EC se presenta previamente pareado con el mismo EI pero de menor intensidad. El modelo de Mackintosh (1975) no puede explicar este hallazgo, ya que predice que durante la primera fase el EC debería ganar más que perder asociabilidad, debido a que éste es el mejor predictor del EI del momento, aunque sea de menor intensidad.

Frente a este dilema, Pearce y Hall (1980) propusieron que la asociabilidad de un determinado ECi (i) disminuye a medida que éste se transforma en un buen predictor del EI y aumenta cuando no se presenta un EI que se esperaba. Se asume entonces que los animales tienen una capacidad limitada para procesar simultáneamente varios estímulos y que solamente aquellos estímulos que anteceden a eventos "inesperados" ganan acceso al procesador. Usando la red neuronal de la Figura 1, la idea de Pearce y Hall puede describirse señalando que la asociabilidad del ECi es proporcional al valor absoluto de la discrepancia entre la activación de la unidad adaptativa generada por el EI y la activación de dicha unidad generada por todos los estímulos condicionados. Es decir, el error de predicción se usa para ajustar los valores de a.

Otra innovación con respecto al modelo de Rescorla y Wagner, es que Pearce y Hall (1980), sugirieron que el aprendizaje excitatorio y el inhibitorio ocurren separadamente, ocupan distintas reglas y nunca se extinguen. En rigor, la red neuronal de la Figura 1 debería modificarse de tal forma que cada EC tenga 2 tipos de conexiones con la unidad adaptativa: excitatorias e inhibitorias. La fuerza asociativa neta que adquiere un determinado EC, se obtiene sustrayendo la fuerza asociativa inhibitoria de la fuerza asociativa excitatoria.

El modelo configuracional de Pearce (1987, 2002)

Los modelos propuestos por Rescorla y Wagner (1972), Mackintosh (1975) y Pearce y Hall (1980) son modelos elementísticos (o elementales). Esto significa que la representación de un conjunto de estímulos que se presentan juntos es equivalente a la suma de las representaciones de cada estímulo por separado. Esta postura elementalista ha sido cuestionada por John Pearce (1994, 2002), quien propuso un modelo que asume que las configuraciones son las unidades funcionales básicas en una situación de condicionamiento. Según este enfoque, cada estímulo compuesto es una configuración única que desarrolla una asociación unitaria con el EI. Sin embargo, además de la fuerza asociativa que adquiere directamente la configuración, Ei, se asume la existencia de otra fuerza asociativa, ei, que la configuración obtiene indirectamente gracias a la generalización desde otras configuraciones que contienen algunos de sus componentes. Por ejemplo, se asume que un estímulo compuesto AB tendrá un fuerza asociativa total VAB equivalente a la suma de EAB+ jeAB+….+neAB, donde los últimos sumandos representan las fuerzas asociativas que se generalizan a la configuración AB, provenientes de las configuraciones j,…,n, que incluyen a los estímulos A o B. El valor de jeAB está dado por la fuerza asociativa de la configuración J, ponderada por la semejanza que ésta tiene con AB. La semejanza entre dos configuraciones, Sij, está a su vez dada por la cantidad de elementos que comparten. En resumen vi = Ei + ΣSijei.

Más allá de estas diferencias en la forma en que el modelo de Pearce concibe la representación de los estímulos, éste utiliza la misma regla para calcular el cambio asociativo en los ensayos de entrenamiento que el modelo de Rescorla y Wagner. Específicamente, el modelo de Pearce (1987, 1994) sostiene que el cambio en la fuerza asociativa directamente condicionada a la configuración AB, está dada por β[λ – (EAB + jeAB +….+ neAB)].

Aunque las posturas elementalista y configuracional se han descrito como posturas contrapuestas, es importante apreciar que ambas reconocen tanto procesos configuracionales como elementalistas. Brandon, Vogel y Wagner (2000) enfatizaron que la principal diferencia entre estos dos enfoques se puede apreciar en la operación que el modelo realiza cuando se forma un compuesto con estímulos que se habían presentado por separado (o composición de estímulos). La visión elementalista siempre asume una sumatoria de la fuerza asociativa de los componentes al formar un compuesto, mientras que el modelo configuracional siempre asume una sustracción de la fuerza asociativa de cada elemento cuando éstos se presentan juntos.

Se han realizado numerosos experimentos acerca de la composición de estímulos. Por ejemplo, el enfoque elementalista predice sumatoria de la respuesta a dos estímulos entrenados separadamente y probados en compuesto (entrenamiento con A+ y B+ y prueba con AB), mientras que el enfoque configuracional predice un fenómeno de "promediación". La predicción del modelo elementalista radica en su carácter aditivo, donde cada elemento aporta la totalidad de su fuerza asociativa al formar un compuesto con otro estímulo. Por el contrario, según el modelo configuracional sustractivo, cada estímulo aporta sólo la mitad de su fuerza asociativa al formar el compuesto, ya que cada uno de ellos se parece sólo en un 50% al estímulo AB.

Con respecto a la sumatoria, la literatura en condicionamiento clásico muestra resultados contradictorios. Por ejemplo, numerosos estudios realizados con ratas y conejos, los cuales generalmente utilizan estímulos condicionados de distintas modalidades sensoriales (auditiva, visual y táctil), han encontrado evidencia de sumatoria, lo cual apoya la perspectiva elementística (Rescorla, 1997). Por el contrario, se ha observado ausencia de sumatoria en estudios que utilizan el procedimiento de automoldeamiento en palomas y estímulos visuales (Aydin & Pearce, 1995). Además de estos experimentos con sumatoria simple, se han realizado algunas pruebas más complejas de los principios aditivo y sustractivo que distinguen a ambos enfoques, encontrándose el mismo nivel de ambigüedad en los resultados. A pesar de ciertos esfuerzos por explicar estas discrepancias (Myers, et al., 2001; Pearce, 2002), este tema está aún sin solución.

La idea predominante en la actualidad es que la controversia puede ser resuelta asumiendo que ambos tipos de enfoques son parcialmente correctos, que la codificación de estímulos involucra tanto aspectos configuracionales como elementalistas y que el predominio de una u otra estrategia de codificación depende de ciertas variables relacionadas con los estímulos, la tarea y los individuos. Consecuentemente, los investigadores se han interesado por determinar las condiciones precisas que determinan uno u otro tipo de procesamiento y han comenzado a desarrollar modelos flexibles que permitan esta alternancia de procesamiento (Wagner, 2003).

 

SEGUNDA GENERACIÓN: MODELOS BÁSICOS DE TIEMPO REAL

Los modelos de ensayo discreto de la sección anterior describen los cambios asociativos que ocurren entre los ensayos pero no al interior de éstos. Es decir, el ensayo es considerado como un todo asociativo discreto, en el cual el aprendizaje ocurre o no ocurre. Con esta estrategia, los investigadores han podido dar cuenta de la mayoría de los fenómenos de adquisición, extinción, discriminación, generalización y competición de estímulos.

Sin embargo, existe un cúmulo de evidencia que indica que el aprendizaje depende de la relación temporal entre el EC y el EI. Por ejemplo, se ha encontrado que a mayor intervalo de tiempo entre la iniciación del EC y la iniciación del EI, mayor es la latencia de iniciación y pico de la respuesta condicionada (Gallistel & Gibbon, 2000). También se ha visto que el intervalo entre estímulos determina la rapidez y asíntota con la que se adquiere la respuesta condicionada, en lo que se ha denominado "función del intervalo entre estímulos". Esta función tiene una forma de U invertida, es decir existe un intervalo de duración intermedia, que es óptimo para el aprendizaje (Smith, Coleman & Gormezano, 1969).

El descubrimiento de estos "fenómenos temporales" condujo a la evolución hacia un nuevo tipo de modelos, los modelos de tiempo real, los cuales describen el proceso asociativo momento a momento, en lugar de ensayo tras ensayo, como lo hacían sus predecesores. El rasgo medular de esta categoría de modelos, es la noción de "trazo" o "huella", la cual se refiere a cómo cambia la representación interna del estímulo a través del tiempo. Por ejemplo, Hull (1943) avanzó que la representación del estímulo condicionado no es la misma a lo largo de toda su duración y que el aprendizaje será óptimo cuando la presentación del EI coincida con el momento en el cual la representación del EC es máxima. Con este simple supuesto, es posible dar cuenta de los fenómenos temporales más básicos, tales como el hecho de que el nivel de aprendizaje óptimo es para intervalos de duración intermedia.

La mayoría de los modelos de tiempo real pueden ser descritos a partir de la red neuronal de la Figura 1. La única modificación que tiene que hacerse con respecto a los modelos de ensayo discreto es asumir que el nivel de activación de cada unidad de procesamiento, xi (EC) y zi (EI), es una función continua en lugar de binaria. Dicho de otro modo, ya no se habla de estímulo presente (con valor de xi =1) y estímulo ausente (con valor xi =0) sino que se habla de niveles de activación (por ejemplo, 0 < xi < 1). El patrón no lineal de activación de un estímulo durante un ensayo es lo que se denomina huella del estímulo. Nótese que la huella de un estímulo es sinónimo de su representación interna, y por lo tanto no necesariamente tiene que coincidir con la presentación física real de éste, es decir, la huella puede iniciarse en cualquier momento después de la presentación del estímulo y continuar aún después de que éste ha cesado.

En los últimos años la creación de modelos de tiempo real ha experimentado un auge. Sin duda, esta diversidad es reflejo de los diversos orígenes teóricos de cada modelo. De hecho, cada uno de los modelos de ensayo discreto que se describieron en la sección anterior inspiró la formulación de uno o varios modelos de tiempo real. Por ejemplo, el primer modelo de tiempo real, publicado por Moore y Stickney (1980) es una extensión del modelo atencional de Mackintosh (1975). Más o menos al mismo tiempo, Wagner (1981) presentó su versión en tiempo real del modelo de Rescorla y Wagner, y Schmajuk y Moore (1985) hicieron lo mismo con el modelo de Pearce y Hall (1980). En esa misma década, Sutton y Barto (1981) inventaron una regla de aprendizaje completamente nueva, la regla de la derivada del tiempo.

Por supuesto, no todos estos modelos tuvieron el mismo éxito. Esta sección describirá tres modelos representativos de esta segunda generación de modelos de condicionamiento clásico, que hemos denominado "modelos básicos de tiempo real". Usamos el término "básico" porque estos modelos tienen el diseño estructural más elemental que se requiere para transformar un modelo de ensayo discreto en un modelo de tiempo real, agregando una representación temporalmente variable de los estímulos.

Una versión de tiempo real del modelo de Rescorla y Wagner

Schmajuk (1997) propuso que inmediatamente después de la presentación del EC, su representación interna, xi, aumenta en forma negativamente acelerada hasta llegar a un máximo, donde se estabiliza hasta comenzar a decaer una vez que el estímulo termina. Por simplicidad, Schmajuk asume que la representación del EI es binaria. El aprendizaje consiste en aplicar la regla de Rescorla y Wagner (1972) para evaluar el cambio en la fuerza asociativa del EC momento a momento de acuerdo a la intensidad de la representación interna del EC y a la presencia o ausencia del EI. Estas nociones se formalizan de la siguiente manera:

Δvi= αiβj[z(t)λ(t)–Σxi(t)vi(t)]xi(t) (3)

Usando la nomenclatura de la Figura 1, la Ecuación 3 plantea que el monto de aprendizaje obtenido por el EC en cada instante de tiempo, depende de la discrepancia momentánea entre la activación de la unidad adaptativa por todos los ECs y la activación por el EI [z(t)λ(t)–Σxi(t)vi(t)], y de la fuerza de la representación interna del EC en ese momento, [xi(t)]. La forma en que opera este modelo se puede ilustrar con un ejemplo de adquisición con un EC y un EI, donde el EC está presente durante 10 momentos y el EI tiene una aparición de un momento de duración durante el momento número 10. En el primer ensayo, no hay aprendizaje desde el momento 1 al 9, ya que la unidad adaptativa no es activada ni por el EC ni por el EI (ya que z(t)λ(t)–Σxi(t)vi(t)=0). En el momento 10, la unidad adaptativa es activada por el EI proveyendo de reforzamiento para el EC, cuyo monto es proporcional a la activación de la unidad adaptativa por el EI (z(t)λ(t)) y a la fuerza de la huella del EC (xi(t)), es decir el EC desarrolla fuerza asociativa excitatoria. En el segundo ensayo, las porciones iniciales del EC activan la unidad adaptativa en proporción a la fuerza de la huella en esos momentos (xi(t)) y a la fuerza asociativa excitatoria adquirida por el EC en el ensayo anterior (vi). Sin embargo, ya que en esos momentos iniciales no hay activación de la unidad adaptativa por el EI, se produce aprendizaje inhibitorio (ya que z(t)λ(t) <Σxi(t)vi(t)), lo que causa que el EC pierda parte de la fuerza asociativa que ganó durante el ensayo anterior. Al llegar al momento 10 del segundo ensayo, el EC nuevamente gana fuerza asociativa. Este proceso continua ensayo tras ensayo, resultando en que la fuerza asociativa neta adquirida en cada uno va estar dada por la interacción entre excitación e inhibición que se adquiere momento a momento. Naturalmente, mientras más largo es el intervalo entre el EC y el EI, mayor oportunidad para que las porciones tempranas del EC desarrollen inhibición.

A través de esta simple modificación del modelo de Rescorla y Wagner, es posible dar cuenta de la forma de U invertida de la función del intervalo entre EC y EI. Específicamente, el modelo predice que intervalos largos generan bajos niveles de aprendizaje excitatorio debido a la mayor cantidad de momentos en los cuales se produce aprendizaje inhibitorio. Por otra parte, intervalos cortos generan menos aprendizaje porque la huella del EC no ha alcanzado su máximo en el momento de la presentación del EI. Los intervalos de duración intermedia resultan óptimos para el aprendizaje puesto que el EC coincide con el EI durante el máximo de su huella.

El modelo de la derivada del tiempo de Sutton y Barto

Sutton y Barto (1981) propusieron un modelo en el cual la unidad adaptativa no requiere de una entrada especial o supervisor para producir cambios en la fuerza asociativa de los estímulos condicionados. Concretamente, se asume que el reforzamiento proviene tanto de los ECs como del EI, y que su magnitud depende de la diferencia entre la activación de la unidad adaptativa en dos momentos de tiempo. De ahí la denominación modelo de la derivada del tiempo, ya que el reforzamiento es una función de la derivada de la activación de la unidad adaptativa en el momento t y el momento inmediatamente anterior, t–1.

Una de las ventajas del modelo de la derivada del tiempo es su capacidad para explicar un fenómeno conocido como "condicionamiento de segundo orden" (Rescorla, 1980a), en el cual un ECi adquiere fuerza asociativa en virtud de su pareamiento con un ECj, el cual había sido pareado previamente con el EI. Ya que según este modelo los ECs también otorgan reforzamiento, la predicción del fenómeno es obvia.

Para implementar el modelo, Sutton y Barto (1981) asumen que la representación interna del EC incluye 2 tipos de huellas. La primera, denominada "huella de estimulación", xi(t), es una función binaria que asume el valor de 1 cuando el estímulo está presente y 0 cuando no lo está. Esta huella está a cargo de la generación de la RC. La segunda huella, llamada "huella de elegibilidad", ei(t), sigue un patrón de activación variable durante la presentación del estímulo y controla el grado de adquisición de fuerza asociativa del estímulo en función del tiempo.

Con respecto a la regla de aprendizaje, el modelo de la derivada del tiempo asume que habrá reforzamiento disponible para cambiar las asociaciones del EC con la unidad adaptativa, siempre que haya una diferencia en la actividad de la unidad adaptativa en dos momentos del tiempo. Dicho de otro modo, el aprendizaje que ocurre en cualquier momento está dado por la discrepancia entre la actividad actual de la unidad adaptativa y su actividad en el momento inmediatamente anterior. Así, el reforzamiento es una función de la diferencia (derivada del tiempo) entre la respuesta en el momento t, Y(t), y la respuesta en el momento t–1, Y(t–l). Siguiendo la nomenclatura de la Figura 1, esta regla se puede expresar del siguiente modo:

ΔVi= α[{Σxi(t)vi(t)+z(t)λ(t)}–

{Σxi(t-1)vi(t-1)+z(t-1)λ(t-1)]ei(t)

El modelo de la derivada del tiempo tiene bastante éxito explicando una gran parte de los fenómenos de ensayo discreto. Por ejemplo, explica el bloqueo (A+ /AB+), asumiendo que una vez que el estimulo A ha adquirido la capacidad para activar a la unidad adaptativa en la primera fase, anulará el efecto reforzador del EI en la segunda fase. Esta cancelación del reforzamiento afecta a B, puesto que A y B se presentan en el momento t–1 y el EI en el momento t, con lo cual no hay diferencia entre la activación en t–1 y en t. Con esto el estímulo B se queda sin reforzamiento y no desarrolla asociación con el EI.

Aunque el modelo fue desarrollado principalmente para dar cuenta de los fenómenos temporales, presenta una serie de problemas en este dominio. Por ejemplo, ya que la huella de elegibilidad sigue un curso temporal independiente de la duración del estímulo condicionado, el modelo predice que el nivel de aprendizaje no depende de la duración del EC, lo cual es contradicho por la evidencia empírica que señala que, después de alcanzar una duración óptima, a medida que aumenta el largo del EC, el aprendizaje se empobrece. Otro problema de este modelo es que predice el desarrollo de aprendizaje inhibitorio cada vez que se termina el EI. Esto ocurre porque, según la Ecuación 4, el EC desarrolla fuerza asociativa negativa cada vez que la activación de la unidad adaptativa en un momento dado es menor que la activación en el momento anterior. Esto significaría, por ejemplo, que si se presentan el EC y EI simultáneamente, el EC no debería desarrollar fuerza asociativa alguna ya que la excitación del inicio del EI se cancelaría con la inhibición de su término. Aunque hay evidencia de aprendizaje inhibitorio con el procedimiento de condicionamiento retrospectivo (Siegel & Domjan, 1971), la mayoría de los estudios han mostrado que la presentación simultánea del EC y el EI produce aprendizaje excitatorio (Rescorla, 1980b).

El modelo SOP de Wagner

El modelo SOP intenta explicar varios fenómenos que no fueron considerados por la mayoría de los modelos descritos anteriormente, tales como los fenómenos de primacía y las diferencias cualitativas que a menudo se observan entre la RC y la RI. La primacía se refiere a una situación en la que los eventos que ocurren fuera del ensayo afectan la formación de asociaciones de los estímulos que ocurren dentro de los ensayos (Wagner, Rudy & Whitlow, 1973). Por ejemplo, Donegan y Wagner (1987) demostraron que hay una reducción de la amplitud de la respuesta incondicionada cuando el EI es precedido por un EC bien entrenado. Wagner (1981) conjeturó que la respuesta generada en el momento de la presentación del EI está determinada por el grado de activación de su representación interna, y que un EC puede activar esa representación justo antes de la ocurrencia de la respuesta incondicionada, con lo cual "gasta" los recursos antes que aparezca el EI.

Una forma obvia en la que un EI "preprocesado" (es decir, cuya representación interna ya ha sido activada) puede afectar el nivel de la respuesta incondicionada, es el conocido paradigma de habituación de corto plazo, el que se refiere a una disminución en la amplitud de respuesta al segundo de un par de estímulos incondicionados. Esto ocurre siempre y cuando haya cercanía temporal entre los dos estímulos (Whitlow, 1975).

El modelo de Rescorla y Wagner (1972) fue la primera implementación cuantitativa de la noción de que un EI esperado es menos efectivo como reforzador. Sin embargo, este modelo no da cuenta de la sensibilidad temporal con la que estos fenómenos ocurren. Por otra parte, se ha observado también que la "predictibilidad" no sólo afecta el pre-procesamiento del EI, si no también al pre-procesamiento del EC, como puede darse en el caso de la inhibición latente, lo cual también está fuera del alcance del modelo de Rescorla y Wagner. En rigor, puede decirse que SOP fue diseñado para proveer una versión computacional de la noción de "primacía".

Después de su formulación original (Wagner, 1981), el modelo SOP se ha descrito de varias maneras, cada una reflejando distintas posibilidades de implementación de sus supuestos básicos. El panel A de la Figura 2 contiene los principales elementos de SOP de acuerdo a una de sus últimas rendiciones (Brandon et al., 2002). Se asume que todos los estímulos (ECs y EIs) están representados por un par de unidades de procesamiento, una unidad primaria, A1 y una unidad secundaria, A2. Las unidades primarias y secundarias están compuestas por un número grande pero finito de elementos, los cuales pueden estar activos o inactivos. La presentación de un estímulo causa la activación de una proporción de sus elementos en la unidad A1 (de acuerdo al parámetro p1), a lo cual sigue la activación de una proporción de elementos de la unidad secundaria, A2 (de acuerdo al parámetro pd1). A su vez, los elementos de A2 que se activan ejercen un efecto inhibitorio sobre los elementos de A1 que se encuentran inactivos, es decir, estos no pueden ser activados. Eventualmente, los elementos de A2 decaen (según el parámetro pd2) y liberan a los elementos de A1 de su estado refractario.

 


 

Según esta concepción, el curso temporal de la activación de cada estímulo es representado por 2 tipos de huellas: la huella de la actividad de la unidad primaria y la huella de la unidad secundaria. El valor instantáneo de cada huella está dado por la proporción de elementos que están activos en ese momento. Las formas de las huellas describen un período de reclutamiento de elementos, un pico, una estabilización y un decaimiento después de la terminación del estímulo. Estas huellas cumplen un rol específico en el proceso asociativo y en la generación de la respuesta. En breve, SOP asume que la respuesta incondicionada es bifásica, donde su primer componente es una función del nivel de actividad A1 y el segundo de A2. Adicionalmente, se asume que el condicionamiento dota al EC de la capacidad para activar directamente los elementos del estado A2 del EI, sin pasar por A1. Esta noción es consistente con numerosas observaciones, donde la respuesta condicionada no es una réplica de la RI, sino que más bien se asemeja a su parte final, la cual muchas veces es opuesta a la parte inicial. Este fenómeno es particularmente notorio cuando se usan EIs farmacológicos ante los cuales los animales muestran patrones de respuesta complejos. Ya que no siempre la RI es opuesta a la RC, Wagner (1981) ideó el acrónimo "SOP", que significa "procesos algunas veces oponentes" (sometimes opponent processes).

En términos de la conectividad mostrada en el panel A de la Figura 2 y siendo consistentes con la terminología usada para otros modelos, puede decirse que la unidad secundaria del EI, A2EI equivale a la unidad adaptativa de la Figura 1. Si bien existe otra unidad que también produce una respuesta (la unidad A1EI), ésta no está disponible para plasticidad. El EC desarrolla su capacidad para provocar respuesta por intermedio de la fuerza de su asociación con la unidad secundaria del EI. En suma, la RC es una función del grado de actividad primaria del EC, A1EC y de la fuerza de la conexión entre esta unidad y A2EI.

Según SOP el aprendizaje excitatorio e inhibitorio se desarrollan por separado. Se asume que en todo momento el cambio en las conexiones excitatorias, Dvi+, es proporcional al producto entre el número de elementos primarios del EC y del EI que están activos en ese momento. Análogamente, el aprendizaje inhibitorio, Dvi –, es proporcional al producto del número de elementos primarios del EC y el número de elementos secundarios del EI que se encuentran activos en un momento dado. En resumen, el aprendizaje excitatorio depende del procesamiento simultáneo de las unidades A1EC y A1EI, y el aprendizaje inhibitorio de A1EC y A2EI. El curso temporal de las huellas primarias y secundarias es fundamental para las predicciones del modelo. Por lo general se asume que en los ensayos típicos de adquisición, en el cual el EC precede al EI, la actividad primaria del EC (A1EC) coincide principalmente con la actividad primaria del EI (A1EI) y muy poco con la actividad secundaria de éste (A2EI), lo que da lugar al fortalecimiento de las conexiones excitatorias entre el EC y el EI.

Según SOP, la asociación entre el EC y el EI no sólo afecta la probabilidad y tipo de respuesta, sino que también afecta el procesamiento del estímulo incondicionado. Esta propiedad es la que permite a SOP dar cuenta de los fenómenos de primacía. Por ejemplo, es posible explicar el fenómeno llamado "disminución condicionada de la RI" (Donegan, 1981; Marcos, 1997; Marcos & Redondo, 2002), el cual se trata de una reducción en la amplitud de la RI cuando el EI es precedido por un EC con fuerza asociativa, asumiendo que el EC causa que cierta proporción de elementos del EI se movilicen al estado secundario de actividad e inhiban a sus respectivos elementos primarios, los cuales, entonces, no se activarán cuando se presenta el EI.

SOP logra mantener el valor explicativo de su predecesor, el modelo de Rescorla y Wagner (1972), resolviendo además varias de sus principales falencias. Por ejemplo, SOP no cae en la predicción incorrecta de extinción de la inhibición condicionada, ya que asume que las presentaciones no reforzadas de un EC inhibitorio no tienen efectos en la actividad de las unidades representacionales del EI, y por lo tanto, no puede ocurrir ningún tipo de aprendizaje.

 

TERCERA GENERACIÓN: MODELOS COMPLEJOS

Todos los modelos que hemos llamado de primera y segunda generación se basan en los supuestos más simples que se requieren para explicar los fenómenos básicos de aprendizaje. Por ejemplo, como se aprecia en la Figura 1, la red neuronal incluye sólo dos capas, una capa sensorial o de entrada y una capa motora o de salida. Además, cada estímulo es representado por una única unidad de procesamiento que actúa como un todo influyendo a la unidad adaptativa. Esta arquitectura ha sido seriamente criticada, tanto por su poca plausibilidad biológica como por su fracaso en explicar ciertos fenómenos conductuales que se han ido descubriendo con el correr de los años. Los modelos que se describen en esta sección representan distintas estrategias que se han implementado para hacer modelos más sofisticados y explicativos.

Modelos componenciales

Se ha descubierto que a medida que progresa el aprendizaje, no sólo se producen cambios en la frecuencia y amplitud de la respuesta condicionada, sino que también se modifican sus características temporales, tales como el tiempo que demora en iniciarse y en alcanzar el máximo. Ya que la mayoría de las medidas de la RC están correlacionadas, éstas pueden considerarse como diferentes manifestaciones del constructo "fuerza de la asociación entre el EC y el EI". Esta noción de huella molar, presente en los modelos de la sección anterior, sostiene que una repuesta débilmente aprendida tendrá menos frecuencia, menor amplitud y demorará más en iniciarse y en alcanzar su máximo que una respuesta bien aprendida.

Existen ciertas situaciones experimentales en las cuales se ha demostrado que ciertas características temporales de la RC no se correlacionan. Por ejemplo, se ha observado que si se comienza el entrenamiento con un determinado intervalo y luego se modifica a otro más largo o más corto, se produce también un cambio en la latencia de iniciación y pico de la RC hacia valores más largos o cortos, según sea la dirección del cambio (Coleman & Gormezano, 1971). Nótese que el cambio en la temporalidad de la RC no se da como un desplazamiento gradual de la respuesta hacia su nueva ubicación, sino más bien consiste en la desaparición de la respuesta en su ubicación original y su aparición en la ubicación nueva. La noción de la huella molar predice incorrectamente que el cambio debería ser gradual ya que reflejaría simplemente la ganancia o la pérdida de fuerza asociativa producto del cambio en el intervalo de tiempo.

Otra observación que resulta problemática para la noción de huella molar es que si se realiza el entrenamiento desde un principio con dos intervalos entre EC y EI, digamos algunos ensayos con uno corto y otros ensayos con uno largo, el resultado es que la RC desarrolla dos picos, uno en la localización del EI para el intervalo corto y otro para su ubicación en el intervalo largo. Es decir, el animal aprende dos respuestas topográficamente distintas y apropiadas para cada intervalo (Millenson, Kehoe & Gormezano, 1977). La noción de huella molar incorrectamente predice una respuesta con una localización intermedia, entre los dos intervalos, ya que según esta noción la ubicación temporal de la respuesta es una función de la fuerza asociativa neta que se obtiene como producto de los dos tipos de ensayos de aprendizaje.

Estas dificultades se han resuelto creando una representación más compleja del EC, conocida como representación molecular o componencial. Esta noción asume que la huella del estímulo se forma a partir de la actividad de un gran número de componentes o elementos, los cuales se activan en distintos momentos a lo largo de la duración del estímulo y tienen sus propias conexiones con el EI. Es decir, la concepción molecular asume que cada elemento por separado y no el EC como un todo, son quienes establecen la asociación con el EI. Por ello, la forma de la RC está dada por la fuerza asociativa de los elementos que se encuentran activos en cada momento de la duración del EC. De este modo, se espera que los elementos que se encuentran activos al momento de la presentación del EI obtengan el máximo de fuerza asociativa, lo cual explica que el pico de la RC sea aproximadamente en la localización temporal donde se espera el EI. Del mismo modo, si un animal está entrenado con 2 intervalos entre estímulos, se esperaría que dos constelaciones de elementos, una en cada localización, desarrollen la fuerza asociativa que corresponde a cada intervalo.

Otra ventaja de la representación componencial es su plausibilidad biológica. Más aún, se ha comenzado a acumular evidencia de que las principales características temporales del condicionamiento podrían emerger de la actividad de constelaciones de neuronas que se activan a partir de un sólo EC y que exhiben plasticidad a nivel de sus sinapsis. Por ejemplo, el modelo del condicionamiento de parpadeo en conejos propuesto por Medina y col. (2000) asume que las características temporales de la RC dependen del patrón de activación de millares de células Golgi y su influencia en la generación de la respuesta a través de las sinapsis con las células Purkinje y su efecto regulador sobre el núcleo interpósito del cerebelo.

Se han propuesto varias estrategias para construir representaciones componenciales del EC. Por ejemplo, Desmond y Moore (1988) propusieron un tipo de representación llamada "línea de demora" en la cual el comienzo del EC genera una activación secuencial de elementos a lo largo del tiempo. Grossberg y Schmajuk (1989) sugirieron que el EC genera una población de señales con forma de campana, las cuales varían en una serie de parámetros generando señales "lentas" y "rápidas". Vogel y col. (2003), propusieron una representación dual del EC, en la cual algunos elementos tienen patrones de actividad localizados en el tiempo mientras que otros no codifican información temporal sino que se activan al azar en cualquier momento durante al presentación del estímulo. Por último, McLaren y Mackintosh (2000) propusieron un modelo que asume que cualquier estímulo (condicionado o incondicionado) está representado por un conjunto elementos que se encuentran recíprocamente conectados por lazos asociativos que se fortalecen cada vez que se activan simultáneamente. Los elementos pueden ser activados "externamente" por lo estímulos que representan o bien internamente a través de su asociación con otros elementos, que a su vez son activados externamente por otros estímulos.

Además de los modelos mencionados en el párrafo anterior, se han propuesto otros tantos modelos componenciales. Con el fin de ilustrar la forma en que opera esta estrategia, hemos elegido describir con cierto detalle uno de estos modelos: el modelo de la diferencia temporal (TD) propuesto por Sutton y Barto (1990). Este modelo es una variación del modelo de la derivada temporal que busca resolver algunos de los problemas de este último.

Específicamente, TD asume que el EC está representado por una "línea de demora", en la cual la presentación del EC desencadena una cascada de activación de elementos los cuales están ordenados secuencialmente en una "línea de demora". Cada elemento, además de pasar la activación al elemento siguiente de la línea, está conectado con la unidad adaptativa. Por último, se asume que la presentación y terminación de un estímulo dan lugar a cascadas de activación independientes: los elementos de encendido y los elementos de apagado. El panel B de la Figura 2 muestra un ejemplo del modelo TD para un EC con sus líneas de demora para el encendido y el apagado del estímulo. La actividad de cada elemento se denota como xijk, para indicar (1) el EC que la activa (subíndice "i"), (2) si el elemento es activado por el inicio o por el término del estímulo (subíndice "j"), y (3) su orden en la secuencia de activación (subíndice "k"). Los elementos pueden estar activos (xijk=1) o inactivos (xijk=O). Por último, se asume que cada elemento está representado por una huella de estimulación (que controla la generación de la respuesta) y una huella de elegibilidad (que controla el nivel de aprendizaje). La huella de estimulación es el valor binario de activación xijk=1, mientras que la huella de elegibilidad sigue una función exponencial similar a la descrita para el modelo de la derivada del tiempo.

En cuanto a la regla de aprendizaje, el modelo TD difiere del modelo de la derivada del tiempo al considerar separadamente la contribución del EC y el EI al reforzamiento. Formalmente, el modelo TD enuncia que el cambio en la fuerza asociativa de cada elemento en la línea de demora, vijk, está dado por la siguiente ecuación:

Av¡jk= αβ(z(t)λ(t)+γΣxijk(t)vi(t)– Σxijk(t-1)vijk(t-1)] (5)

Donde, g es llamado "parámetro de descuento" el cual permite que un EC con cierta fuerza asociativa genere reforzamiento en todos los momentos en los que está presente y no sólo al comienzo. Al comparar la ecuación 5 (TD) con la ecuación 4 (derivada del tiempo) se pueden apreciar dos grandes diferencias. La primera se refiere a que mientras que en el modelo de la derivada temporal el EI, a través zλ, contribuye al término de reforzamiento tanto en el momento t como en el momento t-1, en el modelo TD el valor de zλ se aplica solamente en el momento t. Esto significa que en el modelo TD es la presencia del EI más que los cambios en su presencia aquello que determina el reforzamiento, lo cual es esencialmente lo mismo que plantea el modelo de Rescorla y Wagner.

La segunda diferencia se refiere a la contribución de los ECs al cómputo del reforzamiento. Como se ve en la ecuación 5, la contribución de los ECs en el momento t es ponderada o "descontada" por el parámetro g, lo que permite que los ECs contribuyan al reforzamiento incluso cuando el valor agregado de sus fuerzas asociativas no cambie entre los momentos t y t-1. Con estas dos diferencias, es posible concluir que el modelo TD está a mitad de camino entre el modelo de la derivada del tiempo y el modelo de Rescorla y Wagner. Con esta estructura, TD da cuenta de la gran mayoría de los fenómenos temporales, excluyendo solamente los fenómenos de primacía en los cuales ha mostrado su fortaleza el modelo SOP.

Modelos con unidades escondidas

Una de las principales motivaciones para construir modelos con unidades escondidas fue el descubrimiento de un fenómeno conocido como "patrón negativo", el cual se refiere a una situación experimental en la que dos ECs se parean con el EI cada vez que se presentan por separado (A+/B+) pero no cuando se presentan en conjunto (AB–). El resultado es que la repuesta a cualquiera de los dos estímulos, A o B, es mayor que la respuesta al compuesto AB. Este fenómeno, también conocido como "problema del ó exclusivo", sugiere que la representación interna de un estímulo compuesto debería ser diferente de la mera suma de sus componentes. En efecto, si el animal "sumara" las fuerzas asociativas de A y B cuando se presentan juntos, éste debería responder más al compuesto que a los componentes.

Las dos primeras generaciones de modelos descritas en este artículo resolvieron este problema agregando un elemento adicional en la capa sensorial, llamado "elemento configuracional" (Pearce 1987; Wagner & Rescorla, 1972), el cual representa la conjunción de dos o más estímulos y establece asociaciones con la unidad adaptativa como cualquier otro elemento sensorial. Naturalmente, se requieren tantos elementos configuracionales como combinaciones posibles de elementos, lo cual ha sido considerado antieconómico por sus detractores (Schmajuk, 1997). Una alternativa a este enfoque es asumir que las configuraciones no son preexistentes ni pertenecen a la capa sensorial, sino que se forman para resolver un determinado problema y residen en una capa intermedia, llamada "capa de las unidades ocultas".

En el ámbito del condicionamiento Pavloviano se han propuesto varios modelos con unidades ocultas, los cuales difieren principalmente en el número de capas y el patrón de interconexiones. El panel A de la Figura 3 muestra un ejemplo prototípico de este tipo de redes neuronales, basado en una de las propuestas más exitosas, el modelo SD de Schmajuk y DiCarlo (1992). La primera capa, llamada "capa sensorial" contiene unidades que se activan directamente por los estímulos externos (condicionados e incondicionados). La segunda capa contiene las unidades ocultas, la cuales se activan exclusivamente por las unidades sensoriales, es decir, no reciben influencia directa del mundo exterior. En la figura, cada unidad oculta tiene conexiones disponibles con todas las unidades sensoriales, lo que le otorga la posibilidad de representar cualquier configuración posible. Por último, la tercera capa, denominada "capa de salida", contiene la unidad adaptativa, la cual tiene conexiones con todas las unidades de las dos capas anteriores y es la encargada de generar la respuesta.

 

 

Un aspecto central de los modelos con unidades ocultas es que las conexiones entre las unidades sensoriales y las unidades ocultas se pueden modificar con la experiencia. Esto significa que la red tiene 3 tipos de conexiones plásticas: 1) conexiones entre unidades sensoriales y unidades ocultas (Cij), 2) conexiones entre unidades sensoriales y la unidad adaptativa (VSi) y 3) conexiones entre unidades ocultas y la unidad adaptativa (VHj). Así, la actividad de la unidad adaptativa (Y(t)), depende del EI con actividad z(t), y conexión l, de los ECs con actividad xi(t) y conexiones VSi y de las unidades ocultas con actividad wi(t) y conexiones VHj. Similarmente, se asume que la actividad de la unidad escondida Wj está regulada por la suma de sus conexiones con las unidades de entrada ponderadas por sus respectivos niveles de activación, es decir, Wj(t)= Σxi(t)Cij.

El cambio en las conexiones de las unidades sensoriales y las unidades ocultas con la unidad adaptativa está gobernado por la regla de aprendizaje de Rescorla y Wagner. Es decir, variaciones en la conexión entre cualquier unidad sensorial u oculta con la unidad adaptativa, es una función de la diferencia entre la activación momentánea de la unidad adaptativa ocasionada por el EI y la activación ocasionada por todas las unidades sensoriales y ocultas que se encuentran activas en el momento. Formalmente, se tiene que:

ΔVSi= Θ1xi[z(t)λ(t)–(Σxi(t)VSi(t)+ Σwj(t)VHj(t))]|1–VSi| (6)

ΔVHJ= Θ2Wi[z(t)λ(t)–(Σxi(t)VSi(t)+ Σwj(t)VHj(t))]|1–VHi| (7)

En las ecuaciones 6 y 7, los factores |1–VSi| y |1–VHi| se usan para mantener los valores asociativos entre –1 y +1, y q1 y q2 son parámetros que determinan las tasas de aprendizaje. La expresión [z(t)λ(t)–(Σxi(t)VSi(t)+ Σwj(t)VHj(t))] también puede ser descrita como el error de la predicción o error de output (EO). Más allá de estas diferencias, puede apreciarse que en esta parte, la red aprende según la regla de Rescorla y Wagner que señala que el aprendizaje que tiene lugar en una determinada unidad de procesamiento es directamente proporcional a la discrepancia entre la actividad "real" y la actividad "predicha" en dicha unidad.

Por otra parte, la asociación entre las unidades sensoriales y la unidad adaptativa cambia de acuerdo a una regla conocida como retropropagación (Rumelhart, et al., 1986). Esta regla consiste en calcular un error especial para estas conexiones, conocido como EH (la H proviene de "Hidden", es decir, oculto), el cual se obtiene ponderando o descontando del error de salida o EO los valores asociativos que se obtuvieron una vez que se hizo el ajuste en las conexiones entre las unidades sensoriales y la unidad de salida. Dicho de otro modo, el EH es el error que "sobra" una vez que se ajustan los pesos de las conexiones entre las unidades de entrada y la unidad de salida, es decir, el error se propaga "hacia atrás" en la red de neuronal.

Schmajuk y DiCarlo (1992) implementaron la noción de retropropagación asumiendo que EHij es una función del grado de activación de la unidad adaptativa causado por las unidades ocultas (Wi(t)VHi(t)) y del error de salida (EO). Ya que la actividad de las unidades ocultas es una función de la actividad de las unidades sensoriales EH se puede decir que EHij = f(EOVHi Σxi(t)Cij(t)). Formalmente, las conexiones entre las unidades sensoriales y las unidades ocultas cambian de acuerdo a la siguiente ecuación:

ΔCij3XiEH(|1–Cij|) (8)

El parámetro de tasa de aprendizaje q3 de la ecuación 8 es mayor que sus equivalentes de las ecuaciones 9 y 10, confiriéndole mayor rapidez al aprendizaje de Cij que de VSi y VHi. Nótese que es necesario asignar ciertos valores iniciales diferentes de cero a Cij, de otro modo nunca ocurrirían cambios en estas conexiones.

Conceptualmente, puede decirse que el supuesto central del modelo SD es que si el error de predicción del EI no se puede reducir modificando las conexiones entre las unidades sensoriales y la unidad adaptativa, entonces la red desarrolla conexiones entre las unidades sensoriales y las unidades ocultas. Es decir, la red genera configuraciones sólo cuando estas son necesarias para resolver un problema determinado. Por ejemplo, considérese el caso en el cual dos estímulos condicionados son entrenados separadamente hasta niveles asintóticos (A+, B+). Al comienzo, se fortalecen las conexiones VSA y VSB de acuerdo a las ecuaciones 6 y 7. Además, ya que A y B tienen un valor inicial muy bajo de ClA y ClB , la presentación de cualquiera de ellos no alcanza para activar la unidad escondida (por lo tanto, los valores de wj también son bajos), lo cual a su vez determina que la unidad oculta no desarrolle fuerza asociativa significativa con la unidad de salida. Ya que las conexiones de las unidades sensoriales A y B con la unidad oculta dependen de la actividad de la unidad oculta, CAj y CBj permanecen bajos. En resumen, no se forman conexiones con la unidad oculta porque no se necesitan.

A diferencia del ejemplo anterior, para resolver el problema del patrón negativo (A+, B+, AB-), sí se necesitan conexiones entre las unidades escondidas y la unidad adaptativa. En este caso, la red también desarrolla conexiones VSA y VSB fuertes. Sin embargo, cuando los dos estímulos se presentan juntos activan moderadamente a la unidad escondida, con lo cual ésta queda disponible para modificar su conexión con la unidad adaptativa. Sin embargo, durante los ensayos compuestos, la unidad oculta recibe un valor de EO fuertemente negativo, debido a que A y B activan la unidad adaptativa sin que se presente el EI (es decir, error negativo). El resultado es que VH adquiere un valor inhibitorio. Ya que durante los ensayos compuestos, VH y EO son negativos, el valor de EH se torna positivo (ver ecuación 8), con lo cual CAj y CBj se tornan positivos. En resumen, cada vez que los estímulos se presentan por separado, activan sólo la unidad adaptativa, generando la respuesta condicionada, mientras que cada vez que se presentan juntos, si bien tienden a activar la unidad adaptativa a través de sus conexiones directas con ésta, también la inhiben indirectamente, a través de su acción mancomunada sobre la unidad oculta, la cual, a su vez, inhibe a la unidad adaptativa.

El modelo SD es capaz de dar cuenta de un gran número de fenómenos de condicionamiento Pavloviano, incluyendo algunos de los más problemáticos, tales como el "señalamiento de la ocasión" (occassion setting), donde algunos estímulos más que desarrollar la capacidad par generar la RC, aparentemente desarrollan cierta habilidad para modular la respuesta de otros estímulos condicionados (Ross & Holland, 198l). El modelo SD explica estos fenómenos asumiendo que un estímulo puede actuar como un simple EC a través de sus conexiones directas con la unidad adaptativa y como un señalador de la ocasión a través de sus conexiones con las unidades ocultas (Schmajuk, Lamoureux & Holland, 1998).

Modelos con estímulos incondicionados moduladores

La mayor parte de los modelos descritos anteriormente tienen en común que asumen la representación más simple posible del EI. En rigor, todo lo que se asume es que los animales deben procesar el EI con el fin de generar la entrada "maestra" a partir de la cual se calcula el error para ajustar las conexiones de los ECs con la unidad adaptativa. En esta sección se discute una categoría de modelos en los cuales el EI cumple una función moduladora además de su tradicional rol de reforzamiento.

Grossberg (1975) propuso uno de los primeros modelos modulatorios de aprendizaje, el cual asume que el EC forma asociaciones tanto sensoriales como motivacionales con el EI. Específicamente, se asume que al parear un EC con un EI, se produce un cambio en la asociación entre la representación sensorial del EC y la representación del EI, de manera tal que el EC se transforma en un reforzador secundario y adquiere la capacidad de producir la repuesta. En segundo lugar, se establece una asociación entre la representación del EI y una representación secundaria del EC, de tal manera que el EI adquiere la capacidad de modular el grado de actividad del EC o atención que se pone a éste. El primer tipo de asociación se denomina "aprendizaje por reforzamiento" para designar el hecho de que el EC adquiere la capacidad para funcionar como si fuera el EI. El segundo tipo de asociación, se denomina "aprendizaje de incentivo- motivación" para designar el hecho de que el EC se transforma en un estímulo relevante al cual el animal aprende a prestar atención. En resumen, un EC bien entrenado adquiere las propiedades motivacionales del EI, monopoliza la atención del animal, sirve como reforzador para otros EC potenciales y genera la RC.

De forma similar, Wagner y Brandon (1989) propusieron una extensión del modelo SOP, llamada AESOP, la cual asume que el EC forma asociaciones tanto con aspectos sensoriales como emotivos del EI. La asociación del EC con el aspecto sensorial es responsable de la generación de respuestas condicionadas discretas, claramente distinguibles, mientras que la asociación con el aspecto emotivo es responsable de la generación de respuestas emocionales difusas las cuales actúan modulando a las respuestas discretas. Además, se asume que algunos ECs podrían ser más proclives a un tipo de asociación que a otro, y que ello puede depender del arreglo temporal de los estímulos. La incorporación de un mecanismo emotivo/modulador al modelo SOP fue inspirada principalmente por un fenómeno conocido como "divergencia de las medidas de respuestas" (Schneiderman, 1972), el cual se refiere a que algunas veces no hay correlación entre las distintas formas en las que se mide la respuesta condicionada. Por ejemplo, Tait y Saladin (1986) demostraron que pareamientos retrospectivos de un choque eléctrico en la mejilla con un EC auditivo en conejos producían condicionamiento inhibitorio si se evaluaba a través de la respuesta de parpadeo y condicionamiento excitatorio si se evaluaba a través de la respuesta emocional de supresión de la conducta de beber. Una interpretación posible para este hallazgo y otros similares (Brandon & Wagner, 1989), es que la respuesta condicionada discreta (el parpadeo) y la respuesta emocional condicionada (la supresión del beber) podrían estar controladas por distintos aspectos del EI y que la naturaleza de la asociación (excitatoria o inhibitoria) puede depender de requerimientos temporales propios para cada tipo de asociación.

Wagner, Brandon, y sus colegas (Brandon & Wagner, 1991; Brandon, Bombace, Falls & Wagner; 1991) realizaron una serie de experimentos para determinar cuáles son las condiciones bajo las cuales los ECs se asocian con los 2 aspectos del EI. La conclusión que obtuvieron es que las respuestas emocionales condicionadas tienden a desarrollarse con mayor facilidad con ECs extendidos o contextuales, mientras que las respuestas condicionadas discretas tienden a desarrollarse mejor con ECs cortos. Además, Gewirtz, Brandon y Wagner (1998) sugirieron que las respuestas emocionales condicionadas no sólo modulan la expresión de las respuestas condicionadas discretas, sino que también influyen en su adquisición.

La modificación que se hizo a SOP para explicar estos fenómenos, consistió en asumir que el EI controla 2 unidades representacionales independientes, una para el aspecto sensorial y la otra para el aspecto emocional. La asociación del EC con el aspecto sensorial es la responsable de la generación de la RC discreta, mientras que la conexión del EC con la unidad emotiva es responsable de la generación de la respuesta emocional condicionada. AESOP usa las mismas reglas que SOP para la formación de asociaciones y las diferencias entre RC discretas y emocionales se obtienen por diferencias de parámetros. Esta diferencia de parámetros busca reflejar el hecho de que la representación emotiva dura más que la representación sensorial, haciéndola más efectiva con intervalos más bien largos.

Tanto la teoría de Grossberg como el modelo AESOP son descripciones muy sofisticadas y completas de los fenómenos del condicionamiento, abarcando áreas tan diversas como los fenómenos temporales y la competencia de estímulos. Pese a esta sofisticación, y quizás precisamente a causa de ésta, estos modelos no han promovido mucha investigación empírica.

 

CUARTA GENERACIÓN: APRENDIZAJE CAUSAL EN HUMANOS

En un estudio típico de aprendizaje causal humano se presenta a los sujetos información acerca de una serie de eventos (como comer determinados alimentos) que son seguidos o no por una consecuencia (como desarrollar una alergia), para luego preguntarles hasta qué nivel estiman que los eventos predicen tal consecuencia o se relacionan con ella (cuáles alimentos producen la alergia y cuáles no). Resulta fácil ver cómo este procedimiento puede considerarse análogo al utilizado en estudios de condicionamiento pavloviano, si se asume que los eventos predictores (por ejemplo, los alimentos) juegan el rol de los ECs, que el evento a predecir (por ejemplo, la alergia) el del EI y que la predicción es análoga a la RC.

Varios autores (Dickinson, Shanks & Evenden, 1984; Allan, 1993) han sugerido que la analogía entre el aprendizaje causal humano y el condicionamiento clásico podría darse también al nivel de los mecanismos que subyacen a ambos. La idea básica es que los eventos y consecuencias de una tarea de juicios causales pueden ser representados por los sujetos mediante unidades sensoriales similares a las de la Figura 1 y la efectividad con que se juzga que un evento puede producir un resultado es reflejo de la fuerza asociativa de la conexión entre ambos, que se modifica según reglas de aprendizaje similares a la de Rescorla y Wagner. Esta interpretación se ha visto fortalecida por hallazgos que indican que los fenómenos típicos del condicionamiento clásico se producen también en el aprendizaje causal (Allan, 1993).

Recientemente, sin embargo, se ha descubierto un nuevo fenómeno, conocido como "reevaluación retrospectiva", en el cual los sujetos parecen reevaluar aquello que han aprendido acerca de algunos estímulos en función de su experiencia con otros estímulos diferentes. En un experimento de "bloqueo retrospectivo", por ejemplo, se presenta un compuesto de dos estímulos A y B (por ejemplo, huevo y tomate) seguidos por una reacción alérgica, con el resultado de que el sujeto juzga que ambos estímulos son "buenos predictores" de la reacción alérgica. En una segunda fase, se presenta solamente el estímulo A (por ejemplo, huevo) seguido por la reacción alérgica. En una fase de prueba posterior, los sujetos juzgan que el estímulo B (tomate) es un mal predictor de la reacción alérgica. La interpretación común es que en la fase 2 el sujeto "reevalúa retrospectivamente" el valor causal o predictivo del estímulo B, extinguiendo el valor asociativo de B, aunque este estímulo no se encuentra presente (Chapman, 1991).

Además del bloqueo retrospectivo, se ha demostrado la existencia de otros fenómenos similares, tales como el desensombrecimiento (Larkin, Aitken & Dickinson, 1998) y la inhibición condicionada retrospectiva (Chapman, 1991). El principal problema de los modelos asociacionistas tradicionales para dar cuenta de estos fenómenos, es que asumen que los animales solamente pueden aprender a partir de las claves físicamente presentes durante la situación de refuerzo. Por ejemplo, en el bloqueo retrospectivo la presentación de A durante la segunda fase de entrenamiento no debería afectar la fuerza asociativa de la clave ausente B.

El descubrimiento de la reevaluación retrospectiva ha sido tomado como una de las principales evidencias en contra de la adecuación de una explicación asociativa para el aprendizaje causal humano. Sin embargo, en los últimos años se aprecian esfuerzos por explicar estos fenómenos dentro de la perspectiva asociacionista. En las siguientes secciones presentamos 3 modelos asociativos que se han formulado con estos fines.

El modelo de Rescorla y Wagner modificado (Van Hamme & Wasserman, 1994)

El modelo de Rescorla-Wagner no entrega significación psicológica a los ECs ausentes durante un ensayo de aprendizaje, asignándoles un valor de a igual a cero. Con el fin de explicar la reevaluación retrospectiva, Van Hamme y Wasserman (1994) propusieron que el parámetro a asuma un valor negativo en aquellos ensayos en los que el EC no está pero existen expectativas respecto a su aparición. Dichas expectativas podrían depender de la presencia de un estímulo previamente asociado con el EC ausente o de instrucciones verbales. El modelo asume, además, que durante presentaciones de ECs compuestos se producen asociaciones entre sus elementos, con lo cual la presentación de uno de ellos activa automáticamente la representación del otro.

Según este modelo, en la primera fase del bloqueo retrospectivo (AB+), los ECs A y B se asocian entre sí y con el EI. En la segunda fase (A+), el estímulo A continúa ganando fuerza asociativa y el estímulo B, que no está presente pero es "esperado" debido a su asociación con A, presenta un valor αB negativo, con lo cual pierde fuerza asociativa. Nótese que un EC ausente también puede ganar fuerza asociativa cuando el valor negativo de a interactúa con un valor negativo del término de error (1 – SV). El principio general es que los estímulos ausentes, pero esperados, cambian su fuerza asociativa en dirección opuesta a los estímulos presentes.

En concordancia con la explicación que entregan Van Hamme y Wasserman, varias investigaciones han comprobado que las asociaciones intracompuesto (Chapman, 1991; Larkin, Aitken & Dickinson, 1998) y la información verbal acerca de una clave ausente (Wasserman & Castro, 2005) pueden ser determinantes en la observación de reevaluación retrospectiva. Sin embargo, se ha criticado a este modelo que no explica satisfactoriamente cómo una asociación intracompuesto lleva a que el valor de a sea negativo para una clave ausente, y por qué el mismo proceso no afecta a la representación asociativamente activada del EI. El modelo que describimos en la sección siguiente fue formulado para resolver este problema.

El modelo SOP modificado (Dickinson & Burke, 1996)

En el modelo SOP original (Wagner, 1981), el aprendizaje de un EC sólo ocurre cuando su representación se encuentra en un estado primario de actividad A1, que se produce sólo después de la presentación física del estímulo. Ya que la actividad secundaria del EC no produce aprendizaje alguno, Dickinson y Burke (1996) propusieron que otorgarle dicha propiedad podría ser la forma para dotar a SOP de un mecanismo de aprendizaje para EC ausentes. Para implementar esta idea, los autores suponen que dos estímulos A y B que se presentan juntos terminan por asociarse, y la presencia física de uno adquiere la capacidad de generar actividad secundaria en el otro. Además se extienden las reglas de aprendizaje del modelo, planteando que el aprendizaje excitatorio entre dos estímulos es proporcional al grado en que coinciden en el mismo tipo de actividad (A1AA1B o A2AA2B) y el aprendizaje inhibitorio es proporcional al grado en que concurren distintos tipos de actividad (A1AA2B o A2AA1B).

Según el modelo, durante la primera fase del procedimiento de bloqueo retrospectivo se forman asociaciones intracompuesto entre los elementos del compuesto AB, las que determinan la activación en A2 de los elementos del estímulo B cuando se presenta el estímulo A aisladamente, y viceversa. El bloqueo retrospectivo no sería una consecuencia necesaria de la contingencia AB+ A+, porque las presentaciones de A durante la segunda fase activarían una proporción de los elementos del EI al estado A2, mientras otra proporción es activada al estado A1 a través de la presencia del EI mismo. De este modo, aún cuando los elementos del estímulo B se ven promovidos al estado A2 durante estos ensayos, esto fortalece tanto las conexiones excitatorias (por medio de A2BA2EI) como inhibitorias (por medio de A2BA1EI) con el EI. La ocurrencia del bloqueo retrospectivo dependerá de cuál de los dos procesos tiene una mayor fuerza. Esta ambigüedad no es necesariamente incorrecta, ya que el fenómeno de bloqueo retrospectivo no siempre se obtiene (Larkin, Aitken & Dickinson, 1998).

El modelo SOP modificado también predice que, bajo ciertas condiciones, es posible que se produzca aprendizaje completamente nuevo a partir de estímulos ausentes. Por ejemplo, la activación simultánea de la representación de dos estímulos ausentes debería llevar a un fortalecimiento de las conexiones excitatorias entre ambos, dado que se ha producido una actividad del tipo A2-A2. Si bien esta predicción ha resultado correcta en investigaciones del condicionamiento clásico animal (Dwyer, Mackintosh & Boakes, 1998), Le Pelley y McLaren (2001) han sido incapaces de encontrar nuevo aprendizaje a partir de estímulos ausentes con humanos. Esto les ha llevado a plantear una alternativa, que se discute a continuación.

El modelo APECS de Le Pelley y McLaren (2001)

La dificultad que tuvieron Le Pelley y McLaren (2001) para encontrar nuevo aprendizaje a partir de estímulos ausentes, a pesar de que sí les fue posible modificar asociaciones preexistentes, los ha llevado a plantear que la reevaluación retrospectiva no se debe a un proceso de nuevo aprendizaje mediado por asociaciones intracompuesto, sino a cambios en la capacidad para recuperar una representación previamente guardada en la memoria.

El modelo APECS originalmente fue diseñado para proteger ciertas asociaciones del desaprendizaje una vez que cambian las contingencias que les dieron origen (por ejemplo, en la extinción), simplemente dificultando su activación y no eliminando el aprendizaje original. El modelo posee una arquitectura con unidades escondidas, pero asume un procesamiento completamente configuracional de estímulos que no incluye conexiones directas entre las unidades sensoriales y las unidades de salida, sino que tanto estímulos aislados como compuestos son representados por una unidad configuracional escondida independiente, la que a su vez establece conexiones directas con las unidades de salida. Las unidades escondidas son, en este contexto, unidades configuracionales que representan un patrón particular de estimulación. El panel B de la Figura 3 muestra un ejemplo de la arquitectura de APECS para dos ECs y un EI.

En términos generales, las conexiones entre las unidades configuracionales escondidas y la unidad de salida (VHk), y las conexiones entre unidades sensoriales y configuracionales (Cij) se modifican de acuerdo con reglas de aprendizaje por retropropagación como las propuestas por Rumelhart y col. (1986). Lo más interesante de este modelo es su proceso de memoria, en el cual una representación configuracional se hace refractaria, protegiendo a sus asociaciones contra el desaprendizaje. Esta característica se obtiene mediante dos mecanismos. Primero, la actividad de cada unidad configuracional se encuentra modulada por una unidad de sesgo (las unidades pequeñas adyacentes a cada unidad configuracional en la Figura 3 B), que se mantiene con un nivel de activación constante de 1, y cuya conexión con la unidad configuracional (VBj) se modifica de la misma manera que la conexión entre unidades sensoriales y configuracionales (Cij). De este modo, la unidad de error tiene una influencia continua sobre la unidad configuracional, pero el monto de tal influencia puede verse modificado. La influencia de esta unidad de error sobre una representación configuracional es la que puede hacer que tal representación sea más fácil o más difícil de activar a partir del patrón de estímulos físicos que le dio origen, lo que depende de la naturaleza (excitatoria o inhibitoria) y magnitud de la conexión entre la unidad de error y la unidad escondida.

El segundo mecanismo especial del modelo APECS consiste en el congelamiento de algunas conexiones en la red cuando el valor del error de predicción es negativo, lo que permite mantener tales conexiones intactas aún bajo un cambio en las contingencias que les dieron origen. De este modo, una vez que se han desarrollado las asociaciones para poder predecir un refuerzo a partir de una cierta configuración de estímulos, si posteriormente tal configuración lleva a una predicción errónea acerca de la presentación del refuerzo, se reducen automáticamente los parámetros de aprendizaje hasta un valor cercano a cero para todas las conexiones previamente establecidas. Aún así, la red logra adaptarse a las nuevas contingencias debido a que las conexiones de la unidad de error no sufren del mismo proceso de congelamiento, y pueden modificarse para dificultar la activación de la unidad escondida cuando se presenta el patrón de estímulos correspondiente.

La explicación para los fenómenos de reevaluación retrospectiva se funda en el carácter configuracional del modelo APECS. Por ejemplo, durante la primera fase del bloqueo retrospectivo (AB+) se formaría una representación configuracional de AB que puede luego activarse por la presentación de cualquiera de sus componentes. De este modo, los ensayos con A durante la segunda fase de entrenamiento activan la representación configuracional de AB, la que se ve sometida tanto a cambios por aprendizaje (i.e., en su conexión con la unidad de salida) como debidos a la interferencia retroactiva (i.e., cambios en el valor de la conexión desde la unidad de error). Por último, toda respuesta frente a B en una fase de prueba es resultado de la activación de la unidad configuracional AB y, por lo tanto, depende de los procesos de aprendizaje y memoria que han afectado a esta unidad durante la segunda fase.

Las predicciones del modelo APECS con respecto a los fenómenos de reevaluación retrospectiva son similares a las del modelo SOP modificado, pero el primero predice que no es posible obtener nuevo aprendizaje a partir de claves ausentes, mientras el segundo predice que tal aprendizaje sí ocurrirá bajo ciertas condiciones. En este aspecto, la evidencia experimental no es concluyente aún (Dwyer, Mackintosh & Boakes, 1998; Le Pelley & McLaren 2001). Otro aspecto específico al modelo APECS es que no apela a la necesidad de asociaciones intracompuesto para explicar la reevaluación retrospectiva. Aún así, el modelo es capaz de explicar algunos de los experimentos que han comprobado que tal relación sí existiría (Dickinson & Burke, 1996), pero no todos ellos (Chapman, 1991). Su principal aporte es que, sin salir de la tradición de modelos cuantitativos asociacionistas, logra entregar una explicación a la reevaluación retrospectiva completamente distinta a la entregada por su competencia, basada en un cambio en la facilidad para recuperar una representación de la memoria.

Ninguno de los modelos revisados en esta sección ha logrado situarse sobre el resto en la explicación del aprendizaje a partir de claves ausentes. Suelen entregar predicciones muy similares que no permiten diferenciar claramente entre ellos. Además todos presentan dificultades en la predicción de ciertos hallazgos tales como la "reevaluación retrospectiva de orden superior" (De Houwer & Beckers, 2002) y otros fenómenos, como el precondicionamiento sensorial y el condicionamiento mediado, en los cuales se comprueba nuevo aprendizaje para estímulos ausentes en la misma dirección que para los estímulos presentes, justo el resultado contrario a lo observado en fenómenos de reevaluación retrospectiva.

La explicación de estos resultados contradictorios requiere un mayor conocimiento acerca de las condiciones que llevan a uno u otro resultado, las cuales han comenzado a ser estudiadas e incluidas en modelos matemáticos recién en los últimos años. Algunos de estos modelos explican gran parte de estos fenómenos a través de mecanismos que incidirían en la ejecución de la respuesta más que en el aprendizaje (Stout & Miller, 2005).

 

COMENTARIOS FINALES

En este artículo hemos intentado destacar algunos de los hitos del devenir de la tradición cuantitativa en las teorías del condicionamiento Pavloviano. Con el fin de acotar la gran diversidad de alternativas teóricas que se han propuesto, hemos agrupado los modelos en 4 categorías o generaciones. Si bien cada nueva generación representa un aumento en la complejidad de los modelos, ello no significa necesariamente que las últimas generaciones remplacen completamente los niveles de análisis de las generaciones anteriores.

En cada generación de modelos aún hay abundante debate teórico y trabajo empírico por hacer. Por ejemplo, en el ámbito de los modelos de ensayo discreto quizá el tema más candente hoy en día se refiera a si los estímulos compuestos deben representarse como configuraciones o como elementos separados. Los trabajos recientes en los laboratorios de Allan Wagner y John Pearce, muestran que este tema aún no se ha resuelto.

Por otra parte, la sensibilidad temporal con la que se ha comenzado a analizar la topografía de la respuesta en los nuevos paradigmas experimentales, ha mostrado que la RC no es una mera replica de la RI, sino que es altamente sensible a un número de parámetros relacionadas con los EIs y ECs. En este ámbito, los investigadores se han visto en la necesidad de aceptar que la asociación no ocurre entre un EC y un EI sino entre componentes de los estímulos. Este análisis más bien molecular, ha resultado ser altamente conveniente para describir e investigar acerca de los mecanismos neurobiológicos del aprendizaje.

Finalmente, el descubrimiento de similitudes empíricas entre el condicionamiento Pavloviano y el aprendizaje de relaciones de causalidad en humanos, reactivó el interés por el condicionamiento en ámbitos de investigación que generalmente miraban con desdeño los procedimientos de investigación animal y su potencial capacidad para aplicarla a los fenómenos humanos "cognitivos". Sin embargo, la teorización en este ámbito es aún insipiente y enfrenta grandes dificultades, tales como el fenómeno de la reevaluación retrospectiva, que ha sido visto por algunos como una prueba de la inconveniencia de esta extrapolación. Otros han comenzado a formular ciertas soluciones teóricas basadas en los modelos conexionistas tradicionales.

Sin duda, el debate continuará en los próximos años, enriqueciendo aún más nuestro conocimiento de uno de los fenómenos más largamente estudiados en Psicología experimental. A través de esta revisión, esperamos haber mostrado que el condicionamiento Pavloviano es un fenómeno plenamente vigente en la actualidad.

 

REFERENCIAS

Allan, L. G. (1993). Human contingency judgements: Rule based or associative? Psychological Bulletin, 114, 436-448.        [ Links ]

Aydin, A. & Pearce, J.M. (1995). Summation in autoshaping with short and long-duration stimuli. Quarterly Journal of Experimental Psychology, 48B, 215-234.        [ Links ]

Brandon, S. E., Bombace, J. C., Falls, W., & Wagner, A. R. (1991). Modulation of unconditioned defensive reflexes via an emotive Pavlovian conditioned stimulus. Journal of Experimental Psychology: Animal Behavior Processes, 17, 312-322.        [ Links ]

Brandon, S. E., Vogel, E. H.,&Wagner, A. R. (2000). A componential view of configural cues in generalization and discrimination in Pavlovian conditioning. Behavioural Brain Research, 110, 67-72.        [ Links ]

Brandon, S.E., Vogel, E.H., & Wagner, A.R. (2003). Stimulus representation in SOP: I. Theoretical rationalization and some implications. Behavioural Processes, 62, 2-26.        [ Links ]

Brandon, S. E., & Wagner, A. R. (1991). Modulation of a discrete Pavlovian conditioning reflex by a putative emotive Pavlovian conditioned stimulus. Journal of Experimental Psychology: Animal Behavior Processes, 17, 299-311.        [ Links ]

Bush, R. R., & Mosteller, F. (1955). Stochastic models for learning. Nueva York: Wiley.        [ Links ]

Chapman, G. B. (1991). Trial order affects cue interaction in contingency judgements. Journal of Experimental Psychology: Learning, Memory and Cognition, 17, 837-854.        [ Links ]

Coleman, S. R., & Gormezano, I. (1971). Classical conditioning of the rabbit’s (Orictolagus cuniculus) nictitating membrane response under symmetrical CS-US intervals shifts. Journal of Comparative and Physiological Psychology, 77, 447-455.        [ Links ]

De Houwer, J., & Beckers, T. (2002). Higher-order retrospective revaluation in human causal learning. Quarterly Journal of Experimental Psychology, 55B, 137-151.        [ Links ]

Desmond, J. E., & Moore, J. W. (1988). Adaptive timing in neural networks: The conditioned response. Biological Cybernetics, 58, 405-415.        [ Links ]

Dickinson, A., & Burke, J. (1996). Within-compound associations mediate the retrospective revaluation of causality judgements. Quarterly Journal of Experimental Psychology, 49B, 60-80.        [ Links ]

Dickinson, A., Shanks, D., & Evenden, J. (1984). Judgement of act-outcome contingency: The role of selective attribution. Quarterly Journal of Experimental Psychology, 36A, 29-50.        [ Links ]

Donegan, N. H. (1981). Priming-produced facilitation or diminution of responding to a Pavlovian unconditioned stimulus. Journal of Experimental Psychology: Animal Behavior Processes, 7, 295-312.        [ Links ]

Donegan, N. H., & Wagner, A. R. (1987). Conditioned diminution and facilitation of the UR: A sometimes opponent-process interpretation. En I. Gormezano, W. F. Prokasy, & R. F. Thompson (Eds.), Classical Conditioning. Hillsdale, NJ: Erlbaum.        [ Links ]

Dwyer, D. M., Mackintosh, N. J., & Boakes, R. A. (1998). Simultaneous activation of the representation of absent cues results in the formation of an excitatory association between them. Journal of Experimental Psychology: Animal Behavior Processes, 24, 163- 171.        [ Links ]

Estes, W. K. (1950). Toward a statistical theory of learning. Psychological Review, 57, 94-104.        [ Links ]

Gallistel, R., & Gibbon, J. (2000). Time, rate and conditioning. Psychological Review, 107, 289-344.        [ Links ]

Gewirtz, J. C., Brandon, S. E., & Wagner, A. R. (1998). Modulation of the acquisition of the rabbit eyeblink conditioned response by conditioned contextual stimuli. Journal of Experimental Psychology: Animal Behavior Processes, 24, 106-117.        [ Links ]

Grossberg, S. (1975). A neural model of attention, reinforcement and discrimination learning. International Review of Neurobiology, 18, 263-327.        [ Links ]

Grossberg, S., & Schmajuk, N. A. (1989). Neural dynamics of adaptive timing and temporal discrimination during associative learning. Neural Networks, 2, 79-102.        [ Links ]

Hall, G., & Pearce, J. M. (1979). Latent inhibition of a CS during CS-US pairings. Journal of Experimental Psychology: Animal Behavior Processes, 5, 31-42.        [ Links ]

Hull, C. L. (1943). Principles of behavior: An introduction to behavior theory. Nueva York: Appleton-Century-Crofts.        [ Links ]

Kamin, L. J. (1968). "Attention-like" processes in classical conditioning. En M. R. Jones (Ed.), Miami Symposium on the Prediction of Behavior: Aversive stimulation (pp. 9-33). Miami: University of Miami Press.        [ Links ]

Larkin, M. W., Aitken, M. R., & Dickinson, A. (1998). Retrospective revaluation of causal judgements under positive and negative contingencies. Journal of Experimental Psychology: Learning, Memory and Cognition, 24, 1331-1352.        [ Links ]

Le Pelley, M. E., & McLaren, I. P. L. (2001). Retrospective revaluation in humans: Learning or memory? Quarterly Journal of Experimental Psychology, 54B, 311-352.        [ Links ]

Lubow, R.E. (1973). Latent inhibition. Psychological Bulletin, 79, 398-407.        [ Links ]

Mackintosh, N. J. (1975). A theory of attention: Variations in the associability of stimuli with reinforcement. Psychological Review, 82, 276-298.        [ Links ]

Marcos, J. L. (1997). Modulación condicionada de la respuesta incondicionada en el condicionamiento clásico humano. Psicothema, 9, 155-165.        [ Links ]

Marcos, J. L., & Redondo, J. (2002). Efectos diferenciales de los mecanismos asociativos y de expectación sobre la disminución de la respuesta incondicionada en el condicionamiento clásico electrodérmico. Psicothema, 14, 375-381.        [ Links ]

McCormick, D. A., & Thompson, R. F. (1983). Cerebellum: Essential involvement in the classically conditioned eyelid response. Science, 223, 296-299.        [ Links ]

McLaren, I. P. L., & Mackintosh, N. J. (2000). An elemental model of associative learning: I. Latent inhibition and perceptual learning. Animal learning and Behavior, 28, 211-246.        [ Links ]

Medina, J. F., Garcia, K. S., Nores, W. L., Taylor, N. M., & Mauk, M. D. (2000). Timing mechanisms in the cerebellum: Testing predictions of a large-scale computer simulation. The Journal of Neuroscience, 20, 5516-5525.        [ Links ]

Millenson, J. R., Kehoe, E. J., & Gormezano, I. (1977). Classical conditioning of the rabbit’s nictitating membrane response under fixed and mixed CS-US intervals. Learning and Motivation, 8, 351-366.        [ Links ]

Moore, J. W., & Stickney, K. J. (1980). Formation of attentional-associative networks in real time: Role of the hippocampus and implications for conditioning. Physiological Psychology, 8, 207-217.        [ Links ]

Myers, K. M., Vogel, E. H., Shin, J., & Wagner, A. R. (2001). A comparison of the Rescorla-Wagner and Pearce models in a negative patterning and a summation problem. Animal Learning and Behavior, 29, 36-45.        [ Links ]

Pavlov, I. P. (1927). Conditioned reflexes. Londres: Oxford University Press.        [ Links ]

Pearce, J. M. (1987). A model for stimulus generalization in Pavlovian conditioning. Psychological Review, 94, 61-73.        [ Links ]

Pearce J. M. (2002). Evaluation and development of a connectionist theory of configural learning. Animal Learning and Behavior, 30, 73-95.        [ Links ]

Pearce, J. M., & Hall, G. (1980). A model for Pavlovian learning: Variations in the effectiveness of conditioned but not unconditioned stimuli. Psychological Review, 87, 532-552.        [ Links ]

Rescorla, R. A. (1980a). Pavlovian second-order conditioning: Studies in associative learning. Hillsdale, NJ: Erlbaum.        [ Links ]

Rescorla, R. A. (1980b). Simultaneous and successive associations in sensory preconditioning. Journal of Experimental Psychology: Animal Behavior Processes, 6, 207-216.        [ Links ]

Rescorla, R.A. (1997). Summation: Assessment of a configural theory. Animal Learning and Behavior, 25, 200-209.        [ Links ]

Rescorla, R. A., & Wagner, A. R. (1972). A theory of Pavlovian conditioning: Variations in the effectiveness of reinforcement and non reinforcement. En A. H. Black, & W.F. Prokasy (Eds.), Classical Conditioning II: Current Theory and Research. Nueva York: Appleton-Century-Crofts.        [ Links ]

Ross, R. T., & Holland, P. C. (1981). Conditioning of simultaneous and serial feature-positive discriminations. Animal Learning and Behavior, 9, 292-303.        [ Links ]

Rumelhart, D. E., Hinton, G. E., & Williams, G. E. (1986). Learning internal representations by error propagation. En D. E. Rummelhart & J. L. Mclelland (Eds.) , Parallel Distributed Processing: Explorations in the Microstructure of Cognition: Vol. 1, Foundations. Cambridge, MA: Bradford MIT Press.        [ Links ]

Schmajuk, N. A. (1997). Animal learning and cognition: A neural network approach. Cambridge: Cambridge University Press.        [ Links ]

Schmajuk, N. A., & Dicarlo, J. J. (1992). Stimulus configuration, classical conditioning, and hippocampal function. Psychological Review, 99, 268-305.        [ Links ]

Schmajuk, N. A., & Moore, J. W. (1985). Real-time attentional models for classical-conditioning and the hippocampus. Physiological Psychology, 13, 278-290.        [ Links ]

Schmajuk, N. A., Lamoureux, J. A., & Holland, P. C. (1998). Occasion setting: A neural network approach. Psychological Review, 105, 3-32.        [ Links ]

Schneiderman, N. (1972). Response system divergences in aversive classical conditioning. En A. H. Black, & W. F. Prokasy (Eds), Classical conditioning II: Current theory and research. Nueva York: Appleton-Century-Crofts.        [ Links ]

Siegel, S., & Domjan, M. (1971). Backward conditioning as an inhibitory procedure. Learning and Motivation, 2, 1-11.        [ Links ]

Smith, M. C., Coleman, S. R., & Gormezano, I. (1969). Classical conditioning of the rabbit’s nictitating membrane response at backward, simultaneous, and forward CS-US intervals. Journal of Comparative and Physiological Psychology, 69, 226-231.        [ Links ]

Spence, K. (1945). An experimental test of continuity and non-continuity theories of discrimination learning. Journal of Experimental Psychology, 35, 253-266.        [ Links ]

Spence, K. W. (1960). Behavior theory and learning. Englewood Cliffs, NJ: Prentice-Hall.        [ Links ]

Stout, S. C., & Miller, R. R. (2005). Sometimes competing retrieval: A formalization of the comparator hypothesis. Manuscrito enviado para su publicación.        [ Links ]

Sutton, R. S., & Barto, A. G. (1981). Toward a modern theory of adaptive networks: Expectation and prediction. Psychological Review, 88, 135-170.        [ Links ]

Sutton, R. S., & Barto, A. G. (1990). Time-derivative models of Pavlovian reinforcement. En M. Gabriel, & J. W. Moore (Eds.), Learning and computational neuroscience: Foundations of adaptive networks (pp. 497-534). Cambridge, MA: The MIT Press.        [ Links ]

Tait, R. W., & Saladin, M. E. (1986). Concurrent development of excitatory and inhibitory associations during backward conditioning. Animal Learning and Behavior, 14, 133-137.        [ Links ]

Van Hamme, L. J., & Wasserman, E. A. (1994). Cue competition in causality judgements: The role of nonpresentation of compound stimulus elements. Learning and Motivation, 25, 127-151.        [ Links ]

Vogel, E. H., Brandon, S. E., & Wagner, A. R. (2003). Stimulus Representation in SOP: II. An application to inhibition of delay. Behavioural Processes, 62, 27-48.        [ Links ]

Wagner, A. R. (1981). SOP: A model of automatic memory processing in animal behavior. En N. E. Spear, & R. R. Miller (Eds.), Information Processing in Animals: Memory mechanisms. Hillsdale, NJ: Erlbaum.        [ Links ]

Wagner, A. R. (2003). Context-sensitive elemental theory. The Quarterly Journal of Experimental Psychology, 56B, 7-29.        [ Links ]

Wagner, A. R., & Brandon, S. E. (1989). Evolution of a structured connectionist model of Pavlovian conditioning (AESOP). En S. B. Klein, & R. R. Mowrer (Eds.), Contemporary learning theories: Pavlovian Conditioning and the Status of Traditional Learning Theory. Hillsdale, NJ: Erlbaum.        [ Links ]

Wagner, A. R., Logan, F. A., Haberlandt, K., & Price, T. (1968). Stimulus selection in animal discrimination learning. Journal of Experimental Psychology, 76, 171-180.        [ Links ]

Wagner, A. R. & Rescorla, R. A. (1972). Inhibition in Pavlovian conditioning: Application of a theory. En M. S. Halliday & R. A. Boakes (Eds.), Inhibition and learning. San Diego, CA: Academic Press.        [ Links ]

Wagner, A. R., Rudy, J. W., & Whitlow, J.W. (1973). Rehearsal in animal conditioning. Journal of Experimental Psychology, 97, 407-426.        [ Links ]

Whitlow, J. W. (1975). Short-term memory in habituation and dishabituation. Journal of Experimental Psychology: Animal Behavior Processes, 1, 189-206.        [ Links ]

Wasserman, E. A., & Castro, L. (2005). Surprise and change: Variations in the strength of present and absent cues in causal learning. Learning and Behavior, 33, 141-146.        [ Links ]

Zimmer-Hart C. L., & Rescorla R. A. (1974). Extinction of pavlovian conditioned inhibition. Journal of Comparative and Physiological Psychology, 86, 837-845.        [ Links ]

 

 

Recepción: mayo de 2005
Aceptación final: junio de 2006
Agradecimientos: Esta investigación fue financiada por el Proyecto Regular Fondecyt Nº 1040109.

 

 

1 Correspondencia: EDGAR H. VOGEL, Universidad de Talca, Escuela de Psicología, Casilla Nº 747, Talca, Chile. E-mail: evogel@utalca.cl