SciELO - Scientific Electronic Library Online

 
vol.22 issue2Can stimuli related to the absence of reward reduce impulsivity in rats?Permutation of conventional properties in a procedure designed to assess the selector function author indexsubject indexarticles search
Home Pagealphabetic serial listing  

Acta Comportamentalia

Print version ISSN 0188-8145

Acta comport. vol.22 no.2 Guadalajara  2014

 

Article

 

La loi généralisée de appariement: Une simulation de Monte-Carlo1

 

The generalized matching law: a Monte Carlo simulation

 

 

Pier-Olivier Caron

Escuela de Medicina Ciencias de la Salud de Ponce, Puerto Rico

 

 


RÉSUMÉ

La loi généralisée de l'appariement (LGA) est un modèle descriptif conceptualisant le ratio des réponses en fonction du ratio des renforçateurs (Baum, 1974). Les résultats des études montrent généralement une sensibilité autour de 0,80 et des variances expliquées (r2) supérieures à 0,80 (Davison & McCarthy, 1988). Les r2 très élevés de la LGA suggèrent la présence de contraintes inhérentes à la plupart des situations opérantes. Dans un programme de renforcement concurrent à intervalle variable, par exemple, la quantité de renforçateurs ne peut surpasser la quantité de comportements émis. L'objectif de la présente étude est de simuler les résultats de la LGA lorsque cette contrainte est implantée à des échantillons pseudoaléatoires. Au total, seize conditions sont répliquées 1 500 fois, représentant 24 000 essais. Les résultats montrent que la LGA obtient en moyenne un r2 de 47 %, une sensibilité de 0,60 et un biais nul. Les résultats suggèrent que des r2 de 0,62, 0,80 et 0,97 sont qualifiables, respectivement, de petite, moyenne et forte différence comparativement à 0,47. La perspective de la présente étude est comparée aux simulations de McDowell (2004) et des pistes de recherche futures sont présentées.

Mots-clés: loi de l'appariement, variance expliquée, simulation, Monte-Carlo, fonction de feedback


ABSTRACT

The generalized matching law (GML) is a descriptive mathematical model that conceptualizes an organism's response ratios as a function of associated reinforcer ratios (Baum 1974). The matching equation has been used in several experimental and natural studies and results frequently showed explained variances (r2) over 80% and sensitivity of 0.80 (Davison & McCarthy 2010). This high level of r2 might suggest that constraints within operant conditioning procedures may inflate GML parameters. For instance, in most operant procedures, such as a concurrent variable-interval schedule of reinforcement, the amount of reinforcers obtained is always lower or equal to the amount of responses, which can be seen as an emergent property of feedback functions. The purpose of the current study is to apply the GML to pseudorandomly sampled data in which this constraint has been computed. A Monte Carlo simulation shows that the generalized matching law explained on average 47 % of the variance, with sensitivity around a value of 0.60 and bias of log c = 0.00. Results found in the current study could be used as an alternative null hypothesis for future studies in natural settings. For instance, explained variances of 0.62, 0.80, and 0.97 could be qualify, respectively, as small, medium and large differences compared to 0.47. The current study is finally compared to McDowell's (2004) simulations. McDowell computed behavioral processes, such as the selection by consequences (Skinner, 1981), within the organism whereas the current study investigates environmental and observational constraints on the regressions estimates. Current results suggest further investigations of underlying environmental constraints when studying the GML. Futures studies are necessary to assess what to expect from the GML when such constraints occur in the operant conditioning procedure.

Keywords: explained variance, matching law, Monte Carlo, simulation, feedback function


 

 

« If the matching law accounts for 90 % of the variance,
that's good enough for me. I'm not greedy.
»
R.J. Herrnstein à J.E. Mazur (Mazur, 2006, p.279)

 

La loi de l'appariement est un modèle quantitatif issu de l'analyse expérimentale du comportement (Herrnstein, 1961). Elle est à l'origine de l'augmentation des modèles mathématiques au sein de la discipline et de la formation de la Society for the Quantitative Analyses of Behavior (Forget, Donais & Giroux, 2001; Mazur, 2006). En 1993, plusieurs articles au sommet de la liste des trente articles les plus cités au sein du Journal of the Experimental Analysis of Behavior traitaient de la loi de l'appariement (JEAB, 1993). Elle a engendré, entre autres, l'hypothèse de l'amélioration locale (Herrnstein, 1997), la théorie de l'inertie comportementale (Nevin & Grace, 2000), le modèle de la discriminabilité des contingences (Davison & Jenkins, 1985), la théorie de la sensibilité sociale (Forget & Rivard, 2010), le modèle des choix contextuels (Grace & Hucks, 2013), le modèle de la dévaluation hyperbolique (Mazur, 2001), le modèle computationnel de la sélection par les conséquences (McDowell, 2004) ou encore, la théorie de la maximisation molaire (Rachlin, Battalio, Kagel & Green, 1981). La loi de l'appariement prédit que la distribution des choix d'un organisme est fonction des ratios de renforçateurs qu'il obtient. Cette relation est représentée mathématiquement par l'équation (1) :

B1/B2 =R1/R2 (1)

où les Bs et les Rs sont respectivement la quantité de réponses émises et la quantité de renforçateurs obtenus. Bien que la loi de l'appariement se soit révélée un modèle puissant et fertile, une série importante de travaux montre qu'une fonction puissance décrit mieux les choix des organismes lorsque ceux-ci se retrouvent devant des alternatives de renforcement telles qu'un programme de renforcement concurrent (Baum, 1979; Davison & McCarthy, 1988; de Villiers, 1977; McDowell, 2013a; Wearden & Burgess, 1982). Cette version se nomme la loi généralisée de l'appariement (LGA; Baum, 1974) et se retrouve le plus souvent dans la littérature empirique sous forme logarithmique :

log(B1/B2) = a log(R1/R2) + log c (2)

où le paramètre a, le degré de la pente dans l'équation (2), représente la sensibilité ou l'ajustement de l'organisme aux contingences de renforcement et où le paramètre c, l'ordonnée à l'origine, représente le biais ou la préférence d'un organisme pour l'un des comportements. L'utilité des logarithmes est de transformer la fonction puissance en fonction linéaire et de rendre l'interprétation de la sensibilité et du biais graphiquement intuitive. La sensibilité et le biais sont estimés, sans contrainte statistique, à partir d'une régression ordinaire des moindres carrés (Davison & Elliffe, 2009). Des études exhaustives montrent de façon récurrente que la sensibilité tourne autour de 0,80 et que la variance expliquée est supérieure à 80 % (Davison & McCarthy, 1988; McDowell, 2013a). Ces résultats remarquables sont certainement à l'origine des propos optimistes d'Herrnstein présentés auparavant.

Cette très haute valeur de variance expliquée laisse présager que certaines propriétés inhérentes aux procédures de conditionnement opérant peuvent influencer la variance expliquée, la sensibilité et le biais. En fait, les réponses d'un organisme et les renforçateurs qu'il obtient ne sont pas indépendants. Dans la plupart des procédures de conditionnement opérant, la quantité maximale de renforçateurs ne peut surpasser la quantité de réponses lors d'une même séance (McDowell & Ansari, 2005). Cette relation est traduite mathématiquement par l'équation (3) :

Bi j ≥ Ri j (3)

où l'indice j représente la séance correspondante pour une certaine classe de comportements i. Cette contrainte peut être considérée comme une conséquence des fonctions de feedback inhérentes à certains programmes de renforcement comme les programmes de renforcement à intervalle variable (Baum, 1992; Nevin & Baum, 1980).

Puisqu'il existe vraisemblablement un lien de dépendance entre les réponses et les renforçateurs, la corrélation attendue est nécessairement supérieure à zéro. Afin d'isoler l'influence de l'équation (3), la présente étude suit la tendance à utiliser des simulations informatiques en analyse du comportement (Donahoe, Burgos & Palmer, 1993; Heth, Pierce, Belke & Hensch, 1989; McDowell, 2004; McDowell & Ansari, 2005; McLean, 2006; Seth, 2007; Shimp, 1992). L'objectif est de déterminer les paramètres de la LGA lorsque la contrainte (Bi j ≥ Ri j) est implantée à une simulation où les réponses d'un organisme sont échantillonnées de façon pseudoaléatoire. Sur le plan pratique, les résultats s'avéreront utiles à l'identification d'un critère normatif permettant de déterminer une hypothèse nulle lorsque la LGA est utilisée.

 

MÉTHODE

Une série de simulations de Monte-Carlo est conduite dans MATLAB (R2012b). Cette méthode se base sur la répétition d'échantillonnages pseudoaléatoires afin d'estimer les paramètres pertinents sur l'ensemble de ces échantillons. Au total, 24 000 essais sont réalisés et sont répartis en quatre par quatre conditions. Elles permettent de vérifier que les résultats observés ne sont pas strictement dus à une propriété d'une seule condition, mais qu'ils s'appliquent aux autres conditions également. Chacune des seize conditions est répliquée 1 500 fois.

L'objectif de chaque essai est de recréer un échantillon d'observations où un organisme artificiel émet une quantité pseudoaléatoire de comportements (B1 et B2) et où il obtient une quantité pseudoaléatoire de renforçateurs (R1 et R2). Ces valeurs sont générées par la fonction unidrnd qui génère des valeurs de l'ensemble des nombres entiers à partir d'une distribution uniforme dont les bornes maximales et minimales sont prédéterminées. L'organisme artificiel peut émettre une quantité maximum de comportements. En d'autres termes, il s'agit de la borne maximale pour B1 et B2 à laquelle unidrnd peut générer une valeur. Cet élément réduit la quantité de comportements à des fréquences possiblement observables. Les valeurs maximales sont choisies afin de refléter la fréquence des comportements des organismes biologiques en contexte naturel. Ainsi, les valeurs 7 et 10 représentent des comportements peu fréquents, la valeur 30 représente un comportement moyennement fréquent et la valeur 100 représente un comportement très fréquent. Au total, le maximum de réponses correspond à quatre conditions.

La simulation nécessite deux restrictions. La première contraint la quantité minimum de comportements observables à une valeur de 1. En fait, même s'il est possible en réalité de ne pas observer de comportement pendant une observation, une valeur de B1, B2, R1 et R2 égale à 0 rend le logarithme indéfini et la donnée est alors ignorée de l'analyse statistique. Cette première restriction n'est pas due à la simulation, mais aux logarithmes à l'intérieur de la LGA. Elle permet aussi de garder la variance homogène et constante à travers les essais. Ce problème n'est pas sans rappeler la critique de Timberlake (1982) selon laquelle une relation d'appariement ne peut décrire l'absence de réponse ou de renforçateur pour l'une des contingences. Par conséquent, la borne minimale de B1, B2, R1 et R2 est de 1.

La deuxième restriction, représentée par l'équation (3), contraint la quantité de renforçateurs à être inférieure ou égale à la quantité de comportements émis. En d'autres termes, la borne maximale de R1 et de R2 correspond à la valeur générée pseudoaléatoirement de B1 et de B2 de l'observation correspondante. Comme il a été mentionné précédemment, la contrainte reflète un aspect élémentaire se retrouvant dans la majorité des situations opérantes et peut être considérée comme une conséquence des fonctions de feedback. Elle est aussi employée dans le modèle computationnel de la sélection par les conséquences (McDowell & Ansari, 2005).

Chaque essai est constitué d'une quantité prédéfinie d'observations faites sur l'organisme artificiel. Il s'agit du nombre de données d'observations et chacune d'entre elles permet de générer une valeur pour B1, B2, R1 et R2. Le nombre de données est choisi afin de représenter les études retrouvées dans la littérature. Ainsi, les valeurs 5 et 7 correspondent à une petite quantité d'observations, la valeur 30 correspond à une quantité moyenne d'observations et la valeur 50 correspond à une grande quantité d'observations. La quantité d'observations correspond aux quatre dernières conditions.

 

 

Enfin, pour chaque essai, la simulation génère une série de valeurs pseudoaléatoires pour chaque valeur de B1, B2, R1 et R2 selon les bornes spécifiées auparavant et rappelées dans le tableau 1. Les valeurs générées sont insérées en ratio et puis sous forme logarithmique, telle que décrit par l'équation (2). Une régression ordinaire des moindres carrés est finalement réalisée sur l'ensemble des données d'un essai. Les valeurs de la variance expliquée, de la sensibilité et du biais sont conservées.

 

RÉSULTATS

Une analyse multivariée entre les quatre par quatre conditions est réalisée sur la variance expliquée et la sensibilité. Le biais n'est pas considéré, car sa valeur moyenne est stable et nulle (log c = 0,00). En fait, la simulation n'a pas introduit de biais dans l'équation de la LGA, ce qui s'explique par l'absence de contraintes indépendantes à l'ajustement des contingences. Une analyse statistique n'apporterait donc pas un approfondissement significatif. Les tableaux 2 et 3 montrent les moyennes et les écarts types de chacune des conditions pour la variance expliquée et la sensibilité.

Variance expliquée

La figure 1 montre l'effet principal de la quantité d'observations sur la variance expliquée, F(3, 23 984) = 117,591, p < 0,001. Lorsque le nombre de séances ou le nombre de données d'observations augmentent, la variance expliquée tend à diminuer légèrement. Ce résultat apparaît intuitif en regard de la littérature statistique où la quantité de données augmente la précision de la régression (Cohen, Cohen, West & Aiken, 2003). De plus, la figure 1 montre l'effet principal du maximum de réponses sur la variance expliquée, F(3, 23 984) = 111,406, p < 0,001. Lorsque le maximum de réponses augmente, la variance expliquée augmente légèrement. Aucun effet d'interaction n'est trouvé, F(9, 23 984) = 1,350, p = 0,205.

 

 

 

Sensibilité

La figure 2 montre que les valeurs de la sensibilité diminuent en même temps que le maximum de réponses augmente. Les résultats montrent un effet d'interaction de la quantité d'observations et du maximum de réponses sur la sensibilité, F(9, 23 984) = 3,547, p < 0,001. Cette interaction provient de l'instabilité des conditions de 5 et 7 observations par essai. Comme il est indiqué au tableau 3, leurs écarts types sont plus élevés que pour les autres conditions.

 

 

 

Enfin, la figure 3 montre les distributions des valeurs de la variance expliquée de la sensibilité et du biais au travers de toutes les conditions. De façon intéressante, les moyennes des distributions se situent en dessous des moyennes observées auprès organismes biologiques. Ces résultats suggèrent que les contraintes imposées à la simulation reflètent partiellement la LGA lorsqu'elle est étudiée en contexte naturel et que probablement d'autres contraintes pourront rapprocher les valeurs simulées aux valeurs des données expérimentales actuelles.

 

 

DISCUSSION

L'objectif de la présente étude était d'évaluer l'influence de la contrainte (Bi ≥ Ri ) sur les paramètres de la LGA lorsque les réponses et les renforçateurs sont échantillonnés de façon pseudoaléatoire. Étonnamment, les résultats montrent une variance expliquée (r2) moyenne de 0,47, une sensibilité moyenne de 0,60 et un biais nul (log c = 0,00). En comparaison, si la simulation n'avait introduit aucune contrainte, les résultats attendus auraient été un r2 et une sensibilité nuls. Ainsi, l'ajout de la contrainte (Bi j ≥ Ri j) a fait émerger des relations d'appariement. Cette augmentation s'explique par le lien de dépendance créé entre les réponses et les renforçateurs lorsque la contrainte est implantée. Cependant, il est surprenant qu'une contrainte aussi anodine et commune aux procédures opérantes ait un effet si substantiel sur les paramètres de la LGA. Ces résultats permettent des considérations théoriques et appliquées.

 

Considérations théoriques

La démarche employée dans le présent article se distingue du modèle computationnel de la sélection par les conséquences développé par McDowell (2004). Cette théorie vise à identifier et quantifier la sélection par les conséquences proposée par Skinner (1981), à l'aide d'algorithme génétique. En générant des fonctions de parenté, de gains, de lignées et de mutations, il est possible de générer des patrons de comportements similaires aux organismes vivants (McDowell, 2013b). Ces fonctions font partie inhérente de l'organisme artificiel et sont le centre des investigations. La présente étude aborde plutôt les contraintes dans lesquelles l'organisme artificiel répond. L'idée sous-jacente de cette perspective est que la LGA est un phénomène émergeant des contraintes à l'intérieur des situations opérantes. De ce fait, elle ignore les processus comportementaux à l'intérieur des organismes tels que la sélection par les conséquences.

Les résultats montrent qu'une telle perspective est viable. En revanche, une sensibilité de 0,60 et un r2 de 0,47 ne sont pas suffisamment près des valeurs obtenues auprès d'organismes vivants pour expliquer ou invalider entièrement le phénomène de l'appariement. À ce titre, les études futures pourront vérifier l'effet d'autres contraintes afin de modéliser plus précisément l'environnement. Ainsi, une contrainte imposant une limite de réponses maximale que l'organisme peut émettre augmenterait substantiellement la variance expliquée, car elle créerait un lien de dépendance supplémentaire entre les réponses et entre les renforçateurs. Elle est symbolisée par l'équation (5) :

B1 j + B2 j = Bt j (5)

où Bt correspond à la quantité de réponses totale d'un organisme. Cette contrainte est pertinente, car il est difficile, voire impossible, de concevoir qu'un organisme puisse répondre indéfiniment aux programmes de renforcement. L'équation (5) est d'ailleurs fréquemment rencontrée dans la littérature sur la théorie de la maximisation molaire (Rachlin, et al., 1981) et l'hypothèse de l'amélioration locale (Herrnstein, 1997). Une augmentation de r2 est aussi envisageable avec une autre contrainte imposant un nombre maximal de renforçateurs. L'équation (6) représente cette contrainte :

R1 j + R2 j = Rt j (6)

où Rt correspond à la quantité de renforçateurs totale. Cette contrainte est aussi raisonnable puisque l'accès aux programmes de renforcement est généralement limité dans le temps ou par la quantité de renforçateurs que l'organisme peut obtenir. Ces deux contraintes pourront être testées isolément ou de façon combinée afin d'évaluer leur influence sur la LGA. Bref, les résultats ne peuvent pas falsifier l'hypothèse selon laquelle la LGA est un processus comportemental, mais ils suggèrent que le phénomène s'explique en partie par des contraintes inhérentes aux situations opérantes.

Considérations appliquées

Les résultats de la présente étude sont pertinents pour les études descriptives, particulièrement pour celles qui ne contrôlent pas les contingences de renforcement. En effet, les résultats proposent une hypothèse nulle alternative à r2= 0. En appliquant plutôt l'hypothèse nulle r2= 0,47, il devient possible de vérifier si le sujet distribue vraisemblablement ses comportements en fonction du ratio des renforçateurs. Afin de vérifier cette hypothèse, il suffit de comparer les coefficients de corrélation (r) obtenus à la valeur hypothétique 0,69 (√0,47) en employant la transformation du z de Fisher. Si la variance expliquée des comportements du sujet est significativement supérieure au critère hypothétique, alors il est vraisemblable que le sujet apparie et qu'il n'émette pas ses comportements de façon aléatoire. Afin de faciliter la comparaison aux chercheurs et praticiens, il est possible de proposer des indices qualitatifs propres à l'évaluation de la LGA. Ainsi, une différence de r de 0,10 réfère à une taille d'effet faible, une différence de r de 0,20 réfère à une taille d'effet moyenne et une différence de r de 0,30 réfère à une taille d'effet forte. Ces résultats se traduisent en r2 de 0,62, 0,80 et 0,97 respectivement et concordent avec les distributions présentées à la figure 3. Ces valeurs pourront se révéler utiles comme critère normatif afin d'évaluer et de comparer la vraisemblance de l'appariement en contexte naturel. Cependant, ces valeurs sont déterminées arbitrairement et représentent actuellement des approximations. D'autres simulations seront nécessaires pour en évaluer la précision.

 

CONCLUSION

La présente étude montre que la LGA explique en moyenne 47 % de la variance avec une sensibilité moyenne de 0,60 lorsque la contrainte (Bi j ≥ Ri j) est implantée. Ces valeurs peuvent être comparées aux valeurs générées par des observations descriptives, plus particulièrement lorsque les contingences de renforcement ne sont pas contrôlées. Des indices qualitatifs pour évaluer et comparer les variances expliquées de l'appariement sont proposés. Pour l'instant, ces critères sont approximatifs et doivent être utilisés consciencieusement. L'étude questionne aussi l'existence de processus comportementaux menant l'organisme à suivre les prédictions de la LGA. Les résultats suggèrent que l'appariement peut être partiellement explicable par des contraintes environnementales. Enfin, d'autres études sont nécessaires pour évaluer l'influence d'autres contraintes, notamment la manipulation des liens de dépendance entre les distributions des Bs et des Rs. Ces futures analyses sont nécessaires afin d'évaluer ce qui est attendu de la LGA lorsque ces contraintes opèrent.

 

RÉFÉRENCIAS

Baum, W. M. (1974). On two types of deviation from the matching law: bias and undermatching. Journal of the Experimental Analysis of Behavior, 22, 231-242.         [ Links ]

Baum, W. M. (1979). Matching, undermatching, and overmatching in studies of choice. Journal of the Experimental Analysis of Behavior, 32, 269-281. doi:        [ Links ]

Baum, W. M. (1992). In search of the feedback function for variable-interval schedules. Journal of the Experimental Analysis of Behavior, 57, 365-375. doi:         [ Links ]

Cohen, J., Cohen, P., West, S. G., & Aiken, L. S. (2003). Applied multiple regression/correlation analysis for the behavioral sciences (III ed.). Mahwah (NJ): Erlbaum.         [ Links ]

Davison, M., & Elliffe, D. (2009). Variance matters: the shape of a datum. Behavioural Processes, 81, 216- 222.         [ Links ]

Davison, M., & Jenkins, P. E. (1985). Stimulus discriminability, contingency discriminability, and schedule preformance. Animal Learning & Behavior, 13, 77-84.         [ Links ]

Davison, M., & McCarthy, D. (1988). The matching law: a research review. Hilldales (NJ): Erlbaum.         [ Links ] de Villiers, P. (1977). Choice in concurrent schedules and a quantitative formulation of the law of effect.

Dans W. K. Honing & J. E. R. Staddon (Dir.), Handbook of operant behavior (pp. 233-287). New Jersey: Prentice Hall.

Donahoe, J. W., Burgos, J. E., & Palmer, D. C. (1993). A selectionist approach to reinforcement. Journal of the Experimental Analysis of Behavior, 60, 17-40.         [ Links ]

Forget, J., Donais, S., & Giroux, N. (2001). La loi de l'appariement et ses applications en psychologie clinique et en éducation. Revue Canadienne de Psycho-Education, 30, 311-327.         [ Links ]

Forget, J., & Rivard, M. (2010). Évaluer la sensibilité sociale de l'enfant à l'attention de l'adulte. Perspective de recherche en autisme. Dans G. Magerotte & E. Willaye (Dir.), Intervention comportementale clinique (pp. 235-274). Bruxelles: De Boeck.         [ Links ]

Grace, R. C., & Hucks, A. D. (2013). The allocation of operant behavior. Dans G. J. Madden, W. V. Dube, T. D. Hackenberg, G. P. Hanley & K. A. Lattal (Dir.), APA handbook of behavior analysis, Vol. 1:

Methods and principles (pp. 307-337). Washington, DC, US: American Psychological Association. Herrnstein, R. J. (1961). Relative and absolute strength of response as a function of frequency of reinforcement. Journal of the Experimental Analysis of Behavior, 4, 267-272.         [ Links ]

Herrnstein, R. J. (1997). The matching law: papers in psychology and economics, Cambridge (MA): Harvard University Press.         [ Links ]

Heth, C. D., Pierce, W. D., Belke, T. W., & Hensch, S. A. (1989). The effect of logarithmic transformation on estimating the parameters of the generalized matching law. Journal of the Experimental Analysis of Behavior, 52, 65-76.         [ Links ]

JEAB (1993). The 30 Most Cited Articles from JEAB. Retrouvé de seab.envmed.rochester.edu/society/history/ jeab_highly_cited.shtml         [ Links ]

Mazur, J. E. (2001). Hyperbolic value addition and general models of animal choice. Psychological Review, 108, 96-112.         [ Links ]

Mazur, J. E. (2006). Mathematical models and the experimental analysis of behavior. Journal of the Experimental Analysis of Behavior, 85, 275-291.         [ Links ]

McDowell, J. J. (2004). A computational model of selection by consequences. Journal of the Experimental Analysis of Behavior, 81, 297-317. doi: 10.1901/jeab.2004.81-297         [ Links ]

McDowell, J. J. (2013a). On the theoretical and empirical status of the matching law and matching theory. Psychological Bulletin, 139, 1000-1028.         [ Links ]

McDowell, J. J. (2013b). A quantitative evolutionary theory of adaptive behavior dynamics. Psychological Review, 120, 731-750.         [ Links ]

McDowell, J. J., & Ansari, Z. (2005). The quantitative law of effect is a robust emergent emergent property of an evolutionary algorithm for reinforcement learning. Dans M. Capcarrere, A. Freitas, P. Bentley, C. Johnson & J. Timmis (Dir.), Advances in artificial life: ECAL 2005, LNAI 3630. (pp. 413-422). Berlin: Springer-Verlag.         [ Links ]

McLean, A. P. (2006). The sampling distribution of k. Behavioural Processes, 72, 300-308.         [ Links ]

Nevin, J. A., & Baum, W. M. (1980). Feedback functions for variable-interval reinforcement. Journal of the Experimental Analysis of Behavior, 34, 207-217.         [ Links ]

Nevin, J. A., & Grace, R. C. (2000). Behavioral momentum and the Law of Effect. Behavioral and Brain Sciences, 23, 73-130.         [ Links ]

Rachlin, H., Battalio, R. C., Kagel, J. H., & Green, L. (1981). Maximization theory in behavioral psychology. The Behavioral and Brain Sciences, 4, 371-388.         [ Links ]

Seth, A. K. (2007). The ecology of action selection: insights from artificial life. Philosophical Transactions of the Royal Society B, 362, 1545-1558.         [ Links ]

Shimp, C. P. (1992). Computational behavior dynamics: an alternative description of Nevin (1969). Journal of the Experimental Analysis of Behavior, 57, 289-299.         [ Links ]

Skinner, B. F. (1981). Selection by consequences. Science, 213, 501-504.         [ Links ]

Timberlake, W. (1982). The emperor's clothes: assumption of the matching theory. Dans M. L. Commons, R. J. Herrnstein & H. Rachlin (Dir.), Quantitative analyses of behavior : Matching and maximizing accounts (Vol. II, pp. 549-568). Cambridge: Ballinger.         [ Links ]

Wearden, J. H., & Burgess, I. S. (1982). Matching since Baum (1979). Journal of the Experimental Analysis of Behavior, 38, 339-348.         [ Links ]

 

Received: April 17, 2013
Accepted: February 2, 2014

 

 

1 Pier-Olivier Caron, Laboratoire des Sciences Appliquées du Comportement, Département de Psychologie, Université du Québec à Montréal. Je remercie Jacques Forget, Philippe Valois et les experts anonymes pour leurs commentaires sur une première version de cet article. Les données de la présente étude ont été présentées sous forme d'affiche à la 36e rencontre annuelle de la Society for the Quantitative Analyses of Behavior (SQAB) qui a eu lieu à Minneapolis (MN) en mai 2013. L'auteur avec qui correspondre est Pier-Olivier Caron, Université du Québec à Montréal, Département de Psychologie, C.P. 8888 succursale Centre-ville, Montréal (Québec, Canada), H3C 3P8, (courriel : pocaron19@gmail.com).