SciELO - Scientific Electronic Library Online

vol.24 número1Prototipos de liderazgo en población civil y militarPérez Álvarez, M., Fernández Heredia, J.R., Fernández Rodríguez, C. & Amigo Vázquez, I. (Coords.) (2003). Guía de tratamientos psicológicos eficaces. Vol. 2: Psicología de la salud. España: Ediciones Pirámide, 390 páginas índice de autoresíndice de materiabúsqueda de artículos
Home Pagelista alfabética de revistas  

Servicios Personalizados






versión impresa ISSN 0325-8203versión On-line ISSN 1668-7027

Interdisciplinaria v.24 n.1 Buenos Aires jun. 2007




Medida del funcionamiento diferencial del ítem en el marco de la teoría de respuesta al ítem*


Measuring differential item functioning in the item response theory.



María Ester Aguerri**; María Silvia Galibert***; Gabriela Susana Lozzia****; Facundo Juan Pablo Abal*****; Horacio Félix Attorresi******

* Este trabajo fue financiado con subsidios de la Universidad de Buenos Aires (UBACyT P020), del Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET PIP Nº 2426) y de la Agencia Nacional de Promoción Científica y Tecnológica (ANPCyT PICT 2004 Nº 20909).
** Magister Scientiae en Biometría y Licenciada en Ciencias Matemáticas. Profesora Regular Adjunta de Estadística y Co-Directora e Investigadora Formada en Proyectos de Investigación de: la Universidad de Buenos Aires (UBACyT), Agencia Nacional de Promoción Científica y Tecnológica (ANPCyT) y Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET). Agrelo 3555, (1224) Ciudad Autónoma de Buenos Aires.
*** Magister Scientiae en Biometría y Profesora de Enseñanza Especial en Ciencias Matemáticas. Profesora Regular Adjunta de Estadística y Co-Directora de proyectos de investigación de UBACyT, ANPCyT y CONICET.
**** Licenciada y Profesora en Psicología. Jefe de Trabajos Prácticos de Estadística, Becaria de Posgrado del Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET) e investigadora en proyectos de investigación de UBACyT y ANPCyT.
***** Licenciado en Psicología. Ayudante de Trabajos Prácticos de Estadística, Becario de Doctorado de la Universidad de Buenos Aires (UBA) e investigador en proyectos de investigación de UBACyT y ANPCyT.
****** Licenciado en Ciencias Matemáticas. Profesor Regular Titular de Estadística y Director de proyectos de investigación de UBACyT, ANPCyT y CONICET.




En el estudio del funcionamiento diferencial del ítem (DIF - differential item functioning) la medición de su tamaño proporciona información relevante. Entre las medidas del DIF más utilizadas se encuentra el logaritmo de la razón común de las posibilidades de Mantel-Haenszel (Mantel-Haenszel Log Odds Ratio, MH-LOR). En el trabajo que se informa se analiza la similitud de los resultados al aplicar MH-LOR y una medida obtenida en el marco de la teoría de respuesta al ítem (TRI), a la que se denomina LOR-TRI, sobre datos reales y sobre datos simulados sin DIF. Los datos reales corresponden a una prueba de 20 ítem de razonamiento verbal, respondida por egresados del ciclo medio de enseñanza y por alumnos universitarios. Cada ítem presenta un par de palabras - base entre las cuales existe algún tipo de relación y cuatro opciones de pares de palabras entre las que se debe elegir aquel cuya relación sea la más cercana a la del par base. Para los datos simulados se consideraron las respuestas a un test de 20 ítem generadas según el modelo logístico de tres parámetros. Los grupos fueron elegidos de una población normal estándar con tamaño muestral 1,000 y se efectuaron 100 repeticiones. Tanto para los datos reales como para los simulados el modelo logístico adecuado es el de tres parámetros, sin embargo se observó que el ajuste del modelo de Rasch condujo a resultados de LOR-TRI, similares a MH-LOR. Para los respectivos errores estándar se observó la misma particularidad en cuanto a la similitud, siendo ésta aún más destacada.

Palabras clave: Funcionamiento diferencial del ítem - MH-LOR - Teoría de respuesta al ítem - Modelo logístico de tres parámetros - Modelo de Rasch.


In the study of differential item functioning (DIF), measuring its size is of great relevance. An easily interpreted measure is the Mantel-Haenszel Log Odds Ratio (MH-LOR): its sign shows the group which the item favors and its value is zero when the item does not show DIF. This research also considers a measure of DIF named LOR-IRT because it is linked to the log odds ratio and is formulated on the basis of the item parameters within the item response theory (IRT) framework. In order to study the similarity between the LOR-IRT measure according to the number of parameters of the adjusted model and MH-LOR, the DIF was analyzed through real data as well as non-DIF simulated data. The real data consists of a 20-item verbal reasoning test taken by 349 senior high school students and 865 sophomore students from the School of Psychology in the University of Buenos Aires. The simulated data includes answers to a 20-item test based on the three-parameter logistic model for two samples of 1,000 participants from a normal standard population. The parameters of the 20 items under study stem from the combination of four discrimination levels (0.4, 0.8, 1.2 and 1.6) and five difficulty levels (-2, -1, 0, 1 and 2). In order to replicate the conditions of the DIF analysis on the basis of real data, the value of the guessing parameter was set at 0.25 for all the items. Therefore, the chosen design was a 4 X 5 type with 100 repetitions. After analyzing the DIF of the verbal reasoning items on the basis of real data, we concluded that the LOR-IRT obtained upon the adjustment of the one-parameter logistic model (the Rasch model) led to results similar to those of MH-LOR. This statement holds true in the light of the following three facts: there is a 94.44% coincidence in the decisions about the presence of DIF, and both the lower sum of the squared differences and the higher correlation are obtained when compared with the results of the adjustment of the two or three-parameter model. The similarity between the corresponding standard errors is outstanding, the sum of the squared differences is almost zero, and the correlation is remarkably higher than that of the two or three-parameter logistic model. Considering that the verbal reasoning test presents four alternatives of which only one is correct, the items can be modeled according to the three-parameter logistic model, with a non-null guessing parameter. However, the LOR-IRT results are similar to those of MH-LOR in terms of magnitude and standard error when the one-parameter logistic model is adjusted. These results remained the same in the simulation study. In fact, the adjustment of the one-parameter logistic model led to LOR-IRT values which are, on average, similar to those of MH-LOR, and that both the lower sum of the squared differences and the higher correlation are obtained. As for the real data, the similarity between the corresponding standard errors is also outstanding. The sum of the squared differences is almost zero and the regression line is similar to the identity line when the Rasch model is adjusted. The purpose of future research will be to not only study similarities between LOR-IRT and MH-LOR on other designs in terms of test length, group sample size and impact presence, but also to assess their performance in the correct identification of items that show DIF.

Keywords: Differential item functioning - MH-LOR - Item response theory - Three parameter logistic mode - The Rasch model.



Texto completo


Referencias bibliográficas

1 Aguerri, M.E., Galibert, M.S., Zanelli, M.L. & Attorresi, H.F. (2005). Detección errónea del funcionamiento diferencial del ítem. Una comparación de métodos [Erroneous detection of the differential item functioning. A comparison of methods]. Psicothema, 17, 335-340.        [ Links ]

2 Attorresi, H.F., Pano, C.O., Fern ández Liporace, M.M. & Cayssials, A. (1994). Evaluación de la habilidad para identificar y discriminar relaciones [Assessment of the identifying and discrimination relationship aptitude]. Anuario de Investigaciones de la Facultad de Psicología, UBA, 3, 27-34.        [ Links ]

3 Camilli, G. & Shepard, L. (1994). Methods for identifying biased test items. Thousand Oaks: Sage.        [ Links ]

4 Donoghue, J.R., Holland, W.P. & Thayer, D.T. (1993). A Monte Carlo study of factors that affect the Mantel-Haenszel and standardization measures of differential item functioning. En P.W. Holland & H. Wainer (Eds.), Differential item functioning (pp. 137-166). Hillsdale, NJ: Erlbaum.        [ Links ]

5 Ferreres, D., González-Romá, V. & Gómez, J. (2002). Funcionamiento diferencial de los ítems en una situación de contacto de lenguas [Differential item functioning and linguistic characteristics of examinees]. Psicothema, 14, 483-490.        [ Links ]

6 Fidalgo, A. (1996). Funcionamiento diferencial de los ítems [Differential items functioning]. En J. Muñiz (Ed.), Psicometría (pp. 370-455). Madrid: Universitas.        [ Links ]

7 Fidalgo, A. & Ferreres, D. (2002). Supuestos y consideraciones en los estudios empíricos sobre el funcionamiento diferencial de los ítems [Assumptions and considerations for detecting differential item functioning]. Psicothema, 14, 491-496.        [ Links ]

8 Galibert, M.S. (2000). Modelización psicométrica de un test de razonamiento verbal en los marcos de la Teoría Clásica de Tests y de la Teoría de Respuesta al Ítem [Psychometric modeling of a verbal reasoning test within the framework of the Item Response Theory and the Classical Tests Theory]. Tesis de Maestría no publicada. Universidad de Buenos Aires. Buenos Aires, Argentina.         [ Links ]

9 Holland, P.W. & Thayer, D.T. (1985). An alternate definition of the ETS delta scale of item difficulty. (Research Report No. 85-64). Princeton, NJ: Educational Testing Service.        [ Links ]

10 Holland, P. W. & Thayer, D.T. (1988). Differential item functioning and the Mantel-Haenszel procedure. En H. Wainer & H.I. Braun (Eds.), Test validity (pp. 129-145). Hillsdale, NJ: Lawrence Erlbaum.        [ Links ]

11 Mantel, N. & Haenszel, W. (1959). Statistical aspects of the analysis of data from retrospective studies of disease. Journal of the National Cancer Institute, 22, 719-748.        [ Links ]

12 Waller, N.G. (1998). EZDIF: Detection of uniform and nonuniform differential item functioning with Mantel-Haenszel and logistic regression procedures. Applied Psychological Measurement, 22, 391.        [ Links ]

13 Yoes, M. (1997). PARDSIM parameter and response data simulation [Software]. St. Paul, MN: Assessment System Corporation.         [ Links ]

14 Zieky, M. (1993). Practical questions in the use of DIF statistics in item development. En P.W. Holland & H. Wainer (Eds.), Differential item functioning (pp. 337-347). Hillsdale, NJ: Erlbaum.        [ Links ]

15 Zimowski, M., Muraki, E., Mislevy, R. & Bock, R. (1996). BILOG-MGTM: Multiple-group IRT analysis and test maintenance for binary items [Computer program]. Chicago, IL: Scientific Software International.         [ Links ]

Instituto de Investigaciones, Facultad de Psicología, Universidad de Buenos Aires (UBA). Ciudad Autónoma de Buenos Aires - República Argentina.

Fecha de recepción: 2 de enero de 2007
Fecha de aceptación: 22 de mayo de 2007