SciELO - Scientific Electronic Library Online

 
vol.5 número1Actividad de dirección y proceso de comunicación dirigente-grupo índice de autoresíndice de assuntospesquisa de artigos
Home Pagelista alfabética de periódicos  

Revista Cubana de Psicología

versão impressa ISSN 0257-4322

Rev. cuba. psicol. v.5 n.1 La Habana  1988

 

Técnicas del análisis estadístico multivariado: objetivo y aplicación

 

Multivariate analysis: use and objectives

 

 

Martha Vázquez Villazón; María Eugenia de Bernard

Facultad de Psicología, Universidad de La Habana

 

 


RESUMEN

En este artículo se muestra de manera general las posibilidades de aplicación de los Métodos estadísticos Multivariados en la investigación psicológica. Se proponen dos formas de clasificación para la selección del método más apropiado a un problema concreto.


ABSTRACT

In this paper we try to show, in a general way, how to use the methods of Multivariate Statistic in psychological research. We also offer two forms of classification, to help make an adecuate choise of a methods to study an specific problem.


 

 

Mediante el análisis multivariado se pueden estudiar integralmente las mediciones de atributos o características de los elementos de una población. Ofrece la posibilidad de cuantificar la intensidad de la influencia o asociación de variables independientes en el modelo matemático concreto, o bien, tomadas como punto de partida para investigar determinado fenómeno sobre una variable dependiente matemáticamente.

Este tipo de análisis, está integrado por varias técnicas, cada una con sus propias peculiaridades, por lo que unas son más adecuadas que otras, o tal vez, una sola puede ser la indicada. En muchas ocasiones puede aplicarse más de una técnica a la solución del problema. La elección de la técnica estadistica multivariada va a depender siempre del problema a investigar, por ejemplo, en la práctica al psicólogo del Trabajo se le pueden presentar los problemas siguientes:

- Describir los criterios de eficiencia laboral.

- Comparar obreros de alto y bajo rendimiento.

- Clasificar diferentes formas de rendimiento laboral individual.

- Comprobar el valor pronóstico de características relevantes del trabajador en la eficiencia laboral.

Lo primero que llama la atención en todos estos problemas, es que para su solución hay que medir más de dos variables, (o sea, X1, X2,...,xp> a los n individuos que componen la muestra de estudio. Entonces con los datos observados, se puede formar una matriz a partir del convenio siguiente:

- cada fila representa todas las observaciones sobre un individuo, I1, I2 ....In.

- Cada columna representa todas las observaciones de una variable, x1, x2 ....xp.

Sería,

Esto será la matriz de datos de la base (nxp), donde xij es el elemento de la matriz X que representa el valor del individuo I1 en la variable xj.

A partir de esta matriz se realizan diferentes cálculos primarios que permiten reducir la información y que, además, de ellos es parte para el desarrollo de los cálculos de los distintas modelos estadísticos multivariados que se apliquen a la matriz de datos de la base anterior; estos cálculos primarios, son:

- el vector de medias: M (X1, X2 ....Xp) (1xp)

Cada elemento de este vector es la media de cada una de las variables y no es más que el valor central de los datos de cada variable.

Pero ese valor central, por si solo no da una idea del comportamiento de las variables, es necesario, además, conocer como actúan dispersos los datos alrededor de ese valor central. Esta información se obtiene a través del vector de varianza que no es más que calcular la varianza de cada una de las variables de la matriz de datos.

- el vector de varianza: σ = (V (x1), V(x2) ....V(xp)) (1xp).

Generalmente se utiliza más la desviación típica, que la varianza muestral.

Pero, como estamos en presencia de varias variables que informan simultáneamente sobre el fenómeno que se investiga, es necesario, además, usar otra medida que informe sobre la relación entre las variables; esta medida se llama covarianza y para todos los puntajes de variables posibles en la matriz de datos, se tiene:

- la matriz de varianza y covarianza:

Obsérvese que en la diagonal de este matriz se encuentra la covarianza de una variable, con ella misma, que es igual a la varianza. Para facilitar la interpretación de esta matriz se acostumbra hacer algunas transformaciones que, por lo general, consiste en normalizar cada una de las variables al dividirse por su desviación estandar y, entonces, se tiene la matriz de varianza y covarianza normalizada, que no es más que la matriz de correlaciones siguiente:

Obsérvese que esta matriz, al igual que la anterior es una matriz cuadrada y simétrica. En la diagonal, los i representan la correlación de una variable con ella misma. Estas propiedades permiten que pueda expresarse como una matriz triangular inferior o superior.

Estas elaboraciones primarias de la matriz de datos, por lo general, es la premisa de todos los programas de cálculo de las programotecas de la Estadística Multivariada.

La estadística multivariada permite el análisis de varias variables aleatorias correlacionadas para un número de individuos. Estos análisis son necesarios en aquellas ciencias que, como lo muestra, estudian varias variables simultáneamente. En estos casos no es adecuado realizar una serie de análisis estadísticos univariados para cada una de las variables estudiadas, ya que en ellos se ignoran sus relaciones e incluso, pueden, en ocasiones, sus resultados despistar al investigador.

Por el contrario, el análisis multivariado puede arrojar luz sobre las relaciones, interindependencias o importancia relativa de las variables consideradas y facilitar una información mucho más rica y significativa de los datos.

Por lo general, los modelos estadísticos multivariados suponen que el conjunto de las variables aleatorias tengan una distribución normal multivariada. Esta suposición es cómoda y, además, el análisis se desarrolla casi parcialmente al correspondiente análisis univariado, basado en la distribución normal.

Se supone que las variables están correlacionadas, pero las observaciones entre los diferentes individuos se cree que son independientes, o sea, se trabaja con una muestra aleatoria de sujetos.

La hipótesis de distribución normal multidimensional, implica que en cada dimensión se cumplen todas las propiedades de la distribución normal, no obstante, cada variable en estudio, o bien cada conjunto concreto de observaciones que se supone normalmente distribuida, requiere la comprobación pira conocer si es posible aceptar las hipótesis.

 

MODELOS ESTADÍSTICOS MULTIVARIADOS:

A continuación se hace una breve descripción de los métodos estadísticos multivariados más usados. No se pretende profundizar en cada uno de ellos, sino presentar las características más relevantes que permitan decidir la elección del más adecuado para la solución de los problemas presentados al inicio.

Cuando estamos en presencia de un problema donde a priori no se puede conceder alguna importancia a alguna variable o grupos de variables o de individuos los MÉTODOS FACTORIALES son los adecuados para responder a los problemas de este tipo.

Cuando de una matriz de datos de la base, no se poseen conocimientos previos de las relaciones entre las variables y los individuos y al investigador le interesa conocer las causas que motivan la variación de esos datos, como en el caso del problema describir los criterios de la eficiencia laboral y en el cual se tiene una matriz de datos de la base, de la forma siguiente:

Resulta imposible hacer una descripción del fenómeno y llegar a conclusiones objetivas sólo a través de la observación de las intercorrelaciones entre las p variables de esa matriz.

El ANÁLISIS DE LOS COMPONENTES PRINCIPALES es capaz de transformar las p variables originales en un número igual de nuevas variables con la propiedad de que ellas puedan ser analizadas separadas, las unas de las otras.

La matriz de la nueva variable, sería:

Estas nuevas variables son capaces de explicar la variación total de datos. Esta otra propiedad permite eliminar aquellas nuevas variables que expliquen muy poco el fenómeno que se investiga. Limitando, entonces, el estudio a aquellos componentes más importantes; estas son las llamadas componentes principales.

Como se observa, estas nuevas variables son combinaciones lineales de las variables originales.

En el caso anterior, el investigador nada presupone de sus datos originales, pero, a veces, el psicólogo se plantea alguna hipótesis muy general de su investigación sobre la existencia de algunos factores comunes, como por ejemplo, el conocimiento y la satisfacción en el trabajo que explican parte de las relaciones que se establecen entre las variables. Para este caso, la matriz de datos de la base no cambia, es igual que la anterior.

Estos factores de los que el investigador presupone su influencia, tampoco pueden ser observados de la matriz de datos original, por lo que es necesario encontrar un modelo estadístico que permita extraer los factores comunes deseables.

EL ANÁLISIS FACTORIAL expresa cada variable original en función de un número menor y prefijado por el investigador, de factores comunes y un factor especifico que representa la parte de la variación de las variables, que no fue explicada por los factores.

De vital importancia resulta la interpretación que el investigador puede hacer de los factores hallados.

La matriz factorial para el caso de dos factores, sería:

El principio general del ANÁLISIS FACTORIAL DE LAS CORRESPONDENCIAS, no es más que un tipo de análisis de los componentes principales sobre una distancia especial, llamada X2.

Este análisis parte de una matriz de datos de la base igual a los anteriores; pero, a diferencia de ellos, su objetivo principal consiste ahora en estudiar la correspondencia que se manifiesta entre sujetos y variables y representarlos simultáneamente sobre un subespacio de dimensiones limitadas.

Esta doble representación ayuda mucho a la interpretación de los datos originales. Sin embargo, el análisis factorial de correspondencia queda limitado al análisis de tablas de contingencias y de datos de presencia/ausencia.

LOS MÉTODOS DE CLASIFICACIÓN permiten resolver el problema de clasificar diferentes grupos de sujetos por diferentes formas de la eficiencia laboral de los trabajadores. El interés ahora es agrupar a los sujetos en dos o más grupos sin que previamente se tenga información de cómo hacerlo.

Los modelos de clasificación automática se emplean con este objetivo. Actualmente tienen un auge extraordinario debido al desarrollo de las computadoras de alta velocidad.

Una dificultad de estos modelos, es que no hay un método único y es el investigador el que debe valorar el adecuado.

Los dos aspectos más importantes de que consta un algoritmo de clasificación, son:

- El cálculo de un índice de similaridad o de medidas de diferencia de distancia.

- Una regla que permite agrupar a los individuos a partir de esos índices.

Todos estos modelos caen en el campo de la DESCRIPCIÓN de fenómenos multivariados, en ninguno de ellos se toma alguna decisión. Por eso estos modelos se utilizan, fundamentalmente, en aquellas investigaciones donde a priori no se puede conceder alguna importancia especial a una variable, a grupos de variables o a grupos de sujetos.

Sin embargo, en la mayoría de los casos, el psicólogo posee alguna información acerca de datos originales, concediéndole alguna importancia, bien a las variables o bien a los individuos. Un ejemplo del último caso, es cuando el psicólogo del trabajo se enfrenta al problema de comparar a grupos de trabajadores de alto y bajo rendimiento laboral a partir de p variables interesantes.

Para resolver este problema tiene a su disposición varios modelos estadísticos, dos de ellos son los más utilizados, nos referimos al ANÁLISIS DISCRIMINANTE y de las PRUEBAS DE SOBRE VECTORES DE MEDIAS.

Cuando el psicólogo se enfrenta al problema de IDENTIFICAR O CLASIFICAR sujetos en grupos de poblaciones dadas a priori o partir de la informació„ brindada por muestras aleatorias, tomadas de esas poblaciones, sobre la base de mediciones sobre un vector de p componentes de variables X, obtiene una matriz de datos de la base, de la forma siguiente:

El ANÁLISIS DISCRIMINANTE es el modelo multivariado adecuado para comprobar estadísticamente la existencia de estos dos grupos a partir de las variables estudiadas. Este modelo facilita, además, una función capaz de que, al evaluar un nuevo sujeto en esas variables, permite decidir a cual de los grupos pertenece. Esta es la llamada función discriminante.

Este modelo considera dos etapas, una DESCRIPTIVA en la cual permite indagar cuáles variables determinan la existencia de los grupos de sujetos y otra DECISIONAL cuando clasifica a nuevos sujetos en su grupo correspondiente.

El análisis discriminante también permite el estudio de más de dos poblaciones.

En los últimos tiempos este modelo ha sido tan utilizado que se han desarrollado procedimientos que permiten resolver problemas no sólo de variables cuantitativas, sino también cualitativas.

LAS PRUEBAS DE HIPÓTESIS SOBRE VECTORES DE MEDIAS, es una generalización multivariada de la prueba t'student del caso univariado. Cuando tenemos hipótesis multivariadas análogas a las univariadas para la comparación de medias, es posible utilizar el estadígrafo T2 de Motelling para su comprobación.

T2 puede usarse para conocer si los grupos de sujetos pueden ser considerados como muestras aleatorias de dos poblaciones que tienen idénticos vectores de medias multivariadas, partiendo del supuesto que tienen igual matriz de varianza y covarianza.

La matriz de datos de la base es igual al del problema anterior.

Por último, también un Psicólogo del Trabajo, puede enfrentarse al problema de comprobar el valor pronóstico de algunas caracteri,sticas relevantes del trabajador (xí) en la eficiencia de su trabajo (y). Para este tipo de problema la matriz de datos de la base, es la siguiente:

La REGRESIÓN LINEAL MÚLTIPLE es el modelo estadístico que resuelve problemas de este tipo. Tenemos una variable y (a explicar o dependiente) y p variable xi, (explicativas o independientes). El problema ahora consiste en expresar y en función de las variables explicativas y la respuesta obtenida tendrá un valor pronóstico.

En la regresión lineal múltiple se observan tres etapas:

- Estimar la recta de regresión.

- Conocer la validez de la recta.

- Determinar la calidad.

En el ejemplo anterior la ecuación de la recta de regresión puede usarse para predecir el rendimiento laboral de cualquier individuo, conociendo los valores que toma en las variables predictorias.

En ciencias como la muestra, se está empleando con buenos resultados, la Regresión Logística, procedimiento multivariado que trabaja con valores cualitativos.

Estos tres últimos modelos, los podemos considerar como decisionales; su utilización es adecuada cuando el investigador le concede relevancia a un grupo de sujetos o a variables y desea además, predecir futuras actuaciones de nuevos sujetos.

Ahora estamos en condiciones de clasificar estos modelos estadísticos multivariados, de acuerdo con los fines que se persiguen, sería:

a: - Modelos descriptivos

- Análisis de los Componentes Principales.

- Análisis Factorial Clásico.

- Análisis Factorial de las Correspondencias.

- Clasificación Automática (Clúster Analysis).

b) - Modelos decisionales

- Análisis Discriminante.

- Prueba de Hipótesis sobre Vectores de Medias.

- Regresión Lineal Múltiple.

Pero también podemos clasificar estos métodos multivariados según la matriz de datos de la base, clasificación cómoda cuando queremos decidir cuál utilizar, veamos:

a) MATRIZ NO PARTICIONADA: no hay ningún criterio a priori para agrupar los datos por Variables o sujetos.

b) MATRIZ PARTICIONADA A PRIORI:

Partición por filas: existen criterios para agrupar a los individuos y se desea comparar esos grupos.

Partición por columnas: existen criterios para agrupar las variables y se desea encontrar las relaciones entre los grupos variables:

c) SE DESEA PARTICIONAR LA MATRIZ:

Por filas: se quieren agrupar individuos:

Por columnas: se quiere agrupar variables:

 

BIBLIOGRAFÍA

1. Cuadras, C.M.. Métodos de Análisis Multivariado. Colección Laboratorios de Cálculo No. 23. Ed. Universitaria de Barcelona, 1981.

2. Hope, K.. Métods Multivariate Analysis. Ed. Unibooks, University de London Press. Ltd, 1968.

3. Kshirsagar, A.A.. Multivariate Analysis (Vol. 2) Ed. Marcel Dekker, Inv. N.Y. 1972.

4. Linares, G. y M. Vázquez. Estadística Multivariada, Facultad de Psicología, La Habana., ENSPES, 1977.

5. Linares, G.; L. Acosta y V. Sistachs. Estadística Multivariada . ENSPES_ 1986

6. Overall, klett. Applied Multivariate Analysis, Ed. McGraw-Hill, London, 1972.

7. Yela, M.. La Técnica del Análisis Factorial, Un método de Investigación en Psicología y Pedagogía. Ed. 2, 1964.