SciELO - Scientific Electronic Library Online

 
vol.23 número1Evidências de Validade da Escala de Atitudes em Relação a Homens e Mulheres TransConstrução do Sistema de Classificação da Violência Familiar contra Crianças e Adolescentes índice de autoresíndice de assuntospesquisa de artigos
Home Pagelista alfabética de periódicos  

Serviços Personalizados

Journal

artigo

Indicadores

Compartilhar


Avaliação Psicológica

versão impressa ISSN 1677-0471versão On-line ISSN 2175-3431

Aval. psicol. vol.23 no.1 Campinas  2024  Epub 02-Dez-2024

https://doi.org/10.15689/ap.2024.2301.18031.11 

Artigo

Métodos de Correção de Testes Estatísticos em Modelagem de Equações Estruturais

Correction methods for Structural Equation Modeling statistical tests

Métodos de corrección de pruebas estadísticas en el Modelo de Ecuaciones Estructurales

Marli Appel da Silva1  1 

é Psicóloga, Doutora em Psicologia pela Pontifícia Universidade Católica do Rio Grande do Sul (PUC/RS).

, redação inicial do estudo, conceitualização, investigação, investigação, análise dos dados, elaboração do manuscrito

Irani Iracema de Lima Arqimon1 

é Coordenadora do Grupo de Pesquisa Avaliação e Intervenção no Ciclo Vital do Programa de Pós-Graduação em Psicologia da Pontifícia Universidade Católica do Rio Grande do Sul (PUC/RS).

, redação final do trabalho – revisão e edição, elaboração do manuscrito

Guilherme Welter Wendtd2 

é Coordenador do Laboratório de Personalidade e Diferenças Individuais (LAPEDI) da Universidade Estadual do Oeste do Paraná. Docente permanente do Programa de Pós-Graduação em Ciências Aplicadas à Saúde.

, redação inicial do estudo, conceitualização, investigação, investigação, análise dos dados, elaboração do manuscrito

1Pontifícia Universidade Católica do Rio Grande do Sul – PUC/RS, Porto Alegre-RS, Brasil

2Universidade Estadual do Oeste do Paraná – Unioeste, Francisco Beltrão-PR, Brasil


RESUMO

O objetivo deste estudo é comparar diferentes testes estatísticos mediante o aumento amostrai em amostras que violem os pressupostos da normalidade na Modelagem de Equações Estruturais (Structural Equation Modeling, SEM). Os seguintes métodos foram comparados: teste de hipótese nula (H0SB) com qui-quadrado (χ2SB) corrigido pelo teste escalado de Satorra-Bentler, estratégia sugerida por Moshage e Erdfelder (TM&E) e teste de equivalência proposto por Yuan et al. (TY). Trata-se de um estudo simulado e exploratório. Os testes H0SB, TM&E e TY revelaram comportamentos distintos, sugerindo que a H0SB possa suportar amostras menores (100 casos) e rejeitar amostras maiores (≥500 casos), bem como os testes TM&E e TY possam apoiar modelos com mais casos (≥500 casos). Recomenda-se o teste TY por apresentar mais recursos para a avaliação de modelos na SEM, embora o teste TM&E mereça mais estudos sobre o seu desempenho, uma vez que possa ser uma ferramenta adicional importante.

Palavras-chave: método; análise estatística; modelagem de equações estruturais

ABSTRACT

This study aimed to compare different statistical tests by increasing the sample size in samples that violate the assumptions of normality in Structural Equation Modeling (SEM). The following methods were compared: null hypothesis test (H0SB) — Satorra-Bentler scaled chi-square test (χ2SB); the strategy suggested by Moshagen and Erdfelder (TM&E); and the equivalence test proposed by Yuan et al. (TY). This was a simulated, exploratory study. The H0SB, TM&E and TY tests revealed distinct behaviors, suggesting that the H0SB can support smaller samples (100 cases) and reject larger samples (≥500 cases), and that the TM&E and the TY tests can support models with more cases (≥500 cases). The TY test is recommended because it presents more resources for evaluating models in SEM, although the TM&E test deserves further studies on its performance, as it could be an important additional tool.

Keywords: methods; statistical analysis; Structural Equation Modeling

RESUMEN

El objetivo de este estudio es comparar diferentes pruebas estadísticas a través del aumento de la muestra en muestras que violan los supuestos de normalidad en el Modelode Ecuaciones Estructurales (Structural Equation Modeling — SEM). Se compararon las siguientes estrategias: prueba de hipótesis nula (H0SB) — chi-cuadrado (χ2SB) corregido por la prueba escalada de Satorra-Bentler; estrategia sugerida por Moshage y Erdfelder (TM&E); y prueba de equivalencia propuesta por Yuan et al. (TY). Este es un estudio exploratorio y simulado. Las pruebas H0SB, TM&E y TY revelaron comportamientos distintos, lo que sugiere que H0SB puede admitir muestras más pequeñas (100 casos) y rechazar muestras más grandes (≥500 casos), así como las pruebas TM&E y TY pueden admitir modelos con más casos (≥500 casos). Se recomienda la prueba TY porque presenta más recursos para evaluar modelos en SEM, aunque la prueba TM&E merece más estudios sobre su desempeño, ya que puede ser una herramienta adicional importante.

Palabras clave: método; análisis estadístico; Modelos de Ecuaciones Estructurales

O objetivo deste estudo é comparar diferentes testes estatísticos mediante o aumento amostral em amostras que violem os pressupostos da normalidade na Modelagem de Equações Estruturais (Structural Equation Modeling, SEM). A SEM congrega um conjunto de técnicas estatísticas com a finalidade de estabelecer se um modelo proveniente de uma determinada teoria está próximo de apresentar poder explicativo da realidade, tendo crescente aplicação no campo da Avaliação Psicológica e contando, inclusive, com periódicos acadêmicos próprios para a disseminação do conhecimento na área da SEM (Kline, 2015; MacCallum & Austin, 2000; Schumacker & Lomax, 2016).

O tamanho amostral constitui fator importante na aceitação e rejeição de modelos na SEM. Amostras maiores (e.g., número amostral [N] > 1.000) podem propiciar com que o teste de hipótese nula (ou seja, a verificação de H0) não possa ser corroborado, gerando um p-valor significativo (Yuan et al., 2016; Moshagen & Erdfelder, 2016). O teste de hipótese (H0), baseado nas abordagens de Fisher e Neyman-Pearson (Perezgonzalez, 2015) é co-mumente efetuado com base no teste qui-quadrado (χ2, teste de hipótese não paramétrico). Usualmente, para que um modelo possa ser aceito como próximo de uma base populacional, seguindo o parâmetro da distribuição central, o p-valor (nível de significância) do teste χ2 não deve ser significativo (p≤0,05; Kline, 2015; Schumacker & Lomax, 2016; Tarka, 2018).

Todavia, não existe consenso na literatura acerca de quando um modelo possa ser aceito ou rejeitado na pesquisa empírica em casos em que a hipótese nula (H0) não possa ser suportada. Dessa maneira, a aceitação ou rejeição de modelos com base no teste de H0 é tema controverso (Kline, 2015; Perezgonzalez, 2015; Satorra & Bentler, 2001; Yuan et al., 2016).

Logo, visando evitar especialmente os erros de Tipo I (alfa, α; H0 verdadeira e rejeitada) ou II (beta, β; H0 falsa e aceita), além de prover mais informações sobre os ajustes de modelos, especialmente em amostras maiores – quando a H0 possa não ser corroborada – alguns autores sugeriram aplicar testes complementares ao teste H0 (Moshagen & Erdfelder, 2016; Yuan et al., 2016). Nesse caso, a literatura indica duas propostas, a saber: a estratégia sugerida por Moshagen e Erdfelder (TM&E; 2016) e o teste de equivalência proposto por Yuan et al. (TY; 2016). Ambas as propostas (TM&E e TY) visam, com parcimônia, identificar se a extensão da violação do ajuste de um dado modelo é tolerável.

As estratégias citadas são de interesse indiscutível (MacCallum & Austin, 2000). Isso porque amostras que violam os pressupostos da normalidade são encontradas especialmente em estudos intrinsecamente psicossociais, devido à natureza relativamente atípica dos fenômenos estudados (Silva et al., 2018a), bem como, a forma de mensuração dos fenômenos examinados (e.g., escala Likert de autorrelato; Jebb et al., 2021). Em linhas gerais, uma distribuição normal univariada apresenta zero de curtose – que é o grau de “achatamento” de uma distribuição de frequência – e zero de assimetria, que designa o grau de afastamento da média amostral. Consequentemente, amostras não normais apresentam excesso de curtose e assimetria (>1; Gao et al., 2019; Yang & Liang, 2013).

Os testes destinados a amostras normais (e.g., Máxima Verossimilhança – ML), quando aplicados indiscriminadamente em amostras com distribuições não normais, tendem a ocasionar valores inflados do qui-quadrado, aumentando a tendência de que os modelos avaliados sejam rejeitados (Kline, 2015; Lai & Green, 2016; Yang & Liang, 2013). Por conseguinte, torna-se necessária a adoção de testes que corrijam o valor do χ2 em amostras não normais (Satorra & Bentler, 1994; 2001).

Para amostras não normais, Moshagen e Erdfelder (2016) sugeriram como alternativa o teste escalado de

Satorra-Bentler (TSB; Satorra & Bentler, 1994; 2001), considerado robusto e já consagrado na literatura da SEM. O teste TSB corrige o valor do qui-quadrado (χ2SB, correção do valor do qui-quadrado [χ2] estimado pela solução Máxima Verossimilhança [ML] pelo teste TSB) de modo que tal valor se aproxime do retratado por uma amostra normal, indicado quando os pressupostos das Teorias da Normalidade, Elíptica (princípio da assimetria igual a zero com certo nível de curtose homogênea – positiva ou negativa) e da curtose heterogênea (distribuições com características de simetria e valores marginais heterogêneos de curtose) não sejam atendidos (Satorra & Bentler, 2001; Silva et al., 2018b; Yuan et al., 2016).

Além disso, Moshagen e Erdfelder (2016) indicaram que, em amostras não normais, a proposta TM&E seja utilizada em combinação com outros procedimentos robustos, em especial o teste TSB (Satorra & Bentler, 1994; 2001). Já Yuan et al. (2016) informaram que a alternativa TY é apropriada para a avaliação do limite tolerável de má especificação de modelos em amostras que violem os pressupostos da normalidade amostral. Assim, ambas as propostas (TM&E e TY) podem ser adequadas para avaliar amostras não normais (Moshagen & Erdfelder, 2016; Yuan et al., 2016).

Portanto, neste estudo, serão comparadas as seguintes estratégias: teste de hipótese nula (H0SB), com o qui-quadrado (χ2SB) corrigido pelo teste escalado de Satorra-Bentler (TSB); estratégia TM&E (Moshagen & Erdfelder, 2016); e o teste TY (Yuan et al., 2016), mediante ao aumento amostral, em amostras que violem os pressupostos da normalidade. Será avaliada a aceitação ou rejeição de modelos conforme as estratégias comparadas (H0SB, TM&E e TY).

Todavia, serão inicialmente descritas noções sobre a hipótese nula (H0), o teste escalado de Satorra-Bentler (TSB), bem como sobre as estratégias TM&E e TY, destacando-se as especificações e requisitos para o uso das técnicas. Posteriormente, por meio de um estudo simulado e exploratório, as estratégias H0SB, TM&E e TY serão comparadas para a verificação de seus desempenhos mediante ao crescimento amostral.

Teste de Hipótese Nula

A Modelagem de Equações Estruturais é uma ferramenta que permite testar simultaneamente relacionamentos complexos entre múltiplas variáveis. A SEM visa testar se um modelo estudado possui relações apropriadas entre as variáveis; para tanto, compara-se a matriz de co-variância do modelo estudado (S) com a matriz de covariância de um modelo hipotetizado ou assintótico (∑(θ); Peugh & Feldon, 2020). O pressuposto da hipótese nula rege que não há diferença entre essas duas matrizes (H0: S – ∑(θ)=0). Logo, se H0=0, então o valor do teste qui-quadrado do modelo estudado (χ2mod) será igual ao dos graus de liberdade do modelo examinado (χ2mod=GLmod), sendo GL igual à quantidade de “informação” dos dados menos o número de parâmetros do modelo (GL=p − q;Schumacker & Lomax, 2016; Tarka, 2018).

Porém, na prática da pesquisa, a matriz de covariância do modelo estudado tende a diferir da matriz de covariância do modelo hipotetizado: S ≠ ∑(θ). Dessa maneira, o valor do χ2 expressa a diferença ou a variabilidade entre as matrizes estudada e hipotetizada. Consequentemente, dado um determinado valor de GL, para que o qui-quadrado do modelo estudado (χ2mod) apresente um p-valor não significativo, por convenção, o seu valor não deve ultrapassar ao do χ2 crítico (χ2crít; ponto sobre a distribuição populacional que permite rejeitar a hipótese nula) para o nível de erro do Tipo I (alfa, α), determinado como igual a 0,05. Portanto, a H0 tenderá a ser aceita se: χ2mod2crít, indicando que o modelo estudado se aproxima do modelo hipotetizado.

Em contrapartida, na SEM, o valor do qui-quadra-do do modelo estudado (χ2mod) é oriundo de métodos de estimação (e.g., Máxima Verossimilhança – ML) que realizam uma função de minimização das matrizes de covariância. Sendo F a função de minimização dos métodos de estimação e N igual ao número amostral, o qui-quadrado do modelo estudado (χ2mod) pode ser expresso como: χ2mod=F(N – 1). Por conseguinte, a estimação do χ2mod é dependente do tamanho amostral (N), penalizando, especialmente, amostras maiores, que, conforme exposto, tendem a um p-valor significativo (MacCallum et al., 1996).

Ademais, de modo a corroborar com a hipótese nula (H0), entre os vários índices avaliados para a aceitação de rejeição de modelos, destaca-se os usualmente utilizados na SEM: índice raiz do erro quadrático médio de aproximação (RMSEA, Root Mean Square Error of Approximation) e índice de ajuste comparativo (CFI, Comparative Fit Index). Ambos os índices (RMSEA e CFI) investigam a discrepância entre o modelo estudado e o hipotetiza-do. O índice RMSEA é estimado com base no número amostral (N), no parâmetro da não centralidade (λ) e nos graus de liberdade (GL). O parâmetro da não centralidade é uma medida de afastamento da hipótese nula, ou seja, o quanto a média da matriz de covariância do modelo estudado se afasta da média da matriz de covariância do modelo hipotetizado (Bhattacharya & Burman, 2016). Assim, a fórmula de RMSEA pode ser descrita como:

RMSEA=(χ2GL)/GL(N1)

O índice RMSEA estipula pontos de corte para a avaliação dos modelos em determinadas categorias, a saber: “excelente”, “bom”, “aceitável”, “medíocre” e “pobre”, Normalmente, valores iguais ou abaixo de 0,05 classificam o modelo avaliado como “excelente” (Browne & Cudeck, 1993; MacCallum et al., 1996).

Já o índice CFI compara o modelo estudado com o modelo independente. Quando Fm representa o valor da função de ajuste da população do modelo estudado e Fb significa o valor da função de ajuste da população do modelo independente, o índice CFI pode ser descrito como: CFI=1 — Fm/Fb. Os valores do índice CFI vão de 0 a 1; quanto mais o índice CFI se aproxime de 1, melhor pode ser considerado o ajuste do modelo (Kline, 2015).

Correção do Teste Escalado de Satorra-Bentler

Em amostras que violem os pressupostos da normalidade, o teste escalado de Satorra- Bentler (TSB) efetua correção no qui-quadrado (χ2), denominado neste estudo como χ2 SB Quando Ū representa a média da estimação da matriz de covariância assimptótica; Γ¯ exprime a média da estimação da matriz de covariância do modelo estudado; GL retrata os graus de liberdade; e Ƶ retrata a correção em escala da amostra baseada na estrutura do modelo estudado e no nível de não normalidade dos dados, ou seja, o fator de correção efetuado pelo teste TSB, Ƶ pode ser expresso como: Z=tr(U¯Γ¯/GL) . Então, o teste TSB realiza a correção no qui-quadrado (χ2SB) ajustado pela média, estimado pelo teste TML (função de minimização efetuada pela solução ML), por meio da seguinte função: TSB: TSB = TML/Ƶ. Quando Ƶ=1, o valor do χ2 é igual ao dos graus de liberdade (χ2/GL=1) e TSB=TML. Quando Ƶ>1, a correção realizada pelo teste TSB será maior quanto maior for a diferença entre a média da matriz de covariância assimptótica e a média do modelo estudado. Portanto, quando aplicada a correção do teste TSB, tal teste gera um determinado p-valor (pSB) relativo ao χ2SB que suporta a aceitação ou rejeição de um modelo pela H0 (H0SB; Satorra & Bentler, 2001).

Estratégia de Moshagen e Erdfelder

A estratégia formulada por Moshagen e Erdfelder (TM&E, 2016) preconiza que, caso a hipótese alternativa (H1) possa ser rejeitada, então, não há evidências para refutar H0. O índice alfa (α) compreende a probabilidade de recusar uma H0 verdadeira (i.e., erro Tipo I). Normalmente, α tem um valor fixado em 0,05. Já o índice beta (β) representa a probabilidade de aceitar uma H0 falsa ou erro Tipo II. Por convenção, β é igual a 0,80. Assim, segundo Moshagen e Erdfelder (2016), a diferença nas probabilidades entre α e β pode ocasionar mais erros β devido a sua maior chance de ocorrência em comparação ao erro α.

Com base nessa perspectiva, Moshagen e Erdfelder (2016) sugeriram instituir “um critério para equilibrar a probabilidade de rejeitar erroneamente uma H0 correta e aceitar erroneamente uma H0 incorreta” (pp. 3-4). Nesse caso, a proposta sugerida é a de considerar um balanceamento entre os tipos de erros (Tipo I e II), adotando o princípio que α= β (erro Tipo I = erro Tipo II). Ao se considerar que α= β, a H1 será avaliada em termos do nível da não violação do modelo estudado. Nesse contexto, a H0 é comparada a H1; sendo H1 descrita como: H1: S − ∑(θ) ≠ 0. Se a H1 for verdadeira, ou melhor, se existir diferença entre a matriz de covariância do modelo estudado e hipotetizado, o teste de χ2 não seguirá mais uma distribuição central, estando em conformidade com o parâmetro da não centralidade (λ).

Sendo assim, na estratégia TM&E (Moshagen & Erdfelder, 2016), a primeira etapa consiste em encontrar o valor do parâmetro da não centralidade (λ). Quando Fo representa a discrepância entre S (matriz de covariância do modelo estudado), ∑(θ) (matriz de covariância do modelo hipotetizado) e N o número amostral, então, o parâmetro da não centralidade (λ) é representado por meio da seguinte equação: λ = Fo(N – 1).

Na estratégia TM&E (Moshagen & Erdfelder, 2016), o índice raiz do erro quadrático médio de aproximação (RMSEA) é um dos sugeridos para encontrar o valor de λ. Quando S ≠ ∑(θ), o parâmetro da não centralidade pode ser descrito como: λ=RMSEA2GL(N – 1). No caso da proposição TM&E, o índice RMSEA é usualmente convencionado com o valor de 0,05. Ao se encontrar o valor de λ, a próxima etapa visa determinar o valor crítico de λ (χ2crít) em relação a determinados graus de liberdade por meio do p-valor, igualando alfa e beta (α=β). Então, na proposta TM&E, o valor do χ2crít é comparado com o valor do χ2mod (qui-quadrado do modelo estudado), sendo a possibilidade de preterir a H1 e, assim, aceitar a H0 quando: χ2crít2mod; que representa que a diferença entre a matriz de covariância do modelo estudado (S) e a do modelo hipotetizado (∑(θ)) não foi suficiente para ocasionar a violação do modelo estudado.

Teste de Equivalência de Yuan et al.

O teste de equivalência proposto por Yuan et al. (TY; 2016) visa identificar o limite tolerável da má especificação de um modelo denominado de T-size (minimum tolerable size). Adota a premissa que a hipótese nula seja definida como: H0a: FML>Fo, quando FML é a função de minimização efetuada pela solução ML e Fo representa “um número positivo pequeno que possa tolerar o tamanho da má especificação” (Yuan et al., 2016, p. 321). Dessa forma, a H0a é rejeitada quando Fo for maior ou igual a FML. Em termos do parâmetro da não centralidade, a hipótese H0a: FML>Fo pode ser expressa como: H0a: λ>λo. Tendo em vista o parâmetro da não centralidade, o modelo estudado será suportado se o qui-quadrado crítico (χ2crít; λ) for maior que a diferença entre a matriz de covariância do modelo estudado (S) e a matriz de covariância do modelo hipotetizado ou assintótico (∑(θ)); diferença representada como: λo.

Então, o teste de equivalência proposto por Yuan et al. (TY; 2016) baseia-se, principalmente, em dois índices: RMSEA e índice de ajuste comparativo (CFI, Comparative Fit Index). Assim, o teste de equivalência estima intervalos de confianças (IC=95%) para os índices RMSEA (RMSEA T-size [minimum tolerable size]) – RMSEAt) e CFI (CFI T-size [minimum tolerable size] – CFIt), que demonstram se a violação do modelo estudado possa ser tolerável (T-size; Marcoulides & Yuan, 2017; Yuan et al., 2016). No contexto, o teste TY considera intervalo de confiança (IC) a partir do limite superior do índice RMSEA (RMSEAt), bem como do limite inferior do índice CFI (CFIt). Com base nos IC de ambos os índices (RMSEAt e CFIt,), o teste de equivalência estima uma padronização com base nos preceitos de Browne e Cudeck (1993) e MacCallum et al. (1996), avaliando o modelo estudado nas seguintes categorias: “excelente”, “bom”, “aceitável”, “medíocre” e “pobre”; categorias respectivas os pontos de corte do índice CFI (0,99, 0,95, 0,92, 0,90) e RMSEA (0.,01, 0,05, 0,08, 0,10; Marcoulides & Yuan, 2017; Yuan et al., 2016).

O Presente Estudo

É clara a importância dos estudos simulados na área da SEM; pois, por meio de simulações, é possível controlar diversas variáveis (e.g., tamanho amostral) para a verificação do desempenho de variáveis específicas. Tem-se, assim, algumas vantagens, como a possibilidade de ampliar o escopo de pesquisas para a testagem de hipóteses e investigações exploratórias (Chen et al., 2008; Nevitt & Hancock, 2000; Xia et al., 2016). Algumas simulações já foram realizadas na SEM em situações de amostras não normais (Chuang et al., 2015; Maydeu-Olivares et al., 2017; Savalei, 2010) e com diversos tamanhos amostrais (Chuang et al., 2015; Xia et al., 2016).

Ademais, pesquisas empíricas foram localizadas na literatura com o uso da estratégia TY (Yuan et al., 2016) para a avaliação da viabilidade de modelos (Fu et al., 2017; Rippe & Merkelbach, 2021; Silva et al., 2018b). A fiabilidade da estratégia TY também foi avaliada em estudos prévios (Counsell et al., 2020; Finch & French, 2018; Jiang et al., 2017; Peugh & Feldon, 2020). Porém, não foram detectadas investigações com o uso da estratégia de TM&E (Moshagen & Erdfelder, 2016).

Todavia, investigações que comparassem os testes TM&E e TY, especialmente em amostras que violem os pressupostos da normalidade amostral, são bastante raras. Uma busca em base de periódicos científicos (e.g., PubMed, EBESCO) não localizou estudos que comparassem ambas as abordagens (TM&E e TY) em qualquer contexto.

Não obstante, o uso das propostas TM&E e TY pode auxiliar os pesquisadores a verificar se o limite da violação dos seus modelos pode ser tolerável, podendo ser estratégias valiosas, especialmente na presença de amostras maiores (e.g., >1.000), quando o teste de significância da hipótese nula (H0) possa tender a ser significativo (>0,05). Dessa forma, optou-se, neste estudo, por comparar a H0SB2 corrigido pelo teste escalado de Satorra-Bentler – TSB) com a estratégia TM&E (Moshagen & Erdfelder, 2016) e a TY (Yuan et al., 2016), bem como comparar a proposta TM&E com a TY, pois são propostas encontradas na literatura para a verificar se a violação de um modelo estudado pode ser tolerável. Comumente, na SEM, vários índices (e.g., RMSEA) são utilizados para corroborar a aceitação da hipótese nula (H0). Contudo, os pontos de corte desses índices podem ser considerados controversos (Chuang et al., 2015; Xia et al., 2016), instigando a obtenção de mais informações sobre a viabilidade de um modelo estudado.

Assim, com a finalidade de comparar o teste de significância da H0SB (Satorra & Bentler, 2001), TM&E (Moshagen & Erdfelder, 2016) e TY (Yuan et al., 2016) em amostras que violem os pressupostos da normalidade, será avaliada a aceitação ou rejeição de modelos pelas estratégias (H0SB, TM&E e TY) mediante o aumento amostral (N), controlando determinados parâmetros (desvio padrão, média, assimetria e curtose univariadas). Nesse contexto, este estudo apresenta a seguinte hipótese: os desempenhos dos testes H0SB, TM&E e TY são similares na aceitação e rejeição de modelos mediante ao aumento amostral em amostras que violem os pressupostos da normalidade submetidas à correção do teste escalado de Satorra-Bentler (TSB; Satorra & Bentler, 1994; 2001).

Método

Delineamento

Trata-se de um estudo simulado. Para efetuar as simulações, obteve-se uma matriz de correlação de amostra normal hipotética com base no estudo de Chuang et al. (2015), manipulada de forma que se aproxime de estudos empíricos (Xia et al., 2016), quando a matriz de covariância do modelo estudado propende a diferir da matriz de covariância do modelo hipotetizado (S ≠ ∑(θ); Satorra & Bentler, 2001).

Procedimentos

A partir da matriz de correlação gerada, os dados foram simulados no programa EQS, versão 6.3, com 100 replicações (Bentler, 2006; ver Anexo 1 – Exemplo de síntese utilizada no EQS). A transformação dos dados não normais multivariados baseou-se no método de Fleishman (1978) com extensão de Vale e Maurelli (1983). Os modelos foram estimados com base no teste Escalado de Satorra-Bentler (TSB; Satorra & Bentler, 2001).

Para a criação de amostras não normais, utilizou-se a transformação por meio da manipulação polinomial da assimetria (S) e curtose (K) (Fleishman, 1978; Vale & Maurelli, 1983). Aliás, estatisticamente, a não normalidade dos dados pode ser mensurada através da assimetria e curtose. Ademais, a existência de assimetria e curtose em conjunto afeta em maior medida os dados do que a presença apenas da assimetria ou curtose. Além disso, assimetria e curtose univariadas maiores que o valor de ±1 podem ser caracterizadas como excessivas (Wang et al., 1996).

As amostras foram estipuladas em 100, 500, 1.500, 5.000 e 10.000 casos. O tamanho amostral de 100 casos pode ser mais comumente encontrado nas pesquisas empíricas, enquanto as amostras com 500 casos ou mais podem ser relativamente grandes nas áreas das ciências sociais e humanas (Xia et al., 2016).

Utilizou-se um modelo da análise fatorial confirmatória (AFC) com 16 variáveis observáveis e dois latentes – cada variável latente contou com oito variáveis observáveis (Chuang et al., 2015), alcançando 103 graus de liberdade. O modelo com 103 graus de liberdade constitui-se enquanto complexo. Na prática da SEM, modelos complexos são mais usualmente estimados (Herzog et al., 2007). Os modelos também contaram com dois fatores latentes por serem utilizados na pesquisa empírica (Damásio et al., 2011; Wagner et al., 2014) e experimental (Hayakawa, 2019; Yang & Liang, 2013). Utilizou-se variáveis observáveis contínuas, mais comuns nas pesquisas em Psicologia (e.g., escala de Likert de autorrelato; Jebb et al., 2021).

Ademais, os modelos foram selecionados de modo a se aproximarem das pesquisas empíricas (Damásio et al., 2011; Wagner et al., 2014); assim, apresentaram uma carga fatorial constrita em cada fator, bem como covariância e variância não constritas entre os fatores latentes; além de não possuírem cargas cruzadas (Xia et al., 2016). Duas condições amostrais foram avaliadas: 1. DP (desvio padrão) = 2, M (média) = 2, S (assimetria) = 1,5 e K(curtose) = 7; 2. DP = 2, M=2, S = 2 e K=21. A condição 1 pode ser considerada como uma distribuição moderadamente não normal; bem como a condição 2 como uma distribuição extremamente não normal (Xia et al., 2016). O desvio padrão expressa o grau de dispersão de uma amostra. A média é uma medida de tendência central. Uma distribuição normal padrão, que segue o parâmetro da centralidade, apresenta o desvio padrão de 1 e a média igual a 0 (Salkind, 2007). Assim, dez modelos foram criados e codificados, conforme a Tabela 1.

Tabela 1 Codificação dos Modelos 

Condições Amostrais Sigla Número de casos Desvio padrão Média Assimetria Curtose
1 M*100 100 2 2 1,5 7
M*500 500 2 2 1,5 7
M*1500 500 2 2 1,5 7
M*5000 5.000 2 2 1,5 7
M*10000 10.000 2 2 1,5 7
2 MO_100 100 2 2 2 21
MO_500 500 2 2 2 21
MO_1500 500 2 2 2 21
MO_5000 5.000 2 2 2 21
MO_10000 10.000 2 2 2 21

A verificação da aceitação ou rejeição dos modelos foi efetuada com base no p-valor (pSB; H0SB) do teste TSB (Satorra & Bentler, 2001) e por meio dos critérios utilizados pelas estratégias TM&E e TY. Vale destacar que a proposta TM&E preconiza que, para um modelo seja aceito, o valor do qui-quadrado do modelo estudado deve ser menor que o do qui-quadrado crítico do parâmetro da não centralidade quando alfa é igual a beta (α = ß; χ2mod < χ2crít; Moshagen & Erdfelder, 2016).

Dessa maneira, para possibilitar a avaliação da proposta TM&E, o valor do qui-quadrado estimado pelo teste TSB ( χ2SB) também foi apresentado neste estudo. Os cálculos referentes à proposta de Moshagen e Erdfelder (2016) podem ser obtidos por meio do programa SEMPower, de distribuição livre (http://psycho3.uni-mannheim.de/sempower), na parte “compromisse”.

Com a finalidade de avaliar a estratégia TY (Marcoulides & Yuan, 2017; Yuan et al., 2016), foram auferidos os valores de RMSEAt e CFIt, com seus intervalos de confiança, classificando os modelos com ajuste “excelente/bom”, conforme os pontos de corte sugeridos por Yuan et al. (2016). De forma prática, para se obter o valor de RMSEAt e CFIt, e seus intervalos de confiança, primeiramente, efetua-se a estimação do modelo em um programa da SEM (e.g., EQS, Lisrel, Mplus, R). Posteriormente, sintaxes específicas são utilizadas e processadas no programa R (cf. Marcoulides & Yuan, 2017).

Os valores do χ2crít foram auferidos com o programa SEMPower (Moshagen & Erdfelder, 2016). Já os valores do índice RMSEAt e CFIt, bem como dos seus respectivos intervalos de confiança, foram obtidos por meio do programa R (Marcoulides & Yuan, 2017; Yuan et al., 2016). Portanto, as estratégias analisadas (H0SB, TM&E e TY) foram comparadas em termos da possibilidade de aceitação ou rejeição dos modelos com base nos critérios utilizados por essas estratégias, considerando o crescimento amostral.

Resultados

Este estudo comparou a hipótese nula (H0SB), quando o qui-quadrado (χ2) foi corrigido pelo teste Escalado de Satorra-Bentler (TSB; Satorra & Bentler, 2001); a estratégia de Moshagen e Erdfelder (TM&E; 2016); e o teste de equivalência de Yuan et al. (TY; Yuan et al., 2016). Observou-se que os modelos com 100 casos (M*100 e MO_100) puderam ser suportados pela hipótese nula (H0SB, pSB>0,05: Kline, 2015) em amostras que violaram os pressupostos da normalidade amostral (DP=2, M=2, S=1,5, K=7; DP=2, M=2, S=2, K=21). Além disso, a H0SB foi rejeitada (pSB<0,05; χ2 do modelo estudado maior que o χ2crítico: χ2mod< χ2crít) nos modelos com 500, 1.500, 5.000 e 10.000 mil casos (M*500, M*1500, M*5000, MO_500, MO_1500, MO_5000 e MO_10000; Tabela 2).

Tabela 2 Modelos Testados e Respectivos Valores de χ2SB, pSB, Testes TM&E, e TY 

Cond. Amost Modelo χ2sb pSB Tm&e Ty
χ2λcrít RAMSEAt Classificação CFIt Classificação
Excel./Bom Excel./Bom
1 M*100 114.818 0,20 114.209 0,06 ≤0,08 0,78 ≥0,88
M*500 131.890 0,03 154.617 0,03 ≤0,06 0,94 ≥0,93
M*1500 154.549 <0,001 239.598 0,02 ≤0,06 0,97 ≥0,94
M*5000 184506 <0,001 499.166 0,02 ≤0,05 0,99 ≥0,95
M*10000 337.497 <0,001 845.865 0,02 ≤0,05 0,99 ≥0,95
2 MO_100 118.490 0,14 114.209 0,07 ≤0,08 0,73 ≥0,88
MO_500 147.482 <0,001 154.617 0,04 ≤0,06 0,93 ≥0,93
MO_1500 159.744 <0,001 239.598 0,02 ≤0,06 0,97 ≥0,94
MO_5000 174.627 <0,001 499.166 0,01 ≤0,05 0,99 ≥0,95
MO_10000 318.981 <0,001 845.865 0,02 ≤0,05 0,99 ≥0,95

Notas. Os valores negritados no teste de hipótese são os referentes a aceitação do modelo avaliado (pSS≤0,05); os valores negritados relativos à estratég ia Tm&e são os respectivos a aceitação do modelo avaliado (χ2λcrít2SB); os valores negritados na estratégia TY demonstram quando o modelo foi classificado como “excelente/bom”, Excel., excelente; pSB: p-valor do teste escalado de Satorra-Bentler; RMSEAt: raiz do erro quadrático médio de aproximação T-size (minimum tolerable size); CFIt: índice de ajuste comparativo T-size (minimum tolerable size); Tm&e: teste proposto por Moshagen e Erdfelder (2016); TY: teste de equivalência proposto por Yuan et al. (2016); χ2crít: qui-quadrado crítico do parâmetro da não centralidade; χ2SB: qui-quadrado do teste Escalado de Satorra-Bentler.

Já estratégia TM&E (Moshagen & Erdfelder, 2016) rejeitou os modelos com 100 casos (M*100 e MO_100); tendo em vista que, nessas amostras, o valor do qui-quadrado crítico do parâmetro da centralidade no caso de alfa é igual a beta (α=ß) (χ2λcrít) foi menor que o valor do qui-quadrado (χ2SB) corrigido pelo teste de Santorra-Bentler (TSB). Assim, com base na estratégia TM&E, a hipótese nula (H0) foi rejeitada e a hipótese alternativa (H1) foi aceita nas amostras com 100 casos. Os outros modelos com 500, 1.500, 5.000 e 10.000 mil casos (M*500, M*1500, M*5000, M*10000, MO_500, MO_1500, MO_5000 e MO_10000) foram aceitos pelo teste TM&E (χ2λcrít< χ2mod), sendo que não houve evidências para a rejeição da H1.

Em relação ao teste TY (Yuan et al., 2016), considerando os modelos classificados como “excelente/bom” pelos índices RMSEAt, todos os modelos puderam ser considerados como aceitáveis (M*100, M*500, M*1500, M*5000, MO_100, MO_500, MO_1500, MO_5000 e MO_10000). Por sua vez, os modelos com 100 casos (M*100 e MO_100) foram avaliados como “pobre” pelo índice CFIt, já que os valores encontrados (M*100 =0,78 e MO_100=0,73) foram menores que 0,88 (modelo “excelente/bom”), bem como, os modelos M*5000, M* 10000, MO_5000 e MO_10000 foram classificados como “excelente/bom” pelo índice CFIt.

Dessa forma, os testes p-valor (pSB; H0SB), TM&E e TY revelaram comportamentos diferenciados na aceitação e rejeição de modelos que violaram os pressupostos da normalidade amostral mediante ao seu crescimento. Logo, a hipótese do presente estudo foi rejeitada.

Porém, observou-se que o teste p-valor (pSB; H0SB), TM&E e TY revelaram-se sensíveis ao tamanho amostral. Por exemplo, o modelo M*100 e MO_100 foram aceitos pelo teste pSB (0,20 e 0,14, respectivamente), mas rejeitados pelos testes TM&E2λcrít< χ2SB) e TY (CFIt > 0,88, modelo “pobre”). Além disso, os modelos acima de 500 casos foram rejeitados pelo teste pSB (>0,05; χ2mod> χ2crít), mas suportados pelas estratégias TM&E e TY.

Discussão

Este estudo simulado e exploratório comparou a aceitação e a rejeição de modelos pelo teste de hipótese nula (H0SB; p-valor do teste de Satorra-Bentler [pSB]), a estratégia de Moshagen e Erdfelder (TM&E; Moshagen & Erdfelder, 2016) e o teste de equivalência de Yuan et al. (TY; Yuan et al., 2016) em amostras que violaram os pressupostos da normalidade, considerando o aumento amostral. Foram avaliadas amostras de 100, 500, 1.500, 5.000 e 10.000 casos, com base em duas condições amostrais, que se diferenciaram pela assimetria (S=1,5 ou 2) e curtose (K=7 ou 21). As amostras foram corrigidas pelo teste escalado de Satorra-Bentler (TSB; Satorra & Bentler, 1994; 2001). Vale ressaltar que, embora a assimetria possua impactos nos valores do qui-quadrado corrigido pelo teste de Satorra-Bentler (χ2SB) em decorrência da estimação pela Máxima Verossimilhança (ML), o teste TSB corrige especialmente a curtose (Xia et al., 2016; Yuan et al., 2016).

No contexto avaliado, a hipótese do presente estudo foi rejeitada, considerando que os testes H0SB (pSB; Satorra & Bentler, 1994; 2001), TM&E (Moshagen & Erdfelder, 2016) e TY (Yuan et al., 2016) revelaram comportamentos distintos. Destaca-se que os testes analisados (H0SB, TM&E e TY) utilizam estratégias diferenciadas para a aceitação ou rejeição dos modelos estudados.

O teste de hipótese nula (H0) sugere que um modelo possa ser aceito quando o erro Tipo I (probabilidade de recusar uma H0 verdadeira, α) não ultrapasse o valor de confiança de 95%; ou seja, um p-valor menor ou igual a 0,05 (Perezgonzalez, 2015). Para tanto, o teste convencional da hipótese nula (H0) compara a matriz de covariância do modelo estudado (S) com a matriz de covariância de um modelo hipotetizado ou assintótico (∑(θ)). Assim, o pressuposto da hipótese nula (H0) preconiza que a diferença entre essas matrizes deve ser igual a zero (H0: S – ∑(θ) = 0; Tarka, 2018; Kline, 2015; Schumacker & Lomax, 2016).

Neste estudo, o p-valor (pSB) foi respectivo ao qui-quadrado (χ2SB) corrigido pelo teste escalado de Satorra-Bentler (TSB; Satorra & Bentler, 1994; 2001). No caso, o teste TSB corrige as amostras não normais estimadas pela solução Máxima Verossimilhança (ML) de modo que se aproximem de uma amostra normal. Assim, quanto maior for a diferença entre a média da matriz de covariância assimptótica e a média do modelo estudado, maior será a correção do teste TSB.

Porém, o p-valor (H0) é sensível ao tamanho amostral (Kline, 2015). Neste estudo, a hipótese nula (H0SB; pSB), considerando um qui-quadrado corrigido pelo teste de Satorra-Bentler (TSB; Satorra & Bentler, 1994; 2001), foi corroborada unicamente nos modelos com 100 casos (M*100 e MO_100; pSB≤0,05). Os modelos iguais ou acima de 500 casos foram rejeitados (pSB>0,05).

Devido a controvérsias em relação ao teste de hipótese nula (Perezgonzalez, 2015), Moshagen e Erdfelder (2016) e Yuan et al. (2016) propuseram estratégias complementares à H0, tendo em vista a possibilidade de rejeitar amostras maiores. A variabilidade do p-valor em função do aumento amostral foi apoiada por outros estudos (Brosseau-Liard, 2013; Chen et al., 2008; Kline, 2015; Nevitt & Hancock, 2000; Xia et al., 2016), o que parece corroborar com a necessidade de testes complementares para a aceitação da H0 ( Chen et al., 2008; Kline, 2015; Yuan et al., 2016).

A estratégia de Moshagen e Erdfelder (TM&E; 2016) considera que existe uma disparidade entre a aceitação de modelos com base na hipótese nula (H0) de 0,05 (erro Tipo I, α) e a rejeição da hipótese alternativa (H1) de 0,80 (erro Tipo II, β); ou seja, existe uma chance de aceitar um modelo de 5% e de rejeitá-lo em 80%. Os autores, assim, propuseram que o erro Tipo I e II sejam igualados (α= β); sugerindo que, se não existem evidências para rejeitar a H1, então, a H0 pode ser suportada. Tendo em vista que o qui-quadrado crítico (χ2crít) representa um ponto sobre a distribuição populacional que permite rejeitar a hipótese nula (H0), para que um modelo seja apoiado, a estratégia estipula que o qui-quadrado do modelo estudado (χ2mod) seja menor que o qui-quadrado crítico do parâmetro da não centralidade (χ2λcrít), quando alfa é igual a beta (α=β).

No presente estudo, a estratégia de Moshagen e Erdfelder (TM&E; 2016) rejeitou os modelos com 100 casos (M*100 e MO_100). Contudo, os autores (Moshagen & Erdfelder, 2016) sugeriram que, em amostras menores, possa ocorrer um maior risco de erros, recomendando que a estratégia (TM&E) seja aplicada a amostras maiores, reduzindo a possibilidade dos erros Tipo I e II.

Por sua vez, o teste de equivalência de Yuan et al. (TY; Yuan et al., 2016) considerou os modelos com 100 casos (M*100 e MO_100) como “pobre” em termos do índice CFIt (índice de ajuste comparativo T-size [minimum tolerable size]); embora o índice RMSEAt (raiz do erro quadrático médio de aproximação T-size [minimum tolerable size]) avaliou todos os modelos como “excelente/bom”, Portanto, os modelos com 100 casos não foram suportados, considerando o índice CFIt. Porém, Yuan et al. (2016) ressaltaram que a fiabilidade do teste de equivalência melhora em decorrência do aumento amostral.

Destaca-se, então, que os índices CFIt e RMSEAt, utilizados no teste de equivalência Yuan et al. (TY; Yuan et al., 2016), são baseados nos índices CFI e RMSEA convencionais, comumente utilizados nos Modelos de Equações Estruturais (SEM). Dessa forma, o teste TY estipula um IC de 95% para os índices RMSEA (RMSEAt) e CFI (CFIt), que demonstra se a violação do modelo estudado possa ser suportada, condição denominada de T-size (minimum tolerable size;Marcoulides & Yuan, 2017; Yuan et al., 2016).

Logo, o fato do índice RMSEAt ter apontado para a aceitação do modelo com 100 casos (M*100 e MO_100) e para rejeitação pelo índice CFIt pode ser explicado visto que os índices RMSEA e CFI avaliam os modelos com premissas diferentes (Lai & Green, 2016). Por conseguinte, o índice RMSEAt e CFIt baseiam-se no RMSEA e CFI convencionais (Yuan et al., 2016). O índice RMSEA avalia o modelo estudado por meio da estimação do número amostral (N), do parâmetro da não centralidade (λ) e dos GL. O índice CFI compara o modelo estudado com o independente (Kline, 2015).

Acrescenta-se que estudos revelaram que o índice RMSEA corrigido pelo teste TSB pode apresentar bom desempenho mediante ao crescimento amostral (Brosseau-Liard, 2013; Brosseau-Liard et al., 2012; Xia et al., 2016). Porém, em estudo simulado, Brosseau-Liard et al. (2012) encontraram que a não normalidade amostral diminuiu o valor médio dos índices de ajuste a partir da correção do teste TSB.

Aliás, Ainur et al. (2017) verificaram que índice RMSEA foi menos afetado pela não normalidade dos dados que o índice CFI. Além disso, Sideridis et al. (2014) sugeriram que RMSEA possa ser apropriado para amostras menores.

Ademais, Lai e Green (2016) sugeriram que, em amostras que violem os pressupostos da normalidade, não existe consenso nas definições dos pontos de cortes nos índices RMSEA e CFI, já que as propriedades estatísticas dos estimadores para amostras não normais ainda não são inteiramente compreendidas. Desse modo, os desacordos entre os índices RMSEA e CFI não podem ser considerados como desajustes no modelo avaliado. Contudo, como o índice CFI pode ser considerado como parcimonioso, costuma ser utilizado em adição ao RMSEA para suportar análises de modelos em SEM (Kline, 2015).

Conforme verificado neste estudo, a hipótese nula (H0SB; pSB), tendo em vista um qui-quadrado corrigido pelo teste de Satorra-Bentler (TSB; Satorra & Bentler, 1994; 2001), apresentou uma tendência de rejeição de amostras maiores (≥500 casos; Kline, 2015). Ademais, ressalta-se que tanto o teste TM&E (Moshagen & Erdfelder, 2016) e TY (Yuan et al., 2016) possuem a mesma premissa, avaliar se a violação do modelo estudado possa ser suportada quando a hipótese nula (H0) possa ser rejeitada (>0,05) em decorrência do aumento amostral, embora ambas as estratégias (TM&E e TY) utilizem métodos diferenciados para a aceitação ou rejeição de modelos. Aliás, tanto o TM&E (Moshagen & Erdfelder, 2016) e TY (Yuan et al., 2016) podem ser mais adequados para avaliarem um número amostral maior (≥500 casos).

Todavia, enfatiza-se que, conforme o teste TY baseia-se em dois índices (RMSEAt e CFIt) para a aceitação ou rejeição de modelos, esse teste pode ser preferível ao teste TM&E para apoiar um modelo, pois pode apresentar mais fiabilidade para avaliação de modelos na SEM. Além disso, estudos prévios (Counsell et al., 2020; Finch & French, 2018; Fu et al., 2017; Jiang et al., 2017; Peugh & Feldon, 2020; Rippe & Merkelbach, 2021; Silva et al., 2018b) foram localizados na literatura utilizando o teste TY. Contudo, a partir de ampla pesquisa em bancos de dados científicos, nenhum estudo empírico ou simulado foi localizado com a técnica TM&E. Assim, compreende-se que o teste TY está paulatinamente adquirindo escopo na literatura da SEM.

Contudo, Peugh e Feldon (2020) recomendaram cautela no uso do teste TY; tendo em vista que o índice CFI depende da mensuração do modelo independente, os resultados do teste TY podem variar, já que os softwares de análise estatística na SEM podem especificar o modelo independente de maneiras diferenciadas. Também Montoya e Edwards (2021) sugeriram que o teste TY possa não ser apropriado para estudos exploratórios (e.g., Análise Fatorial Exploratória — AFE). Porém, o teste TY; representa um avanço para avaliar os ajustes de modelos na SEM (Peugh & Feldon, 2020).

É pertinente frisar que o presente estudo possui limitações. Assim, ressalta-se que apenas duas técnicas (TM&E e TY) foram comparadas entre si e com o teste de hipótese (H0SB), com correção do χ2 pelo teste escalado de Satorra-Bentler (TSB; Satorra & Bentler, 1994; 2001). Contudo, outras propostas para a verificação da má especificação de modelos em SEM podem ser encontradas na literatura (e.g., aplicações Bayesianas; Dienes, 2014). Ademais, neste estudo, não foram verificados outros modelos (e.g., multinível) além da análise fatorial confirmatória (AFC) clássica com um nível de fator latente e 16 variáveis; porém, os modelos da AFC clássica são os mais utilizados na literatura (Damásio et al., 2011; Hayakawa, 2019; Wagner et al., 2014; Yang & Liang, 2013). Igualmente, apenas o teste robusto escalado de Satorra-Bentler (Satorra & Bentler, 2001) foi utilizado para as análises por ser um dos mais encontrados na literatura para a estimação de amostras que violem a normalidade amostral (Moshagen & Erdfelder, 2016). Além disso, utilizou-se apenas uma modalidade de matriz de correlação para as simulações; embora a matriz de correlação utilizada tenha sido manipulada para se aproximar de estudos empíricos (S ≠ ∑(θ); Yuan et al., 2016), tal matriz de correlação pode não retratar a realidade da pesquisa aplicada. Além disso, apenas dois níveis de assimetria (S; 1,5 e 2) e de curtose (K; 7 e 21) foram manipuladas, contudo, buscou-se uma distribuição moderadamente não normal (S =1,5 e K=7) e outra extremamente não normal (S = 2, K=21; Xia et al., 2016). Não obstante, este estudo tenha buscado se aproximar da pesquisa aplicada na seleção dos aspectos metodológicos, vale lembrar que estudos simulados apenas se aproximam das pesquisas empíricas, embora, possam contribuir com a geração de conhecimentos (Chen et al., 2008; evitt & Hancock, 2000; Xia et al., 2016).

Considerações Finais

Este estudo visou comparar as seguintes estratégias: o teste de hipótese nula (H0SB), com um qui-quadrado corrigido pelo teste de Satorra-Bentler (TSB; Satorra & Bentler, 1994; 2001); a proposta de Moshagen e Erdfelder (TM&E; 2016) e o teste de equivalência sugerido por Yuan et al. (TY; 2016). Por meio de uma investigação simulada e exploratória, em amostras que violaram os pressupostos da normalidade, as estratégias foram avaliadas quanto a aceitação ou rejeição de modelos com base nas premissas das respectivas propostas (H0SB, TM&E e TY).

O estudo permite concluir que os testes (H0SB, TM&E e TY) revelam desempenhos diferenciados. Embora tanto o teste H0SB como as estratégias TM&E e TY tenham o objetivo de avaliar se a violação do modelo possa ser aceita, esses testes (H0SB, TM&E e TY) recorrem a métodos distintos, incorrendo em resultados dessemelhantes. Os resultados das simulações sugeriram que a H0SB possa suportar (pSB≤0,05) amostras menores (100 casos) e rejeitar (pSB>0,05) amostras maiores (≥500 casos). Por sua vez, os resultados também indicaram que os testes TM&E e TY são mais apropriados para a avaliação de amostras maiores (≥500 casos).

Como vantagem, os testes (H0SB, TM&E e TY) são de fácil execução, favorecendo o uso por parte dos pesquisadores. A H0 (H0SB) corrigida pelo teste escalado de Satorra-Bentler (TSB; Satorra & Bentler, 1994; 2001) está disponível em softwares da SEM (EQS, Mplus, R) com a saída de dados por meio do p-valor (pSB). A estratégia TM&E (Moshagen & Erdfelder, 2016) conta com software específico (SemPower) e o teste TY (Yuan et al., 2016) disponibiliza sintaxes a serem processadas no programa R.

Todavia, como recomendação, sugere-se a utilização do teste TY em detrimento do teste TM&E quando a H0 (H0SB) não possa ser aceita em decorrência do aumento amostral. Considerou-se o fato de que o teste TY valer-se de mais recursos que a estratégia TM&E, que se baseia em dois índices (RMSEAt e CFIt) para a avaliação dos modelos. A estratégia TM&E merece mais estudos a respeito de seu desempenho, pois pode ser valiosa para a avaliação de modelos. Possivelmente, a ausência de estudos com essa estratégia (TM&E) possa ser uma consequência da técnica se fundamentar no qui-quadrado crítico do parâmetro da centralidade (χ2λcrít) a partir de igualar o erro Tipo I e II (α = β; Moshagen & Erdfelder, 2016).

Quanto à possibilidade de replicabilidade deste estudo, destaca-se que se buscou condições amostrais que se aproximassem de amostras utilizadas nas pesquisas psicossociais, tais como a não normalidade dos dados, modelos comuns na SEM (e.g., CFA) e tamanhos amostrais (e.g., 100 casos). Contudo, como limitação à replicabilidade deste estudo, ressalta-se que, por se tratar de um estudo simulado, utilizou-se dados fixos, que compreendem a assimetria e curtose pré-determinadas.

Assim, com a crescente utilização das técnicas da SEM nas ciências aplicadas, recomenda-se a replicação deste estudo com diferentes números amostrais, graus de liberdade, níveis de má especificação dos modelos e outros testes robustos. Também, investigações devem ser efetuadas comparando as estratégias TM&E e TY em amostras em consonância com os pressupostos da normalidade ou não normalidade amostral, tendo em vista a ausência de investigações a esse respeito. Além disso, o teste TY deve ser avaliado com mais critério em estudos simulados, verificando o seu desempenho em situações em que os índices RMSEAt e CFIt possam estar em desacordo.

FinanciamentoA presente pesquisa não recebeu nenhuma fonte de financiamento sendo custeada com recursos dos próprios autores.

Disponibilidade de dados e materiais

Todos os dados e sintaxes gerados e analisados durante esta pesquisa serão tratados com total sigilo devido às exigências do Comitê de Ética em Pesquisa com Seres Humanos. Porém, o conjunto de dados e sintaxes que apoiam as conclusões deste artigo estão disponíveis mediante razoável solicitação ao autor principal do estudo.

Agradecimentos

Não há menções.

Referências

Ainur, A. K., Sayang, M. D., Jannoo, Z., & Yap, B. W. (2017). Sample size and non-normality effects on goodness of fit measures in Structural Equation Models. Pertanika Journal of Science & Technology, 25(2), 575-586. [ Links ]

Bhattacharya, P., & Burman, P. (2016). Theory and methods of statistics. London, United Kingdom: Academic Press. doi: 10.1016/c2014-0-02379-9 [ Links ]

Brosseau-Liard, P. E. (2013). Abstract: RMSEA with nonnormal data: A comparison of two robust corrections. Multivariate Behavioral Research, 48(1), 150-151. https://doi.org/1010.1080/00273171.2013.751295Links ]

Brosseau-Liard, P. E., Savalei, V., & Li, L. (2012). An investigation of the sample performance of two nonnormality corrections for RMSEA. Multivariate Behavioral Research, 47(6), 904-930. https://doi.org/10.1080/00273171.2012.715252Links ]

Browne, M. W., & Cudeck, R. (1993). Alternative ways of assessing model fit. Em K. A. Bollen & J. S. Long (Orgs.), Testing Structural Equation Models (pp. 136-162). Newbury Park, CA: Sage. [ Links ]

Chen, F., Curran, P. J., Bollen, K. A., Kirby, J., & Paxton, P. (2008). An empirical evaluation of the use of fixed cutoff points in RMSEA test statistic in Structural Equation Models. Sociological Methods & Research, 36(4), 462-494. https://doi.org/10.1177/0049124108314720Links ]

Chuang, J., Savalei, V., & Falk, C. F. (2015). Investigation of type i error rates of three versions of robust chi-square difference tests. Structural Equation Modeling: A Multidisciplinary Journal, 22(4), 517-530. https://doi.org/10.1080/10705511.2014.938713Links ]

Counsell, A., Cribbie, R., & Flora, D. (2020). Evaluating equivalence testing methods for measurement invariance. Multivariate Behavioral Research, 55(2), 312-328. https://doi.org/10.1080/00273171.2019.1633617Links ]

Damásio, B. F., Machado, W. L, & Silva, J. P. (2011). Estrutura fatorial do Questionário de Saúde Geral (QSG-12) em uma amostra de professores escolares. Avaliação Psicológica, 10(1), 99-105. Recuperado de http://pepsic.bvsalud.org/scielo.php?script=sci_arttext&pid=S1677-04712011000100011&lng=pt&tlng=ptLinks ]

Dienes, Z. (2014). Using Bayes to get the most out of non-significant results. Frontiers In Psychology, 5. Recuperado de https://www.frontiersin.org/articles/10.3389/fpsyg.2014.00781/full. https://doi.org/10.3389/fpsyg.2014.0078Links ]

Finch, W., & French, B. (2018). A simulation investigation of the performance of invariance assessment using Equivalence Testing Procedures. Structural Equation Modeling: A Multidisciplinary Journal, 25(5), 673-686. https://doi.org/10.1080/10705511.2018.1431781Links ]

Fleishman, A. I. (1978). A method for simulating non-normal distributions. Psychometrika, 43, 521-532. https://doi.org/10.1007/BF02293811Links ]

Fu, Y., Wen, Z., & Wang, Y. (2017). The total score with maximal reliability and maximal criterion validity: An illustration using a Career Satisfaction Measure. Educational and Psychological Measurement, 78(6), 1108-1122. https://doi.org/10.1177/0013164417738564Links ]

Gao, C., Shi, D., & Maydeu-Olivares, A. (2019). Estimating the Maximum Likelihood Root Mean Square Error of Approximation (RMSEA) with non-normal data: A Monte-Carlo Study. Structural Equation Modeling: A Multidisciplinary Journal, 27(2), 192-201. https://doi.org/10.1080/10705511.2019.1637741Links ]

Hayakawa, K. (2019). Corrected goodness-of-fit test in covariance structure analysis. Psychological Methods, 24(3), 371-389. https://doi.org/10.1037/met0000180Links ]

Herzog, W., Boomsma, A., & Reinecke, S. (2007). The model-size effect on traditional and modified tests of covariance structures. Structural Equation Modeling: A Multidisciplinary Journal, 14(3), 361-390. https://doi.org/10.1080/10705510701301602Links ]

Jebb, A., Ng, V., & Tay, L. (2021). A review of key Likert Scale Development Advances: 1995-2019. Frontiers In Psychology, 12. Recuperado de https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8129175/. https://doi.org/10.3389/fpsyg.2021.637547Links ]

Jiang, G., Mai, Y., & Yuan, K. (2017). Advances in measurement invariance and mean comparison of latent variables: Equivalence Testing and a projection-based approach. Frontiers In Psychology, 8. Recuperado de https://www.frontiersin.org/articles/10.3389/fpsyg.2017.01823/full. https://doi.org/10.3389/fpsyg.2017.01823Links ]

Kline, R. (2015). Principles and practice of Structural Equation Modeling. (4th ed.). New York: Guilford Press. [ Links ]

Lai, K., & Green, S. B. (2016). The problem with having two watches: Assessment of fit when RMSEA and CFI disagree. Multivariate Behavioral Research, 51(2-3), 220-239. https://doi.org/10.1080/00273171.2015.1134306Links ]

MacCallum, R. C., & Austin, J. T. (2000). Applications of structural equation modeling in psychological research. Annual review of psychology, 51(1), 201-226. https://doi.org/10.1146/annurev.psych.51.1.201Links ]

Maccallum, R. C., Browne, M. W., & Sugawara, H. M. (1996). Power analysis and determination of sample size for covariance structure modeling. Psychological Methods, 1(2), 130-149. https://doi.org/10.1037//1082-989x.1.2.130Links ]

Marcoulides, K. M., & Yuan, K. (2017). New ways to evaluate goodness of fit: A note on using Equivalence Testing to assess Structural Equation Models. Structural Equation Modeling: A Multidisciplinary Journal, 24(1), 148-153. https://doi.org/10.1080/10705511.2016.1225260Links ]

Maydeu-Olivares, A., Shi, D., & Rosseel, Y. (2017). Assessing fit in Structural Equation Models: A Monte-Carlo evaluation of RMSEA versus SRMR confidence intervals and tests of close fit. Structural Equation Modeling: A Multidisciplinary Journal, 25(3), 389-402. https://doi.org/10.1080/10705511.2017.1389611Links ]

Montoya, A. K., & Edwards, M. C. (2021). The poor fit of model fit for selecting number of factors in Exploratory Factor Analysis for Scale Evaluation. Educational and Psychological Measurement, 81(3), 413-440. https://doi.org/10.1177/0013164420942899Links ]

Moshagen, M., & Erdfelder, E. (2016). A new strategy for testing Structural Equation Models. Structural Equation Modeling: A Multidisciplinary Journal, 23(1), 54-60. https://doi.org/10.1080/10705511.2014.95089610.1080/10705511.2017.1389611Links ]

Nevitt, J., & Hancock, G. R. (2000). Improving the Root Mean Square Error of Approximation for nonnormal conditions in Structural Equation Modeling. The Journal of Experimental Education, 68(3), 251-268. https://doi.org/10.1080/00220970009600095Links ]

Perezgonzalez, J. D. (2015). Fisher, Neyman-Pearson or NHST? A tutorial for teaching data testing. Frontiers in Psychology, 6. Recuperado de https://www.frontiersin.org/articles/10.3389/fpsyg.2015.00223/full. https://doi.org/10.3389/fpsyg.2015.00223Links ]

Peugh, J., & Feldon, D. (2020). “How well does your Structural Equation Model fit your data?”: Is Marcoulides and Yuan’s Equivalence Test the answer? CBE – Life Sciences Education, 19(3), es5. https://doi.org/10.1187/cbe.20-01-0016Links ]

Rippe, R., & Merkelbach, I. (2021). Planned missing data in early literacy interventions: A replication study with an additional gold standard. PLOS ONE, 16(3). Recuperado de https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0249175. https://doi.org/10.1371/journal.pone.0249175Links ]

Salkind, N. J. (2007). Encyclopedia of measurement and statistics. Thousand Oaks, CA: Sage Publications, Inc. https://doi.org/10.4135/9781412952644Links ]

Satorra, A., & Bentler, P. M. (1994). Corrections to test statistics and standard errors in covariance structure analysis. Em A. Von Eye, & C. C. Clogg (Eds.), Latent variables analysis: applications for developmental research (pp. 399-419). Thousand Oaks, CA: Sage. [ Links ]

Satorra, A., & Bentler, P. M. (2001). A scaled difference chi-square test statistic for moment structure analysis. Psychometrika, 66(4), 507-514. doi: https://doi.org/10.1007/BF02296192Links ]

Savalei, V. (2010). Small sample statistics for incomplete nonnormal data: Extensions of complete data formulae and a Monte Carlo comparison. Structural Equation Modeling: A Multidisciplinary Journal, 17(2), 241-264. https://doi.org/10.1080/10705511003659375Links ]

Schumacker, R. E., & Lomax, R. G. (2016). A beginner's guide to Structural Equation Modeling (4th ed.). London, UK: Routledge. [ Links ]

Sideridis, G., Simos, P., Papanicolaou, A., & Fletcher, J. (2014). Using Structural Equation Modeling to Assess Functional Connectivity in the Brain. Educational And Psychological Measurement, 74(5), 733-758. https://doi.org/10.1177/0013164414525397Links ]

Silva, M. A., Wendt, G. W., & Argimon, I. L. (2018a). Inventário de Depressão de Beck II: Análises pela Teoria do Traço Latente. Avaliação Psicológica, 17(3), 339-350. https://doi.org/10.15689/ap.2018.1703.14651.07Links ]

Silva, M. A., Wendt, G. W., Argimon, I. L., & Fernandes-Lopes, R. (2018b). Técnicas de correção do teste qui-quadrado para amostras não normais. Avaliação Psicológica, 17(4), 407-416. https://dx.doi.org/10.15689/ap.2018.1704.13238.01Links ]

Tarka, P. (2018). An overview of Structural Equation Modeling: Its beginnings, historical development, usefulness and controversies in the social sciences. Quality & Quantity, 52(1), 313-354. Recuperado de https://link.springer.com/article/10.1007/s11135-017-0469-8Links ]

Vale, C. D., & Maurelli, V. A. (1983). Simulating multivariate nonnormal distributions. Psychometrika, 48(3), 465-471. https://doi.org/10.1007/BF02293687Links ]

Wagner, F., Camey, S. A., & Trentini, C. M. (2014). Análise fatorial confirmatória da escala de inteligência Wechsler abreviada: Versão português brasileiro. Avaliação Psicológica, 13(3), 383-389. Recuperado de http://pepsic.bvsalud.org/scielo.php?script=sci_arttext&pid=S1677-04712014000300010&lng=pt&tlng=ptLinks ]

Wang, L., Fan, X., & Willson, V. L. (1996). Effects of nonnormal data on parameter estimates and fit indices for a model with latent and manifest variables: An empirical study. Structural Equation Modeling: A Multidisciplinary Journal, 3(3), 228-247. https://doi.org/10.1080/10705519609540042Links ]

Xia, Y., Yung, Y., & Zhang, W. (2016). Evaluating the selection of Normal-Theory weight matrices in the Satorra-Bentler Correction of chi-square and standard errors. Structural Equation Modeling: A Multidisciplinary Journal, 23(4), 585-584. https://doi.org/10.1080/10705511.2016.1141354Links ]

Yang, Y., & Liang, X. (2013). Confirmatory Factor Analysis under violations of distributional and structural assumptions. International Journal of Quantitative Research in Education, 1(1), 61-84. https://doi.org/10.1504/ijqre.2013.055642Links ]

Yuan, K. H., Chan, W., Marcoulides, G. A., & Bentler, P. M. (2016). Assessing Structural Equation Models by equivalence testing with adjusted fit indexes. Structural Equation Modeling: A Multidisciplinary Journal, 23(3), 319-330. https://doi.org/10.1080/10705511.2015.1065414Links ]

Recebido: 01 de Abril de 2019; Aceito: 01 de Março de 2024

1 Endereço para correspondência: Rua Dr. Flores, 163, cj. 1101, 90020-120, Porto Alegre, RS. E-mail:mappel@uol.com.br

Conflitos de interesses

Os autores declaram que não há conflitos de interesses.

Creative Commons License Este é um artigo publicado em acesso aberto (Open Access) sob a licença Creative Commons Attribution NonCommercial, que permite uso, distribuição e reprodução em qualquer meio, sem restrições desde que sem fins comerciais e que o trabalho original seja corretamente citado.