Kruskal-Wallis: la guía definitiva para entender y aplicar la prueba no paramétrica que compara múltiples grupos

En el análisis estadístico, la prueba Kruskal-Wallis, también conocida como Kruskal-Wallis test, es una herramienta poderosa cuando los supuestos de normalidad no se cumplen o cuando trabajamos con datos ordinales. Este artículo ofrece una explicación completa, desde los fundamentos teóricos hasta la implementación práctica en R y Python, con ejemplos claros y consejos para interpretar resultados de kruskal-wallis en contextos reales. Si buscas entender cuándo usar Kruskal-Wallis, cómo calcularla, qué significa el estadístico H y cómo realizar pruebas post hoc, estás en el lugar adecuado.

Qué es Kruskal-Wallis y por qué se utiliza

La prueba de Kruskal-Wallis, o prueba no paramétrica de Kruskal-Wallis, es una extensión del análisis de rangos de Mann-Whitney para comparar tres o más grupos independientes. En lugar de basarse en medias y varianzas, como la ANOVA tradicional, esta prueba se apoya en las rangos de las observaciones. Cuando las distribuciones de los grupos no siguen una forma normal o cuando hay outliers que distorsionan los resultados, la kruskal-wallis ofrece una alternativa robusta para evaluar si al menos un grupo difiere en su tendencia central.

En la jerga de investigación, a veces se escucha hablar del Kruskal-Wallis test o del concepto de kruskal-wallis como sinónimos. Aunque la notación puede variar, la idea clave es la misma: comparar rangos entre grupos y usar una distribución chi-cuadrado para inferir diferencias relevantes. Este enfoque es especialmente útil en ciencias biomédicas, psicometría, educación y ciencias sociales, donde la escala de medición puede ser ordinal o la muestra no satisface la normalidad.

Historia, fundamentos y alcance de kruskal-wallis

La prueba fue desarrollada de forma independiente por William Kruskal y W. A. Wallis a mediados del siglo XX. Su fortaleza radica en no requerir suposiciones estrictas sobre la forma de las distribuciones de cada grupo, ni igualdad de varianzas entre grupos. En términos estadísticos, la prueba es una versión no paramétrica de una ANOVA de un factor, pensada para comparar tres o más grupos independientes. El resultado principal es un estadístico H, que se interpreta a través de su valor p y los grados de libertad igual al número de grupos menos uno.

La idea central de kruskal-wallis es ordenar todas las observaciones de todos los grupos, asignar rangos y luego evaluar si la suma de rangos por grupo difiere más de lo esperado si todas las muestras provienen de la misma población. Si la suma de rangos de un grupo es significativamente mayor o menor que la de los otros, la conclusión es que existen diferencias entre grupos. Este marco promueve una interpretación intuitiva basada en rangos, lo que facilita su aplicación en contextos con datos atípicos o con escalas ordinales.

kruskal-wallis vs. ANOVA: diferencias clave y cuándo usar cada una

La elección entre Kruskal-Wallis y ANOVA depende de las condiciones de tus datos y de la pregunta de investigación. En general:

Krusal-Wallis no requiere normalidad y puede manejar distribuciones arbitrarias, mientras que la ANOVA asume normalidad en las poblaciones y homogeneidad de varianzas.
Kruksal-Wallis se basa en rangos, por lo que es menos sensible a outliers extremos en comparación con la ANOVA clásica.
La interpretación de Kruskal-Wallis se centra en diferencias en la mediana o en la distribución subyacente de los grupos, no solo en la media como en la ANOVA.
La Kruskal-Wallis es adecuada para datos ordinales o para escalas que no cumplen los supuestos de la ANOVA.

En contextos donde las muestras son independientes y la pregunta es si existen diferencias entre tres o más grupos, kruskal-wallis suele ser la opción más prudente cuando las condiciones paramétricas fallan. Por el contrario, si las distribuciones son aproximadamente normales y las varianzas son homogéneas, la ANOVA puede ser más poderosa y fácil de interpretar en términos de diferencias de medias.

Supuestos y requisitos de la prueba Kruskal-Wallis

Como cualquier método estadístico, la prueba Kruskal-Wallis tiene supuestos que deben considerarse para garantizar resultados válidos:

Independencia: las observaciones dentro de cada grupo y entre grupos deben ser independientes.
Medición al menos ordinal: las respuestas deben poder ordenarse de forma clara (ordinal, intervalar o razão).
Disposiciones de las muestras: los grupos pueden tener tamaños diferentes, pero se recomienda una muestra razonable en cada grupo para aumentar la potencia.

Es importante tener en cuenta que Kruskal-Wallis no asume normalidad, pero sí que las diferencias entre grupos no estén sesgadas por dependencias, y que la variabilidad entre grupos no sea tan desproporcionada que afecte la interpretación de rangos. En la práctica, si una de las condiciones no se cumple, conviene considerar transformaciones de datos o emplear métodos aún más robustos como pruebas no paramétricas alternas o modelos mixtos no paramétricos, dependiendo del diseño del estudio.

Cómo se calcula kruskal-wallis: fórmula y conceptos clave

El cálculo del estadístico H en la prueba Kruskal-Wallis se realiza a partir de las sumas de rangos de cada grupo. La idea central es convertir las observaciones en rangos globales y luego evaluar si las sumas de rangos por grupo son consistentes con la hipótesis nula de que todos los grupos provienen de la misma población.

Fórmula del estadístico H

Sea N el tamaño total de la muestra (N = n1 + n2 + … + nk), con k grupos. Denotemos por R_i la suma de rangos en el grupo i y por n_i el tamaño del grupo i. Entonces, el estadístico H se calcula como:

H = (12 / (N(N + 1))) * sum_{i=1}^k (R_i^2 / n_i) – 3(N + 1)

Un valor alto de H sugiere que al menos uno de los grupos difiere de los demás en la distribución de rangos. Bajo la hipótesis nula de que todos los grupos provienen de la misma población, H aproximadamente sigue una distribución chi-cuadrado con k – 1 grados de libertad, siempre que no existan empates o que se apliquen las correcciones adecuadas.

Corrección por empates

Si hay empates en las puntuaciones que afectan a la asignación de rangos, se aplica una corrección para ajustar la distribución de H. La corrección se realiza dividiendo el valor de H entre un factor C que depende de la frecuencia de los empates. Si t_j es la cantidad de observaciones empatadas en un grupo de posiciones, entonces

C = 1 – sum_j ((t_j^3 – t_j) / (N^3 – N))

La versión corregida de H es H_corr = H / C. Esta corrección mejora la exactitud de las inferencias en presencia de empates, que son comunes en datos discretos o en escalas con rangos repetidos.

Interpretación de H y significancia

El valor de H, junto con los grados de libertad k – 1, se compara con la distribución chi-cuadrado para obtener un p-valor. Un p-valor bajo (comúnmente < 0.05) indica que existe al menos un grupo que difiere de los demás. Es importante recordar que Kruskal-Wallis no especifica qué pares de grupos difieren; para ello se requieren pruebas post hoc.

Pasos prácticos para aplicar la prueba kruskal-wallis

A continuación se presenta una guía clara y estructurada para realizar kruskal-wallis en datos reales, con énfasis en la interpretación y el aseguramiento de la calidad de los resultados.

Preparación de datos

Verificar que las observaciones son independientes y que la escala permite el ordenamiento (ordinal o superior).
Reunir los datos en un formato de grupos independientes. Cada grupo debe contener sus observaciones y, si es posible, registrar tamaño de muestra y características relevantes.
Identificar posibles empates y planificar la corrección correspondiente si se presentan en el cálculo.

Cálculo de H y evaluación

Unificar todos los datos y asignar rangos globales, de menor a mayor.
Calcular R_i, la suma de rangos por cada grupo, y n_i, el tamaño del grupo i.
Aplicar la fórmula de H y, si procede, corregir por empates.
Obtener el p-valor a partir de una distribución chi-cuadrado con k – 1 grados de libertad.

Decisión basada en p-valor

Si el p-valor es menor que el nivel de significancia predefinido (por ejemplo, 0.05), se concluye que existen diferencias entre los grupos. En ese punto, conviene realizar pruebas post hoc para identificar qué pares de grupos difieren entre sí, y ajustar las comparaciones para controlar el error tipo I.

Post hoc y tamaño del efecto en Kruskal-Wallis

Cuando la kruskal-wallis resulta significativa, es natural explorar qué pares de grupos muestran diferencias. Las pruebas post hoc más comunes para este marco son las pruebas de Dunn, adaptadas para controlar la tasa de errores en múltiples comparaciones. También es posible usar pruebas no paramétricas de pareja, como la Wilcoxon de signos, con ajustes de Bonferroni o Holm para mantener el control sobre la familia de pruebas.

Prueba de Dunn

La prueba de Dunn compara de manera exhaustiva cada par de grupos, basándose en diferencias de rangos. Para cada par, se calcula una estadística de diferencia de rangos y un p-valor ajustado por múltiples comparaciones. La corrección más común es el método de Bonferroni, que divide el nivel de significancia por el número de pares comparados, o alternativas menos conservadoras como Holm.

Tamaño del efecto en kruskal-wallis

Más allá de la significancia, es útil cuantificar cuánto difieren los grupos. En complemento a H, se pueden reportar medidas de tamaño del efecto específicas para pruebas no paramétricas:

Eta cuadrado (η²) aproximado para Kruskal-Wallis, interpretado como la proporción de variabilidad total explicada por el grupo.
Épsilon al cuadrado (ε²) como una versión no sesgada, que puede ser más adecuada en muestras pequeñas o con desequilibrios entre grupos.

Una fórmula típica para ε² en Kruskal-Wallis es ε² = (H – k + 1) / (N – k), donde N es el tamaño total de la muestra y k es el número de grupos. Valores cercanos a 0 indican efectos pequeños, mientras que valores mayores indican efectos de mayor magnitud.

Ejemplos prácticos con datos simulados

Ejemplo 1: tres grupos con diferente centralidad

Imagina un estudio que compara tres tratamientos para reducir la presión arterial. Se recolectan 20 observaciones por grupo. Después de ordenar todas las observaciones y asignar rangos, se obtienen sumas de rangos y el estadístico H. El resultado es H = 9.25 con 2 grados de libertad. El p-valor asociado es 0.009. Con un umbral de 0.05, la kruskal-wallis es significativa, por lo que se procede a un análisis post hoc con corrección de Bonferroni.

En el post hoc, las comparaciones entre pares muestran diferencias significativas entre Tratamiento A y Tratamiento C, y entre Tratamiento B y Tratamiento C, pero no entre A y B. Esto indica que el tercer tratamiento produce una diferencia notoria respecto a los otros dos. El tamaño del efecto ε² resulta aproximadamente 0.12, lo que sugiere un efecto moderado. Este ejemplo ilustra cómo kruskal-wallis puede guiar decisiones prácticas en la selección de tratamientos.

Ejemplo 2: datos de diferentes grupos clínicos

Considera un conjunto de datos con cuatro grupos de pacientes evaluando un marcador biológico. El muestreo genera tamaños desiguales: n1 = 25, n2 = 18, n3 = 22 y n4 = 15. Tras aplicar la prueba Kruskal-Wallis, obtienes H = 14.8 y p-valor < 0.001. El resultado sugiere diferencias entre al menos dos grupos. Después de Dunn con corrección de Holm, se observan diferencias significativas entre los grupos 1 y 3, y entre 2 y 4, con tamaños de efecto ε² alrededor de 0.08 a 0.15. Este tipo de resultado puede orientar políticas clínicas, como la priorización de intervenciones para grupos específicos.

Aplicaciones típicas de la prueba kruskal-wallis en investigación

La kruskal-wallis se ha utilizado en una amplia variedad de disciplinas para comparar tres o más condiciones o grupos cuando las condiciones paramétricas no se cumplen. Algunas de las aplicaciones más comunes incluyen:

Paleontología y ecología para comparar abundancias de especies entre sitios diferentes cuando los datos son ordinales o no normales.
Psicología y ciencias del comportamiento para evaluar efectos de distintos estímulos o tratamientos sin asumir normalidad de las respuestas.
Educación para comparar puntuaciones de distintas metodologías de enseñanza cuando las escalas de calificación no cumplen la normalidad.
Investigación clínica para comparar biomarcadores entre grupos de pacientes sometidos a diferentes intervenciones cuando los datos muestran sesgo o asimetría.

Ventajas y limitaciones de la prueba kruskal-wallis

Entre las ventajas de kruskal-wallis destacan:

Robustez ante violaciones de normalidad y presencia de outliers.
Aplicabilidad a datos ordinales y escalas no paramétricas.
Independencia de la homogeneidad de varianzas entre grupos para el cálculo del estadístico H.

Entre las limitaciones se encuentran:

La interpretación de H no identifica explícitamente qué grupos difieren; se requieren pruebas post hoc.
La prueba puede ser menos potente que la ANOVA cuando los supuestos de normalidad y varianzas homogéneas se cumplen.
La corrección por empates puede ser necesaria y debe aplicarse correctamente para mantener la validez de las conclusiones.

Guía rápida para realizar kruskal-wallis en software

A continuación se presentan pautas rápidas para ejecutar kruskal-wallis en dos entornos de análisis muy usados: R y Python. Estas se centran en la sintaxis y en la interpretación de resultados, con énfasis en mantener el enfoque en la pregunta de investigación y en la calidad de los datos.

R

En R, la función kruskal.test realiza la prueba kruskal-wallis. Supón que tus datos están en un data frame llamado datos, con una columna de valores llamada valor y una columna de grupo llamada grupo. El código sería:

kruskal.test(valor ~ grupo, data = datos)

El resultado devuelve el estadístico H y el p-valor. Si el p-valor es significativo, procede a pruebas post hoc como Dunn con corrección de Bonferroni, usando paquetes adicionales como «FSA» o «PMCMRplus».

Python (SciPy)

En Python, la biblioteca SciPy ofrece la función scipy.stats.kruskal para comparar múltiples grupos. Supón que tienes tres listas o arreglos con las observaciones de cada grupo: group1, group2 y group3. El código típico es:

from scipy import stats
H, p = stats.kruskal(group1, group2, group3)
print("H:", H, "p-value:", p)

Si el resultado es significativo, se recomienda realizar pruebas post hoc con métodos como Dunn o pairwise Wilcoxon con ajuste de múltiples comparaciones. Existen paquetes como scikit-posthocs para facilitar Dunn en Python.

Consejos prácticos para reportar kruskal-wallis en artículos y presentaciones

Al presentar resultados de la kruskal-wallis, es útil incluir:

El estadístico H y sus grados de libertad (k – 1).
El p-valor asociado y, cuando es relevante, el tamaño del efecto ε² o η².
El número de participantes en cada grupo (n_i) para proporcionar contexto sobre la potencia.
Resultados de las pruebas post hoc cuando H es significativo, con ajustes para comparaciones múltiples.
Una interpretación clara sobre qué indica la diferencia entre grupos en el marco de la pregunta de investigación.

Errores comunes y cómo evitarlos al usar kruskal-wallis

Entre los errores frecuentes se encuentran:

Asumir que una diferencia significativa en H implica diferencias entre todos los pares de grupos; en realidad, puede haber diferencias solo entre algunos pares. Es crucial realizar pruebas post hoc para identificar qué pares difieren.
Ignorar la posibilidad de empates y no aplicar la corrección adecuada cuando los hay, lo que puede sesgar el p-valor.
Confundir la interpretación de la prueba: Kruskal-Wallis detecta diferencias en la distribución de rangos, no necesariamente diferencias en medias o medianas exactas.
Usar tamaños de muestra extremadamente desiguales sin considerar efectos en la potencia y la interpretación de ε².

Conclusiones finales sobre kruskal-wallis

La prueba kruskal-wallis es una herramienta esencial para investigadores que trabajan con datos que no cumplen los supuestos paramétricos o que son intrínsecamente ordinales. Su fortaleza radica en su flexibilidad y robustez, permitiendo detectar diferencias entre tres o más grupos sin depender de la normalidad. Aunque no indica qué pares de grupos difieren, ofrece un punto de entrada sólido para el análisis de muestras independientes y sirve como puente hacia pruebas post hoc eficientes, como Dunn, con controles de error adecuados. En la práctica, kruskal-wallis es una de las técnicas más útiles y versátiles para la exploración de diferencias entre múltiples condiciones, y su entendimiento profundo facilita la toma de decisiones basadas en datos en una amplia gama de disciplinas.

En resumen, si te encuentras frente a un conjunto de datos con varias condiciones y quieres saber si hay diferencias significativas entre al menos un grupo respecto a los demás, la prueba kruskal-wallis es la elección correcta. Con una correcta interpretación, una adecuada corrección por empates y pruebas post hoc bien diseñadas, podrás obtener conclusiones sólidas y útiles para tu investigación, siempre respaldadas por un enfoque no paramétrico robusto y fácil de comunicar.