RESUMEN


Este artículo nos introducirá en el concepto de fiabilidad de las pruebas psicométricas. La fiabilidad se refiere a la precisión que un test tiene como instrumento de medida, y esta se ve afectada por diferentes aspectos de la muestra de sujetos evaluados. Desde aquí, nos limitaremos a la concepción teórica desde la perspectiva de la teoría clásica de los test, y no entraremos en ningún detalle relacionado con el cálculo.

ARTÍCULO: ¿Que es la fiabilidad de una prueba psicométrica o test?


1. Introducción.
 
         Un test es fiable si las medidas que se hacen con el carecen de errores de medida, es decir, son consistentes. Un test, por tanto será fiable si tras repetidas mediciones de un mismo sujeto el valor que nos da es el mismo (dando por sentado que el sujeto no cambia de una aplicación a otra).
 
Ya que en los sujetos se producen cambios entre las repetidas aplicaciones de un test se plantea si las diferencias entre uno y otro son debidas al test en si o a los cambios en el sujeto. Así los errores de los que se encarga de medir la fiabilidad son los relativos al sujeto, es decir, a los errores no sistemáticos o aleatorios. En este sentido es conveniente no confundir la fiabilidad de un instrumento de medida con la estabilidad o modificabilidad del constructo medido. La fiabilidad se refiere a la estabilidad de las mediciones.
 
2.1. Coeficiente de fiabilidad.
 
         El coeficiente de fiabilidad se define como la correlación entre las puntuaciones obtenidas por los sujetos en dos formas paralelas de un test, y es un indicador de la estabilidad de las medidas.
 
Su cálculo:
 
·         Varianza de las puntuaciones verdaderas partido por la varianza de las puntuaciones empíricas.
·         Uno menos el cociente entre la varianza de los errores y la varianza de las puntuaciones empíricas.
 
El índice de fiabilidad es la correlación entre las puntuaciones empíricas y las verdaderas, y es igual a la raíz cuadrada del coeficiente de fiabilidad.
 
2.1.1. Error típico de medida.
 
         El error típico de medida es la desviación típica de los errores de medida.
 
2.2. Estimación empírica del coeficiente de fiabilidad.
 
         Existen básicamente tres formas de calcular el coeficiente de fiabilidad:
 
·         Método de las formas paralelas: consiste en calcular la correlación entre dos formas paralelas de un test. Este procedimiento emana directamente del modelo. En este modelo el coeficiente de fiabilidad también es frecuente ser denominado coeficiente de equivalencia.
·         Tests – Retest: consiste en aplicar dos veces al mismo sujeto y calcular la correlación entre ambas pruebas.
·         Dos Mitades: consiste en correlacionar dos mitades de un mismo test mas una corrección para obtener la fiabilidad del test total (esta corrección se verá en la formula de Spearman – Brown). Esta estimación, mas que la estabilidad o equivalencia (como en los casos anteriores) indica la covariación o consistencia interna de las dos mitades. Lo mas aconsejable es correlacionar los ítems pares con los impares.
 
2.2.1. Índices de velocidad – potencia.
 
         Test de velocidad: es aquel que no conlleva dificultad alguna, la diferencia entre unos sujetos y otros estará en el tiempo que empleen en la resolución.
 
         Test de potencia: son aquellos tests en los que las diferencias entre unos sujetos y otros estará en función de la distinta capacidad intelectual.
 
         El grado de velocidad de un test influye en los parámetros tan importantes como: la fiabilidad, la validez y la estructura factorial de los ítems. Así se han propuesto varios índices para expresar la proporción velocidad / potencia, así tenemos:
 
·         Gulliksen: su valor será mayor de cero, donde cero indica velocidad pura.
·         Lord y Novick: su resultado expresa el porcentaje de varianza atribuible a la velocidad.
·         Stafford: con potencia pura su valor será cero, y cuando es velocidad pura su valor será 100.
 
2.3. Estimación de las puntuaciones verdaderas.
 
         Conocida la fiabilidad se pueden hacer inferencias a cerca de las puntuaciones verdaderas obtenidas en un test. Es aconsejable que las estimaciones se hagan para un grupo en lugar de para un individuo en concreto. Los principales procedimientos son:
 
·         Estimación mediante la desigualdad de Chebychev: es aplicable a cualquier forma de distribución, no obstante muestra unos intervalos demasiado amplios.
·         Estimación basada en la distribución normal de los errores: cuando los errores de medida, y por tanto las puntuaciones empíricas se distribuyen (o se asume que se distribuyen) según la curva normal se pueden hacer estimaciones basándonos en esta distribución. Es el método mas empleado. El intervalo confidencial se reduce sustancialmente.
·         Estimación según el modelo de regresión: con este procedimiento podemos hacer estimaciones puntuales de las puntuaciones verdaderas a partir de las puntuaciones empíricas (mientras que en los anteriores modelos se hacían estimaciones de intervalo). Para hacer estimaciones de intervalo emplearemos el error típico de estimación.
 
2.4. Fiabilidad de las diferencias.
 
         Consiste en comparar las diferencias entre las puntuaciones de los sujetos en uno y otro test. Si la fiabilidad tiende ha cero no habrá diferencias significativas, si la fiabilidad tiende a uno las diferencias serán significativas. No es correcto hacer comparaciones individuales.
 
2.5. Tipos de errores de medida.
 
Los tipos de errores de medida son:
 
·         Error de medida: es la diferencia entre la puntuación empírica y la verdadera. Su desviación típica es el error típico de medida.
·         Error de estimación: es la diferencia entre la puntuación verdadera y la puntuación verdadera pronosticada. Su desviación típica es el error típico de estimación.
·         Error de sustitución: es la diferencia entre las puntuaciones obtenidas en dos test paralelos. Su desviación típica es el error típico de las diferencias entre dos tests paralelos.
·         Error de predicción: es la diferencia entre las puntuaciones de un test y las pronosticadas a partir de una forma paralela de este.
 
2.6. Factores que afectan a la fiabilidad.
 
2.6.1. Fiabilidad y variabilidad.
 
         Una de las limitaciones de la teoría clásica es que el instrumento de medida (el test) esta en función de los objetos medidos (los sujetos). Así el coeficiente de fiabilidad aumenta al aumentar la variabilidad de la muestra. Así un test no tiene en coeficiente de fiabilidad fijo, este variará en función la variabilidad de la muestra a la que se aplique. De esta manera, podemos hacer estimaciones de la fiabilidad en función de la variabilidad.
 
2.6.2. Fiabilidad y longitud.
 
         Al aumentar la longitud de un test aumenta su fiabilidad. Esto se puede hacer añadiendo ítems paralelos a un test. Cuando se alarga un test se puede conocer su fiabilidad por la formula de Spearman – Brown denominada con frecuencia la profecía de Spearman – Brown.
         Al aumentar la longitud de un test aumenta proporcionalmente mas la varianza de las puntuaciones verdaderas que la varianza de las puntuaciones empíricas.
 
2.7. Coeficiente alfa (a).
 
2.7.1. Concepto y formula.
 
         Otra forma de acercase a la fiabilidad es el coeficiente alfa de Cronbach. Este, refleja mas que la estabilidad de las medidas, el grado en el que covarían los ítems que constituyen el test. Es por tanto un indicador de la consistencia interna del test. La consistencia interna puede ser definida como la tendencia a que los sujetos que puntúen alto en unos ítems también puntúen alto en otros ítems, o a la inversa. Su valor aumenta al aumentar la covarianza entre los ítems. Es de tener en cuenta que una elevada consistencia interna no indica unidimensionalidad, aunque es cierto que alfa será elevado si los items se acercan a al unidimensionalidad, pero la unidimensionalidad no significa que alfa sea elevado, es decir una elevada consistencia interna no implica unidimensionalidad.
 
         Alfa esta afectado por diferentes factores para ser un índice apropiado de unidimensionalidad, como:
 
·         Alfa aumenta al aumentar el número de ítems.
·         Alfa aumenta cuando se repiten ítems similares.
·         Alfa aumenta al aumentar el número de factores comunes a cada ítems.
·         Alfa se acerca o supera 0,80 cuando el número de factores comunes a cada ítems es dos o más y el numero de ítems es moderadamente amplio.
·         Alfa disminuye moderadamente al disminuir las comunalidades de los ítems.
 
a) Estimador insesgado de alfa.
 
         Alfa y el estimador insesgado de alfa tienden a igualarse cuando el tamaño de la muestra tiende a infinito.
 
b) Alfa como limite inferior del coeficiente de fiabilidad.
 
         Alfa es menor o igual que el coeficiente de fiabilidad. Será igual cuando los items son paralelos, tau equivalentes y esencialmente tau equivalentes. Por ello alfa será considerado como una estimación del límite inferior del coeficiente de fiabilidad.
 
         Otro procedimiento para estimar la fiabilidad es el de Guttman, que proporciona estimaciones tan buenas como alfa y tiene la ventaja de no presentar valores negativos, lo que lo invalidaría como coeficiente de fiabilidad.
 
2.7.2. Casos particulares de alfa.
 
         Anteriormente a la presentación del coeficiente alfa por Cronbach, existían otros procedimientos para estimar la fiabilidad en términos de consistencia interna del test. Dado que alfa es una solución general, presentaremos los casos particulares:
 
·         Rulon: estima la fiabilidad del test mediante las puntuaciones obtenidas en las dos mitades que se asumen paralelas y solo diferirán en el error aleatorio. En el se define la varianza de los errores como la varianza de las diferencias.
·         Guttman – Flanagan: es equivalente a Rulon, y expresa la varianza de las diferencias en función de las mitades par e impar del test.
·         Kuder – Richardson:
§         KR20: se emplea cuando los ítems son dicotómicos.
§         KR21: se emplea cuando además de ser los ítems dicotómicos tienen la misma dificultad.
 
2.7.4. Coeficiente beta (b).
 
         Raju propone el coeficiente beta (generalización de alfa) para hacer una estimación de alfa sobre una batería de test, donde los subtests son considerados como los ítems de un test. En esta circunstancia, y dado que los subtests suelen tener distinto número de ítems, el valor cuando se calcula alfa resulta ser infraestimado. Así, el coeficiente beta de Raju viene a solucionar el problema de la infraestimación de alfa.
 
         Todo esto tiene sentido si se desconocen los datos directos de las respuestas de los sujetos a cada ítems, si fuesen conocidos se calcularía alfa considerando los ítems de cada subtests como pertenecientes a un test.
 
2.7.6. Inferencias sobre alfa.
 
·         Un solo coeficiente: estadístico F.
·         Muestras independientes y dos coeficientes: estadístico w.
·         Muestras dependientes y dos coeficientes: estadístico t.
 
2.10. Fiabilidad de los Tests Referidos al Criterio (TRC).
 
2.10.1. Definición.
 
         La pretensión de los tests vistos hasta ahora no era otra que ordenar a los sujetos en función de sus respuestas a los ítems del test, es decir, simplemente decían que un determinado sujeto se situaba en el percentil 80, lo que significa que puntúa por encima del 80% de los sujetos que han pasado la prueba. Estos tests son denominados como Tests Referidos a Normas (TRN).
 
         Con el surgimiento de los Tests Referidos al Criterio (TRC), la pretensión (además de conseguir el objetivo anterior) era determinar en que medida un determinado sujeto cumple unos determinados criterios de conocimiento sobre una determinada área. Ahora se marcará un punto, el cual debe ser superado para aceptar a un sujeto (para un puesto de trabajo, por ejemplo) y se tratará de determinar que sujetos superan ese punto crítico (los que dominan el criterio frente a los que no lo dominan).
 
2.10.2. Fiabilidad.
 
2.10.2. Formas paralelas.
 
         Consiste en la aplicación de un mismo test dos veces o en la aplicación de dos formas paralelas de un tests a una muestra de sujetos, y se establece un punto de corte que delimitara a los sujetos que superan este punto y a los que no lo superan. A los que superan el punto de corte se les denomina “masters” y “no masters” a los que no lo superan (se pueden establecer tantas categorías como se precisen). La fiabilidad seria perfecta si los resultados de ambas pruebas fueran los mismos, es decir, en ambas superan o no superan el punto de corte el mismo número de sujetos.
 
·         Coeficiente po. Trata de reflejar en que medida las clasificaciones hechas por ambos tests coinciden. Expresa la fiabilidad por medio de la proporción de coincidencias observadas.
·         Coeficiente kappa: contempla los aciertos por azar. El valor del coeficiente kappa es muy similar al valor de la correlación de Pearson para datos dicotómicos. Su contraste se realiza mediante el error típico de medida y la distribución normal estableciendo al hipótesis nula como igual a cero. Un desarrollo posterior de este coeficiente permitió determinar la fiabilidad cuando no se consideraban igual de importantes los desacuerdos, es el llamado coeficiente kappa ponderado.
 
2.10.2.2. Una sola aplicación del test.
 
 
2.10.3. Ubicación del punto de corte.
 
         La ubicación del punto de corte ha de ser determinada por expertos (jueces) en la materia que se esta evaluando, ahora bien, el problema que se plantea es como conciliar los diferentes criterios de cada juez en un punto de corte. Distinguiremos entre:
 
·         Puntos de corte relativos: cuando se fijan en función del tipo de personas evaluadas. Los TRC no tienen sentido en este contexto, ya que determinan el domino que tienen las personas del criterio y no suposición respectos a los demás sujetos.
·         Puntos de corte absolutos: cuando solo dependen de la materia a evaluar. En este caso se trata de determinar entre un grupo de sujetos los mas capacitados para ocupar por ejemplo un puesto de trabajo. Seria el caso típico en el que hay mas aspirantes que vacantes.
 
2.10.3.1. Procedimientos centrados en el test.
 
         Estos procedimientos para fijar el punto de corte se basan en los juicios de los expertos acerca de los distintos ítems del test.
 
 
2.10.3.2. Procedimientos centrados en las personas.
 
         En estos procedimientos para fijar el punto de corte los juicios de los expertos se basan en la competencia de las personas.
 
 
2.10.3.3. Procedimientos de compromiso.
 
         Los procedimientos vistos hasta ahora para fijar el punto de corte son de carácter absoluto, ya que establecen el mínimo de conocimientos preciosos para superar el criterio con independencia de lo que hagan los demás. Así, podría darse el caso que todos o ninguno de los sujetos superaran el criterio. Los procedimientos de compromiso combinan la información de carácter absoluto y la relativa al grupo. Seria el caso de controlar la capacidad de los empleados de una empresa en la que se controla el nivel de conocimientos con respecto a los demás empleados y con respecto a las tareas a realizar. Así en el caso que ninguno llegara al punto de corte conservarían su puesto de trabajo los que mas cerca estuvieran de este.

 


REFERENCIAS

Jose Muñiz. Teoría Clásica de los Test (Editorial piramide)

 

COMENTARIOS

Publica tu comentario sobre este artículo

 

SOBRE LA PUBLICACIÓN

¿El artículo ha sido revisado? NO

Sobre el autor