RESUMEN


La validez, junto con la fiabilidad, es una de las propiedades mas importantes que debe poseer una prueba psicométrica. La validez se refiere a que la prueba que estamos empleando para medir (la inteligencia por ejemplo) mida precisamente inteligencia, y no mida el nivel de competencia que una persona muestra en los contenidos propios del test. La determinación del coeficiente de validez no reviste mayor complicación, es la correlación de un test con el criterio, pero el problema es precisamente ese, determinar el criterio. Dado lo complejo que es determinar un criterio adecuado, podemos estimar la validez de un test en función de su relación con la fiabilidad.

ARTÍCULO: La validez de las pruebas psicométricas.


3.1. Concepto y tipos.
 
         Un test es una muestra de conducta a partir de la que se pretender hacer ciertas inferencias. La validez se refiere a la pertinencia de tales inferencias. La validez de un test es equivalente a la validación de las teorías científicas. Distinguiremos entre:
 
·         Validez de contenido.
·         Validez predictiva.
·         Validez de constructo.
 
Esta división de los tipos de validez responde mas a objetivos didácticos que reales, ya que la “validez global” está compuesta por estos tres tipos de validez.
 
3.1.1. Validez de contenido.
 
         La validez de contenido hace referencia a que un test constituye una muestra adecuada y representativa de los contenidos que se pretende evaluar con él. Un tipo especial de validez de contenido es la validez aparente, que se refiera a que el test de la impresión a los sujetos que lo realizan, de que realmente puede medir el aspecto que se pretende.
 
3.1.2. Validez predictiva.
 
         La validez predictiva se refiere al grado de eficacia con el que se puede predecir una variable de interés (criterio). Se operacionaliza mediante el coeficiente de validez, que es la correlación entre el test y el criterio. Es de tener en cuenta que correlación no implica causación sino covariación. La validez predictiva recibe otros nombres como: validez relativa al criterio, validez criterial o validez de pronóstico.
 
         El calculo de la validez como tal no tiene mayor complicación, pero si presenta complicaciones la elección del criterio, así distinguiremos:
 
·         Validez concurrente: cuando el test y el criterio se miden al mismo tiempo.
·         Validez de pronostico: cuando el criterio se mide en un periodo de tiempo posterior a la realización del test.
·         Validez retrospectiva: cuando se aplica el test con posterioridad al criterio que se quiere pronosticar.
 
3.1.3. Validez de constructo.
 
         La validez de constructo se refiere a la recogida de evidencia empírica sobre la existencia de que tal constructo existe realmente. En al ámbito de la psicología para este fin se han empleado procedimientos como el análisis factorial y la matriz multirasgo – multimétodo, hablándose respectivamente de validez factorial y validez convergente – discriminante.
 
3.1.3.1. Validez factorial.
 
         El análisis factorial es una técnica de análisis multivariado que permite estimar que factores dan cuenta de unas determinadas variables. Es decir, cuando se aplican varios test para determinar unas variables es posible que esos tests contengan ítems comunes, así el análisis factorial lo que hace es determinar cuales son los ítems redundantes. Con esto se consigue reducir el número de ítems asociados a cada variable lo que permite contemplar la naturaleza de esta de una forma mas clara. Los tests ya validados factorialmente se denominan test de marca o marcadores.
 
         El análisis factorial es solo el primer paso (y mas bien modesto) en la validación de un constructo psicológico. Únicamente garantiza cierta coherencia o convergencia entre las medidas de dicho constructo
 
3.1.3.2. Validez convergente – discriminante.
 
         Existe validez convergente si las correlaciones entre medidas de un rasgo por distintos métodos son elevadas.
 
         Existe validez discriminante si las correlaciones de un rasgo por distintos métodos son claramente superiores a las correlaciones de distintos rasgos por el mismo método.
 
3.2. Validez y fiabilidad.
 
            El coeficiente de validez es la correlación entre el test y el criterio, por lo que los errores de medida cometidos (fiabilidad) influirán en la validez. Así la validez aumenta al aumentar la fiabilidad del test y la fiabilidad del criterio.
 
3.2.1. Formulas de atenuación.
 
a) Estimación del coeficiente de validez en el supuesto de que el test y el criterio tienen una fiabilidad perfecta.
 
         Un tests tiene un valor de validez que viene determinado por la fiabilidad del test y del criterio. Así cabe preguntarse cual seria la validez en el caso de que tanto el test como el criterio tuvieran una fiabilidad perfecta.
 
b) Estimación del coeficiente de validez en el caso de que el test tuviese una fiabilidad perfecta.
 
c) Estimación del coeficiente de validez en caso de que el criterio tuviese una fiabilidad perfecta.
 
d) Generalización de las formulas de atenuación.
 
         También puede calcularse la validez en función de que el test, el criterio o ambos no tengan una fiabilidad perfecta. Seria el caso en el que se mejora la fiabilidad a base de añadir ítems, o el caso contrario, cual seria la fiabilidad en caso de que el test, el criterio o ambos bajaran su fiabilidad.
 
3.2.2. Valor máximo del coeficiente de validez.
 
         El coeficiente de validez es igual o menor que su índice de fiabilidad, e igual o mayor que su coeficiente de fiabilidad.
 
3.2.3. Validez y longitud.
 
La validez de un test aumenta al aumentar el número de ítems del test.
 
3.3. Validez y variabilidad.
 
La validez aumenta al aumentar la variabilidad.
 
3.3.1. Dos variables.
 
         Supongamos un caso: se realiza una prueba para seleccionar a un grupo de sujetos para ocupar un puesto de trabajo. Si se calcula la validez del grupo de los aceptados esta será más baja que si se calcula sobre el grupo total, ya que al limitarnos al grupo de las puntuaciones mas altas se reduce la variabilidad. Por tanto tendremos unos valores de validez altos para el grupo total frente a unos valores de validez bajos en el grupo de los aceptados.
 
3.3.2. Tres variables.
 
         A veces puede plantearse la cuestión de comprobar si un nuevo tests es mas eficaz para la selección que otro anterior. Si el nuevo test se aplica a los sujetos que superan el primero la validez de este último seria menor ya que habría menor variabilidad, por lo que esta prueba no seria correcta. Lo adecuado seria calcular la validez de ambos en el grupo de aspirantes y compararlos.
 
3.4. Validez predictiva.
 
         Hablamos de validez predictiva cuando pretendemos estimar un determinado criterio o variable. El dato en el que se basa la validez predictiva es la correlación entre el test y el criterio. Las técnicas de regresión permiten expresar de “otro modo” la información contenida en el coeficiente de validez.
 
3.4.1. Regresión simple.
 
3.4.1.1. Modelo.
 
         Aunque se trata de un caso atípico en psicología ya que raramente una variable de interés (un criterio) puede predecirse a partir de un solo test.
 
3.4.1.2. Error típico de estimación.
 
         Es la desviación típica de las diferencias entre las puntuaciones pronosticadas para el criterio y las obtenidas en el test.
 
3.4.1.3. Deducciones inmediatas del modelo.
 
         La varianza total del criterio puede descomponerse en dos componentes aditivos:
 
·         La varianza de las puntuaciones pronosticadas (varianza del criterio). También es denominada varianza asociada.
·         La varianza de los errores de estimación. También llamada varianza no asociada.
 
Coeficientes:
 
·         El coeficiente de determinación es el cuadrado del coeficiente de validez y expresa la proporción de varianza asociada entre el test y el criterio, o lo que es lo mismo, la proporción de varianza del criterio que se puede predecir a partir del test. Es deseable que su valor sea alto.
 
·         El coeficiente de alineación es la raíz cuadrada de uno menos el coeficiente de determinación y expresa el grado en el que el criterio viene determinado por el test. Es deseable que su valor sea bajo.
 
·         El coeficiente de valor predictivo es el complementario del coeficiente de alineación, es decir, uno menos el coeficiente de alineación, y expresa el grado en que el test predice el criterio. Es deseable que su valor sea alto o al menos supere el valor del coeficiente de alineación.
 
Como se dijo anteriormente la validez esta relacionada con la fiabilidad, y dado que la validez será siempre igual o superior al coeficiente de fiabilidad, e igual o menor al índice de fiabilidad. Por tanto, un modo sencillo de hacer una estimación de la validez, sin subestimarla o sobreestimarla,  podría ser calculando la media del índice y coeficiente de fiabilidad, por tanto, lo índices comentados para un test con coeficiente de fiabilidad de 0,9, serian los siguientes:
 
Fiabilidad y su relación con la validez:
 
Coeficiente de fiabilidad:
0,9
Índice de fiabilidad:
0,9486833
 
 
Coeficiente de validez:
0,92434165
Coeficiente de determinación:
0,85440748
Coeficiente de alineación:
0,38156587
Coeficiente de valor predicitivo:
0,61843413

 

 
 
3.4.1.4. Intervalos confidenciales.
 
         Debido a los errores asociados a las estimaciones resulta mas conveniente hacer estimaciones de intervalo que estimaciones puntuales. Así se asume que los errores de estimación se distribuyen normalmente con desviación típica igual al error de estimación.
 
Cuando el número de sujetos es reducido en lugar del error típico de estimación es aconsejable la utilización de su estimador insesgado que se distribuye como una t de Student.
 
Entre las hipótesis más interesantes a someter a prueba tenemos:
·         La significación estadística de la pendiente de la recta de regresión H0: b = 0.
·         Y el posible paralelismo entre dos rectas H0: b1 = b2.
 
3.4.3. Validez de decisión.
 
         Cuando los resultados de un test se comparan con un criterio habrá resultados que queden por encima y por debajo de este criterio. En el caso de que el test fuese perfectamente valido las clasificaciones hechas por el test coincidirían con las hechas por los expertos. Ya que la validez nunca será perfecta emplearemos un nuevo concepto, la validez de decisión que se refiere al análisis de la convergencia entre las decisiones tomadas a partir de la prueba y las tomadas a partir del criterio. El grado de concordancia se puede estimar mediante los denominados índices de validez.
 
3.4.3.1. Índices de validez.
 
         Una forma de calcular el coeficiente de validez mediante la correlación, pero este método resulta demasiado general ya que no informa sobre el valor de los distintos errores. Así resulta mas adecuado hacerlo mediante la coincidencia entre las decisiones hechas a partir del test que convergen con el criterio.
 
         Para esto construiremos una tabla de contingencia de 2 x 2 en la que se reflejen las decisiones una vez fijado el punto de corte, esto nos dará tres casos:
 
·         Falsos positivos: cuando la escala considera que es precisa una terapia (por ejemplo) y los expertos no.
·         Falsos negativos: cuando según la escala no se precisa terapia pero sí según los expertos.
·         Aciertos: cuando la decisión de la escala y la de los expertos coinciden.
 
A partir de estos conceptos podemos obtener diversos indicadores de la validez de la escala para pronosticar el criterio, así tenemos:
 
·         Proporción de clasificaciones correctas: es la proporción de clasificaciones correctas hechas a partir del test.
·         Sensibilidad: proporción de personas detectadas correctamente por la escala respecto del total de casos existentes según los expertos. La sensibilidad será máxima cuando no existan falsos negativos.
·         Especificidad: proporción de sujetos considerados por la escala como no necesitados de terapia respecto del total que los expertos consideran que no necesitan terapia. La especificidad será máxima cuando no existan falsos positivos.
·         Coeficiente kappa: este coeficiente expuesto al tratar la fiabilidad de los test referidos al criterio es también un indicador general de la validez de las clasificaciones hechas por el test. Tiene en cuenta los aciertos debidos al azar.
 
3.4.3.2. Incidencia del punto de corte en los tipos de errores.
 
         La validez de una escala depende del punto de corte y de la importancia que le demos a los dos tipos de errores cometidos: falsos positivos y falsos negativos.
 
ïndices de validez de decisión.
3.4.4. Selección y clasificación.
 
3.4.4.1. Modelos de selección.
 
Distinguiremos básicamente tres modelos de selección:
 
·         Compensatorio.- Supone una combinación aditiva de las distintas puntuaciones obtenidas en las diversas pruebas y los sujetos son ordenados según su puntuación global. El término compensatorio hace referencia a que se puede compensar una baja puntuación en un predictor con una alta en otro.
·         Conjuntivo.- Se seleccionan aquellos sujetos que superan un determinado valor en los predictores.
·         Disyuntivo.- Se seleccionan aquellos sujetos que superan un cierto nivel de al menos un predictor.
 
A los que cabe añadir dos modelos mixtos:
 
·         Conjuntivo – compensatorio.- Una vez seleccionado los sujetos según el modelo conjuntivo se les aplica el modelo compensatorio, quedando así ordenados según su puntuación global.
·         Disyuntivo – compensatorio.- A los que superan el modelo disyuntivo se les aplica un modelo compensatorio.
 
Los paradigmas básicos de selección son:
 
·         Seleccionar un determinado número de personas.
·         Seleccionar las personas que superen un determinado nivel de competencia independientemente de su número.
 
Los modelos mas utilizados son:
 
·         El compensatorio.
·         El conjuntivo.
·         Y sobre todo el conjuntivo – compensatorio.
 
3.4.4.2. Utilidad de la selección.
 
         Para evaluar la eficacia de una selección no solo vasta con la validez de los predictores. También tenemos que tener en cuenta:
 
·         La razón de selección.- Es la proporción de personas seleccionadas del total de aspirantes.
·         La razón de eficacia.- Es la proporción de seleccionados que tienen éxito posterior en el criterio.
·         La razón de idoneidad.- Es la proporción de aspirantes cualificados para tener éxito en el criterio. Sobre este dato cabe hacer ciertas estimaciones ya que no se conoce directamente.
 
Taylor y Russell elaboraron unas tablas que para un valor estimado de razón de idoneidad y conocida la validez y la razón de selección, permiten evaluar cual seria la razón de eficacia.
 
La eficacia de un test para pronosticar el criterio también puede obtenerse mediante la siguiente tabla:
 

 

 
 
Resultados reales en el criterio
 
 
 
Éxitos
Fracasos
Total
Pronósticos del test
 
Seleccionados
 
10
20
30
 
No seleccionados
 
30
40
70
 
Total
40
60
100
 
La tasa de aciertos será: (10 + 40) / 100 = 0,5. Resulta baja, por lo que convendría modificarla manipulando el punto de corte.
 
Mediante el uso del modelo de regresión:
 
         Aunque la validez de las pruebas en la selección sea elevada, ello no garantiza que las personas seleccionadas tengan éxito seguro en el criterio, simplemente aumenta mas o menos la probabilidad de que ello ocurra. Mediante el modelo de regresión se estiman las probabilidades de éxito.
 
3.4.4.3. Clasificación.
 
         La clasificación en psicología puede considerarse como un caso particular de predicción cuyo objetivo es asignar a las personas a determinadas categorías. Las categorías han de ser validadas empíricamente y la clasificación tiene implicaciones de interés y no un mero etiquetado.
 
         Mediante el uso de técnicas estadísticas multivariadas permite mejorar significativamente las decisiones. Métodos como el análisis de regresión (ya comentado), el análisis discriminante y el análisis de cluster proporcionan mejoras sustantivas.
 
         El análisis discriminante tiene bastante similitud conceptual con la regresión múltiple, pero mientras que en la regresión se pretende predecir el criterio, en el análisis discriminante lo que se pretende predecir son las categorías dentro de las cuales clasificar a los sujetos.
 
         El análisis de cluster permite formar conglomerados o grupos (cluster) de sujetos semejantes entre si. La asignación a cada cluster esta en función de la medida de similitud utilizada.
 
Coeficiente kappa.
 
         Cuando se hacen clasificaciones por métodos distintos siempre aparece el problema de determinar el grado de acuerdo entre ellos, en definitiva, la fiabilidad de las clasificaciones. Su valor máximo es 1, pero su valor mínimo no es –1, sino que depende de las frecuencias marginales.

 


REFERENCIAS

José Muñiz. Teoría Clásica de los Test. Editorial Piramide.

 

COMENTARIOS

Publica tu comentario sobre este artículo

 

SOBRE LA PUBLICACIÓN

¿El artículo ha sido revisado? NO

Sobre el autor