FacebookTwitter

 

Revisión por expertos

El “valor de p” y otras notas estadísticas

Luis Prieto Valiente, David Prieto Merino, Tropical Medicine, Reino Unido.

Revista del Consejo Argentino de Residentes de Cardiología 2015;(129): 0087-0090 


Desde hace algunas décadas existe una tendencia hacia que los conocimientos médicos no se basen exclusivamente en el parecer u opinión de profesores o expertos, sino que tengan un fundamento en trabajos de investigación, lo que se ha llamado “evidencia”. Esto ha complejizado la producción científica, obligando a utilizar herramientas estadísticas para el procesamiento de datos; al mismo tiempo, exige que la interpretación de los resultados sea efectuada con un conocimiento de aspectos básicos de esta ciencia.
La significación estadística y el valor de p son nociones cotidianas; sin embargo, su interpretación no siempre resulta intuitiva. A lo largo del presente artículo se revisan estos conceptos, con un enfoque práctico y ejemplos coloquiales.


Palabras clave: estadística, prueba de hipótesis, p-valor, error, probabilidad.

For several decades there has been a tendency for medical knowledge not to be based solely on the views or opinions of professors or experts, but to have a foundation in research, which has been called “evidence”. This has made scientific production more complex, leading to the use of statistical tools for data processing; at the same time it requires the interpretation of the results to be carried out with knowledge of basic aspects of this science.
Statistical significance and the value of p are everyday notions; however, their interpretation is not always intuitive. Throughout this paper these concepts are reviewed, with a practical approach and colloquial examples.


Keywords: statistics as topic, p-value, error probability.


Los autores declaran no poseer conflictos de intereses.

Fuente de información Consejo Argentino de Residentes de Cardiología. Para solicitudes de reimpresión a Revista del CONAREC hacer click aquí.

Recibido 2015-03-11 | Aceptado 2015-03-26 | Publicado 2015-06-30


Licencia Creative Commons
Esta obra está bajo una Licencia Creative Commons Atribución-NoComercial-SinDerivar 4.0 Internacional.

Tabla 1. Cálculo de la probabilidad de tener un aneurisma carotídeo tras prueba angiográfica po...

Introducción

En las últimas décadas la medicina que ejercemos ha cambiado considerablemente; la “opinión” de los expertos o maestros, e incluso muchas prácticas “naturalizadas” por su “historia” se han visto escrutadas bajo la lupa de los ensayos clínicos, con el afán de alcanzar la llamada “evidencia”, término desprendido de la palabra sajona “evidence”. Esto, sumado a la mayor accesibilidad a las fuentes de información, ha llevado a que la literatura biomédica se multiplique de un modo vertiginoso, transformando en un verdadero desafío la posibilidad de mantenerse “actualizado”.

Paralelamente han devenido al menos dos problemáticas: por un lado, la veracidad de la información publicada no siempre es tal; por otro, la interpretación que los profesionales de la salud realizan de aquello que leen no siempre es correcta. Un ejemplo de ello es la frecuente “obsesión” por leer o publicar estudios cuyos resultados hayan sido “estadísticamente significativos”, definido esto como un valor de p< 0,05. Esta p-manía ha llevado incluso a intentar comparar resultados de diferentes estudios de acuerdo al valor de p que han obtenido. Lamentablemente, no todo resulta tan sencillo.

El conocimiento científico

En ciencia no existen verdades absolutas, sino proposiciones temporalmente aceptadas, construidas en base a hipótesis que se encuentran continuamente a prueba. Esto vuelve al conocimiento dinámico, y hace que, en cualquier momento, pueda refutarse.

Esta incapacidad de “conocer” la verdad absoluta obliga a operar con hipótesis; por convención, la “hipótesis nula” es aquella que plantea que, entre aquellos objetos o determinaciones que se están probando, no existen diferencias. Por el contrario, las “hipótesis alternativas” son todas aquellas que plantean que aquello/s grupo/s u objeto/s en estudio tienen una diferencia concreta. Para intentar esclarecer esto, uno puede llegar a rechazar una o varias hipótesis, pero no es prudente aceptar ninguna en concreto, ya que “aceptar” una hipótesis implicaría asumir lógicamente que todas las demás, sin excepción, son falsas. Con este objetivo de rechazar o no hipótesis se llevan a cabo los test de hipótesis, según correspondan. Y junto a sus resultados se obtiene un valor de p, que es aquello que nos compete.

Nuestra amiga, la p

El valor p del test NO es la probabilidad de que la hipótesis sea cierta ni de que sea falsa. Y no siempre es el mejor criterio para sacar conclusiones de los estudios.

Esta breve nota pretende aclarar un error muy común entre más del 90% de los investigadores que confunden irremisiblemente la probabilidad de que una hipótesis que han formulado sea cierta (o falsa) con el valor p de un test de hipótesis. En algunos casos, esta confusión repercute en hacer una interpretación equivocada del valor p del test y en llegar a conclusiones no avaladas por los datos.

Ejemplo no numérico para distinguir la probabilidad de una hipótesis de la probabilidad de ver unos resultados si una hipótesis se cumple.

Empecemos con un supuesto muy sencillo para subrayar la diferencia entre dos probabilidades. Manuel, un joven estudiante de medicina, acude a su profesor de cardiología porque tiene cierto dolor torácico y teme que sea un síntoma de isquemia cardíaca. Su abuelo, que sufrió un infarto de miocardio el mes pasado, sintió un dolor torácico intenso antes del infarto. Le pregunta a su profesor dos cosas:

Manuel pregunta:

a. ¿Cree que puedo tener un infarto?

b. Si tengo un infarto, ¿sería normal tener dolor torácico?

Su profesor le contesta:

a. La probabilidad de padecer un infarto en una persona joven como tú es bajísima.

b. La probabilidad de sentir dolor torácico si tuvieras un infarto es alta.

Es obvio que no se pueden confundir ambas probabilidades. Manuel no puede decir que su probabilidad de padecer un infarto es alta. Si pensamos que en este ejemplo la hipótesis de trabajo de Manuel es “tener un infarto” y que el dato de que dispone es “dolor torácico”, podríamos reformular las anteriores preguntas y respuestas en función a “datos” e “hipótesis”:

Manuel pregunta:

a. ¿Cree que la hipótesis es cierta? (tener un infarto)

b. ¿Si la hipótesis fuera cierta sería normal tener este dato?

Su profesor le contesta:

a. La probabilidad de la hipótesis en una persona joven es bajísima.

b. La probabilidad de tener este dato si la hipótesis fuera cierta, es alta.

Nótese que la primera pregunta de Manuel y la primera respuesta del profesor aluden a la probabilidad de la hipótesis, mientras que la segunda pregunta (y respuesta) aluden a la probabilidad de los datos si la hipótesis fuera cierta. Son dos probabilidades completamente distintas y la que llamamos “valor p del test” es la segunda de estas.

Ejemplo de cálculo sencillo de probabilidad de la hipótesis y del valor p.

Veamos un segundo ejemplo, no médico, pero que comparte el 100% del razonamiento lógico básico con ejemplos médicos.

Compras bien cara una moneda presuntamente antiquísima en un mercado persa. La policía local te dice que 2 de cada 100 monedas vendidas como antiguas son falsas. Además te comunican que las falsas están mal balanceadas, de modo que en ellas a la larga tiende a salir cruz mucho más de la mitad de las veces –todas las auténticas están bien balanceadas y en ellas a la larga sale cruz la mitad de las veces–.

Por un lado piensas “es poco probable que me haya tocado una de las falsas”. O lo que es lo mismo: la probabilidad de que mi moneda sea buena es muy grande (vamos a llamar a esta “probabilidad a priori” de que la moneda sea buena). Pero de todos modos decides hacer un “experimento” para intentar saber si la tuya es o no falsa. La lanzas 20 veces, y resulta que te sale cruz en todas ellas. Piensas “me temo que me ha tocado una de la falsas, porque con una buena es muy difícil que salga cruz 20 veces seguidas”. A la vista de este resultado sospechas que la probabilidad de que tu moneda sea buena es muy pequeña.

Se lo comentas a un estadístico y te calcula que, “a priori”, la probabilidad de que la moneda que has comprado sea buena es de un 98% (98 de cada 100 monedas que se venden son buenas). Pero también calcula que con una moneda buena la probabilidad de que al azar salgan 20 cruces seguidas es 1 por millón (p=0,000001). A esta cantidad la llamamos “valor p del test”.

Recopilemos: probabilidad a priori de que mi moneda sea buena es 98%, pero el valor p del test es 0,000001 (probabilidad de que con una moneda buena salgan 20 cruces seguidas). Son dos probabilidades muy distintas. Se refieren a distinta cuestión y son números diferentes. Recuerde, además, que la probabilidad de que ocurra cierto evento es simplemente la proporción de veces en que ocurre cuando el fenómeno en cuestión se repite millones de veces. En nuestro ejemplo el “98%” quiere decir que si comprar una moneda antigua en ese mercado se repite muchas veces, en 98 de cada cien la moneda es realmente antigua (2 de cada cien es una falsificación). Y el “0,000001” quiere decir que si tomáramos un millón de monedas buenas, y cada una la tiráramos 20 veces, en solo una de esas monedas nos saldrían 20 caras.

Cómo sacar conclusiones erróneas en función del valor p del test.

En medicina es habitual tomar decisión en función del valor p del test. En muchos artículos leemos afirmaciones como “por ser el valor p del test menor de 0,05 rechazamos la hipótesis planteada…”. Por lo explicado en los párrafos anteriores este valor p no significa “la probabilidad de que la hipótesis nula sea cierta es menor del 5%”, la interpretación correcta sería: “Si la hipótesis fuera cierta, entonces habría menos del 5% de probabilidad de obtener unos datos como estos, con lo cual pensamos que quizás la hipótesis planteada no es cierta”. Este razonamiento de rechazar la hipótesis (o, al menos dudar de ella) cuando el valor p es razonablemente pequeño tiene completo sentido lógico. Sin embargo, en ocasiones puede no ser adecuado utilizarlo. Vamos a poner un ejemplo donde a pesar de tener un valor-p del test pequeño no parece razonable rechazar la hipótesis.

Supongamos que en una población la prevalencia de aneurisma congénito de arteria carótida es relativamente baja, digamos del 1 por diez mil (0,0001), por lo que la probabilidad de no tenerlo es 0,9999. Imaginemos que a un individuo tomado al azar (Juan) se le hace una arteriografía y aparece una imagen típica de un aneurisma carotídeo. Pongamos que esa imagen aparece en todos los pacientes con aneurisma carotídeo (es lo que llamamos sensibilidad de la prueba, que en este caso sería del 100%) y solamente en 3 de cada mil pacientes sin aneurisma (diremos que la especificidad de la prueba es de 99,7% = 100×(1–0,003)). En el análisis estadístico se utiliza con frecuencia el término “hipótesis nula”, que en este ejemplo corresponde a que Juan NO tenga un aneurisma carotídeo. Usando esa expresión podemos hablar de dos probabilidades:

- P1=0,9999 es la probabilidad “a priori” de que sea cierta la hipótesis nula (es decir, que Juan no tenga un aneurisma carotídeo).

- P2=0,003 es la probabilidad de encontrar esa imagen en la arteriografía si fuera cierto que Juan no tuviera un aneurisma. Es decir, P2 es el “valor p” del test para la hipótesis nula: la probabilidad de obtener esta imagen si la hipótesis nula fuera cierta. Una conclusión aparentemente correcta sería “como esta imagen es muy difícil que aparezca en personas libres de un aneurisma carotídeo –se observa solo en 3 de cada mil– entonces me inclino a pensar que Juan no está libre de la enfermedad”.

Ahora bien, la pregunta clínica relevante no es la P1 (que prevalencia tiene la enfermedad) ni la P2 (si estoy libre de enfermedad, que probabilidad hay de una prueba positiva). La pregunta relevante es: “en personas que muestran estos resultados, cuál es la probabilidad de que padezcan un aneurisma carotídeo”. Es decir, de cada 100 pacientes en los que veo esta imagen, cuántos tienen realmente un aneurisma. Llamaremos a ésta la probabilidad “a posteriori” de tener un aneurisma carotídeo una vez que he visto los resultados positivos de la prueba. Para calcular esta probabilidad a posteriori tenemos que calcular cuántos falsos positivos y verdaderos positivos ocurrirían si le hiciéramos esta prueba a toda la población. Esto es fácil con la información que nos han dado sobre prevalencia de la enfermedad, sensibilidad y especificidad de la prueba. En la Tabla 1 se han calculado las pruebas positiva si imaginamos que la población tuviera 1.000.000 de individuos. Vemos que esperamos encontrar 100 casos de aneurisma carotídeo y que todos ellos producirán pruebas verdaderas positivas. Pero de las 999,900 personas sin un aneurisma, 3000 de ellas producirán también pruebas positivas (“falsos positivos”). El número total de positivos que verán los médicos es 3100. Juan es uno de estos 3100 individuos, pero como fue tomado al azar y no porque tuviera ningún síntoma especial, entonces podría ser cualquiera de ellos con la misma facilidad. Pero sabemos que sólo 100 de estos pacientes tienen en realidad un aneurisma carotídeo, es decir un 3% (=100/3100). Por lo tanto solo hay un 3% de probabilidades de que Juan sea uno de los verdaderos positivos y tenga un aneurisma carotídeo, y un 97% de no tenerlo.

Resumiendo nuestro conocimiento sobre este caso:

1. Cuando tomamos a Juan de la población y antes de hacer la prueba le atribuíamos una probabilidad “a priori” de tener un aneurisma carotídeo de P1=0,0001.

2. La prueba dio positiva y sabemos que esto ocurre en todos los casos de aneurisma carotídeo y solamente en 3/1000 de los no casos. Un test para la hipótesis nula “Juan no tiene un aneurisma carotídeo”, arroja un valor de p=0,003 (la probabilidad de tener una prueba positiva si en realidad no se tiene un aneurisma). Con este razonamiento nos inclinaríamos a rechazar la hipótesis y, por lo tanto, pensaríamos que Juan tiene un aneurisma carotídeo. Sin embargo, nótese que este razonamiento no tiene en cuenta los falsos positivos.

3. Pero tras reconsiderar que la verdadera pregunta que queremos contestar es “Entre los pacientes que tienen prueba positiva (es decir, a posteriori de ver la prueba positiva), ¿qué proporción de ellos tienen en realidad un aneurisma carotídeo?”. Aquí nos damos cuenta que tenemos que considerar qué proporción de falsos positivos hay en la población. Tras hacer los cálculos descubrimos que esta es del 97%; luego solo hay un 3% de posibilidades que Juan tenga la enfermedad aunque la prueba haya sido positiva.

Conclusiones

Cuando tenemos un estudio en el que queremos buscar un parámetro desconocido (por ejemplo, el estado de enfermedad de un paciente), los diferentes posibles valores que pueda tomar ese parámetro son las hipótesis. Y para averiguarlo medimos algún dato (por ejemplo, una prueba sobre el paciente). Hemos de distinguir:

1. La probabilidad “a priori” de que el parámetro tome un determinado valor (probabilidad de que el paciente tenga un determinado estado patológico).

2. La probabilidad de que teniendo un determinado valor del parámetro (estado patológico), en la prueba se obtengan los datos que nos han salido (esto es el valor p del test).

3. La probabilidad “a posteriori” de que el parámetro tome un determinado valor teniendo en cuanta ambas cosas: los datos de la prueba y la probabilidad que había a priori.

No debemos confundir estas tres probabilidades. La tercera es normalmente la más informativa y, en ocasiones, se puede obtener de las dos anteriores (la “a priori” y el valor p). Lo que ocurre habitualmente es que desconocemos la probabilidad “a priori”, por lo tanto no podemos calcular la probabilidad “a posteriori” y nos limitamos a utilizar el valor p para sacar conclusiones. Sin embargo, esto implica el riesgo de “olvidar” que cualquier resultado obtenido puede ser en realidad verdadero o falso. No advertirlo omite la posibilidad de que en realidad se trate de un falso positivo. Por esto idealmente querríamos calcular la probabilidad “a posteriori”.

  1. Nuzzo R. Scientific method: statistical errors. Nature. 2014 Feb 13;506 (7487):150-2.

  2. Prieto Valiente L, Herranz Tejedor I. ¿Qué significa estadísticamente significativo? La falacia del criterio del 5% en la investigación científica. Editorial Díaz de Santos. Madrid, 2015.

  3. Tatsioni A, Bonitsis NG, Ioannidis JP. Persistence of contradicted claims in the literature. JAMA. 2007 Dec 5;298(21):2517-26.

  4. Martínez-Sellés M, Prieto L, Herranz I. Frequent mistakes in the statistical inference of biomedical data. Ital Heart J. 2005 Feb;6(2):90-5.

Autores

Luis Prieto Valiente
Universidad Católica San Antonio en Murcia, España..
David Prieto Merino
London School of Hygiene.
Tropical Medicine, Reino Unido.
Autor correspondencia

David Prieto Merino
London School of Hygiene.

Correo electrónico: Tropical Medicine, Reino Unido.

Para descargar el PDF del artículo
El “valor de p” y otras notas estadísticas

Haga click aquí


Para descargar el PDF de la revista completa
Revista del CONAREC, Volumen Año 2015 Num 129

Haga click aquí

Revista del CONAREC
Número 129 | Volumen 30 | Año 2015

Titulo
El “valor de p” y otras notas estadísticas

Autores
Luis Prieto Valiente, David Prieto Merino, Tropical Medicine, Reino Unido.

Publicación
Revista del CONAREC

Editor
Consejo Argentino de Residentes de Cardiología

Fecha de publicación
2015-06-30

Registro de propiedad intelectual
© Consejo Argentino de Residentes de Cardiología

Reciba la revista gratis en su correo


Suscribase gratis a nuestra revista y recibala en su correo antes de su publicacion impresa.


Consejo Argentino de Residentes de Cardiología
Azcuénaga 980 - (C1122AAJ) CABA | Argentina | tel./fax +54 9 11 3677 2989 | e-mail info@conarec.org | www.conarec.org

Registro de la Propiedad Intelectual en trámite. Propietario: Consejo Argentino de Residentes de Cardiología (CONAREC) | ISSN 0329-0433 | ISSN digital 1853-2357

La plataforma Meducatium es un proyecto editorial de Publicaciones Latinoamericanas S.R.L.
Piedras 1333 2° C (C1240ABC) Ciudad Autónoma de Buenos Aires | Argentina | tel./fax (5411) 4362-1600 | e-mail info@publat.com.ar | www.publat.com.ar

Meducatium versión 2.2.1.3 ST