¿Qué es el "p-value" y cómo nos puede ayudar en las decisiones de aceptar lotes construidos?

Freddy J. Sánchez-Leal
17 ago 2020
6 Min. de lectura

Actualizado: 22 jun 2023

Como ingenieros civiles, con frecuencia nos toca tomar decisiones para aceptar lotes de relleno compactado, carpeta asfáltica, mezcla asfáltica producida, mezcla de concreto/hormigón, adoquines de concreto, o bien, comparar entre las mediciones de dos equipos (densímetros, balanzas, medidores de presión, etc.), o entre los resultados de dos laboratorios, por mencionar algunas actividades. Cuando hacemos esto, afortunadamente la mayoría recuerda que “por alguna razón”, hay que tomar muestras independientes, representativas y aleatorias. Aunque, luego, la mayoría de las veces, las decisiones se tomen con una base determinista, como por ejemplo: “todas tienen que cumplir”, “todos los resultados deben dar más o menos iguales”, y así.

Con el tiempo, y las malas prácticas, olvidamos que la única manera de que lo determinista funcione es que en vez de muestras, ensayemos todo el volumen de material en un lote, o todos sus elementos, lo cual es inviable en términos prácticos. Por eso tomamos muestras. Y la única manera de hacer una afirmación o una conclusión válida sobre los resultados de esta muestra, es pasándola por un análisis matemático conocido como inferencia estadística. Exacto, un procedimiento técnico que nos permite concluir sobre toda la población o proceso a partir de una pequeña muestra.

En nuestro campo profesional, usualmente medimos densidades, humedades, contenidos de asfalto, temperaturas, resistencias. Estas variables son cantidades en un continuo, y su frecuencia de aparición también lo es, y se puede explicar con un histograma o con un modelo matemático. La frecuencia de los resultados de los ensayos que aplicamos a los elementos de las muestras representativas que tomamos, y que obtenemos aplicando procedimientos de teoría de juegos, también se pueden explicar con funciones, que llamamos de variable aleatoria. Por ejemplo, cuando tratamos de inferir sobre medias, usamos la distribución de T de Student. Cuando evaluamos varianzas, usamos la función de chi cuadrada; y cuando estudiamos proporciones, como fracciones defectuosas, empleamos la función de distribución normal estándar. Cada una de ellas tiene sus parámetros y estadísticos. Estos estadísticos, para cada caso, se calculan con expresiones matemáticas a partir de la media y la desviación estándar de los resultados de la muestra, y del número de elementos de la muestra.

Es importante destacar que cuando tomamos decisiones (inferencias) sobre la población o proceso, basándonos en una muestra representativa y aleatoria, y en un procedimiento estadístico de inferencia, podemos cometer dos errores (que comúnmente se expresan como riesgos). El error de tipo I, o riesgo del constructor, que viene de rechazar un lote bueno. Y el error de tipo II, o riesgo del dueño o comprador (en el que nos meten "gato por liebre"), que viene de aceptar un lote defectuoso. Ambos riesgos existen, son inevitables, y lo que se necesita es que sean conocidos y balanceados. Al riesgo del vendedor se le llama también probabilidad alfa, o significancia asignada de la prueba. Mientras que al riesgo del dueño o comprador se le llama probabilidad beta = 1-alfa. Esta significancia asignada es una asunción del proyecto, dependiendo de su importancia, inversión en el número de pruebas de control, entre otros aspectos, y forma parte de las reglas de juego que deben aparecer en el contrato, en la parte asignada al plan de inspección de la obra. Los valores de significancia típicos en obras civiles rondan entre 0.01 (1 %) y 0.05 (5 %). De forma gráfica, la significancia se representa como el área debajo de la curva en la cola (análisis unilateral), o en las dos colas (análisis bilateral).

Los procedimientos estadísticos de inferencia se basan en el establecimiento de hipótesis. Una hipótesis originaria, que llamamos nula. Por ejemplo: “La media de esta medición es 95 % del Proctor”, “el contenido óptimo de asfalto es 5.0 %”, etc. Y una hipótesis alterna que, dependiendo de cómo se plantee, puede derivar en análisis unilaterales, también llamados de una cola, o análisis bilaterales, llamados de dos colas.

Finalmente, el valor “p-value”, o también llamado significancia observada, es el área acumulada, o probabilidad acumulada, desde el valor del estadístico de la función, calculado con los datos de la muestra, y la cola de la función. Estas probabilidades se pueden obtener en tablas, o más modernamente en MS Excel, con funciones inversas de la función correspondiente. Aunque existen varios criterios para concluir sobre las pruebas de inferencia estadística, el “p-value” es la más contundente de todos. Para que la hipótesis nula se cumpla, el “p-value”, o significancia medida, debe ser mayor que la significancia asignada o a. Si esto no sucede, hay que aceptar la hipótesis alternativa.

Así como hemos explicado, es que se tienen que tomar las decisiones sobre aceptación o rechazo de lotes basándose en una muestra independiente, representativa y aleatoria. En otra publicación diferente explicaremos qué significa todo eso, ya que en muchas veces entendemos cosas diferentes sobre lo que significa “aleatorio”.

Nada mejor para aprender que ir de la mano de un ejemplo.

Para la construcción de un terraplén del Par Vial, en el oriente del estado Falcón, en Venezuela, en 2004, se usó una grava arenosa del préstamo Mostrenco. La especificación establece que para garantizar un CBR de 20 %, se debe compactar el suelo con una densidad seca de 18.5 kN/m3. El muestreo aleatorio PV-123, de seis mediciones, se obtuvieron los valores de densidad seca que se muestran en la tabla. La decisión se debe tomar con un nivel de significancia de 0.05 (5 %).

Tabla. Medición en el relleno. Fuente: Manual de RAMCODES 2009, p. 159.

Para resolverlo, estableceremos que la hipótesis nula es que la media de las mediciones realizadas en la muestra es igual a 18.5 kN/m3, y la hipótesis alternativa es que es diferente. Esto nos lleva a un análisis bilaterial o de dos colas que resolveremos siguiendo este mapa mental.

Mapa mental Análisis bilateral en prueba de inferencia con la media. Fuente propia.

Primero, hagamos una tabla y calculemos en Excel los estadísticos de la muestra (media, desviación estándar...), con las funciones PROMEDIO y DESVEST.M.

Luego, con estos estadísticos, calculamos el estadístico to, que corresponde a la distribución T de Student de la muestra.

Con ayuda de la función DISTR.T.INV de Excel, calculamos la probabilidad acumulada hasta este valor (0.142) y que resulta igual a 0.893, que viene siendo el "p-value" o significancia observada en la muestra. Tal como podemos ver, este valor es bastante mayor que la significancia requerida alfa de 0.05, por lo que se acepta la hipótesis nula, es decir, la media de densidad seca del lote compactado es 18.5 kN/m3. En la siguiente tabla se resumen los resultados para esta y otras pruebas de rechazo.

Puedes descargar esta hoja de Excel para que la tengas como referencia.

Para entender un poco más el "p-value", conviene verlo representado gráficamente en una curva de distribución T. En el siguiente gráfico, la zona sombreada suma 0.893, que es la probabilidad del "p-value" de esta muestra, y que es también la significancia observada.

En cambio, la significancia del problema, que es 0.05, y como es un análisis bilateral, se encuentra repartida equitativamente en las dos colas, se visualiza como en el siguiente gráfico.

Aceptaremos la hipótesis nula siempre y cuando el área sombreada del primer gráfico ("p-value"), sea mayor que la del segundo (alfa). Puedes trazar tú mismo estas gráficas con el applet de la Universidad de Iowa en el siguiente enlace.

Les pido encarecidamente que no tomen este ejemplo como un estándar para plan de inspección, para aceptar o rechazar lotes. Para eso debemos agregarle otros procedimientos y criterios que con gusto explicaré en futuras publicaciones. El objetivo del presente artículo es mostrarles qué es el "p-value" y cómo nos puede asistir en nuestras decisiones.

Además de Excel, podemos utilizar software como Minitab, Statgraphics u Origin, entre otros, para realizar este tipo de análisis de manera automatizada.

Y así de esta manera, la próxima vez que tu supervisor quiera rechazarte algo, pregúntale, ¿y dónde está su “p-value”, inge? Escríbeme en los comentarios tu opinión, observaciones, contribuciones. Ayúdame compartiendo este contenido de valor para que llegue cada vez a más colegas (incluido tu supervisor).

Hasta la próxima.

Freddy J. Sánchez-Leal

Es ingeniero civil venezolano con más de 25 años de experiencia como consultor e investigador en el área de geotecnia, pavimentos y materiales para carreteras. Tiene una maestría en ingeniería (mecánica de suelos) por la Universidad Nacional Autónoma de México (UNAM). Es creador de la metodología RAMCODES, con abundantes publicaciones en revistas y congresos arbitrados. Ganó el Premio Nacional de Ciencia y Tecnología de Venezuela en 2008.