Falsos positivos

Por Adrián Paenza

A esta altura del siglo XXI, las estadísticas han tomado un lugar preponderante en nuestra sociedad. Desde que las computadoras personales (en sus variadísimas formas) han llegado a niveles de velocidad y precio impensables hace una década nada más, la recolección de datos (y su posterior análisis) permite descubrir patrones que uno no tenía idea que existían.

Es por eso que acceder a las herramientas que provee el estudio de las probabilidades se ha transformado en vital para el desarrollo y alfabetización de una persona, y por eso creo que deberían empezar a enseñarse en la escuela primaria. En una época alcanzaba con poder hacer razonamientos que tuvieran que ver con “una sencilla regla de tres simple” o con cálculos de proporciones. Hoy, tenemos la capacidad de decodificar el genoma humano, de estudiar y alterar las propiedades nanométricas de ciertas sustancias, de predecir las condiciones climáticas, de estimar la salinidad de los mares, podemos operar a distancia usando robots, modificar la genética de algunos cultivos, diagnosticar y tratar enfermedades con medicina nuclear, transmitir datos con velocidades próximas a la de la luz, describir lo que sucede en Marte y ver en lugares en donde el hombre jamás antes había tenido acceso. La lista podría seguir hasta hacerse virtualmente interminable.

Ahora bien: es necesario prepararse para poder extraer las conclusiones correctas y no dejarse impresionar por lo que uno cree o sospecha que tiene que pasar de acuerdo con nuestra limitada capacidad para intuir, especialmente cuando se trata de cuestiones que involucran a las probabilidades.

Hay un ejemplo maravilloso, que tiene que ver con la medicina. Léalo con total ingenuidad y fíjese qué diría usted si tuviera que elaborar un juicio sobre el planteo. Por supuesto es un ejemplo totalmente ficticio pero muy utilizado para exhibir lo que se llama La Falacia del Fiscal[1]. Voy a presentar una versión[2] de las múltiples conocidas pero ciertamente una de las más atractivas.

Supongamos que se descubriera una nueva enfermedad, fatal para el ser humano. Supongamos además que es muy raro encontrarla, pero si alguien la contrae la probabilidad de sobrevivir es virtualmente nula. Lo bueno es que hay una forma de detectarla muy rápidamente. Un grupo de biólogos y médicos desarrolló un test que tiene un grado de certeza tal que, si a una persona le da positivo, eso significa que la probabilidad de que haya un error es una en un millón. De nuevo: si al realizar el test en búsqueda de esta enfermedad el resultado fuera positivo la probabilidad de que esta persona no tuviera esa enfermedad sería de una en 1.000.000.

Ahora bien: usted llega a hacer una consulta con su médico y, frente a algunos síntomas que le reporta, él decide someterlo a la prueba para saber si entre los posibles causantes estuviera esta enfermedad. Le sacan sangre y cuando vuelve al hospital, el médico lo mira horrorizado y le dice: “Vea, el test para detectar la enfermedad de la que le hablé… ¡le acaba de dar positivo!”.

Por supuesto, el médico –que conoce que el desenlace será inevitable una vez que se confirmen estos resultados– intenta calmarlo, pero no hay nada que hacer. Usted, mientras tanto piensa: “¿Habrá alguna posibilidad de que el resultado esté equivocado? ¿No habrá algún error? ¿Cuál es la probabilidad de que yo sea justo uno de los casos llamados falsos positivos?” Ambos –el médico y usted– saben bien que esa probabilidad es bajísima: ¡una en un millón!

Y acá, le pido que acepte una pausa en el relato. Yo lo conduje para que se convenciera de que las posibilidades de que quien resulte con un test positivo se salve, son virtualmente inexistentes. Es casi imposible pedir más: un estudio que garantice un resultado cierto con un error de uno en un millón es el test “casi” perfecto.

Sin embargo, y hasta acá quería llegar, faltan algunos datos.

Cuando escribí más arriba que la enfermedad era de muy rara aparición, no especifiqué “cuán rara” era. Ahora lo voy a hacer, al incluir un hecho importante: la estimación de los científicos es que solamente una cada mil millones de personas la tiene. Es decir, que si uno piensa que en el mundo somos alrededor de 7 mil millones de habitantes, y solamente una de cada mil millones la padece, eso significa que hay solo 7 personas que están enfermos. Obviamente, esto no es un dato menor.

Fíjese que ahora, si bien el test sigue siendo tan infalible como lo era al principio, si se lo hicieran a toda la población mundial de 7 mil millones de personas, habría 7000 personas que darían positivo ¡aunque no tuvieran la enfermedad! Y esto sucede porque una de cada millón es un falso positivo. O sea, la abrumadora mayoría de las personas que dan positivo, están sanas.

En ese caso usted podría ser una de esas 7000 personas que no tienen la enfermedad, pero a quienes el test le dio positivo. Es decir, que como se estima que hay solamente 7 personas que la padecen, ¡sólo uno de cada 1000 habitantes a quienes les dio resultado positivo la tiene! O sea, ahora se redujo el caso a detectar si usted es (o no) una de esas siete personas.

Por lo tanto, que a usted le hubiera dado positivo el test, no debería incomodarlo para nada. En todo caso, usted tiene 999 posibilidades a favor de que sea un falso positivo.

Como se ve, un análisis apresurado puede hacerle creer a usted (y también a su médico) de que si bien un test parece infalible (y de hecho es virtualmente así), eso no significa que usted esté en peligro ni de morir ni de tener una enfermedad terminal.

La idea de que el test fuera incorrecto en un solo caso en un millón termina siendo un engaño. Cuando uno pone todo en perspectiva y advierte que la enfermedad sólo afecta a una de cada mil millones de personas, entonces lo que parecía conducir a un diagnóstico lapidario, termina siendo sólo un “falso positivo”.

La utilización cuidadosa de los datos y el análisis por parte de matemáticos especialistas en el estudio de probabilidades y estadísticas, sirve para prevenir interpretaciones equivocadas y desatinos que son mucho más comunes de lo que uno advierte.

Es por eso que se transforma en esencial ayudar a los médicos a no sacar conclusiones equivocadas al leer los datos y prevenirlos frente a potenciales errores de diagnóstico. Para eso, ahora más que nunca antes, hace falta el trabajo en equipo, en donde la presencia de científicos de distintas ramas contribuya a echar luz donde parece no haberla.

[1] Se llama La Falacia del Fiscal o Prosecutor’s Fallacy (en inglés) por las acusaciones y condenas de individuos reportadas en los últimos 50 años, en donde las pruebas incriminatorias parecían contundentes hasta que la aparición de matemáticos especializados en probabilidades y estadística terminaron por exhibir los errores cometidos. Gente inocente pagó con años de cárcel y personas acusadas de homicidios (múltiples en algunos casos) murieron sin haber tenido responsabilidad alguna. De la misma forma, y en sentido inverso, el sonado caso de O.J. Simpson en 1994 mostró cómo la distorsión de los datos y su manipulación para encontrar alguna forma de absolverlo, terminaron por declarar inocente a quien todo indica que fue el autor material del crimen del que se lo acusaba.

[2] El autor de la idea es Charles Seife, reconocido profesor y periodista científico norteamericano, quien contribuye periódicamente en las revistas Scientific American, The Economist, Science y New Scientist entre otras. Para él entonces el crédito que le corresponde.

 

En el mundo actual las estadísticas tienen un lugar preponderante: hay estadísticas para todo. Buenas, malas, útiles, irrelevantes, reveladoras… y la lista puede seguir. También sucede que al hacerse pruebas o experimentos, algunos resultados se corren de lo esperable. Por ejemplo, en las encuestas previas a una elección, las estimaciones vienen con el equivalente de una letra chica, que uno no quiere aceptar, pero que es determinante: el error. Es decir, un porcentaje en más o en menos sobre el valor indicado. Digo que uno no lo quiere aceptar porque nosotros queremos resultados tajantes, definitorios, categóricos y contundentes. “¡Que no queden dudas!: Gana A o gana B.” Pero los márgenes que suelen determinar una victoria en elecciones parejas son muy estrechos y, por lo tanto, se hace virtualmente imposible predecir el ganador. Las encuestas requieren de ofrecer sus resultados con error, pero la sociedad no quiere escuchar.

En el tema de las elecciones, las encuestas tienen fecha de expiración: el día del sufragio. Allí se sabe la verdad, allí se conocerán los hechos. Pero hay otros episodios de la vida cotidiana donde ese “tal” día no existe y, por lo tanto, los que hacen predicciones necesitan que el interlocutor acepte coexistir con el error, con ese porcentaje de incerteza que conlleva no hacer una medición exhaustiva, o sea, analizar todos los casos (como en el caso de una elección) o sencillamente porque no hay certezas posibles (tiempo de vida de una persona enferma, por ejemplo).

¿Cuántas veces en su vida escuchó usted hablar de falsos positivos? Seguramente muchas. Lo que sucede es que uno no les da importancia salvo que el involucrado sea uno mismo o algún ser querido. Por ejemplo, un test para determinar si una mujer está embarazada puede no ser 100 por ciento seguro: es un caso típico de falso positivo.

También podría suceder que al cruzar los sistemas de seguridad en un aeropuerto la alarma suene como si usted estuviera llevando un objeto metálico, pero ese sistema puede ser tan sensible como para detectar una moneda que le quedó olvidada. O podría ser que sonara igual y uno no tiene nada metálico visible o reconocible.

El servicio de correo electrónico que usa cada uno de nosotros suele enviar a una carpeta Spam, aquellos mensajes que el programa detecta como indeseables. Sin embargo, estoy seguro de que a usted le debe haber pasado que fue a parar allí un mensaje que usted hubiera querido retener o leer. Es otro ejemplo de falso positivo.

O la propia computadora podría anunciarle que hay un archivo infectado con un virus, cuando en realidad no es así. O en las fábricas en donde se requiere un control de calidad, algunos productos no lo superan y el sistema los considera “extraños” cuando debería aceptarlos por buenos. Este sería un ejemplo de falso negativo. Y podría seguir, pero quiero parar acá.

Todo esto que escribí tiene una intención y es provocarla/lo a decidir si el porcentaje de seguridad que ofrece el sistema que yo le voy a proponer le parece confiable o no. Lo extraigo de un excelente trabajo que hizo Claudio Fernández Aráoz, uno de los mejores expertos argentinos en selección de personal [1]. Prepárese a pensar y sacar sus propias conclusiones. Sobre el final, analizaremos juntos los resultados.

Suponga que usted se enfrenta a un grupo de profesionales de los que tiene que seleccionar el 10 por ciento de los mejores, para trabajos de gerente en una compañía. No importa cuántos sean, usted solamente quiere quedarse con los mejores postulantes. ¿Cómo hacer para detectar justamente ese 10 por ciento?

Sus asesores le acercan un método que le ofrece las siguientes garantías: “Si los candidatos superan una serie de preguntas y resuelven una cantidad de problemas, el método provee una evaluación con un 90 por ciento de precisión”.

Es decir, aquellos que pasen por el tamiz que usted les propone tienen un 90 por ciento de posibilidades de pertenecer a ese grupo del 10 por ciento de los mejores.

¿Le parece que un método que tiene la intención de reclutar sólo el “Top 10 por ciento” y que ofrece una evaluación con un 90 por ciento de precisión es un método confiable?

Usted y yo sabemos que no hay método infalible, eso no lo puede garantizar nadie, pero, insisto, si le aseguraran una eficacia del 90 por ciento, ¿usted diría que es aceptable o no?

Ahora le toca pensar a usted. Yo sigo acá abajo, pero créame que no vale la pena leer lo que sigue si no le dedica un rato a pensar mi propuesta en soledad.

Análisis

Para analizar cuán bueno es el método, le propongo que supongamos que en total hay 100 candidatos. Eso va a hacer que las cuentas sean más sencillas, pero obviamente, el sistema de detección no depende del número de aspirantes sino de la eficacia intrínseca.

Como se trata de detectar el 10 por ciento de los postulantes, usted tratará de descubrir los 10 mejores entre los 100. Eso significa también que en el camino usted determinará cuáles son los 90 que –obviamente– no están en ese grupo.

De esos 10 mejores, como usted tiene un 90 por ciento de eficiencia, su método le permitirá descubrir a nueve, ya que uno se le va a escapar. O sea, uno de los buenos, uno de los diez que usted querría distinguir, no pasó la prueba cuando debió haberla superado. Este candidato será un falso negativo.

De la misma forma, entre los 90 que no están en ese grupo, ¡se le van a filtrar nueve que usted creerá que están entre los buenos! Estos van a ser los falsos positivos.

¿Cuál es la moraleja? Con estos datos que acabamos de pensar juntos, ¿qué le parece ahora el método?

Creo que lo que le sucede a usted, como me sucedió a mí, es que un método que parece poco menos que infalible sirve para que usted encuentre nueve que son del grupo que usted quiere, pero también nueve que son del grupo que no quiere. O sea que su eficiencia se reduce a un 50 por ciento. Quedan distinguidas 18 personas, pero solamente nueve de ellas son las que usted querría descubrir.

Este ejemplo es muy útil en ese sentido. Sirve para poner en perspectiva el tema del error en la apreciación o los falsos positivos (o negativos) para usar los nombres más aceptados. Por supuesto que dependerá del contexto, pero los métodos de evaluación –sean en el campo que sean– cuando se trata de reconocer los “falsos positivos” y cómo tratarlos, requieren de cuidados muy especiales.

Las estadísticas son potentes y muy útiles, pero no infalibles ni perfectas. El problema es que los humanos nos llevamos mal con la ambigüedad, con lo que no sea categórico y final. Lamentablemente, los científicos pueden dar muchas respuestas, pero no todas, y entiendo que no es fácil aprender a coexistir con la duda, aceptar la frustración de no llegar hasta el 100 por ciento. Pero así es la vida… al menos por ahora.

[1] Llegué hasta el trabajo de Fernández Aráoz a través de mi amigo Santiago Bilinkis, uno de los curadores del TEDxRiodelaPlata.

Supuestos:

1. Intención de reclutar sólo el “Top 10%”.

2. Evaluación con un 90% de precisión.

Pregunta:

¿Qué porcentaje de “Top 10%” finalmente recluta?

Respuesta:

a) 100 profesionales.

b) 10% = 10 están en el “Top” que queremos reclutar.

c) 90% = 90 son los que queremos dejar afuera.

d) De los 10 que querríamos reclutar, alcanzamos a detectar nueve. Se nos escapa uno.

e) De los 90 que querríamos excluir, 81 quedan eliminados pero nueve quedan incluidos.

Moraleja:

Aun con una precisión del 90 por ciento, retenemos 18 personas, de las cuales nueve están entre los que querríamos y nueve querríamos haber eliminado, pero se nos filtraron. Luego, tenemos un 50 por ciento de efectividad.

Anuncios

5 comentarios en “Falsos positivos

  1. Pingback: Realidad laboral hoy: 31.7.13 | Bolsa de trabajo isabelina

  2. Pingback: ConCierta Ciencia: revista semanal | ConCierta Ciencia

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s