Los datos también mienten
¿Cuántas veces hemos escuchado “lo dicen los datos”, “los datos muestran que…” o “según los datos de un estudio…”? Los datos se han convertido en sinónimo de veracidad. Hoy es más fácil que nunca acceder a cualquier fuente de datos, desde la información de la NASA hasta los informes de nuestro ayuntamiento. Ahora bien, como cualquier otra fuente de información, sufren sesgos en la recogida, el análisis y la visualización. Los datos no son neutrales ni objetivos, aunque nos hayan dicho lo contrario.
Las visualizaciones de datos (gráficos, mapas, tablas) son cada vez más comunes en los medios de comunicación, donde los gráficos acompañan temas como el paro, los presupuestos o el IPC. También es normal que aparezcan en los debates políticos, donde los líderes apoyan los argumentos en gráficas que, a menudo, mienten para reafirmar lo que están diciendo. Hoy, se incluyen gráficos y estadísticas en cualquier argumento para añadir “veracidad”.
Las visualizaciones de datos no son neutrales, sino construcciones culturales: deben distorsionarse los datos para simplificarlos y representar la información mediante formas, posiciones y colores (Mazón, 2019). De otro modo, serían ininteligibles. Eso sí, la manera en que se representan influye directamente en cómo se interpretan.
Durante un debate político en 2019, Pablo Casado mostró un gráfico sobre la contratación indefinida (izquierda) que no tiene nada de objetivo. Los datos son correctos, pero no lo es la forma en la que se han visualizado. El gráfico de Pablo Casado muestra la evolución de la diferencia interanual y no de los contratos en valores absolutos. Según Maldita.es, “utilizar tasas interanuales en este tipo de gráficos no suele ser representativo. Además, en este gráfico no aparecen los valores del eje vertical y, por tanto, es normal pensar que se trata de valores absolutos”. Maldita.es rehizo el gráfico (derecha) donde se muestran los datos absolutos y, por tanto, la contratación indefinida total. Ésta es tan sólo una de las técnicas que, como veremos a continuación, se utilizan para mentir con datos.

Pablo Casado enseña un gráfico de variación internual. (Fuente: Atresmedia)

Gráfico de Pablo Casado rehecho en valores absolutos. Fuente: Maldita.es
¿Cuándo mienten los datos?
1. Los ejes están cortados o no se muestran
Una de las prácticas más habituales a la hora de manipular un gráfico es cortar los ejes verticales para que no empiecen en 0. De esta forma se consigue que las barras o líneas muestren diferencias más o menos exageradas utilizando exactamente los mismos datos. Es una técnica para incrementar distancias y polarizar la opinión.

Gráfico con eje vertical cortado

Gráfico con el eje completo
Esta práctica es muy habitual en los medios de comunicación de masas. En 2015, el programa Espejo Público mostró un gráfico sobre los resultados de una encuesta en la que, además de cortar los ejes, la longitud de las barras no coincide con los porcentajes. El gráfico de la derecha que se muestra a continuación es el original de la encuesta, donde puede verse que la diferencia entre Pedro Sánchez y Albert Rivera es menor.

Fuente: Cadena SER, «Un error en los gráficos que beneficia a Ciudadanos» (2015)
En ese otro ejemplo de un tuit de TVE, el gráfico también es erróneo. Si nos fijamos en los valores destacados, la cifra de 4,1 millones en 2019 está por encima del valor de 2014, que es de 4,4 millones. A simple vista es difícil detectar estos errores, ya que, de forma deliberada, el eje vertical se ha omitido para no tener ninguna referencia que no sean las cifras puntuales.

Fuente: Verne, «Cómo reconocer un gráfico que está mal hecho»

Fuente: Verne, «Cómo reconocer un gráfico que está mal hecho», imagen 2
2. No muestran suficientes datos
Siempre que se representen datos se decide qué se incluye y qué no. De hecho, es un proceso natural de cualquier visualización, puesto que se trata de un acto de síntesis de la información para hacerla comprensible. Sin embargo, hay muchos casos en los que se decide excluir información para manipular nuestra percepción.
De esta forma, si queremos convencer de que una empresa funciona bien y que las ventas aumentan anualmente, podríamos incluir tan sólo los años en los que las ventas crecen.

Gráfico en el que solo se incluyen los datos que interesan.

Gráfico en el que se incluyen todos los datos.
En la práctica, se pueden encontrar a diario gráficos que no incluyen suficiente información, sobre todo en medios de comunicación que proyectan el gráfico durante pocos segundos. TVE mostró un gráfico sobre la evolución del paro (izquierda) que solo muestra los datos del año 2000, 2008 y 2013, por lo que no se puede ver la evolución gradual, sino tan solo valores que exageran la diferencia entre las barras. A la derecha, el gráfico que contiene toda la información año tras año.

Gráfico que solo incluye los datos que interesan (Fuente: Pablo Rey Mazón)

Gráfico que incluye todos los datos. (Fuente: Pablo Rey Mazón)
3. Muestran porcentajes engañosos
Seguro que alguna vez habéis escuchado afirmaciones del estilo de “el 80% de los dentistas recomiendan esta pasta dentífrica”, o “9 de cada 10 personas lo recomiendan”. Una de las cosas que deben tenerse en cuenta a la hora de leer un porcentaje es el tamaño de la muestra. ¿A cuántos dentistas se les ha preguntado? ¿Cuántas personas han dado su opinión? No es lo mismo preguntar a diez dentistas que a un millar.
También es necesario tener en cuenta las condiciones de la muestra. Uno de los temas que ha dado más vueltas a raíz de la vacunación de la Covid-19 es el porcentaje de personas hospitalizadas por el virus y que se habían vacunado previamente: “Hay más personas vacunadas hospitalizadas por Covid-19 que sin vacunar, ¿quién ha dicho que la vacuna es efectiva?” Cuidado con este tipo de afirmaciones, ya que el porcentaje de hospitalizaciones por Covid-19 entre personas vacunadas será mayor porque la tasa de vacunación es muy elevada.

Infografia de El País que explica por qué hay más personas vacunadas hospitalizadas (24 noviembre 2021).
Como explica Javier Álvarez Liébana, un matemático doctorado en estadística que hace divulgación por las redes, “habrá un momento en el que la gran mayoría de los hospitalizados por Covid-19 serán personas vacunadas, al igual que la mayoría de los hospitalizados por accidentes de coche llevaban el cinturón. Afirmar que ni el cinturón ni las vacunas funcionan es una falacia estadística que se llama sesgo del superviviente”, asegura. Debemos recordar que, de no existir las vacunas ni el cinturón de seguridad, el número de hospitalizados y muertes sería mucho más elevado.
4. Sugieren algo que no es correcto
El caso del gráfico de Pablo Casado durante el debate político es un buen ejemplo de no mostrar datos suficientes. Se suprime el eje vertical para no saber de qué estamos hablando, ni de qué parámetros, lo que da lugar a conclusiones erróneas por parte del receptor.
Relacionar dos cosas como causa-efecto lleva, a menudo, a mensajes erróneos. Por ejemplo, habitualmente nos encontramos con afirmaciones como «en Barcelona, donde hay más vacunados es donde existe una mayor renta». La causa de que haya más vacunados puede ser porque el poder adquisitivo es mayor, pero también porque la esperanza de vida es más alta y, por tanto, la gente mayor se ha vacunado antes. Este error, llamado “correlación espuria” o falsa, ocurre cuando establecemos causa-efecto sin tener en cuenta un tercer factor que puede ser el causante.
La web Spurious correlations, creada por Tyler Vigen, nos enseña las increíbles coincidencias entre dos variables que, evidentemente, no son causa-efecto. En el ejemplo que se muestra a continuación, Vigen descubre una correlación entre el consumo de margarina y los divorcios en el estado de Maine, en Estados Unidos.

Gráfico. Fuente: Spurious Correlations
O ese otro, donde establece una correlación entre el número de defunciones para saltar a una piscina y el número de películas en las que aparece Nicolas Cage. La coincidencia es elevada, pero no existe ninguna relación de causa-efecto entre las apariciones del actor y este tipo de muertes. Recordémoslo como un mantra: correlación no implica causalidad.

Gráfico 2. Fuente: Spurious Correlations
5. Recogen información errónea
De forma voluntaria o involuntaria, a menudo existen errores en la recogida o procesamiento de los datos. En algunos casos, los datos de distintas fuentes oficiales no coinciden. En otros, el día de la recogida de datos afecta a su interpretación, como en el caso de los nuevos positivos por Covid-19. Los casos siempre aumentan los lunes, puesto que durante los sábados y domingos no se actualizan los datos y se añaden los nuevos casos sólo los días laborables.
También puede darse el caso de que se cuenten dos veces los datos. Fue lo que ocurrió en este artículo, que fue corregido porque se contaron dos veces los datos de las vacunas de la Covid-19 que se tuvieron que lanzar en Europa: una vez en el global de la Unión Europea y otra por cada país europeo. Estos errores pueden ser totalmente inconscientes, pero en algunos casos pueden ser premeditados con el objetivo de confundir al receptor.
¿Cómo combatir la desinformación con datos?
Así pues, antes de extraer cualquier conclusión de un gráfico o dato estadístico, debemos observar bien toda la información que aparece y preguntarnos:
- ¿Quién lo ha hecho?
- ¿Cuál es el contexto?
- ¿Cuál es la fuente?
- ¿Qué se muestra y, sobre todo, ¿qué queda fuera?
Referencias
Mazón, Pablo Rey (2019): Mentir con datos: manipulaciones y mentiras blancas
National Geographic (2018): Why your mental map of the world is (probably) wrong (https://www.nationalgeographic.com/culture/article/all-over-the-map-mental-mapping-misconceptions)
Cairo, Alberto (2019): How Charts Lie: Getting Smarter About Visual Information (https://www.youtube.com/watch?v=Low28hx4wyk)
Prieto, Gonzalo. ¿Mienten los mapas electorales?, ¿votan las personas o los territorios?, Geografía Infinita (https://www.geografiainfinita.com/2020/11/mienten-los-mapas-electorales-votan-las-personas-o-la-tierra/)