Informe de polaridad Covid-19: ¿Cómo ha evolucionado el tono de la información en la prensa durante la pandemia?

La prensa sigue siendo una de nuestras principales ventanas al mundo. Pese al auge de las redes sociales o la mensajería instantánea las personas acabamos volviendo a nuestros medios afines para buscar la certeza de que una noticia es cierta o encontrar una segunda opinión en otros medios.

Estos meses atrás la prensa “de toda la vida” ha tenido más importancia que nunca para transmitir tranquilidad o miedo, explicarnos las nuevas instrucciones del gobierno o quizá contarnos cómo estaban pasando el confinamiento nuestros deportistas favoritos.

Hemos realizado un pequeño estudio sobre la evolución del estado de la prensa durante la pandemia y exponer nuestras conclusiones.

¿Que hemos hecho?

Hemos analizado utilizando distintos algoritmos de procesamiento de lenguaje natural la evolución de las noticias durante el grueso de la pandemia del Covid-19 (del 01/03 a 15/05) procesando casi 18000 artículos de prensa digital de tres medios: generalista, deportivo y una revista del corazón.

No son todos los artículos publicados por estos medios en ese periodo pero si creemos que es una muestra significativa con la que obtener conclusiones.

¿Como lo hemos hecho?

Como trabajador de la tecnología que soy me gusta darle la importancia que tiene a esta parte con una pequeña explicación.

Realizamos la selección de las URLs de los artículos con una herramienta de SEO de uso muy extendido como es Screaming Frog, una vez tenemos las URLs extraemos la información de los artículos apoyándonos en la librería Beautiful Soup de Python.

Una vez tenemos el contenido de los artículos lo pasamos a través de tres algoritmos de NLP que detectan por un lado el sentimiento del artículo, por otro analiza la semántica del texto y por último otro categoriza el texto. Tras trabajar los datos los dejamos en BigQuery preparados para su análisis.

Antes de seguir quisiera agradecer a mi compañera Olga Alarcón el trabajo realizado para este artículo.

El tono de la prensa

Durante el confinamiento se ha acusado en muchas ocasiones a la prensa de infundir cierto miedo y negatividad a la población con el fin de concienciar a la gente de lo necesario del aislamiento y es por eso que hemos creído conveniente analizar la evolución de tono de estos artículos.

Generalista

La evolución del tono del medio generalista es el más negativo de los analizados, aunque con el paso del tiempo el tono positivo va aumentando no se reduce el negativo, manteniendo ese tono de “advertencia” a la población pese a la mejora de los números de muertos e infectados.

Image for post

En cuanto a la temática de los artículos positivos hablan principalmente de salud (tema estrella), arte y espectáculos (válvula de escape) y economía (esperanza en la recuperación) mientras que en los negativos el peso de la salud es bastante más alto, seguido de policía/justicia y de política.

Image for post
Positivo
Image for post
Negativo

Deportiva

El medio deportivo analizado muestra una positividad superior al medio generalista y sobre todo se ve un crecimiento de ese positivismo muy superior a los otros dos medios según la situación ha ido mejorando y las restricciones al deporte se han suavizado.

Image for post

Algo llamativo del medio deportivo es el cambio brutal de la temática de sus artículos de marzo a abril, en el que claramente podemos observar la parada de las competiciones deportivas.

Image for post
Image for post

La temática deportiva baja más de un 26% viendo claramente un cambio editorial que no ha sido necesario en el medio generalista ni en la revista del corazón por que no han tenido la necesidad de cambiar que ha provocado la el parón en las competiciones.

Lógicamente los artículos relacionados con la salud se han disparado, pero también hay temáticas como la cultura o la economía se han multiplicado por dos.

Revista del corazón

Esta publicación es la que mantiene un tono más positivo durante toda la pandemia, manteniendo siempre datos superiores al 75% ya que ha llevado a cabo una función balsámica para los lectores sirviendo de herramienta evasiva para los confinados.

Image for post

Analizando la temática de los artículos encontramos una cosa realmente curiosa ya que alrededor de un 4% de los artículos hablaban de “catástrofes naturales”. Extrañados por encontrar este tipo de noticias en esta publicación revisamos los datos/artículos con esta etiqueta y todos ellos eran artículos referidos al programa “Supervivientes”, que es mencionado en un 10% de los artículos (Coronavirus es mencionado en un 14%)

Image for post
Temática del medio rosa durante la pandemia

Para un algoritmo de NLP que lee “Las extremas condiciones de esta edición de Supervivientes” es difícil diferenciar que eso se trata de un programa de televisión y no de una catástrofe natural. lo que evidencia que por muy efectivas que sean estas herramientas siempre tener que haber una mano humana que guíe por el buen camino los procesos en base a un buen análisis de datos.

Image for post
Artículo al que hago referencia

Hablemos de Coronavirus

¿Es la COVID-19 el tema principal de la prensa en estos últimos meses?

Tanto en el medio generalista como en el medio deportivo las noticias que mencionan directamente el coronavirus rondan el 50% de los artículos analizados, pero no es así en en la revista del corazón que solo suponen un 14% lo que parece confirmar lo dicho anteriormente que este tipo de medio ha quedado en cierta manera ajenos a la pandemia sirviendo como escape para las personas confinadas.

En cuanto al tono de los artículos del Coronavirus, los artículos del medio generalista solo el 30% tiene un tono positivo, número que crece hasta el 48% en un medio deportivo y más del 60% en la revista del corazón con lo que vemos claramente como los artículos relacionados con la enfermedad son de tono más trágico en cualquier tipo de medio, aunque incluso en las noticias que hacen referencia directa al coronavirus las revistas de corazón han mantenido su tono desenfadado que otras líneas editoriales

Image for post

¿Y nuestros políticos? ¿Como han sido tratados?

De los casi dieciocho mil artículos que hemos analizado los cinco líderes de los principales partidos aparecen en 1686 artículos, siendo Pedro Sánchez (como era de esperar) el más protagonista con 1054 menciones. Eso sí, no parece que la gestión del Presidente tenga las bondades de la prensa a su lado ya que es Inés Arrimadas la que en el total de sus menciones tienen mejor imagen con más de un 51% de artículos que hablan de manera positiva.

Image for post

Conclusiones

¿Esperáis más conclusiones de la prensa durante el Coronavirus? No, suficiente castigo os hemos dado si habéis llegado hasta aquí.

La mayor y más importante conclusión que podemos sacar de este ejercicio es que gracias a algoritmos de lenguaje natural podemos llegar mucho más rápido y más lejos en el análisis de texto que lo que nunca podríamos haberlo hecho con el análisis tradicional de datos.

Sin estos algoritmos hubiéramos tardado semanas o meses en llegar a las conclusiones de este pequeño análisis que nos ha llevado unos días, donde se han procesado miles de artículos de prensa de los que los que se ha extraído la emoción, las palabras clave, la temática…con solo unas horas de ejecución y un buen script de Python.

Los algoritmos no son perfectos, hay que refinarlos, aplicar otras técnicas para que todo este baile de datos sea de utilidad, pero la base la tenemos ahí al alcance de nuestra mano.

Contacto

¿Sabías que el 70% del gasto de los consumidores depende de la opinión de terceros?

No te pierdas el informe que hemos lanzado desde Apache parte de LLYC y Appinio, donde descubrimos insights tan impactantes como este, acerca de la influencia que tienen las reviews online en las compras del retail.