Metodología

Evitar perderse en el océano de las noticias

Esteban Román

¿Cómo medir el silencio que —sabemos— golpea a los periodistas en distintas partes del país? La respuesta original se mantuvo a lo largo de la investigación: comparando homicidios (el más confiable de los registros delictivos de alto impacto) contra notas periodísticas sobre esos mismos delitos.

El problema era medir las noticias. Nadie posee una base de datos confiable de todas las noticias que hay en el país en todas las plataformas; desde digitales hasta impresas, pasando por audiovisuales. Es así que nos dimos cuenta de que lo más cercano a esa base era Google. Recaban datos desde 2004 y su tecnología de búsqueda permitiría filtrar el tipo de noticias que buscábamos de forma específica.

Pero Google News, nos dimos cuenta, no puede discriminar —sólo con un par de palabras llave— criterios que sólo un humano puede discernir, como la diferencia entre un homicidio doloso y uno culposo; o como una nota de seguimiento contra un breaking news.

Es entonces que se generó una combinación de keywords que fueron creadas a partir de ciclos de ensayo y error, hasta que la muestra resultante arrojó un resultado de 70% de notas útiles. Sin embargo, no podíamos fiarnos sólo de la supervisión humana. Siguió, por ello, un filtro de machine learning.


¿Cómo medimos los homicidios de 14 años?

Jesús Caudillo

Para la realización de este trabajo se extrajeron los datos de Mortalidad del Instituto Nacional de Estadística y Geografía (Inegi) desde 2005 y hasta 2017. Luego, según el catálogo de Causas de Defunción del Inegi, se filtró la información correspondientes a los presuntos homicidios, tal como los cataloga el organismo en sus bases de datos anuales.

De acuerdo con este método, se registraron un total de 259 mil 772 presuntos homicidios. Si bien no todos los presuntos homicidios tienen que ver o son provocados por el crimen organizado, fue incluida la totalidad de asesinatos porque evidencian el nivel de violencia que han vivido las distintas regiones del país a lo largo de los años.

Dado que la información del Inegi llega hasta 2017, y para cubrir los años faltantes —2018 y lo que va de 2019— fue necesario incluir los datos del Secretariado Ejecutivo del Sistema Nacional de Seguridad Pública (SESNSP).

El filtrado de los datos se realizó a partir del conteo de víctimas de delitos del fuero común que realiza este organismo, además de que se incluyeron tanto los homicidios dolosos como feminicidios. A partir de este procedimiento se obtuvo un total de 45 mil 973 homicidios entre 2018 y hasta abril de 2019, según el SESNSP. En total, suman 305 mil 745 homicidios analizados.


Inteligencia artificial en filtros y geolocalización

Gilberto Leon

Previo a la discriminación y georreferenciación de noticias, fue necesario realizar el procesamiento de lenguaje natural con el fin de distinguir dentro de los textos a los municipios donde ocurrieron los homicidios.

Con base en la API de Lenguaje Natural de Google Cloud y el catálogo del Instituto Nacional de Estadística y Geografía (Inegi), que integra 2,428 municipios, se relacionó a cada municipio identificado en las noticias analizadas con su clave asignada por el Inegi y el identificador que Google asigna a los temas de búsqueda.

Posteriormente, el proceso de análisis se divide en dos bloques fundamentales: el clasificador de textos de AutoML y la APIe Lenguaje Natural, nuevamente.

En el caso del clasificador de textosde AutoML, fue necesario crear un modelo de clasificación de noticias con dos etiquetas, “útil” e “inútil”, para discriminar las noticias de interés de esta investigación. A partir de ello, se generó un modelo de clasificación que asignara sólo una etiqueta a cada texto.

En cuanto a la API de Lenguaje Natural, luego de clasificar las noticias se procedió a la georreferenciación, lo cual se realiza por medio del envío del título y cuerpo de cada nota a esta herramienta para analizar los distintos tipos de entidades que la integran.


El silencio, comparación entre notas y homicidios

Elsa Hernández

Para entender el comportamiento de los artículos periodísticos y los homicidios en el periodo 2005-2019 —y conocer de esa forma la tendencia de estas dos variables en México respecto a años anteriores—, se calculó una tasa de variación para cada una de ellas por entidad federativa y una a nivel nacional.

La tasa de variación de homicidios indica objetivamente el aumento o disminución de notas y de homicidios en el tiempo, lo cual reflejará la tendencia anual del cambio de las variables. En el caso de 2019, se ajusta proporcionalmente hasta abril.

Para medir el silencio de los medios de comunicación ante los homicidios en el periodo mencionado, se construyó una tasa que mide por cortes anuales la proporción en la que la prensa reporta los homicidios registrados en el país.

Es así que fueron utilizadas dos variables: notas periodísticas y homicidios, con el objetivo de conocer el porcentaje de noticias publicadas en un tiempo determinado por el total de homicidios ocurridos.

La proporcionalidad permite repartir más equilibradamente el cálculo de los elementos tomados en cuenta y visualizar el aumento o disminución de silencio en las entidades y en el país. Lo anterior toma en cuenta la dimensión y el impacto de los medios respecto a los homicidios que se registran.