logo
logo logo logo logo

Preguntas Frecuentes

¿Quiénes somos?

El Programa Universitario de Estudios sobre Democracia, Justicia y Sociedad (PUEDJS) busca promover el diálogo, el debate, la investigación y la participación ciudadana para generar reflexión y acción en torno a las dinámicas políticas, sociales, económicas, culturales e institucionales relacionadas con la democracia. Nuestro objetivo es impulsar, desarrollar y consolidar investigación multi e interdisciplinaria para generar y sistematizar conocimientos sobre aspectos fundamentales de la democracia, la justicia y la sociedad. Además, nos comprometemos a aplicar estos conocimientos en investigaciones orientadas al beneficio de la sociedad..

Como parte del PUEDJS, el Tlatelolco Lab, laboratorio digital para la democracia, se especializa en analizar y estudiar fenómenos propios de redes sociodigitales, medios de comunicación y el mundo digital. El Tlatelolco Lab está conformado por un grupo de personas expertas en ciencias sociales, humanidades, ciencia de sistemas complejos, ciencia de datos y desarrollo de software. Realizamos investigaciones científicas que permitan generar conocimientos basados en una visión integradora, reflexiva, crítica y de utilidad social para ponerlos al servicio de la comunidad universitaria y del país.

¿Qué es el Análisis de Sentimiento?

En cualquier lengua hablada por los seres humanos, las palabras son consideradas como los elementos mínimos y necesarios para la transferencia de información. Ahora bien, la información codificada por las palabras en los lenguajes naturales puede hacer referencia a cuestiones técnicas, científicas o legales; aunque muchas de las enunciaciones suelen manifestar emociones y sentimientos.

Con el auge y popularización de Internet y sobre todo de las redes sociodigitales; una enorme cantidad de textos son producidos cada segundo, muchos de ellos con el objetivo de manifestar aspectos subjetivos de la persona, tales como opiniones, emociones y sentimientos. Para comprender mejor las relaciones e interacciones de los seres humanos en Internet, surge la necesidad de desarrollar herramientas y metodologías que, de manera automática, puedan procesar el lenguaje natural, con el objetivo de estimar, a través de métodos estadísticos las opiniones, sentimientos, emociones de un texto [1].

Estas herramientas y métodos son conocidos como Análisis de Sentimiento (AS), cuyo propósito es el de calificar cuantitativamente el sentimiento de un texto (y en algunos casos su intensidad), por medio de la asignación de un valor numérico a palabras, emojis, siglas, expresiones idiomáticas (todos estos son llamados tokens en el lenguaje técnico) que lo forman.

En términos generales, existen dos grandes estrategias para realizar AS de un texto, una es usar Machine Learning para clasificar de manera automática los textos; la otra es usar un diccionario (también llamado léxico anotado) que contiene un conjunto de tokens y una evaluación numérica (que suele estar entre -1 y +1) para cada uno de ellos.

Sea cual sea la estrategia utilizada, como punto de partida se necesitan textos que previamente hayan sido clasificados por seres humanos, ya que estos se usan, bien sea para entrenar modelos de Machine Learning o como diccionarios que indican el sentimiento de un token, para posteriormente estimar el sentimiento de un texto juntando las evaluaciones individuales de cada término.

¿Cómo se suele hacer el Análisis de Sentimiento en Español?

Al hacer Análisis de Sentimiento en español, surge un problema, pues muchas de las herramientas que existen han sido desarrolladas para el inglés. Si bien existen varios proyectos para hacer AS en Español, (ver por ejemplo[2], [3], [4]), éstos se basan en dos estrategias principalmente:

  1. Usar un servicio de traducción automática, traducir los textos al inglés, y hacer en ese idioma el Análisis de Sentimiento.
  2. Utilizar datasets evaluados por la comunidad (por ejemplo, de sitios de reseñas de películas, de productos o de servicios), y usarlos para entrenar modelos de Machine Learning o construir con ellos léxicos anotados.

Evidentemente, estas estrategias tienen sus ventajas y desventajas. Quizá la ventaja de estos métodos es que con unas cuantas líneas de código se puede hacer AS, ya que toda la infraestructura de software ya esta desarrollada. Sin embargo, hay desventajas que suelen hacer poco confiables dichas estrategias, sobre todo en contextos especificos del español latinoamericano.

A pesar del gran avance en los últimos años en lo que toca a la traducción automática, éstas suelen fallar al intentar reflejar aspectos específicos de la lengua o de la cultura propias de una región o un país; sobre todo pueden fallar en cuanto a la intensidad del sentimiento que los hablantes le otorgan a una palabra. Por ejemplo, la palabra lazy se suele traducir del inglés al español como perezoso; sin embargo en español mexicano se usa también la palabra huevón como sinónimo de perezoso. Aunque las tres palabras tienen connotaciones negativas, es claro que la palabra huevón se suele usar en contextos en donde se quiere hacer más énfasis en la parte negativa. Dicho de otra manera, huevón tiene una carga más negativa que perezoso. Al usar traductores automáticos, que por lo general no entienden de contextos específicos desde donde se emite el mensaje, muchos aspectos propios de la lengua se pierden.

Por esta razón, usar herramientas de análisis de sentimiento analizar textos en español, vía traducción automática, en general no permiten una clara del sentimiento y la intensidad del mensaje, pues las evaluaciones han sido realizadas con un filtro cultural que no es el nuestro.

En cuanto a los datasets, dada su especificidad en la evaluación de productos o servicios, estos pueden ser óptimos para tareas relacionadas la mercadotecnia pero suelen fallar al momento de usarlos para evaluar aspectos más relacionados con la opinión de cuestiones políticas y sociales.

¿Qué es 400 voces?

400 voces es un proyecto que está realizando el Tlatelolco LAB, con el objetivo de construir un léxico anotado que permita hacer análisis de sentimiento (AS), en español latinoamericano; en una primera fase centrándose en el español mexicano.

400 voces está inspirado en VADER (Valence Aware Dictionary for sEntiment Reasoning), que es un modelo basado en un léxico para el análisis de sentimiento, especialmente diseñado para capturar contextos en entornos de redes socio-digitales [5].

Para ello, hemos recopilado cerca de 6000 palabras, siglas, emojis y expresiones idiomáticas (estás últimas propias del español mexicano) con el fin de clasificarlas en tres categorías: positivo, neutro y negativo y en seis modos de intensidad: Extremadamente Positivo, Moderadamente Positivo, Ligeramente Positivo, Ligeramente Negativo, Moderadamente Negativo y Extremadamente Negativo.

Para la evaluación y clasificación de las palabras del léxico, en Tlatelolco LAB, hemos diseñado esta plataforma con el objetivo de usar la estrategia denominada sabiduría de la multitud, la cuál generalmente presenta excelentes resultados frente a otras estrategias tales como la evaluación hecha por expertos, o por estrategias basadas en el Machine Learning [6].

Bibliografía

  • [1] Zumaya Martín, Diego Espitia, Luis Ángel Escobar (2022), “Análisis de Sentimiento en Twitter Aproximaciones con métodos de Aprendizaje de Máquina”, Documento de Trabajo núm. 9. PUEDJS, UNAM, México, 34 páginas. Enlace
  • [2] Pablo Díaz. (2022, 11 de julio). “Análisis de Sentimientos de NLP en Español — Código. Medium”. Enlace
  • [3] Jennifer Isasi. (2021, 23 de marzo), “Análisis de sentimientos en R con syuzhet”. Enlace
  • [4] Lino Alberto Urdaneta Fernández. (2021, 13 de abril), “Análisis de sentimientos en español con seis líneas de código”. Enlace
  • [5] Hutto, C., & Gilbert, E. (2014). VADER: A Parsimonious Rule-Based Model for Sentiment Analysis of Social Media Text. Proceedings of the International AAAI Conference on Web and Social Media, 8(1), 216-225. Enlace
  • [6] Yi, S.K.M., Steyvers, M., Lee, M.D. and Dry, M.J. (2012), The Wisdom of the Crowd in Combinatorial Problems. Cognitive Science, 36: 452-470. Enlace