El análisis léxico de Twitter revela la existencia de distintas regiones culturales en los Estados Unidos

20 de Abril de 2023

Un equipo internacional de investigadores, liderado por científicos del IFISC (UIB-CSIC), ha mapeado las distintas regiones culturales en los Estados Unidos de América mediante un análisis léxico del contenido que los propios ciudadanos cuelgan en sus redes sociales. Los resultados evidencian una clara separación entre las culturas del Norte y del Sur, influida por la población afroamericana, así como también diferencias más sutiles entre el eje Este-Oeste y poblaciones urbanas o rurales. Para obtener las fronteras entre estas regiones, calcularon la frecuencia de aparición de palabras en 3.300 millones de tuits geolocalizados, entre 2015 y 2021.  Esto les permitió encontrar las zonas en las que se mantenían discusiones o debates sobre temas concretos. El artículo se acaba de publicar en la revista Humanities and Social Sciences Communications, del grupo Nature. 

La idea de la existencia de áreas culturales en los Estados Unidos de América se utiliza como caso de estudio en diversos campos de las ciencias sociales. Sin embargo, la selección de características comunes que conforman una región cultural puede ser arbitraria y estar influenciada por prejuicios y sesgos. Por lo tanto, se necesita un enfoque que permita identificar estas regiones culturales sin prejuicios y de manera más objetiva. Aprovechar la enorme cantidad de datos que se generan en internet, especialmente a través de las redes sociales, representa una oportunidad relativamente nueva y con un alto potencial. 

Los investigadores decidieron analizar el caso de los Estados Unidos por distintos motivos, uno de los cuales es que contaban con un enorme conjunto de datos de Twitter geolocalizados. Además, la gran mayoría de norteamericanos hablan el mismo idioma (inglés), característica crucial para poder utilizar las herramientas de análisis. Otro aspecto relevante, explican los autores, es que la historia de los EEUU es relativamente reciente pero rica y variada, así que es posible la formación de distintas regiones culturales dentro del mismo territorio nacional. 

El método presentado en este trabajo se basa en el principio de que la afiliación cultural se puede inferir a partir de los temas que las personas discuten entre sí. Cuántos más mensajes se envíen desde una región, mayor es el interés de la población de esa zona por los temas que contienen los tuits. Específicamente, los autores midieron las variaciones regionales en el discurso escrito en las redes sociales estadounidenses, utilizando las distribuciones de frecuencia de palabras de contenido en tweets geolocalizados para encontrar aquellas zonas en las que ciertos temas aparecían con mayor frecuencia que en el resto. A partir de ahí, se derivaron los componentes principales de la variación regional y se aplicó un análisis jerárquico de clustering para obtener las distintas áreas culturales y los temas de discusión que las definen. 

El estudio encontró una clara separación Norte-Sur determinada principalmente por la cultura afroamericana, así como otras divisiones que proporcionan una imagen completa de las áreas culturales estadounidenses modernas. Aunque el trabajo ha confirmado que factores como la etnia y la religión son importantes para definir las regiones culturales estadounidenses, también se han encontrado variaciones sustanciales en la relevancia de estos factores a lo largo y ancho del país. Es decir, el estudio no sólo ha permitido trazar un mapa de las regiones culturales, sino que también ha identificado los factores culturales que son importantes para definir estas regiones. Además, el análisis identificó otros patrones culturales más sutiles como son la atención a la interacción social, el interés por actividades al aire libre, la familia o el ocio. La identificación de estos patrones supone una novedad en el análisis de la sociedad estadounidense, ya que son datos difíciles de obtener mediante análisis tradicionales.

Los autores del estudio concluyen que, aunque su método sólo ha analizado una tipología del inglés estadounidense, podría aplicarse a cualquier recurso de big data con valor lingüístico y proporcionar una base para obtener una imagen más completa del paisaje cultural, tanto en el caso estadounidense como en otros países. 


Louf, T., Gonçalves, B., Ramasco, J.J. et al. American cultural regions mapped through the lexical analysis of social media. Humanit Soc Sci Commun 10, 133 (2023). https://doi.org/10.1057/s41599-023-01611-3



 twitter-coffee

Proyectos de investigación relacionados

APASOS

A Physics approach to sociotechnical systems: from theory to data analysis.

I.P.: Tobias Galla, Sandro Meloni, Maxi San Miguel, Raúl Toral
APASOS objective is to use mathematical and computational methods combined with data and physics thinking to model complex socio-technical systems. APASOS is organized into two workpackages (WP). WP 1 focuses on models ...

CAFECONMIEL

Corpus Automático y Fenómenos de Contacto en Mallorca: Inteligencia, Entrenamiento y Lengua

I.P.: David Sánchez
El presente proyecto tiene como objetivo avanzar en el conocimiento de la variedad de español en contacto con el catalán en Mallorca mediante la creación de un macrocorpus multiformato y la aplicación ...

Lineas de investigación relacionadas


Esta web utiliza cookies para la recolección de datos con un propósito estadístico. Si continúas navegando, significa que aceptas la instalación de las cookies.


Más información De acuerdo