INTRODUCCIÓN
Los usuarios utilizan las redes sociales, de una nueva forma, para socializar, colaborar, comunicar, aprender y tomar decisiones [1-2], presentando las condiciones para investigar patrones de interacción entre múltiples usuarios y las comunidades a las que pertenecen [3-4]. Las redes sociales y su análisis es un campo importante y se ha extendido ampliamente en las áreas de análisis de datos [5]. De esta forma, el análisis de red social (SNA por las siglas de Social Network Analysis) es un método para el estudio de las relaciones humanas que utiliza la teoría de grafos como técnica, con el propósito de identificar nodos influyentes, predecir los enlaces y detectar comunidades de diversas entidades en una red social [6-7]. Por lo tanto, la teoría de grafos basada en el concepto de redes sociales se refiere a las diversas relaciones sociales de los usuarios (nodos) y las líneas que los vinculan (aristas) [5]. Debido a esto, existe una creciente necesidad de tomar en cuenta los factores humanos para la identificación, el diseño, análisis y control de comunidades en las redes sociales [7], a través de varios enfoques como la psicología, la sociología, la estadística y las ciencias de la computación [5].
Facebook es un ejemplo de red social que permite la interacción pública o privada de usuarios (amigos, grupo de usuarios, página de fans) y seguidores en comunidades por medio de una variedad de funciones como: agregar amigos, publicar estados, reaccionar positiva o negativamente a una publicación, comentar y compartir un estado en un perfil de usuario o en una comunidad [2, 8-9]. Bajo un contexto de teoría de grafos, cuantas más aristas existan significa que los usuarios de Facebook (nodos) cuentan con más relaciones, por lo que mayor será el tamaño del gráfico donde aparece el usuario de Facebook que actúa como centro de la comunidad [5].
En este trabajo se utilizan 30 páginas de fans de Facebook de una institución de educación superior pública que promueven la cultura y divulgación de la ciencia ante la sociedad, las cuales permiten generar un conjunto de grafos e identificar cómo es la interacción entre ellas. Los algoritmos Fruchterman-Reingold, Yifan Hu y Noverlap se aplicaron en el análisis de si se presenta una relación o interacción entre una página de fans como nodo central y otras páginas de fans como miembros de una misma comunidad universitaria. Los resultados de este estudio contribuirán a fortalecer la estrategia de habilitar una comunidad virtual universitaria para incentivar la cultura y divulgar el conocimiento técnico científico, definida en la agenda institucional 2023-2027.
El resto del documento está organizado de la siguiente manera. En la sección 1 se describe el trabajo relacionado a la detección de comunidades y la aplicación de grafos en redes sociales. En la sección 2 se presenta la metodología utilizada para el modelado e identificación de una comunidad; posteriormente, en la sección 3 se exponen el análisis de grafos generados y los hallazgos de los resultados por los algoritmos implementados. Finalmente, en la sección 4 se presentan las conclusiones y el trabajo futuro.
1. TRABAJO RELACIONADO
1.1. Detección de comunidades
En el trabajo relacionado se encontraron propuestas para crear modelos estadísticos de datos de red con enfoques en ciencias de la computación, relacionados con el aprendizaje automático y la minería de datos [5]. En la investigación de Dey y Roy [10], los autores realizaron una extracción de datos de tres cuentas de Facebook utilizando la aplicación Netvizz y el análisis de los mismos con la herramienta open source Gephi. Este análisis muestra algunos parámetros de red, como el cálculo del coeficiente de agrupamiento de los clústeres, la formación de grupos, la búsqueda de la distribución de nodos y la identificación de nodos influyentes, que se utilizan para una mayor extracción de características [10 - 11].
Por otro lado, el estudio de Wahyuningtyas et al. [12], se centró en identificar y modelar grafos en función a influencers. Los resultados presentan un modelo de grafos exponiendo una nueva visión del método de mapeo, especialmente en recursos humanos, para aumentar el potencial del talento digital en un servicio público a partir de los resultados de la medición de centralidad. En el estudio de Hanneman y Riddle [13], se muestra una variante del método de Tang, utilizando algoritmos de detección de comunidades unidimensionales, como una alternativa del algoritmo k-means para el agrupamiento. De esta forma, es posible medir la calidad del grafo final calculando la superposición promedio entre las partes. El nuevo algoritmo propuesto detectó con éxito la estructura de la comunidad para redes multidimensionales reales y sintéticas, superando a los algoritmos de última generación [13].
El estudio de Gupta et al. [14] tuvo como objetivo formar una red con fuentes de datos basadas en interacciones utilizando el contenido generado por el usuario como fuente para encontrar las representaciones de los influencers y las dos comunidades más importantes para decidir sobre una estrategia de marketing digital, especialmente para sus redes sociales. Es importante resaltar la metodología que implementaron y los resultados de este estudio debido a que identificaron a los influencers y comunidades de la red social.
La detección de comunidades en redes sociales plantea un desafío en la evaluación de la calidad de la estructura de la comunidad, debido a los enfoques para evaluar un esquema de partición al tratar los grafos que involucran sólo un tipo de actor [10].
El SNA se aplica a diversos enfoques y los problemas con cualquier investigación pueden verse influenciados por el tamaño de la interacción entre la relación del actor [5].
1.2. Aplicaciones de grafos en redes sociales
Para extraer la información representada en los grafos, se necesita a) definir métricas que describan la estructura global de los grafos, b) encontrar la estructura comunitaria de la red, y c) definir métricas que describan los patrones de interacción local en los grafos [5]. Por lo tanto, una red social de características unidimensionales S se puede modelar como un grafo no dirigido G = (V;E), donde V = 1, n es el conjunto de vértices o nodos que representan a los usuarios o entidades en S y E = (E ij ), i, j 6 Ves el conjunto de aristas que conectan elementos de V • n = | V| representando el número de nodos en G y m = |E| denota el número de aristas en G.
De tal forma que un grafo G puede representarse como una matriz de adyacencia n x n en A = (Aj), para i, j ∈ V , donde:
El concepto de grafo y la idea de comunidad es una construcción integradora cuyo propósito es estudiar las redes sociales para comprender el comportamiento de los nodos, a través de las métricas o medidas [10 - 12]. Las medidas permiten caracterizar los nodos que la componen y las relaciones que se dan entre ellos [15]. Existe una serie de métricas para entender los grafos y los nodos, que permiten determinar la importancia y el rol de un nodo. Las más usadas se clasifican en métricas de centralidad y poder, y métricas de grupos [13].
Las herramientas Networkx, IGraph, Netvizz y Pajek se apoyaban del API Graph de Facebook para extraer la información a partir del URL de la página de fans a analizar, pero desde mayo 2023, debido a la privacidad de datos, ya no se proporcionaron permisos por parte de Facebook. Esta limitación por cambios de políticas del uso en el API Graph impidió realizar tareas de lectura y escritura de los nodos que conforman las comunidades virtuales.
Se identificó en el trabajo relacionado que la herramienta Gephi, de código abierto, ha desarrollado las métricas que incluyen: la distancia media de nodo a nodo; la centralidad de intermediación; la centralidad de intermediación, la cual es un indicador de la centralidad de la red; la centralidad de cercanía que describe los nodos que, a pesar de tener pocas conexiones, sus arcos permiten llegar a todos los puntos de la red más rápidamente que desde cualquier otro punto y la detección de comunidades. Esta última como una medida de la estructura de las redes, diseñada para medir la fuerza de la división de una red en módulos (también llamados grupos o comunidades) [15]. Asimismo, la herramienta Gephi tiene la característica de utilizar 12 algoritmos para distribuir los nodos de un grafo [16]. Los más relevantes dentro de este campo son los algoritmos que simulan una serie de fuerzas entre los nodos para modificar su posición, conocidos como algoritmos guiados por fuerzas (véase la tabla 1), por lo que los nodos conectados se atraen entre sí y los nodos no enlazados se separan o aíslan [17].
Algoritmo/método | Descripción |
---|---|
Fruchterman-Reingold | Es un tipo de distribución que ordena todos los nodos creando una circunferencia y es funcional para tener una visualización de cada uno de los nodos que conforman la red. |
Yifan Hu | Algoritmo que se elige para reducir la complejidad del cálculo debido a su característica multinivel, y el grado de nodo se usa para representar el color y el tamaño de un nodo. |
Noverlap | Es un tipo de algoritmo que tiene la función de apoyar a los que no tienen incorporado nativamente el parámetro de evitar la superposición entre nodos (por ejemplo: Yifan Hu Multilevel u OpenOrd). |
Expansión | Esta distribución permite expandir la red sin cambiar el diseño que ya posee. |
Ajuste de etiquetas | Cada nodo representa una información, por lo cual cuenta con una etiqueta que puede ser un tweet, un usuario, un hashtag. Este algoritmo permite que no exista traslape entre etiquetas y pueda ser clara la lectura del contenido del nodo. |
Fuente: elaboración propia.
2. METODOLOGÍA
La metodología implementada es una adaptación de los autores Wahyuningtyas et al. [12], Gupta et al. [14], Diliana e Indrawati [20] y Bedi y Sharma [21], considerando las actividades para Facebook de Velázquez-Solis et al. [2], las cuales se dividen en cuatro fases: 2.1. Selección, 2.2. Construcción, 2.3. Modelado y, por último, 2.4. Análisis. El flujo de trabajo del método se muestra en la figura 1.
2.1. Fase 1. Selección
Se determinó que el área de especialización relacionada con el entorno de la aplicación de la información [22], como dominio del conocimiento, proporcionará las características iniciales para la selección de las 30 páginas de fans oficiales de Facebook en una institución de educación superior pública relacionadas con las actividades de promoción de la cultura y divulgación de la ciencia, bajo una estructura organizacional definida desde hace dos años.
2.2. Fase 2. Construcción de matriz de adyacencia
El análisis del conjunto de datos obtenidos en la fase anterior se mejoró con la visualización de la red utilizando la herramienta Gephi versión 0.10.1. Para ello, primero fue necesario adaptar los datos en R a un formato importable [13]. En Gephi se requiere de exportar dos archivos en formato CVS, uno con las 30 páginas de fans (nodos) y otro con la matriz de adyacencia que representaba las direcciones de las aristas del grafo como relaciones entre los nodos. Una vez ingresados los archivos, se configuran los parámetros de construcción para el grafo. Con la matriz de adyacencia y mediante el uso de tres algoritmos se obtuvieron un conjunto de grafos formados por 30 nodos y las 96 aristas iniciales que contenía la interacción de la comunidad universitaria.
2.3. Fase 3. Modelado
Se aplicaron los algoritmos de distribución Fruchterman-Reingold, Yifan Hu y No-verlap para tener una visualización más clara de la red y apreciar los roles que juegan los diferentes nodos. Las figuras 2b, 2c y 2d corresponden a la generación de los tres modelos, mientras que la figura 2a es el grafo generado automáticamente donde los nodos no cuentan con etiquetado o relación de fuerza.
2.4. Fase 4. Análisis
Se realizó el análisis visual de la topología de los grafos con los conjuntos de datos utilizados. Se generó un ajuste de etiquetas para obtener una nube de palabras (véase la Tabla 1). La siguiente sección presenta a mayor detalle esta fase.
3. ANÁLISIS DE LOS RESULTADOS
La figura 2 es una representación de las interacciones entre las 30 páginas de fans de Facebook, haciendo que en cada página de fan se represente la relación del seguidor que hace mención a otra fan page.
En la figura 2a se observa el resultado por default al cargar los datos, proporcionando únicamente la visualización de las relaciones con las direcciones de las aristas. En este caso, las relaciones son visibles, pero algunos nodos están ocultos detrás de otros y existe incertidumbre sobre cuáles nodos tienen mayor fuerza. En la figura 2b se observa el resultado de aplicar el algoritmo Fruchterman-Reingold; el algoritmo trata a las aristas del grafo de manera análoga, atrayendo a los nodos que interconectan, y a su vez aplicando a todos los nodos una fuerza de repulsión que los separa entre sí. Este algoritmo normalmente da como resultado un grafo con aristas similares en tamaño y con los nodos en una estructura circular donde aquellos con más conexiones quedan en el centro y los demás con menos conexiones quedan en las afueras. Al aplicar este algoritmo se puede observar cómo el nodo 1-fan page Cultura UABC, con mayor tamaño, no se encuentra céntrico, dado que las aristas en su mayoría se dirigen hacía él. El caso contrario en el nodo 13-fan page Vicerrectoría UABC Mexicali, donde el tamaño es asignado por las relaciones que este mismo genera al seguir al resto de las páginas de fans. De esta misma forma, el nodo 19-fan page Centro Deportivo UABC es expulsado hacia el lado izquierdo por la fuerza de las aristas, porque a pesar de tener diversas conexiones son relaciones que este mismo ha buscado, sin que los otros nodos se relacionen con él.
En la figura 2c, el algoritmo Yifan Hu muestra otro tipo de relación entre las páginas de fans donde los nodos se aprecian más oscuros entre mayor sea la cantidad de aristas, puesto que se trata de un algoritmo de repulsión. Es más visible que la página de fans que no sigue a ninguna y se aísla en un extremo, mientras que aquellas que tienen mayor cantidad de seguidores entre la lista de nodos tienden a aproximarse al centro y a crecer en diámetro: tal es el caso del nodo 1-fn page Cultura UABC, 3-fn page Extensión Cultural UABC Tecate y 13-fan page Vicerrectoría UABC Mexicali.
El algoritmo Noverlap, presentado en la figura 2d, permite ajustar el radio de separación entre nodos y la velocidad de ejecución. Al ser un algoritmo que evita que no exista una superposición entre los nodos, disminuye la posibilidad de que los nodos de un tamaño grande oculten a nodos pequeños [19]. A diferencia de los algoritmos anteriores, para usarlo se debe aplicar antes otro algoritmo que determine la configuración de partida, en este caso los algoritmos Fruchterman-Reingold y Yifan Hu. Si el algoritmo Noverlap se ejecuta sin aplicar otro primero, se obtiene un resultado más alejado de esta configuración de partida [18]. Esto puede implicar tiempo de computación muy elevado, sobre todo en redes masivas, lo cual en este caso no se presentó, y permitió observar cómo los nodos que tienen más relaciones crecen, nodo 1-fanpage Cultura UABC, nodo 5-fan page Vicerrectoría Campus Tijuana, nodo 13-fan page Vicerrectoría UABC Mexicali y nodo 19-fan page Centro Deportivo UABC; mientras que se separan de los que tienen menor cantidad de aristas nodo 0-fanpage UABC, nodo 27-fanpage Sorteos UABC y nodo 30-fanpage Instituto de Ingeniería UABC. Se esperaba que el nodo 0 fuera el centro de la comunidad, debido a las características del tipo de información institucional que se presentan en las publicaciones, pero en los tres algoritmos implementados, se mantuvo aislado. El nodo 23 correspondiente a las actividades propias de la Feria Internacional del Libro es el nodo con más popularidad entre los usuarios internos y externos a la universidad (más de 27 mil seguidores), pero dentro de la comunidad analizada no cuenta con la suficiente fuerza en sus aristas para mantenerse centralizado.
Finalmente, como parte de los resultados, se aplicó un ajuste de etiquetas para la generación de una nube de palabras con los 30 nodos (véase la figura 3); nuevamente se tomó como referencia el total de 96 aristas y la cantidad de aristas que recibía cada nodo para generar la comunidad. Sobresalieron los nodos referentes a 1-fan page Cultura UABC, 3 -fanpage Extensión cultural Tecate y 5 -fanpage Vicerrectoria Tijuana, debido a que estos nodos cuentan con una mayor fuerza de atracción que el resto.
4. CONCLUSIONES Y TRABAJO FUTURO
La relevancia que tienen los datos generados por las redes sociales está constantemente requiriendo métodos, algoritmos y herramientas tecnológicas desarrolladas bajo enfoques que permitan analizar y visualizar la información para una efectiva toma de decisiones. En este documento, la figura 1 presenta la metodología de un método apoyado por la herramienta Gephi, que por medio de la implementación de tres algoritmos permitió el análisis y modelado de 30 páginas de fans de Facebook dedicadas a las actividades de promoción de cultura y divulgación de la ciencia en una universidad pública como parte de su estrategia de responsabilidad social.
En el caso particular del conjunto de datos analizados, por tratarse del análisis de solo una comunidad, la información proporcionada inicialmente es confirmada y extendida en la visualización de los grafos, obteniendo un modelo de la comunidad que describe cuáles páginas de fans tienen más relevancia y comunicación entre la sociedad. Aquellas instituciones educativas que requieren de un cambio de estrategia ante la socialización y promoción de la cultura y divulgación de la ciencia podrían implementar estos métodos como parte de una auditoría o exploración inicial de su presencia en la red social Facebook. En el caso de que el conjunto de datos sean perfiles de usuario públicos o grupos de usuarios, el tratamiento de la información dependerá del dominio del conocimiento y las adecuaciones que se realicen a la metodología.
Como trabajo futuro se analizarán las métricas especializadas para cada uno de los algoritmos seleccionados y se explorarán otros métodos de análisis de redes sociales para otras aplicaciones educativas.