1. Introducción
Como parte de un esfuerzo por diversificar las fuentes de análisis bibliométrico e incrementar el uso de métricas de autor en estos análisis, el Laboratorio de Cibermetría del Consejo Superior de Investigaciones Científicas de España (CSIC) ha iniciado en 2015 la publicación de rankings de científicos, de investigadores (por país). Estos rankings recopilan los datos de los perfiles públicos de Google Scholar Citations (GSC), utilizando los índices h y el número total de citas como criterios de clasificación. Google Scholar también ofrece clasificaciones de investigadores mediante palabras clave gratuitas proporcionadas por los autores o por instituciones, en ambos casos utilizando solo el número decreciente de citas para organizar las listas. El número de perfiles individuales e institucionales (también hay clasificaciones para revistas denominadas Google Scholar Metrics) está creciendo rápidamente, pero la cobertura global sigue siendo muy limitada.
Con el objetivo de aumentar el número de perfiles registrados en los países latinoamericanos, el Laboratorio de Cibermetría enfocó sus esfuerzos en esta región, incluyendo a Colombia. Para este país, una segunda edición actualizada y ampliada, se publicó en enero de 2016 con datos de 1400 autores (http://www.webometrics.info/ en/node/70). Esta lista fue construida seleccionando a los investigadores con un índice h mayor de cinco de una lista de 4863 perfiles públicos identificados. Nuevas ediciones se tienen previstas, pero no se esperan grandes cambios en un futuro próximo.
Este trabajo pretende contextualizar los resultados obtenidos de estos perfiles con la información local proporcionada por organizaciones colombianas e investigaciones bibliométricas. Así, los perfiles de esta clasificación basada en la GSC se corresponden con los datos de la red social ResearchGate (RG), y la clasificación de investigadores desarrollada por Colciencias. Colciencias (http://www.colciencias.gov.co) es el Departamento Administrativo de Ciencia, Tecnología e Innovación de Colombia encargado de la promoción y medición de la investigación en el país (Salazar, Lozano-Borda, Fog & Sagasti, 2013; Ospina Bozzi, Bozzi Angel, Ahumada Barona & Otero Ruíz, 2016). Para ello, Colciencias utiliza una plataforma tecnológica denominada ScienTI, una sigla que combina inglés y español, para referirse al uso de las Tecnologías de la Información (TI) para el registro y evaluación de la Ciencia (Science) en Colombia (http://www.colciencias.gov.co/scienti).
Específicamente, los grupos de investigación se registran en la subplataforma de ScienTI llamada GrupLAC, y los investigadores lo hacen en la subplataforma llamada CvLAC (que está basada el CvLattes brasileño creado en 2001) (De los Rios & de Assis, 2001). Tanto grupos como investigadores deben incluir periódicamente, según las convocatorias oficiales de Colciencias,2 toda la información sobre sus proyectos, publicaciones y formación de nuevo talento humano (estudiantes de pregrado y de posgrado: maestría y doctorado).
De acuerdo con los diferentes criterios, se introduce una clasificación de categorías. Los grupos de investigación se clasifican considerando distintos parámetros de evaluación (proyectos, publicaciones de alto impacto y estudiantes de posgrado), de nivel más alto a más bajo, según sus resultados, en: A1, A, B, C, D y Reconocidos. Estos mismos parámetros son considerados, pero de manera individual para cada investigador y, según estos, son clasificados en: Sénior, Asociado, Junior y Reconocido.
Es importante anotar que esta evaluación de resultados de grupos e investigadores se utiliza para la asignación de fondos económicos y otros recursos aportados por Colciencias o por las propias universidades. A su vez, varios autores han utilizado esta fuente y sus resultados para indagar a grupos específicos de investigadores (Castaño, Calderón & Posada, 2014, Masías Núñez, 2014).
Este proceso de monitoreo y clasificación se inició durante la última década, pero es desde la Convocatoria denominada 640/693-2014 aplicada en 2015,3 cuando tuvo lugar una importante reorganización del sistema, al incluir la medición individual de investigadores (como se hace en diferentes países) y no solo a nivel de Grupo (hecha entre 2006 y 2012),4 que es una forma de organización y medición científica muy particular de algunos países, por lo cual, Colciencias ha invitado a un estudio para evaluar estas características de medición,5 y según esos resultados, más las inquietudes y críticas que ha recibido durante los últimos años (Rodríguez Sánchez, 2017), se espera la presentación y aplicación de un nuevo modelo y una nueva convocatoria para el segundo semestre de 2017,6 ya que el modelo considera una medición cada dos años.
La plataforma SCIENTI es una herramienta para describir el tamaño, la estructura y el desempeño del esfuerzo investigativo colombiano. Aunque es discutida en muchos sectores por el modelo mismo de medición, y sus problemas de usabilidad y accesibilidad, si se analiza, es una poderosa herramienta que permite una fuente estándar y actualizada de información científica de un país, en este caso Colombia, que en muchos otros países no existe, y por eso su aprovechamiento informativo y comunicativo, además de cienciométrico, bibliométrico y hasta altmétrico -si hay cambios en este sentido en el próximos modelos-, debería ser más utilizado tanto por organismos de gobierno y universidades como por los propios investigadores colombianos o por estudiosos de la sociología de la ciencia y la comunicación científica.
Todo este contexto puede ser resumido por la clasificación de los grupos (Tabla 1) y los investigadores (Tabla 2) en las distintas categorías de acuerdo a las últimas dos convocatorias. Cabe señalar que las variaciones se deben principalmente a la incorporación o no de varios grupos de investigación de las áreas de ciencias sociales, humanidades y artes según su aceptación o no al registro en la plataforma ScienTI y la participación en las convocatorias, pues ha sido esta área la más crítica al proceso.7
Por tanto, como se ampliará en la metodología, el objetivo del análisis es realizar una triangulación de datos de las tres fuentes para identificar similitudes y diferencias en estos rankings, considerando que tanto Google Scholar Citations (GSC ) y ResearchGate (RG) tienen una tendencia bibliométrica, aunque en el segundo caso existen también componentes relacionados con las prácticas de acceso abierto y el uso de indicadores altmétricos.
Si bien Colciencias ha sido cuestionada por su tendencia a aplicar herramientas de métricas tradicionales, ahora parece que estaría más abierta una discusión para una futura ampliación de sus fuentes y evaluación de los investigadores, grupos de investigación y revistas científicas, aunque desafortunadamente uno de sus mayores problemas es la incertidumbre por los cambios en los procesos de medición, influenciados, muchas veces, por las visiones particulares de los funcionarios-directivos de turno.
Por consiguiente, este trabajo es un aporte tanto a las métricas a nivel de investigadores, universidades y países a nivel general, pero también, de manera particular, para el caso colombiano, con la posibilidad de aplicabilidad, siguiendo la misma metodología, en otros países del contexto latinoamericano o mundial con similitudes en la manera de clasificar-evaluar (grupos o investigadores) desde sus sistemas nacionales de ciencia.
2. Metodología
Para la realización de este estudio se llevaron a cabo varias fases, que se destinaron a realizar la recopilación de datos de cada fuente (GSC, RG y la subplataforma CvLAC de Colciencias ScienTI), y luego comenzar la integración de datos para permitir interpretaciones más amplias. Estas fases fueron:
• Revisión y depuración de la lista de investigadores, reportada por Webometrics, en su segunda edición (enero 2016), dando una lista final de 1 379 entradas.
• Localización de los perfiles de estos investigadores en la plataforma CvLAC y registro de su clasificación de investigador: Sénior, Asociado, Junior o Reconocido.
• Identificación de la disciplina de cada uno de los investigadores a partir de la profundización del trabajo temático de cada investigador de acuerdo con la información del perfil en Google Académico y la producción científica reportada.
• Clasificación de la lista clasificada -por índice h, luego por número de citas- de investigadores en Citas de la GSC en cuatro cuartiles (La lista utilizada en este análisis es probablemente sesgada, ya que se compone principalmente de los autores más activos. Otra limitación está relacionada con la desambiguación de nombres, ya que los perfiles se crean sin un identificador estándar como ORCID. Debido a este problema, no ha sido posible identificar todos los perfiles en las bases de datos Colciencias y RG).
3. Limitaciones
Ambas fuentes Web 2.0 utilizadas en el análisis se establecen y mantienen principalmente por la acción voluntaria de los autores, siendo ResearchGate de lejos el más popular y el más fácil para construir más completos perfiles individuales.
El Google Scholar Citations (Google Académico) es un recurso novedoso y la mayoría de los usuarios encuentran difícil localizarlo y configurar un perfil, siendo desconocido para un gran número de investigadores (Uribe-Tirado, 2015, 2017).
El número de perfiles activos en RG es probablemente superior a 8 millones, con una cobertura de país claramente sesgada (Thelwall & Kousha, 2015), mientras que el total de entradas para GSC sigue siendo inferior a un millón. La clasificación de los científicos según la GSC ha sido útil para aumentar la conciencia de este sistema entre los investigadores de Latinoamérica, pero la cobertura es limitada todavía, con una conjetura informada para Colombia que probablemente para la fecha de este análisis es alrededor del 10 % de la población total de autores que trabajan en las instituciones de este país.
Hay otras fuentes que proporcionan información de perfiles académicos, algunas cubriendo solo ciertas disciplinas (SSRN o RepEC / IDEAS en Ciencias Sociales) que dan cuenta de una sola disciplina, otras con cobertura incompleta (Plum, Altmetric.com) o algunas sin métodos fáciles para extraer información individual o de métricas como las de Mendeley o Academia que también son parciales. Al menos uno de los portales de acceso abierto de la región, Redalyc, ha preparado un informe (Salazar Acosta, Lucio-Arias, López-López & Aguado-López, 2013) que podría haber sido utilizado, pero está claramente basado en un subconjunto de la producción colombiana.
Otro producto derivado de Google Académico, el Google Scholar Metrics, dedicado a revistas, se está convirtiendo en una herramienta popular en Colombia (Rodríguez Morales, Ochoa Orozco & Tristán, 2014).
Como se ha evidenciado el CvLac ha sido objeto de debate debido a problemas de precisión, cobertura incompleta y ausencia de indicadores clave (Palacios, 2016). El uso de medidas de tendencia central se descarta en el análisis bibliométrico dada la distribución asimétrica (leyes de potencia) de las variables. Sin embargo, un acercamiento de la partición se está volviendo popular y es más recomendable. Así que, en vez de describir las poblaciones con una larga cola, el análisis se centra en los cuartiles o los percentiles superiores. Tal vez el umbral elegido aquí (h-index> = 5) es bajo, pero es suficiente para reducir la muestra al 25 % superior aproximadamente. En este núcleo, con fines descriptivos, estamos utilizando los promedios, reconociendo los problemas asociados que los mismos generan.
4. Resultados
Los resultados integran datos de las diferentes fuentes y variables consideradas, lo que permite una mirada, distinta y amplia, para los investigadores colombianos, una metodología que puede aplicarse también a otros países, especialmente latinoamericanos.
Las categorías utilizadas por Colciencias están casi uniformemente distribuidas en nuestra población (Tabla 1), lo cual es un poco sorprendente considerando que el criterio de selección es su alta citación. Un análisis más profundo (Tabla 2) sugiere que hay casos individuales que pueden explicar las discrepancias, ya que hay individuos no clasificados como Sénior con mayor índice h que los líderes en esa categoría.
Debe tenerse en cuenta que la coautoría de los trabajos es tratada por la SGC con plena atribución a cada uno de los autores (100 % de la autoría), sin distinción de cooperación interinstitucional o internacional. Los físicos de altas energías (partículas) que trabajan en organizaciones muy grandes como el CERN suelen encabezar los rankings del GSC en el país. Por ejemplo, los documentos que describen cómo el descubrimiento del bosón de Higgs se firman generalmente para más de 1000 autores (las bases de datos mencionan más de 600 artículos sobre este tema con por lo menos uno con 5000 autores). Existen autores colombianos con perfiles de GSC en estos documentos.
Las Tablas 3 y 4 exploran la población según su distribución por cuartiles (grupos iguales de la clasificación). Como era de esperar, el número de investigadores Sénior en el primer cuartil es mucho mayor que el resto de los grupos y mucho más bajo respecto al cuarto cuartil, solo el inverso que muestra la distribución de Juniors y Asociados. Un patrón similar surge cuando se considera el número de citas recibidas.
Con el fin de comprobar si los patrones observados tienen que ver en la asignación por disciplinas, calculamos las medias tanto del índice h como del número de citas en Google Académico. Se utilizó la distribución por Facultades (Tabla 5) citadas en la afiliación. Las ciencias y las tecnologías están muy bien representadas, figurando la medicina y otras ciencias de la salud (odontología, enfermería, farmacología) entre las más destacadas.
Estos resultados coinciden con los que se obtienen de análisis bibliométricos tradicionales, lógico si se tiene en cuenta que, aunque de mucho mayor tamaño, Google Académico es una base de datos de citas similar a WoS o Scopus. Una fuente realmente alternativa es la red social de perfil académico ResearchGate (http:// www.researchgate.net), aunque sus indicadores muestran resultados similares a los obtenidos de Google Académico: los investigadores Sénior obtienen de manera general mayores valores en todas las métricas suministradas por ResearchGate (RG), acompañados de algunos jóvenes brillantes (rising stars) tal como reflejan las Tablas 6 y 7.
Algunos de los resultados abultados se pueden atribuir a la hiperautoría en trabajos en ciertas áreas como la física de altas energías, ya que como se indicó anteriormente, algunos investigadores, en este caso, clasificados como Junior firman trabajos con cientos o miles de coautores. Sin embargo, hay que tener en cuenta que RG también tiene en cuenta la actividad dentro de su red, valorando interacciones con otros autores o contestaciones a preguntas.
Podemos asumir que la mayoría de los Junior tienen menor carga administrativa y podrían tener más tiempo para dedicar a esas actividades, pero también es probable que sean jóvenes con una experiencia digital más amplia, es decir, podría ser resultado de una brecha generacional que afectaría la mayor o menor utilización de los recursos electrónicos.
Con el fin de reducir la aportación social en los indicadores de RG excluimos aquellos perfiles de autores muy productivos (con citas GS>1242) y procedimos a comparar los perfiles comunes a ambas fuentes utilizando sus respectivos indicadores de citas. Las distribuciones muy sesgadas de ambos grupos de datos aconsejan utilizar un test no paramétrico. La prueba de los rangos con signo de Wilcoxon es una prueba no paramétrica para comparar el rango medio de dos muestras relacionadas y determinar si existen diferencias entre ellas. En nuestro caso, se encontraron diferencias estadísticamente significativas (p<0,001) para todas las categorías entre las dos fuentes.
Por último, analizamos los datos de las instituciones más representativas, en este un grupo de universidades tanto públicas como privadas seleccionadas a partir de datos del Observatorio de la Universidad Colombiana (http://www.universidad.edu.co/). Con información de las dos últimas convocatorias de Colciencias el Observatorio desarrolló un sistema de puntaje que daba diferentes pesos a los grupos clasificados por Colciencias de acuerdo con dicha gradación. Para las 50 primeras universidades la correlación entre los datos de la última convocatoria (737-2015) y el número de citas obtenidas de GS es alta (R2=0,708, p<0,01). La Tabla 10 muestra los datos para las primeras 25 universidades.
Los resultados vienen a confirmar que la clasificación institucional derivada de los datos de rendimiento de los grupos de investigación es similar a la obtenida con el mucho más trasparente sistema de GS. Extrañamente la clasificación de individuos no correlaciona tan alto, a pesar de la exhaustividad del sistema CVLAC de Colciencias y la considerable mayor cobertura de GS sobre las bases de datos WoS o Scopus.
5. Conclusiones y sugerencias
Al comparar la información de GS y RG con las cuatro categorías de CvLAC (Colciencias ScienTI) se observa que un porcentaje significativo de investigadores que aparecen clasificados como Reconocidos o Junior muestran una importante visibilidad web e impacto. De forma similar, otro alto porcentaje de los etiquetados como Sénior o Asociado presentan valores bajos en GS y RG incluso en casos donde su producción científica de acuerdo a CvLAC es muy alta.
Una recomendación obvia, a la luz de esta información, sería que Colciencias modificara su clasificación, incorporando fuentes adicionales, que están mostrando consistencia e importancia en los análisis del impacto del conocimiento que se produce en Colombia. Y no solo Colombia, sería una recomendación, para otros sistemas nacionales de ciencia con clasificaciones-mediciones similares, a partir de grupos o investigadores.
Como señalan Delgado López-Cortázar & Ruiz Pérez (2009) hay evidencia suficiente sobre el diferente comportamiento de las distintas disciplinas en los procesos de comunicación científica. Estos y otros muchos autores han mostrado divergencias sistemáticas también en los modos y niveles de financiación, el comportamiento de editores de revistas y monografías, el consumo de información y el acceso a datos originales y más recientemente la utilización de canales alternativos de comunicación.
Tras analizar más de 9 millones de documentos, Larivière, Haustein, & Börner (2015) concluyen que las ciencias sociales utilizan poco conocimiento de las áreas científicas y que en el caso de las humanidades apenas lo utilizan. De hecho, sus fuentes principales, al contrario que en las ciencias naturales, provienen casi exclusivamente de sus propias disciplinas.
Una situación similar se observa en el caso de Colombia. Las dinámicas de disciplinas diversas son asimismo diferentes y ello se refleja en los patrones de autoría, coautoría o citación o predilección. Esto aparece claramente en los informes anuales del Observatorio Colombiano de ciencia y Tecnología (http://ocyt.org. co). Otros autores como Moya-Anegón (2016), en su informe sobre la producción científica colombiana entre 2003 y 2010 con datos Scopus, o Vélez-Cuartas, Gómez-Flórez, Úsuga-Ciro & Vélez-Trujillo (2014) también reconocen la citada diversidad disciplinar.
Aunque se necesita más información, y seguir realizando y actualizando estudios (Mas-Bleda, Thelwall, Kousha & Aguillo, 2014; Ortega & Aguillo, 2014); para este caso, las dos fuentes presentadas (GSC, RG) y los dos indicadores analizados (índice h, RG-Index) también presentan comportamiento diferencial según la disciplina.
Por tanto, recomendamos que Colciencias realice asignaciones disciplinares propias en sus bases de datos, seleccionando cuidadosamente una clasificación que permita realizar tantos estudios comparativos como calcular indicadores relativos por disciplina. Para ello, hay fuentes que podrían servir para tal clasificación normalizada como la del Scimago Country & Journal Ranking (http://www.scimagojr.com/), bien conocida y utilizada en Latinoamérica, u otras más recientes y aún en proceso de construcción CIRC-EC3 (https:// www.clasificacioncirc.es/).
Las métricas de RG, con su comportamiento diferente, muestran el potencial y la importancia de las plataformas de la web social para incrementar la visibilidad y el impacto de los resultados de la actividad investigadora. La necesidad de un Ciencia 2.0-Ciencia Abierta ya está comenzando a ser valorada por algunas universidades colombianas y se están realizando acciones en ese sentido (Uribe-Tirado, 2015, 2017), pero es Colciencias quien debe asumir un papel relevante en la capacitación, convencimiento y exigencia de estos temas a los investigadores, ya que como indicó Kuchner (2012), en la investigación del siglo XXI: “Ser un buen científico es mitad ciencia y mitad marketing” (p. 8)