Aproximante [ð̞] en contexto -ado en el habla de Medellín: prueba experimental para la identificación automática de variantes alofónicas y su caracterización acústica

González-Rátiva, María Claudia; Orozco-Arroyave, Juan Rafael; Ospina Giraldo, Liliana Estefanía; Chaparro Manrique, Érika Patricia; González-Rátiva, María Claudia; Orozco-Arroyave, Juan Rafael; Ospina Giraldo, Liliana Estefanía; Chaparro Manrique, Érika Patricia

doi:10.25100/lenguaje.v47i3.7560

Services on Demand

Journal

Article

Indicators

Cited by SciELO
Access statistics

Lenguaje

Print version ISSN 0120-3479

Leng. vol.47 no.2 supl.1 Cali Dec. 2019

https://doi.org/10.25100/lenguaje.v47i3.7560

Artículo

Aproximante [ð̞] en contexto -ado en el habla de Medellín: prueba experimental para la identificación automática de variantes alofónicas y su caracterización acústica

Approximant [ð̞] in context -ado in the Spanish spoken in Medellín: experimental approach for the identification of allophonic variants and its acoustic characterization

Approximant [ð̞] en contexte -ado dans l'espagnol parlé à Medellín : approche expérimentale pour l'identification de variantes allophoniques et sa caractérisation acoustique

María Claudia González-Rátiva¹^¹
http://orcid.org/0000-0002-1355-9140

Juan Rafael Orozco-Arroyave²^²
http://orcid.org/0000-0002-8507-0782

Liliana Estefanía Ospina Giraldo³^³
http://orcid.org/0000-0001-8195-7098

Érika Patricia Chaparro Manrique⁴^⁴
http://orcid.org/0000-0001-9001-848X

^¹Universidad de Antioquia, Medellín, Colombia. Correo electrónico: mclaudia.gonzalez@udea.edu.co

^²Universidad de Antioquia, Medellín, Colombia. Correo electrónico: rafael.orozco@udea.edu.co

^³Universidad de Antioquia, Medellín, Colombia. Correo electrónico: lestefania.ospina@udea.edu.co

^⁴Universidad de Antioquia, Medellín, Colombia. Correo electrónico: erika.chaparro@udea.edu.co

Resumen

El debilitamiento y la elisión de /d̪/ han sido recurrentes en la historia de la lengua y se han estudiado en su dispersión geográfica, social y estilística. La dialectología y la sociolingüística hispánicas dan cuenta de tres variantes en contextos intervocálicos: las aproximantes [ð̞], [^ð] y elisión [Ø]. La mayoría de estos trabajos se basan en la cartografía, en la selección impresionística o en espectrografía. Se presentarán aquí los resultados de una prueba experimental con palabras terminadas en -ado, en seis informantes de Medellín, tres hombres y tres mujeres. El objetivo es describir la naturaleza acústica de la variante de /d̪/ intervocálica en esta variedad de habla. Se proyectó una matriz de 9 medidas acústicas a una representación bidimensional mediante la técnica t-SNE para analizar agrupamientos en las variantes, lo que permitiría su clasificación automática. El propósito de la experimentación es la búsqueda de estrategias viables y eficientes desde la lingüística computacional en estudios sociolingüísticos de variación fonológica.

Palabras clave: fonética; fonología; variantes alofónicas; lingüística computacional

Abstract

The processes of spirantization and elision of /d̪/ have been recurrent in the history of Spanish and they have been studied in its geographical, social and stylistic dispersion. Hispanic dialectology and sociolinguistics have revealed three variants in intervocalic and final contexts: approximants [ð], [^ð] and elision [Ø]. The majority of these works are based on atlas cartography, on the impressionistic selection or on spectrographic data. In this paper the results of an experiment on automation will be presented from a experimental test in six informants from Medellin, in order to define the acoustic nature of the variant of /d̪/ intervocalic. The projection of a 9 acoustic measurements matrix to a two-dimensional representation using the t-SNE technique is analyzed in order to observe possible groupings in the variants and their automatic classification. The aim is to investigate viable and efficient strategies from computational linguistics in sociolinguistic studies of phonological variation.

Key words: phonetics; phonology; allophonic variants; computational linguistics

Résumé

Les processus de spirantisation et d'élision du /d̪/ ont été récurrents dans l'histoire de l'espagnol et ont été étudiés dans sa dispersion géographique, sociale et stylistique. La dialectologie et la sociolinguistique hispaniques ont permis de dégager trois variantes dans des contextes intervocaliques et finaux : les approximants [ð], [^ð] et l'élision [Ø]. La plupart de ces travaux sont fondés sur la cartographie de l'atlas, sur la sélection impressionniste ou sur des données spectrographiques. Dans cet article, nous présentons les résultats d'une expérience sur l'automatisation à partir d'un test expérimentale passé parmi six informateurs de Medellín, afin de définir la nature acoustique de la variante du /d̪/ intervocalique. La projection d'une matrice de 9 mesures acoustiques est analysée afin d’obtenir une représentation bidimensionnelle par la technique t-SNE, ce qui nous a permis d'observer les regroupements possibles dans les variantes et leur classification automatique. L'objectif est d'étudier des stratégies viables et efficaces de la linguistique computationnelle dans les études sociolinguistiques de la variation phonologique.

Mots-clés : phonétique; phonologie; variantes allophoniques; linguistique computationnelle

INTRODUCCIÓN

Los procesos de debilitamiento y elisión de /d̪/ intervocálica han sido registrados, comentados y estudiados a lo largo de la historia de la lengua española. Por consiguiente, respecto a esta variación fonológica, hay amplios y conocidos trabajos en relación con su dialectología, su dispersión social y su relación con factores estilísticos (^{Alba, 2000}; ^{Malaver y Samper, 2016}; ^{Molina y Paredes, 2014}). Estos estudios han mostrado que el contexto -ado es uno de los entornos más propicios para la aparición de las variantes aproximantes y de la elisión. De igual forma, las investigaciones revelan un proceso de elisión avanzado, tanto en España como en América, lo que indica su relevancia sociolingüística.

Además, dichos estudios han determinado tres variantes para el fonema consonántico obstruyente oclusivo oral /d̪/ en posición intervocálica: aproximante plena, relajada y elidida. La identificación de estas variantes se ha realizado, en la mayoría de investigaciones, de manera impresionística o espectrográfica (^{Gómez y Gómez, 2010}; ^{Scrivner y Díaz-Campos, 2016}). Generalmente, los procedimientos son de parametrización subjetiva y realizada por distintas personas, lo que puede inducir a errores en los resultados.

Por otra parte, el fenómeno de las aproximantes ha estado en discusión, tanto por su naturaleza y caracterización acústica, como por el estatus fonológico (^{Figueroa, 2012}). Desde el punto de vista fonético, el sonido aproximante ha sido descrito como categoría intermedia entre vocales y consonantes. En consecuencia, los métodos de caracterización de las variantes acústicas, específicamente para el caso de la consonante /d̪/, requieren de sendos análisis y gran gasto de recursos personales y de tiempo, pues se debe tener en cuenta que las medidas acústicas para las aproximantes no son en su mayoría de veces absolutas sino relativas y que para la producción de una /d̪/ se requiere, principalmente, la extracción de datos de duración, frecuencia fundamental^⁵, intensidad^⁶ y frecuencias formánticas^⁷.

El objetivo de este estudio es describir la naturaleza fónica de la variable /d̪/ en el entorno -ado a partir de una prueba experimental con una muestra del habla de Medellín. Se diseñó un corpus para la recolección de datos, que fueron segmentados y llevados a medición automática de 9 parámetros acústicos de cada segmento^⁸ y su proyección sobre una técnica de representación gráfica bidimensional de agrupamiento de rasgos de similitud.

En este artículo se presentan los resultados de dicho experimento. El procedimiento realizado y su correspondiente análisis buscan mejorar la homogeneización y eficiencia de recursos en estudios de variación fónica. Por ello, al final del trabajo se aplicó el protocolo en una muestra amplia de corpus oral robusto, el Preseea-Medellín (^{González-Rátiva, 2008}).

Sobre la noción de aproximante

Uno de los primeros lingüistas en utilizar la denominación aproximante, para referirse a aquellos sonidos con estructura formántica similar a la de las vocales, fue ^{Ladefoged (1975)}. Describe Ladefoged estos sonidos como el resultado de la proximidad de articuladores sin que se produzca corriente de aire turbulenta. En este sentido, Ladefoged acercó varios sonidos fonemáticos a la categoría de vocoides, especialmente por su caracterización formántica. ^{Martínez Celdrán (1984)}, entre otros, recoge esta propuesta para la descripción fonética desde una perspectiva hispánica, específica a sonidos en los cuales los órganos articuladores se aproximan, sin roce y sin producción de ruido turbulento. Para ^{Martínez Celdrán (1996)} son sonidos más abiertos que las consonantes nasales, laterales y semiconsonantes, y más cerrados que los vocálicos. De esta manera, especialmente en el ámbito hispánico, ^{Martínez Celdrán (1996)} atribuye el término aproximante, entre otras, a las consonantes obstruyentes no fricativas, alófonos de las oclusivas orales, y propone la transcripción [ β̞ ð̞ ɣ̞ ] tomando como base el Alfabeto Fonético Internacional^⁹.

También ^{Martínez Celdrán (1998)} establece las propiedades acústicas de los sonidos aproximantes: carecen de ruido, tienen las estrías típicas de los sonidos armónicos, muestran un descenso de intensidad en relación con las vocales adyacentes, y presentan un menor ennegrecimiento de la estructura transicional formántica.

La percepción de los sonidos aproximantes ha sido importante en sus diferentes clasificaciones; así, el ruido turbulento las alejó de la categoría de fricativas y, para ^{Fernández (2005)}, las aproximantes muestran características espectrográficas vocálicas, pero son percibidas con menos claridad.

La revisión de trabajos y textos sobre el fenómeno en cuestión condujo el trabajo aquí presentado a tomar como base la caracterización de los sonidos aproximantes dada por ^{Martínez Celdrán (2013)}, como la clase de

segmentos que, poseyendo cierto grado de constricción, carecen de la precisión articulatoria requerida para producir una corriente turbulenta de aire, bien sea por la falta de suficiente tensión en los órganos articuladores, bien sea porque el tracto vocal no está suficientemente constreñido o ambas cosas conjuntamente. (p. 15).

De esta manera, se presenta una clasificación acústica de tres variantes a partir de los siguientes parámetros:

aproximantes cerradas: pulsos glotales opcionales sobre la barra de sonoridad y sin explosión.
aproximantes abiertas: transiciones en las vocales adyacentes, pulsos glotales débiles, duración relativa breve e intensidad relativa menor.
aproximantes vocálicas: poca diferencia de intensidad con las vocales adyacentes. Aunque bien percibida, es de difícil segmentación.

ANTECEDENTES

La caracterización acústica de las aproximantes del español, especialmente para la variación de /d̪/, ha sido el propósito de diversos trabajos que han estimado distintos tipos de mediciones acústicas y aplicado diversas técnicas de extracción de datos.

^{Pérez (2007)}, para el español de Chile, analizó la serie /b d̪ g/ intervocálica en un corpus de habla de noticieros, con el fin de determinar la incidencia del estilo en la variación sociolingüística. A partir de un procedimiento perceptual y espectrográfico se determinó el reconocimiento de tres variantes: aproximante cerrada, aproximante y elidida. La aproximante cerrada se relacionó con una barra de sonoridad sin formantes; en la aproximante hay presencia de formantes disminuidos en intensidad y trayectorias variables; y la elisión se asoció con la ausencia de variaciones en los formantes de las vocales del entorno.

^{Sola (2011)} hizo un estudio en español peninsular a partir de 90 enunciados de habla espontánea de 37 informantes, tomados de grabaciones de programas de TV, con el fin de verificar la presencia de aproximantes tensas y laxas (^{Martínez Celdrán, 1984}) de /b d̪ g/ y caracterizarlas acústicamente. Con una metodología detallada para la identificación de parámetros acústicos sobre espectrogramas realizados en Praat^¹⁰ (^{Boersma y Weenink, 2009}) -que incluyen duración, energía, formantes, barra de sonoridad, ruido, entre otros-, mostró la dificultad del análisis del habla espontánea. Para la presentación de los resultados, ^{Sola (2011)} categorizó las realizaciones esperables como aproximantes en: aproximante, obstruyente, fundida, elidida, fricativa y asimilada. La autora refirió la realización aproximante como el sonido que presenta barra de sonoridad y estructura formántica y concluyó, a partir de la investigación, que

las aproximantes son sonidos que comparten rasgos consonánticos y vocálicos, esto es: hay obstrucción aunque menor que en las consonantes y por lo tanto más que en las vocales; y existe armonicidad (estructura de formantes), pero de menor intensidad que en las vocales. (p. 138).

^{Hualde, Shosted, y Scarpace (2011)} presentaron datos experimentales, acústicos y electropalatográficos para la alofonía de /d̪/ en un corpus de grabaciones a tres hablantes hispanos, nativos de la península ibérica. Segmentaron en Praat (^{Boersma y Weenink, 2009}) el sonido [d̪] y la vocal adyacente y tomaron dos medidas de la curva de intensidad: la diferencia de intensidad y el cálculo de velocidad MaxVel.

^{Martínez Celdrán (2013)}, con el fin de estudiar las aproximantes espirantes del español, [β̞ ð̞ ɣ̞], y determinar y limitar una clasificación medible, analizó los datos de tres hablantes femeninos de la península ibérica. Las mediciones fueron tomadas en Praat (^{Boersma y Weenink, 2009}) para la duración e intensidad, absolutas y relativas, y realizó estadística descriptiva e inferencial sobre los resultados.

^{Figueroa (2012)} propuso una metodología para automatizar la selección de variantes de las aproximantes [β̞ ð̞ ɣ̞] y determinar la naturaleza acústica de estos segmentos, con especial atención al español de Chile. Comenzó con la descripción de procedimientos detallados para la obtención de datos y el tratamiento del registro sonoro y la segmentación en Praat (^{Boersma y Weenink, 2009}). Figueroa propuso tomar mediciones de duración, intensidad, pitch, frecuencias de F1 y F2 y de transiciones de vocales adyacentes a través del establecimiento de scripts. En total describió 62 procedimientos y realizó un pilotaje de esta metodología.

^{Scrivner y Díaz-Campos (2016)}, en un trabajo diacrónico sobre el habla caraqueña, asumieron el fenómeno de la aproximante como una variable dependiente continua. Por medio de scripts de Praat tomaron los datos de medidas acústicas del radio de intensidad relativa para ser analizados en un novedoso software, Language Variation Suite, basado en el programa estadístico R, que les permitió automatizar, hacer análisis cuantitativo y establecer análisis macro y multifactorial sobre el fenómeno.

METODOLOGÍA

Se describe a continuación el procedimiento para el estudio experimental de la automatización de la identificación de variantes y el rendimiento de las características acústicas de /d̪/ en el entorno -ado. El diseño del corpus, el protocolo de grabación y la segmentación de los audios fueron hechos por el grupo de trabajo del Laboratorio de Fonética y Filología de la Facultad de Comunicaciones de la Universidad de Antioquia, con el apoyo del Grupo de Estudios Sociolingüísticos; la extracción de parámetros acústicos, la programación y el procedimiento de automatización fueron realizados por el Grupo de ingeniería de señales (GITA)^¹¹, así como la selección de la técnica para la representación de los resultados.

Prueba experimental

El experimento consistió en el diseño de una prueba para la posterior automatización de datos fonéticos extraídos de audios. En consonancia con el objetivo de la investigación, se buscó determinar la naturaleza acústica de la variante intervocálica aproximante de /d̪/. En relación con la variante elidida, es evidente que no hay que determinar la naturaleza acústica sino la ausencia de características acústicas distintas a las vocálicas en el segmento.

Para hacer esta prueba experimental efectiva, se construyó un corpus de 3 enunciados con 3 de las palabras terminadas en -ado: lado, pasado y demasiado^¹². Además, se escogieron estas por pertenecer a categorías léxicas distintas (N. V. Adv.), y por tener distinta longitud silábica. Se escribieron los enunciados para ser leídos en tres versiones por los informantes: los dos primeros con retención de /d̪/, articulación plena y articulación relajada; y la tercera versión con elisión de la /d̪/, pronunciación elidida.

Los enunciados fueron:

Mire por los lados del parque

[ˈmĩˑɾepoɾlos̬ˈlaˑð̞os̬̪delˈpaˑɾke], versión con retención plena

[ˈmĩˑɾepoɾlos̬ˈlaˑð̞os̬̪delˈpaˑɾke], versión con retención relajada

[ˈmĩˑɾepoɾlos̬ˈlɑˑos̬̪delˈpaˑɾke], versión con elisión

Muchas veces he pasado por allí

[ˈmũˑt͡ʃas̬ˈbeˑseˈseˑpaˈsaˑð̞opoɾaˈʝiˑ], versión con retención plena

[ˈmũˑt͡ʃas̬ˈbeˑseˈseˑpaˈsaˑð̞opoɾaˈʝiˑ], versión con retención relajada

[ˈmũˑt͡ʃas̬ˈbeˑseˈseˑpaˈsaˑopoɾaˈʝiˑ], versión con elisión

La gente es demasiado tranquila

[lɑˈhẽˑn̪teˈeˑs̬̪dẽmãˈsjaˑð̞otɾãŋˈkiˑla], versión con retención plena

[lɑˈhẽˑn̪teˈeˑs̬̪dẽmãˈsjaˑð̞otɾãŋˈkiˑla], versión con retención relajada

[lɑˈhẽˑn̪teˈeˑs̬̪dẽmãˈsjaˑotɾãŋˈkiˑla], versión con elisión

Se seleccionaron 3 hombres y 3 mujeres jóvenes de la ciudad de Medellín, estudiantes de la Universidad de Antioquia, dado que no se trataba de seleccionar mayores variables de análisis para la señal acústica, a quienes se les hizo registro mediante lectura. Los 6 informantes realizaron 3 repeticiones de cada una de las oraciones mediante instrucción que permitiera elicitar las tres variantes de /d̪/; primero una lectura cuidada, luego una lectura relajada y finalmente una pronunciación con /d̪/ elidida.

Las grabaciones fueron hechas en la cabina insonorizada del Laboratorio de Fonética y Filología de la Facultad de Comunicaciones de la Universidad de Antioquia. Se utilizó un micrófono Sennheiser e835. Los audios fueron sistematizados en un Imac, con el programa Adobe audition, en formato .wav, con una frecuencia de muestreo de 44100 Hz.

Una vez realizadas las grabaciones, se procedió a la segmentación del audio [ˈað̞o] y se obtuvo un total de 108 fragmentos de audio, repartidos en 3 grupos: plenas (lectura cuidada con atención a la realización de aproximante cerrada); relajadas (lectura menos cuidada con atención a la producción de una aproximante abierta); y elididas (repetición del enunciado con atención a la elisión de la /d̪/). Este corpus, sistematizado y etiquetado, se envió al Grupo GITA para el análisis automatizado.

Parámetros acústicos para la automatización

Es necesario aclarar que el trabajo del equipo del Laboratorio de Fonética y Filología llega en este trabajo hasta la preparación de las grabaciones, la segmentación, la extracción y percepción de cada fragmento de audio, y la correspondiente codificación, etiquetación y organización de tales archivos de audio para su envío al trabajo de automatización por parte de los ingenieros. Para el proceso de automatización de la señal acústica, el ingeniero de señales realiza una programación en la cual se toma por ventanas de observación una serie de parámetros de magnitudes variables que convierten el dato por ventana en un dato de alta dimensionalidad. Los parámetros acústicos que se tuvieron en cuenta para la programación de la señal acústica en cada ventana de observación fueron: Formante 1, F1; Formante 2, F2; la energía logarítmica, sus primeras y segundas derivadas para medir las transiciones en energía y aceleración. También se midieron los coeficientes cepstrales en las frecuencias de Mel (MFCC)^¹³, y sus primeras y segundas derivadas^¹⁴.

El procedimiento para la extracción computarizada de dichas características consistió en considerar periodos de observación en segmentos de tiempo corto, segmentos de 10 ms y solapamiento del 50 % en cada uno de los audios segmentados.

Con estos datos se programan dos tipos de análisis: un análisis estático y un análisis dinámico. En el análisis estático la automatización hace cálculos estadísticos (media, desviación estándar, asimetría y curtosis) de cada señal. En el análisis dinámico se hace la extracción de datos sin cálculos estadísticos. Cada uno de estos análisis lleva en los segmentos etiquetas de cada informante, en este caso, las variables sexo y tipo de registro o lectura.

Representación bidimensional de los datos

Los resultados de los cálculos se llevaron a la técnica t-SNE^¹⁵ (^{Van der Maaten, 2019}), que es un algoritmo para reducir dimensiones de los datos con el fin de permitir una visualización en información bidimensional. La técnica busca la agrupación entre puntos cercanos; es decir, la probabilidad de que dos puntos sean vecinos el uno del otro y tratar de igualar o proyectar esa probabilidad en un espacio bidimensional, tal como se ejemplifica en la Figura 1. Teniendo en cuenta que cada punto tendrá la información de múltiples variables, es importante mencionar que esta técnica no es la única que da la posibilidad de reducción bidimensional de datos, existen otras siete técnicas, algunas de ellas aplicadas por el grupo de ingeniería de señales, aunque sin mejores resultados que la t-SNE.

Figura 1 Resultado ideal de la técnica t-SNE

Para una aproximación inicial a los resultados de los datos en el experimento, se buscó agrupamiento de datos por características iniciales (40 %), mediales (20 %) y finales (40 %) en la secuencia [ˈað̞o]. Lo anterior porque se asume que la realización de la consonante es de corta duración en relación con las vocales adyacentes.

Las gráficas generadas a partir de los datos experimentales grabados y la aplicación de los parámetros de automatización llevados a gráficas bidimensionales mediante la técnica t-SNE, nos podría arrojar las siguientes agrupaciones visuales: grupos de [ˈa] vocal central, grupos de [ð̞] aproximante cerrada, de [ð̞] aproximante abierta, de [ð̞] aproximante vocálica, y de [o] vocal posterior.

Lo anterior teniendo en cuenta que la cadena -ado está constituida por tres segmentos fonémicamente distintos: [ˈa], [d̪] y [o], y el contexto fonémico de /d̪/ permite la aparición de tres variantes aproximantes en español (^{Martínez Celdrán, 2013}): abierta, cerrada y vocalizada.

RESULTADOS

De los cálculos realizados y llevados a gráficas, los que mejor agrupación reflejaron son los análisis dinámicos, los datos sin cálculos estadísticos y los de coeficientes cepstrales, que relacionan potencia y energía de contenido perceptual relevante.

En primer lugar, se destaca que las diferencias entre las grabaciones asumidas como plenas (aproximante cerrada) y como relajadas (aproximante abierta o aproximante vocálica) no obtuvieron diferenciación en los cálculos realizados, probablemente por la poca diferencia de características acústicas con las vocales adyacentes. Esta indiferenciación ya estaba dando un indicio del tipo de aproximante encontrada: una aproximante vocálica. Se procedió a realizar cálculos que buscaran 3 agrupaciones: vocal central, aproximantes (plenas que incluyen la relajada), y vocal posterior. Las Figuras 2 y 3 muestran el análisis para las muestras de mujeres y de hombres.

Figura 2 Análisis automatizado en prueba experimental, -Mujeres.

En relación con los coeficientes cepstrales, la técnica mostró en el caso de las mujeres, Figura 2, que las características acústicas de la [ˈa] (inicio del segmento, 40 %) tienden a agruparse (rojo y azul en la parte baja de la figura). También, las características acústicas de [o] (segmento final, 40 %) muestran un mayor agrupamiento (verde y café en la parte superior de la figura). En relación con las características acústicas de la aproximante (mitad del segmento, 20 %) debería haberse manifestado una agrupación diferencial (puntos morados). Sin embargo, las características del segmento tienden a agruparse con las de [o] (verde y café). En este sentido, podríamos advertir, para el caso de las voces femeninas, que la aproximante comparte más características acústicas con la vocal adyacente posterior átona [o]. En cuanto a la elidida (segmento medial del grupo de las elididas, en naranja), se acerca más a la producción de [ˈa]; es decir, en ese 20 % medial del segmento [-ˈao], se producen más las características acústicas del inicio del segmento, [ˈa] (azul a la izquierda de la Figura 2). Este resultado fue esperable, dada la acentuación de la vocal central, que probablemente le imprime más cantidad o tiempo al segmento silábico.

En el caso de las voces masculinas, Figura 3, los resultados fueron diferentes. La única tendencia de agrupación está en los segmentos finales (café y verde en la parte baja de la figura); es decir, los segmentos manifiestan compartir características acústicas de [o].

Figura 3 Análisis automatizado en prueba experimental, -Hombres

Sin embargo, la Figura 3 también determinó que no hubo diferencia, o no se halló una tendencia de agrupamiento de características acústicas entre los segmentos iniciales y mediales de [ˈað̞o] y [ˈao] en los enunciados masculinos. La casi total indiferenciación del segmento medial del grupo de realizaciones cuidadas, con atención a la pronunciación de aproximantes, establece que lo más probable es que se trató de una realización aproximante vocálica.

En términos de representación gráfica más cercana a esta tradición lingüística, se recurrió a la espectrografía de las muestras a través de Praat (^{Boersma y Weenink, 2009}). La aproximación espectrográfica a las 108 muestras de la secuencia [ˈado] de la prueba experimental evidenció la dificultad de la segmentación, especialmente para las muestras que se grabaron y clasificaron como aproximantes. La Figura 4 es un ejemplo de la realización del enunciado de la prueba por un hablante masculino.

Figura 4 Realización masculina de la aproximante [ð̞] en /paˈsad̪o/. H1aP5

Se puede observar que para la pronunciación percibida y realizada como [ˈað̞o] es muy difícil mostrar una segmentación definida o relacionar la aproximante con diferencias de intensidad relativa, pues no hay un descenso marcado de la línea de intensidad, ni hay diferencias en la estructura formántica y en variabilidad transicional. Esto llevó a considerar que la aproximante, en contexto [ˈað̞o] del habla de Medellín, se puede determinar fonéticamente como un proceso de vocalización o en términos de una variable aproximante vocálica.

Otro tanto sucede con las realizaciones que se grabaron a partir de la instrucción de elidir /d̪/ en el segmento [ˈað̞o]. En la Figura 5, realización femenina de la variante elidida, se percibe claramente la elisión de la aproximante a través de las transiciones frecuenciales de los formantes de [ˈa] y [o].

Figura 5 Realización de la variante elidida de [d] en /paˈsad̪o/. M1cE2

De esta manera, se evidencia cómo ni la disminución de intensidad relativa ni la estructura formántica, en este caso, puede considerarse un parámetro que permita distinguir aproximantes abiertas o cerradas. Por tanto, en este corpus -ado de jóvenes de Medellín se está ante una aproximante vocálica que, aunque se percibe, es difícil determinar sus límites de adyacencia con las vocales [ˈa] y [o].

APLICACIÓN DEL PROTOCOLO DE IDENTIFICACIÓN AL CORPUS PRESEEA-MEDELLÍN

Una vez establecido el protocolo de identificación automática, se emprendió la tarea de aplicar el protocolo al Corpus Preseea-Medellín (^{González-Rátiva, 2008}), corpus oral por cuotas de afijación uniforme preestratificado^¹⁶ y posestratificado^¹⁷ de acuerdo con los parámetros del PRESEEA (^{Moreno-Fernández, 1996}).

Se tomó una muestra del Corpus Preseea-Medellín compuesta por 36 informantes. Para la sistematización de variantes se identificaron cada una de las apariciones de [ˈað̞o] en las transliteraciones etiquetadas y se extrajeron, por medio del programa Audacity, 1644 segmentos de audio en contexto. Posteriormente se segmentaron, excluyendo del contexto, los 1644 segmentos [ˈað̞o] para ser clasificados perceptualmente en tres carpetas según la variante: aproximante abierta, aproximante vocálica, y variante elidida, de acuerdo con la percepción cualificada del grupo del Laboratorio.

Las entrevistas semidirigidas del Preseea-Medellín fueron hechas entre los años 2008 y 2010; la mayoría de ellas, bajo condiciones ambientales de calle, locaciones públicas y viviendas de los informantes. En la construcción de este Corpus hubo un amplio número de entrevistadores. Las grabaciones fueron hechas por medio de aparatos digitales (Sony icd px240). La mayoría de los audios se registraron en formato .wav, y algunas de ellas, quedaron como archivos en formato .mp3.

Debido a algunas o todas las razones expuestas, el subcorpus -ado, contiene una heterogeneidad de condiciones de grabación, además de la baja calidad de muchas de las grabaciones, que imposibilitan un estudio fonético-fonológico de buena fiabilidad. También es importante anotar que el habla espontánea de este Corpus Preseea-Medellín presenta enunciados con muy poca intensidad, sin muestra de sonoridad, rasgos de aspiración al final que, aunque inteligibles, son de extrema complejidad para la segmentación.

Todas esas características no aseguran condiciones acústicas homogéneas para el análisis automatizado, de acuerdo con los ingenieros del Grupo GITA. Los resultados mostraron una gran cantidad de diferencias, empezando por las condiciones acústicas de las grabaciones del corpus, por ejemplo, en la frecuencia del muestreo. Por ello, al encontrar audios en frecuencias de muestreo de 16000 Hz., 44100 y 48000 Hz, se decidió para el caso de esta investigación, y por las condiciones de las grabaciones, la estandarización a una frecuencia de 8000 Hz. Una vez se reagruparon los audios estandarizados, se procedió al protocolo de automatización.

Como un primer acercamiento a la automatización, se optó por realizar un análisis en dos informantes por separado (un hombre y una mujer) para determinar el rendimiento de los MFCCs en el habla espontánea. La Figura 6 corresponde a los segmentos -ado de una mujer de primera generación, con nivel alto de estudios.

Figura 6 Análisis automatizado en la informante M13_1 del Preseea-Medellín

En la Figura 6 se observa un comportamiento de los MFCCs de toda la producción de segmentos [ˈado] de la informante MEDE_M13_1, en su caso, 38 segmentos. Al igual que en la Figura 2 (mujeres en la prueba experimental), se observa una leve tendencia de agrupación para [ˈa] (puntos azules y rojos). En relación con la aproximante (puntos anaranjados y morados) se percibe una ligera separación, más notoria hacia la parte final del segmento [o] (cafés y verdes) y una leve agrupación hacia la parte inicial del segmento [ˈa] (azul y rojo). Estas tendencias podrían seguir indicándonos la similitud de los parámetros acústicos relacionados con la energía que hay entre vocales y aproximantes en esta variedad de habla.

La Figura 7, para el caso de un hombre de primera generación y nivel alto de estudios (con 47 segmentos -ado, no permite una buena apreciación de agrupaciones salvo alguna parte final (cafes y verdes), correspondiente nuevamente con la finalización vocálica del segmento, [o]. Se puede decir, que en los dos casos graficados no se encontró en su análisis automatizado de parámetros acústicos de energía, indicios de separación o agrupación de características que reflejaran distancia acústica perceptible.

Figura 7 Análisis automatizado en un informante masculino del Preseea-Medellín, MEDE_H13_6

A pesar de que en la prueba experimental y en el análisis de los dos informantes del Preseea-Medellín no hubo rendimiento para una posible identificación de la variante aproximante [ð̞] diferencial de las vocales adyacentes en su energía, se realizó un análisis con todos los informantes (36) en sus 1644 realizaciones de segmentos [-ˈað̞o]. Se tomó como base la clasificación perceptual de los segmentos, divididos en las tres carpetas: aproximante plena, aproximante relajada y variante elidida. En esta ocasión, el análisis se centró en los Formantes 1 y 2 del segmento [-ˈað̞o], asumiendo la transicionalidad que debe presentarse, bien en la aproximante vocálica, bien en el caso de la elisión. El resultado del análisis se observa en la Figura 8.

Figura 8 Análisis automatizado en 36 informantes Preseea-Medellín. Hombres, H, y Mujeres, M

En la Figura 8 se observa un ligero agrupamiento entre la aproximante plena y la relajada femenina (café y morado) e igualmente plena y relajada masculina (verde y naranja). Este resultado permite en parte acercarse a la caracterización de una aproximante vocálica para las realizaciones perceptualmente audibles. En cuanto a la elisión de hombres (puntos azules) y la elisión de mujeres (puntos rojos) se presenta la mayor dispersión, por lo que no se encuentra una posible relación para este resultado.

DISCUSIÓN

Los resultados del experimento permiten realizar solo un contraste general con los antecedentes aquí expuestos, ya que se trata tanto de metodologías como de procedimientos de análisis diferentes. Hay aspectos que coincidieron en el desarrollo de las investigaciones. El procedimiento perceptual del fenómeno seguido por ^{Pérez (2007)} y la corroboración espectrográfica para cada segmento, si bien es un método impresionístico, se estableció, como en el caso presentado para el pilotaje, en un parámetro de gran importancia para la determinación de la naturaleza acústica de la aproximante. Incluso, el resultado de la automatización rindió mejores resultados a través de análisis de los MFCCs que son coeficientes basados en la percepción auditiva humana.

En relación con los parámetros acústicos, fueron coincidentes de los trabajos revisados y este estudio, medidas acerca de la energía, F1 y F2, armonicidad, pitch, velocidad, transiciones de vocales adyacentes; no se mencionan en el trabajo de ^{Figueroa (2012)} los coeficientes cepstrales en las frecuencias de Mel (MFCC), pero es muy probable que entre 62 procedimientos se hubiera incluido esa magnitud de medida y otros cálculos matemáticos y estadísticos.

La caracterización acústica de la aproximante mostró diferencias entre las variables de habla analizadas: para el español de Chile, ^{Pérez (2007)} reportó una aproximante cerrada; ^{Sola (2011)} para el español ibérico no obtuvo rendimiento de la aproximante ‘fundida’, sino la presencia de una aproximante con formantes de menor intensidad, abierta. Los resultados de esta investigación establecen, para la variedad antioqueña, una aproximante vocálica percibida, pero de difícil segmentación, en habla controlada, aún más en habla espontánea.

CONCLUSIONES

A partir de la prueba experimental de la variación de la /d̪/ intervocálica en el habla de seis estudiantes de Medellín, y el acercamiento automatizado para la identificación de variantes, se pueden presentar, a modo de conclusión, algunas consideraciones al respecto.

En primer lugar, el fenómeno de variación de la /d̪/ intervocálica, especialmente en el contexto favorecedor -ado en el habla de Medellín, aunque perceptible, es un fenómeno que presenta escasa visibilidad espectrográfica y, por lo tanto, reviste de complejidad acústica para su medición. El acercamiento a través de la parametrización y automatización de las características acústicas de este fenómeno de espirantización, debilitamiento o aproximación es fundamental en la medida en que podría optimizar los recursos de investigación.

La propuesta de experimentación permitió tener un buen control sobre los datos de estudio, características de las que carecen algunos corpus orales. En consecuencia, el procedimiento seguido por el GITA, ingenieros de telecomunicaciones, consistente en la programación de tareas automatizadas para la extracción y tratamiento de datos es menos complejo para el lingüista, debido a la posibilidad de extraer datos variables y graficarlos en posibles patrones de comportamiento. Sin embargo, es necesario: a) actualizar constantemente los parámetros acústicos utilizados, b) cerciorarse de que los datos recogidos son homogéneos y comparables. El procedimiento es replicable, tal como aquí se hizo del pilotaje al Corpus Preseea-Medellín, pero las características de grabación, edición y manipulación de los datos no permitieron obtener buen rendimiento en el análisis.

El seguimiento del procedimiento de automatización aquí presentado, en cambio, permitió mostrar que en el habla de la ciudad de Medellín la variante aproximante de la /d̪/ en contexto -ado es la aproximante vocálica, en términos de ^{Martínez Celdrán (2013)}. Los parámetros espectrográficos mostraron que la energía vocálica del segmento, su potencia, no se aleja de aquella de las vocales adyacentes. En este sentido, aunque hay unas ligeras y muy superficiales tendencias de agrupamiento, lo que se mostró en las figuras y en los espectrogramas es la presencia constante durante todo el segmento de la energía vocálica. Se presentó una aproximante vocálica con espectro formántico en transición de una vocal a otra, sin disminución notoria de su ennegrecimiento ni valles notorios en su curva de intensidad que posibilitara una segmentación precisa y diferencial con las vocales adyacentes. Todo ello permitió confirmar la presencia del fenómeno de vocalización de la /d̪/ en el segmento -ado y la poca distinción entre los segmentos medios de la aproximante y la elisión. Si bien hay una sola propuesta de transcripción para la variedad de posibilidades fonéticas que tiene una aproximante como [ð̞] en el ámbito hispánico, la caracterización como vocálica o su denominación como vocalizada no se corresponde con la simbología AFI utilizada. Queda abierta la discusión sobre una transcripción adecuada para esta variante.

Es importante concluir con una reflexión en torno a la planeación de corpus orales. Para poder realizar un proceso de automatización, posible y viable en términos de estudios actuales de la señal acústica, se requiere y es indispensable que se logren grabaciones de óptimas condiciones, especialmente en lo relacionado con la homogenización de parámetros y requerimientos de la grabación. Este paso metodológico reviste toda la importancia, más aún hoy en día que se cuenta con posibilidades amplias de etiquetado y automatización de corpus orales de gran robustez.

Se puede afirmar también que la automatización realizada, y la base de datos ya elaborada sobre el corpus Preseea-Medellín, posibilita seguir indagando y realizando pruebas que permitan acercarse cada vez más a la comprensión de un fenómeno tan complejo como el menor grado de constricción en la realización de las consonantes aproximantes del español.

REFERENCIAS

Alba, O. (2000). Elisión de la /d/ Intervocálica Postónica. En O. Alba, Nuevos aspectos del español en Santo Domingo (pp. 51-72). Santo Domingo: Librería la Trinidad. [ Links ]

Andrade, R., González-Rátiva, M., y Jaramillo Yepes, D. A. (2008). La representatividad poblacional en el estudio sociolingüístico de Medellín. Lenguaje, 36(2), 527-549. doi: 10.25100/lenguaje.v36i2.4875. [ Links ]

Anthony, L. (2018). AntConc (Versión 3.5.8) [Programa para computadora]. Tokyo: waseda University. http://www.laurenceanthony.net/software. [ Links ]

Boersma, P., y Weenink, D. (2009). Praat. Doing phonetics by computer (Versión 6.0.17) [Programa para computadora]. Disponible en http://www.fon.hum.uva.nl/praat/. [ Links ]

CIMAT. (Sin fecha). Métodos de exploración y predicción de datos con alta dimensionalidad. Recuperado de https://www.cimat.mx/es/metodos_de_exploracion_y-prediccion_de_datos_con_alta_dimensionalidad. [ Links ]

Correa, J. (2014). Manual de análisis acústico del habla con Praat. Bogotá: Instituto Caro y Cuervo. [ Links ]

Fernández, A. (2005). Así se habla. Nociones fundamentales de fonética general y española. Apuntes de catalán, gallego y euskera. Barcelona: Horsori. [ Links ]

Figueroa, M. (2012). Propuesta metodológica para el análisis acústico de segmentos aproximantes (Tesis de maestría). Recuperado de http://www.mauriciofigueroa.cl/02_academia/2012_tesis_ma_PUC.pdf. [ Links ]

Gómez, J., y Gómez, M. (2010). Mantenimiento y elisión de la /d/ intervocálica en el español de Valencia. Verba. Anuario Galego de Filoloxía, 37, 89-122. Recuperado de http://hdl.handle.net/10347/6009. [ Links ]

González-Rátiva, M. (Coord.). (2008). Corpus sociolingüístico de Medellín [Portal electrónico]. Recuperado de http://comunicaciones.udea.edu.co/corpuslinguistico/. [ Links ]

González-Rátiva, M., y Grajales, R. (2011). La clase social en el Corpus Preseea-Medellín. Lenguaje, 39(1), 41-64. doi: 10.25100/lenguaje.v39i1.4927. [ Links ]

Hualde, J., Shosted, R., y Scarpace, D. (2011). Acoustics and articulation of Spanish /d/ spirantization. Proceedings of XVIIth International Conference of Phonetic Sciences, Hong Kong, 906-909. Recuperado de https://pdfs.semanticscholar.org/4585/d032ce0228081af7f6f3fc6c644df28a01b0.pdf. [ Links ]

Interactive Chaos. (Sin fecha). T-SNE. Recuperado de https://www.interactivechaos.com/manual/tutorial-de-machine-learning/t-sne. [ Links ]

Ladefoged, P. (1975). A Course in Phonetics. Nueva York: Harcourt Brace Jovanovich. [ Links ]

Malaver, I., y Samper, J. (2016). Estudio de la /d/ intervocálica en los corpus de PRESEEA. Boletín de Filología, 51(2), 325-345. Recuperado de https://boletinfilologia.uchile.cl/index.php/BDF/article/view/44881/46951. [ Links ]

Martínez Celdrán, E. (1984). Cantidad e intensidad en los sonidos obstruyentes del castellano: hacia una caracterización acústica de los sonidos aproximantes. Estudios de Fonética Experimental, 1, 71-129. Recuperado de https://www.raco.cat/index.php/EFE/article/view/144191. [ Links ]

Martínez Celdrán, E. (1996). El sonido en la comunicación humana. Introducción a la fonética. Barcelona: Octaedro. [ Links ]

Martínez Celdrán, E. (1998). Análisis espectrográfico de los sonidos del habla. Barcelona: Ariel. [ Links ]

Martínez Celdrán, E. (2013). Caracterización acústica de las aproximantes espirantes en español. Estudios de Fonética Experimental, 22, 11-35. Recuperado de http://stel.ub.edu/labfon/sites/default/files/XXII-05-EMartinezCeldran.pdf. [ Links ]

Molina, I., y Paredes, F. (2014). Sociolingüística de la elisión de la dental -/d/- en Madrid (Distrito de Salamanca). Cuadernos de Lingüística de El Colegio de México, 2, 55-114. doi: 10.24201/clecm.v2i0.15. [ Links ]

Moreno Fernández, F. (1996). Metodología del “Proyecto para el estudio del español de España y América” (PRESEEA). Lingüística, 8, 257-287. [ Links ]

Orozco-Arroyave, J., Belalcazar-Bolaños, E., Arias-Londoño, J., Vargas-Bonilla, J., Skodda, S., Rusz, J., y Nöth, E. (2015). Characterization Methods for the Detection of Multiple Voice Disorders: Neurological, Functional, and Laryngeal Diseases. Journal of Biomedical and Health Informatics, 19(6), 1820-1828. doi: 10.1109/JBHI.2015.2467375. [ Links ]

Orozco-Arroyave, J., Vásquez-Correa, J., Vargas-Bonilla, J., Arora, R., Dehak, N., Nidadavolu, P., y Nöth, E. (2018). NeuroSpeech: An open-source software for Parkinson’s speech analysis. Digital Signal Processing, 77, 207-221. doi: 10.1016/j.dsp.2017.07.004. [ Links ]

Pathak, M. (2018). Introduction to t-SNE. Recuperado de https://www.datacamp.com/community/tutorials/introduction-t-sne. [ Links ]

Pérez, H. (2007). Estudio de la variación estilística de la serie /b-d-g/ en posición intervocálica en el habla de los noticieros de la televisión chilena. Estudios de Fonética Experimental, 16, 227-259. Recuperado de https://www.raco.cat/index.php/EFE/article/view/140053. [ Links ]

Quilis, A. (1993). Tratado de Fonología y Fonética Españolas. Madrid: Editorial Gredos. [ Links ]

Rincón, C. (2007). Diseño, implementación y evaluación de técnicas de identificación de emociones a través de la voz (Tesis de pregrado). Recuperado de http://lorien.die.upm.es/barra/pfcs/2007-carmenr/docs/proyecto.pdf. [ Links ]

Román, D. (2000). Manual de introducción al estudio fonético y fonológico. Con especial énfasis en el análisis acústico del habla. Recuperado el 23 de noviembre de 2018 de Recuperado el 23 de noviembre de 2018 de http://www.domingo-roman.net/Documentos/Manual_de_introducci_n.pdf . [ Links ]

Scrivner, O., y Díaz-Campos, M. (2016). Language Variation Suite: A theoretical and methodological contribution for linguistic data analysis. Proceedings of the Linguistic Society of America, 1, 1-15. doi:10.3765/plsa.v1i0.3734. [ Links ]

Sola, A. (2011). Las aproximantes [β, δ, γ] del español en habla espontánea. Phonica, 7, 118-140. Recuperado de http://revistes.ub.edu/index.php/phonica/article/view/5609. [ Links ]

van der Maaten, L. (2019). t-SNE. Recuperado de https://lvdmaaten.github.io/tsne/. [ Links ]

Veiga, A. (2005). El funcionamiento de las oposiciones fonológicas. Moenia, 11, 81-110. [ Links ]

¹⁸Los resultados de investigación que se exponen en el presente artículo son producto del proyecto de investigación «Análisis fonético y detección automática del VOT para el diagnóstico y monitoreo de la enfermedad de Parkinson en hablantes de español, alemán y checo», financiado por el Comité para el Desarrollo de la Investigación (CODI) de la Universidad de Antioquia. Proyecto avalado por el Grupo de Estudios Sociolingüísticos (GES) y el Grupo de Investigación en Investigación en Telecomunicaciones Aplicadas (GITA) de la Universidad de Antioquia, y registrado en el Acta CODI 2018-2354 del 13 de mayo de 2019. Investigadora Principal: María Claudia González-Rátiva. Agradecemos la colaboración del grupo de estudiantes del pregrado en Filología que participaron en la prueba experimental como informantes y auxiliares del Laboratorio de Fonética y Filología, y aquellos estudiantes que colaboraron con el análisis y presentación de los datos, especialmente Nicanor García Ospina de la Facultad de Ingeniería de la Universidad de Antioquia

¹Docente titular de la Universidad de Antioquia. Coordinadora del Laboratorio de Fonética y Filología de la Facultad de Comunicaciones. Doctora en Lingüística de la universidad de Antioquia y Magíster en Lingüística Hispánica del Instituto Caro y cuervo. Líneas de docencia e investigación: fonética, sociolingüística y enseñanza del español.

²Profesor de la Universidad de Antioquia e investigador adjunto de la Universidad de Erlangen (Alemania). Coordinador del grupo de investigación en telecomunicaciones aplicadas (GITA). Doctor en Ciencias de la Computación de la Universidad de Erlangen, en doble titulación con la Universidad de Antioquia. Sus intereses principales en investigación incluyen la aplicación de técnicas de análisis de patrones para el procesamiento y análisis de habla y lenguaje.

³Filóloga Hispanista de la Universidad de Antioquia.

⁴Filóloga Hispanista de la Universidad de Antioquia.

⁵ ^{Román (2000)} dice que la frecuencia fundamental o F0 es una de las ondas con frecuencia más baja de las que componen el sonido de la voz humana y que “su percepción tiene directa relación con la percepción de la melodía del habla o entonación” (p.12).

⁶La intensidad es “la energía que llega en un momento dado a un punto, es decir, la potencia acústica que se transmite a través de una superficie” (^{Quilis, 1993}, p. 91).

⁷Las frecuencias formánticas o formantes son picos espectrales que permiten la discriminación e identificación de las vocales y algunas consonantes de las lenguas del mundo. En especial, los dos primeros formantes (abreviados F1 y F2) arrojan información sobre la altura de la lengua, su posición en la dimensión anterior/posterior del tracto vocal y el grado de redondeamiento de los labios (^{Correa, 2014}).

⁸La utilización de un sistema automático para la identificación de variantes fue realizada por el Grupo de investigación de telecomunicaciones aplicadas de la Universidad de Antioquia (GITA).

⁹ La propuesta de Martínez Celdrán ha tenido diversas reacciones y contrapropuestas muy interesantes (véase, especialmente, ^{Veiga, 2005}).

¹⁰Praat (www.praat.org) es un software creado por Paul Boersma y David Weenink para análisis fonético. Es un programa gratuito y de libre distribución, desde el año 1992. Los desarrolladores realizan actualización constante y hay múltiples versiones en circulación.

¹¹El Grupo de Investigación en Telecomunicaciones Aplicadas (GITA) de la Universidad de Antioquia. En su línea de investigación (procesamiento de señales) centra sus esfuerzos en el desarrollo de metodologías que permitan el análisis de señales de tipo biológico (^{Orozco-Arroyave et al., 2015})

¹²lado, pasado y demasiado fueron seleccionadas del listado de las palabras terminadas en -ado más frecuentes en 36 entrevistas del corpus Preseea-Medellín (^{González-Rátiva, 2008}), realizado con el programa Antconc (^{Anthony, 2018}). Antconc es un programa computarizado de libre uso en la web, muy utilizado en corpus textuales para la determinación de frecuencias, concordancias y otros aspectos de análisis de corpus.

¹³“Los MFCC (Coeficientes Cepstrales de las frecuencias de Mel - Mel Frequency Cepstral Coefficients) son coeficientes para la representación del habla basados en la percepción auditiva humana. Los MFCC muestran las características locales de la señal de voz asociadas al tracto vocal (dependiendo del instante de análisis). (...) en MFCC las bandas de frecuencia están situadas logarítmicamente, según la escala Mel, en la que el punto de referencia se define equiparando un tono de 1000 Hz., 40 dBs por encima del umbral de audición del oyente, con un tono de 1000 mels” (^{Rincón, 2007}, p. 45).

¹⁴No se muestran aquí ejemplos de la toma de datos porque no se realizaron sobre espectrogramas. Las definiciones de los parámetros acústicos se dan como desarrollos físicos y matemáticos; son fórmulas que no competen al trabajo fonético aquí planteado, sino al desarrollo de la ingeniería de señales. Las medidas extraídas de las señales acústicas resultan de modelos matemáticos que tratan de describir el proceso fisiológico de producción y recepción de la señal de voz. Los algoritmos para su cálculo están apoyados en métodos estándar y son los mismos que se tienen implementados en el software Neurospeech (^{Orozco-Arroyave et al., 2018}). Para una completa compresión acerca de las medidas que se aplican sobre las señales de voz, se recomienda al lector leer el artículo referenciado. Una vez dichas medidas son extraídas de las señales de voz, son utilizadas para construir matrices que representan las grabaciones de cada hablante. Dichas matrices son reducidas en dimensión (i.e., número de columnas) mediante la técnica t-SNE para lograr una visualización en 2 dimensiones.

¹⁵Los datos que se extraen a cada muestra de -ado comprenden una gran cantidad de variables distintas, acústicas y matemáticas, que convierten la muestra en una de alta dimensionalidad. En teorías matemáticas se han desarrollado modelos exitosos para su manejo y visualización. Los algoritmos creados para tal fin pretenden “encontrar patrones o comportamientos en los datos que permitan comprender las relaciones que guardan entre sí. Para esto se utilizan y desarrollan diferentes métodos que incluyen aquellos de reducción de dimensionalidad donde el objetivo es resumir la estructura de los datos en un número pequeño de variables informativas sobre las que son proyectados” (^{CIMAT, s. f.}). Uno de esos modelos es la Técnica t-SNE: “t-SNE se ejecuta en dos pasos: en primer lugar construye una distribución de probabilidad sobre parejas de muestras en el espacio original, de forma tal que las muestras semejantes reciben alta probabilidad de ser escogidas, mientras que las muestras muy diferentes reciben baja probabilidad de ser escogidas. El concepto de "semejanza" se basa en la distancia entre puntos y densidad en las proximidades de un punto” (^{Interactive Chaos, s. f.}). Además, esta técnica de visualización mapea tales datos multidimensionales a un espacio de baja dimensionalidad, mostrando posibles patrones de similitud de datos con multiplicidad de variables (^{Pathak, 2018}). No se incluye aquí el desarrollo matemático ni programático del modelo por razones de espacio y por el alcance de la propuesta aquí presentada, más enfocada a la interpretación de los resultados en términos fonéticos que en términos matemáticos y estadísticos.

¹⁶La metodología de preestratificación del Corpus Preseea-Medellín se describe en ^{Andrade, González-Rátiva y Yepes (2008)}. Este corpus contiene 109 entrevistas semidirigidas, preestratificadas por edad (G1, 20-34 años, G2 35-54 años, G3,55 años en adelante), sexo y nivel educativo bajo, medio, alto.

¹⁷La postestratificación en clase social del Preseea-Medellín se describe en ^{González-Rátiva y Grajales (2011)}. Los informantes del Preseea-Medellín pertenecen a tres clases sociales: popular, media y media-alta.

Recibido: 24 de Febrero de 2019; Aprobado: 16 de Agosto de 2019

Este es un artículo publicado en acceso abierto bajo una licencia Creative Commons