Introducción
Dentro de las ramas de la inteligencia artificial se encuentra el aprendizaje automático, que es un proceso a través del cual un computador es capaz de aprender de una experiencia para aplicar lo aprendido sobre una tarea de aprendizaje, la cual es finalmente medida por la performance, que indica que tan bien aprendió el computador, específicamente el modelo con el que se esta trabajando, según Mitchell (1990). Es así como de forma más específica se generan algoritmos que le permiten al computador generalizar comportamientos a partir de la experiencia proporcionada con el objetivo de repetir esta generalización en nuevos ejemplos.
Actualmente el diseño sísmico de estanques de acero se basa en las disposiciones de los códigos de diseño más utilizados en el mundo, tales como: API 650 en su apéndice E (API, 2013), AWWA-D100 (AWWA, 2011) y NZSEE (NZSEE, 2009), a pesar de esto, gran parte de los estanques de acero no anclados presentaron daños durante grandes terremotos y habían sido diseñados con el estándar API 650-E. De acuerdo con esto, se requiere actualizar y modificar los métodos de diseño para el cálculo de los esfuerzos admisibles del manto, dado que proponen métodos equivalentes para el cálculo de la demanda sísmica, pero con diferentes métodos de diseño. Actualmente en Chile se utiliza la norma NCh2369 y el anteproyecto de norma en preparación por el ICHA (Instituto Chileno del Acero), este último se basa en el método Backward Seismic Analysis (BSA) (Pineda y Saragoni, 2003; Pineda, Saragoni y Arze, 2011; Pineda y Saragoni, 2017; Pineda, 2019; Pineda y Saragoni, 2019; Pineda, 2020; ICHA, 2021; Pineda, 2021). Con el método BSA se pueden calcular los coeficientes sísmicos para el diseño de los estanques de acero, considerando la respuesta sísmica para una cantidad superior a 380 estanques de acero en operación durante los terremotos de Valdivia en 1960, Chile Central en 1985, Tocopilla en 2007, El Maule en 2010, además de Alaska en 1964 y de Estados Unidos entre los años 1933 y 1995.
En este artículo se presenta un sistema con un modelo de predicción de daño de estanque que utiliza información histórica de carácter internacional. Este modelo es capaz de predecir de manera eficiente y con hasta 93 % de eficiencia esta predicción, además se entrega un análisis de importancia de cada uno de los atributos considerados para realizar los análisis de predicción.
Metodología
Por medio de inteligencia artificial se validará el método BSA que propone un procedimiento para determinar la respuesta sísmica en estanques de acero, considerando las propiedades geométricas de los estanques en operación durante los terremotos: geometría y espesores de planchas, alturas de llenado, características de los suelos, normas de diseño aplicadas, registros sísmicos instrumentales, efectos de la directividad sísmica, daños observados, con presencia de pandeo del manto y colapsos. El método BSA requiere disponer de información de la respuesta sísmica de estanques de acero, esto para clasificarlos según sus dimensiones y condiciones de esbeltez, para rangos seguros y daños menores, considerables y reparables hasta valores con alto riesgo de colapso. El método requiere de información de los estanques: dimensiones y espesores del manto, características de las fundaciones y tipos de anclajes, suelo de fundación, tipo de líquido almacenado, niveles de llenado al momento del terremoto, efectos de la sismicidad y aceleraciones máximas del suelo de las zonas de operación del estanque, daños observados luego de terremotos, características del techo: tipo (cónico, flotante, domo), estructuración, peso, criterios de diseño y códigos utilizados, planos de fabricación y As Built. El método BSA se resume en la aplicación de una fórmula para el cálculo del coeficiente sísmico que representa el comportamiento estructural de los estanques durante grandes terremotos, por lo que su uso propone una predicción de la respuesta sísmica en terremotos futuros usando la ecuación (1) de Coeficiente sísmico para estanques de acero - Método BSA.
La clasificación supervisada es una de las tareas más frecuentes llevadas a cabo por IA. Puede ser a través de modelos desarrollados en función de la estadística (regresión logística, análisis discriminante) o bien por IA (redes neuronales, inducción de reglas, árboles de decisión, redes bayesianas), capaz de realizar las tareas propias de la clasificación (Möller, Ahumada y Reyes, 2017; Japkowicz, 2000), obteniendo de esta forma un modelo de clasificación que indicará si los estanques presentarán o no daño, con esta información se puede construir la matriz de confusión que permite visualizar el desempeño del modelo.
Caracterización de los datos
Se cuenta con 382 casos de estanques, de los cuales 72 presentaron daños y 308 tuvieron buen comportamiento sísmico durante los terremotos considerados para los estudios.
1.- Pre-procesamiento de datos (data preprocessing). La limpieza de datos es la tarea fundamental de la inteligencia artificial (Deshmukh y Wangikar, 2015). Los datos de los estanques se analizaron para eliminar, corregir y estandarizar aquellos que presentaban anomalías en función del resto mediante algoritmos en lenguaje Python (CRAN, s.f.a)
2.- Diseño de atributos (feature desing). Se entiende por atributo al conjunto de mediciones de los estanques durante un proceso sísmico, tales como:
Mag = magnitud del sismo
G = peso específico del líquido en el tanque
Hm(m) = altura del manto tanque
HLL(m) = altura del líquido en el tanque durante el sismo
D/H= relación de esbeltez del tanque
Cps = coeficiente sísmico obtenido del método BSA
ts = espesor de las planchas del manto del primer anillo inferior
De = diámetro del estanque
Fc = tensión admisible de compresión del manto del estanque
Vs = esfuerzo de corte sísmico
Mt = masa total del estanque
Ms = momento volcante sísmico
Fy = tensión de fluencia del acero
E = módulo de elasticidad de acero
Anclaje = el tanque se encuentra o no anclado
Daño = el tanque presento daño o no durante el sismo
3.- Selección de atributos (feature selection). La selección de atributos permite reconocer las características principales de un conjunto de datos que están relacionadas con la variable de respuesta (Hernández, 2007). ¿Cuáles son las características que se relacionan con la presencia o no de daño?
- Chi-square test. Una prueba de chi-squeare se usa en estadísticas para probar la independencia de dos eventos. Con las variables se puede obtener el recuento observado O y el recuento esperado E (McHugh, 2013). Chi-square mide como el recuento E y el recuento O se desvían entre sí (ecuación (2)).
Esta prueba se realizó a través de un algoritmo implementado en Python, utilizando la librería Scikit-Learn (Pedregosa et al., 2011).
- F-test. Es una prueba estadística que se utiliza para comparar entre modelos y verificar si la diferencia es significativa entre ellos. F-test hace un modelo de prueba de hipótesis X y Y.
Para evaluar se comparan errores de mínimos cuadrados en ambos modelos y se verifica si la diferencia en los errores entre el modelo X y Y es significativa o se introdujo de forma azarosa. Para realizar este test se utilizó Anova a través de un algoritmo programado en Pyhton utilizando la librería Scikit-Learn (Pedregosa et al., 2011).
4.- Balance de clases. Para realizar un balance de clases se utilizó la librería Scikit-Learnde Pyhton (Pedregosa et al., 2011), específicamente la función resample (en una proporción de 70 - 30) que integra muestras sintéticas de la clase minoritaria utilizando diversos algoritmos que siguen la tendencia del grupo minoritario.
5.- Machine Learning. Dado el set de referencia anteriormente descrito, se evaluaron diversos métodos de clasificación como Naive Bayes (Dagnino, 2014), Random-Forest (Rish, 2001; CRAN, s.f.b), árboles de decisión (Möller, Ahumada y Reyes, 2017), SVM (Breiman, 2001), regresión logística (CRAN, s.f.c), Gradient Boosting (Wang et al., 2019), todos los cuales fueron implementados en el lenguaje de programación de Python, específicamente utilizando la librería Scikit-Learn(Pedregosa et al., 2011).
6.- Entrenamiento y testeo (training and testing). Se realizaron cinco segmentaciones del set de datos y se entrenaron, parametrizaron y testearon los modelos de forma simultánea con el fin de encontrar el modelo óptimo para realizar la tarea designada a través de un algoritmo implementado en Python con el uso de la librería Scikit-Learn.
A partir de los resultados obtenidos, se extrajeron los siguientes valores:
VP son los verdaderos positivos: número de estanques que no falló y el modelo indico que no falló.
FP son los falsos positivos: número de estanques que falló y el modelo indico que no falló.
FN son los falsos negativos: número de estanques que no falló y el modelo indico que falló.
VN son los verdaderos negativos: número de estanques que falló y el modelo indico que falló.
EG eficiencia global: corresponde a tasa de éxito general de la predicción.
De estos se derivan las medidas de performance definidas para este problema:
Matrices de confusión: permite visualizar el desempeño de un algoritmo, la cual se puede ver en la Tabla 1.
Curva ROC: muestra el rendimiento de un modelo de clasificación en todos los umbrales de clasificación. Esta curva representa dos parámetros: tasa de verdaderos positivos (TP) y tasa de falsos positivos (FP)
Precisión: mide la calidad del modelo.
Precisión = TP / (TP + FP)
Recall: la métrica de exhaustividad informa sobre la cantidad de ejemplos que el modelo es capaz de identificar.
Recall = TP / (TP + FN)
Resultados
Chi-square test
Se utilizó esta prueba para evaluar la dependencia del daño de los estanques con los atributos mencionados anteriormente. Se considera que existe una dependencia cuando el valor de la prueba es cercano a 0, por lo tanto, todos los atributos que muestran un valor superior son variables independientes que no presentan relación con el daño del tanque (Figura 1).
F-test (Anova)
Se utilizó esta prueba para medir la importancia de los atributos dependientes y estimar cuáles son los más relevantes para predecir el posible daño en un tanque. Todos los atributos presentan un grado de relación con el resultado analizado (con o sin daño). Para realizar el modelo de clasificación, se seleccionaron los seis atributos que muestran los mayores puntajes en F-test (Figura 2).
Modelos de clasificación
Se midieron diferentes modelos de forma simultánea para estudiar el comportamiento de estos. Todos los modelos presentan una precisión cercana o superior al 90 %, sin embargo, los modelos con la mejor precisión son RF y GBM con 97 %, como se observa en la Figura 3. Además, se presenta la matriz de confusión del modelo RF en la Tabla 2.
Además, e la Figura 4 se graficó la precisión vs. recall para evaluar la efectividad del modelo, el que será más efectivo para clasificar correctamente cuando el valor del recall llegue a 1 en función de la precisión del modelo (imagen precisión vs. recall todos los atributos). El modelo de GBM (línea morada) presenta un mejor recall que el modelo de RF.
Atributos seleccionados por F-test (Anova)
Al igual que el modelo de clasificación anterior los mejores modelos son RF y GBM con un 97 % de precisión (Figura 6). En comparación con el caso anterior, al utilizar todos los atributos hay modelos como NB que disminuyen su precisión al reducir la cantidad de atributos.
En la Figura 6 se puede observar que el modelo GBM presenta un mejor recall, pero RF mejora su recall en comparación con el uso de todos los atributos.
Conclusiones
El daño de los estanques registrado en datos históricos muestra efectos devastadores para el país donde ocurre un sismo. En este trabajo se presenta el desarrollo de un modelo de predicción de posible daño en los estanques basado en información de registro histórica y técnicas de aprendizaje automático. Puede concluirse que el análisis de datos y el uso de herramientas de IA permiten analizar cuáles son las características y factores más importantes para que un estanque presente o no daño. El anclaje del estanque cumple un papel clave, ya que se presenta como la característica más relevante para que un estanque no presente daño; sin embargo, solo controlar el anclaje del estanque no asegura que se evite un daño total del mismo, por lo que se deben considerar otras variables para evitar este daño, por ejemplo, la magnitud del sismo.
Diversos métodos de aprendizaje automático fueron evaluados para esta tarea, encontrando que RF y GBM son los mejores modelos para realizar el proceso de clasificación de este problema (presenta o no daño) en los distintos escenarios y condiciones evaluadas para registros. Esto indica que estos algoritmos se adaptan mejor a las condiciones planteadas en la problemática propuesta en este trabajo, asociada a “predecir de forma temprana la ocurrencia de daño de un estanque utilizando información histórica”. El modelo desarrollado alcanza una eficiencia del 93 % de eficiencia. Utilizando el modelo de clasificación GBM se podría estimar si un tanque va o no a presentar daño durante un sismo, en función de su anclaje: G, a, Fs, Mt, Vs. Este trabajo por tanto entrega resultados concluyentes en cuanto a que es si posible determinar los principales atributos que cumplen un papel clave en el modelo recién mencionado.
Finalmente, se determinan los resultados con el bagaje teórico que antecede y sustenta al trabajo desarrollado. Supone una muestra de las reflexiones del autor en relación con el nuevo conocimiento generado en diálogo con el conocimiento ya existente.