1. INTRODUCCIÓN
En Colombia, la evaluación del estado del pavimento en las vías se realiza mediante métodos que permiten recopilar y analizar información de estas. El método VIZIR (Visión Inspection de Zones et Itinéraires Á Risque) se utiliza para concreto flexible y permite clasificar los deterioros en degradaciones de tipo A, debidas a insuficiencias en la capacidad estructural, y degradaciones de tipo B, debidas a deficiencias constructivas y a las condiciones locales. Por su parte, el método PCI (Paviment Condition Index) se utiliza para cualquier tipo de pavimento y establece clase, severidad y cantidad de daño presente. Estos métodos se aplican a partir de inventarios manuales e inspecciones visuales [1], [2]
Las técnicas de fotogrametría y procesamiento de imágenes permiten realizar mediciones en sitio, rápido procesamiento de información y bajo costo [3], [4]. De acuerdo con [5], un proceso típico de inspección puede dividirse en las etapas de preprocesamiento, segmentación y clasificación de la imagen. El preprocesamiento se utiliza para mejorar la calidad de la imagen de entrada con el fin de facilitar el análisis y la interpretación en las etapas subsiguientes. La segmentación es utilizada, según [6], para detectar contornos de un objeto y los límites entre el objeto y el fondo de la imagen. La clasificación tiene como principal objetivo determinar la categoría a la que pertenece cada conjunto de características [7]
Los principales métodos de inspección de carreteras conforman tres categorías: manuales, automáticas y por vibraciones. El método Dynaflect opera sobre el principio de una fuerza vibratoria, que se coloca sobre el pavimento por medio de dos pequeñas ruedas de metal [8]
Los métodos manuales o tradicionales, se utiliza un vehículo que viaja por la carretera, se observan imperfecciones del pavimento y se toman apuntes de ubicación y tipo de fisuras. Estos métodos son caros, dispendiosos y poco precisos debido a la subjetividad de la persona que realiza la inspección. En los métodos automáticos se incorpora un vehículo como sensor al realizar adaptaciones de cámaras con el fin de adquirir tomas de la superficie de la carretera [9], [10]. ARAN es un analizador automático de carreteras que utiliza técnicas de procesamiento de imágenes para la identificación de los deterioros en el pavimento y redes neuronales para la clasificación según su tipo: longitudinal, transversal y piel de cocodrilo [11]. PAVUE es un sistema de procesamiento de imágenes en tiempo real para la evaluación automatizada de grietas en el pavimento que utiliza hasta cuatro cámaras de video e iluminación de flash sincronizado para recopilar los datos. Las imágenes de la superficie se analizan mediante un sistema de evaluación de imágenes automatizado (AIES) y, posterior al análisis de los datos, se presentan mapas de grietas con el tipo y la gravedad [12]
Las redes neuronales son una herramienta de clasificación [13] que permite abordar problemas complejos y no lineales. Las redes neuronales son usadas ampliamente en resolver problemas de ingeniería del pavimento como: el diseño y evaluación de mezcla asfáltica, la evaluación de la permeabilidad, la estimación de la tensión plástica y la estimación de las propiedades mecánicas de los materiales de pavimentación [14]. Uno de los tipos de red neuronal más usado es la red neuronal multicapa con algoritmo de aprendizaje Backpropagation (BP) debido a su potencial como herramienta de predicción y su capacidad para extraer información útil de las muestras [11]. En [15] proponen una red neuronal BP con una configuración (2 13 1): 2 neuronas en la capa de entrada, una capa oculta con 13 neuronas y 1 neurona en la capa salida para clasificar grietas en el pavimento. Esta clasificación se realiza posterior a aplicar un procesamiento de imágenes que implica técnicas como: conversión a escala de grises, detectores de bordes y operaciones morfológicas.
Este documento propone una metodología para la evaluación del pavimento flexible usando técnicas de fotogrametría terrestre y redes neuronales; técnicas que han sido utilizadas para resolver problemas en áreas adyacentes por diferentes autores. El artículo se ordena de la siguiente manera: la sección 2, muestra los materiales y métodos; la sección 3, los resultados obtenidos; la sección 4, la discusión de los resultados; y, la sección 5, las conclusiones.
2. MATERIALES Y MÉTODOS
La metodología de evaluación propuesta en este documento consta de seis etapas: i. Captura de las imágenes desde un automóvil, ii. Preprocesamiento que permite eliminar la distorsión presente en la imagen y la mejora del contraste, iii. Segmentación mediante técnicas de detección de bordes y la trasformada de Beamlet, iv. Extracción de características, v. Clasificación con redes neuronales artificiales (RNA) y vi. Evaluación del área de afectación (ver Figura. 1).
2.1 Captura de las imágenes
Se desarrolla un montaje experimental que permite recolectar información de forma semiautomática, similar a lo realizado por [12] que utiliza un vehículo al cual le adapta cámaras. El montaje consta de un vehículo, una cámara digital GoPro de 11 Megapíxeles, un celular Samsung S3 y una estructura de soporte para la Figura 2.
Para la recolección de la información se capturan imágenes de 2624 x 2880 pixeles a velocidades entre 25 y 30 km/h, en diferentes horas del día (11am- 1 pm y 3-5pm). Entre estas imágenes se escogen las 365 capturadas a una velocidad de 25 km entre 3-5 pm debido a que con estas condiciones de captura se obtienen imágenes con menor efecto de borrosidad y sombras. Las 365 imágenes seleccionadas se etiquetan manualmente y se obtienen 228 con el deterioro de tipo grieta longitudinal, 122 del deterioro piel de cocodrilo y 15 del deterioro de tipo bache. Se descartan las imágenes identificadas como defectuosas por cambios repentinos en las condiciones de captura. El dataset seleccionado consta de 30 imágenes con el deterioro grieta longitudinal, 84 con piel de cocodrilo y 15 con baches. A partir de este se conforma un dataset de entrenamiento balanceado con 10 imágenes de cada tipo de deterioro y un dataset de validación con 10 imágenes para los tipos de deterioro grieta longitudinal y piel de cocodrilo y 5 para baches, (ver Tabla 1).
2.2 Preprocesamiento
Dado que la cámara usada tiene una lente gran angular, se realiza la corrección geométrica de las imágenes mediante el modelo de Zhengyou Zang’s [16], se convierten escala de grises y se mejora el contraste utilizando técnicas que emplean funciones de potencia para eliminar los efectos no uniformes de intensidad en el fondo de la imagen [17]. Este proceso requiere convertir la intensidad del fondo en una intensidad constante B elegida de manera heurística. Se divide la imagen en ventanas de tamaños potencias de 2, en cada ventana se encuentra la media G mean y los mínimos G min y máximos G max de los niveles de gris de la imagen. Se establece un límite superior e inferior para calcular los niveles de gris que se encuentren fuera del rango considerándose ruido, con una limitación de 30 %, como lo muestra (1) y (2) [18]
Para cada ventana se calcula el valor medio G' mean de los niveles de los pixeles que se encuentran dentro del rango comprendido entre r l y r h . Finalmente, se modifica la intensidad de la imagen I, como se muestra en (3) [18].
Donde B es la intensidad de fondo constante.
2.3 Detección de bordes
En las imágenes, el vector gradiente indica las zonas y bordes donde existen cambios de tonalidad [19]. La transformada de Beamlet es un método basado en gradientes que tiene en cuenta la orientación y localización de los objetos lineales o curvos en la imagen, realiza un análisis multiescala de las imágenes y detecta cada segmento de línea mediante una cadena de integrales. La transformada se define como se muestra en (4) [20]-[22]
Donde I es la imagen y b es el Beamlet (haz elemental). También se puede definir como la suma de valores de los píxeles I(x,y), (ver (5)) [18]
La transformada Beamlet ha sido usada con éxito en la detección de líneas, curvas y objetos en imágenes ruidosas provenientes de sensores remotos [21], [23]
El tamaño de ventana que mejor define el deterioro tipo grieta longitudinal es de 16 y el umbral escogido de 0.5, ya que se logra detectar el borde sin perder la forma de este, (ver Figura 3). El umbral escogido para el caso de la piel de cocodrilo y los baches es de 0.7, con un tamaño de ventana de 16. Dado que no se encuentra un umbral en general para los tres tipos de deterioro en la detección de los bordes, las imágenes van a recorrer el mismo proceso con los dos umbrales de 0.5 y 0.7.
Las operaciones morfológicas permiten modificar la forma de los objetos en una imagen a partir de cambios en la intensidad de los pixeles en una vecindad [24]. Las operaciones morfológicas básicas son la erosión y la dilatación [19]. La erosión es aplicada para eliminar el ruido presente en la imagen y la dilatación para rellenar espacios vacíos. Se aplica matemática morfológica con el fin de eliminar el ruido presente en la imagen y extraer el deterioro y las posibles conexiones entre ellos. La Figura 4 ilustra el proceso para las imágenes segmentadas.
Se rellenan los espacios que quedan vacíos después de la umbralización (ver Figura 5), y se esqueletizan los bordes con el fin de detectar el eje medio del borde. Sin embargo, al realizar esta operación morfológica, se generan una serie de ramificaciones no deseadas en el eje del borde que deben ser eliminadas para dejar solamente el deterioro [24]
En el caso de la grieta longitudinal, se tiene en cuenta la orientación como criterio para su identificación. Esta es obtenida a través del etiquetado de cada región de la imagen [25]. A partir del proceso de segmentación se obtienen dos imágenes. Estas imágenes se someten a una inspección a distintos umbrales, con el fin de conocer el umbral que mejor elimine el ruido.
Debido a que no se logra encontrar un solo umbral, es necesario aplicar diferentes umbrales según el tipo de deterioro (ver Tabla 2), generando tres imágenes. A estas imágenes se les calcula el área de los objetos y se define un umbral de forma heurística, en donde si el área es menor a los 1000 pixeles se considera pavimento sano y la imagen sale del proceso.
2.4 Extracción de características
La extracción de características se utiliza para encontrar la información relevante que permita discriminar a qué clase pertenece un elemento. Un vector de características debe cumplir con 5 propiedades importantes: discriminación, fiabilidad, incorrelación, cálculo y dimensionalidad [25]. Los momentos invariantes pueden considerarse como un promedio ponderado de los pixeles de la imagen y se basan en los momentos geométricos que son invariantes al cambio de escala, traslación y rotación [26]. Los momentos invariantes son calculados sobre la información del contorno de la forma y la región interior de los objetos presentes en la imagen [27]
El vector de características definido para la metodología se forma al concatenar los cuatro primeros momentos invariantes de las tres imágenes resultantes de la etapa de detección de bordes. Así, el vector de características para la imagen es de 12 dimensiones.
2.5 Clasificación
Se usa un clasificador supervisado basado en redes neuronales artificiales tipo perceptrón multicapa (MLP) [14]. Para esto se utiliza el Toolbox de Matlab Neural Network, para una red neuronal MLP con algoritmo de aprendizaje Backpropagation Levenberg-Mardquardt.
El número de neuronas en la capa oculta se determinó de forma experimental [28]
3. RESULTADOS
Para evaluar el desempeño de la metodología propuesta se realizó una captura de imágenes en pavimentos reales, se etiquetaron las imágenes manualmente. Además, se determinó la mejor estructura para una red MLP en la etapa de clasificación y se evaluó un conjunto de imágenes usando una adaptación del manual de deterioros de pavimento flexible.
La metodología presentó un tiempo de procesamiento de aproximadamente 9 minutos por imagen. A continuación, se describen las pruebas realizadas.
3.1 Clasificación usando RNA
Se construyeron 15 RNA con 12 neuronas en la capa de entrada. El vector de entrada está compuesto por los 4 primeros momentos invariantes de las tres imágenes resultantes de la etapa de detección de bordes; la capa de salida está compuesta por 3 neuronas que codifican el tipo de deterioro, como se muestra en la Tabla 3.
Debido a que solo se capturaron 15 deterioros de tipo bache y esto es un limitante en la cantidad de patrones a emplear de las demás clases, ya que en este proceso se debe tener en cuenta el máximo número de imágenes o patrones de cada clase para que la RNA no reconozca más un patrón que otro, se emplearon en el proceso de entrenamiento 30 imágenes, 10 por cada deterioro.
Para determinar el mejor clasificador basado en una red MLP, se entrenaron distintas redes variando la cantidad de neuronas en la capa oculta entre 1 y 15, entrenando con el dataset balanceado de 10 imágenes de cada deterioro y se escogieron las 6 redes de menor error medio cuadrático (ver Tabla 4).
La red neuronal escogida presenta la siguiente configuración (12 12 3). A pesar de no ser la de menor error medio cuadrático obtuvo una mayor exactitud en la clasificación (ver Tabla 4). Esta presentó el mejor desempeño entre los clasificadores evaluados con una exactitud global del 96 %, una precisión de 96.97 %, una sensibilidad de 93.33 % y un índice kappa de 0.936.
La matriz de confusión obtenida para la RNA (12 12 3) se muestra en la Tabla 5. Esta confundió únicamente un deterioro de tipo bache con piel de cocodrilo. Teniendo en cuenta que algunas de las imágenes escogidas para la validación no se encontraban totalmente libres de ruido y presentaban el deterioro más de una vez, se trató de encontrar la red neuronal que mejor clasificara a pesar de estos problemas.
3.2 Evaluación del nivel de afectación
Se evaluó el nivel de afectación para cada una de las imágenes. Para el caso del deterioro tipo bache (ver Figura 6), la imagen A obtuvo un área de afectación del 6 %, lo que indica un grado de afectación medio; para el deterioro piel de cocodrilo imagen B, el área de afectación fue de aproximadamente el 12 %, lo cual muestra un grado de afectación de nivel medio; y, para la grieta longitudinal imagen C, el grado de afectación fue de 1.45 %, equivalente a nivel ligero. El cálculo se realizó considerando que el área del deterioro se encuentra en función del número de pixeles, por lo que el grado de afectación estará influenciado por ellos.
4. DISCUSIÓN
Como clasificador de los deterioros se utilizó una red neuronal perceptrón multicapa con configuración (12 12 3). El clasificador tuvo una exactitud general del 96 %, producto de confundir un deterioro tipo bache con el deterioro piel de cocodrilo. Esta arquitectura del clasificador es similar a la utilizada por [13], que utilizó una red neuronal con configuración (3 8 3) y obtuvo una exactitud del 97.5 %. Sin embargo, [13] no considera en su clasificación el deterioro tipo piel de cocodrilo. Por otro lado, [3] utilizó una red neuronal MLP con configuración (2 3 4) y obtuvo una exactitud del clasificador 98.6 %, pero no incorporó el deterioro tipo bache. La Tabla 6 muestra las exactitudes obtenidas por diferentes autores en cuanto a la clasificación de deterioros en el pavimento.
La transformada de Beamlet, a comparación de los operadores clásicos, ofrece una representación óptima y mayor precisión de la posición, localización y orientación en la detección del borde; sin embargo, es necesario aplicar una etapa de limpieza de bordes para evitar falsas detecciones de grieta, como lo menciona [5], [20]. Al igual que en el trabajo de [23], se presentaron problemas en la detección de las fisuras en el pavimento debido a que se genera ruido y falla en los puntos de conexión lineales, aunque se preserva una cantidad significativa de los deterioros y se observa, al igual que [21], que el procesamiento por medio de este método inhibe la subjetividad visual humana y da lugar a una serie de haces de líneas con orientación, longitud y ubicación precisa de las grietas presentes en el pavimento.
El tiempo de procesamiento en este proyecto es de aproximadamente 9 minutos para una imagen de 2624 x 2880 pixeles. Esta medición está influenciada por las características del hardware utilizado. La transformada de Beamlet es el proceso de la metodología propuesta que demanda más recursos computacionales, lo que aumenta considerablemente el tiempo de procesamiento reportado en [23], que indica que el tiempo de procesamiento en su proyecto oscila entre 18.23 y 34.72 segundos para una imagen de 256 x 256 pixeles.
A diferencia de [7], que utilizó en su estudio los siete momentos invariantes, y de [26], que empleó una mejora de los momentos invariantes de Hu agregando un octavo momento, en este proyecto se utilizaron los primeros cuatro momentos invariantes como vector de características, obteniendo un porcentaje de aciertos del 96 %.
5. CONCLUSIONES
Se desarrolló una metodología semiautomática que permite la detección de distintos deterioros en pavimentos (grieta longitudinal, bache y piel de cocodrilo) y realiza una evaluación cuantitativa de los mismos, lo que la convierte en insumo para la oportuna toma de decisiones en cuanto al mantenimiento de la malla vial.
Entre los clasificadores evaluados, la arquitectura con mejor desempeño para la clasificación de los deterioros presentes en el pavimento flexible es una red neuronal perceptrón multicapa con configuración (12 12 3), entrenada con el algoritmo Levenberg Marquardt de retro propagación. Este clasificador obtuvo un porcentaje de aciertos del 96 %, una precisión total del 96.97 %, una sensibilidad de 93.33 % y una índice kappa de 0.936. Para los tipos de deterioro piel de cocodrilo y grieta longitudinal se alcanzó una exactitud en la clasificación del 100 % y 80 % para el deterioro tipo bache.
El sistema propuesto para la evaluación del deterioro de las vías puede complementarse incorporando sistemas de iluminación que disminuyan el efecto de sombras en las imágenes e información de la ubicación espacial de los deterioros detectados. Además, se recomienda introducir clasificadores basados en redes convolucionales que pueden mejorar la precisión de la detección al usar mayores recursos computacionales y algoritmos más elaborados.
Finalmente, se recomienda adaptar y aplicar esta metodología para abarcar los tipos de pavimento flexible y rígido.