INTRODUCCIÓN
El cultivo de papa, se destaca en Colombia como uno de los productos alimenticios de mayor impacto en las actividades agropecuarias, dado que, en torno a su explotación, se genera el desarrollo de varios sectores de la economía, como el transporte, la industria, los distribuidores de agroquímicos, la producción de empaques, entre otros (Betancourth G. et al. 2008). La papa es uno de los cultivos que mayor influencia tiene en regiones de clima frío y uno de los de mayor aumento en investigación, en todo el proceso de producción, debido a que el problema más común de este cultivo es la presencia de la gota, tizón tardío o añublo de la papa, producida por el Oomyceto Phytophthora infestans, la enfermedad más limitante, a nivel mundial, afectando, tanto a las hojas como tallos y tubérculos (Pérez & Forbes, 2011). Los síntomas varían según el órgano afectado, la variedad y las condiciones climáticas. En hojas, el tizón tardío inicia como pequeñas manchas de color verde claro, que crecen rápidamente, tornándose de color café grisáceo.
El diagnóstico temprano de las enfermedades de las plantas es de gran importancia para la agricultura sostenible, para prevenir el desperdicio innecesario de recursos financieros, evitando usar cantidades considerables de plaguicidas y de fungicidas, para mejorar la calidad de los cultivos (Sladojevic et al. 2016). El problema en la implementación de métodos de análisis avanzados, se presenta cuando las plantas no muestran síntomas visibles en sus hojas o tallos; sin embargo, la mayoría de las enfermedades generan síntomas visibles (Atila et al. 2021). Una de las áreas de mayor investigación para mejorar las condiciones que influyen en los cultivos es la agricultura de precisión o agrónica, que incluyen algoritmos de aprendizaje de máquina (ML, por sus siglas en idioma inglés) (Sharma et al. 2021).
En los últimos años, la visión por computador, el aprendizaje automático y el aprendizaje profundo (DL, por sus siglas en idioma inglés), se han vuelto cada vez más importantes, debido a su capacidad para procesar, con alta exactitud, datos complejos (Saleem & Chishti, 2021). Estas técnicas son las principales disciplinas para desarrollar sistemas rápidos, automáticos y precisos, para la identificación y la clasificación de imágenes (Too et al. 2019). Actualmente, se implementan sistemas que diagnostican, de forma automática, una extensa variedad de enfermedades presentes en diversos cultivos (Rangarajan Aravind et al. 2020). Para diagnosticar cuatro enfermedades, Devaraj et al. (2019) realizaron ajustes en la imagen, para posteriormente segmentarla, con la técnica de agrupación K-means y realizar la extracción de características de las hojas; dichas características fueron clasificadas por un bosque aleatorio (RF, por sus siglas en idioma inglés).
Debido a la fácil adaptación e implementación de los métodos de ML en hardware, como unidades centrales de procesamiento, unidades de procesamiento gráfico y arreglos de compuertas lógicas programables (Lecun et al. 2015), se abrieron las puertas para la implementación de nuevos métodos de alto rendimiento, lo que condujo al DL. Entre los diferentes tipos de redes neuronales profundas, las redes neuronales convolucionales (CNN, por sus siglas en idioma inglés) han sido las más estudiadas (Gu et al. 2018) y tienen buen rendimiento en la detección y en el diagnóstico de enfermedades, obteniendo características genéricas de los conjuntos de datos conformado por imágenes; sin embargo, existen desafíos en la implementación de CNN. Uno de ellos es recopilación de datos para el entrenamiento, puesto que se requiere un conjunto de datos bastante amplio, que contengan una gran variedad de condiciones para funcionar correctamente, además del gran esfuerzo para la recopilación (Arnal Barbedo, 2018). Por tanto, parte la comunidad científica ha optado por el uso de conjuntos de datos disponibles públicamente (Neupane & Seok, 2020; Yin et al. 2021; Zhang et al. 2019), entre otros, como en PlantVillage (Hughes & Salathe, 2015), el cual, es un conjunto de datos que consta de 39 clases diferentes de hojas sanas e infectadas en 14 cultivos (Xiong et al. 2020). Los conjuntos de datos actuales presentan desafíos, debido a la compleja información del fondo de las imágenes y los datos de entrenamiento, cuando son insuficientes, pueden llevar a un reconocimiento incorrecto, por lo que es necesario métodos alternativos para entrenar estos sistemas inteligentes (Geetharamani & Arun Pandian, 2019).
Motivados por el éxito en la clasificación de imágenes por medio de CNN, Rahman et al. (2020) entrenaron arquitecturas, como VGG16, InceptionV3, MobileNet, NasNet Mobile, SqueezeNet y un modelo CNN simple; la validación utilizó un conjunto de datos que consta de 1,426 imágenes, en escenarios de la vida real, que cubren ocho enfermedades y plagas del arroz; el resultado en la identificación de las zonas afectadas obtuvo una exactitud del 93,3 %. Se evidencia que la arquitectura propuesta por los autores es 99 % más pequeña en cantidad de parámetros que la comprenden, respecto a la arquitectura VGG16, lo que la hace versátil para aplicaciones móviles. Ferentinos (2018) entrenó las arquitecturas AlexNet, AlexNetOWTBn, GoogLeNet, Overfeat y VGGNet, con un conjunto de datos abierto, que consta de 87,848 imágenes, que contenían 25 plantas diferentes, con un total de 58 clases, alcanzando una tasa de éxito del 99,53 % en la arquitectura VGGNet. Concluyendo que esta arquitectura se convertiría en una herramienta de advertencia o alerta temprana, muy útil para el agricultor.
Islam et al. (2019) demuestran que el aprendizaje por transferencia se puede usar para la detección temprana de enfermedades de la papa, cuando no se cuenta con un gran conjunto de datos. Los autores utilizaron 2.152 imágenes, correspondientes a dos enfermedades de la papa y hojas sanas, logrando una precisión del 99,43 % en la arquitectura VGG16. Los autores concluyen que el resultado que obtuvieron supera a todos los trabajos existentes sobre la detección de enfermedades en la papa.
Este estudio propone una CNN propia, que ha sido evaluada en su rendimiento, mediante arquitecturas AlexNet, ZFNet, VGG16 y VGG19, para el diagnóstico de la enfermedad tizón tardío del cultivo de papa. Adicionalmente, se utilizaron los datos aumentados del conjunto de datos PlantVillage, obtenido de Geetharamani & Arun Pandian (2019), el cual, se emplea en diferentes tipos de estudios para realizar análisis de comportamiento de algoritmos y modelos de IA y DL (Atila et al. 2021; Zeng et al. 2020). El principal objetivo de este estudio es analizar el rendimiento de la arquitectura de DL propuesta para la clasificación de la enfermedad tizón tardío y compararlo con otros modelos de DL.
MATERIALES Y MÉTODOS
Conjunto de datos. El conjunto PlantVillage (Hughes & Salathe, 2015) es uno de los más utilizados en el mundo para realizar análisis de comportamiento de modelos de DL, en contextos académicos. Este conjunto de datos ocupa un tamaño de 1,67 GB y cuenta con 39 clases diferentes de hojas sanas e infectadas, que incluye alrededor de 61.486 imágenes de 14 cultivos diferentes, como manzana, mora, maíz, uva, durazno, tomate y papa. Las imágenes de este conjunto de datos, se encuentran en el modelo de color RGB, con una dimensión de 256x256 pixeles. Para este estudio, se utilizó una parte del conjunto de datos aumentado de PlantVillage, correspondiente al cultivo de papa. El fragmento del conjunto de datos utilizado consta de 3 carpetas de imágenes, correspondientes a las clases tizón temprano (1.000 imágenes), tizón tardío (1.000 imágenes) y saludable (152 imágenes), las cuales, pertenecen a muestras de cultivos de diferentes zonas del mundo. Para el caso de investigación, se utilizan las imágenes de las clases tizón tardío y saludable (Tabla 1), que competen a la enfermedad de estudio.
Debido a que el conjunto de datos seleccionado se encuentra desequilibrado (Tabla 1), se utiliza el conjunto de datos aumentado de PlantVillage, donde utilizaron seis técnicas de aumento diferente, para incrementar en 848 muestras adicionales, la clase saludable del conjunto de datos; las técnicas de aumento de datos utilizadas son: volteo de imágenes, corrección Gamma, inyección de ruido, aumento de color PCA, rotación y escalado (Hughes & Salathe, 2015). El proceso del aumento de datos tiene como objetivo incrementar el número de imágenes de la clase minoritaria del conjunto de datos y ayuda a evitar el sobreajuste (overfitting) al momento de entrenar los algoritmos de ML; este problema se presenta cuando la red aprende de los casos particulares en lugar del patrón general (Peng & Lee, 2021). Las imágenes seleccionadas, se dividieron en tres subconjuntos: entrenamiento (85 %), validación (3 %) y prueba (12 %). Se analizó el conjunto de datos, tomando un 70, 75, 80 y 85 %, para el conjunto de datos de entrenamiento, con el fin de ir ajustado los modelos. Los modelos de CNN, se estabilizaron con una tasa del 85 %. En la tabla 1, se muestra el número de imágenes utilizadas en entrenamiento, en validación y en prueba. Los conjuntos de datos de entrenamiento y validación solo se utilizaron para entrenar y ajustar el modelo, mientras que el conjunto de prueba se usó para evaluar el rendimiento en el diagnóstico de muestras que el modelo no consideró antes. En el entrenamiento, se detectaron patrones de información que pueden ser utilizados en diferentes tipos de cultivos de papa que tengan la misma sintomatología y, por medio de métricas de evaluación, se estima el comportamiento de las arquitecturas.
Red neuronal convolucional. En el DL no se divide la extracción de características de la clasificación, porque la arquitectura extrae automáticamente las características, mientras se entrena; sin embargo, las CNN reducen la velocidad de entrenamiento y detección, debido al gran número de parámetros y de operaciones computacionales (Tang et al. 2020).
Arquitecturas redes neuronales convolucionales. En total cuatro arquitecturas fueron entrenadas y validadas con el conjunto de datos seleccionado: AlexNet, ZFNet y VGGNet, en sus versiones VGG16 y VGG19. En estas arquitecturas, se utilizó el optimizador de descenso de gradiente de código Adam, con una tasa de aprendizaje de 0,00001. La arquitectura de CNN propuesta se comparó con las arquitecturas anteriormente mencionadas.
AlexNet v1.0 es una arquitectura profunda, que contiene cinco capas convolucionales, tres totalmente conectadas y más filtros por capa, lo que mejora la extracción de características y demuestra ser una arquitectura innovadora, con los mejores resultados, hasta la fecha, en tareas de clasificación de imágenes, logrando una tasa de error del 15,3 % (Chen et al. 2021).
ZFNet v1.0 introduce mejoras significativas reduciendo el tamaño del filtro de la primera capa convolucional de 11x11 a 7x7, con pasos de 2 pixeles, en lugar de 4. Esta nueva arquitectura retiene mucha más información en las características de la primera y segunda capa; como resultado de todas estas modificaciones, ZFNet obtuvo un error de alrededor del 16 % (Fu et al. 2020).
VGGNet v1.0 VGGNet introduce un nuevo aspecto importante en el diseño de CNN, aumentando constantemente la profundidad de la red, agregando más capas convolucionales, lo cual, es viable, debido al uso de filtros 3x3 en todas las capas, logrando un mejor resultado en la métrica de precisión en tareas de clasificación de imágenes, en dos de sus modelos: VGG16 Y VGG19. Esta arquitectura demuestra que la profundidad del mapa de características es beneficiosa para la precisión de la clasificación (Prasetyo et al. 2021).
Métricas de evaluación. Según Huerta-Mora et al. (2020), la exactitud, la sensibilidad, la especificidad, la precisión, el puntaje F1, la matriz de confusión y la curva característica operativa del receptor (ROC) son las métricas de evaluación más utilizadas y confiables para conocer el rendimiento de los modelos de CNN.
Matriz de confusión: La matriz de confusión es una tabla que describe el rendimiento de los modelos de ML, se utiliza para estimar la precisión y la exactitud del modelo y es utilizada donde la salida es de dos o más tipos de clase. La matriz de confusión es un resumen de los aciertos y desaciertos realizados por la CNN en la clasificación, mediante la contabilización de cuatro variables: verdadero positivo, verdadero negativo, falso negativo y falso positivo (Huerta-Mora et al. 2020).
Curva ROC: Este gráfico evalúa la capacidad de los modelos de CNN en todos los umbrales de clasificación entre la tasa de TP y la tasa de FP, mostrando qué tan buenos son los modelos para distinguir entre las clases tizón tardío y saludable (Lobo et al. 2021).
Entrenamiento. Las arquitecturas de las CNN, se implementaron utilizando las bibliotecas pandas, numpy, tensorflow y scikit-learn, que utilizan el lenguaje de programación Python. El entrenamiento y la validación, se realizó en Google Cola, mientras que el test de las arquitecturas entrenadas, sobre un computador portátil ASUS S46C, con un Core i7 3a Gen - (8GB/1TB HDD/Windows 10 Pro) y equipado con tarjeta gráfica NVIDIA GeForce GT 740 M, en el entorno de desarrollo Jupyter Notebook usando Python 3.7.
Los parámetros de entrenamiento fueron los mismos para todas las arquitecturas y se seleccionaron con base en Geetharamani & Arun Pandian (2019), quienes realizaron variaciones en los parámetros de las CNN en el entrenamiento. El optimizador utilizado para el entrenamiento es el optimizador Adam, con una tasa de aprendizaje de 0,00001 (Lee et al. 2020) y la cantidad de épocas seleccionada fue 250. En este estudio, cada valor de píxel de las imágenes del conjunto de datos utilizado se normalizó dividiendo por 255. Luego, las imágenes se redimensionaron al tamaño predeterminado aceptado por cada CNN.
RESULTADOS Y DISCUSIÓN
Con base en los resultados de las matrices de confusión de la figura 1, se hallaron las métricas de evaluación de las ecuaciones 1-5. La tabla 3 muestra la exactitud o tasa de aciertos totales de cada modelo con el conjunto de datos de prueba. La arquitectura VGG16 logró el mejor rendimiento respecto a las demás arquitecturas, alcanzando una exactitud del 96 %, mientras que AlexNet presentó el segundo mejor rendimiento, logrando una exactitud del 94 %. Por otra parte, la arquitectura ZFNet obtuvo un rendimiento ligeramente menor a las arquitecturas AlexNet y VGG16, mientras que la arquitectura VGG19 arrojó los valores de exactitud más bajos con respecto a las otras tres arquitecturas, alcanzando apenas un 79 % en la exactitud. La sensibilidad o eficiencia de las arquitecturas de CNN para detectar muestras que efectivamente presentan la enfermedad tizón tardío en las hojas de papa, expone que VGG16 presentó el mejor rendimiento, con un 92 % de sensibilidad, mientras que AlexNet logró el segundo mejor rendimiento, con un 88 % de sensibilidad.
La especificidad o la capacidad del clasificador para detectar las muestras que efectivamente son negativas o no presentan la enfermedad tizón tardío, se muestra en la tabla 3, evidenciando que todas las arquitecturas clasifican de manera satisfactoria las hojas sanas. La precisión de las arquitecturas de CNN para clasificar hojas correctamente con la enfermedad tizón tardío, también se muestra en la tabla 3, señalando que las arquitecturas presentan un excelente desempeño al clasificar las hojas que, efectivamente, tienen la enfermedad tizón tardío, dado que ninguna arquitectura presenta algún FP en la matriz de confusión. Por último, la métrica puntaje F1 evidencia que, en las CNN, la precisión y la sensibilidad son igual de importantes; los resultados encontrados muestran que las dos mejores arquitecturas son VGG16 y AlexNet, logrando un puntaje F1 del 96 y del 93 %, respectivamente.
La figura 2 evidencia cuáles fueron arquitecturas que extrajeron los modelos genéricos del conjunto de datos y presentaron un rendimiento óptimo en todas las métricas de evaluación presentadas. La curva ROC muestra la relación entre tasa de TP y la tasa de FP, observando que las mejores arquitecturas que distinguen entre hojas sanas y hojas infectadas con tizón tardío son VGG16 y AlexNet.
Además de entrenar y evaluar los modelos CNN de última generación, se construyó desde cero una arquitectura CNN, que consta de 11 capas, para una imagen de entrada de 227x227 pixeles (Tabla 2), inspirada en la naturaleza secuencial de VGG16. El modelo propuesto, se entrenó bajo las mismas condiciones que los otros modelos de CNN, con el fin de comparar las arquitecturas bajo las mismas configuraciones. El rendimiento de la arquitectura propuesta, se compara con las arquitecturas que mejor rendimiento presentaron en las métricas de evaluación, para este estudio: VGG16 y AlexNet. El modelo propuesto obtuvo un rendimiento cercano a los modelos que mejores resultados presentaron en las pruebas, logrando una exactitud de 5 % menos respecto a VGG16 y 3 % menos respecto a AlexNet (Tabla 3). Por otra parte, la arquitectura propuesta presentó un porcentaje de entre el 6-3 % menos en el puntaje F1 respecto a las arquitecturas VGG16 y AlexNet (Tabla 3).
El puntaje F1, se considera la métrica de rendimiento más importante, por lo que la arquitectura con el valor mayor en esta métrica se consideró la arquitectura de mejor rendimiento en la identificación y en la clasificación del tizón tardío en el cultivo de papa, la cual, fue VGG16. Esta es una arquitectura consistente y eficiente que obtuvo una puntuación superior al 92 % en todas las métricas de evaluación (Tabla 3). Otra de las arquitecturas que presentó un excelente desempeño fue AlexNet, que obtuvo un mejor rendimiento en función de la cantidad de parámetros que la componen. AlexNet tiene, aproximadamente, 58,3 millones de parámetros, mientras que VGG16, cerca de 134,3 millones de parámetros. Realizando una comparación directa del puntaje F1 entre estas dos arquitecturas, AlexNet alcanza 93 %, mientras que VGG16, el 96 %. Esta es una diferencia mínima en el puntaje F1, que se ve traducido en 5 clasificaciones mal realizadas entre una arquitectura y otra, lo que hace que AlexNet sea la mejor opción de las arquitecturas estudiadas.
El rendimiento de la arquitectura propuesta comparado con AlexNet, se puede considerar que es bueno y prometedor, debido a que el desempeño de la arquitectura propuesta es cercano a AlexNet y, además, es un modelo que ocupa un ligero tamaño en disco y tiene una arquitectura profunda. Esto puede hacer que nuestro modelo realice una mejor abstracción de las características genéricas si se aumenta el conjunto de datos o se aumenta el número de clases.
Al comparar la exactitud de la arquitectura propuesta con estudios similares encontrados en la literatura, se encuentra que Islam et al. (2019) obtienen una exactitud del 99,43 %, pero utilizan el aprendizaje por transferencia para entrenar la CNN, propuesta por los autores, empleando VGG16; por otro lado, Militante et al. (2019) logran una exactitud del 96,5 %, con la única diferencia que utiliza un conjunto de datos más amplio de 35.000 imágenes. Por último, en el estudio de Lee et al. (2020), se obtuvo una exactitud de 99 %; en este estudio, los autores realizaron un ajuste en las imágenes, eliminando el fondo y dejando solo la hoja de la papa en la imagen para el posterior entrenamiento de la CNN. Por tanto, es posible utilizar eficazmente la arquitectura propuesta de CNN para diagnóstico temprano del tizón tardío en el cultivo de papa, procesando cada imagen y proporcionando resultados altamente precisos en tiempo real, debido al tamaño de la arquitectura y a la cantidad de parámetros que la comprende. Dichas características hacen que la arquitectura propuesta sea idónea para la creación de diversos tipos de interfaces humano máquina. Como un trabajo futuro, se pretende estructurar el conjunto de datos propio, enfocado en las variedades de papa cultivadas de la sabana cundiboyacense y realizar el análisis de comportamiento de las arquitecturas de CNN en nuestro contexto.