SciELO - Scientific Electronic Library Online

 
vol.54 número1Propiedades psicométricas de la escala de necesidades de familias de adultos con discapacidad intelectual versión colombianaSíndrome autoinmune / inflamatorio inducido por adyuvantes (ASIA), tratamiento médico de compromiso sistémico severo: reporte de caso índice de autoresíndice de materiabúsqueda de artículos
Home Pagelista alfabética de revistas  

Servicios Personalizados

Revista

Articulo

Indicadores

Links relacionados

  • En proceso de indezaciónCitado por Google
  • No hay articulos similaresSimilares en SciELO
  • En proceso de indezaciónSimilares en Google

Compartir


Colombia Médica

versión On-line ISSN 1657-9534

Resumen

MENDOZA-URBANO, Diana Marcela et al. Extracción automatizada de información en español de texto libre de informes de patología oncológica. Colomb. Med. [online]. 2023, vol.54, n.1, e2035300.  Epub 30-Mar-2023. ISSN 1657-9534.  https://doi.org/10.25100/cm.v54i1.5300.

Introducción:

Los reportes de patología están almacenados como texto libre sin estructura, gramática, fragmentados o abreviados, con variabilidad lingüística entre patólogos. Por esta razón, la extracción de información de tumores requiere un esfuerzo humano significativo. Almacenar información en un formato eficiente y de alta calidad es esencial para implementar y establecer un registro hospitalario de cáncer.

Objetivo:

Este estudio busca describir la implementación de un algoritmo de Procesamiento de Lenguaje Natural para reportes de patología oncológica.

Métodos:

Desarrollamos un algoritmo para procesar reportes de patología oncológica en Español, con el objetivo de extraer 20 descriptores médicos. El abordaje se basa en la coincidencia sucesiva de expresiones regulares.

Resultados:

La validación se hizo con 140 reportes de patología. La identificación topográfica se realizó por humanos y por el algoritmo en todos los reportes. La morfología fue identificada por humanos en 138 reportes y por el algoritmo en 137. El valor de coincidencias parciales (fuzzy matches) promedio fue de 68.3 para Topografía y 89.5 para Morfología.

Conclusiones:

Se hizo una validación preliminar del algoritmo contra extracción humana sobre un pequeño grupo de reportes, con resultados satisfactorios. Esto muestra que múltiples atributos del espécimen pueden ser extraídos de manera precisa de texto libre de reportes de patología en Español, usando un abordaje de expresiones regulares. Adicionalmente, desarrollamos una página web para facilitar la validación colaborativa a gran escala, lo que puede ser beneficioso para futuras investigaciones en el tema.

Palabras clave : Registro del programa nacional de cancer; inteligencia artificial; aprendizaje de ontologia; ciencia de los datos; reportes em patologia del cancer; expresiones regulares; algoritmo.

        · resumen en Inglés     · texto en Español | Inglés     · Español ( pdf ) | Inglés ( pdf )