1. INTRODUCCIÓN
Hoy en día la cantidad de datos producidos a nivel mundial es muy alta. Por ejemplo, en la Internet se producen millones de datos debido a la utilización masiva de las redes sociales, servicios de mensajería, blogs, wikis, comercio electrónico, entre otros. Toda esta gama de datos es atractiva para diferentes estamentos comerciales, industriales y académicos 1, pero la extracción y su respectivo procesamiento hacen que esta tarea sea muy compleja y difícil si se hace de forma manual.
Debido a lo anterior, existen las técnicas de procesamiento natural (PLN) y particularmente el análisis de sentimientos (AS). El AS busca analizar las opiniones, sentimientos, valoraciones, actitudes y emociones de las personas hacia entidades como productos, servicios, organizaciones, individuos, problemas, sucesos, temas y sus atributos 2.
El AS ha mostrado una alta tendencia de investigación en los últimos años debido a la producción en gran escala de opiniones y comentarios por parte de usuarios activos en la Internet. Hasta ahora, la gran mayoría de trabajos de investigación involucran sistemas de AS en el idioma inglés. Por este motivo, la comunidad científica está interesada en trabajos diferentes a este lenguaje.
Los enfoques tradicionales para el AS tratan de detectar la polaridad global de una frase, un párrafo o un texto completo 3. Éstos se conocen como análisis a nivel de documento y buscan clasificar el sentimiento de todo un documento en positivo o negativo 4. Otros enfoques son a nivel de frase y a nivel de aspectos. El nivel de frase clasifica el sentimiento expresado en cada oración y el de aspectos lo clasifica con respecto a las características específicas de una entidad encontradas en cada frase. Los dos primeros enfoques, resultan a veces incompletos ante la realidad de las empresas u organizaciones que quieren saber en detalle el comportamiento de su producto 5. Este tipo de análisis no permite a las organizaciones tener la seguridad o la entereza de tomar algunas acciones correctivas o incluso la toma de decisiones estratégicas.
El AS a nivel de aspectos tiene como objetivo identificar las propiedades o características de un producto o una entidad y determinar la opinión o sentimiento expresado de cada aspecto de esa entidad. Un aspecto es un atributo o componente de una entidad, por ejemplo, la pantalla de un televisor o la calidad de las fotografías de una cámara. En la literatura existen dos subtareas importantes para hacer AS a nivel de aspectos 6. La primera tarea está relacionada en detectar los aspectos de una entidad en un texto dado y la segunda determinar el sentimiento asociado a ese aspecto 7. Por ejemplo, en la frase, "La calidad del sonido de este teléfono es increíble ", el aspecto es "sonido" y la entidad es "teléfono". El sentimiento asociado es "increíble" que es una calificación "positiva".
En cuanto a la detección de aspectos, muchos trabajos en la literatura trabajan con una lista predeterminada que permite su extracción de una forma más cómoda 8 y 6. Cuando esta lista de aspectos no existe se deben buscar mecanismos para hallar los aspectos de forma automática. Una de las propuestas cuando no está la lista, es el conteo de nombres y frases para calcular su frecuencia dentro de un documento 7), (9. Este enfoque funciona aceptablemente pero se olvida de aquellos aspectos que no aparecen mucho en el texto. Otra propuesta aprovecha las relaciones entre sentimiento y aspectos 10 y 11 el cual después de buscar los sentimientos, encuentra la relación con palabras o frases que puedan ser aspectos. Este enfoque se ha usado mucho en sistemas en el idioma ingles y depende mucho de un conjunto de recursos lingüísticos donde aparecen etiquetados un grupo de sentimientos. Otra propuesta se basa en modelos de aprendizaje supervisado que necesitan un conjunto previo de datos etiquetados para entrenamiento 12), (13), (14 y 15. Otro enfoque se basa en modelos estadísticos "Topic model" que se basan en principios basados en inferencia probabilística y se puede ampliar para modelar muchos tipos de información. Esto lo hace tener algunas debilidades que limitan su uso práctico en la vida real en aplicaciones de análisis de sentimiento. Para este enfoque se necesita un gran volumen de datos y una cantidad significativa de afinación con el fin de lograr resultados razonables. Si bien no es difícil para este enfoque encontrar temas frecuentes o aspectos de una colección de documentos grande, no es fácil de encontrar aquellos aspectos que son localmente frecuentes, pero a nivel mundial no son tan frecuentes.
Todos los enfoques anteriores no tienen en cuenta el significado de las palabras que representan los aspectos. Éstos son considerados simples "etiquetas" que no son situadas en el contexto de la opinión ni en el dominio de la entidad a la cual se está refiriendo. Teniendo en cuenta esto, este articulo busca indagar más acerca de las nuevas propuestas que tienen en cuenta el significado para la extracción de aspectos de forma automática, especialmente el uso de ontologías. Lo propuesto es un paso desde el enfoque tradicional basado en palabras hacia un modelo semántico para el procesamiento del lenguaje natural. Si bien el concepto semántico sólo recientemente ha comenzado a aplicarse en el análisis de sentimientos 16, este aporta de forma natural el conocimiento de sentido común, el general del mundo y el del dominio.
En la literatura se han abordado diferentes tipos de aplicaciones de la ontología en sistemas de análisis de sentimiento. Por ejemplo, han sido probadas para la detección de aspectos en 17 aportando sus estructuras semánticas al hallazgo de características precisas de las entidades de estudio. En otros trabajos como 18), (19), (20), (21 y 22 se han evidenciado la aplicación de ontologías para AS en comentarios en twitter, análisis de noticias financieras y opiniones de hoteles. En el contexto de esta propuesta, las ontologías consisten en especificaciones formales y explícitas que representan los conceptos de un determinado dominio y sus relaciones, es decir, son un modelo abstracto de un dominio, donde los conceptos utilizados están claramente definidos 23. Estas ontologías son muy utilizadas en la llamada Web semántica para representar una base de conocimientos que involucra el trabajo de agentes inteligentes. Los componentes de una ontología según 24 son:
Clase: conjunto de objetos (físicos, tareas, funciones, etc.). Cada objeto en una clase es una instancia de esa clase.
Relaciones: Se establecen entre conceptos de una ontología para representar las interacciones.
Propiedades: Los objetos se describen por medio de un conjunto de características o atributos. Estos almacenan diferentes clases de valores. Las especificaciones, rangos y restricciones sobre estos valores se denominan facets.
Instancias: Son objetos, miembros de una clase, que no pueden ser divididos sin perder su estructura y características funcionales. Pueden ser agrupados en clases.
Axioma: Elementos que permiten la modelación de verdades que se cumplen siempre en la realidad. Existen tres tipos de axiomas: relacionales, no- relacionales y generales.
El trabajo presentado en este artículo está motivado principalmente por la necesidad de indagar sobre las técnicas que se han aplicado en sistemas de análisis de sentimientos donde haya sido utilizada las ontologías para la detección de aspectos (características) de una entidad, que permitan dar las bases necesarias para la construcción de un modelo de AS a nivel de aspectos para el español .En las próximas secciones se aborda la metodología utilizada, los resultas encontrados y finalmente las conclusiones.
2. METODOLOGÍA
Para la realización de esta investigación se tuvieron en cuenta las siguientes fases:
Revisión sistemática: se realizó una revisión sistemática 25 que permitió identificar, evaluar, interpretar y sintetizar los trabajos más representativos de la literatura que abordarán el objeto de estudio. Es decir, el análisis de sentimientos y las ontologías. Al final de la revisión se seleccionaron diez (10) trabajos considerados los más relevantes según el objeto de estudio. Para la selección de estos trabajos se tuvo en cuenta la utilización de la ontología en Análisis de sentimientos independiente del enfoque utilizado. Los trabajos se muestran en la tabla 1.
Definición de criterios: a partir de los trabajos seleccionados se hace un análisis detallado para establecer una serie de criterios comunes que aparecen en los sistemas de análisis de sentimientos. Estos criterios se definen en la tabla 2.
Análisis de criterios: a partir de los documentos seleccionados y los criterios determinados, se realizó un análisis comparativo plasmado en una tabla donde se aprecia el comportamiento de los trabajos versus los criterios.
Determinar hallazgos: se establecieron los posibles hallazgos a partir del análisis anterior como son las técnicas, procedimiento y recursos utilizados en cada una de las propuestas.
3. RESULTADOS
A partir de los criterios y los trabajos seleccionados se realiza un análisis comparativo. La comparación se establece con algunas categorías determinadas en algunos criterios. Por ejemplo, en el criterio GA y DH se tienen las categorías de baja, media y alta. En el CO se establece SI es creada o NO. En el criterio UO se establece si se utiliza para analizar sentimiento o extraer aspectos. En la tabla 3 se muestra el resultado de la comparación.
De acuerdo al análisis comparativo, se pueden establecer los siguientes resultados: en cuanto al primer criterio establecido se encontró que de los trabajos estudiados se enfocan en un análisis de sentimientos a nivel de documento con un 60%, a nivel de aspectos con un 30% y no aplica en un 10% (figura 1). El grado de automatización es 60% un grado medio y 40% en un alto grado (figura 2).
Núm. | Autores | Año | Titulo |
---|---|---|---|
1 | Zhou & Chaovalit | 2008 | Ontology-Supported Polarity Mining 26 |
2 | Lau, Lai, Ma, & Li | 2009 | Automatic domain ontology extraction for context-sensitive opinion mining 27 |
3 | Cadilhac, Benamara, & Aussenac-Gilles | 2010 | Ontolexical resources for feature based opinion mining: a case-study 28 |
4 | Liu, Nie, & & Wang | 2012 | Toward a fuzzy domain sentiment ontology tree for sentiment analysis. 29 |
5 | Kontopoulos E. , Berberidis, Dergiades, & Bassiliades | 2013 | Ontology-based sentiment analysis of twitter posts 18 |
6 | Freitas & Vieira | 2013 | Ontology based feature level opinion mining for portuguese reviews 19 |
7 | Lau, Li, & Liao | 2014 | Social analytics: Learning fuzzy product ontologies for aspect-oriented sentiment analysis. 5 |
8 | Penalver-Martinez I. , y otros | 2014 | Feature-based opinion mining through ontologies. 21 |
9 | Qiu. | 2015 | An Opinion Analysis Model for Implicit Aspect Expressions based on Semantic Ontology 30 |
10 | Bertola & Patti | 2016 | Ontology-based affective models to organize artworks in the social semantic web 31 |
Número | Criterio | Abreviatura | Descripción |
1 | Enfoque | EN | Indica como al final se analiza el sentimiento. Es decir, a nivel de documento (DOC), frase (FRA) o aspectos (AS). |
2 | Grado de automati zación | GA | Indica que nivel de automatización que tiene el sistema para clasificar sentimiento o extraer aspectos. |
3 | Dependencia Humana | DH | Indica el grado de participación humana en el diseño o construcción o poblamiento de la ontología. |
4 | Creación de ontología | CO | Indica si la ontología es creada, reutilizada o una modificación de una existente. |
5 | Utilización ontología | UO | Indica para que se utiliza la ontología. |
6 | Idioma | ID | Indica en que idioma se ha trabajado en los trabajos analizados. |
7 | Extracción de aspectos | EA | Indica el proceso de extracción de los aspectos de la ontología y las estructuras utilizadas para ello. |
Trabajo | EN | GA | DH | CO | UO | ID | EA |
---|---|---|---|---|---|---|---|
Zhou & Chaovalit | DOC | Medio | Alta (creación y llenado ontologia) | SI - llenado Manual | Analizar sentimientos | Inglés | Parte de la opinión, selecciona todas las palabras y las buscas en las propiedades de un concepto de la ontologia. |
Lau, Lai, Ma, & Li | DOC | Alta | Media (creación ontologia) | SI- Automática | Analizar sentimientos | Inglés | Parte de la opinión, selecciona sustantivos y busca en ontologia en los conceptos. Las caracteristicas son expresadas también en conceptos. |
Cadilhac, Benamara, & Aussenac- Gilles | AS | Medio | Media(reutilizan y traducen ontologia) | No- Reutiliza | Extracción aspectos | Francés | Parte de la ontologia donde busca todas sus etiquetas. Luego busca coincidencias en la opinión. |
Liu, Nie, & & Wang | DOC | Medio | Media (creación ontologia) | SI- Automática | Analizar sentimientos | Chino | No utilizan ontologia para extraer sino la técnica de doble propagación (relación entre sentimientos y caracteristicas). Utilizan la ontologia para hallar máxima similitud entre los sentimientos de la ontologia. |
Kontopoulos E. , Berberidis, Dergiades, & Bassiliades | DOC | Medio | Media(creación ontologia) | Si-Semiau- tomática | Extracción aspectos | Inglés | Se parte de la ontologia se extrae primero todo par objeto, se busca coincidencias en los twets, luego se divide semánticamente el twet y da puntajes individuales no totales. |
Freitas & Vieira | DOC | Alto | Baja | No- Reutiliza | Extracción aspectos | Portugués | Parte de la opinión, todos los textos son buscados en la ontologia y solo busca las caracteristicas en los conceptos. |
Lau, Li, & Liao | AS | Alto | Media (creación ontologia) | SI- Automática | Analizar sentimientos | Inglés | No utilizan ontologia para extraer sino técnica LDA. Utilizan los sintagmas nominales para identificar aspectos |
Peñalver- Martinez I. , y otros | DOC | Alto | Baja | No- Reutiliza | Extracción aspectos | Inglés- Español | Parte de la opinión, toma todas las palabras y las busca en la ontologia en los conceptos, tipos de datos, propiedades e individuos. Calcula la importancia de la caracteristica basado en la frecuencia y la posición en el texto. |
Qiu. | AS | Medio | Media | Si-Semiau- tomática | Extracción aspectos | Ingles | Parte de la opinión y busca en la ontologia. Los aspectos son representados por nombres. |
Bertola & Patti | N/A | Medio | Media | Si- Automática | Analizar sentimientos | Italiano | Parte del opinión (etiqueta todas palabras) y buscan que coincidan con la ontologia. La búsqueda es de palabras de emoción y no aspectos. |
Fuente: Elaboración propia.
En cuanto a la dependencia humana se tiene un 20 % en baja, 70% en medio, 10% en alta (figura 3). En cuanto a la creación de la ontología se encuentra que un 80% la crea y el otro 20% la reutiliza (figura 4).
Del idioma utilizado, sigue siendo el inglés el que más se trabaja con un 60%. En cuanto al idioma español existe un solo trabajo 21 que afirma trabajar con este, pero no se comprueba en el artículo. En cuanto a la utilización de la ontología se usa un 50% como analizador de sentimientos y un 50% como extracción de aspectos.
Referente al último criterio que está relacionado con la forma de extraer aspectos por los sistemas planteados, se encuentra que el 60% de las propuestas analizan primero la opinión, extraen palabras útiles que consideran aspectos y las buscan en la ontología. El 20% recorre la ontología y busca similitudes en toda la opinión y el 20% no la utiliza para extraer aspectos. Las propuestas que parten de la opinión, el 84% usan todas las palabras de la opinión y un 16% usa solo los sustantivos para buscarlos en la ontología. Para la comparación de las palabras en la ontología se utilizan las propiedades para comparar 20%, los conceptos (clases) 16% y un 50% utilizan todas las etiquetas de la ontología. Los que parten de la ontología utilizan el 100% todas las etiquetas de la misma. Es decir, conceptos, propiedades, relaciones e individuos.
A partir de los resultados se logra percibir, que el uso de ontologías en el análisis de sentimientos se utiliza básicamente en dos frentes, en clasificar sentimientos y en la recuperación de aspectos o características de una entidad. Sin embargo, esta utilización de ontologías en AS todavía está en fase de exploración y quedan aún aportes considerables por hacer en esta área.
Adicionalmente encontramos una alta dependencia humana en la elaboración de los sistemas y la creación de la ontología. De todas maneras, el uso de ontologías es vital en la construcción de sistema AS especialmente en la extracción de características semánticas, aspecto olvidado por la mayoría de enfoques dedicados a AS.
Con estos resultados y teniendo en cuanta que la finalidad es el uso de la ontología para extraer características o aspectos, para luego integrarlos a un modelo de análisis de sentimiento a nivel de aspectos en español, se ha decidido tener en cuenta para el desarrollo del modelo los siguientes aspectos:
Reutilizar una ontología de dominio ya existente.
Partir de la opinión y buscar en la ontología.
Analizar la opinión y seleccionar los aspectos.
Buscar en la ontología la ocurrencia de los aspectos.
Para completar estas decisiones, se realizará el diseño de un modelo ontológico general para luego hacer experimentos con la implementación de una herramienta computacional que permita probar:
Usar solo sustantivos de la opinión para buscar en ontología.
Usar todas las palabras de la opinión.
Usar solo palabras según etiqueta de la opinión (sustantivo, verbo, adverbio, etc.).
Buscar en la ontología todas las etiquetas.
Buscar en la ontología solo los conceptos.
Buscar en la ontología. solos las propiedades.
4. CONCLUSIONES
En este trabajo se ha determinado las acciones necesarias para construir un modelo para extraer aspectos de opiniones en español utilizando una ontología. Se ha mostrado un análisis de diez trabajos de la literatura relacionada con el tema de estudio. Luego se han establecido criterios de comparación para analizar los diferentes enfoques. Al final se han tenido en cuenta varios aspectos para el diseño del modelo ontológico. Estos aspectos son la reutilización de una ontología ya existente, partir de la opinión y etiquetar, luego realizar una búsqueda en la ontología.
En cuanto al uso de una ontología. para el análisis de sentimientos se encontraron diferentes enfoques: como base de conocimiento para analizar sentimiento y como herramienta para extraer características (aspectos) de textos con el fin de realizar un análisis de sentimientos a nivel de documento o a nivel de características.
En cuanto a los trabajos estudiados se encontró que no son automáticos del todo y que todavía hay mucha dependencia humana en este tipo de sistemas.
Finalmente queda establecido desarrollar un sistema computacional, para validar el modelo, que pueda brindar respuestas a diferentes experimentos como: búsqueda de solo sustantivos o toda la opinión, búsqueda en toda la ontología o solo en clases o propiedades o individuos.