Método de aprendizaje multi-instancia basado en bolsas de palabras

Companioni García, Yojacni

DSpace UNISS
→
Facultad de Ciencias Técnicas y Empresariales
→
Departamento de Ingeniería Informática
→
Trabajo de Diploma
→
Ver ítem

Método de aprendizaje multi-instancia basado en bolsas de palabras

Companioni García, Yojacni

URI: http://hdl.handle.net/123456789/6376

Fecha: 2019

Resumen:

Dentro del área del aprendizaje automático se encuentra el aprendizaje multi-instancia, que no es más que una variante del aprendizaje proposicional en el que cada ejemplo no está descrito ya por un único vector, sino por muchos vectores atributo-valor. Este tipo de representación ha sido usado con muy buen desempeño en ciertos problemas como la clasificación de imágenes, y la categorización de documentos. Existen varios métodos de aprendizaje multi-instancia que transforman cada bolsa en una única instancia para luego aplicar métodos de aprendizaje supervisado estándar. Sin embargo, estas transformaciones provocan una disminución de la precisión de la clasificación. En este trabajo se propone un nuevo método, que transforma los datos multi-instancia inspirado en la minería de textos. El método propuesto realiza la transformación de los datos a una representación atributo-valor tradicional, mediante la creación de un corpus de documentos formados por palabras artificiales para reducir la pérdida de información durante el proceso de transformación. Además, se evaluó el método propuesto, de forma experimental, utilizando nueve conjuntos de datos multi-instancia y otros dos métodos que también transforman los datos multi-instancia a una representación atributo-valor tradicional. De acuerdo a los resultados obtenidos se puede indicar que, en términos de precisión de la clasificación, el método propuesto es competitivo con los métodos de aprendizaje utilizados en la comparación.

Within the area of machine learning is multi-instance learning, which is no more than a variant of propositional learning in which each example is not already described by a single vector, but by many attribute-value vectors. This type of representation has been used with very good results in certain problems such as classification of images, and categorization of documents. There are several multi-instance learning methods that transform each bag into a single instance and then apply standard supervised learning methods. However, these transformations cause a decrease in the accuracy of the classification. In this work a new method is proposed, which transforms the multi-instance data inspired by text mining. The proposed method performs the transformation of the data to a traditional attribute-value representation, through the creation of a corpus of documents formed by artificial words to reduce the loss of information during the transformation process. In addition, the proposed method was evaluated, experimentally, using nine multi-instance data sets and two other methods that also transform the multi-instance data to a traditional attributevalue representation. According to the results obtained, it can be indicated that, in terms of classification accuracy, the proposed method is competitive with the learning methods used in the comparison.

Mostrar el registro completo del ítem