Dentro del área del aprendizaje automático se encuentra el aprendizaje multi-instancia, que no
es más que una variante del aprendizaje proposicional en el que cada ejemplo no está descrito
ya por un único vector, sino por muchos vectores atributo-valor. Este tipo de representación ha
sido usado con muy buen desempeño en ciertos problemas como la clasificación de imágenes,
y la categorización de documentos.
Existen varios métodos de aprendizaje multi-instancia que transforman cada bolsa en una única
instancia para luego aplicar métodos de aprendizaje supervisado estándar. Sin embargo, estas
transformaciones provocan una disminución de la precisión de la clasificación.
En este trabajo se propone un nuevo método, que transforma los datos multi-instancia inspirado
en la minería de textos. El método propuesto realiza la transformación de los datos a una
representación atributo-valor tradicional, mediante la creación de un corpus de documentos
formados por palabras artificiales para reducir la pérdida de información durante el proceso de
transformación.
Además, se evaluó el método propuesto, de forma experimental, utilizando nueve conjuntos de
datos multi-instancia y otros dos métodos que también transforman los datos multi-instancia a
una representación atributo-valor tradicional. De acuerdo a los resultados obtenidos se puede
indicar que, en términos de precisión de la clasificación, el método propuesto es competitivo
con los métodos de aprendizaje utilizados en la comparación.
Within the area of machine learning is multi-instance learning, which is no more than a variant
of propositional learning in which each example is not already described by a single vector,
but by many attribute-value vectors. This type of representation has been used with very good
results in certain problems such as classification of images, and categorization of documents.
There are several multi-instance learning methods that transform each bag into a single instance
and then apply standard supervised learning methods. However, these transformations
cause a decrease in the accuracy of the classification.
In this work a new method is proposed, which transforms the multi-instance data inspired by
text mining. The proposed method performs the transformation of the data to a traditional
attribute-value representation, through the creation of a corpus of documents formed by artificial
words to reduce the loss of information during the transformation process.
In addition, the proposed method was evaluated, experimentally, using nine multi-instance data
sets and two other methods that also transform the multi-instance data to a traditional attributevalue
representation. According to the results obtained, it can be indicated that, in terms of
classification accuracy, the proposed method is competitive with the learning methods used in
the comparison.