Detección de outliers en muestras de entrenamiento generadas mediante interpretación visual

Las clasificaciones supervisadas son procesos extremadamente sensibles a la calidad de las muestras utilizadas. La presencia de outliers en las muestras de entrenamiento suele ser una fuente de error muy frecuente. El objetivo de este trabajo es presentar una metodología de detección de outliers con...

Descripción completa

Detalles Bibliográficos
Autores principales: Banchero, Santiago, Veron, Santiago Ramón, Petek, Mariana, Sarrailhe, Sofia, De Abelleyra, Diego
Formato: Conferencia
Lenguaje:Español
Publicado: Sociedad Argentina de Informática 2022
Materias:
Acceso en línea:http://hdl.handle.net/20.500.12123/11679
_version_ 1855484830379147264
author Banchero, Santiago
Veron, Santiago Ramón
Petek, Mariana
Sarrailhe, Sofia
De Abelleyra, Diego
author_browse Banchero, Santiago
De Abelleyra, Diego
Petek, Mariana
Sarrailhe, Sofia
Veron, Santiago Ramón
author_facet Banchero, Santiago
Veron, Santiago Ramón
Petek, Mariana
Sarrailhe, Sofia
De Abelleyra, Diego
author_sort Banchero, Santiago
collection INTA Digital
description Las clasificaciones supervisadas son procesos extremadamente sensibles a la calidad de las muestras utilizadas. La presencia de outliers en las muestras de entrenamiento suele ser una fuente de error muy frecuente. El objetivo de este trabajo es presentar una metodología de detección de outliers con Isolation Forest, en muestras recolectadas mediante interpretación visual de imágenes satelitales generadas por el Proyecto MapBiomas Pampa Trinacional. Isolation Forest, el algoritmo no supervisado utilizado puede detectar anomalías directamente basándose en el concepto de aislamiento sin utilizar ninguna métrica. La metodología consiste en la identificación de outliers (preparación de muestras, modelado y definición del umbral) y la validación del método. El modelado permite etiquetar de manera automática cada muestra como outlier o normal a partir del score. Se logró verificar los píxeles de la muestra señalada como outlier y tipificar el error en 6 categorías. Los resultados muestran una cantidad decreciente de outliers a lo largo del periodo analizado. Los años con mayor cantidad de outliers tienen una correspondencia con los años de menor disponibilidad de imágenes para la construcción de los mosaicos y contribuciones importantes del tipo Error del Mosaico. La clase con mayor porcentaje de error fue Bosque cerrado (14.7%) y los tipos de errores con mayor proporción fueron Clase Mal Asignada (20.39%) y Borde (19.57%). La metodología propuesta permitió el mejoramiento de muestras obtenidas mediante interpretación visual de imágenes satelitales de manera automática con un 80% de acierto.
format Conferencia
id INTA11679
institution Instituto Nacional de Tecnología Agropecuaria (INTA -Argentina)
language Español
publishDate 2022
publishDateRange 2022
publishDateSort 2022
publisher Sociedad Argentina de Informática
publisherStr Sociedad Argentina de Informática
record_format dspace
spelling INTA116792022-04-20T10:56:18Z Detección de outliers en muestras de entrenamiento generadas mediante interpretación visual Banchero, Santiago Veron, Santiago Ramón Petek, Mariana Sarrailhe, Sofia De Abelleyra, Diego Machine Learning Remote Sensing Detection Anomalies Aprendizaje Electrónico Teledetección Detección Anomalías Isolation Forest Bosque de Aislamiento Las clasificaciones supervisadas son procesos extremadamente sensibles a la calidad de las muestras utilizadas. La presencia de outliers en las muestras de entrenamiento suele ser una fuente de error muy frecuente. El objetivo de este trabajo es presentar una metodología de detección de outliers con Isolation Forest, en muestras recolectadas mediante interpretación visual de imágenes satelitales generadas por el Proyecto MapBiomas Pampa Trinacional. Isolation Forest, el algoritmo no supervisado utilizado puede detectar anomalías directamente basándose en el concepto de aislamiento sin utilizar ninguna métrica. La metodología consiste en la identificación de outliers (preparación de muestras, modelado y definición del umbral) y la validación del método. El modelado permite etiquetar de manera automática cada muestra como outlier o normal a partir del score. Se logró verificar los píxeles de la muestra señalada como outlier y tipificar el error en 6 categorías. Los resultados muestran una cantidad decreciente de outliers a lo largo del periodo analizado. Los años con mayor cantidad de outliers tienen una correspondencia con los años de menor disponibilidad de imágenes para la construcción de los mosaicos y contribuciones importantes del tipo Error del Mosaico. La clase con mayor porcentaje de error fue Bosque cerrado (14.7%) y los tipos de errores con mayor proporción fueron Clase Mal Asignada (20.39%) y Borde (19.57%). La metodología propuesta permitió el mejoramiento de muestras obtenidas mediante interpretación visual de imágenes satelitales de manera automática con un 80% de acierto. Fil: Banchero, S. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Clima y Agua; Argentina Fil: Verón, S. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Clima y Agua; Argentina Fil: Petek, M. Universidad de Buenos Aires. Facultad de Agronomía; Argentina Fil: Sarrailhe, S. Universidad de Buenos Aires. Facultad de Agronomía; Argentina Fil: Abelleyra, D. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Clima y Agua; Argentina 2022-04-20T10:38:03Z 2022-04-20T10:38:03Z 2021-10-18 info:ar-repo/semantics/documento de conferencia info:eu-repo/semantics/conferenceObject info:eu-repo/semantics/publishedVersion http://hdl.handle.net/20.500.12123/11679 spa info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) application/pdf Sociedad Argentina de Informática 50 Jornadas Argentinas de Informática (50 JAIIO), 13 Congreso Argentino de AgroInformática (CAI 2021), 18 al 29 de octubre de 2021 (virtual)
spellingShingle Machine Learning
Remote Sensing
Detection
Anomalies
Aprendizaje Electrónico
Teledetección
Detección
Anomalías
Isolation Forest
Bosque de Aislamiento
Banchero, Santiago
Veron, Santiago Ramón
Petek, Mariana
Sarrailhe, Sofia
De Abelleyra, Diego
Detección de outliers en muestras de entrenamiento generadas mediante interpretación visual
title Detección de outliers en muestras de entrenamiento generadas mediante interpretación visual
title_full Detección de outliers en muestras de entrenamiento generadas mediante interpretación visual
title_fullStr Detección de outliers en muestras de entrenamiento generadas mediante interpretación visual
title_full_unstemmed Detección de outliers en muestras de entrenamiento generadas mediante interpretación visual
title_short Detección de outliers en muestras de entrenamiento generadas mediante interpretación visual
title_sort deteccion de outliers en muestras de entrenamiento generadas mediante interpretacion visual
topic Machine Learning
Remote Sensing
Detection
Anomalies
Aprendizaje Electrónico
Teledetección
Detección
Anomalías
Isolation Forest
Bosque de Aislamiento
url http://hdl.handle.net/20.500.12123/11679
work_keys_str_mv AT bancherosantiago detecciondeoutliersenmuestrasdeentrenamientogeneradasmedianteinterpretacionvisual
AT veronsantiagoramon detecciondeoutliersenmuestrasdeentrenamientogeneradasmedianteinterpretacionvisual
AT petekmariana detecciondeoutliersenmuestrasdeentrenamientogeneradasmedianteinterpretacionvisual
AT sarrailhesofia detecciondeoutliersenmuestrasdeentrenamientogeneradasmedianteinterpretacionvisual
AT deabelleyradiego detecciondeoutliersenmuestrasdeentrenamientogeneradasmedianteinterpretacionvisual