Detección de outliers en muestras de entrenamiento generadas mediante interpretación visual
Las clasificaciones supervisadas son procesos extremadamente sensibles a la calidad de las muestras utilizadas. La presencia de outliers en las muestras de entrenamiento suele ser una fuente de error muy frecuente. El objetivo de este trabajo es presentar una metodología de detección de outliers con...
| Autores principales: | , , , , |
|---|---|
| Formato: | Conferencia |
| Lenguaje: | Español |
| Publicado: |
Sociedad Argentina de Informática
2022
|
| Materias: | |
| Acceso en línea: | http://hdl.handle.net/20.500.12123/11679 |
| _version_ | 1855484830379147264 |
|---|---|
| author | Banchero, Santiago Veron, Santiago Ramón Petek, Mariana Sarrailhe, Sofia De Abelleyra, Diego |
| author_browse | Banchero, Santiago De Abelleyra, Diego Petek, Mariana Sarrailhe, Sofia Veron, Santiago Ramón |
| author_facet | Banchero, Santiago Veron, Santiago Ramón Petek, Mariana Sarrailhe, Sofia De Abelleyra, Diego |
| author_sort | Banchero, Santiago |
| collection | INTA Digital |
| description | Las clasificaciones supervisadas son procesos extremadamente sensibles a la calidad de las muestras utilizadas. La presencia de outliers en las muestras de entrenamiento suele ser una fuente de error muy frecuente. El objetivo de este trabajo es presentar una metodología de detección de outliers con Isolation
Forest, en muestras recolectadas mediante interpretación visual de imágenes satelitales generadas por el Proyecto MapBiomas Pampa Trinacional. Isolation Forest, el algoritmo no supervisado utilizado puede detectar anomalías directamente basándose en el concepto de aislamiento sin utilizar ninguna
métrica. La metodología consiste en la identificación de outliers (preparación de muestras, modelado y definición del umbral) y la validación del método. El modelado permite etiquetar de manera automática cada muestra como outlier o normal a partir del score. Se logró verificar los píxeles de la muestra señalada como outlier y tipificar el error en 6 categorías. Los resultados muestran una cantidad decreciente de outliers a lo largo del periodo analizado. Los años con mayor cantidad de outliers tienen una correspondencia con los años de menor disponibilidad de imágenes para la construcción de los mosaicos y contribuciones importantes del tipo Error del Mosaico. La clase con mayor
porcentaje de error fue Bosque cerrado (14.7%) y los tipos de errores con mayor proporción fueron Clase Mal Asignada (20.39%) y Borde (19.57%). La metodología propuesta permitió el mejoramiento de muestras obtenidas mediante interpretación visual de imágenes satelitales de manera automática
con un 80% de acierto. |
| format | Conferencia |
| id | INTA11679 |
| institution | Instituto Nacional de Tecnología Agropecuaria (INTA -Argentina) |
| language | Español |
| publishDate | 2022 |
| publishDateRange | 2022 |
| publishDateSort | 2022 |
| publisher | Sociedad Argentina de Informática |
| publisherStr | Sociedad Argentina de Informática |
| record_format | dspace |
| spelling | INTA116792022-04-20T10:56:18Z Detección de outliers en muestras de entrenamiento generadas mediante interpretación visual Banchero, Santiago Veron, Santiago Ramón Petek, Mariana Sarrailhe, Sofia De Abelleyra, Diego Machine Learning Remote Sensing Detection Anomalies Aprendizaje Electrónico Teledetección Detección Anomalías Isolation Forest Bosque de Aislamiento Las clasificaciones supervisadas son procesos extremadamente sensibles a la calidad de las muestras utilizadas. La presencia de outliers en las muestras de entrenamiento suele ser una fuente de error muy frecuente. El objetivo de este trabajo es presentar una metodología de detección de outliers con Isolation Forest, en muestras recolectadas mediante interpretación visual de imágenes satelitales generadas por el Proyecto MapBiomas Pampa Trinacional. Isolation Forest, el algoritmo no supervisado utilizado puede detectar anomalías directamente basándose en el concepto de aislamiento sin utilizar ninguna métrica. La metodología consiste en la identificación de outliers (preparación de muestras, modelado y definición del umbral) y la validación del método. El modelado permite etiquetar de manera automática cada muestra como outlier o normal a partir del score. Se logró verificar los píxeles de la muestra señalada como outlier y tipificar el error en 6 categorías. Los resultados muestran una cantidad decreciente de outliers a lo largo del periodo analizado. Los años con mayor cantidad de outliers tienen una correspondencia con los años de menor disponibilidad de imágenes para la construcción de los mosaicos y contribuciones importantes del tipo Error del Mosaico. La clase con mayor porcentaje de error fue Bosque cerrado (14.7%) y los tipos de errores con mayor proporción fueron Clase Mal Asignada (20.39%) y Borde (19.57%). La metodología propuesta permitió el mejoramiento de muestras obtenidas mediante interpretación visual de imágenes satelitales de manera automática con un 80% de acierto. Fil: Banchero, S. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Clima y Agua; Argentina Fil: Verón, S. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Clima y Agua; Argentina Fil: Petek, M. Universidad de Buenos Aires. Facultad de Agronomía; Argentina Fil: Sarrailhe, S. Universidad de Buenos Aires. Facultad de Agronomía; Argentina Fil: Abelleyra, D. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Clima y Agua; Argentina 2022-04-20T10:38:03Z 2022-04-20T10:38:03Z 2021-10-18 info:ar-repo/semantics/documento de conferencia info:eu-repo/semantics/conferenceObject info:eu-repo/semantics/publishedVersion http://hdl.handle.net/20.500.12123/11679 spa info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) application/pdf Sociedad Argentina de Informática 50 Jornadas Argentinas de Informática (50 JAIIO), 13 Congreso Argentino de AgroInformática (CAI 2021), 18 al 29 de octubre de 2021 (virtual) |
| spellingShingle | Machine Learning Remote Sensing Detection Anomalies Aprendizaje Electrónico Teledetección Detección Anomalías Isolation Forest Bosque de Aislamiento Banchero, Santiago Veron, Santiago Ramón Petek, Mariana Sarrailhe, Sofia De Abelleyra, Diego Detección de outliers en muestras de entrenamiento generadas mediante interpretación visual |
| title | Detección de outliers en muestras de entrenamiento generadas mediante interpretación visual |
| title_full | Detección de outliers en muestras de entrenamiento generadas mediante interpretación visual |
| title_fullStr | Detección de outliers en muestras de entrenamiento generadas mediante interpretación visual |
| title_full_unstemmed | Detección de outliers en muestras de entrenamiento generadas mediante interpretación visual |
| title_short | Detección de outliers en muestras de entrenamiento generadas mediante interpretación visual |
| title_sort | deteccion de outliers en muestras de entrenamiento generadas mediante interpretacion visual |
| topic | Machine Learning Remote Sensing Detection Anomalies Aprendizaje Electrónico Teledetección Detección Anomalías Isolation Forest Bosque de Aislamiento |
| url | http://hdl.handle.net/20.500.12123/11679 |
| work_keys_str_mv | AT bancherosantiago detecciondeoutliersenmuestrasdeentrenamientogeneradasmedianteinterpretacionvisual AT veronsantiagoramon detecciondeoutliersenmuestrasdeentrenamientogeneradasmedianteinterpretacionvisual AT petekmariana detecciondeoutliersenmuestrasdeentrenamientogeneradasmedianteinterpretacionvisual AT sarrailhesofia detecciondeoutliersenmuestrasdeentrenamientogeneradasmedianteinterpretacionvisual AT deabelleyradiego detecciondeoutliersenmuestrasdeentrenamientogeneradasmedianteinterpretacionvisual |