Imputación de genotipos faltantes mediante algoritmos de machine learning = Imputation of missing genotypes using machine learning algorithms

Publicado en: JAIIO, Jornadas Argentinas de Informática Revista de la Sociedad Argentina de Informática e Investigación Operativa (SADIO), 11 (3) : 155-165 (2025)

Bibliographic Details
Main Authors: Raschia, Maria Agustina, Rios, Pablo Javier, Cordoba, Marcela Elisabet, Caffaro, María Eugenia, Donzelli, María Valeria, Maizon, Daniel Omar, Demitrio, Daniel Arturo, Poli, Mario Andres
Format: Conferencia
Language:Español
Published: Sociedad Argentina de Informática e Investigación Operativa (SADIO) 2025
Subjects:
Online Access:http://hdl.handle.net/20.500.12123/23378
https://revistas.unlp.edu.ar/JAIIO/article/view/19680
_version_ 1855487117615955968
author Raschia, Maria Agustina
Rios, Pablo Javier
Cordoba, Marcela Elisabet
Caffaro, María Eugenia
Donzelli, María Valeria
Maizon, Daniel Omar
Demitrio, Daniel Arturo
Poli, Mario Andres
author_browse Caffaro, María Eugenia
Cordoba, Marcela Elisabet
Demitrio, Daniel Arturo
Donzelli, María Valeria
Maizon, Daniel Omar
Poli, Mario Andres
Raschia, Maria Agustina
Rios, Pablo Javier
author_facet Raschia, Maria Agustina
Rios, Pablo Javier
Cordoba, Marcela Elisabet
Caffaro, María Eugenia
Donzelli, María Valeria
Maizon, Daniel Omar
Demitrio, Daniel Arturo
Poli, Mario Andres
author_sort Raschia, Maria Agustina
collection INTA Digital
description Publicado en: JAIIO, Jornadas Argentinas de Informática Revista de la Sociedad Argentina de Informática e Investigación Operativa (SADIO), 11 (3) : 155-165 (2025)
format Conferencia
id INTA23378
institution Instituto Nacional de Tecnología Agropecuaria (INTA -Argentina)
language Español
publishDate 2025
publishDateRange 2025
publishDateSort 2025
publisher Sociedad Argentina de Informática e Investigación Operativa (SADIO)
publisherStr Sociedad Argentina de Informática e Investigación Operativa (SADIO)
record_format dspace
spelling INTA233782025-10-13T11:14:19Z Imputación de genotipos faltantes mediante algoritmos de machine learning = Imputation of missing genotypes using machine learning algorithms Raschia, Maria Agustina Rios, Pablo Javier Cordoba, Marcela Elisabet Caffaro, María Eugenia Donzelli, María Valeria Maizon, Daniel Omar Demitrio, Daniel Arturo Poli, Mario Andres Algoritmo Aprendizaje Automático Polimorfismo de Nucleótido Único Genotipado Algorithms Machine Learning Single Nucleotide Polymorphisms Genotyping Inferencia de Genotipos Faltantes Publicado en: JAIIO, Jornadas Argentinas de Informática Revista de la Sociedad Argentina de Informática e Investigación Operativa (SADIO), 11 (3) : 155-165 (2025) Resumen. La imputación o inferencia de genotipos faltantes utilizando correlaciones entre variantes obtenidas a partir de paneles de referencia puede ser llevada a cabo por programas específicos basados en la utilización de información genética familiar y/o poblacional o mediante la implementación de algoritmos de machine learning. El objetivo de este trabajo fue evaluar la precisión en la imputación lograda mediante distintas estrategias de machine learning, tras comparar genotipos imputados con los obtenidos por genotipificación con un microarreglo de mediana densidad de SNPs. Sobre una base de datos con genotipos de 966 ovinos en 57.876 SNPs, con 53,4% de genotipos faltantes, se exploraron tres estrategias de imputación basadas en el algoritmo random forest. Un subconjunto de los genotipos imputados, correspondientes a 232 animales en 30.924 SNPs, fue comparado con genotipos obtenidos por genotipificación. El porcentaje de concordancia obtenido para las tres estrategias fue de alrededor de 60%. Este bajo porcentaje puede atribuirse a la gran cantidad de genotipos no asignados del archivo de partida. Una estrategia para aumentar la precisión de la imputación podría ser aumentar el número de animales en la población de referencia y, de este modo, reducir la proporción de genotipos faltantes en el conjunto de datos. Abstract. The imputation or inference of missing genotypes using correlations between variants obtained from reference panels can be carried out by specific programs that utilize family and/or population genetic information or by implementing machine learning algorithms. The objective of this study was to evaluate the imputation accuracy achieved using different machine learning strategies by comparing imputed genotypes with those obtained by genotyping with a medium-density SNP microarray. To compare the performance of three imputation strategies using the random forest algorithm, we analyzed a database containing 966 sheep genotyped at 57,876 SNPs, where 53.4% of the data was missing. A subset of the imputed genotypes, corresponding to 232 animals at 30,924 SNPs, was compared with genotypes obtained by genotyping. The percentage of concordance obtained for the three strategies was approximately 60%. This low percentage can be attributed to the large number of missing genotypes in the source file. One strategy for increasing imputation accuracy would be to increase the number of animals in the reference population and thus reduce the proportion of missing genotypes in the data set. Instituto de Investigación Genética, INTA Fil: Raschia, Maria Agustina. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; Argentina Fil: Rios, Pablo Javier. Universidad de Buenos Aires (UBA); Argentina Fil: Rios, Pablo Javier. Universidad Nacional de La Plata (UNLP). Facultad de Ciencias Exactas; Argentina Fil: Cordoba, Marcela Elisabet. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; Argentina Fil: Caffaro, María Eugenia. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; Argentina Fil: Donzelli, María Valeria. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; Argentina Fil: Donzelli, María Valeria. Facultad de Ciencias Agrarias. Universidad Nacional de Lomas de Zamora (UNLZ); Argentina Fil: Maizon, Daniel Omar. Instituto Nacional de Tecnología Agropecuaria (INTA). Estación Experimental Agropecuaria Anguil; Argentina Fil: Maizon, Daniel Omar. Universidad Nacional de La Pampa (UNLP). Facultad de Agronomía; Argentina Fil: Demitrio, Daniel Arturo. Instituto Nacional de Tecnología Agropecuaria (INTA). Coordinación Nacional de Relaciones Institucionales y Vinculación Tecnológica; Argentina Fil: Demitrio, Daniel Arturo. Universidad Nacional de La Plata (UNLP). Facultad de Ciencias Exactas; Argentina Fil: Poli, Mario Andres. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; Argentina Fil: Poli, Mario Andres. Universidad del Salvador (USAL). Facultad de Ciencias Agrarias y Veterinarias; Argentina 2025-08-08T15:13:51Z 2025-08-08T15:13:51Z 2025-08 info:ar-repo/semantics/documento de conferencia info:eu-repo/semantics/conferenceObject info:eu-repo/semantics/publishedVersion http://hdl.handle.net/20.500.12123/23378 https://revistas.unlp.edu.ar/JAIIO/article/view/19680 2451-7496 spa info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) application/pdf Sociedad Argentina de Informática e Investigación Operativa (SADIO) 54as Jornadas Argentinas de Informática e Investigación Operativa (54 JAIIO) , 17o Congreso Argentino de AgroInformática (CAI 2025), Ciudad de Buenos Aires, 4 al 7 de agosto de 2025
spellingShingle Algoritmo
Aprendizaje Automático
Polimorfismo de Nucleótido Único
Genotipado
Algorithms
Machine Learning
Single Nucleotide Polymorphisms
Genotyping
Inferencia de Genotipos Faltantes
Raschia, Maria Agustina
Rios, Pablo Javier
Cordoba, Marcela Elisabet
Caffaro, María Eugenia
Donzelli, María Valeria
Maizon, Daniel Omar
Demitrio, Daniel Arturo
Poli, Mario Andres
Imputación de genotipos faltantes mediante algoritmos de machine learning = Imputation of missing genotypes using machine learning algorithms
title Imputación de genotipos faltantes mediante algoritmos de machine learning = Imputation of missing genotypes using machine learning algorithms
title_full Imputación de genotipos faltantes mediante algoritmos de machine learning = Imputation of missing genotypes using machine learning algorithms
title_fullStr Imputación de genotipos faltantes mediante algoritmos de machine learning = Imputation of missing genotypes using machine learning algorithms
title_full_unstemmed Imputación de genotipos faltantes mediante algoritmos de machine learning = Imputation of missing genotypes using machine learning algorithms
title_short Imputación de genotipos faltantes mediante algoritmos de machine learning = Imputation of missing genotypes using machine learning algorithms
title_sort imputacion de genotipos faltantes mediante algoritmos de machine learning imputation of missing genotypes using machine learning algorithms
topic Algoritmo
Aprendizaje Automático
Polimorfismo de Nucleótido Único
Genotipado
Algorithms
Machine Learning
Single Nucleotide Polymorphisms
Genotyping
Inferencia de Genotipos Faltantes
url http://hdl.handle.net/20.500.12123/23378
https://revistas.unlp.edu.ar/JAIIO/article/view/19680
work_keys_str_mv AT raschiamariaagustina imputaciondegenotiposfaltantesmediantealgoritmosdemachinelearningimputationofmissinggenotypesusingmachinelearningalgorithms
AT riospablojavier imputaciondegenotiposfaltantesmediantealgoritmosdemachinelearningimputationofmissinggenotypesusingmachinelearningalgorithms
AT cordobamarcelaelisabet imputaciondegenotiposfaltantesmediantealgoritmosdemachinelearningimputationofmissinggenotypesusingmachinelearningalgorithms
AT caffaromariaeugenia imputaciondegenotiposfaltantesmediantealgoritmosdemachinelearningimputationofmissinggenotypesusingmachinelearningalgorithms
AT donzellimariavaleria imputaciondegenotiposfaltantesmediantealgoritmosdemachinelearningimputationofmissinggenotypesusingmachinelearningalgorithms
AT maizondanielomar imputaciondegenotiposfaltantesmediantealgoritmosdemachinelearningimputationofmissinggenotypesusingmachinelearningalgorithms
AT demitriodanielarturo imputaciondegenotiposfaltantesmediantealgoritmosdemachinelearningimputationofmissinggenotypesusingmachinelearningalgorithms
AT polimarioandres imputaciondegenotiposfaltantesmediantealgoritmosdemachinelearningimputationofmissinggenotypesusingmachinelearningalgorithms