Imputación de genotipos faltantes mediante algoritmos de machine learning = Imputation of missing genotypes using machine learning algorithms
Publicado en: JAIIO, Jornadas Argentinas de Informática Revista de la Sociedad Argentina de Informática e Investigación Operativa (SADIO), 11 (3) : 155-165 (2025)
| Main Authors: | , , , , , , , |
|---|---|
| Format: | Conferencia |
| Language: | Español |
| Published: |
Sociedad Argentina de Informática e Investigación Operativa (SADIO)
2025
|
| Subjects: | |
| Online Access: | http://hdl.handle.net/20.500.12123/23378 https://revistas.unlp.edu.ar/JAIIO/article/view/19680 |
| _version_ | 1855487117615955968 |
|---|---|
| author | Raschia, Maria Agustina Rios, Pablo Javier Cordoba, Marcela Elisabet Caffaro, María Eugenia Donzelli, María Valeria Maizon, Daniel Omar Demitrio, Daniel Arturo Poli, Mario Andres |
| author_browse | Caffaro, María Eugenia Cordoba, Marcela Elisabet Demitrio, Daniel Arturo Donzelli, María Valeria Maizon, Daniel Omar Poli, Mario Andres Raschia, Maria Agustina Rios, Pablo Javier |
| author_facet | Raschia, Maria Agustina Rios, Pablo Javier Cordoba, Marcela Elisabet Caffaro, María Eugenia Donzelli, María Valeria Maizon, Daniel Omar Demitrio, Daniel Arturo Poli, Mario Andres |
| author_sort | Raschia, Maria Agustina |
| collection | INTA Digital |
| description | Publicado en: JAIIO, Jornadas Argentinas de Informática
Revista de la Sociedad Argentina de Informática e Investigación Operativa (SADIO), 11 (3) : 155-165 (2025) |
| format | Conferencia |
| id | INTA23378 |
| institution | Instituto Nacional de Tecnología Agropecuaria (INTA -Argentina) |
| language | Español |
| publishDate | 2025 |
| publishDateRange | 2025 |
| publishDateSort | 2025 |
| publisher | Sociedad Argentina de Informática e Investigación Operativa (SADIO) |
| publisherStr | Sociedad Argentina de Informática e Investigación Operativa (SADIO) |
| record_format | dspace |
| spelling | INTA233782025-10-13T11:14:19Z Imputación de genotipos faltantes mediante algoritmos de machine learning = Imputation of missing genotypes using machine learning algorithms Raschia, Maria Agustina Rios, Pablo Javier Cordoba, Marcela Elisabet Caffaro, María Eugenia Donzelli, María Valeria Maizon, Daniel Omar Demitrio, Daniel Arturo Poli, Mario Andres Algoritmo Aprendizaje Automático Polimorfismo de Nucleótido Único Genotipado Algorithms Machine Learning Single Nucleotide Polymorphisms Genotyping Inferencia de Genotipos Faltantes Publicado en: JAIIO, Jornadas Argentinas de Informática Revista de la Sociedad Argentina de Informática e Investigación Operativa (SADIO), 11 (3) : 155-165 (2025) Resumen. La imputación o inferencia de genotipos faltantes utilizando correlaciones entre variantes obtenidas a partir de paneles de referencia puede ser llevada a cabo por programas específicos basados en la utilización de información genética familiar y/o poblacional o mediante la implementación de algoritmos de machine learning. El objetivo de este trabajo fue evaluar la precisión en la imputación lograda mediante distintas estrategias de machine learning, tras comparar genotipos imputados con los obtenidos por genotipificación con un microarreglo de mediana densidad de SNPs. Sobre una base de datos con genotipos de 966 ovinos en 57.876 SNPs, con 53,4% de genotipos faltantes, se exploraron tres estrategias de imputación basadas en el algoritmo random forest. Un subconjunto de los genotipos imputados, correspondientes a 232 animales en 30.924 SNPs, fue comparado con genotipos obtenidos por genotipificación. El porcentaje de concordancia obtenido para las tres estrategias fue de alrededor de 60%. Este bajo porcentaje puede atribuirse a la gran cantidad de genotipos no asignados del archivo de partida. Una estrategia para aumentar la precisión de la imputación podría ser aumentar el número de animales en la población de referencia y, de este modo, reducir la proporción de genotipos faltantes en el conjunto de datos. Abstract. The imputation or inference of missing genotypes using correlations between variants obtained from reference panels can be carried out by specific programs that utilize family and/or population genetic information or by implementing machine learning algorithms. The objective of this study was to evaluate the imputation accuracy achieved using different machine learning strategies by comparing imputed genotypes with those obtained by genotyping with a medium-density SNP microarray. To compare the performance of three imputation strategies using the random forest algorithm, we analyzed a database containing 966 sheep genotyped at 57,876 SNPs, where 53.4% of the data was missing. A subset of the imputed genotypes, corresponding to 232 animals at 30,924 SNPs, was compared with genotypes obtained by genotyping. The percentage of concordance obtained for the three strategies was approximately 60%. This low percentage can be attributed to the large number of missing genotypes in the source file. One strategy for increasing imputation accuracy would be to increase the number of animals in the reference population and thus reduce the proportion of missing genotypes in the data set. Instituto de Investigación Genética, INTA Fil: Raschia, Maria Agustina. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; Argentina Fil: Rios, Pablo Javier. Universidad de Buenos Aires (UBA); Argentina Fil: Rios, Pablo Javier. Universidad Nacional de La Plata (UNLP). Facultad de Ciencias Exactas; Argentina Fil: Cordoba, Marcela Elisabet. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; Argentina Fil: Caffaro, María Eugenia. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; Argentina Fil: Donzelli, María Valeria. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; Argentina Fil: Donzelli, María Valeria. Facultad de Ciencias Agrarias. Universidad Nacional de Lomas de Zamora (UNLZ); Argentina Fil: Maizon, Daniel Omar. Instituto Nacional de Tecnología Agropecuaria (INTA). Estación Experimental Agropecuaria Anguil; Argentina Fil: Maizon, Daniel Omar. Universidad Nacional de La Pampa (UNLP). Facultad de Agronomía; Argentina Fil: Demitrio, Daniel Arturo. Instituto Nacional de Tecnología Agropecuaria (INTA). Coordinación Nacional de Relaciones Institucionales y Vinculación Tecnológica; Argentina Fil: Demitrio, Daniel Arturo. Universidad Nacional de La Plata (UNLP). Facultad de Ciencias Exactas; Argentina Fil: Poli, Mario Andres. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Genética; Argentina Fil: Poli, Mario Andres. Universidad del Salvador (USAL). Facultad de Ciencias Agrarias y Veterinarias; Argentina 2025-08-08T15:13:51Z 2025-08-08T15:13:51Z 2025-08 info:ar-repo/semantics/documento de conferencia info:eu-repo/semantics/conferenceObject info:eu-repo/semantics/publishedVersion http://hdl.handle.net/20.500.12123/23378 https://revistas.unlp.edu.ar/JAIIO/article/view/19680 2451-7496 spa info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) application/pdf Sociedad Argentina de Informática e Investigación Operativa (SADIO) 54as Jornadas Argentinas de Informática e Investigación Operativa (54 JAIIO) , 17o Congreso Argentino de AgroInformática (CAI 2025), Ciudad de Buenos Aires, 4 al 7 de agosto de 2025 |
| spellingShingle | Algoritmo Aprendizaje Automático Polimorfismo de Nucleótido Único Genotipado Algorithms Machine Learning Single Nucleotide Polymorphisms Genotyping Inferencia de Genotipos Faltantes Raschia, Maria Agustina Rios, Pablo Javier Cordoba, Marcela Elisabet Caffaro, María Eugenia Donzelli, María Valeria Maizon, Daniel Omar Demitrio, Daniel Arturo Poli, Mario Andres Imputación de genotipos faltantes mediante algoritmos de machine learning = Imputation of missing genotypes using machine learning algorithms |
| title | Imputación de genotipos faltantes mediante algoritmos de machine learning = Imputation of missing genotypes using machine learning algorithms |
| title_full | Imputación de genotipos faltantes mediante algoritmos de machine learning = Imputation of missing genotypes using machine learning algorithms |
| title_fullStr | Imputación de genotipos faltantes mediante algoritmos de machine learning = Imputation of missing genotypes using machine learning algorithms |
| title_full_unstemmed | Imputación de genotipos faltantes mediante algoritmos de machine learning = Imputation of missing genotypes using machine learning algorithms |
| title_short | Imputación de genotipos faltantes mediante algoritmos de machine learning = Imputation of missing genotypes using machine learning algorithms |
| title_sort | imputacion de genotipos faltantes mediante algoritmos de machine learning imputation of missing genotypes using machine learning algorithms |
| topic | Algoritmo Aprendizaje Automático Polimorfismo de Nucleótido Único Genotipado Algorithms Machine Learning Single Nucleotide Polymorphisms Genotyping Inferencia de Genotipos Faltantes |
| url | http://hdl.handle.net/20.500.12123/23378 https://revistas.unlp.edu.ar/JAIIO/article/view/19680 |
| work_keys_str_mv | AT raschiamariaagustina imputaciondegenotiposfaltantesmediantealgoritmosdemachinelearningimputationofmissinggenotypesusingmachinelearningalgorithms AT riospablojavier imputaciondegenotiposfaltantesmediantealgoritmosdemachinelearningimputationofmissinggenotypesusingmachinelearningalgorithms AT cordobamarcelaelisabet imputaciondegenotiposfaltantesmediantealgoritmosdemachinelearningimputationofmissinggenotypesusingmachinelearningalgorithms AT caffaromariaeugenia imputaciondegenotiposfaltantesmediantealgoritmosdemachinelearningimputationofmissinggenotypesusingmachinelearningalgorithms AT donzellimariavaleria imputaciondegenotiposfaltantesmediantealgoritmosdemachinelearningimputationofmissinggenotypesusingmachinelearningalgorithms AT maizondanielomar imputaciondegenotiposfaltantesmediantealgoritmosdemachinelearningimputationofmissinggenotypesusingmachinelearningalgorithms AT demitriodanielarturo imputaciondegenotiposfaltantesmediantealgoritmosdemachinelearningimputationofmissinggenotypesusingmachinelearningalgorithms AT polimarioandres imputaciondegenotiposfaltantesmediantealgoritmosdemachinelearningimputationofmissinggenotypesusingmachinelearningalgorithms |