Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10201/100987

Título: Modelos de análisis semántico de información y conocimiento genético y genómico para el estudio de enfermedades genéticas y cáncer
Fecha de publicación: 14-ene-2021
Fecha de defensa / creación: 17-nov-2020
Editorial: Universidad de Murcia
Materias relacionadas: CDU::0 - Generalidades.::00 - Ciencia y conocimiento. Investigación. Cultura. Humanidades.::004 - Ciencia y tecnología de los ordenadores. Informática.
Palabras clave: Informática
Genética
Resumen: Un experimento (ChIP-seq) realizado parar estudiar el comportamiento de una proteína de unión al DNA concreta, en una línea celular específica sometida a una condición biológica determinada, consistente en una etapa de inmuno-precipitación de fragmentos de cromatina (ChIP) y su posterior identificación mediante tecnología de secuenciación (seq) con técnicas denominadas Next Generation Sequencing (NGS). Los métodos de análisis de los resultados (regiones enriquecidas o peaks) de este tipo de experimentos, implementados hasta ahora, tienen en común dos características principales: (i) El tratamiento de la incertidumbre que envuelve a dichos resultados mediante el uso de métodos estadísticos basados en modelos dicotómicos. (ii) El tipo de resultados de estos análisis consisten en relacionar un elemento funcional (gen, término Gene Ontology, rutas metabólicas) a un p-value calculado mediante un test de enriquecimiento. Objetivos El objetivo principal de esta tesis es el diseño, implementación y evaluación de un marco analítico multi-nivel, escalable, flexible, con una sólida base estadística n-dimensional e interpretación matemática, basado en la elaboración de unos modelos de conocimiento que proporcionan la semántica y estructura necesaria para tratar la numerosa, heterogéna y compleja información genómica y biológica existente. Con el fin de evaluar el comportamiento a escala genómica de la proteína en estudio. Para poder conseguir esto, los objetivos secundarios definidos son: (i) Abordar la incertidumbre que acompaña a los resultados de este tipo de experimentos mediante métodos estadísticos, basados en una distribución hipergeométrica multivariada, no utilizados hasta ahora. (ii) Crear estándares de actuación en los análisis y modelos necesarios, con el fin de generar perfiles de referencia que describan una específica terna (proteína, línea celular, condición biológica). (iii) Permitir la comparación, compartición, evaluación e integración de los datos obtenidos de este tipo de experimentos, independientemente de donde se hayan realizado. Metodología Diseño, desarrollo e implementación de los modelos de conocimiento: (i) El Genome Model, que alberga información sobre el genoma en estudio, tanto sobre su estructura (cromosomas, gaps, regiones autosomales,…), como sobre las entidades funcionales que lo componen (genes de varios biotípos, secuencias funcionales como enhancers, insulators,…). (ii) El Gene Model, que alberga información sobre las entidades funcionales que codifican algún producto funcional, ya esta este una proteína, un tRNA, iRNA, etc. (iii) El Functional Model, que alberga información sobre recursos funcionales, tales como rutas metabólicas, términos funcionales, etc. Conversión de los modelos de conocimiento anteriores en modelos probabilísticos, representando una población finita de posibles sitios de unión de la proteína al genoma del organismo en estudio. Diseño de un marco analítico que interrelacione los modelos probabilísticos anteriores con los peaks del experimento mediante un análisis matemático y estandarizado, que determine el comportamiento de la proteína en estudio a diferentes niveles de resolución, como son el Region level, Gene level y Functional level. Validación del marco analítico multi-nivel desarrollado en esta tesis tomando el genoma humano como modelo. Para ello se han tomado de la base de datos pública Remap 2020, 19 experimentos ChIP-seq agrupados en 7 estudios sobre la proteína MYC, en las líneas celulares P493-6 y U2OS. Resultados y Conclusiones Los resultados obtenidos verifican la hipótesis principal de esta tesis, que los peaks obtenidos de un experimento ChIP-seq se pueden modelar como el resultado de un experimento aleatorio que se ajusta a una distribución hipergeométrica multivariada. Proporcionando así un nuevo marco de análisis sobre este tipo de experimentos. El cual minimiza los efectos de la incertidumbre que acompaña a los resultados de dichos experimentos, generando nueva información y conocimiento sobre el comportamiento de la proteína en estudio, desde perspectivas innovadoras y diferentes a las utilizadas hasta la fecha.
An experiment (ChIP-seq) conducted to study the behavior of a specific DNA-binding protein in a specific cell line under a given biological condition, consisting of an immuno-precipitation stage of chromatin fragments (ChIP) and their subsequent identification by sequencing technology (seq) with techniques called Next Generation Sequencing (NGS). The methods of analysis of the results (enriched regions or peaks) of this type of experiments, implemented so far, have in common two main characteristics: (i) The treatment of the uncertainty involved in these results through the use of statistical methods based on dichotomous models. (ii) The type of results of these analyses consist of relating a functional element (gene, Gene Ontology term, metabolic pathways) to a p-value calculated by means of an enrichment test. Objectives The main objective of this thesis is the design, implementation and evaluation of a multi-level analytical framework, scalable, flexible, with a solid n-dimensional statistical basis and mathematical interpretation, based on the elaboration of knowledge models that provide the semantics and structure necessary to deal with the numerous, heterogeneous and complex existing genomic and biological information. In order to evaluate the behavior on a genomic scale of the protein under study. In an attempt to achieve this, the secondary objectives defined are: (i) To address the uncertainty that accompanies the results of this type of experiment through statistical methods, based on a multivariate hypergeometric distribution, not used until now. (ii) Create standards of performance in the necessary analyses and models, in order to generate reference profiles that describe a specific terna (protein, cell line, biological condition). (iii) To allow the comparison, sharing, evaluation and integration of data obtained from these types of experiments, regardless of where they were conducted. Methodology Design, development and implementation of knowledge models: (i) The Genome Model, which houses information on the genome under study, both on its structure (chromosomes, gaps, autosomal regions...), and on the functional entities that compose it (genes from various biotypes, functional sequences such as enhancers, insulators...). (ii) The Gene Model, which houses information about the functional entities that encode some functional product, whether it is a protein, tRNA, rRNA, etc. (iii) The Functional Model, which houses information on functional resources, such as metabolic pathways, functional terms, etc. Conversion of previous knowledge models into probabilistic models, representing a finite population of possible binding sites of the protein to the genome of the organism under study. Design of an analytical framework that interrelates the previous probabilistic models with the "peaks" of the experiment through a mathematical and standardized analysis, which determines the behavior of the protein under study at different levels of resolution, such as the Region level, Gene level and Functional level. Validation of the multilevel analytical framework developed in this thesis taking the human genome as a model. For this purpose, 19 ChIP-seq experiments have been taken from the Remap 2020 public database, grouped in 7 studies on the MYC protein, in the P493-6 and U2OS cell lines. Results and Conclusions The results obtained verify the main hypothesis of this thesis, that the peaks obtained from a ChIP-seq experiment can be modeled as the result of a random experiment fitting a multivariate hypergeometric distribution. Thus providing a new framework of analysis on this type of experiments. Which minimizes the effects of the uncertainty that accompanies the results of these experiments, generating new information and knowledge about the behavior of the protein under study, from innovative perspectives and different from those used to date.
Autor/es principal/es: Almagro Hernández, Ginés
Director/es: Fernández Breis, Jesualdo Tomás
Facultad/Departamentos/Servicios: Escuela Internacional de Doctorado
Forma parte de: Proyecto de investigación:
URI: http://hdl.handle.net/10201/100987
Tipo de documento: info:eu-repo/semantics/doctoralThesis
Número páginas / Extensión: 462
Derechos: info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivatives 4.0 International
Aparece en las colecciones:Ingeniería

Ficheros en este ítem:
Fichero Descripción TamañoFormato 
Ginés Almagro Hernández Tesis Doctoral.pdf25,12 MBAdobe PDFVista previa
Visualizar/Abrir


Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons