Publication:
Bioinformatic methods for molecular characterization with third generation sequencing : application to antithrombin deficiency

relationships.isAuthorOfPublication
relationships.isSecondaryAuthorOf
relationships.isDirectorOf
Authors
Cuenca Guardiola, Javier
item.page.secondaryauthor
Escuela Internacional de Doctorado
item.page.director
Fernández Breis, Jesualdo Tomás ; Corral de la Calle, Javier
Publisher
Universidad de Murcia
publication.page.editor
publication.page.department
DOI
item.page.type
info:eu-repo/semantics/doctoralThesis
Description
Abstract
Las variantes estructurales (VE) han sido difíciles de estudiar y caracterizar por completo hasta la llegada de la secuenciación de tercera generación. Esta permite detectar VE con precisión en sus coordenadas e información del efecto en la secuencia a nivel genómico, gracias a lecturas más largas. Esta tesis estudia cómo mejorar la detección de VE de distintos tipos con secuenciación de nanoporos, con sus resultados recogidos en un compendio de tres publicaciones científicas indexadas. Durante su desarrollo, se presta especial atención a VE relacionadas con la deficiencia de antitrombina, una enfermedad congénita que aumenta el riesgo de sufrir trombosis. Al tratarse de una enfermedad de herencia mendeliana, normalmente causada por mutaciones en un único gen, supone un excelente punto de partida para el desarrollo de métodos que puedan extenderse posteriormente. Objetivos Los objetivos de la tesis son la detección y caracterización, usando datos de secuenciación con nanoporos, de variantes de número de copias mayores de 50 kilobases, de inserciones y deleciones de elementos trasponibles, así como el estudio del posible impacto funcional de estas dos, y la creación de métodos bioinformáticos reproducibles y reusables. Métodos La metodología general ha consistido en el alineamiento de las lecturas de nanoporo, detección de variantes, unión de los conjuntos de variantes y análisis posteriores específicos, como cálculo de cobertura o la detección de secuencias de elementos trasponibles, además de programas propios creados para el propósito de cada trabajo. Para el alineamiento y detección de variantes se han hecho análisis de desempeño considerando minimap2, lra y NGMLR como alineadores, y Sniffles, Sniffles2, CuteSV, SVIM y NanoVar como detectores de variantes. Para asegurar la reproducibilidad, se ha usado conda para distribuir una herramienta, disCoverage, y Snakemake, para una nueva pipeline, RetroInspector. Resultados Los resultados aparecen en tres publicaciones. Primero, se analiza el rendimiento de la secuenciación de tercera generación con duplicaciones y deleciones de gran tamaño. Tras seleccionar los programas con mejor desempeño, se baja exactitud en los resultados, por lo que se presenta un método para filtrar los resultados de estos programas. Se trata de disCoverage, un programa que analiza la salida de detectores de variantes y filtra grandes mutaciones mediante análisis estadístico de cobertura, aunque no es capaz de detectar variantes por sí mismo. Segundo, se presenta un análisis de inserciones y deleciones de elementos trasponibles a nivel genómico, en el que se investiga la diversidad de estas mutaciones, su impacto funcional y se comparan los resultados con otros estudios. Se discute la viabilidad de la secuenciación por nanoporos para detectar mutaciones patogénicas, aunque no se analiza la presencia de secuencias indicadoras de retrotransposición. Por último, se presenta una herramienta que refina la metodología del segundo artículo, incluyendo el análisis de marcas de transposición, aunque con resultados difíciles de interpretar, y la empaqueta en una pipeline, RetroInspector, de sencilla instalación y ejecución, con ficheros documentados y resúmenes gráficos. La tesis en su conjunto presenta el resultado de una labor investigadora con secuenciación de nanoporos, enmarcada en el estado del arte, presentando nuevos métodos y sus limitaciones, comentadas también como futuro trabajo.
Structural variants (SVs) have been challenging to study and fully characterize until the advent of third-generation sequencing technologies. These technologies, by providing longer reads, enable accurate detection of SVs with precise genomic coordinates and information about their sequence-level effects. This thesis explores how to improve the detection of various types of SVs using nanopore sequencing, with its findings compiled in a compendium of three peer-reviewed scientific publications. Special attention is given to SVs related to antithrombin deficiency, a congenital disorder that increases the risk of thrombosis. As a Mendelian disease typically caused by mutations in a single gene, it serves as an excellent starting point for the development of methods that may later be generalized. Objectives The objectives of this thesis are the detection and characterization, using nanopore sequencing data, of copy number variants larger than 50 kilobases, insertions and deletions of transposable elements, as well as the assessment of their potential functional impact, and the development of reproducible and reusable bioinformatics tools. Methods The general methodology involves alignment of nanopore reads, variant calling, merging of variant sets, and specific downstream analyses such as coverage calculation or transposable element sequence detection. Custom software was also developed for the specific needs of each study. Performance analyses were conducted to compare alignment tools (minimap2, lra, and NGMLR) and variant callers (Sniffles, Sniffles2, CuteSV, SVIM, and NanoVar). To ensure reproducibility, conda was used to distribute a software tool, disCoverage, and Snakemake was employed for workflow management for the pipeline RetroInspector. Results The results are presented across three publications. The first evaluates the performance of third-generation sequencing for detecting large duplications and deletions. After identifying the best-performing tools, low precision was observed, prompting the development of a filtering method. This led to the creation of disCoverage, a program that filters large mutations based on coverage statistics, using the output of variant callers. While not a variant caller itself, it improves result quality. The second publication presents a genome-wide analysis of insertions and deletions of transposable elements, investigating their diversity and functional impact, and comparing the findings to previous studies. The feasibility of using nanopore sequencing to detect pathogenic mutations is discussed, although the presence of retrotransposition hallmarks is not analyzed. Finally, the third publication introduces a tool that refines the methodology from the second study, incorporating the detection of transposition signatures, though with results that are difficult to interpret, and packages the process into an easy-to-use pipeline, RetroInspector, featuring documented output files and graphical summaries. Overall, this thesis presents a body of research grounded in the state of the art in nanopore sequencing, offering new methodological approaches alongside a critical discussion of their limitations and future directions. Nanopore sequencing proves to be a powerful tool for studying SVs, surpassing previous technologies in resolution and insight.
publication.page.subject
Citation
item.page.embargo
1-ene-2999
Collections