Publication:
Syntactic analysis with Natural Language Processing using large language models

relationships.isAuthorOfPublication
relationships.isSecondaryAuthorOf
relationships.isDirectorOf
Authors
Francisco José Cortés Delgado
item.page.secondaryauthor
Facultad de Informática
item.page.director
Eduardo Martínez Graciá ; Rafael Valencia García
Publisher
publication.page.editor
Description
Abstract
This document presents an approach for automatic constituency parsing of Spanish sentences based on fine-tuning Large Language Models like Bloom or GPT2 using the seq2seq approach. Furthermore, it aims to ensure the widespread accessibility of this system. To achieve this, we use the AmazonWeb Services platform for hosting and distribution. The successful completion of this project will benefit MiSintaxis [18] application, thus providing quality education to its thousands of users worldwide. In this project, we initially delve into the history of Spanish grammar studies, exploring its components and the methodologies employed in teaching it at the elementary and secondary education levels. This analysis serves as a foundational understanding, informing the subsequent stages of our research and development. Subsequently, we present a review of the state-of-the-art developments in Natural Language Modeling and Parsing. We traverse the history of Neural Networks and their application in the realm of Natural Language Modeling, discussing the evolution of various architectures that laid the foundation for the advent of Transformers. We meticulously explore the intricacies of Transformer architecture, focusing on the critical elements that propelled the success of Large Language Models. In addition, we introduce the Hugging Face ecosystem, a notable platform that fosters the accessibility and usability of these advanced models. We also shed light on traditional parsing algorithms, delineating their role and significance in the broader context of language parsing. Using an automatic process, we converted the Spanish AnCora corpus using our grammar notation based on the recommendations of the Nueva gramática BÁSICA de la lengua española [15]. This process resulted in a Spanish corpus comprising 500,000 words spread across 17,300 sentences, thus encompassing the entirety of AnCora. We fine tuned Hugging Face models bloom-560m, bloom-1b1, gpt2-base-bne and gpt2-larg-bne with this customized corpus and compared them using the F1 metric over the test dataset from the Ancora corpus, obtaining the following scores: 0.8141 for gpt2-larg-bne, 0.7939 for bloom- 560m, 0.7790 for bloom-1b1, 0.7234 for gpt2-base-bne. With a simplified test dataset that we called the Argos dataset, we obtain the following F1 scores: 0.9123 for bloom-1b1, 0.8642 for bloom-560m, 0.8321 for gpt2-larg-bne, 0.8190 for gpt2-base-bne. Finally, we present Amazon Web Services and how to deploy a large language
Este trabajo fin de grado aborda el análisis sintáctico automático de frases en español reentrenando grandes modelos del lenguaje como Bloom o GPT2, tomando un enfoque secuencia a secuencia como el usado en procesos de traducción entre idiomas. Además, en este trabajo tratamos no solo de abrir una nueva línea de investigación en la tarea del análisis sintáctico, en concreto en el análisis de constituyentes, sino que también tratamos de hacer llegar esta herramienta a los miles de usuarios que hoy en día usan nuestra aplicación MiSintaxis [18], que cuenta con más de 70,000 descargas. Para ello se ha realizado un estudio de los distintos servicios que ofrece AmazonWeb Services (AWS), creando la arquitectura basada en microservicios que mejor se adaptaba a nuestro objetivo y realizando además un análisis de costes. En primer lugar, en el proyecto se presenta cómo se ha abordado el estudio de la gramática del español a lo largo de la historia. Se describe, además, la problemática de la enseñanza de la sintaxis, principalmente en España, que dio lugar a que apareciese MiSintaxis. En el trabajo definimos la sintaxis como la parte de la gramática a la que corresponde el análisis de la manera en que las palabras se combinan y se disponen linealmente, así como el de los grupos que forman. Nosotros nos centramos en la parte de la sintaxis conocida como el análisis de constituyentes, donde se identifica la estructura jerárquica de la frase en forma de un árbol en el que un nodo intermedio puede tener múltiples nodos hijos; en las hojas del árbol se encuentran las palabras de la frase. Actualmente, la enseñanza de la sintaxis está incluida dentro de la materia de Lengua Castellana y Literatura de la ESO y Bachillerato, y en los exámenes de acceso a la universidad en España se pide un análisis sintáctico como el que se desarrolla en este trabajo mediante modelos del lenguaje. Los ejercicios incluidos en los libros de texto habitualmente no incluyen una solución que permita al estudiante un estudio autónomo. Por otra parte, la exposición de los contenidos es extensa y a veces trata aspectos complejos sin suficientes ejemplos. Gracias al modelo del lenguaje que se ha entrenado en este trabajo, y a su puesta en producción como microservicio en AWS, los estudiantes tendrán una cantidad infinita de ejemplos. En este proyecto se trata de explicar el estado del arte en la tarea de análisis de constituyentes. Para ello empezamos hablando de n-gramas, útiles en tareas de procesamiento del lenguaje natural (PLN) porque permiten capturar dependencias locales, analizando la frecuencia de aparición de secuencias de n palabras en un corpus. Esto se usa para encontrar relaciones semánticas entre las palabras. Los n-gramas se ven superados por las redes neuronales en la tarea que tratamos de desempeñar. 7
publication.page.subject
Citation
item.page.embargo
Collections