Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10201/122423

Título: Linguistic features integration for text classification tasks in Spanish
Otros títulos: Integración de características lingüísticas para tareas de clasificación de textos en español
Fecha de publicación: 5-jul-2022
Fecha de defensa / creación: 5-jul-2022
Editorial: Universidad de Murcia
Materias relacionadas: CDU::0 - Generalidades.::00 - Ciencia y conocimiento. Investigación. Cultura. Humanidades.::004 - Ciencia y tecnología de los ordenadores. Informática.
Palabras clave: Informática Inteligencia artificial
Inteligencia artificial
Resumen: Objetivos En esta tesis doctoral se analizan dos hipótesis principales. Por un lado, que la inclusión de características lingüísticas capaces de capturar rasgos de los autores mejora el desempeño de los sistemas de clasificación automática (RH1) y que, por otro lado, estas características lingüísticas mejoran la interpretabilidad de los modelos resultantes (RH2). A continuación, se listan los objetivos específicos de esta investigación. • OB1. Obtención de una taxonomía de las diferentes características lingüísticas del español. • OB2. El desarrollo de la herramienta UMUTextStats y del léxico relacionado con cada característica dentro de la taxonomía. • OB3. El desarrollo de la herramienta UMUCorpusClassifier para la compilación y anotación de corpus en español. • OB4. Validación de la herramienta UMUTextStats en diferentes dominios. • OB5. Recopilación y anotación de corpus lingüísticos en español para realizar tareas de clasificación automática de textos en diferentes dominios. Metodología A continuación, se describe la metodología seguida. En primer lugar, se desarrolló un estudio de herramientas similares a las que se quería construir. En concreto, LIWC es la herramienta de facto para la extracción de características en español. De esta herramienta, se identificaron una serie de carencias, tales como que ciertas características del español no estaban contempladas. En segundo lugar, se propuso una taxonomía de clasificación de las características lingüísticas en las diferentes categorías: fonética, morfosintaxis, corrección y estilo, semántica, pragmática, estilometría, léxico, y uso del lenguaje en redes sociales. En tercer lugar, se desarrolló la herramienta UMUTextStats, se compilaron los diccionarios para cada dimensión y se desarrollaron clases software para cada tipo de característica lingüística. En cuarto lugar, se construyó la herramienta UMUCorpusClassifier, que sirve para compilar y etiquetar corpus lingüísticos de manera automática o semiautomática. Finalmente, se emplearon las características obtenidas para construir sistemas de clasificación automática para tareas de análisis de sentimientos, análisis de emociones, perfilado de autores y detección de la sátira, entre otras tareas. Resultados Cumplir con los objetivos marcados en esta tesis doctoral ha permitido publicar nuestras propuestas y resultados en revistas científicas de alto impacto, además de poder participar en congresos y conferencias internacionales. Los principales resultados obtenidos se presentan en esta tesis doctoral como compendio. • García-Díaz, J. A., Cánovas-García, M., & Valencia-García, R. (2020). Ontology-driven aspect-based sentiment analysis classification: An infodemiological case study regarding infectious diseases in Latin America. Future Generation Computer Systems, 112, 641-657. • García-Díaz, J. A., Cánovas-García, M., Colomo-Palacios, R., & Valencia-García, R. (2021). Detecting misogyny in Spanish tweets. An approach based on linguistics features and word embeddings. Future Generation Computer Systems, 114, 506-518. • García-Díaz, J. A., Colomo-Palacios, R., & Valencia-García, R. (2022). Psychographic traits identification based on political ideology: An author analysis study on Spanish politicians’ tweets posted in 2020. Future Generation Computer Systems, 130, 59-74. • García-Díaz, J. A., & Valencia-García, R. (2022). Compilation and evaluation of the Spanish SatiCorpus 2021 for satire identification using linguistic features and transformers. Complex & Intelligent Systems, 1-14. Además de la publicación de estos trabajos en revistas de impacto, las características lingüísticas han sido evaluadas en workshops internacionales, tales como IberLEF, SemEval, o FIRE. En estas competiciones, las características lingüísticas han sido evaluadas tanto de manera aislada como combinadas con modelos del estado de la técnica, consiguiendo resultados competitivos en casi todas las tareas. Conclusiones Durante esta tesis doctoral hemos mostrado el desarrollo y evaluación de un conjunto de características lingüísticas en español que han probado su efectividad en tareas de clasificación automática. Estas características se pueden extraer con la herramienta UMUTextStats. La idea principal de esta tesis es que estas características se pueden incorporar a modelos de aprendizaje computacional mejorando, por un lado, su desempeño y, por otro lado, su interpretabilidad. La primera hipótesis se ha demostrado evaluando las características lingüísticas de UMUTextStats en distintos experimentos que se adjuntan como compendio de esta tesis, así como la participación en distintas competiciones internacionales, donde hemos obtenido resultados muy competitivos. Para la segunda hipótesis, obtuvimos para cada experimento la correlación entre las características lingüísticas con las etiquetas de los datasets, analizando el por qué y cuáles son las características más relevantes en dominios como la infodemiología, la identificación de misoginia, el discurso de odio, o perfilado de autores. Aunque los resultados han sido satisfactorios y prometedores, continuaremos mejorando los diccionarios y el desempeño de cada una de las características lingüísticas, así como traduciendo y adaptando la herramienta a otros idiomas tales como al inglés.
Objectives We define the following research hypotheses concerning the inclusion of linguistic features in automatic classification systems: (RH1) The inclusion of linguistic features improves the performance of automatic text classification systems in Spanish, and (RH2) The inclusion of linguistic features can provide interpretability to the models. To accomplish the research hypotheses, we define the following objectives: • OB1. Obtaining a taxonomy of the different linguistic features of Spanish. • OB2. The development of the UMUTextStats tool and the related lexicons for each feature within the taxonomy. • OB3. The development of the UMUCorpusClassifier tool for the compilation and annotation of Spanish corpora. • OB4. Validation of the UMUTextStats tool in different scenarios. • OB5. Compilation and annotation of linguistic corpora in Spanish to conduct automatic document classification in different domains. Methodology The methodology followed is described below. First, a study of tools like those that were intended to be built was developed. Specifically, LIWC is the de facto tool for feature extraction in Spanish. In this tool, a series of shortcomings were identified, such as the fact that certain characteristics of Spanish were not contemplated. Second, a taxonomy for classifying linguistic features in different categories was proposed: phonetics, morphosyntax, correction and style, semantics, pragmatics, stylometry, lexis, and social media jargon. Third, the UMUTextStats tool was developed, the dictionaries for each dimension were compiled, and software classes were developed for each type of linguistic feature. Fourth, the UMUCorpusClassifier tool was built, which is used to compile and label linguistic corpora automatically or semi-automatically. Finally, the features obtained were used to build automatic classification systems for sentiment analysis, emotion analysis, author profiling, and satire detection tasks, among other tasks. Results Meeting the objectives set in this doctoral thesis has allowed us to publish our methods and results in high-impact scientific journals, as well as being able to participate in international congresses and conferences. The main results obtained are presented in this doctoral thesis as a compendium. • García-Díaz, J. A., Cánovas-García, M., & Valencia-García, R. (2020). Ontology-driven aspect-based sentiment analysis classification: An infodemiological case study regarding infectious diseases in Latin America. Future Generation Computer Systems, 112, 641-657. • García-Díaz, J. A., Cánovas-García, M., Colomo-Palacios, R., & Valencia-García, R. (2021). Detecting misogyny in Spanish tweets. An approach based on linguistics features and word embeddings. Future Generation Computer Systems, 114, 506-518. • García-Díaz, J. A., Colomo-Palacios, R., & Valencia-García, R. (2022). Psychographic traits identification based on political ideology: An author analysis study on Spanish politicians’ tweets posted in 2020. Future Generation Computer Systems, 130, 59-74. • García-Díaz, J. A., & Valencia-García, R. (2022). Compilation and evaluation of the Spanish SatiCorpus 2021 for satire identification using linguistic features and transformers. Complex & Intelligent Systems, 1-14. This apart, we describe the participation in different international workshops, such as IberLEF, SemEval, or FIRE, in which we evaluate the linguistic features separately and combined with Transformers and traditional machine-learning methods. In these shared tasks, we have achieved competitive results in almost all of them. These tasks involve hate-speech detection, emotion analysis, humour detection or source-code profiling, among others. Conclusions In this doctoral thesis, we have shown the development and evaluation of a set of linguistic features for Spanish that have proven to be effective in automatic classification tasks. These features are extracted with UMUTextStats, a tool that has been developed during this doctoral thesis and that is available for the research community. Specifically, two research hypotheses were raised during this thesis. First, if the inclusion of the linguistic features improves the performance of automatic text classification systems in Spanish, and second, if the inclusion of linguistic features can provide interpretability to the models. For the first research hypothesis we have shown that the linguistic features can be combined easily with state-of-the-art Transformers or traditional machine-learning models, outperforming the results achieved separately. It is worth mentioning that the performance of the linguistic features depends considerably on the task and the domain applied. For the second research hypothesis, we have obtained the correlation with the Mutual Information measure of the linguistic features with the target class in several domains, including infodemiology, hate-speech and misogyny detection, or emotion analysis, to name but a few. For instance, we found a strong correlation between lexical and morphosyntactic features in author profiling, whereas these kinds of features were less important for conducting authorship attribution. However, stylometric features are more relevant for this task. We will continue with the development and validation of UMUTextStats for different languages and domains. We are currently adapting the taxonomy for English and other languages. We expect that the release of the tool to the scientific community make it easier to validate and extend this tool. Besides, we are planning to facilitate the integration of this tool with other NLP tools apart from Stanza. We expect to make it easier to combine and use other NER and PoS models that extend the number of available labels.
Autor/es principal/es: García Díaz, José Antonio
Director/es: Valencia-García, Rafael
Facultad/Departamentos/Servicios: Escuela Internacional de Doctorado
Forma parte de: Proyecto de investigación
URI: http://hdl.handle.net/10201/122423
Tipo de documento: info:eu-repo/semantics/doctoralThesis
Número páginas / Extensión: 107
Derechos: info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivatives 4.0 Internacional
Aparece en las colecciones:Ingeniería

Ficheros en este ítem:
Fichero Descripción TamañoFormato 
tesis-doctoral-joseantonio-garcia-diaz - SIN ARTÍCULOS-.pdf2,52 MBAdobe PDFVista previa
Visualizar/Abrir


Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons