Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10201/121607

Título: Análisis y tipificación de errores lingüísticos para una propuesta de mejora de informes médicos en español
Fecha de publicación: 21-jun-2022
Fecha de defensa / creación: 18-may-2022
Editorial: Universidad de Murcia
Materias relacionadas: CDU::8- Lingüística y literatura::81 - Lingüística y lenguas
Palabras clave: Lingüística computacional
Lingüística
Resumen: El objetivo principal de esta investigación es la detección, análisis y clasificación de errores lingüísticos presentes en informes médicos en español. Los sistemas de corrección automática más actuales y potentes, como las arquitecturas basadas en redes neuronales, requieren grandes conjuntos de datos de entrenamiento para un rendimiento óptimo. Por tanto, debido a la ausencia de corpus de dominio biomédico disponibles, en el procesamiento del lenguaje natural ha ganado importancia la recopilación y generación artificial de errores para el entrenamiento de los sistemas. El desarrollo de una tipología de errores a partir del estudio empírico de un corpus de informes médicos va a permitir añadir nuevos patrones a la generación de errores de forma más exhaustiva y, con ello, la creación de modelos más robustos para el procesamiento de datos en medicina. Para la detección y clasificación de errores se ha analizado un corpus formado por informes médicos reales pertenecientes a cuatro especialidades (urgencias, UCI, cirugía general y psiquiatría), con más de dos millones de tokens. El enfoque metodológico desarrollado ha incluido distintas técnicas de detección y corrección automática, entre las que se encuentran la implementación de un modelo lingüístico basado en n-gramas, la representación vectorial de las palabras del corpus a partir de Word2Vec y el etiquetado gramatical del corpus. Se ha desarrollado una herramienta de cómputo y clasificación de errores, y se ha realizado un análisis cuantitativo y cualitativo de los resultados obtenidos. Los resultados han permitido identificar semejanzas y diferencias entre estas especialidades y han reflejado que la especialidad cuyos informes médicos presentan una mayor tasa de errores es urgencias. La mayoría de las palabras con errores están a distancia de edición 1 de la palabra correcta correspondiente, gran parte de los errores detectados se concentran en un número específico de caracteres y el tipo de error más cometido con una alta incidencia es el de omisión. Muchos de los errores presentan patrones de reproducción consistentes que es posible sistematizar, como la sustitución de caracteres con similitudes fonéticas, los errores provocados por desconocimiento de la norma ortográfica actual y los errores derivados del uso del teclado. En síntesis, esta tesis doctoral pretende ser una contribución al estudio de errores lingüísticos en informes médicos para aportar una base de conocimiento lingüístico a los métodos de detección y corrección existentes para este dominio.
The main purpose of this research is the detection, analysis and classification of linguistic errors in medical reports in Spanish. The most current and powerful automatic correction systems, such as neural network-based architectures, require large training data sets for optimal performance. Therefore, artificial error collection and generation for training systems have gained importance in natural language processing, due to the scarcity of available biomedical domain corpora. The development of an error typology from the empirical study of a corpus of medical reports will make it possible to add new patterns to the generation of errors in a more exhaustive way and the creation of more robust models for data processing in medicine. A corpus made up of real medical reports from four specialties (emergency medicine, ICU, general surgery and psychiatry), with more than two million tokens, has been analyzed for error detection and classification. The methodological approach developed has included different detection and automatic correction techniques, including the implementation of a linguistic model based on n-grams, the vector representation of the corpus words from Word2Vec and the grammatical labeling of the corpus. An error calculation and classification method has been developed, and a quantitative and qualitative analysis of the results obtained has been carried out. The results have made it possible to identify similarities and differences between these specialties and have shown that the specialty with the highest rate of errors in medical reports is emergency medicine. Most of the erroneous words are within one edit distance of the corresponding correct word, and a large part of the errors detected are concentrated in a small number of characters and the most common type of error is omission. Many of the errors have consistent reproduction patterns that can be systematized, such as the substitution of characters with phonetic similarities, errors caused by ignorance of the current orthographic norm, and errors derived from the use of the keyboard. To summarize, this doctoral thesis aims to be a contribution to the study of linguistic errors in medical reports in order to provide a base of linguistic knowledge to the existing detection and correction methods for this domain.
Autor/es principal/es: López Hernández, Jésica
Director/es: Ángela Almela Sánchez-Lafuente
Fernando Molina Molina
Rafael Valencia García
Facultad/Departamentos/Servicios: Escuela Internacional de Doctorado
Forma parte de: Proyecto de investigación
URI: http://hdl.handle.net/10201/121607
Tipo de documento: info:eu-repo/semantics/doctoralThesis
Número páginas / Extensión: 217
Derechos: info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivatives 4.0 Internacional
Matería geográfica: España
Aparece en las colecciones:Artes y Humanidades

Ficheros en este ítem:
Fichero Descripción TamañoFormato 
Jésica López Hernández Tesis Doctoral.pdf1,76 MBAdobe PDFVista previa
Visualizar/Abrir


Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons